Что такое скрытое квантование на OpenRouter?

Это использование провайдерами моделей с пониженной точностью (FP8, INT4) вместо стандартной FP16, что снижает стоимость инференса, но может незначительно ухудшать качество. Провайдеры не обязаны сообщать об этом пользователю.

Как проверить, квантована ли модель на OpenRouter?

Используйте ModelGrep (фильтр по формату), Artificial Analysis или A/B тестирование через AI Gateway. Косвенные признаки: цена ниже $0.20/M для 70B модели, слишком низкая задержка, ухудшение логики на сложных задачах.

Стоит ли использовать GLM-5.2 в квантованном виде?

Да, если задача не требует высокой точности (болтовня, креатив, черновики). Для кода, медицины, юриспруденции лучше выбирать провайдера с FP16. Разница в цене может достигать 3-5 раз.

Скрытое квантование моделей на OpenRouter: разбор на примере GLM-5.2

Вы замечали, что некоторые модели на OpenRouter стоят подозрительно дёшево? В два-три раза дешевле прямых конкурентов с сопоставимыми бенчмарками. Чудо? Или подвох? Чаще всего — второе. Добро пожаловать в мир скрытого квантования, где провайдеры экономят на железе, а вы — на качестве, сами того не замечая.

Разберём на конкретном примере — GLM-5.2. Модель от Zhipu AI, которая ворвалась в топ OpenRouter с ценой около $0.15 за миллион входных токенов. Это в три раза дешевле Llama 3.1 70B и почти в пять — GPT-4o mini. Как? Секрет в точности, которая достигается не только архитектурой, но и форматом чисел.

Сколько вешать в гигафлопсах

У каждого провайдера есть выбор: запускать модель в FP16 (половинная точность) или в FP8/INT4 (квантованная). FP16 даёт максимум качества, но требует больше памяти H200 и выше задержки. FP8 позволяет уместить ту же модель на вдвое меньшем количестве GPU или крутить в два раза больше запросов. Разница на практике — 1-3% по бенчмаркам, которые вы, скорее всего, не заметите в диалоге.

Провайдеры не обязаны сообщать, в какой разрядности они хостит модель. OpenRouter не проверяет это автоматически. Итог: вы платите за "модель Х", а получаете "модель Х (квантованную)". Разница в цене — до 4 раз.

По данным ModelGrep, почти 40% дешёвых инстансов на OpenRouter работают на квантованных версиях. ModelGrep умеет фильтровать провайдеров по "квантованию" — пользуйтесь этим.

GLM-5.2: гениальный ход или маркетинг?

Вот что мы знаем: GLM-5.2 заявляет эффективность 98% от эталонного качества при вдвое меньшем потреблении токенов. Звучит как магия. На деле — китайцы оптимизировали не только модель, но и инфраструктуру. Скорее всего, на OpenRouter она хостится в FP8. И это нормально — если цена соответствует. Проблема в том, что некоторые провайдеры продают квантованную версию по цене FP16.

Модель	Провайдер	Цена за входные токены ($/M)	Формат (предполагаемый)
GLM-5.2	DeepInfra	$0.15	FP8
GLM-5.2	Together	$0.28	FP16
Llama 3.1 70B	Groq	$0.59	FP16
Qwen 2.5 72B	Fireworks	$0.90	FP16

Разница в цене между тем же GLM-5.2 у DeepInfra ($0.15) и Together ($0.28) — почти вдвое. Если DeepInfra использует FP8, а Together FP16, то Together честнее. Но DeepInfra выигрывает по скорости и цене. Вопрос: готовы ли вы пожертвовать одним-двумя процентами качества ради экономии в три раза?

Экономика H200 и тайна FP8

Один H200 стоит около $30 000. В FP16 он тянет модель 70B с контекстом 32K. В FP8 — уже 128K или две параллельные 70B. Провайдеру выгоднее квантовать: меньше железа, больше клиентов. В статье про API vs локальные модели мы считали, что аренда GPU может окупаться при нагрузке >50 запросов в минуту. Для квантованных моделей порог снижается до 20.

Но есть нюанс: некоторые провайдеры квантуют не всю модель, а только отдельные слои. Получается "гибридный" режим — часть весов в FP16, часть в INT4. Пользователь видит benchmark на уровне оригинала, а скорость выше в полтора раза. Парето-фронт LLM в 2026 наглядно показывает: квантованные модели образуют отдельную "линию дешёвого качества".

Совет: если вам нужно стабильное качество (код, юриспруденция, медицина) — не экономьте. Ищите провайдера, который честно указывает FP16. Для болтовни, креативного письма или черновиков — FP8 более чем достаточно.

Как ловить провайдеров на квантовании

Универсального детектора нет, но есть косвенные признаки:

Цена ниже $0.20/M для 70B модели — красный флаг.
Задержка ответа слишком низкая для такого размера модели (менее 1 сек на 500 токенов).
На сложных задачах (математика, логика) ответы становятся менее точными.

Лучший инструмент — ModelGrep. Он агрегирует данные с OpenRouter и Artificial Analysis, позволяя отфильтровать по формату. Или используйте AI Gateway с автоматическим A/B тестированием — сравните поведение модели на дешёвом и дорогом провайдере.

Итоговая арифметика

Скрытое квантование — не зло. Это рыночный механизм. OpenRouter стал бенефициаром этой серой зоны: платформа зарабатывает на транзакциях, провайдеры — на перепродаже квантованного железа. Пользователь получает дешёвый доступ к open-source моделям. Если вы умеете выбирать — вы в выигрыше.

Посмотрите на рейтинг OpenRouter: почти все модели в топ-4 — open-weight. Открытые модели вытеснили проприетарных гигантов. В этом мире дешевизна достигается не только открытым кодом, но и квантованием. И это нормально — пока вы понимаете, за что платите.

Мой прогноз: к концу 2026 года OpenRouter введёт маркировку "квантованная модель" — иначе потеряет доверие serious-юзеров. Но пока — используйте ModelGrep, сравнивайте провайдеров и не ведитесь на слепую дешевизну. GLM-5.2 — отличный тестовый полигон. Запустите его на двух провайдерах с разной ценой и посмотрите на разницу в ответах. Спойлер: она есть.

Подписаться на канал

Дешевые API-модели на OpenRouter: скрытое квантование и экономика на примере GLM-5.2

Сколько вешать в гигафлопсах

GLM-5.2: гениальный ход или маркетинг?

Экономика H200 и тайна FP8

Как ловить провайдеров на квантовании

Итоговая арифметика

Подписывайтесь на наш канал!