Скрытое квантование моделей на OpenRouter: разбор на примере GLM-5.2 | AiManual
AiManual Logo Ai / Manual.
23 Июн 2026 Новости

Дешевые API-модели на OpenRouter: скрытое квантование и экономика на примере GLM-5.2

Почему дешёвые модели на OpenRouter могут быть квантованы? Разбираем экономику FP8, H200 и реальную цену качества на примере GLM-5.2.

Реклама
partv1

Вы замечали, что некоторые модели на OpenRouter стоят подозрительно дёшево? В два-три раза дешевле прямых конкурентов с сопоставимыми бенчмарками. Чудо? Или подвох? Чаще всего — второе. Добро пожаловать в мир скрытого квантования, где провайдеры экономят на железе, а вы — на качестве, сами того не замечая.

Разберём на конкретном примере — GLM-5.2. Модель от Zhipu AI, которая ворвалась в топ OpenRouter с ценой около $0.15 за миллион входных токенов. Это в три раза дешевле Llama 3.1 70B и почти в пять — GPT-4o mini. Как? Секрет в точности, которая достигается не только архитектурой, но и форматом чисел.

Сколько вешать в гигафлопсах

У каждого провайдера есть выбор: запускать модель в FP16 (половинная точность) или в FP8/INT4 (квантованная). FP16 даёт максимум качества, но требует больше памяти H200 и выше задержки. FP8 позволяет уместить ту же модель на вдвое меньшем количестве GPU или крутить в два раза больше запросов. Разница на практике — 1-3% по бенчмаркам, которые вы, скорее всего, не заметите в диалоге.

Провайдеры не обязаны сообщать, в какой разрядности они хостит модель. OpenRouter не проверяет это автоматически. Итог: вы платите за "модель Х", а получаете "модель Х (квантованную)". Разница в цене — до 4 раз.

По данным ModelGrep, почти 40% дешёвых инстансов на OpenRouter работают на квантованных версиях. ModelGrep умеет фильтровать провайдеров по "квантованию" — пользуйтесь этим.

GLM-5.2: гениальный ход или маркетинг?

Вот что мы знаем: GLM-5.2 заявляет эффективность 98% от эталонного качества при вдвое меньшем потреблении токенов. Звучит как магия. На деле — китайцы оптимизировали не только модель, но и инфраструктуру. Скорее всего, на OpenRouter она хостится в FP8. И это нормально — если цена соответствует. Проблема в том, что некоторые провайдеры продают квантованную версию по цене FP16.

МодельПровайдерЦена за входные токены ($/M)Формат (предполагаемый)
GLM-5.2DeepInfra$0.15FP8
GLM-5.2Together$0.28FP16
Llama 3.1 70BGroq$0.59FP16
Qwen 2.5 72BFireworks$0.90FP16

Разница в цене между тем же GLM-5.2 у DeepInfra ($0.15) и Together ($0.28) — почти вдвое. Если DeepInfra использует FP8, а Together FP16, то Together честнее. Но DeepInfra выигрывает по скорости и цене. Вопрос: готовы ли вы пожертвовать одним-двумя процентами качества ради экономии в три раза?

Экономика H200 и тайна FP8

Один H200 стоит около $30 000. В FP16 он тянет модель 70B с контекстом 32K. В FP8 — уже 128K или две параллельные 70B. Провайдеру выгоднее квантовать: меньше железа, больше клиентов. В статье про API vs локальные модели мы считали, что аренда GPU может окупаться при нагрузке >50 запросов в минуту. Для квантованных моделей порог снижается до 20.

Но есть нюанс: некоторые провайдеры квантуют не всю модель, а только отдельные слои. Получается "гибридный" режим — часть весов в FP16, часть в INT4. Пользователь видит benchmark на уровне оригинала, а скорость выше в полтора раза. Парето-фронт LLM в 2026 наглядно показывает: квантованные модели образуют отдельную "линию дешёвого качества".

Совет: если вам нужно стабильное качество (код, юриспруденция, медицина) — не экономьте. Ищите провайдера, который честно указывает FP16. Для болтовни, креативного письма или черновиков — FP8 более чем достаточно.

Как ловить провайдеров на квантовании

Универсального детектора нет, но есть косвенные признаки:

  • Цена ниже $0.20/M для 70B модели — красный флаг.
  • Задержка ответа слишком низкая для такого размера модели (менее 1 сек на 500 токенов).
  • На сложных задачах (математика, логика) ответы становятся менее точными.

Лучший инструмент — ModelGrep. Он агрегирует данные с OpenRouter и Artificial Analysis, позволяя отфильтровать по формату. Или используйте AI Gateway с автоматическим A/B тестированием — сравните поведение модели на дешёвом и дорогом провайдере.

Итоговая арифметика

Скрытое квантование — не зло. Это рыночный механизм. OpenRouter стал бенефициаром этой серой зоны: платформа зарабатывает на транзакциях, провайдеры — на перепродаже квантованного железа. Пользователь получает дешёвый доступ к open-source моделям. Если вы умеете выбирать — вы в выигрыше.

Посмотрите на рейтинг OpenRouter: почти все модели в топ-4 — open-weight. Открытые модели вытеснили проприетарных гигантов. В этом мире дешевизна достигается не только открытым кодом, но и квантованием. И это нормально — пока вы понимаете, за что платите.

Мой прогноз: к концу 2026 года OpenRouter введёт маркировку "квантованная модель" — иначе потеряет доверие serious-юзеров. Но пока — используйте ModelGrep, сравнивайте провайдеров и не ведитесь на слепую дешевизну. GLM-5.2 — отличный тестовый полигон. Запустите его на двух провайдерах с разной ценой и посмотрите на разницу в ответах. Спойлер: она есть.

Подписаться на канал