Вы замечали, что некоторые модели на OpenRouter стоят подозрительно дёшево? В два-три раза дешевле прямых конкурентов с сопоставимыми бенчмарками. Чудо? Или подвох? Чаще всего — второе. Добро пожаловать в мир скрытого квантования, где провайдеры экономят на железе, а вы — на качестве, сами того не замечая.
Разберём на конкретном примере — GLM-5.2. Модель от Zhipu AI, которая ворвалась в топ OpenRouter с ценой около $0.15 за миллион входных токенов. Это в три раза дешевле Llama 3.1 70B и почти в пять — GPT-4o mini. Как? Секрет в точности, которая достигается не только архитектурой, но и форматом чисел.
Сколько вешать в гигафлопсах
У каждого провайдера есть выбор: запускать модель в FP16 (половинная точность) или в FP8/INT4 (квантованная). FP16 даёт максимум качества, но требует больше памяти H200 и выше задержки. FP8 позволяет уместить ту же модель на вдвое меньшем количестве GPU или крутить в два раза больше запросов. Разница на практике — 1-3% по бенчмаркам, которые вы, скорее всего, не заметите в диалоге.
Провайдеры не обязаны сообщать, в какой разрядности они хостит модель. OpenRouter не проверяет это автоматически. Итог: вы платите за "модель Х", а получаете "модель Х (квантованную)". Разница в цене — до 4 раз.
По данным ModelGrep, почти 40% дешёвых инстансов на OpenRouter работают на квантованных версиях. ModelGrep умеет фильтровать провайдеров по "квантованию" — пользуйтесь этим.
GLM-5.2: гениальный ход или маркетинг?
Вот что мы знаем: GLM-5.2 заявляет эффективность 98% от эталонного качества при вдвое меньшем потреблении токенов. Звучит как магия. На деле — китайцы оптимизировали не только модель, но и инфраструктуру. Скорее всего, на OpenRouter она хостится в FP8. И это нормально — если цена соответствует. Проблема в том, что некоторые провайдеры продают квантованную версию по цене FP16.
| Модель | Провайдер | Цена за входные токены ($/M) | Формат (предполагаемый) |
|---|---|---|---|
| GLM-5.2 | DeepInfra | $0.15 | FP8 |
| GLM-5.2 | Together | $0.28 | FP16 |
| Llama 3.1 70B | Groq | $0.59 | FP16 |
| Qwen 2.5 72B | Fireworks | $0.90 | FP16 |
Разница в цене между тем же GLM-5.2 у DeepInfra ($0.15) и Together ($0.28) — почти вдвое. Если DeepInfra использует FP8, а Together FP16, то Together честнее. Но DeepInfra выигрывает по скорости и цене. Вопрос: готовы ли вы пожертвовать одним-двумя процентами качества ради экономии в три раза?
Экономика H200 и тайна FP8
Один H200 стоит около $30 000. В FP16 он тянет модель 70B с контекстом 32K. В FP8 — уже 128K или две параллельные 70B. Провайдеру выгоднее квантовать: меньше железа, больше клиентов. В статье про API vs локальные модели мы считали, что аренда GPU может окупаться при нагрузке >50 запросов в минуту. Для квантованных моделей порог снижается до 20.
Но есть нюанс: некоторые провайдеры квантуют не всю модель, а только отдельные слои. Получается "гибридный" режим — часть весов в FP16, часть в INT4. Пользователь видит benchmark на уровне оригинала, а скорость выше в полтора раза. Парето-фронт LLM в 2026 наглядно показывает: квантованные модели образуют отдельную "линию дешёвого качества".
Совет: если вам нужно стабильное качество (код, юриспруденция, медицина) — не экономьте. Ищите провайдера, который честно указывает FP16. Для болтовни, креативного письма или черновиков — FP8 более чем достаточно.
Как ловить провайдеров на квантовании
Универсального детектора нет, но есть косвенные признаки:
- Цена ниже $0.20/M для 70B модели — красный флаг.
- Задержка ответа слишком низкая для такого размера модели (менее 1 сек на 500 токенов).
- На сложных задачах (математика, логика) ответы становятся менее точными.
Лучший инструмент — ModelGrep. Он агрегирует данные с OpenRouter и Artificial Analysis, позволяя отфильтровать по формату. Или используйте AI Gateway с автоматическим A/B тестированием — сравните поведение модели на дешёвом и дорогом провайдере.
Итоговая арифметика
Скрытое квантование — не зло. Это рыночный механизм. OpenRouter стал бенефициаром этой серой зоны: платформа зарабатывает на транзакциях, провайдеры — на перепродаже квантованного железа. Пользователь получает дешёвый доступ к open-source моделям. Если вы умеете выбирать — вы в выигрыше.
Посмотрите на рейтинг OpenRouter: почти все модели в топ-4 — open-weight. Открытые модели вытеснили проприетарных гигантов. В этом мире дешевизна достигается не только открытым кодом, но и квантованием. И это нормально — пока вы понимаете, за что платите.
Мой прогноз: к концу 2026 года OpenRouter введёт маркировку "квантованная модель" — иначе потеряет доверие serious-юзеров. Но пока — используйте ModelGrep, сравнивайте провайдеров и не ведитесь на слепую дешевизну. GLM-5.2 — отличный тестовый полигон. Запустите его на двух провайдерах с разной ценой и посмотрите на разницу в ответах. Спойлер: она есть.