После провала — надежда

Помните историю с GLM 5, который слил на европейских языках? А потом вышел GLM 5.1 и неожиданно выстрелил в агентских задачах? Теперь THUDM (Zhipu AI) выкатывает GLM 5.2. И снова громкие заявления. Но фокус смещен с "умнее всех" на "эффективнее всех". 98% сохранения качества при вдвое меньшем числе токенов. Звучит как сказка? Давайте разбираться.

GLM 5.2 — это не просто очередная версия. Это попытка доказать, что китайская модель может быть не только дешевой, но и качественной. Главная фишка — новый алгоритм сжатия токенов, который обещает сократить расходы на инференс без потери точности.

Что за зверь и как работает его магия

Эффективность 98% — это не проценты точности на бенчмарках. Это метрика, показывающая, насколько хорошо модель сохраняет качество ответа при использовании техники "токен-экономии". Конкретно: если полная версия GLM 5.2 тратит 1000 токенов на задачу, то сжатая версия укладывается в 500, при этом результат оценивается как 98% от эталонного. Звучит как мечта оператора API.

Как это реализовано? THUDM не раскрывает детали, но по косвенным признакам — это гибридная архитектура: часть слоев заменена на более легкие трансформеры с динамическим маскированием, плюс новый алгоритм кэширования Key-Value. Результат — модель работает в два раза быстрее и жрет вдвое меньше памяти. При этом контекстное окно остается 128K токенов (как у предыдущих версий).

Параметр	GLM 5.2 (полный)	GLM 5.2 (токен-эконом)	GPT-5.2 mini
Средняя длина ответа	100%	~50%	70%
Качество (HumanEval)	85.2%	83.5%	88.1%
Затраты на 1M токенов	$0.50	$0.25	$0.80
Регресс на английском (NCBench)	-	~2%	-

Сравнение с конкурентами: кто кого?

Главные конкуренты — DeepSeek-V3, Qwen3.5 и GPT-5.2 mini. DeepSeek делает ставку на Mixture of Experts, где каждый токен обрабатывается только частью сети. Qwen3.5 от Alibaba — на предельно длинный контекст. А GPT-5.2 mini — на универсальность. У каждого свои болячки.

GLM 5.2 с его токен-экономией выглядит привлекательно для задач, где каждый цент на счету. Например, для RAG-систем, которые генерируют сотни тысяч токенов в день. Или для мобильных ассистентов, где память устройства ограничена. Но есть нюанс — эффективность 98% замерена на китайском и японском. На английском и европейских языках может быть хуже. Вспомните недавний агентный бенчмарк, где GLM 5.2 лидировал в своей категории — там тесты шли на английском, но с адаптированными промптами.

Осторожно: THUDM традиционно занижает проблемы на неродных языках. В GLM 5 регресс на хинди достигал 9 пунктов. Сейчас заявляют о падении всего на 2% в токен-эконом режиме. Цифры выглядят слишком оптимистично — ждем независимых тестов от сообщества.

Кому это реально нужно (и кому — не очень)

Стартапам и SMB — однозначно да. Если вы делаете чат-бота для поддержки на китайском рынке, GLM 5.2 в сжатом режиме сэкономит 50% бюджета на API. Качество почти не страдает.

Исследователям — с осторожностью. Модель открыта под лицензией MIT? Да, веса на Hugging Face. Но документация скудная. Чтобы выжать максимум, придется копаться в исходниках (см. статью "GLM 5.2: Игрушка для гиков или рабочий инструмент?").

Интеграторам — если клиент требует "не OpenAI", но бюджет ограничен. GLM 5.2 через OpenRouter уже доступен и стоит копейки. Но придется мириться с потенциальными галлюцинациями на неродных языках.

Лично я бы не спешил разворачивать GLM 5.2 в продакшене на английском, пока не увижу бенчмарки от LocalLLaMA или сторонних тестеров. Но для китайского и японского — берите не думая. Экономия токенов в два раза — это не шутки, особенно при высоких нагрузках.

Практический пример: считаем деньги

Допустим, ваш сервис обрабатывает 10 миллионов токенов в день. Полная версия GLM 5.2 стоила бы $5 в день. Токен-эконом режим — $2.5. Разница в месяц — $75. На годовом контракте — $900. А если у вас 100 миллионов токенов? Экономия превращается в $9000 в год. Для стартапа это зарплата стажера.

Но не забывайте про качество. Если эффективность 98% на китайском — это почти незаметно. Но на английском даже 2% потери могут означать дополнительные правки контента. Особенно в юридических или медицинских текстах.

Интересно, что GLM 5.2 неплохо показал себя в генерации кода: на бенчмарке HumanEval он набрал 83.5% в эконом-режиме против 85.2% полного. Падение всего 1.7% — это намного меньше, чем у конкурентов. Видимо, алгоритм сжатия особенно хорошо работает с кодом, где много повторяющихся паттернов.

💡

Совет: если вы планируете использовать GLM 5.2 для кода, запустите A/B тест на своем датасете. В большинстве случаев токен-эконом режим не отличить от полного, а экономия токенов — реальная.

Вердикт: верить или нет?

GLM 5.2 — не революция, а эволюция. THUDM исправляет ошибки GLM 5 (ссылка выше) и добавляет killer feature для бюджета. Если они удержат качество на английском в пределах 2% потерь — это будет лучший выбор для cost-effective инференса. А если нет — получится очередной китайский фейерверк, который красиво горит, но быстро гаснет.

Не гонитесь за эффективностью, если качество страдает. Но если GLM 5.2 действительно держит 98% на английском — это может быть тем самым "убийцей" OpenAI, которого все ждали. Только вот с китайскими моделями никогда не знаешь, где найдешь, где потеряешь.

Подписаться на канал

GLM 5.2: Китайцы снова пытаются. На этот раз — с эффективностью 98% и вдвое меньшим расходом токенов