Zhipu AI выкатила GLM-4.7. И сразу заявила, что это новый король open-source. Модель на архитектуре Mixture of Experts (MoE), 358 миллиардов параметров, контекстное окно в 200 тысяч токенов. Цифры впечатляют. Но мы-то знаем, что за красивыми графиками часто скрывается суровая реальность продакшена.
Давайте разберем, что внутри, как она работает и — самое главное — сколько будет стоить ее содержание по сравнению с привычными Claude и GPT.
Что внутри этого зверя: MoE на стероидах
Архитектура Mixture of Experts — не новость. Но в GLM-4.7 ее довели до 358B параметров, из которых активируется только ~100B во время инференса. Это как иметь оркестр из 64 музыкантов, но для каждой мелодии играют только 16 самых подходящих.
Ключевой принцип MoE: маршрутизатор (router) решает, какие "эксперты" (подмодели) задействовать для каждого токена. Это снижает вычислительные затраты при сохранении емкости модели.
Но есть нюанс. Эффективная маршрутизация — это искусство. Если router ошибется, качество ответа упадет. Zhipu AI утверждает, что их система Preserved/Interleaved/Turn-level Thinking решает эту проблему. Звучит сложно. На практике это означает, что модель лучше сохраняет контекст в длинных диалогах и сложных задачах.
Для тех, кто хочет копнуть глубже в технические детали и планы разработчиков, есть полный разбор AMA с создателями GLM-4.7.
Цифры не врут: как GLM-4.7 бьет бенчмарки
Здесь начинается самое интересное. GLM-4.7 показала 82.5% на SWE-bench (задачи по исправлению кода на GitHub). Для сравнения, Claude 3.5 Sonnet — 81.2%, GPT-4o — 80.6%. Разрыв небольшой, но он есть.
| Модель | SWE-bench | Terminal-Bench | HLE (чел.) |
|---|---|---|---|
| GLM-4.7 | 82.5% | 89.1% | 88.7 |
| Claude 3.5 Sonnet | 81.2% | 87.3% | 87.9 |
| GPT-4o | 80.6% | 86.8% | 87.1 |
На Terminal-Bench (работа с командной строкой) отрыв больше — 89.1% против 87.3% у Claude. Human-Like Evaluation (HLE) тоже в пользу GLM-4.7. Вывод? В задачах, связанных с кодом и системными командами, модель реально конкурентоспособна.
Но не обольщайтесь. Бенчмарки — это идеальные условия. В реальном продакшене все сложнее. Если вам интересно, как модели ведут себя в бою, посмотрите статью о том, почему LLM — не серебряная пуля.
Деньги считают все: сколько сэкономит переход с GPT?
Вот ради этого все и затевалось. Zhipu AI заявляет, что стоимость инференса GLM-4.7 в 3-5 раз ниже, чем у Claude 3.5 Sonnet и GPT-4o. Проверим.
- GLM-4.7 через CloudCare (CC): ~$0.5 за 1M токенов на входе, ~$2.0 за 1M токенов на выходе.
- Claude 3.5 Sonnet: ~$3.0 / $15.0 за те же объемы.
- GPT-4o: ~$2.5 / $10.0.
Цифры говорят сами за себя. Для проекта с нагрузкой в 10 миллионов токенов в месяц экономия может составить $100 и больше. Детальный расчет есть в сравнении GLM4.7 + CC против Claude 4.5 Sonnet.
Внимание: эти цены — на облачный инференс через API. Если захотите развернуть модель локально, подготовьтесь к танцам с бубном вокруг железа и оптимизации.
А вот с локальным развертыванием не все так радужно. Модель на 358B параметров — это не игрушка. Потребуется серьезное железо. Но и здесь есть варианты. Например, можно использовать квантизацию. Модель GLM-4.7-REAP-50-W4A16 ужимается до 92 ГБ. А если у вас есть доступ к системе Cerebras, то GLM-4.7-REAP-268B-A32B помещается в локальную память чипа.
Для энтузиастов с ограниченным бюджетом есть и другие пути. Например, запуск 30B MoE-модели на ноутбуке. Или даже оптимизация для железа 2015 года. Но для GLM-4.7 готовьтесь к серверным стойкам.
Для продакшена: брать или не брать?
GLM-4.7 — не панацея. Это инструмент. Очень мощный и относительно дешевый в эксплуатации. Но с оговорками.
Брать, если:
- Ваша основная задача — работа с кодом, автоматизация, DevOps.
- Вам критична стоимость инференса, и вы готовы мириться с возможными сложностями интеграции.
- Вам нужен длинный контекст (200K) для анализа больших документов или логов.
- Вы не боитесь open-source и готовы возиться с оптимизацией под свое железо.
Не брать, если:
- Вам нужна максимальная стабильность и поддержка «из коробки» как у OpenAI.
- Ваши задачи — креативный контент, общение с пользователями, где важны тонкости языка. Здесь Claude пока вне конкуренции.
- У вас нет инженерных ресурсов для настройки и обслуживания сложной MoE-модели.
Перед выбором базовой модели для своих задач рекомендую также ознакомиться с гайдом по выбору базовой модели для тонкой настройки.
Что дальше? Прогноз от того, кто видел много хайпа
GLM-4.7 — серьезная заявка на лидерство в open-source сегменте. Особенно для кодогенерации. Цена/качество здесь на высоте.
Но ждите ответа от Meta (Llama) и других игроков. Гонка параметров сменилась гонкой эффективности. MoE — текущий фаворит, но кто знает, что будет завтра. Возможно, State-Space модели или гибридные архитектуры, как в Genesis-152M-Instruct, преподнесут сюрприз.
Мой совет? Если вы разрабатываете инструмент для разработчиков или внутреннюю систему автоматизации — тестируйте GLM-4.7 уже сейчас. Экономия может быть значительной. Но не ставьте все на одну модель. Держите в уме план Б — например, более стабильный API от крупного провайдера на случай, если ваш оптимизированный инференсный кластер упадет в самый неподходящий момент.
А тем, кто только начинает погружение в мир LLM для бизнеса, стоит сначала прочитать кейс о провальном AI-автоответчике. Чтобы понимать, с какими подводными камнями можно столкнуться.
И помните: модель — это только движок. Без качественных данных, продуманной логики и человеческого надзора даже самый продвинутый ИИ наделает глупостей.