16 июня 2026 года — день, который войдёт в историю open-source AI. Модель GLM-5.2 от Zhipu AI набрала 81.4% на Terminal-Bench, обойдя все предыдущие открытые модели и вплотную приблизившись к закрытым гигантам вроде GPT-5.2 и Claude 4.5. Для сообщества, которое привыкло видеть 70-79% как потолок, это настоящий прорыв.
Справка: Terminal-Bench — это бенчмарк, который проверяет способность LLM-агента работать в командной строке: выполнять скрипты, анализировать логи, настраивать серверы, писать и дебажить Bash-команды. До сих пор лидерами были закрытые модели — открытые не могли перешагнуть 80%. GLM-5.2 сделала это.
Что скрывается за цифрой?
Terminal-Bench состоит из 500 сценариев разной сложности — от банальных grep до многошаговых CI/CD пайплайнов. Модель должна не просто угадать команду, а спланировать последовательность действий, обработать ошибки, адаптироваться к неожиданным выводам. Именно это и проваливают большинство open-weight моделей — они либо галлюцинируют команды, либо зацикливаются на одном шаге. GLM-5.2 показала не только высокую точность, но и поразительную стабильность при повторных запусках.
Ещё в мае 2026 года тест на Pac-Man показал, что модель способна адаптироваться в реальном времени. Теперь этот навык подтверждён на серьёзном бенчмарке.
| Модель | Score | Open weights |
|---|---|---|
| GLM-5.2 | 81.4% | ✅ |
| GPT-5.2 | 82.1% | ❌ |
| Claude 4.5 Opus | 81.7% | ❌ |
| Qwen 3.5 (best open prior) | 78.9% | ✅ |
Разрыв с лучшей закрытой моделью — всего 0.7 процентного пункта. Для open-source это сродни ничьей. И это при том, что GLM-5.2 весит 70B параметров против 2T у GPT-5.2.
Как они это сделали? (спойлер: не только размер)
Архитектура GLM-5.2 — это эволюция прошлогодней GLM-5, которая уже блистала на Extended NYT Connections. Ключевое нововведение — Agentic Planning Module (APM), который вынесен в отдельный блок. Вместо того чтобы полагаться на автогрессию, модель сначала генерирует план на внутреннем языке сценариев, а затем выполняет его через sandbox-окружение. Если план проваливается — модель делает откат и пробует другой путь.
Другая важная фича — контекстное обучение на терминальных сессиях. Модель дообучали на миллионах реальных логов и стенограмм работы DevOps-инженеров. Как показали тесты на русскоязычных LLM, специфичные датасеты решают.
Скепсис: После громких заявлений про GLM-5, которая в бытовом вопросе обошла GPT-5.2, многие ждали валидации на серьёзных бенчмарках. Terminal-Bench — это первый по-настоящему сложный тест, и GLM-5.2 его прошла. Но без открытой методологии повтора результатов доверие остаётся ограниченным.
Что это меняет для разработчиков агентов?
Если вы пишете автономного помощника для работы с серверами — раньше у вас было два пути: либо платить за API закрытых моделей, либо мириться с 78% точностью. Теперь появилась open-weights альтернатива, которую можно запустить локально (да, потребуется GPU с 80+ GB VRAM, но это решаемо).
Уже сейчас на GitHub появились репозитории с адаптацией GLM-5.2 для:
- Автоматической диагностики и починки docker-контейнеров
- Генерации и выполнения сложных скриптов деплоя
- Интерактивного ревью логов (модель сама пишет grep, awk, sed)
Кстати, если вы хотите сравнить производительность GLM-5.2 с другими моделями на своём железе, гайд по llama-bench с 37 моделями даст фору. Или обратите внимание на сводку тестов на Strix Halo — там GLM-5.2 развернули и прогнали.
А что же другие конкуренты?
Meta молчит: Llama 4.5 так и не вышла. Qwen 3.5 улучшается, но отстаёт. Mistral Large 3.5 показал 77.1% и уткнулся в потолок. Зато GLM-5.2, похоже, открыла новую стратегию: специализация агентных архитектур под конкретный бенчмарк. HLD Benchmark показал, что GLM-5 (предыдущая версия) уже умела проектировать системы, а не болтать. Теперь этот навык дошлифован до терминального мастерства.
Бытовой тест с китайской моделью намекал — Zhipu AI идут в своём ритме. Теперь ритм стал слышен всему миру. Следующий логический шаг: после терминала — SRE-агент? После SRE — возможно, полноценный оператор CI/CD? Границы стираются.
Но не обольщайтесь: повторить этот результат на неизвестных сценариях Terminal-Bench пока не смогла ни одна другая команда. Zhipu AI обещают выпустить полный набор данных и весов GLM-5.2 до конца июня. Если сдержат слово — рекорд перестанет быть сенсацией и станет рабочей лошадкой.