Маленький гигант: как Qwen3.5-27B утер нос GPT-5 в Game Agent Coding League
Представьте результаты нишевого бенчмарка по кодированию игровых агентов. Ожидаете увидеть на вершине GPT-5.4 или Kimi2.5. Но нет. Там, среди гигантов, скромно стоит Qwen3.5-27B. Модель с 27 миллиардами параметров, которая обходит монстров в десятки раз больше. Это не ошибка. Это реальность Game Agent Coding League (GACL) на 15 марта 2026 года.
Что такое Game Agent Coding League и почему он важен?
GACL - это не очередной синтетический тест из HumanEval. Здесь модели пишут реальных игровых ботов для конкретных игр, таких как StarCraft II или Dota 2. Задача: создать агента, который не просто генерирует код, но и понимает игровую механику, планирует стратегию, адаптируется к противнику. Это проверка на multi-agent способности в чистом виде. (Подробнее о самом бенчмарке мы писали в обзоре Game Agent Coding League).
Цифры не врут: таблица результатов GACL
| Модель | Размер (параметры) | Оценка GACL | Комментарий |
|---|---|---|---|
| GPT-5.4 | ~1.8T (оценка) | 92.5 | Лидер, но дорогой и медленный |
| Kimi2.5 | ~1T | 91.8 | Отличное понимание контекста |
| GLM-5 | ~1.2T | 90.3 | Специализирован на китайском, но силен в коде |
| Qwen-397B | 397B | 89.7 | Монстр от Alibaba, но требует ресурсов |
| Qwen3.5-27B | 27B | 88.9 | Сюрприз: почти догнал гигантов |
| DeepSeek-V3 | 671B | 87.5 | Хорошо, но не в топе |
Примечание: оценки взяты из открытых результатов GACL на 15.03.2026. Цифры могут немного меняться, но порядок сохранен.
Почему Qwen3.5-27B так хорош? Разбор на костях
Специализация на код. Qwen3.5-27B - это не общая модель, а специализированная для программирования. Ее тренировали на огромных объемах кода, включая игровые движки и симуляторы. (Если интересна архитектура, смотри технический разбор Qwen3-Coder).
Эффективность архитектуры. Несмотря на скромный размер, архитектура Qwen3.5 оптимизирована для последовательного рассуждения. Именно то, что нужно для multi-agent задач. (Напомню, ее старший брат Qwen3.5-35B уже блистал в multi-agent тестах).
Контекст и tool calling. Модель поддерживает длинный контекст и точно использует инструменты. В GACL это критично: агент должен помнить историю игры и правильно вызывать API.
Не обольщайтесь: Qwen3.5-27B все еще уступает GPT-5.4 в сложных стратегических задачах. Разница в 3.6 балла - это пропасть, когда дело доходит до адаптации к неожиданным ходам противника. Но для большинства практических задач кодирования агентов, этой разницы может быть достаточно.
GPT-5.4 vs Kimi2.5 vs GLM-5: что выбирать, если деньги не проблема?
Если у вас есть доступ к GPT-5.4 через OpenAI API, используйте его. Он дает лучшие результаты, но каждый запрос стоит денег, а latency может быть высокой. Kimi2.5 от Moonshot AI показывает себя почти так же хорошо, особенно в азиатском контексте. GLM-5 - темная лошадка: отлично справляется с китайским кодом, но для международных проектов может потребоваться настройка.
- GPT-5.4: лучшая производительность, но дорого и медленно для реального времени.
- Kimi2.5: баланс цены и качества, отличная поддержка длинного контекста.
- GLM-5: если ваш проект связан с Китаем или использует китайские API.
- Qwen-397B: открытая альтернатива, но требует серьезного железа.
Какую модель выбрать для coding agents в 2026 году?
Зависит от ваших ресурсов.
Если у вас мощная видеокарта с 24+ ГБ VRAM, берите Qwen3.5-27B в FP16. Она бесплатна, быстра, и результаты близки к топу. (Подробнее о настройке такого стека в гайде Как настроить стек локальных LLM-агентов).
Если вы обладатель слабой видеокарты, рассмотрите Qwen3.5-9B в квантованной версии. (Смотри практический гайд по настройке агентного кодирования на слабой видеокарте).
Если деньги не проблема и нужна максимальная производительность, арендуйте доступ к GPT-5.4 или Kimi2.5 через API.
Для исследований или кастомных решений, посмотрите на исходники агентов из GACL. Они выложены на GitHub и показывают, как модели интегрируются с игровыми средами.
Что дальше? Прогноз на 2027 год
К 2027 году, специализированные модели для кодирования, такие как Qwen3.5-27B, станут стандартом для локальных агентов. Гиганты вроде GPT-5.4 останутся в облаке для сложных задач, но для повседневного coding agent'а, open-source модели займут свою нишу.
Совет: не гонитесь за параметрами. Иногда 27 миллиардов, обученных на правильных данных, стоят триллиона случайных токенов.