Бенчмарк, который заставил модели попотеть
Обычные тесты вроде MMLU или HumanEval уже никого не удивляют. Модели их зубрят, разработчики оптимизируют, а результаты превращаются в сухие цифры. Но что если заставить LLM играть в динамичную стратегическую игру, где правила меняются, а победа зависит не от знания, а от умения анализировать свои ошибки и адаптироваться на лету?
Именно такой стресс-тест запустил на днях один исследователь. Без анонсов, без хайпа. Просто выложил результаты. И они ошеломили.
Детали игры засекречены - автор боится, что модели начнут 'готовиться' к тесту. Но известно, что это пошаговая стратегия с ограниченными ресурсами, скрытой информацией и необходимостью строить долгосрочные планы. Каждый ход модель получает фидбэк о своих прошлых решениях и должна скорректировать поведение.
Победитель: сжатый гигант на AWQ 4bit
Лидером неожиданно стал не свежий GPT-5-mini и не монстр от Google. Победила Qwen3.5-122b, но в необычном формате - с квантованием AWQ 4bit. Тот самый 'сжатый' вариант, который должен был потерять в интеллекте ради экономии памяти.
А он не потерял. Более того, он обогнал полноценные FP16 версии некоторых конкурентов. Как так?
Саморефлексия как суперсила
Ключевой метрикой в бенчмарке была именно способность к саморефлексии. Модель получала описание своего прошлого хода и его последствий, после чего должна была ответить: 'Что я сделал не так и как исправить?'
Большинство моделей скатывались в шаблонные ответы. 'Нужно лучше распределять ресурсы', 'следует учитывать больше факторов'. Пустая болтовня.
Qwen3.5-122b в AWQ 4bit делал иначе. Он конкретно указывал на ошибочные предположения, предлагал альтернативные сценарии, и - что важно - связывал текущий провал с более ранними решениями. Длинная цепочка причинно-следственных связей. Не просто 'ошибся', а 'ошибся, потому что три хода назад недооценил противника, и это привело к дефициту в критическом ресурсе'.
Звучит логично? Для человека - да. Для LLM, особенно сжатой до 4 бит, - почти волшебство.
Почему именно Qwen3.5? Контекст имеет значение
Это не первая победа Qwen3.5 в нестандартных тестах. Вспомните историю, где Qwen3.5-122B-A10B обыграл GPT-5-mini в задачах на рассуждение. Или тест на пространственное мышление в MineBench, который показал резкий скачок в качестве.
Но есть и обратная сторона. Тот же Qwen3.5 известен своими 'срывами' - бесконечными вызовами инструментов и игнорированием системных промптов. Капризный гений.
В этом бенчмарке его сильная сторона - способность к глубокому контекстному анализу - сыграла на руку. Слабая - склонность к 'галлюцинациям' - была подавлена жесткой структурой игры.
| Модель (версия на 26.03.2026) | Формат | Оценка адаптации | Оценка саморефлексии |
|---|---|---|---|
| Qwen3.5-122b | AWQ 4bit | 94% | 91% |
| GLM-5-744B (актуальная) | FP16 | 88% | 85% |
| GPT-5-mini (последняя) | Нативный API | 90% | 82% |
| Qwen3.5-35B | GGUF Q5_K_M | 86% | 79% |
Обратите внимание на разрыв в саморефлексии между Qwen3.5-122b и GPT-5-mini. Девять процентных пунктов. В мире бенчмарков это пропасть.
Что это значит для нас, обычных пользователей?
Во-первых, квантование AWQ 4bit перестает быть 'компромиссом'. Для определенных задач - тех, где важна цепочка рассуждений, - это может быть даже предпочтительным форматом. Легче, быстрее, а интеллект не страдает. Или страдает не так, как мы думали.
Во-вторых, старые споры 'плотная модель против MoE' получают новый поворот. Плотная Qwen 3 32B уже побеждала MoE в слепых тестах. Теперь 122B показывает, что размер и архитектура все еще имеют значение для сложного мышления.
В-третьих, пора пересмотреть подход к тестированию. Статичные бенчмарки устарели. Будущее за динамичными симуляциями, где модель должна учиться на ходу. Как в этом тесте. Или как в multi-agent задачах, где Qwen3.5-35B также показал себя.
Прогноз на ближайшие месяцы: волна пользовательских, 'игровых' бенчмарков захлестнет сообщество. Разработчики начнут массово тестировать не только знания, но и гибкость мышления своих моделей. И Qwen3.5, судя по всему, к этому готов.
А что с другими квантованиями? И где подвох?
AWQ 4bit показал себя блестяще. Но это не значит, что он всегда лучший. Методы вроде Unsolth демонстрируют, что иногда Q3 может быть лучше Q4 - все зависит от задачи и распределения весов.
Подвох в том, что этот бенчмарк - всего лишь один тест. В других сценариях, например, при генерации кода или работе с точными фактами, потеря точности из-за квантования может быть критичной. Всегда смотрите на свою задачу.
И последнее. Не ждите, что скачав Qwen3.5-122b-AWQ-4bit, вы получите такого же 'стратега'. Магия здесь не только в модели, но и в промптинге, и в структуре самой игры. Автор теста, скорее всего, потратил недели на настройку.
Но факт остается. Большая, умная модель, сжатая до размера, который помещается на одну видеокарту, только что доказала, что может думать лучше некоторых своих 'полноразмерных' конкурентов. Это меняет правила игры. Снова.