Когда цифры лгут
Откройте любой рейтинг языковых моделей за апрель 2026 года. Найдите Gemma 4 26B. В колонке Winogrande вы увидите скромные 65-68%. Рядом Qwen3.5 32B гордо демонстрирует 82%. Здравый смысл подсказывает: вторая модель умнее. Но любой, кто хоть раз заставлял их писать код или анализировать документы, фыркнет. Gemma 4 работает ощутимо лучше. В чем подвох?
Бенчмарк Winogrande создан в 2019 году для оценки здравого смысла. Он состоит из пар предложений с пропущенным словом, которое нужно восстановить. Пример: «Окно разбилось, потому что мяч ударился о ___». Модель выбирает между «окно» и «мяч». Кажется, это проверка логики. На деле – это проверка на знание специфичных шаблонов из датасета, который давно устарел.
Цифровая диета Gemma 4
Команда Google, тренируя Gemma 4, сделала ставку на качество данных, а не на их объем. Они фильтровали тонны текста, оставляя только хорошо структурированную информацию: техническую документацию, научные статьи, качественный код. Winogrande наполнен искусственными, упрощенными предложениями, которые редко встречаются в такой «диете». Модель их просто не распознает как значимый паттерн. Она не натренирована угадывать слова в скучных детских загадках. Она натренирована понимать сложные инструкции.
| Модель (2026) | Winogrande | Llama-Perplexity (свой тест) | Практическое впечатление |
|---|---|---|---|
| Gemma 4 26B | 67.1% | Высокое | Отличное следование инструкциям, сильный код |
| Qwen3.5 32B | 82.5% | Среднее | Часто отклоняется от промпта, проблемы с контекстом |
| GLM 4.7 128K | ~75% | Высокое | Мощный reasoning, но капризный в настройке |
Llama-perplexity – неофициальный, но куда более показательный тест. Сообщество измеряет, насколько модель «удивлена» реальным запросам из форумов поддержки, технических чатов и тикетов. Низкий перплексити значит, что модель хорошо понимает наш, человеческий, хаотичный язык. И здесь у Gemma 4 все в порядке. А вот Qwen3.5, блестящий на синтетике, спотыкается о живую речь.
Теория против практики: взгляд из траншеи
Возьмите задачу посложнее детской загадки. Например, сгенерировать игровую логику на HTML5 Canvas. В нашем тесте Breakout Gemma 4 выдала рабочий, хорошо структурированный код с минимумом ошибок. Да, с некоторыми странностями, но работающий. Qwen3.5 в аналогичном тесте Pacman часто терял нить рассуждений, добавлял лишние функции и игнорировал ограничения.
Проблема в другом. Покупатели корпоративных решений, инвесторы, даже некоторые исследователи смотрят на сводные таблицы. Низкий балл в графе «здравый смысл» – красный флаг. Это заставляет инженеров Google и других компаний оптимизировать модели под эти устаревшие тесты, жертвуя иногда реальной полезностью. Получается обратная эволюция: модели становятся лучше в сдаче экзаменов и хуже в жизни.
Что делать? Новые правила игры
Забудьте про топ-1 бенчмарк. Начните с трех простых шагов.
1Тестируйте на своих данных
Соберите 50-100 реальных промптов из вашей работы: запросы в поддержку, задания для автоматизации, шаблоны документов. Прогоните их через кандидатов (Gemma 4, Qwen3.5, GLM 4.7) и сравните результаты вручную. Никакой балл не заменит этого.
2Смотрите на latency и память
Красивые 82% на Winogrande не помогут, если модель, как в истории с KV cache, съедает всю видеопамять и тормозит. Gemma 4, особенно в квантованных версия для llama.cpp, часто оказывается экономичнее и быстрее в работе.
3Изучайте failure-кейсы
Не ищите, где модель блестит. Ищите, где она лажает. Странное поведение при генерации, неумение держать контекст, галлюцинации в фактах – вот настоящие метрики. Если сбой происходит в незначительной для вас области, можно закрыть глаза.
К 2027 году, я уверен, мы увидим волну судебных исков от компаний, купивших «лидеров рейтингов», которые не смогли решить элементарные бизнес-задачи. Бенчмарки станут музейными экспонатами. А пока – доверяйте только практике. Вашей собственной.