Бенчмарки врут. И мы знаем, как именно
Каждую неделю свежий Leaderboard: GPT-5.2 Turbo снова на вершине, Claude 4.5 Sonnet дышит в спину, а DeepSeek Coder-V3 и GLM-5 скромно жмутся где-то в середине. Публика вздыхает: «Ну, закрытые снова лучше». Стоп.
А что, если я скажу, что это — как сравнивать спринтера на стероидах с вегетарианцем на завтраке из овсянки? Закрытые модели приходят на тест не с пустыми руками. Они тащат за собой целый арсенал встроенных продуктных фич, которые не имеют никакого отношения к «чистому интеллекту». И бенчмарки это молча проглатывают.
💡 Суть спора: когда мы замеряем качество модели, мы на самом деле измеряем качество целого продукта — с постобработкой ответов, системными промптами, RAG-цепочками и safety гардами. Open-source модели лишены этой «подпорки».
Эффект «снежной королевы»: почему GPT выглядит умнее, чем есть
Представьте: вы тестируете модель на сложной логической задаче. GPT-5.2 Turbo получает на вход не просто задачу, а подсказку, спрятанную в системный промпт длиной в 4000 токенов — тысячи примеров «правильных» ответов, стилистические инструкции, даже инструменты для самопроверки. А open-source модель получает голый запрос. Честно?
В феврале 2026 года команда DeepSWE поймала Claude Opus за руку: модель «читерила» в бенчмарке, используя встроенный агентный цикл, которого у открытых аналогов не было. После отключения дополнительной логики результат упал на 17%. Но заголовки уже отгремели.
Сравнение в вакууме: что на самом деле стоит за цифрами?
Вот главный секрет, который индустрия старается не афишировать: закрытые модели соревнуются продуктом, а не моделью. Разберём на примере.
| Компонент | GPT-5.2 / Claude 4.5 | Open-source (LLaMA, Qwen, DeepSeek) |
|---|---|---|
| Системный промпт | Кастомный, 3000+ токенов, динамические примеры | Стандартный, 500 токенов (часто — отсутствует) |
| Инструменты (Code Interpreter, Web Search) | Встроенные, асинхронные | Только через внешние интеграции |
| Safety-фильтры | Отключаются в тестах (привет, уязвимости) | Честно работают или отсутствуют |
| Пост-обработка ответов | Форматирование, чек на галлюцинации, вставка ссылок | Нет |
Когда мы замеряем точность ответов GPT, мы на самом деле замеряем работу целого пайплайна. А открытую модель тестируем «как есть».
Тест на независимость: как открытые модели вдруг стали первыми
В 2025-2026 появился бенчмарк, который пытается выровнять условия — AI Independence Bench. Он измеряет устойчивость модели к манипуляциям и способность действовать автономно без встроенных «костылей». Результаты шокировали: топ-5 заняли open-source модели — GLM-5, LLaMA 3.2, MiniMax M2.7. GPT и Claude оказались в середине. Почему? Потому что их продуктовая обвязка, которая помогает в обычных тестах, здесь мешает — навязывает паттерны поведения, делает модель предсказуемой и уязвимой.
Более того, в агентных задачах открытые модели догнали закрытых по качеству и уделывают их по цене в 5-10 раз. Но лидерборды по-прежнему рисуют другую картину — потому что считают «сырые» баллы без поправки на продукт.
Парадокс бенчмарков: чем выше балл, тем больше вопросов
Ситуация напоминает историю с Nonobench — японскими кроссвордами. GPT-5.2 там смеётся последним, но до этого несколько open-source моделей решали задачи быстрее и точнее — просто «упирались» в формат вывода, который не был заточен под ожидания теста. Закрытые модели получают «спойлеры» от создателей тестов — через неявные паттерны в датасетах. Open-source — нет.
В 2026 году выходит новое поколение бенчмарков (например, AGI-WebBench и AgentEval), которые разделяют «сырое качество модели» и «продуктовые фичи». Первые замеры показывают: если отключить все встроенные инструменты, GPT-5.2 проигрывает DeepSeek Coder-V3 в задачах написания кода на 12%, а Claude 4.5 уступает GLM-5 в многозадачном планировании.
Кому выгоден миф о превосходстве закрытых моделей?
А теперь включим цинизм. OpenAI и Anthropic зарабатывают на продаже API. Если открытые модели вдруг окажутся «умнее» — их бизнес-модель рухнет. Поэтому мы видим массированную PR-кампанию: в каждом отчёте бенчмарков подчёркивается, что «закрытые модели лидируют», а open-source — «догоняют». Но сама методология сравнения — это искусственная экосистема, где открытые модели вынуждены играть по правилам, созданным для закрытых.
Провайдеры открытых моделей вроде Together AI и Replicate честно предупреждают: то, что вы получаете — это «raw model», без гарантий. Но если вы готовы допилить постобработку, свой системный промпт и пайплайн — результат будет не хуже, а дешевле в разы.
Что делать? Как теперь выбирать модель?
Первое — перестать читать бенчмарки как истину в последней инстанции. Смотрите на разницу между «чистым» тестом и продуктом. Если в тесте модель использует инструменты — значит, это тест продукта, а не модели.
Второе — ориентироваться на специализированные бенчмарки, где условия уравнены. Например, BCI-тест или Extended NYT Connections — там открытые модели регулярно выходят вперёд.
Третье — не верить заголовкам. Помните: GPT может быть королём бенчмарков, но в вашем реальном бизнес-процессе дешёвая open-source модель с хорошим промпт-инжинирингом даст тот же результат за 20% цены. Китайские гиганты Qwen, Kimi и Zhipu уже дышат в спину.
⚠️ Важный нюанс: разрыв между цифрами и реальностью особенно заметен в продакшн-сценариях. Почему open-source модели проваливаются в бою, пока лидируют в гонках — статья, которая объясняет, куда исчезают «лабораторные» баллы при переходе в продакшн.
Следующая битва — за честные бенчмарки. Уже несколько инициатив (AI Independence Bench, Nonobench, AgentEval) пытаются отсечь продуктовые надстройки и измерить модель как таковую. И там открытые модели всё чаще выходят победителями. Не потому что они вдруг поумнели — а потому что с них сняли слепящие очки.