Когда цифры лгут: как SWE-bench стал полем для манипуляций
Вы читаете анонс новой AI-модели и видите впечатляющие 85% на SWE-bench. Кажется, прорыв. Но через месяц независимые тесты показывают лишь 45%. В чем подвох? Все дело в scaffold и zero-shot – двух методах оценки, которые превращают бенчмарк в инструмент пропаганды.
Скандал с MiniMax M2.7, анонсированной в марте 2026, вскрыл системную проблему: компании все чаще используют scaffold для завышения результатов, зная, что разработчики редко проверяют методологию.
SWE-bench – это стандартный тест для оценки способности AI исправлять ошибки в коде. Но с 2024 года появилось два подхода: zero-shot (модель получает только описание бага) и scaffold (модель получает дополнительные подсказки, контекст или даже шаблоны кода). Разница в результатах может достигать 40 процентных пунктов.
Scaffold vs zero-shot: искусственный интеллект или искусственная оценка?
Представьте, что вы сдаете экзамен. В zero-shot вам дают только вопрос. В scaffold – вопрос, шпаргалку и наводящие подсказки. Естественно, результаты будут разными. Но в анонсах моделей этот нюанс часто замалчивают.
MiniMax при анонсе M2.7 указала результат 82.3% на SWE-bench, но мелким шрифтом – "с использованием scaffold". Когда сообщество провело zero-shot тесты, показатель упал до 44.7%. Это не ошибка – это стратегия.
| Модель | SWE-bench (scaffold) | SWE-bench (zero-shot) | Разница |
|---|---|---|---|
| MiniMax M2.7 (2026) | 82.3% | 44.7% | 37.6 п.п. |
| Qwen 3.5 122B A10B | 78.9% | 52.1% | 26.8 п.п. |
| GLM-5 Ultra | 75.4% | 48.3% | 27.1 п.п. |
Почему scaffold так завышает результаты? Потому что он предоставляет модели структуру решения, уменьшая пространство поиска. По сути, модель не генерирует код с нуля, а заполняет пропуски в готовом шаблоне. Это как собрать мебель по инструкции вместо того, чтобы спроектировать ее с нуля.
Репродуцируемость – главная жертва маркетинга
Проблема глубже, чем кажется. Когда независимые исследователи пытаются воспроизвести заявленные результаты, они часто терпят неудачу. Не потому что модель плоха, а потому что методология оценки размыта. SWE-bench Verified пытался решить эту проблему, но даже он стал инструментом для selective reporting.
История повторяется: в 2025 году был скандал с GPQA и HLE бенчмарками, где ошибки в данных искажали рейтинги. Теперь то же самое со SWE-bench, но с более изощренным методом – манипуляцией условиями оценки.
Как компании оправдываются?
MiniMax в ответ на критику заявила, что scaffold "отражает реальный workflow разработчиков, которые используют IDE с автодополнением и документацией". Звучит логично, но есть нюанс: в scaffold SWE-bench часто включаются конкретные патчи и даже части кода, которые напрямую наводят на решение. Это не автодополнение – это костыль.
Более того, в анонсах они редко упоминают, что использовали scaffold. Только в техническом отчете, который читают единицы. Средний разработчик видит только красивую цифру и решает, что модель – новая звезда в кодинге.
Что делать разработчикам?
Вот простой чек-лист для оценки заявлений о SWE-bench:
- Всегда проверяйте, указан ли метод оценки: zero-shot или scaffold. Если не указан – это красный флаг.
- Ищите independent verification. Сообщества вроде Community Evals на Hugging Face часто проводят собственные тесты.
- Тестируйте модели на своих задачах. Бенчмарки – это ориентир, но ваши данные – истина.
- Требуйте прозрачности. Если компания не публикует детали оценки, скепсис оправдан.
Ситуация со SWE-bench – это симптом болезни всей индустрии AI. Бенчмарки создавались для сравнения моделей, но превратились в маркетинговые инструменты. Пока не будет единого стандарта оценки, цифры в анонсах будут продолжать врать.
Мой прогноз? К концу 2026 года мы увидим новый скандал – но уже с multimodal бенчмарками. А пока – проверяйте каждую цифру. И помните: если результат выглядит слишком хорошо, чтобы быть правдой, вероятно, так оно и есть.