Что такое scaffold и zero-shot в SWE-bench?

Scaffold – метод оценки с дополнительными подсказками и шаблонами кода, zero-shot – только с описанием бага. Scaffold завышает результаты, так как предоставляет модели готовую структуру решения.

Почему цифры SWE-bench вводят в заблуждение?

Компании часто анонсируют высокие результаты, полученные с scaffold, но не указывают метод оценки, создавая ложное впечатление о возможностях модели. В zero-shot режиме те же модели показывают значительно более низкие результаты.

SWE-bench скандал: scaffold vs zero-shot и обман в анонсах моделей

Когда цифры лгут: как SWE-bench стал полем для манипуляций

Вы читаете анонс новой AI-модели и видите впечатляющие 85% на SWE-bench. Кажется, прорыв. Но через месяц независимые тесты показывают лишь 45%. В чем подвох? Все дело в scaffold и zero-shot – двух методах оценки, которые превращают бенчмарк в инструмент пропаганды.

Скандал с MiniMax M2.7, анонсированной в марте 2026, вскрыл системную проблему: компании все чаще используют scaffold для завышения результатов, зная, что разработчики редко проверяют методологию.

SWE-bench – это стандартный тест для оценки способности AI исправлять ошибки в коде. Но с 2024 года появилось два подхода: zero-shot (модель получает только описание бага) и scaffold (модель получает дополнительные подсказки, контекст или даже шаблоны кода). Разница в результатах может достигать 40 процентных пунктов.

Scaffold vs zero-shot: искусственный интеллект или искусственная оценка?

Представьте, что вы сдаете экзамен. В zero-shot вам дают только вопрос. В scaffold – вопрос, шпаргалку и наводящие подсказки. Естественно, результаты будут разными. Но в анонсах моделей этот нюанс часто замалчивают.

MiniMax при анонсе M2.7 указала результат 82.3% на SWE-bench, но мелким шрифтом – "с использованием scaffold". Когда сообщество провело zero-shot тесты, показатель упал до 44.7%. Это не ошибка – это стратегия.

Модель	SWE-bench (scaffold)	SWE-bench (zero-shot)	Разница
MiniMax M2.7 (2026)	82.3%	44.7%	37.6 п.п.
Qwen 3.5 122B A10B	78.9%	52.1%	26.8 п.п.
GLM-5 Ultra	75.4%	48.3%	27.1 п.п.

Почему scaffold так завышает результаты? Потому что он предоставляет модели структуру решения, уменьшая пространство поиска. По сути, модель не генерирует код с нуля, а заполняет пропуски в готовом шаблоне. Это как собрать мебель по инструкции вместо того, чтобы спроектировать ее с нуля.

Репродуцируемость – главная жертва маркетинга

Проблема глубже, чем кажется. Когда независимые исследователи пытаются воспроизвести заявленные результаты, они часто терпят неудачу. Не потому что модель плоха, а потому что методология оценки размыта. SWE-bench Verified пытался решить эту проблему, но даже он стал инструментом для selective reporting.

История повторяется: в 2025 году был скандал с GPQA и HLE бенчмарками, где ошибки в данных искажали рейтинги. Теперь то же самое со SWE-bench, но с более изощренным методом – манипуляцией условиями оценки.

💡

Zero-shot оценка ближе к реальным условиям, когда разработчик использует модель для исправления багов без дополнительных подсказок. Scaffold – это искусственная среда, которая редко встречается в практике.

Как компании оправдываются?

MiniMax в ответ на критику заявила, что scaffold "отражает реальный workflow разработчиков, которые используют IDE с автодополнением и документацией". Звучит логично, но есть нюанс: в scaffold SWE-bench часто включаются конкретные патчи и даже части кода, которые напрямую наводят на решение. Это не автодополнение – это костыль.

Более того, в анонсах они редко упоминают, что использовали scaffold. Только в техническом отчете, который читают единицы. Средний разработчик видит только красивую цифру и решает, что модель – новая звезда в кодинге.

Что делать разработчикам?

Вот простой чек-лист для оценки заявлений о SWE-bench:

Всегда проверяйте, указан ли метод оценки: zero-shot или scaffold. Если не указан – это красный флаг.
Ищите independent verification. Сообщества вроде Community Evals на Hugging Face часто проводят собственные тесты.
Тестируйте модели на своих задачах. Бенчмарки – это ориентир, но ваши данные – истина.
Требуйте прозрачности. Если компания не публикует детали оценки, скепсис оправдан.

Ситуация со SWE-bench – это симптом болезни всей индустрии AI. Бенчмарки создавались для сравнения моделей, но превратились в маркетинговые инструменты. Пока не будет единого стандарта оценки, цифры в анонсах будут продолжать врать.

Мой прогноз? К концу 2026 года мы увидим новый скандал – но уже с multimodal бенчмарками. А пока – проверяйте каждую цифру. И помните: если результат выглядит слишком хорошо, чтобы быть правдой, вероятно, так оно и есть.

Подписаться на канал

Почему SWE-bench цифры в анонсах моделей вводят в заблуждение: разбор скандала с scaffold и zero-shot

Когда цифры лгут: как SWE-bench стал полем для манипуляций

Scaffold vs zero-shot: искусственный интеллект или искусственная оценка?

Репродуцируемость – главная жертва маркетинга

Как компании оправдываются?

Что делать разработчикам?

Подписывайтесь на наш канал!