Если вы думали, что SWE-bench — это последнее слово в оценке AI-кодинга, то у меня для вас новость: появился Senior SWE Bench. И он на порядок злее. Разработчики из компании Vercel совместно с исследователями из Стэнфорда выпустили бенчмарк, который не тестирует модели на исправление багов в изолированных репозиториях. Вместо этого он даёт AI-агентам недоопределённые задачи senior-разработчика. Звучит как шаг в сторону реальности, правда?
Не путайте Senior SWE Bench с обычным SWE-bench. Разница как между исправлением опечатки и рефакторингом легаси в кодовой базе, которую ты видишь впервые.
Скандал с нулевым shot-ом
Помните историю, когда модели в анонсах хвастались 70%+ на SWE-bench, а на деле использовали подсказки из тестов? Мы уже разбирали этот скандал. Senior SWE Bench покончил с этим раз и навсегда: никаких подсказок, никаких pre-defined тестов. Агент получает описание проблемы в стиле «сделай так, чтобы форма логина не падала при пустом поле», и дальше — полёт фантазии. Или, чаще, падение.
Недоопределённость — это не баг, а фича
В бенчмарк зашиты 250 задач из реальных продакшн-репозиториев с открытым исходным кодом. Каждая задача — это не чёткий юнит-тест, а скорее письмо от заказчика: «У нас на проде всё падает, разберись». AI должен сам выяснить, что значит «всё падает», найти корневую причину и предложить фикс. Звучит логично, но на практике 80% моделей сливают первый же раунд, потому что начинают гуглить документацию, а не смотреть код.
Топ-5 моделей, которые не опозорились
По данным на июнь 2026 года, только три модели из топ-10 смогли превысить порог в 40% решённых задач. Лидеры — Claude Opus 4.5 (47%), GPT-5 Turbo (44%) и Gemini 2.5 Ultra (41%). Из открытых моделей удивил Qwen3.5-27B — он набрал 32%, обойдя даже DeepSeek-Coder-V3. Подробнее о противостоянии Qwen и DeepSeek читайте в нашем сравнении на STEM-задачах.
| Модель | Pass@1 | Pass@5 | Стоимость за запуск ($) |
|---|---|---|---|
| Claude Opus 4.5 | 47% | 62% | 12.50 |
| GPT-5 Turbo | 44% | 58% | 14.00 |
| Gemini 2.5 Ultra | 41% | 55% | 11.20 |
| Qwen3.5-27B | 32% | 46% | 4.80 |
| DeepSeek-Coder-V3 | 29% | 41% | 3.20 |
Открытые модели: есть ли жизнь?
Open-source модели традиционно страдают на задачах, где нужно строить длинные цепочки рассуждений. Senior SWE Bench не исключение. Cohere North Mini Code 1.0 с архитектурой A3B на 30B параметров показал лишь 21% — неплохо для своего размера, но далеко до топов. Зато он дешевле в запуске в 10 раз. Интересно, что модель IQuest-Coder-V1-40B вообще не смогла пройти ни одну задачу: буквально «упала» на третьем раунде из-за нехватки памяти контекста. Мы писали об этом в отдельном разборе. Очевидно, что размер параметров не гарантирует успех — важна архитектура и способность к планированию.
Где подвох? Docker и pip install
Самый хардкорный аспект нового бенчмарка — агент должен сам поднять окружение. Да-да, тот самый момент, когда AI пытается запустить Docker контейнер с устаревшими зависимостями и ломается на первом же pip install. Этот сценарий настолько типичен, что ему посвящён отдельный бенчмарк — ABC-Bench. Senior SWE Bench пошёл дальше: он требует не только собрать окружение, но и разобраться с конфликтами версий, которые разработчик оставил «на потом». Как показало тестирование, 60% моделей просто выдают фикс, который не собирается, и не могут объяснить почему.
Агентская гонка вооружений
Senior SWE Bench идеально ложится в тренд агентского кодинга. Модели больше не оценивают по одному ответу — их гоняют в многорядном диалоге, с правом на ошибку и возможностью откатиться. Это серьёзно поднимает планку. Сравните: на AdamBench агенты работают в изолированной песочнице, но Senior SWE Bench добавляет фактор неопределённости — никаких чётких границ. Именно здесь модель должна проявить «senior-скиллы»: не просто написать код, а понять, что именно нужно бизнесу.
По неофициальным данным, создатели бенчмарка уже работают над версией 2.0, где будет добавлена оценка надёжности — как быстро модель «сломается» при стрессовом тесте. Это перекликается с идеями бенчмарка MELT-1, который считает ваши деньги на каждый запрос.
Не верьте цифрам из пресс-релизов. Гоняйте модели на Senior SWE Bench сами. А если нет денег на API — собирайте локальный стенд на RTX 5080. В конце концов, AdamBench вам в помощь. Только не забудьте про Docker.