Senior SWE Bench: обзор бенчмарка для оценки AI-кодинга на реальных задачах

Если вы думали, что SWE-bench — это последнее слово в оценке AI-кодинга, то у меня для вас новость: появился Senior SWE Bench. И он на порядок злее. Разработчики из компании Vercel совместно с исследователями из Стэнфорда выпустили бенчмарк, который не тестирует модели на исправление багов в изолированных репозиториях. Вместо этого он даёт AI-агентам недоопределённые задачи senior-разработчика. Звучит как шаг в сторону реальности, правда?

Не путайте Senior SWE Bench с обычным SWE-bench. Разница как между исправлением опечатки и рефакторингом легаси в кодовой базе, которую ты видишь впервые.

Скандал с нулевым shot-ом

Помните историю, когда модели в анонсах хвастались 70%+ на SWE-bench, а на деле использовали подсказки из тестов? Мы уже разбирали этот скандал. Senior SWE Bench покончил с этим раз и навсегда: никаких подсказок, никаких pre-defined тестов. Агент получает описание проблемы в стиле «сделай так, чтобы форма логина не падала при пустом поле», и дальше — полёт фантазии. Или, чаще, падение.

Недоопределённость — это не баг, а фича

В бенчмарк зашиты 250 задач из реальных продакшн-репозиториев с открытым исходным кодом. Каждая задача — это не чёткий юнит-тест, а скорее письмо от заказчика: «У нас на проде всё падает, разберись». AI должен сам выяснить, что значит «всё падает», найти корневую причину и предложить фикс. Звучит логично, но на практике 80% моделей сливают первый же раунд, потому что начинают гуглить документацию, а не смотреть код.

💡

Интересный факт: Senior SWE Bench использует до 10 раундов взаимодействия с агентом. Если модель не может уточнить требования — она проваливает задачу. Именно этот сценарий убивает большинство open-source моделей.

Топ-5 моделей, которые не опозорились

По данным на июнь 2026 года, только три модели из топ-10 смогли превысить порог в 40% решённых задач. Лидеры — Claude Opus 4.5 (47%), GPT-5 Turbo (44%) и Gemini 2.5 Ultra (41%). Из открытых моделей удивил Qwen3.5-27B — он набрал 32%, обойдя даже DeepSeek-Coder-V3. Подробнее о противостоянии Qwen и DeepSeek читайте в нашем сравнении на STEM-задачах.

Модель	Pass@1	Pass@5	Стоимость за запуск ($)
Claude Opus 4.5	47%	62%	12.50
GPT-5 Turbo	44%	58%	14.00
Gemini 2.5 Ultra	41%	55%	11.20
Qwen3.5-27B	32%	46%	4.80
DeepSeek-Coder-V3	29%	41%	3.20

Открытые модели: есть ли жизнь?

Open-source модели традиционно страдают на задачах, где нужно строить длинные цепочки рассуждений. Senior SWE Bench не исключение. Cohere North Mini Code 1.0 с архитектурой A3B на 30B параметров показал лишь 21% — неплохо для своего размера, но далеко до топов. Зато он дешевле в запуске в 10 раз. Интересно, что модель IQuest-Coder-V1-40B вообще не смогла пройти ни одну задачу: буквально «упала» на третьем раунде из-за нехватки памяти контекста. Мы писали об этом в отдельном разборе. Очевидно, что размер параметров не гарантирует успех — важна архитектура и способность к планированию.

Где подвох? Docker и pip install

Самый хардкорный аспект нового бенчмарка — агент должен сам поднять окружение. Да-да, тот самый момент, когда AI пытается запустить Docker контейнер с устаревшими зависимостями и ломается на первом же pip install. Этот сценарий настолько типичен, что ему посвящён отдельный бенчмарк — ABC-Bench. Senior SWE Bench пошёл дальше: он требует не только собрать окружение, но и разобраться с конфликтами версий, которые разработчик оставил «на потом». Как показало тестирование, 60% моделей просто выдают фикс, который не собирается, и не могут объяснить почему.

Агентская гонка вооружений

Senior SWE Bench идеально ложится в тренд агентского кодинга. Модели больше не оценивают по одному ответу — их гоняют в многорядном диалоге, с правом на ошибку и возможностью откатиться. Это серьёзно поднимает планку. Сравните: на AdamBench агенты работают в изолированной песочнице, но Senior SWE Bench добавляет фактор неопределённости — никаких чётких границ. Именно здесь модель должна проявить «senior-скиллы»: не просто написать код, а понять, что именно нужно бизнесу.

По неофициальным данным, создатели бенчмарка уже работают над версией 2.0, где будет добавлена оценка надёжности — как быстро модель «сломается» при стрессовом тесте. Это перекликается с идеями бенчмарка MELT-1, который считает ваши деньги на каждый запрос.

Не верьте цифрам из пресс-релизов. Гоняйте модели на Senior SWE Bench сами. А если нет денег на API — собирайте локальный стенд на RTX 5080. В конце концов, AdamBench вам в помощь. Только не забудьте про Docker.

Подписаться на канал

Senior SWE Bench: новый бенчмарк, который не прощает халтуру в AI-кодинге