Что за зверь такой, SWE-rebench-V2?

Представьте себе полигон для роботов-программистов. Не просто набор задач, а полную симуляцию: загрузил код, запустил, получил результат, увидел ошибку, исправил. Это SWE-rebench-V2. Если первая версия была прототипом, то V2 — это полноценный промышленный стандарт, выпущенный в начале 2026 года.

💡

SWE-rebench-V2 — это не статичный архив файлов. Это датасет-«песочница», где каждый пример кода можно исполнить в изолированной среде и немедленно получить фидбек. Именно это делает его золотым стандартом для обучения с подкреплением (RL).

1Цифры, которые сносят голову

Разработчики не стали мелочиться. На 03.03.2026 датасет содержит:

1.8 миллиона уникальных задач на исправление кода (fixes).
12 языков программирования ядра: Python, JavaScript, TypeScript, Java, C++, Go, Rust, Ruby, PHP, C#, Swift, Kotlin.
Интегрированная исполнительная среда на базе Docker и WebAssembly для безопасного рантайма.
Метаданные с уровнем сложности, тегами (security, performance, bug) и ссылками на оригинальные PR из GitHub.

Параметр	SWE-rebench-V2	SWE-bench (старый)
Примеров	~1.8M	~0.3M
Языки	12	1 (Python)
Исполнение	Встроенная среда	Нет
Актуальность	Задачи 2022-2025 гг.	До 2021 года

2Зачем тут эта песочница? (Исполнительная среда)

Вот где кроется главная фишка. Раньше мы учили модели генерировать код, а потом вручную проверяли его на нескольких тестах. Скучно, долго, ненадежно. SWE-rebench-V2 убивает эту рутину.

Каждый пример — это не просто код. Это контейнер с зависимостями, тестами и четким критерием успеха: исправленный код должен пройти все юнит-тесты. Модель-агент получает задачу, среду и может выполнять код, видя результаты или ошибки. Идеально для RL. Звучит логично, но есть нюанс: среда требует ресурсов. Запуск 1.8 миллионов контейнеров — не шутка.

На практике для обучения лучше использовать стратегию выборки или предварительную фильтрацию по сложности. Качать весь датасет и пытаться все запустить — верный путь к разорению облачного бюджета. К счастью, на Hugging Face есть streamable-версия.

Чем не угодили старые датасеты?

HumanEval? MBPP? Они устарели, как Windows XP. Они статичны, малы и часто содержат синтетические задачи. SWE-rebench-V2 построен на реальных баг-репортах и pull request'ах из живых проектов. Это грязный, сложный, но настоящий мир.

Возьмем для примера сборку датасета из GitHub. Там описана боль ручной очистки. SWE-rebench-V2 эту боль уже переварил. Он предлагает готовый, отфильтрованный и структурированный продукт.

Альтернативы в 2026 году? Есть специализированные датасеты вроде SecurityBench для аудита, но они узкие. Универсального конкурента по масштабу и качеству исполнения нет. Вернее, был один — оригинальный SWE-bench, но его разнесли в пух и прах за моноязычность.

Как взять и попробовать? Без лишней магии

Все крутится вокруг Hugging Face. Датасет доступен по адресу bigcode/swe-rebench-v2. Самое важное — использовать streaming, иначе ваш SSD заплачет.

Вот как это выглядит в жизни:

from datasets import load_dataset
# Только так, иначе терабайты данных полетят к вам на диск
ds = load_dataset("bigcode/swe-rebench-v2", streaming=True, split="train")
# Фильтруем по языку и сложности на лету
example = next(iter(ds.filter(lambda x: x["language"] == "python" and x["difficulty"] == "medium")))
print(example["problem_statement"][:500])

Для интеграции в пайплайн обучения с подкреплением придется поднять локальную или облачную среду исполнения. Авторы предлагают Docker-образ с API. В теории это работает просто, но на практике нужно настроить оркестрацию. Если не хотите тратить неделю на настройку, посмотрите на автоматизацию с HF-skills.

💡

Используйте датасет как источник высококачественных примеров для тонкой настройки (fine-tuning), а не только для RL. Например, можно взять 10 тысяч исправлений на Python и быстро дообучить модель типа Qwen 4B с помощью LoRA. Результат будет лучше, чем на синтетических данных.

Кому это вообще нужно? (Спойлер: не всем)

Это инструмент для профессионалов, а не для хобби.

Исследователи в области AI для кода: Если вы строите нового код-агента и хотите оценить его на реалистичных задачах, это ваш эталон. Лидерборд на официальном сайте обновляется еженедельно.
Инженеры машинного обучения в крупных компаниях: Для обучения внутренних моделей-помощников. Датасет мультиязычный, что критично для корпоративных проектов.
Энтузиасты, у которых есть доступ к серьезным GPU-кластерам: Для экспериментов с RL, как в дистилляции навыков аудита.

Новичкам, которые только осваивают fine-tuning на Gemma-3-4b-it, я бы не советовал лезть в SWE-rebench-V2 сразу. Начните с чего-то меньше и понятнее. Этот датасет — как реактор: мощно, но сложно в управлении.

Неочевидный лайфхак напоследок

Многие гонятся за размером и пытаются загнать в модель все 1.8 миллиона примеров. Не делайте так. Эффективность обучения часто упирается не в объем, а в качество и баланс. Возьмите 5% данных, но тщательно сбалансируйте по языкам и типам ошибок. Обучите модель. Сравните результаты с моделью, обученной на всём датасете. Скорее всего, разница будет в пределах статистической погрешности, а время и стоимость обучения упадут в разы.

И помните, что любой датасет, даже самый свежий на 03.03.2026, начинает устаревать в момент релиза. Используйте SWE-rebench-V2 как фундамент, но дополняйте его своими данными из актуальных проектов. Иначе ваш агент будет блестяще чинить баги пятилетней давности, но споткнётся о вчерашний апдейт TypeScript.

Подписаться на канал

SWE-rebench-V2: как использовать крупнейший датасет для обучения код-агентов