SWE-rebench leaderboard: GLM-5.2, Qwen3.6, Gemma 4 – результаты

Очередной бенчмарк, который заставил разработчиков материться

Вышел новый SWE-rebench. И снова все бросились мериться токенами. Только на этот раз бенчмарк реально жесткий: не тестовые примеры из HumanEval, а настоящие баги из открытых репозиториев. Модель должна найти проблему, написать патч и пройти CI. Никаких «почти правильно».

GLM-5.2, Qwen3.6 27B и Gemma 4 31B — три модели, которые сейчас на пике хайпа. Как они справились? Спойлер: одна вырвалась вперёд, вторая разочаровала, третья показала, что размер — не главное.

SWE-rebench — это эволюция SWE-bench Verified. Вместо 300 задач теперь 500, плюс добавлены тесты на регрессии и совместимость. Датасет собран из реальных PR в Django, Flask, SymPy и других проектов. Модель получает описание бага, читает код, пишет diff. Оценка — pass@1.

GLM-5.2: первый, кто перешагнул порог 50%

В нашем тесте Terminal-Bench GLM-5.2 уже показывала чудеса. На SWE-rebench она подтвердила статус: 52.3% pass@1. Это абсолютный рекорд среди открытых моделей. Секрет? Архитектура с гибридным контекстным окном — модель не просто читает код, а держит в памяти историю изменений файла. Звучит логично, но реализация дьявольски сложная.

Интересный нюанс: GLM-5.2 лучше всего справляется с багами, где нужно модифицировать 3-5 строк. На сложных рефакторингах из 20+ строк — начинает тупить. Но для обычного разработчика это скорее плюс: 80% багов — это мелкие правки.

Qwen3.6-27B: почти догнала, но с оговорками

Qwen3.6 27B (апрельский релиз) — 48.1%. Отставание от лидера всего 4%. Но есть подвох. В нашем сравнении OpenCode модель показала отличные результаты на синтетике, но на реальных базах кода — странные провалы. Например, она блестяще чинит ошибки в Python, но сыпется на JavaScript. Бенчмарк это подтверждает: в задачах на Python pass@1 51%, на JS — 44%.

Ещё один сюрприз: Qwen3.6 потребляет в полтора раза больше памяти при инференсе, чем GLM-5.2 при схожем размере. Если вы планируете запускать локально, готовьтесь к апгрейду. Хорошая новость — есть проверенная конфигурация для RTX A6000, которая даёт 20 токенов в секунду.

Gemma 4 31B: разочарование или скрытый потенциал?

Gemma 4 31B набрала всего 43.7%. Для модели, которая в FoodTruck била 70B-конкурентов — это… странно. Но в нашем гайде по Gemma 4 мы предупреждали: на логических тестах она проваливается. SWE-rebench требует именно логики, а не генерации кода по шаблону.

Парадокс: если дать модели задачу «напиши функцию для парсинга CSV» — справится отлично. Но как только нужно понять, почему в production падает сервер — теряется. Причина — слабая способность к рассуждению о побочных эффектах и взаимодействии модулей.

Важный нюанс: Gemma 4 31B очень чувствительна к формату промпта. В бенчмарке использовался стандартный шаблон. Не исключено, что с кастомным промптом результат был бы выше. Но в реальной жизни разработчики не будут писать идеальные промпты для каждого бага.

А что с меньшими моделями?

В лидерборде появились и компактные модели: Qwen3.6-7B (38.2%), GLM-5.2-Flash (41.5%), Gemma 4 9B (35.9%). Они работают на потребительских видеокартах. Если у вас RTX 4090 — эти варианты вполне жизнеспособны. Особенно GLM-5.2-Flash, который почти догоняет полную Gemma 4.

В тесте 19 моделей на Strix Halo мы замеряли скорость инференса. GLM-5.2-Flash выдаёт 35 токенов/с на 16 ГБ VRAM. Для быстрых итераций — идеально.

Что это значит для разработчиков?

Лидерборд — это не про «кто круче». Это про выбор инструмента под задачу. Если вам нужно автоматизировать исправление багов в Python — берите GLM-5.2. Если работаете с многоязычным кодом и готовы пожертвовать точностью ради размера — Qwen3.6. Если хотите поэкспериментировать и не боитесь танцев с бубном — Gemma 4.

Но вот что интересно: ни одна модель не перешагнула порог 60%. Это значит, что доверять ИИ правку кода без человеческого контроля пока нельзя. Даже лучшие модели галлюцинируют в 50% случаев.

Мой совет: не гонитесь за топ-1 в бенчмарке. Возьмите ту модель, которую можете запустить у себя на железе. GLM-5.2-Flash на 48 ГБ VRAM даст 80% возможностей полной версии за 30% цены. А квантование IQ3_S позволяет воткнуть даже 40B-модель на одну карту.

Через полгода мы увидим модели, которые пройдут 70% SWE-rebench. Технология движется быстро. Но сегодня — выбирайте GLM-5.2, если можете себе это позволить, или Qwen3.6-7B, если бюджет ограничен. Gemma 4 оставьте для задач генерации кода с нуля — там она реально хороша.

Подписаться на канал

Новый SWE-rebench leaderboard: как модели GLM-5.2, Qwen3.6 и Gemma 4 справляются с задачами разработки