Какая модель показала лучший результат на SWE-bench в 2025 году?

DeepSeek v3.2 заняла первое место с результатом 78.3% на SWE-bench Lite и 62.1% на полной версии, обогнав GPT-5.2.

Насколько дешевле DeepSeek v3.2 по сравнению с GPT-5.2?

DeepSeek v3.2 стоит $0.80 за 1 миллион токенов, в то время как GPT-5.2 — $1.50, что почти в два раза дороже.

Почему Gemini Flash показала хороший результат несмотря на низкую цену?

Google оптимизировал Gemini Flash специально для генерации кода, убрав лишние функции и оставив ядро для решения программистских задач.

Стоит ли переходить с GPT-5.2 на DeepSeek или GLM-4.7?

Для рутинных задач и фиксов багов — да, это экономит деньги. Для сложного рефакторинга и архитектурных решений GPT-5.2 все еще может быть лучше.

Сравнение GPT-5.2, GLM-4.7 и DeepSeek v3.2 на SWE-bench: результаты 2025

Декабрьский разгром: когда open-source бьет проприетарные модели

SWE-bench лидерборд обновился вчера. И данные шокируют. Тот самый бенчмарк, где модели решают реальные issues из GitHub репозиториев вроде Django, pandas, scikit-learn. Не синтетические задачки, а настоящие баги, которые разработчики месяцами фиксили в пулл-реквестах.

Ожидали, что GPT-5.2 с его миллионом токенов контекста и улучшенным reasoning'ом займет первое место. Ошиблись. DeepSeek v3.2 — китайская модель, о которой мы писали как о "темной лошадке" — показала результат, от которого у OpenAI наверняка подгорело.

Модель	SWE-bench Lite (%)	SWE-bench Full (%)	Стоимость (за 1М токенов)	Контекст
DeepSeek v3.2	78.3	62.1	$0.80	1.5M
GPT-5.2	75.8	59.7	$1.50	1M
GLM-4.7	73.2	57.4	$0.95	1M
Claude 4.5 Sonnet	71.5	55.9	$3.00	200K
Gemini 3 Flash	69.8	53.2	$0.35	1M

SWE-bench Full — полная версия с 2294 задачами. Lite — упрощенная с 300 задачами. Процент показывает долю успешно решенных issues. Разница в 2.5% между первым и вторым местом — это примерно 57 задач, которые GPT-5.2 не смог решить, а DeepSeek v3.2 смог.

Почему DeepSeek победил? Не размером, а архитектурой

Все ждали, что GPT-5.2 с его улучшенным reasoning'ом будет доминировать. В теории — да. На практике — китайская модель оказалась умнее в конкретных вещах.

DeepSeek v3.2 использует ту же архитектуру reasoning, что и будущая V4: иерархическую память для работы с большими кодовыми базами. Модель не просто читает файлы — она строит ментальную карту зависимостей. Когда нужно исправить баг в Django middleware, она помнит, какие еще модули затронет изменение.

GPT-5.2? Он силен в общих рассуждениях. Но на SWE-bench это не всегда помогает. Там нужна специфическая экспертиза: знание тонкостей Python, понимание, как работают конкретные библиотеки. DeepSeek тренировали на китайских аналогах GitHub — Gitee, где кодовая база отличается от западной. И это дало неожиданное преимущество: модель видела больше разнообразных паттернов.

💡

Интересный факт: GLM-4.7, о котором мы писали в сравнении для Python и React, показал результат близкий к GPT-5.2, но стоит в полтора раза дешевле. Для многих разработчиков это уже достаточный аргумент для перехода.

Сюрприз №2: Gemini Flash против Gemini Pro

Вот это действительно удивило. Gemini 3 Flash — легкая, дешевая модель ($0.35 за 1М токенов) — почти догнала Gemini 3 Pro на SWE-bench Lite. Разница всего 1.7%.

Что это значит? Google оптимизировал Flash именно для кодинга. Убрал лишние возможности (мультимодальность, глубокие рассуждения), оставил ядро — генерацию кода. И получил модель, которая за копейки решает 70% задач.

Внимание: SWE-bench не проверяет качество кода в долгосрочной перспективе. Модель может "решить" задачу, но код окажется неоптимальным, с потенциальными уязвимостями. Всегда проверяйте сгенерированный код.

High-effort reasoning: когда модели думают слишком долго

В SWE-bench есть параметр "high-effort" — задачи, где модели разрешают делать много шагов reasoning'а. GPT-5.2 здесь ожидаемо силен. Но DeepSeek v3.2 показал интересную вещь: она не всегда использует максимальное количество шагов.

Вместо этого модель быстро определяет тип проблемы и применяет заранее выученные паттерны. Это как senior developer, который видит баг и сразу понимает, где искать причину. Не нужно проходить весь кодbase — достаточно проверить три конкретных места.

GLM-4.7, кстати, использует похожий подход. В нашем практическом сравнении для разработки мы заметили, что модель часто предлагает решения, которые выглядят "шаблонно", но работают.

Что выбирают разработчики в 2025?

Цена против качества. DeepSeek v3.2 дешевле GPT-5.2 почти в два раза ($0.80 против $1.50) и показывает лучший результат. Для стартапов и инди-разработчиков выбор очевиден.

Но есть нюанс: GPT-5.2 все еще лучше справляется с нестандартными задачами, где нет готовых паттернов. Если нужно не просто пофиксить баг, а придумать новую архитектуру — OpenAI пока впереди.

Для рутинных фиксов: DeepSeek v3.2 или Gemini Flash. Дешево и эффективно
Для сложного рефакторинга: GPT-5.2 или GLM-4.7. Нужен глубокий reasoning
Для локальной разработки: посмотрите рейтинг локальных LLM 2025
Когда бюджет ограничен: GLM-4.7 дает 95% качества GPT-5.2 за 60% цены

Прогноз на 2026: open-source догонит?

DeepSeek уже обогнал GPT на SWE-bench. GLM-4.7 почти сравнялся. Китайские модели закрывают разрыв быстрее, чем ожидалось.

Следующий шаг — open-source модели с 480 миллиардами параметров, которые обещают появиться в 2026. Если они смогут работать на consumer железе — проприетарным моделям придется сильно снижать цены.

Мой совет разработчикам: не зацикливайтесь на одной модели. Держите подписку на GPT-5.2 для сложных задач, используйте DeepSeek или GLM для рутины. И следите за кодирующими агентами на слабом железе — они становятся умнее с каждым месяцем.

И последнее: не верьте слепо бенчмаркам. SWE-bench — отличный инструмент, но он не измеряет, насколько код будет поддерживаемым через полгода. Или сколько времени вы потратите на дебаг сгенерированного решения. Тестируйте модели на своих реальных проектах. Только так поймете, какая из них действительно экономит ваше время, а не просто набирает проценты в таблице.

SWE-bench 2025: GPT-5.2, GLM-4.7 и DeepSeek v3.2 дерутся за титул лучшего кодера