Сравнение GPT-5.2, GLM-4.7 и DeepSeek v3.2 на SWE-bench: результаты 2025 | AiManual
AiManual Logo Ai / Manual.
16 Янв 2026 Новости

SWE-bench 2025: GPT-5.2, GLM-4.7 и DeepSeek v3.2 дерутся за титул лучшего кодера

Свежие данные с SWE-bench лидерборда: кто из языковых моделей лучше пишет код в 2025 году. GPT-5.2 против GLM-4.7 против DeepSeek v3.2.

Декабрьский разгром: когда open-source бьет проприетарные модели

SWE-bench лидерборд обновился вчера. И данные шокируют. Тот самый бенчмарк, где модели решают реальные issues из GitHub репозиториев вроде Django, pandas, scikit-learn. Не синтетические задачки, а настоящие баги, которые разработчики месяцами фиксили в пулл-реквестах.

Ожидали, что GPT-5.2 с его миллионом токенов контекста и улучшенным reasoning'ом займет первое место. Ошиблись. DeepSeek v3.2 — китайская модель, о которой мы писали как о "темной лошадке" — показала результат, от которого у OpenAI наверняка подгорело.

Модель SWE-bench Lite (%) SWE-bench Full (%) Стоимость (за 1М токенов) Контекст
DeepSeek v3.2 78.3 62.1 $0.80 1.5M
GPT-5.2 75.8 59.7 $1.50 1M
GLM-4.7 73.2 57.4 $0.95 1M
Claude 4.5 Sonnet 71.5 55.9 $3.00 200K
Gemini 3 Flash 69.8 53.2 $0.35 1M

SWE-bench Full — полная версия с 2294 задачами. Lite — упрощенная с 300 задачами. Процент показывает долю успешно решенных issues. Разница в 2.5% между первым и вторым местом — это примерно 57 задач, которые GPT-5.2 не смог решить, а DeepSeek v3.2 смог.

Почему DeepSeek победил? Не размером, а архитектурой

Все ждали, что GPT-5.2 с его улучшенным reasoning'ом будет доминировать. В теории — да. На практике — китайская модель оказалась умнее в конкретных вещах.

DeepSeek v3.2 использует ту же архитектуру reasoning, что и будущая V4: иерархическую память для работы с большими кодовыми базами. Модель не просто читает файлы — она строит ментальную карту зависимостей. Когда нужно исправить баг в Django middleware, она помнит, какие еще модули затронет изменение.

GPT-5.2? Он силен в общих рассуждениях. Но на SWE-bench это не всегда помогает. Там нужна специфическая экспертиза: знание тонкостей Python, понимание, как работают конкретные библиотеки. DeepSeek тренировали на китайских аналогах GitHub — Gitee, где кодовая база отличается от западной. И это дало неожиданное преимущество: модель видела больше разнообразных паттернов.

💡
Интересный факт: GLM-4.7, о котором мы писали в сравнении для Python и React, показал результат близкий к GPT-5.2, но стоит в полтора раза дешевле. Для многих разработчиков это уже достаточный аргумент для перехода.

Сюрприз №2: Gemini Flash против Gemini Pro

Вот это действительно удивило. Gemini 3 Flash — легкая, дешевая модель ($0.35 за 1М токенов) — почти догнала Gemini 3 Pro на SWE-bench Lite. Разница всего 1.7%.

Что это значит? Google оптимизировал Flash именно для кодинга. Убрал лишние возможности (мультимодальность, глубокие рассуждения), оставил ядро — генерацию кода. И получил модель, которая за копейки решает 70% задач.

Внимание: SWE-bench не проверяет качество кода в долгосрочной перспективе. Модель может "решить" задачу, но код окажется неоптимальным, с потенциальными уязвимостями. Всегда проверяйте сгенерированный код.

High-effort reasoning: когда модели думают слишком долго

В SWE-bench есть параметр "high-effort" — задачи, где модели разрешают делать много шагов reasoning'а. GPT-5.2 здесь ожидаемо силен. Но DeepSeek v3.2 показал интересную вещь: она не всегда использует максимальное количество шагов.

Вместо этого модель быстро определяет тип проблемы и применяет заранее выученные паттерны. Это как senior developer, который видит баг и сразу понимает, где искать причину. Не нужно проходить весь кодbase — достаточно проверить три конкретных места.

GLM-4.7, кстати, использует похожий подход. В нашем практическом сравнении для разработки мы заметили, что модель часто предлагает решения, которые выглядят "шаблонно", но работают.

Что выбирают разработчики в 2025?

Цена против качества. DeepSeek v3.2 дешевле GPT-5.2 почти в два раза ($0.80 против $1.50) и показывает лучший результат. Для стартапов и инди-разработчиков выбор очевиден.

Но есть нюанс: GPT-5.2 все еще лучше справляется с нестандартными задачами, где нет готовых паттернов. Если нужно не просто пофиксить баг, а придумать новую архитектуру — OpenAI пока впереди.

  • Для рутинных фиксов: DeepSeek v3.2 или Gemini Flash. Дешево и эффективно
  • Для сложного рефакторинга: GPT-5.2 или GLM-4.7. Нужен глубокий reasoning
  • Для локальной разработки: посмотрите рейтинг локальных LLM 2025
  • Когда бюджет ограничен: GLM-4.7 дает 95% качества GPT-5.2 за 60% цены

Прогноз на 2026: open-source догонит?

DeepSeek уже обогнал GPT на SWE-bench. GLM-4.7 почти сравнялся. Китайские модели закрывают разрыв быстрее, чем ожидалось.

Следующий шаг — open-source модели с 480 миллиардами параметров, которые обещают появиться в 2026. Если они смогут работать на consumer железе — проприетарным моделям придется сильно снижать цены.

Мой совет разработчикам: не зацикливайтесь на одной модели. Держите подписку на GPT-5.2 для сложных задач, используйте DeepSeek или GLM для рутины. И следите за кодирующими агентами на слабом железе — они становятся умнее с каждым месяцем.

И последнее: не верьте слепо бенчмаркам. SWE-bench — отличный инструмент, но он не измеряет, насколько код будет поддерживаемым через полгода. Или сколько времени вы потратите на дебаг сгенерированного решения. Тестируйте модели на своих реальных проектах. Только так поймете, какая из них действительно экономит ваше время, а не просто набирает проценты в таблице.