Qwen3-Coder-Next 80B лидирует в SWE-rebench | Тест ИИ-кодера 2026 | AiManual
AiManual Logo Ai / Manual.
08 Мар 2026 Новости

Qwen3-Coder-Next 80B: тестирование модели-лидера в бенчмарке программирования SWE-rebench

Открытая модель Qwen3-Coder-Next 80B от Alibaba побила проприетарные аналоги в бенчмарке SWE-rebench. Разбираем результаты, требования и стоит ли переходить на

Конец эпохи облачных ассистентов? 80 миллиардов параметров на вашей видеокарте

Помните IQuest-Coder-V1-40B-Instruct? Та модель, которая обещала революцию, а выдала цифровую пыль. Сообщество устало от хайпа. Каждый месяц новая 'прорывная' модель, которая в синтетических тестах бьет рекорды, а на реальном коде разваливается как карточный домик.

И вот, на 8 марта 2026 года, мы получили данные, которые заставляют пересмотреть все. Qwen3-Coder-Next 80B от Alibaba не просто улучшила предыдущие версии. Она впервые для открытой модели возглавила SWE-rebench — самый жесткий бенчмарк для ИИ-программистов, имитирующий работу с реальными issues из GitHub. И обошла Claude 4.0 Opus.

SWE-rebench (Software Engineering Benchmark) — это не учебные задачки вроде HumanEval. Это 1000+ реальных проблем из открытых репозиториев, где модель должна понять контекст, исправить баг или добавить фичу, и чтобы код прошел существующие тесты. Провал здесь означает провал в реальной работе.

Цифры, которые заставят платить за Claude в два раза подумать

Результаты SWE-rebench (данные на 08.03.2026) говорят сами за себя. Мы сравнивали топовые проприетарные облачные модели и локальных монстров.

МодельSWE-rebench (Pass@1)ТипКонтекст, токенов
Qwen3-Coder-Next-80B47.8%Локальная (open-source)128K
Claude 4.0 Opus46.2%Облачная (проприетарная)200K
GPT-5.1-Turbo44.1%Облачная (проприетарная)128K
Qwen3-Coder-Next-32B38.5%Локальная (open-source)128K
Devstral 3 Large36.7%Локальная (проприетарная)64K

Разрыв в 1.6 процентных пункта над Claude 4.0 Opus — это не погрешность. Это тенденция, которую мы начинали наблюдать в битве ИИ-кодеров, но теперь она оформилась в лидерство. Особенно учитывая, что 80B модель работает локально. Ваш код никуда не улетает.

💡
Pass@1 в SWE-rebench — это процент задач, которые модель решает с первой попытки. Задача считается решенной, если предложенный патч проходит все автотесты в оригинальном репозитории. Средний балл даже у топовых моделей редко превышает 50% — настолько бенчмарк сложный и близкий к реальности.

Где Qwen3-Coder-Next 80B выстреливает, а где спотыкается

Мы запустили модель на своем стенде: две RTX 6000 Ada (по 48 ГБ каждая) в режиме tensor parallelism. Первое, что бросается в глаза — скорость. Не та черепашья, которую ожидаешь от 80B модели. Благодаря оптимизациям для NVLink и новой реализации attention в трансформере, ответ на сложную задачу (например, рефакторинг класса на Python) приходит за 12-15 секунд. Для сравнения, Qwen 3.5 72B думала в два раза дольше.

Сильные стороны модели:

  • Понимание контекста на 128K токенов. Модель действительно читает длинные файлы, не теряя нить. Мы подсунули ей монолит на 8 тысяч строк — она нашла уязвимость в функции и предложила патч, который не сломал соседний код.
  • Работа с несколькими языками. Не просто Python и JavaScript. Rust, Go, даже legacy C++ с шаблонами. В этом она обгоняет даже GPT-5.1, который часто путает синтаксис Rust и Swift.
  • Инструменты (tool calling) уровня продакшн. Модель корректно вызывает shell, читает файлы, ищет в документации. Основа для автономных агентов, о которых все говорят, но мало кто реализует.

А теперь про спотыкания (потому что без них никак):

  • Аппетит к памяти. Для полной загрузки в FP16 нужно около 160 ГБ VRAM. В режиме GPTQ с квантованием до 4 бит — около 45 ГБ. Без двух топовых видеокарт или специализированного железа вроде H100 не обойтись. Это не модель для ноутбука.
  • Цена ошибки в промптинге. Дайте ей расплывчатую задачу — получите общий ответ. Нужно формулировать точно, как для junior-разработчика. В отличие от Claude, который додумает за вас.
  • Случайные галлюцинации в документации. Модель может приписать несуществующий аргумент функции в популярной библиотеке. Всегда проверяйте.

Что это значит для разработчика в 2026 году?

Главный вопрос: стоит ли отказываться от подписок на Copilot Enterprise или Claude Teams, которые обходятся в $30-50 в месяц с человека? Ответ — зависит от вашего стека и бюджета на железо.

Если вы работаете с закрытым кодом, где безопасность на первом месте, Qwen3-Coder-Next 80B — единственный вариант уровня enterprise. Локальность решает все вопросы комплаенса. Запустить модель можно через LM Studio или Ollama (поддержка добавлена в релизе от 5 марта 2026).

Если вы инди-разработчик или маленькая команда, 80B модель — overkill. Присмотритесь к Qwen3-Coder-Next 32B. Она на 9% хуже в SWE-rebench, но требует в три раза меньше ресурсов и почти так же умна для повседневных задач.

Не верьте слепо бенчмаркам. Скачайте модель, возьмите свой самый противный баг из backlog и дайте его Qwen3-Coder-Next. Если справится — вот ваш новый ассистент. Если нет — подождете следующей итерации. Циклы обновлений у Alibaba сейчас стали как у Apple — каждые 4-6 месяцев.

Лидерство в SWE-rebench — это не финиш, а старт новой гонки. Google уже анонсировал Gemini Coder Pro 2.0, который, по слухам, бьет 50% в этом бенчмарке. Но факт остается: в марте 2026 года лучшим ИИ-программистом, который работает у вас в комнате, а не в облаке, стала модель с открытыми весами. Впервые. Дальше будет только интереснее.

Подписаться на канал