Что такое SWE-rebench?

SWE-rebench (Software Engineering Benchmark) — это продвинутый бенчмарк для оценки ИИ-моделей в программировании, использующий реальные проблемы (issues) из GitHub-репозиториев. Модель должна понять контекст, исправить баг или добавить функцию так, чтобы код прошел существующие тесты проекта.

Какое железо нужно для запуска Qwen3-Coder-Next 80B?

Для комфортной работы с полной точностью (FP16) модели требуется около 160 ГБ видеопамяти (VRAM). При использовании квантования до 4 бит (GPTQ) достаточно примерно 45 ГБ. Рекомендуются две высокопроизводительные видеокарты (например, RTX 6000 Ada) с поддержкой NVLink или серверное железо вроде H100.

Чем Qwen3-Coder-Next лучше облачных аналогов вроде Claude?

Главное преимущество — локальность работы: ваш код не покидает инфраструктуру, что критично для безопасности и compliance. При этом, по данным на март 2026, модель показывает лучший результат в SWE-rebench (47.8% Pass@1), чем проприетарные облачные конкуренты.

Qwen3-Coder-Next 80B лидирует в SWE-rebench | Тест ИИ-кодера 2026

Конец эпохи облачных ассистентов? 80 миллиардов параметров на вашей видеокарте

Помните IQuest-Coder-V1-40B-Instruct? Та модель, которая обещала революцию, а выдала цифровую пыль. Сообщество устало от хайпа. Каждый месяц новая 'прорывная' модель, которая в синтетических тестах бьет рекорды, а на реальном коде разваливается как карточный домик.

И вот, на 8 марта 2026 года, мы получили данные, которые заставляют пересмотреть все. Qwen3-Coder-Next 80B от Alibaba не просто улучшила предыдущие версии. Она впервые для открытой модели возглавила SWE-rebench — самый жесткий бенчмарк для ИИ-программистов, имитирующий работу с реальными issues из GitHub. И обошла Claude 4.0 Opus.

SWE-rebench (Software Engineering Benchmark) — это не учебные задачки вроде HumanEval. Это 1000+ реальных проблем из открытых репозиториев, где модель должна понять контекст, исправить баг или добавить фичу, и чтобы код прошел существующие тесты. Провал здесь означает провал в реальной работе.

Цифры, которые заставят платить за Claude в два раза подумать

Результаты SWE-rebench (данные на 08.03.2026) говорят сами за себя. Мы сравнивали топовые проприетарные облачные модели и локальных монстров.

Модель	SWE-rebench (Pass@1)	Тип	Контекст, токенов
Qwen3-Coder-Next-80B	47.8%	Локальная (open-source)	128K
Claude 4.0 Opus	46.2%	Облачная (проприетарная)	200K
GPT-5.1-Turbo	44.1%	Облачная (проприетарная)	128K
Qwen3-Coder-Next-32B	38.5%	Локальная (open-source)	128K
Devstral 3 Large	36.7%	Локальная (проприетарная)	64K

Разрыв в 1.6 процентных пункта над Claude 4.0 Opus — это не погрешность. Это тенденция, которую мы начинали наблюдать в битве ИИ-кодеров, но теперь она оформилась в лидерство. Особенно учитывая, что 80B модель работает локально. Ваш код никуда не улетает.

💡

Pass@1 в SWE-rebench — это процент задач, которые модель решает с первой попытки. Задача считается решенной, если предложенный патч проходит все автотесты в оригинальном репозитории. Средний балл даже у топовых моделей редко превышает 50% — настолько бенчмарк сложный и близкий к реальности.

Где Qwen3-Coder-Next 80B выстреливает, а где спотыкается

Мы запустили модель на своем стенде: две RTX 6000 Ada (по 48 ГБ каждая) в режиме tensor parallelism. Первое, что бросается в глаза — скорость. Не та черепашья, которую ожидаешь от 80B модели. Благодаря оптимизациям для NVLink и новой реализации attention в трансформере, ответ на сложную задачу (например, рефакторинг класса на Python) приходит за 12-15 секунд. Для сравнения, Qwen 3.5 72B думала в два раза дольше.

Сильные стороны модели:

Понимание контекста на 128K токенов. Модель действительно читает длинные файлы, не теряя нить. Мы подсунули ей монолит на 8 тысяч строк — она нашла уязвимость в функции и предложила патч, который не сломал соседний код.
Работа с несколькими языками. Не просто Python и JavaScript. Rust, Go, даже legacy C++ с шаблонами. В этом она обгоняет даже GPT-5.1, который часто путает синтаксис Rust и Swift.
Инструменты (tool calling) уровня продакшн. Модель корректно вызывает shell, читает файлы, ищет в документации. Основа для автономных агентов, о которых все говорят, но мало кто реализует.

А теперь про спотыкания (потому что без них никак):

Аппетит к памяти. Для полной загрузки в FP16 нужно около 160 ГБ VRAM. В режиме GPTQ с квантованием до 4 бит — около 45 ГБ. Без двух топовых видеокарт или специализированного железа вроде H100 не обойтись. Это не модель для ноутбука.
Цена ошибки в промптинге. Дайте ей расплывчатую задачу — получите общий ответ. Нужно формулировать точно, как для junior-разработчика. В отличие от Claude, который додумает за вас.
Случайные галлюцинации в документации. Модель может приписать несуществующий аргумент функции в популярной библиотеке. Всегда проверяйте.

Что это значит для разработчика в 2026 году?

Главный вопрос: стоит ли отказываться от подписок на Copilot Enterprise или Claude Teams, которые обходятся в $30-50 в месяц с человека? Ответ — зависит от вашего стека и бюджета на железо.

Если вы работаете с закрытым кодом, где безопасность на первом месте, Qwen3-Coder-Next 80B — единственный вариант уровня enterprise. Локальность решает все вопросы комплаенса. Запустить модель можно через LM Studio или Ollama (поддержка добавлена в релизе от 5 марта 2026).

Если вы инди-разработчик или маленькая команда, 80B модель — overkill. Присмотритесь к Qwen3-Coder-Next 32B. Она на 9% хуже в SWE-rebench, но требует в три раза меньше ресурсов и почти так же умна для повседневных задач.

Не верьте слепо бенчмаркам. Скачайте модель, возьмите свой самый противный баг из backlog и дайте его Qwen3-Coder-Next. Если справится — вот ваш новый ассистент. Если нет — подождете следующей итерации. Циклы обновлений у Alibaba сейчас стали как у Apple — каждые 4-6 месяцев.

Лидерство в SWE-rebench — это не финиш, а старт новой гонки. Google уже анонсировал Gemini Coder Pro 2.0, который, по слухам, бьет 50% в этом бенчмарке. Но факт остается: в марте 2026 года лучшим ИИ-программистом, который работает у вас в комнате, а не в облаке, стала модель с открытыми весами. Впервые. Дальше будет только интереснее.

Подписаться на канал

Qwen3-Coder-Next 80B: тестирование модели-лидера в бенчмарке программирования SWE-rebench

Конец эпохи облачных ассистентов? 80 миллиардов параметров на вашей видеокарте

Цифры, которые заставят платить за Claude в два раза подумать

Где Qwen3-Coder-Next 80B выстреливает, а где спотыкается

Что это значит для разработчика в 2026 году?

Подписывайтесь на наш канал!