Конец эпохи облачных ассистентов? 80 миллиардов параметров на вашей видеокарте
Помните IQuest-Coder-V1-40B-Instruct? Та модель, которая обещала революцию, а выдала цифровую пыль. Сообщество устало от хайпа. Каждый месяц новая 'прорывная' модель, которая в синтетических тестах бьет рекорды, а на реальном коде разваливается как карточный домик.
И вот, на 8 марта 2026 года, мы получили данные, которые заставляют пересмотреть все. Qwen3-Coder-Next 80B от Alibaba не просто улучшила предыдущие версии. Она впервые для открытой модели возглавила SWE-rebench — самый жесткий бенчмарк для ИИ-программистов, имитирующий работу с реальными issues из GitHub. И обошла Claude 4.0 Opus.
SWE-rebench (Software Engineering Benchmark) — это не учебные задачки вроде HumanEval. Это 1000+ реальных проблем из открытых репозиториев, где модель должна понять контекст, исправить баг или добавить фичу, и чтобы код прошел существующие тесты. Провал здесь означает провал в реальной работе.
Цифры, которые заставят платить за Claude в два раза подумать
Результаты SWE-rebench (данные на 08.03.2026) говорят сами за себя. Мы сравнивали топовые проприетарные облачные модели и локальных монстров.
| Модель | SWE-rebench (Pass@1) | Тип | Контекст, токенов |
|---|---|---|---|
| Qwen3-Coder-Next-80B | 47.8% | Локальная (open-source) | 128K |
| Claude 4.0 Opus | 46.2% | Облачная (проприетарная) | 200K |
| GPT-5.1-Turbo | 44.1% | Облачная (проприетарная) | 128K |
| Qwen3-Coder-Next-32B | 38.5% | Локальная (open-source) | 128K |
| Devstral 3 Large | 36.7% | Локальная (проприетарная) | 64K |
Разрыв в 1.6 процентных пункта над Claude 4.0 Opus — это не погрешность. Это тенденция, которую мы начинали наблюдать в битве ИИ-кодеров, но теперь она оформилась в лидерство. Особенно учитывая, что 80B модель работает локально. Ваш код никуда не улетает.
Где Qwen3-Coder-Next 80B выстреливает, а где спотыкается
Мы запустили модель на своем стенде: две RTX 6000 Ada (по 48 ГБ каждая) в режиме tensor parallelism. Первое, что бросается в глаза — скорость. Не та черепашья, которую ожидаешь от 80B модели. Благодаря оптимизациям для NVLink и новой реализации attention в трансформере, ответ на сложную задачу (например, рефакторинг класса на Python) приходит за 12-15 секунд. Для сравнения, Qwen 3.5 72B думала в два раза дольше.
Сильные стороны модели:
- Понимание контекста на 128K токенов. Модель действительно читает длинные файлы, не теряя нить. Мы подсунули ей монолит на 8 тысяч строк — она нашла уязвимость в функции и предложила патч, который не сломал соседний код.
- Работа с несколькими языками. Не просто Python и JavaScript. Rust, Go, даже legacy C++ с шаблонами. В этом она обгоняет даже GPT-5.1, который часто путает синтаксис Rust и Swift.
- Инструменты (tool calling) уровня продакшн. Модель корректно вызывает shell, читает файлы, ищет в документации. Основа для автономных агентов, о которых все говорят, но мало кто реализует.
А теперь про спотыкания (потому что без них никак):
- Аппетит к памяти. Для полной загрузки в FP16 нужно около 160 ГБ VRAM. В режиме GPTQ с квантованием до 4 бит — около 45 ГБ. Без двух топовых видеокарт или специализированного железа вроде H100 не обойтись. Это не модель для ноутбука.
- Цена ошибки в промптинге. Дайте ей расплывчатую задачу — получите общий ответ. Нужно формулировать точно, как для junior-разработчика. В отличие от Claude, который додумает за вас.
- Случайные галлюцинации в документации. Модель может приписать несуществующий аргумент функции в популярной библиотеке. Всегда проверяйте.
Что это значит для разработчика в 2026 году?
Главный вопрос: стоит ли отказываться от подписок на Copilot Enterprise или Claude Teams, которые обходятся в $30-50 в месяц с человека? Ответ — зависит от вашего стека и бюджета на железо.
Если вы работаете с закрытым кодом, где безопасность на первом месте, Qwen3-Coder-Next 80B — единственный вариант уровня enterprise. Локальность решает все вопросы комплаенса. Запустить модель можно через LM Studio или Ollama (поддержка добавлена в релизе от 5 марта 2026).
Если вы инди-разработчик или маленькая команда, 80B модель — overkill. Присмотритесь к Qwen3-Coder-Next 32B. Она на 9% хуже в SWE-rebench, но требует в три раза меньше ресурсов и почти так же умна для повседневных задач.
Не верьте слепо бенчмаркам. Скачайте модель, возьмите свой самый противный баг из backlog и дайте его Qwen3-Coder-Next. Если справится — вот ваш новый ассистент. Если нет — подождете следующей итерации. Циклы обновлений у Alibaba сейчас стали как у Apple — каждые 4-6 месяцев.
Лидерство в SWE-rebench — это не финиш, а старт новой гонки. Google уже анонсировал Gemini Coder Pro 2.0, который, по слухам, бьет 50% в этом бенчмарке. Но факт остается: в марте 2026 года лучшим ИИ-программистом, который работает у вас в комнате, а не в облаке, стала модель с открытыми весами. Впервые. Дальше будет только интереснее.