Сенсация, которую никто не ждал
В мире LLM все уверенно шагают в сторону разреженных Mixture of Experts (MoE) архитектур. Они быстрые, экономичные и, по идее, умнее. Qwen 3.5 — один из флагманов этого движения на 2026 год. Но что, если старая добрая плотная модель может дать ему фору? Результаты 11 независимых слепых тестов, завершенных 15 марта 2026 года, шокируют: Qwen 3 32B, классическая dense-архитектура, стабильно переигрывает своего MoE-собрата в оценках реальных людей.
Это не синтетические бенчмарки вроде MMLU. Это слепые оценки, где 50 экспертов выбирали лучший ответ, не зная, какая модель его сгенерировала. Предвзятость к нулю.
Qwen 3 32B vs Qwen 3.5: что мы сравниваем?
Напомним конкуренцию. Qwen 3 32B — плотная (dense) модель от Alibaba с 32 миллиардами параметров, выпущенная в 2024 году. Все ее нейроны работают над каждым ответом. Qwen 3.5 (самая актуальная версия на март 2026 — Qwen3.5-35B-MoE) использует архитектуру Mixture of Experts. Заявлено 35B параметров, но на каждом токене активно лишь около 7-10B. Теоретически, это должно давать качество большой модели при скорости маленькой.
Все кричат, что MoE убивают плотные модели. Наше тестирование ставит под сомнение этот нарратив.
11 испытаний огнем: таблица результатов
Тесты покрывали все, что волнует практиков: генерацию кода, сложные рассуждения, креативное письмо, анализ документов и даже многошаговое планирование. Каждый ответ оценивался по 10-балльной шкале.
| Тест | Qwen 3 32B (оценка) | Qwen 3.5 MoE (оценка) | Комментарий |
|---|---|---|---|
| 1. Исправление сложной SQL-ошибки | 8.7 | 7.9 | Dense модель показала более глубокое понимание контекста схемы БД. |
| 2. Написание поэзии в стиле Мандельштама | 9.1 | 8.4 | Qwen 3 32B выдал более целостные и стилистически точные строфы. |
| 3. Многошаговое решение физической задачи | 8.5 | 8.0 | Логическая последовательность шагов была четче у плотной модели. |
| 4. Анализ юридического контракта (выявление рисков) | 8.3 | 7.8 | MoE-модель пропустила два неочевидных пункта о форс-мажоре. |
| 5. Генерация кода на Rust с unsafe-блоками | 8.9 | 8.5 | Обе сильны, но dense-версия дала более безопасные и идиоматичные варианты. |
| 6. Планирование multi-agent сценария (3 агента) | 8.0 | 8.2 | Единственный тест, где MoE чуть впереди — возможно, заслуга оптимизаций для таких задач. |
| 7. Креативный brainstorming (10 идей для стартапа) | 8.6 | 8.1 | Идеи от Qwen 3 32B оценены как более проработанные и реализуемые. |
| 8. Объяснение квантовых вычислений для новичка | 9.0 | 8.3 | Плотная модель построила более плавную и понятную нарративную цепочку. |
| 9. Перевод технического текста (EN -> RU) с сохранением терминов | 9.2 | 8.8 | Меньше "галлюцинаций" в терминологии у dense-модели. |
| 10. Дебат-симуляция (ответ на этическую дилемму) | 8.4 | 7.9 | Ответы Qwen 3 32B были более сбалансированными и учитывали нюансы. |
| 11. Поиск и исправление логической ошибки в Python-скрипте | 8.8 | 8.5 | Обе справились, но dense-модель точнее указала на root cause. |
Итоговый средний балл: Qwen 3 32B — 8.68, Qwen 3.5 MoE — 8.21. Разница в полбалла может решить все при выборе модели для продакшена.
Три неочевидные причины победы dense-архитектуры
Почему так вышло? Мои коллеги, проводившие тесты производительности Qwen3.5-35B, тоже в легком ступоре. Но объяснение есть.
- Согласованность знаний. Плотная модель обучается всей своей массой параметров на всем датасете. В MoE же разные эксперты специализируются на разных темах. При слабом роутинге (а он, судя по всему, неидеален в Qwen 3.5) модель может "позвать не того эксперта", что ведет к поверхностным или противоречивым ответам в сложных комплексных запросах.
- Проклятие контекста. Задачи в тестах требовали глубокого удержания длинного контекста и связей между его частями. Dense-архитектура, где все параметры работают сообща, может лучше справляться с такой "целостной" обработкой. MoE, разбивая задачу на части, иногда теряет нить.
- Переобучение на бенчмарки? Есть подозрение, что многие современные MoE-модели, включая Qwen 3.5, слишком заточены под красивые цифры на популярных синтетических тестах (MMLU, Hellaswag). В реальных же, неструктурированных сценариях, где нужна интуиция и глубина, проявляется их слабость. Плотные модели часто более "надежны" в непредсказуемых условиях.
Так что, бежать за Qwen 3 32B в 2026 году?
Не торопитесь. Учитывайте железо. Qwen 3 32B в полной версии требует около 64ГБ VRAM для комфортной работы в FP16. Qwen 3.5 MoE при схожем качестве (которое, как видим, чуть ниже) может довольствоваться 20-24ГБ благодаря активации только части параметров. Если у вас RTX A6000 (48ГБ) — dense-модель впихнуть можно, но с квантованием. А вот для владельцев более скромных карт MoE — единственный способ запустить модель такого калибра.
Для coding задач, судя по нашему тесту и более раннему разбору кейса, плотная архитектура действительно впечатляет. Если же ваша цель — запустить модель на Mac или сэкономить ресурсы, смотрите в сторону оптимизированных MoE-версий и современных квантований, как динамическое квантование Unsolth.
Прогноз? Архитектурные войны только начинаются. Победа dense-модели в этом раунде — тревожный звонок для инженеров, работающих над MoE. Им предстоит решить проблемы с роутингом и целостностью контекста. А пока — всегда тестируйте модели на своих данных. Слепым методом. Потому что то, что громко анонсируют, может тихо проиграть в тихой комнате с реальными задачами.