Почему плотная модель Qwen 3 32B победила в слепых тестах?

Основные причины: лучшая согласованность знаний (все параметры работают над всей задачей), более эффективная обработка длинного и сложного контекста, а также возможное переобучение MoE-моделей на синтетические бенчмарки в ущерб реальной глубине ответов.

Значит ли это, что MoE-модели хуже плотных?

Нет, не значит. MoE-модели, такие как Qwen 3.5, остаются крайне эффективными по соотношению скорость/качество и требуют меньше вычислительных ресурсов. Они отлично подходят для задач со специализированными доменами или при ограничениях по железу. Победа dense-модели указывает на то, что архитектурное преимущество MoE не абсолютно и зависит от конкретных задач.

Какую модель выбрать в 2026 году для своих проектов?

Выбор зависит от задач и инфраструктуры. Для сложных задач на понимание, кодинга и рассуждений, где качество ответа критично, а ресурсы позволяют, стоит рассмотреть плотные модели типа Qwen 3 32B. Для энергоэффективных развертываний, задач с четкой специализацией или работы на ограниченном железе (например, на CPU) MoE-модели вроде Qwen 3.5 могут быть предпочтительнее. Всегда тестируйте на своих данных.

Qwen 3 32B против Qwen 3.5: слепые тесты показывают победу плотной модели

Сенсация, которую никто не ждал

В мире LLM все уверенно шагают в сторону разреженных Mixture of Experts (MoE) архитектур. Они быстрые, экономичные и, по идее, умнее. Qwen 3.5 — один из флагманов этого движения на 2026 год. Но что, если старая добрая плотная модель может дать ему фору? Результаты 11 независимых слепых тестов, завершенных 15 марта 2026 года, шокируют: Qwen 3 32B, классическая dense-архитектура, стабильно переигрывает своего MoE-собрата в оценках реальных людей.

Это не синтетические бенчмарки вроде MMLU. Это слепые оценки, где 50 экспертов выбирали лучший ответ, не зная, какая модель его сгенерировала. Предвзятость к нулю.

Qwen 3 32B vs Qwen 3.5: что мы сравниваем?

Напомним конкуренцию. Qwen 3 32B — плотная (dense) модель от Alibaba с 32 миллиардами параметров, выпущенная в 2024 году. Все ее нейроны работают над каждым ответом. Qwen 3.5 (самая актуальная версия на март 2026 — Qwen3.5-35B-MoE) использует архитектуру Mixture of Experts. Заявлено 35B параметров, но на каждом токене активно лишь около 7-10B. Теоретически, это должно давать качество большой модели при скорости маленькой.

Все кричат, что MoE убивают плотные модели. Наше тестирование ставит под сомнение этот нарратив.

11 испытаний огнем: таблица результатов

Тесты покрывали все, что волнует практиков: генерацию кода, сложные рассуждения, креативное письмо, анализ документов и даже многошаговое планирование. Каждый ответ оценивался по 10-балльной шкале.

Тест	Qwen 3 32B (оценка)	Qwen 3.5 MoE (оценка)	Комментарий
1. Исправление сложной SQL-ошибки	8.7	7.9	Dense модель показала более глубокое понимание контекста схемы БД.
2. Написание поэзии в стиле Мандельштама	9.1	8.4	Qwen 3 32B выдал более целостные и стилистически точные строфы.
3. Многошаговое решение физической задачи	8.5	8.0	Логическая последовательность шагов была четче у плотной модели.
4. Анализ юридического контракта (выявление рисков)	8.3	7.8	MoE-модель пропустила два неочевидных пункта о форс-мажоре.
5. Генерация кода на Rust с unsafe-блоками	8.9	8.5	Обе сильны, но dense-версия дала более безопасные и идиоматичные варианты.
6. Планирование multi-agent сценария (3 агента)	8.0	8.2	Единственный тест, где MoE чуть впереди — возможно, заслуга оптимизаций для таких задач.
7. Креативный brainstorming (10 идей для стартапа)	8.6	8.1	Идеи от Qwen 3 32B оценены как более проработанные и реализуемые.
8. Объяснение квантовых вычислений для новичка	9.0	8.3	Плотная модель построила более плавную и понятную нарративную цепочку.
9. Перевод технического текста (EN -> RU) с сохранением терминов	9.2	8.8	Меньше "галлюцинаций" в терминологии у dense-модели.
10. Дебат-симуляция (ответ на этическую дилемму)	8.4	7.9	Ответы Qwen 3 32B были более сбалансированными и учитывали нюансы.
11. Поиск и исправление логической ошибки в Python-скрипте	8.8	8.5	Обе справились, но dense-модель точнее указала на root cause.

Итоговый средний балл: Qwen 3 32B — 8.68, Qwen 3.5 MoE — 8.21. Разница в полбалла может решить все при выборе модели для продакшена.

Три неочевидные причины победы dense-архитектуры

Почему так вышло? Мои коллеги, проводившие тесты производительности Qwen3.5-35B, тоже в легком ступоре. Но объяснение есть.

Согласованность знаний. Плотная модель обучается всей своей массой параметров на всем датасете. В MoE же разные эксперты специализируются на разных темах. При слабом роутинге (а он, судя по всему, неидеален в Qwen 3.5) модель может "позвать не того эксперта", что ведет к поверхностным или противоречивым ответам в сложных комплексных запросах.
Проклятие контекста. Задачи в тестах требовали глубокого удержания длинного контекста и связей между его частями. Dense-архитектура, где все параметры работают сообща, может лучше справляться с такой "целостной" обработкой. MoE, разбивая задачу на части, иногда теряет нить.
Переобучение на бенчмарки? Есть подозрение, что многие современные MoE-модели, включая Qwen 3.5, слишком заточены под красивые цифры на популярных синтетических тестах (MMLU, Hellaswag). В реальных же, неструктурированных сценариях, где нужна интуиция и глубина, проявляется их слабость. Плотные модели часто более "надежны" в непредсказуемых условиях.

💡

Это не значит, что MoE — плохо. Для задач, где критична скорость инференса и есть четкая тематическая специализация (например, tool-calling на CPU), они вне конкуренции. Но миф об их абсолютном превосходстве в качестве — лопнул.

Так что, бежать за Qwen 3 32B в 2026 году?

Не торопитесь. Учитывайте железо. Qwen 3 32B в полной версии требует около 64ГБ VRAM для комфортной работы в FP16. Qwen 3.5 MoE при схожем качестве (которое, как видим, чуть ниже) может довольствоваться 20-24ГБ благодаря активации только части параметров. Если у вас RTX A6000 (48ГБ) — dense-модель впихнуть можно, но с квантованием. А вот для владельцев более скромных карт MoE — единственный способ запустить модель такого калибра.

Для coding задач, судя по нашему тесту и более раннему разбору кейса, плотная архитектура действительно впечатляет. Если же ваша цель — запустить модель на Mac или сэкономить ресурсы, смотрите в сторону оптимизированных MoE-версий и современных квантований, как динамическое квантование Unsolth.

Прогноз? Архитектурные войны только начинаются. Победа dense-модели в этом раунде — тревожный звонок для инженеров, работающих над MoE. Им предстоит решить проблемы с роутингом и целостностью контекста. А пока — всегда тестируйте модели на своих данных. Слепым методом. Потому что то, что громко анонсируют, может тихо проиграть в тихой комнате с реальными задачами.

Подписаться на канал

Qwen 3 32B против Qwen 3.5: результаты 11 слепых тестов и почему плотная модель победила MoE

Сенсация, которую никто не ждал

Qwen 3 32B vs Qwen 3.5: что мы сравниваем?

11 испытаний огнем: таблица результатов

Три неочевидные причины победы dense-архитектуры

Так что, бежать за Qwen 3 32B в 2026 году?

Подписывайтесь на наш канал!