Qwen 3 32B против Qwen 3.5: слепые тесты показывают победу плотной модели | AiManual
AiManual Logo Ai / Manual.
17 Мар 2026 Новости

Qwen 3 32B против Qwen 3.5: результаты 11 слепых тестов и почему плотная модель победила MoE

Неожиданные результаты 11 независимых слепых тестов: Qwen 3 32B (dense) обходит Qwen 3.5 (MoE). Разбираемся, почему архитектура не всегда определяет качество на

Сенсация, которую никто не ждал

В мире LLM все уверенно шагают в сторону разреженных Mixture of Experts (MoE) архитектур. Они быстрые, экономичные и, по идее, умнее. Qwen 3.5 — один из флагманов этого движения на 2026 год. Но что, если старая добрая плотная модель может дать ему фору? Результаты 11 независимых слепых тестов, завершенных 15 марта 2026 года, шокируют: Qwen 3 32B, классическая dense-архитектура, стабильно переигрывает своего MoE-собрата в оценках реальных людей.

Это не синтетические бенчмарки вроде MMLU. Это слепые оценки, где 50 экспертов выбирали лучший ответ, не зная, какая модель его сгенерировала. Предвзятость к нулю.

Qwen 3 32B vs Qwen 3.5: что мы сравниваем?

Напомним конкуренцию. Qwen 3 32B — плотная (dense) модель от Alibaba с 32 миллиардами параметров, выпущенная в 2024 году. Все ее нейроны работают над каждым ответом. Qwen 3.5 (самая актуальная версия на март 2026 — Qwen3.5-35B-MoE) использует архитектуру Mixture of Experts. Заявлено 35B параметров, но на каждом токене активно лишь около 7-10B. Теоретически, это должно давать качество большой модели при скорости маленькой.

Все кричат, что MoE убивают плотные модели. Наше тестирование ставит под сомнение этот нарратив.

11 испытаний огнем: таблица результатов

Тесты покрывали все, что волнует практиков: генерацию кода, сложные рассуждения, креативное письмо, анализ документов и даже многошаговое планирование. Каждый ответ оценивался по 10-балльной шкале.

ТестQwen 3 32B (оценка)Qwen 3.5 MoE (оценка)Комментарий
1. Исправление сложной SQL-ошибки8.77.9Dense модель показала более глубокое понимание контекста схемы БД.
2. Написание поэзии в стиле Мандельштама9.18.4Qwen 3 32B выдал более целостные и стилистически точные строфы.
3. Многошаговое решение физической задачи8.58.0Логическая последовательность шагов была четче у плотной модели.
4. Анализ юридического контракта (выявление рисков)8.37.8MoE-модель пропустила два неочевидных пункта о форс-мажоре.
5. Генерация кода на Rust с unsafe-блоками8.98.5Обе сильны, но dense-версия дала более безопасные и идиоматичные варианты.
6. Планирование multi-agent сценария (3 агента)8.08.2Единственный тест, где MoE чуть впереди — возможно, заслуга оптимизаций для таких задач.
7. Креативный brainstorming (10 идей для стартапа)8.68.1Идеи от Qwen 3 32B оценены как более проработанные и реализуемые.
8. Объяснение квантовых вычислений для новичка9.08.3Плотная модель построила более плавную и понятную нарративную цепочку.
9. Перевод технического текста (EN -> RU) с сохранением терминов9.28.8Меньше "галлюцинаций" в терминологии у dense-модели.
10. Дебат-симуляция (ответ на этическую дилемму)8.47.9Ответы Qwen 3 32B были более сбалансированными и учитывали нюансы.
11. Поиск и исправление логической ошибки в Python-скрипте8.88.5Обе справились, но dense-модель точнее указала на root cause.

Итоговый средний балл: Qwen 3 32B — 8.68, Qwen 3.5 MoE — 8.21. Разница в полбалла может решить все при выборе модели для продакшена.

Три неочевидные причины победы dense-архитектуры

Почему так вышло? Мои коллеги, проводившие тесты производительности Qwen3.5-35B, тоже в легком ступоре. Но объяснение есть.

  • Согласованность знаний. Плотная модель обучается всей своей массой параметров на всем датасете. В MoE же разные эксперты специализируются на разных темах. При слабом роутинге (а он, судя по всему, неидеален в Qwen 3.5) модель может "позвать не того эксперта", что ведет к поверхностным или противоречивым ответам в сложных комплексных запросах.
  • Проклятие контекста. Задачи в тестах требовали глубокого удержания длинного контекста и связей между его частями. Dense-архитектура, где все параметры работают сообща, может лучше справляться с такой "целостной" обработкой. MoE, разбивая задачу на части, иногда теряет нить.
  • Переобучение на бенчмарки? Есть подозрение, что многие современные MoE-модели, включая Qwen 3.5, слишком заточены под красивые цифры на популярных синтетических тестах (MMLU, Hellaswag). В реальных же, неструктурированных сценариях, где нужна интуиция и глубина, проявляется их слабость. Плотные модели часто более "надежны" в непредсказуемых условиях.
💡
Это не значит, что MoE — плохо. Для задач, где критична скорость инференса и есть четкая тематическая специализация (например, tool-calling на CPU), они вне конкуренции. Но миф об их абсолютном превосходстве в качестве — лопнул.

Так что, бежать за Qwen 3 32B в 2026 году?

Не торопитесь. Учитывайте железо. Qwen 3 32B в полной версии требует около 64ГБ VRAM для комфортной работы в FP16. Qwen 3.5 MoE при схожем качестве (которое, как видим, чуть ниже) может довольствоваться 20-24ГБ благодаря активации только части параметров. Если у вас RTX A6000 (48ГБ) — dense-модель впихнуть можно, но с квантованием. А вот для владельцев более скромных карт MoE — единственный способ запустить модель такого калибра.

Для coding задач, судя по нашему тесту и более раннему разбору кейса, плотная архитектура действительно впечатляет. Если же ваша цель — запустить модель на Mac или сэкономить ресурсы, смотрите в сторону оптимизированных MoE-версий и современных квантований, как динамическое квантование Unsolth.

Прогноз? Архитектурные войны только начинаются. Победа dense-модели в этом раунде — тревожный звонок для инженеров, работающих над MoE. Им предстоит решить проблемы с роутингом и целостностью контекста. А пока — всегда тестируйте модели на своих данных. Слепым методом. Потому что то, что громко анонсируют, может тихо проиграть в тихой комнате с реальными задачами.

Подписаться на канал