Гибридное vs полное внимание в LLM: разбор MiniMax, сравнение DeepSeek V3.2 и Qwen3.5 | AiManual
AiManual Logo Ai / Manual.
02 Мар 2026 Новости

Гибридное внимание против полного: как MiniMax вскрыла архитектурные слабости, а Qwen3.5 обыгрывает DeepSeek V3.2

Анализ скрытых недостатков гибридного внимания из статьи MiniMax. Почему Qwen3.5 с полным вниманием выигрывает у DeepSeek V3.2 в многозадачном рассуждении на 02

Тихий скандал в ядре трансформера

Все началось с технического отчета от MiniMax, который прочитали единицы. А зря. В нем — ключ к пониманию, почему некоторые модели, вроде DeepSeek V3.2, блестяще проходят синтетические тесты, но спотыкаются на реальных задачах. И почему старомодный Qwen3.5 внезапно снова в тренде.

Битва архитектур — это не про абстрактные цифры. Это про то, как модель думает. Вернее, как ее заставляют думать.

Данные в статье актуальны на 02 марта 2026 года. Говорим о последних версиях моделей: DeepSeek V3.2 и линейке Qwen3.5 (включая флагманские 122B-A10B и 397B-A17B). Старые версии в расчет не берем.

Гибридное внимание: красивый фасад и трещины в фундаменте

Lightning Attention, Sparse Attention, вся эта гибридная кухня — это попытка обмануть математику. Зачем считать вниманием все токены, если можно только «важные»? Звучит гениально. На бумаге ускоряет вычисления в разы. В реальности — создает слепые зоны.

Исследователи из MiniMax в своем последнем анализе M2.1 не просто хвалят свою архитектуру. Они методично показывают, что модели на гибридном внимании (читай: DeepSeek V3.2) теряют контекстные связи в длинных многоходовых задачах. Модель видит дерево, но не замечает лес.

  • Дефицит глобального контекста: Гибридное внимание жадное. Оно фокусируется на очевидных, близких связях. Далёкая, но критичная зависимость между первым и последним абзацем в документации? Прощай.
  • Хрупкость в reasoning: Задачи, где нужно держать в голове несколько условий одновременно (типичные STEM-головоломки), становятся ахиллесовой пятой. Модель дает ответ, который логичен локально, но абсурден глобально.
  • Непредсказуемая производительность: Скорость обработки становится лотереей. На одном типе запросов — молния, на другом — необъяснимая задумчивость. Об этом же пишут в разборе StepFun против MiniMax.

DeepSeek V3.2: пациент, а не чемпион

Да, DeepSeek V3.2 локально — это чудо инженерии. Он работает там, где другие и не мечтают. Его гибридная архитектура (комбинация полного внимания в ключевых слоях и sparse-внимания в остальных) — это шедевр оптимизации. Но именно это и есть его ловушка.

КритерийDeepSeek V3.2 (Гибрид)Qwen3.5 122B-A10B (Полное)
Скорость inferenceВысокая (на большинстве задач)Умеренная, предсказуемая
Качество рассуждений (MRC, STEM)Нестабильное, зависит от контекстаСтабильно высокое, надежное
Потребление памятиОптимизированоВысокое (плата за полный контекст)
Скрытый дефицит (по MiniMax)Присутствует: потеря дальних зависимостейОтсутствует — обрабатывает весь контекст целиком

Результат? На benchmarks типа MMLU DeepSeek сияет. Но дайте ему реальную задачу по анализу кода или многоэтапному планированию — и начинаются странности. Он может пропустить критичное исключение, описанное в начале длинного файла. Именно поэтому в сравнении на STEM меньший по размерам Qwen3.5-27B оставляет V3.2 позади. Не потому, что он умнее, а потому, что его «мышление» целостнее.

Qwen3.5: ретроград, который оказался прав

Пока все увлекались гибридными трюками, команда Qwen упрямо точила классический трансформер с полным вниманием. И теперь, в 2026 году, это выглядит как стратегический гений. Их флагман Qwen3.5-122B-A10B и монстр Qwen 3.5 Plus на 397B параметров не пытаются быть хитрыми. Они просто обрабатывают весь контекст. Всем вниманием. Всегда.

💡
Полное внимание — это как читать книгу, а не только выдержки из рецензий. Дороже? Да. Медленнее? Иногда. Но вы понимаете сюжет, а не только отдельные эффектные сцены.

Именно это «понимание сюжета» делает Qwen3.5 фаворитом для сложных приложений. Нужна модель для ответственных советов по здоровью или карьере? Выбирайте ту, что не упустит важную оговорку в середине 20-страничного руководства.

Что дальше? Прогноз от 02.03.2026

Минимум на год гибридное внимание останется нишевым решением для задач, где скорость важнее глубины. Для чат-ботов, простой классификации — почему нет.

Но для всего, что требует reasoning — от научных исследований до анализа сложного кода, — индустрия будет двигаться к вариациям полного внимания. Уже сейчас новые архитектуры вроде Gemini 3 делают ставку на улучшенные, но полные механизмы внимания, а не на их урезанные версии.

Мой совет? Не гонитесь за benchmarks. Смотрите на архитектуру. Если в описании модели мелькают слова «sparse», «sliding window» или «lightning» — спросите себя, готовы ли вы пожертвовать цельностью мышления ради скорости. Для большинства серьезных задач ответ будет «нет». И тогда ваш выбор — Qwen3.5 или его наследники, а не оптимизированные, но слеповатые гибриды вроде DeepSeek V3.2.

Подписаться на канал