Тихий скандал в ядре трансформера
Все началось с технического отчета от MiniMax, который прочитали единицы. А зря. В нем — ключ к пониманию, почему некоторые модели, вроде DeepSeek V3.2, блестяще проходят синтетические тесты, но спотыкаются на реальных задачах. И почему старомодный Qwen3.5 внезапно снова в тренде.
Битва архитектур — это не про абстрактные цифры. Это про то, как модель думает. Вернее, как ее заставляют думать.
Данные в статье актуальны на 02 марта 2026 года. Говорим о последних версиях моделей: DeepSeek V3.2 и линейке Qwen3.5 (включая флагманские 122B-A10B и 397B-A17B). Старые версии в расчет не берем.
Гибридное внимание: красивый фасад и трещины в фундаменте
Lightning Attention, Sparse Attention, вся эта гибридная кухня — это попытка обмануть математику. Зачем считать вниманием все токены, если можно только «важные»? Звучит гениально. На бумаге ускоряет вычисления в разы. В реальности — создает слепые зоны.
Исследователи из MiniMax в своем последнем анализе M2.1 не просто хвалят свою архитектуру. Они методично показывают, что модели на гибридном внимании (читай: DeepSeek V3.2) теряют контекстные связи в длинных многоходовых задачах. Модель видит дерево, но не замечает лес.
- Дефицит глобального контекста: Гибридное внимание жадное. Оно фокусируется на очевидных, близких связях. Далёкая, но критичная зависимость между первым и последним абзацем в документации? Прощай.
- Хрупкость в reasoning: Задачи, где нужно держать в голове несколько условий одновременно (типичные STEM-головоломки), становятся ахиллесовой пятой. Модель дает ответ, который логичен локально, но абсурден глобально.
- Непредсказуемая производительность: Скорость обработки становится лотереей. На одном типе запросов — молния, на другом — необъяснимая задумчивость. Об этом же пишут в разборе StepFun против MiniMax.
DeepSeek V3.2: пациент, а не чемпион
Да, DeepSeek V3.2 локально — это чудо инженерии. Он работает там, где другие и не мечтают. Его гибридная архитектура (комбинация полного внимания в ключевых слоях и sparse-внимания в остальных) — это шедевр оптимизации. Но именно это и есть его ловушка.
| Критерий | DeepSeek V3.2 (Гибрид) | Qwen3.5 122B-A10B (Полное) |
|---|---|---|
| Скорость inference | Высокая (на большинстве задач) | Умеренная, предсказуемая |
| Качество рассуждений (MRC, STEM) | Нестабильное, зависит от контекста | Стабильно высокое, надежное |
| Потребление памяти | Оптимизировано | Высокое (плата за полный контекст) |
| Скрытый дефицит (по MiniMax) | Присутствует: потеря дальних зависимостей | Отсутствует — обрабатывает весь контекст целиком |
Результат? На benchmarks типа MMLU DeepSeek сияет. Но дайте ему реальную задачу по анализу кода или многоэтапному планированию — и начинаются странности. Он может пропустить критичное исключение, описанное в начале длинного файла. Именно поэтому в сравнении на STEM меньший по размерам Qwen3.5-27B оставляет V3.2 позади. Не потому, что он умнее, а потому, что его «мышление» целостнее.
Qwen3.5: ретроград, который оказался прав
Пока все увлекались гибридными трюками, команда Qwen упрямо точила классический трансформер с полным вниманием. И теперь, в 2026 году, это выглядит как стратегический гений. Их флагман Qwen3.5-122B-A10B и монстр Qwen 3.5 Plus на 397B параметров не пытаются быть хитрыми. Они просто обрабатывают весь контекст. Всем вниманием. Всегда.
Именно это «понимание сюжета» делает Qwen3.5 фаворитом для сложных приложений. Нужна модель для ответственных советов по здоровью или карьере? Выбирайте ту, что не упустит важную оговорку в середине 20-страничного руководства.
Что дальше? Прогноз от 02.03.2026
Минимум на год гибридное внимание останется нишевым решением для задач, где скорость важнее глубины. Для чат-ботов, простой классификации — почему нет.
Но для всего, что требует reasoning — от научных исследований до анализа сложного кода, — индустрия будет двигаться к вариациям полного внимания. Уже сейчас новые архитектуры вроде Gemini 3 делают ставку на улучшенные, но полные механизмы внимания, а не на их урезанные версии.
Мой совет? Не гонитесь за benchmarks. Смотрите на архитектуру. Если в описании модели мелькают слова «sparse», «sliding window» или «lightning» — спросите себя, готовы ли вы пожертвовать цельностью мышления ради скорости. Для большинства серьезных задач ответ будет «нет». И тогда ваш выбор — Qwen3.5 или его наследники, а не оптимизированные, но слеповатые гибриды вроде DeepSeek V3.2.