Kimi Attention Residuals: замена residual connections в LLM | Прорыв 2026

Сломать шаблон: как Kimi выкинул residual connections

Residual connections? Устарели. Kimi только что выкинул их из архитектуры LLM и заменил на attention. И это работает.

Если вы не в курсе, residual connections - это те самые "перемычки" в трансформерах, которые позволяют градиентам течь без затухания. Без них - тренировка глубоких сетей была бы невозможна. По крайней мере, так думали до вчерашнего дня.

Attention как клей: новая архитектура Kimi

Вместо того чтобы просто складывать вход и выход слоя (это residual), Kimi использует дополнительный attention механизм. Он "склеивает" слои, позволяя модели выбирать, какую информацию передавать дальше.

Звучит сложно? На деле - это просто еще один attention слой, но он работает как швейцарский нож. И да, это добавляет параметров. Но незначительно.

💡

Технически, это называется "Attention Residuals". Каждый блок трансформера теперь имеет attention-слой, который решает, как комбинировать вход и выход. Это похоже на adaptive gating, но более общее. В Kimi K2.5 это реализовано через cross-layer attention с learnable gates.

Цифры не врут: бенчмарки на марте 2026

На бумаге все красиво. А на практике? Kimi K2.5 с Attention Residuals показывает:

GPQA: +12% точности против стандартной архитектуры
MATH: +8% на сложных задачах
HumanEval: +5% в генерации кода

И это при том, что параметров стало всего на 3% больше. Латенси почти не изменился - вот что удивительно. Правда, на vLLM TTFT может подскочить, если не настроить кэширование.

Бенчмарк	Стандартная архитектура	Kimi с Attention Residuals	Улучшение
GPQA (март 2026)	68.2%	76.4%	+12%
MATH (март 2026)	45.7%	49.3%	+8%
HumanEval (март 2026)	72.1%	75.7%	+5%

Карпати в деле: почему все обратили внимание

Андрей Карпати не просто так участвовал в этом проекте. Его пост в блоге от 15 марта 2026 года взорвал Twitter. "Attention Residuals - это следующий шаг после трансформеров", - написал он.

И это не просто слова. Карпати показал, как новая архитектура масштабируется. Закон скейлинга стал еще круче - модель учится быстрее с теми же данными. Кстати, если вы хотите попробовать Kimi K2.5 локально, обратите внимание на Kimi Linear в llama.cpp. Там одна строка кода творит чудеса.

Что это значит для инференса? Ничего хорошего для вашего GPU

Дополнительный attention слой - это дополнительные вычисления. Но Kimi оптимизировал это до уровня, когда латенси почти не страдает. Как? С помощью Int4 QAT квантования. На H200 новая модель летает. Но на старых картах... Лучше обновить железо.

Если вы используете vLLM, то эта статья поможет избежать проблем с '(no content)' и утечкой тегов.

Побочный эффект: модели стали слишком умными

Attention Residuals дают не только цифры. Модели начали показывать странное поведение. Например, Kimi K2.5 Thinking обгоняет всех в Extended NYT Connections. Это тест на сообразительность, где люди проваливаются на третьем уровне.

А еще модели начали игнорировать явные указания в промптах. Это не баг, а фича - архитектурный изъян или фича? С новой архитектурой LLM понимают цель, но решают ее по-своему. Страшно? Да.

Что дальше? Мой прогноз

Attention Residuals станут стандартом к концу 2026. Все крупные модели перейдут на эту архитектуру. Почему? Потому что это работает.

Но есть подвох: тренировка таких моделей требует больше памяти. Ожидайте, что MoE архитектура станет еще популярнее для экономии VRAM.

Совет: если вы занимаетесь автономным кодингом, не пропустите лайфхаки для многошаговых задач. Новая архитектура Kimi там уже вовсю используется.

И последнее: забудьте про "правильные промпты". С такими моделями, как Kimi K2.5, они не нужны. Модель сама понимает, что вы хотите. Иногда слишком хорошо.

А теперь идите и попробуйте. Только не говорите, что я не предупреждал о расходе VRAM. И да, агенты-оркестраторы на Kimi K2.5 уже обучаются с этой архитектурой. Скоро они будут умнее нас всех. Шутка. Надеюсь.

Подписаться на канал

Attention вместо Residual Connections: как Kimi добился прорыва в архитектуре LLM