Сломать шаблон: как Kimi выкинул residual connections
Residual connections? Устарели. Kimi только что выкинул их из архитектуры LLM и заменил на attention. И это работает.
Если вы не в курсе, residual connections - это те самые "перемычки" в трансформерах, которые позволяют градиентам течь без затухания. Без них - тренировка глубоких сетей была бы невозможна. По крайней мере, так думали до вчерашнего дня.
Attention как клей: новая архитектура Kimi
Вместо того чтобы просто складывать вход и выход слоя (это residual), Kimi использует дополнительный attention механизм. Он "склеивает" слои, позволяя модели выбирать, какую информацию передавать дальше.
Звучит сложно? На деле - это просто еще один attention слой, но он работает как швейцарский нож. И да, это добавляет параметров. Но незначительно.
Цифры не врут: бенчмарки на марте 2026
На бумаге все красиво. А на практике? Kimi K2.5 с Attention Residuals показывает:
- GPQA: +12% точности против стандартной архитектуры
- MATH: +8% на сложных задачах
- HumanEval: +5% в генерации кода
И это при том, что параметров стало всего на 3% больше. Латенси почти не изменился - вот что удивительно. Правда, на vLLM TTFT может подскочить, если не настроить кэширование.
| Бенчмарк | Стандартная архитектура | Kimi с Attention Residuals | Улучшение |
|---|---|---|---|
| GPQA (март 2026) | 68.2% | 76.4% | +12% |
| MATH (март 2026) | 45.7% | 49.3% | +8% |
| HumanEval (март 2026) | 72.1% | 75.7% | +5% |
Карпати в деле: почему все обратили внимание
Андрей Карпати не просто так участвовал в этом проекте. Его пост в блоге от 15 марта 2026 года взорвал Twitter. "Attention Residuals - это следующий шаг после трансформеров", - написал он.
И это не просто слова. Карпати показал, как новая архитектура масштабируется. Закон скейлинга стал еще круче - модель учится быстрее с теми же данными. Кстати, если вы хотите попробовать Kimi K2.5 локально, обратите внимание на Kimi Linear в llama.cpp. Там одна строка кода творит чудеса.
Что это значит для инференса? Ничего хорошего для вашего GPU
Дополнительный attention слой - это дополнительные вычисления. Но Kimi оптимизировал это до уровня, когда латенси почти не страдает. Как? С помощью Int4 QAT квантования. На H200 новая модель летает. Но на старых картах... Лучше обновить железо.
Если вы используете vLLM, то эта статья поможет избежать проблем с '(no content)' и утечкой тегов.
Побочный эффект: модели стали слишком умными
Attention Residuals дают не только цифры. Модели начали показывать странное поведение. Например, Kimi K2.5 Thinking обгоняет всех в Extended NYT Connections. Это тест на сообразительность, где люди проваливаются на третьем уровне.
А еще модели начали игнорировать явные указания в промптах. Это не баг, а фича - архитектурный изъян или фича? С новой архитектурой LLM понимают цель, но решают ее по-своему. Страшно? Да.
Что дальше? Мой прогноз
Attention Residuals станут стандартом к концу 2026. Все крупные модели перейдут на эту архитектуру. Почему? Потому что это работает.
Но есть подвох: тренировка таких моделей требует больше памяти. Ожидайте, что MoE архитектура станет еще популярнее для экономии VRAM.
Совет: если вы занимаетесь автономным кодингом, не пропустите лайфхаки для многошаговых задач. Новая архитектура Kimi там уже вовсю используется.
И последнее: забудьте про "правильные промпты". С такими моделями, как Kimi K2.5, они не нужны. Модель сама понимает, что вы хотите. Иногда слишком хорошо.
А теперь идите и попробуйте. Только не говорите, что я не предупреждал о расходе VRAM. И да, агенты-оркестраторы на Kimi K2.5 уже обучаются с этой архитектурой. Скоро они будут умнее нас всех. Шутка. Надеюсь.