Токен-токену рознь: что измерили в AI2
AI2 (Allen Institute for AI) выкатили новое исследование, которое заставило меня пересмотреть отношение к гибридным архитектурам. Вместо того чтобы просто смотреть на финальный loss на тестовых датасетах, они полезли внутрь модели и посчитали, какие именно токены каждая архитектура предсказывает лучше. Spoiler: трансформеры отлично справляются с "мусорными" токенами (типа пробелов и предлогов), а гибриды — там, где реально сложно.
Для эксперимента взяли OLMo 3.5 Hybrid и сравнимый по размеру чистый трансформер (OLMo 7B). Обе модели обучены на одинаковых данных, но с разной архитектурой внимания. В гибриде — смесь State Space Model (SSM) и разреженного внимания, в трансформере — классическое полное внимание. Результаты оказались неочевидными.
Гибриды выигрывают на токенах с высокой энтропией — тех, которые труднее предсказать из контекста. А трансформеры склонны "заучивать" распределение легких токенов, недодавая сложным.
Как меряли и что намеряли
Исследователи разбили каждый токен на "бины" по значению per-token loss. Оказалось, что у гибрида распределение потерь более равномерное — нет огромных пиков на сложных токенах. На практике это значит, что модель реже "выпадает" в бессмыслицу на редких словах или длинных зависимостях. Вспомните статью про Mamba vs Transformer — там как раз обсуждали, почему квадратичная сложность мешает трансформерам обрабатывать длинные последовательности.
Но есть нюанс: на коротких контекстах (до 2K токенов) трансформеры все еще чуть лучше — они успевают "распараллелить" внимание и не страдают от алгоритмической инерции SSM. Однако как только длина переваливает за 4K, гибрид начинает отрываться. А с учетом того, что современные контексты уже давно 128K и больше, выбор в пользу гибрида становится очевидным.
Что это значит на практике?
Если вы делаете LLM для корпоративного перевода или анализа контрактов — гибриды вам в помощь. Там каждый токен критичен, а цена ошибки высока. Если же генерируете короткие ответы в чат-ботах — разница едва заметна.
Кстати, недавно мы разбирали метод дублирования слоев для улучшения LLM без изменения весов — это еще один способ подтянуть трансформеры без перехода на гибрид. Но AI2 доказывают, что архитектурные изменения фундаментальнее.
Вердикт
Лично я ставлю на то, что к концу 2026 года большинство новых LLM будут гибридными. Трансформеры останутся для узких доменов и исследовательских моделей. А для инженеров это значит одно: пора осваивать линейное внимание и SSM. Если хотите вкатиться — посмотрите на детерминированные движки рассуждений, которые могут сделать гибриды еще мощнее.
Если вы все еще сомневаетесь, стоит ли переходить на гибриды, почитайте почему LLM не серебряная пуля — там много нюансов. За полным кодом экспериментов и датасетами — в GitHub AI2. Там же и pre-trained модели. Пробуйте, тестируйте на своих данных: арендуйте GPU и запускайте сами.