Что такое Subquadratic SubQ?

Это новая архитектура внимания от стартапа Subquadratic, которая обещает субквадратичную сложность (в 12 раз быстрее Transformer) при сохранении качества на большинстве задач. Использует динамическое сжатие дальних токенов.

Когда выйдет открытый код SubQ?

Команда обещает релиз через месяц после публикации заявления (июнь 2026). Пока код не опубликован, все результаты основаны на независимых тестах, проведённых по NDA.

Subquadratic SubQ: разбор прорыва в скорости и контексте LLM

Скандал, интрига, расследование

В середине 2026 года стартап Subquadratic выкатил заявление, от которого у инженеров зачесались руки, а у инвесторов — кошельки. Их модель SubQ, по словам создателей, решает главный bottleneck современных LLM — квадратичную сложность внимания. SubQ работает в 12 раз быстрее и дешевле Transformer при сопоставимом качестве. Звучит как чудо? Возможно. Но давайте копать.

Я не буду пересказывать пресс-релиз — мы уже делали это. Сейчас важнее другое: что показали независимые тесты, которые команда Subquadratic якобы прошла, и можно ли верить цифрам.

Сразу к сути: SubQ использует механизм субквадратичного внимания на основе ядерных аппроксимаций, но с изюминкой — динамическим управлением точностью в зависимости от удалённости токенов. Дальние токены обрабатываются грубее, ближние — с полной точностью. Хитро, но не ново.

Что проверяли и что получили

Независимые тесты проводила группа исследователей из нескольких университетов (имена пока не раскрыты под NDA). Они гоняли SubQ на бенчмарках из семейства Lost-in-the-Middle, на синтетических задачах с контекстом в 128K токенов и на реальных сценариях — юриспруденция, анализ логов, агентные системы.

Результаты: SubQ действительно показывает субквадратичную сложность. На контексте 64K токенов инференс в 9-11 раз быстрее, чем у аналогичного по размеру Transformer (на 7B параметров). Потребление памяти — меньше в 6-7 раз. Качество на бенчмарках понимания прочитанного — падение не более 3% относительно полного attention. Впечатляет.

Но есть нюанс. На задачах, требующих точечного извлечения из середины контекста (тот самый Lost-in-the-Middle эффект), SubQ теряет до 12% точности по сравнению с Transformer. Динамическое сжатие дальних токенов иногда выкидывает критически важную информацию. Разработчики Subquadratic утверждают, что это фича, а не баг: мол, реальные данные имеют локальную структуру внимания. Спорно.

Важно: тесты проводились на моделях SubQ, которые не выложены в открытый доступ. Команда обещает релиз через месяц. Пока что все результаты — на честном слове. Как говорится, доверяй, но проверяй.

Сравнение с альтернативами: Mamba, Linear Attention, икона Transformer

SubQ — не первая попытка убить квадратичную сложность. Вспомните Mamba (State Space Models), линейное внимание от Google или перформеры от FAIR. Чем SubQ лучше?

Mamba — хороша для генерации с бесконечным контекстом, но плохо держит точность на глубоких рассуждениях. SubQ, по заявлениям, сохраняет способность к Chain-of-Thought лучше — проблема, знакомая каждому, кто пытался квантизировать CoT.
Linear Attention (Katharopoulos et al.) — даёт линейную сложность, но теряет в качестве на задачах, требующих случайного доступа к далёким токенам. SubQ пытается решить это динамическим фокусом.
Full Attention (Transformer) — золотой стандарт, но дорогой. SubQ проигрывает ему на точности, но выигрывает на скорости. Вопрос: готовы ли вы пожертвовать 3% качества ради ускорения в 12 раз? Для чат-ботов — возможно, для медицинской диагностики — вряд ли.

Кому SubQ может быть полезна прямо сейчас

Пока без открытого кода — только экспериментаторам, которые готовы писать разработчикам и просить доступ. Но если код выйдет (а это обещано), то:

Разработчикам агентных систем. Агенты часто держат в контексте много шагов и промежуточных результатов. SubQ может радикально ускорить цикл. Про бенчмарки для агентов мы писали отдельно.
Инженерам RAG. Сверхдлинный контекст позволяет загружать в модель целые документы вместо чанков — упрощает пайплайн. SubQ справится с 100+ страницами договора за секунды.
Аналитикам логов. Обработка 128K строк лога в одном прогоне — мечта, особенно если модель не «забывает» о записях в середине. Проверить это поможет гайд по измерению реального контекста.

Скепсис — двигатель прогресса

Хайп вокруг SubQ напоминает историю с GPT-4: сначала «прорыв», потом «а на самом деле он просто большой». Мне не нравится, что команда Subquadratic пока не опубликовала ни код, ни полные веса. А публичные тесты — это не тесты, а промо.

Особенно настораживает, что в независимой оценке участвовали всего несколько исследователей. Для такого масштаба заявлений нужно хотя бы сообщество в 100+ инженеров, как было с открытием LLaMA. Пока что — звон пустых GPU.

С другой стороны, если SubQ действительно работает, это меняет правила игры. Представьте: вы можете запустить модель с контекстом 1M токенов на одном A100 — это 5000 страниц текста. Никакого фрагментирования, никаких галлюцинаций от потери контекста. Звучит как фантастика, но если технология станет реальностью, мы увидим новый класс продуктов: от «говорящих документов» до автономных юридических помощников.

💡

Не верьте бенчмаркам, пока не увидите на своём железе. Возьмите коллекцию промптов для тестирования, нагрузите модель своим реальным контекстом — и только тогда делайте выводы.

Итог: ждём код и готовим песок

Subquadratic SubQ — это пока что история про «почти». Почти быстрее, почти дешевле, но почти не opensource. Если релиз состоится и тесты подтвердятся, перед нами — первый реальный кандидат на замену Transformer в задачах сверхдлинного контекста. Если нет — будет ещё одна красивая демка, которую забудут через месяц.

В любом случае, тренд понятен: индустрия пресытилась квадратичной сложностью. SubQ, Mamba, RWKV — все они бьют в одну точку. И даже если SubQ не взлетит, сама гонка за субквадратичностью ускорит появление чего-то действительно прорывного. А мы будем первыми, кто расскажет, насколько это всё реально.

Подписаться на канал

Subquadratic SubQ: прорыв в скорости и контексте LLM — анализ заявлений и независимых тестов