Subquadratic SubQ: разбор прорыва в скорости и контексте LLM | AiManual
AiManual Logo Ai / Manual.
21 Июн 2026 Инструмент

Subquadratic SubQ: прорыв в скорости и контексте LLM — анализ заявлений и независимых тестов

Анализ заявлений Subquadratic о модели SubQ: 12x быстрее Transformer? Независимые тесты, сравнение с альтернативами, скепсис и практические рекомендации.

Реклама
partv1

Скандал, интрига, расследование

В середине 2026 года стартап Subquadratic выкатил заявление, от которого у инженеров зачесались руки, а у инвесторов — кошельки. Их модель SubQ, по словам создателей, решает главный bottleneck современных LLM — квадратичную сложность внимания. SubQ работает в 12 раз быстрее и дешевле Transformer при сопоставимом качестве. Звучит как чудо? Возможно. Но давайте копать.

Я не буду пересказывать пресс-релиз — мы уже делали это. Сейчас важнее другое: что показали независимые тесты, которые команда Subquadratic якобы прошла, и можно ли верить цифрам.

Сразу к сути: SubQ использует механизм субквадратичного внимания на основе ядерных аппроксимаций, но с изюминкой — динамическим управлением точностью в зависимости от удалённости токенов. Дальние токены обрабатываются грубее, ближние — с полной точностью. Хитро, но не ново.

Что проверяли и что получили

Независимые тесты проводила группа исследователей из нескольких университетов (имена пока не раскрыты под NDA). Они гоняли SubQ на бенчмарках из семейства Lost-in-the-Middle, на синтетических задачах с контекстом в 128K токенов и на реальных сценариях — юриспруденция, анализ логов, агентные системы.

Результаты: SubQ действительно показывает субквадратичную сложность. На контексте 64K токенов инференс в 9-11 раз быстрее, чем у аналогичного по размеру Transformer (на 7B параметров). Потребление памяти — меньше в 6-7 раз. Качество на бенчмарках понимания прочитанного — падение не более 3% относительно полного attention. Впечатляет.

Но есть нюанс. На задачах, требующих точечного извлечения из середины контекста (тот самый Lost-in-the-Middle эффект), SubQ теряет до 12% точности по сравнению с Transformer. Динамическое сжатие дальних токенов иногда выкидывает критически важную информацию. Разработчики Subquadratic утверждают, что это фича, а не баг: мол, реальные данные имеют локальную структуру внимания. Спорно.

Важно: тесты проводились на моделях SubQ, которые не выложены в открытый доступ. Команда обещает релиз через месяц. Пока что все результаты — на честном слове. Как говорится, доверяй, но проверяй.

Сравнение с альтернативами: Mamba, Linear Attention, икона Transformer

SubQ — не первая попытка убить квадратичную сложность. Вспомните Mamba (State Space Models), линейное внимание от Google или перформеры от FAIR. Чем SubQ лучше?

  • Mamba — хороша для генерации с бесконечным контекстом, но плохо держит точность на глубоких рассуждениях. SubQ, по заявлениям, сохраняет способность к Chain-of-Thought лучше — проблема, знакомая каждому, кто пытался квантизировать CoT.
  • Linear Attention (Katharopoulos et al.) — даёт линейную сложность, но теряет в качестве на задачах, требующих случайного доступа к далёким токенам. SubQ пытается решить это динамическим фокусом.
  • Full Attention (Transformer) — золотой стандарт, но дорогой. SubQ проигрывает ему на точности, но выигрывает на скорости. Вопрос: готовы ли вы пожертвовать 3% качества ради ускорения в 12 раз? Для чат-ботов — возможно, для медицинской диагностики — вряд ли.

Кому SubQ может быть полезна прямо сейчас

Пока без открытого кода — только экспериментаторам, которые готовы писать разработчикам и просить доступ. Но если код выйдет (а это обещано), то:

  • Разработчикам агентных систем. Агенты часто держат в контексте много шагов и промежуточных результатов. SubQ может радикально ускорить цикл. Про бенчмарки для агентов мы писали отдельно.
  • Инженерам RAG. Сверхдлинный контекст позволяет загружать в модель целые документы вместо чанков — упрощает пайплайн. SubQ справится с 100+ страницами договора за секунды.
  • Аналитикам логов. Обработка 128K строк лога в одном прогоне — мечта, особенно если модель не «забывает» о записях в середине. Проверить это поможет гайд по измерению реального контекста.

Скепсис — двигатель прогресса

Хайп вокруг SubQ напоминает историю с GPT-4: сначала «прорыв», потом «а на самом деле он просто большой». Мне не нравится, что команда Subquadratic пока не опубликовала ни код, ни полные веса. А публичные тесты — это не тесты, а промо.

Особенно настораживает, что в независимой оценке участвовали всего несколько исследователей. Для такого масштаба заявлений нужно хотя бы сообщество в 100+ инженеров, как было с открытием LLaMA. Пока что — звон пустых GPU.

С другой стороны, если SubQ действительно работает, это меняет правила игры. Представьте: вы можете запустить модель с контекстом 1M токенов на одном A100 — это 5000 страниц текста. Никакого фрагментирования, никаких галлюцинаций от потери контекста. Звучит как фантастика, но если технология станет реальностью, мы увидим новый класс продуктов: от «говорящих документов» до автономных юридических помощников.

💡
Не верьте бенчмаркам, пока не увидите на своём железе. Возьмите коллекцию промптов для тестирования, нагрузите модель своим реальным контекстом — и только тогда делайте выводы.

Итог: ждём код и готовим песок

Subquadratic SubQ — это пока что история про «почти». Почти быстрее, почти дешевле, но почти не opensource. Если релиз состоится и тесты подтвердятся, перед нами — первый реальный кандидат на замену Transformer в задачах сверхдлинного контекста. Если нет — будет ещё одна красивая демка, которую забудут через месяц.

В любом случае, тренд понятен: индустрия пресытилась квадратичной сложностью. SubQ, Mamba, RWKV — все они бьют в одну точку. И даже если SubQ не взлетит, сама гонка за субквадратичностью ускорит появление чего-то действительно прорывного. А мы будем первыми, кто расскажет, насколько это всё реально.

Подписаться на канал