Subquadratic SubQ: прорыв или пузырь? Разбор 12x ускорения LLM

Взрыв в тишине лабораторий

19 июня 2026 года стартап Subquadratic выкатил пресс-релиз, от которого у инженеров зачесались ладони, а у венчурных фондов — кошельки. Модель SubQ якобы в 12 раз быстрее и в 12 раз дешевле в инференсе, чем любая современная LLM сопоставимого размера. Звучит как фантастика, особенно на фоне недавних бенчмарков, где гонка за качеством сменилась гонкой за секундами и долларами (читайте наш разбор).

Осторожно: Subquadratic — не NVIDIA, не Google и не DeepSeek. Компания из трёх человек с сайтом на Webflow. Их заявление — либо революция, либо гениальный маркетинг.

Что скрывается за "12x"?

SubQ — это новая архитектура внимания, которая, по словам авторов, заменяет квадратичную сложность трансформеров на почти линейную. В отличие от подхода NVIDIA (мы писали о нём раньше), Subquadratic не просто оптимизирует существующие ядра, а переписывает математику.

В своём блоге стартап приводит тесты: модель SubQ-7B обрабатывает 4096 токенов за 0.8 секунды на RTX 4090, тогда как Llama 3.2 7B — за 9.6 секунды. Энергопотребление — 45 Вт против 380 Вт. Цифры красивые, но дьявол, как всегда, в бенчмарках.

Например, в задачах с длинным контекстом (более 32K токенов) SubQ может показывать падение точности — об этом молчат. И непонятно, как модель работает на реальных данных, а не на синтетических промптах. Мы уже видели похожие истории: SubQ 12M — маркетинговый атомный взрыв или мыльный пузырь?

Скепсис нарастает

Независимые исследователи из MIT и Stanford запросили исходный код, но получили лишь "бинарник для тестов" и отказ публиковать веса. Это классический сигнал: без открытого кода доверие к заявлениям стремительно падает. Особенно на фоне того, что стартапы всё чаще закрываются из-за потери доверия (читайте разбор причин).

Критики указывают на несколько проколов:

Сравнение с Llama — неудачный выбор. Llama 3.2 — модель общего назначения, SubQ, возможно, переобучен под конкретные тесты.
Утверждение о 12-кратном ускорении не учитывает задержки на загрузку данных и кэш. В реальных дата-центрах (например, на агрегаторе Quadric) прирост будет не таким впечатляющим.
Намёк на применимость в on-device AI (тренд активно развивается), но SubQ требует CUDA-ядер — а на мобильных чипах их нет.

Важно: Даже если SubQ реален, внедрение займёт годы. Современные LLM — это экосистема из Pytorch, TensorRT, vLLM. Замена архитектуры потребует переписывания всего стека.

Альтернативы уже здесь

Пока Subquadratic дразнит индустрию, конкуренты не дремлют. Методы квантования вроде RotorQuant (ускорение в 10-19 раз) и SpectralQuant уже работают на существующих моделях, не требуя переобучения. Крупные игроки вроде DeepSeek V4 Pro и Qwen 3.6 Plus (сравнение здесь) наращивают качество, а не только скорость.

Даже китайский Qwen3.5-122B-A10B (бьёт GPT-5-mini) показывает, что конкуренция идёт на уровне архитектур. Но SubQ — не про квантование, а про принципиально новый слой внимания. Если это правда, то через год мы увидим дешёвый инференс на смартфонах. Если нет — останется забавным абзацем в истории AI.

Вместо итога: ставки сделаны

Субквадратичная сложность — Святой Грааль LLM. Но каждый второй стартап обещал её за последние три года. Subquadratic придётся пройти независимый аудит, показать код и воспроизвести результаты вне своей песочницы. Пока же я ставлю на то, что к осени 2026 хайп схлынет, а модель останется в статусе "перспективная разработка".

Впрочем, если вы верите в чудеса — вот детальный разбор их белых бумаг. Там есть несколько действительно элегантных математических трюков. Возможно, именно они станут основой будущих моделей.

Подписаться на канал

Стартап Subquadratic заявляет о прорыве: модель SubQ в 12 раз быстрее и дешевле — разбор доказательств и скепсиса

Взрыв в тишине лабораторий

Что скрывается за "12x"?

Скепсис нарастает

Альтернативы уже здесь

Вместо итога: ставки сделаны

Подписывайтесь на наш канал!