Взрыв в тишине лабораторий
19 июня 2026 года стартап Subquadratic выкатил пресс-релиз, от которого у инженеров зачесались ладони, а у венчурных фондов — кошельки. Модель SubQ якобы в 12 раз быстрее и в 12 раз дешевле в инференсе, чем любая современная LLM сопоставимого размера. Звучит как фантастика, особенно на фоне недавних бенчмарков, где гонка за качеством сменилась гонкой за секундами и долларами (читайте наш разбор).
Осторожно: Subquadratic — не NVIDIA, не Google и не DeepSeek. Компания из трёх человек с сайтом на Webflow. Их заявление — либо революция, либо гениальный маркетинг.
Что скрывается за "12x"?
SubQ — это новая архитектура внимания, которая, по словам авторов, заменяет квадратичную сложность трансформеров на почти линейную. В отличие от подхода NVIDIA (мы писали о нём раньше), Subquadratic не просто оптимизирует существующие ядра, а переписывает математику.
В своём блоге стартап приводит тесты: модель SubQ-7B обрабатывает 4096 токенов за 0.8 секунды на RTX 4090, тогда как Llama 3.2 7B — за 9.6 секунды. Энергопотребление — 45 Вт против 380 Вт. Цифры красивые, но дьявол, как всегда, в бенчмарках.
Например, в задачах с длинным контекстом (более 32K токенов) SubQ может показывать падение точности — об этом молчат. И непонятно, как модель работает на реальных данных, а не на синтетических промптах. Мы уже видели похожие истории: SubQ 12M — маркетинговый атомный взрыв или мыльный пузырь?
Скепсис нарастает
Независимые исследователи из MIT и Stanford запросили исходный код, но получили лишь "бинарник для тестов" и отказ публиковать веса. Это классический сигнал: без открытого кода доверие к заявлениям стремительно падает. Особенно на фоне того, что стартапы всё чаще закрываются из-за потери доверия (читайте разбор причин).
Критики указывают на несколько проколов:
- Сравнение с Llama — неудачный выбор. Llama 3.2 — модель общего назначения, SubQ, возможно, переобучен под конкретные тесты.
- Утверждение о 12-кратном ускорении не учитывает задержки на загрузку данных и кэш. В реальных дата-центрах (например, на агрегаторе Quadric) прирост будет не таким впечатляющим.
- Намёк на применимость в on-device AI (тренд активно развивается), но SubQ требует CUDA-ядер — а на мобильных чипах их нет.
Важно: Даже если SubQ реален, внедрение займёт годы. Современные LLM — это экосистема из Pytorch, TensorRT, vLLM. Замена архитектуры потребует переписывания всего стека.
Альтернативы уже здесь
Пока Subquadratic дразнит индустрию, конкуренты не дремлют. Методы квантования вроде RotorQuant (ускорение в 10-19 раз) и SpectralQuant уже работают на существующих моделях, не требуя переобучения. Крупные игроки вроде DeepSeek V4 Pro и Qwen 3.6 Plus (сравнение здесь) наращивают качество, а не только скорость.
Даже китайский Qwen3.5-122B-A10B (бьёт GPT-5-mini) показывает, что конкуренция идёт на уровне архитектур. Но SubQ — не про квантование, а про принципиально новый слой внимания. Если это правда, то через год мы увидим дешёвый инференс на смартфонах. Если нет — останется забавным абзацем в истории AI.
Вместо итога: ставки сделаны
Субквадратичная сложность — Святой Грааль LLM. Но каждый второй стартап обещал её за последние три года. Subquadratic придётся пройти независимый аудит, показать код и воспроизвести результаты вне своей песочницы. Пока же я ставлю на то, что к осени 2026 хайп схлынет, а модель останется в статусе "перспективная разработка".
Впрочем, если вы верите в чудеса — вот детальный разбор их белых бумаг. Там есть несколько действительно элегантных математических трюков. Возможно, именно они станут основой будущих моделей.