SubQ 12M контекст: разоблачение маркетингового обмана

В апреле 2026 года компания SubQ (до этого известная разве что узкому кругу энтузиастов) выкатила громкий пресс-релиз: их новая модель якобы поддерживает контекстное окно в 12 миллионов токенов. Сообщество ахнуло. Конкуренты — Anthropic, OpenAI, DeepSeek — нервно закурили. Но уже через неделю первые независимые тесты показали: что-то тут нечисто.

12 миллионов токенов — это примерно 9 миллионов слов, или 18 000 страниц текста. Для сравнения: вся «Война и мир» — около 1300 страниц. То есть SubQ заявляет, что их модель может «переварить» 14 таких романов за раз. Звучит как научная фантастика. И, похоже, это она и есть.

Как SubQ накрутила циферки

Первое, что бросается в глаза при детальном изучении документации, — SubQ нигде не пишет «12 миллионов токенов эффективного контекста». Вместо этого используется формулировка «поддержка последовательности до 12M токенов». Но поддержка — не значит осмысленная работа.

💡 Ключевой нюанс: большая часть современных моделей (включая GPT-4 и Claude 3.5) технически может принимать на вход гигантский контекст, но реально «видит» и обрабатывает лишь первые несколько тысяч токенов из-за проблем с attention и loss in the middle. SubQ просто пошла по пути наименьшего сопротивления: объявила аппаратный лимит, а не реальную способность.

По неофициальным данным от инженеров, тестировавших модель, при контексте свыше 32K токенов качество ответов падает катастрофически — модель начинает «забывать» информацию из середины промпта, галлюцинировать и повторяться. Тесты на задаче «Needle in a Haystack» (поиск факта в огромном тексте) показали точность менее 15% при контексте более 100K. А 12M? Там результат не отличался от случайного угадывания.

Почему так происходит? Анатомия обмана

SubQ использовала хитрый трюк: они увеличили размер контекстного окна за счет разреженного внимания (sparse attention) и внешней памяти. Но их реализация sparse attention оказалась слишком грубой — модель просто отбрасывает 99% токенов, оставляя только локальные окна. В результате «12M» — это скорее размер буфера, а не рабочего пространства.

Настоящий прорыв в длинном контексте показывают другие игроки. Например, недавний DeepSeek-V4 с архитектурой KV cache и продвинутой оптимизацией FLOPs действительно держит миллион токенов с приемлемым качеством. Но даже они не прыгают до 12M — физика железа и законы attention не позволяют.

Маркетинг, который захватил AI

Ситуация с SubQ — это не единичный случай. В 2026 году гонка цифр достигла абсурда. Компании соревнуются, кто громче крикнет «миллион токенов», а пользователи потом жалуются, что модель не помнит инструкцию из начала диалога. Это напоминает ситуацию с поисковыми системами: Pinterest vs ChatGPT — когда метрики накручиваются ради хайпа.

Интересно, что SubQ в своих примерах использует контекст из статей про «сексуальную девушку» и «пенджабскую бабушку» — отсылка к недавней утечке системных промптов. Это доказывает: они сами понимают, что их модель лучше всего работает на коротких, развлекательных запросах. А 12M — это просто крючок для инвесторов.

Что делать пользователю? Бежать или остаться?

Если вы используете SubQ для «простыни» кода или анализа документов — готовьтесь к разочарованию. На практике модель эффективна лишь для задач, где контекст не превышает 8-16K токенов. Всё, что длиннее, лучше разбивать на чанки и обрабатывать отдельно.

Альтернатива — обратить внимание на локальные модели, такие как LocalLLaMA. Они не обещают 12M, но зато честно говорят о своих ограничениях. Или на проверенные API с миллионным контекстом (как тот же DeepSeek-V4). И не верьте цифрам на коробке — проверяйте в деле.

⚠️ Вердикт: SubQ 12M — это маркетинговый обман в чистом виде. Цифра настоящая (они действительно могут подать на вход 12M токенов), но пользы от этого ноль. Это как продавать грузовик, который тащит 100 тонн, но ломается на первом километре.

Совет для тех, кто хочет разобраться в метриках глубже: читайте про CDP-метрики и как измерять путь клиента в LLM-сценариях. Там показано, что качество важнее количества, и настоящие инженеры считают не токены, а точность.

Подписаться на канал

SubQ 12M: Маркетинговый атомный взрыв или мыльный пузырь?

Как SubQ накрутила циферки

Почему так происходит? Анатомия обмана

Маркетинг, который захватил AI

Что делать пользователю? Бежать или остаться?

Подписывайтесь на наш канал!