Вы когда-нибудь задумывались, сколько «думает» нейросеть, прежде чем выдать ответ? Не в секундах, а в токенах? Так вот, появилась концепция, которая обещает измерить это усилие. Называется deep-thinking tokens. Звучит как модный термин из маркетинга, но, чёрт возьми, тут реально есть смысл.
Суть проста: внутри большой языковой модели можно выделить специальные маркеры — токены, которые активируются исключительно в моменты глубоких рассуждений, а не поверхностного копирования из обучающих данных. Если модель просто выплевывает заученный факт — эти токены молчат. Если она строит цепочку умозаключений, перебирает варианты — токены загораются. Получается эдакий «датчик интеллектуального пульса».
Зачем нам смотреть на внутреннюю кухню?
Раньше мы оценивали качество reasoning только по финальному ответу. Правильно/неправильно. Но как понять, модель правда поняла или просто угадала? Стандартные тесты — они, знаете ли, как экзамен с угадайкой. Deep-thinking tokens дают прозрачность: ты видишь, сколько усилий модель вложила в задачу. И если она ответила верно, но токены молчат — скорее всего, это случайность или переобучение.
Практический пример: в задачах на логические головоломки модели с высоким уровнем deep-thinking tokens показывают на 23% меньше ошибок на смещённых данных (out-of-distribution), чем те, кто решает «на автомате». Это ещё не бенчмарк, но тренд очевиден.
И тут мы подходим к главному: эта метрика позволяет оптимизировать сами модели. Не нужно слепо гонять весь пайплайн через сотни запросов — достаточно отслеживать, активируются ли deep-thinking tokens. Если нет — значит, модель не включается в задачу, и пора менять промпт или дообучать. Это как чек-индикатор на панели приборов.
Откуда ноги растут?
Идея выросла из исследований по внутренним состояниям LLM. Уже давно заметили: когда модель рассуждает, активируются определённые нейронные паттерны, которых нет при простом воспроизведении. Например, в работе по Society of Thought показали, что внутри модели можно выделить «совет экспертов» — группы токенов, отвечающие за разные подходы к задаче. Deep-thinking tokens — это, по сути, маркер того, что этот совет собрался и начал работать.
Более того, недавние эксперименты с Multiplex Thinking показали: семплинг трёх токенов вместо одного повышает точность рассуждений на 15%. Логично предположить, что deep-thinking tokens — это те самые «мыслительные» токены, которые мы хотим семплировать в первую очередь.
А как это измерить на практике?
Тут есть два подхода. Первый — анализировать внутренние представления модели (логиты, энтропию) на каждом шаге и выявлять аномалии, характерные для рассуждений. Второй — обучать классификатор поверх слоёв LLM, который предсказывает, «думает» ли модель прямо сейчас. Второй сложнее, но точнее.
Именно такой классификатор и используется в фреймворке Signals, который обнаруживает слабые места AI-агентов без дорогих LLM-судей. По сути, Signals смотрит на внутреннюю активацию модели и понимает, доверять ли ответу. Deep-thinking tokens здесь — ключевой сигнал.
Не всё так радужно
Deep-thinking tokens — не панацея. Во-первых, их интерпретация всё ещё сырая. Что значит «высокий уровень усилий»? Может, модель просто зациклилась на неверном пути? Во-вторых, есть риск, что при дообучении под эту метрику модель научится имитировать рассуждение, не углубляясь в него (hello, когнитивные искажения).
Но сам факт, что мы теперь можем заглянуть «под капот» reasoning — уже прорыв. Это как переход от чёрного ящика к серому. Следующий шаг — научиться управлять этими токенами: увеличивать усилия на сложных задачах и снижать на тривиальных. Экономия ресурсов колоссальная.
Кстати, именно этим занимается связка KEF vs OpenAI o3: одна из техник — динамическое выделение «глубоких» токенов в зависимости от сложности запроса. Пока что это в стадии proof-of-concept, но результаты многообещающие.
Что дальше?
Лично я ставлю на то, что deep-thinking tokens станут стандартной метрикой для всех reasoning-моделей уже через год. Представьте: вы загружаете модель, смотрите панель «Deep-thinking active: 37%» и понимаете, что надо менять промпт. Или видите, что модель «ленится» на 90% запросов — и дообучаете её.
Более того, эта метрика может лечь в основу систем оценивания AI-агентов, о которых мы писали в материале Lexometrica Ground Truth. Там data leakage — главная проблема, а deep-thinking tokens как раз позволяют отличить реальное понимание от утечки ответа из обучающих данных.
Так что следите за этой темой. Когда в следующий раз увидите фразу «модель напряжённо думает», знайте: скоро это будет не метафора, а технический параметр.