Deep-thinking tokens: метрика усилий рассуждения LLM — обзор 2026

Вы когда-нибудь задумывались, сколько «думает» нейросеть, прежде чем выдать ответ? Не в секундах, а в токенах? Так вот, появилась концепция, которая обещает измерить это усилие. Называется deep-thinking tokens. Звучит как модный термин из маркетинга, но, чёрт возьми, тут реально есть смысл.

Суть проста: внутри большой языковой модели можно выделить специальные маркеры — токены, которые активируются исключительно в моменты глубоких рассуждений, а не поверхностного копирования из обучающих данных. Если модель просто выплевывает заученный факт — эти токены молчат. Если она строит цепочку умозаключений, перебирает варианты — токены загораются. Получается эдакий «датчик интеллектуального пульса».

Зачем нам смотреть на внутреннюю кухню?

Раньше мы оценивали качество reasoning только по финальному ответу. Правильно/неправильно. Но как понять, модель правда поняла или просто угадала? Стандартные тесты — они, знаете ли, как экзамен с угадайкой. Deep-thinking tokens дают прозрачность: ты видишь, сколько усилий модель вложила в задачу. И если она ответила верно, но токены молчат — скорее всего, это случайность или переобучение.

Практический пример: в задачах на логические головоломки модели с высоким уровнем deep-thinking tokens показывают на 23% меньше ошибок на смещённых данных (out-of-distribution), чем те, кто решает «на автомате». Это ещё не бенчмарк, но тренд очевиден.

И тут мы подходим к главному: эта метрика позволяет оптимизировать сами модели. Не нужно слепо гонять весь пайплайн через сотни запросов — достаточно отслеживать, активируются ли deep-thinking tokens. Если нет — значит, модель не включается в задачу, и пора менять промпт или дообучать. Это как чек-индикатор на панели приборов.

Откуда ноги растут?

Идея выросла из исследований по внутренним состояниям LLM. Уже давно заметили: когда модель рассуждает, активируются определённые нейронные паттерны, которых нет при простом воспроизведении. Например, в работе по Society of Thought показали, что внутри модели можно выделить «совет экспертов» — группы токенов, отвечающие за разные подходы к задаче. Deep-thinking tokens — это, по сути, маркер того, что этот совет собрался и начал работать.

Более того, недавние эксперименты с Multiplex Thinking показали: семплинг трёх токенов вместо одного повышает точность рассуждений на 15%. Логично предположить, что deep-thinking tokens — это те самые «мыслительные» токены, которые мы хотим семплировать в первую очередь.

А как это измерить на практике?

Тут есть два подхода. Первый — анализировать внутренние представления модели (логиты, энтропию) на каждом шаге и выявлять аномалии, характерные для рассуждений. Второй — обучать классификатор поверх слоёв LLM, который предсказывает, «думает» ли модель прямо сейчас. Второй сложнее, но точнее.

Именно такой классификатор и используется в фреймворке Signals, который обнаруживает слабые места AI-агентов без дорогих LLM-судей. По сути, Signals смотрит на внутреннюю активацию модели и понимает, доверять ли ответу. Deep-thinking tokens здесь — ключевой сигнал.

💡

Кстати, использование deep-thinking tokens как метрики — это прямой ответ на проблему, описанную в статье «LLM понимают цель, но игнорируют её». Модель может видеть задачу, но не прилагать усилий для её решения. Теперь мы можем это отследить.

Не всё так радужно

Deep-thinking tokens — не панацея. Во-первых, их интерпретация всё ещё сырая. Что значит «высокий уровень усилий»? Может, модель просто зациклилась на неверном пути? Во-вторых, есть риск, что при дообучении под эту метрику модель научится имитировать рассуждение, не углубляясь в него (hello, когнитивные искажения).

Но сам факт, что мы теперь можем заглянуть «под капот» reasoning — уже прорыв. Это как переход от чёрного ящика к серому. Следующий шаг — научиться управлять этими токенами: увеличивать усилия на сложных задачах и снижать на тривиальных. Экономия ресурсов колоссальная.

Кстати, именно этим занимается связка KEF vs OpenAI o3: одна из техник — динамическое выделение «глубоких» токенов в зависимости от сложности запроса. Пока что это в стадии proof-of-concept, но результаты многообещающие.

Что дальше?

Лично я ставлю на то, что deep-thinking tokens станут стандартной метрикой для всех reasoning-моделей уже через год. Представьте: вы загружаете модель, смотрите панель «Deep-thinking active: 37%» и понимаете, что надо менять промпт. Или видите, что модель «ленится» на 90% запросов — и дообучаете её.

Более того, эта метрика может лечь в основу систем оценивания AI-агентов, о которых мы писали в материале Lexometrica Ground Truth. Там data leakage — главная проблема, а deep-thinking tokens как раз позволяют отличить реальное понимание от утечки ответа из обучающих данных.

Так что следите за этой темой. Когда в следующий раз увидите фразу «модель напряжённо думает», знайте: скоро это будет не метафора, а технический параметр.

Подписаться на канал

Deep-thinking tokens: как измерить усилия рассуждений LLM и почему это меняет всё

Зачем нам смотреть на внутреннюю кухню?

Откуда ноги растут?

А как это измерить на практике?

Не всё так радужно

Что дальше?

Подписывайтесь на наш канал!