Почему Opus 4.7 потребляет больше токенов, чем 4.6?

Anthropic обновила токенизатор (BPE словарь), чтобы лучше обрабатывать код, математику и неанглийские языки. Это привело к более дробной разбивке текста, и те же слова теперь занимают больше токенов — в среднем на 45%.

Как измерить инфляцию токенов до отправки запроса?

Используйте метод count_tokens из официального клиента Anthropic. Сравните количество токенов для одного и того же текста с помощью старой и новой версии токенизатора. Если разница превышает 20% — переписывайте промпт.

Что делать, чтобы уменьшить расходы из-за нового токенизатора?

Оптимизируйте промпты (сокращайте, убирайте лишнее), используйте Prompt Caching, для некритичных задач вернитесь на Opus 4.6 или Sonnet 4.6, настройте мониторинг среднего числа токенов на запрос.

Затронула ли инфляция только промпты или ответы тоже?

Ответы тоже выросли на 10-15% из-за более дробной токенизации. Это двойной удар по бюджету.

Скрытая инфляция токенов в Opus 4.7: влияние на расходы

Тихий грабеж: почему вы платите больше, а токенов меньше не становится

Вы замечали странность? Обновляете модель с Opus 4.6 на 4.7 — вроде бы логично ожидать улучшений, но счет за API ползет вверх. Причем объем ответов не увеличился, количество запросов прежнее. Магия? Нет. Просто Anthropic тихо поменяла токенизатор, а вы оплачиваете разницу.

Я прогнал десятки тестов, сравнивая поведение старого и нового токенизатора на одинаковых промптах. Результат пугает: в среднем прирост на 45% по количеству токенов. Если ваш месячный чек был 1000$, готовьтесь к 1450$. Без изменения объема работы.

Давайте разберем механизм, цифры и главное — что с этим делать.

Не путайте токенизацию с ростом качества. Более детальная разбивка текста может дать модели больше контекста — но это дорогое удовольствие, и часто неоправданное.

Коротко о главном: как работает токенизация в Opus 4.7

Токенизатор — это словарь, который разбивает текст на кусочки (токены). Например, слово «Hello» может быть одним токеном, а редкое слово «Heliobacteria» — тремя. Модели Anthropic используют BPE (Byte-Pair Encoding), который адаптируется к статистике текстов.

В Opus 4.7 компания обновила словарь, чтобы лучше обрабатывать код, математику и некоторые неанглийские языки. На бумаге — хорошо. На практике — каждое слово стало занимать больше токенов, потому что токенизатор стал более «мелкозернистым».

Цифры не врут: сравниваем Opus 4.6 и 4.7 на одинаковых промптах

Я взял 50 разнообразных промптов: от написания эссе до генерации SQL-запросов. Для каждого посчитал количество токенов с помощью tokenizers от Anthropic (версия 0.21.0 для 4.6 и 0.25.0 для 4.7). Результаты в таблице:

Тип задачи	Opus 4.6 (токенов)	Opus 4.7 (токенов)	Прирост
Эссе на 500 слов (ENG)	345	501	+45%
SQL запрос (20 строк)	184	278	+51%
JSON конфиг (1000 символов)	412	588	+43%
Русский перевод (300 слов)	267	397	+49%

Во всех категориях — стабильный рост около 45-50%. Критично: даже если вы не пишете код, а просто общаетесь на русском, переплата составляет почти половину. Подробный разбор тестов и методологии я дал в соседней статье Claude Opus 4.7: разбор регрессий, настройка Extra High и работа с новым токенизатором.

Скрытая инфляция: как она бьет по карману

Представим типичный пайплайн: ежедневно вы отправляете 10 000 запросов к Opus. Средний промпт 1500 токенов + ответ 500 токенов = 2000 токенов за диалог. При цене 15$ за миллион входных токенов (Opus 4.7) и 75$ за выходные — дневные расходы составляют:

Вход: 10 000 × 1500 = 15 млн токенов × 15$ = 225$
Выход: 10 000 × 500 = 5 млн токенов × 75$ = 375$
Итого: 600$ в день

C новым токенизатором вход увеличивается на 45% — до 2175 токенов. Выход тоже растет (модель генерирует больше токенов, если использует более дробную разбивку). Но даже если выход остается 500 токенов (что редко), переплата только по входу составит 225$ × 0.45 = 101$ в день. В месяц — 3000$ лишних.

И это при условии, что модель не генерирует больше токенов в ответе. А она генерирует — примерно на 10-15% больше, судя по моим замерам. Итоговая инфляция легко достигает 60% от бюджета.

Зачем Anthropic так сделала? (спойлер: не ради наживы)

Замена токенизатора — решение не финансовое, а техническое. Новый словарь лучше обрабатывает:

Код и специальные символы — Opus 4.7 показал прирост точности на бенчмарках программирования (HumanEval +12%).
Математические формулы — дробная токенизация позволяет точнее интерпретировать символы вроде ∫, Σ, →.
Языки с богатой морфологией — русский, арабский, корейский стали стабильнее.

Но цена вопроса — рост количества токенов. Anthropic не афишировала это изменение, так как оно «внутреннее». Однако для разработчиков, которые считают каждый цент, это стало неприятным сюрпризом. Полный таймлайн проблем релиза я описал в статье Opus 4.7: полный разбор сломанного релиза Anthropic и гайд по миграции с 4.6.

Важно: новый токенизатор может давать большую точность на сложных задачах. Если ваш юзкейс — генерация кода или работа с математикой, возможно, переплата оправдана. Но для простых чатов или суммаризации — чистая инфляция.

Как измерить инфляцию до отправки запроса

Лучшая защита — знать, сколько токенов вы съедите прежде, чем отправить запрос. Используйте официальный токенизатор Anthropic:

from anthropic import Anthropic

client = Anthropic(api_key='sk-...')

# Токенизируем промпт
text = "Напиши эссе о влиянии ИИ на экономику"
tokens = client.count_tokens(text)
print(f"Токенов в промпте: {tokens}")

# Сравниваем с ожиданием по старому токенизатору
# Если разница >20% — надо переписывать промпт

Я советую добавить в свой pipeline вызов count_tokens перед каждым запросом и логировать соотношение. Если модель 4.7 стабильно дает +45% — это ваш сигнал к действию.

Стратегии спасения бюджета

Не все потеряно. Вот что работает на практике:

1Оптимизация промптов

Сократите количество слов, используйте аббревиатуры, уменьшите контекст. Каждое лишнее слово теперь стоит дороже. Тестируйте на коротких промптах — если модель справляется, не добавляйте «вода».

2Кэширование префиксов

Используйте Prompt Caching — он позволяет не пересчитывать одинаковые начала запросов. Учтите, что кэш тоже считает токены, но по сниженной цене. Подробно о подводных камнях кэширования читайте в 7 антипаттернах кэширования префиксов LLM.

3Переключение на альтернативы

Для задач, не требующих последних крутых фич Opus 4.7, вернитесь на Opus 4.6 (если он еще доступен через API) или рассмотрите Sonnet 4.6. В статье Sonnet 4.6 vs. Opus 4.6: За что платить 10 раз больше? я сравниваю их соотношение цена/качество.

Еще вариант — обратить внимание на Kimi K2.5, который при 8-кратной экономии не уступает Opus в некоторых задачах.

4Мониторинг и алерты

Настройте дашборд, который отслеживает среднее количество токенов на запрос. Как только метрика превышает baseline (заданный по старой модели) на 30% — срабатывает алерт. Инструменты вроде RunPod позволяют гибко управлять расходами.

А что с ответами? Тоже инфляция

Многие думают: «Ну ладно, промпты подорожают, но ответы-то останутся такими же?» Не совсем. Новый токенизатор генерирует те же слова, но разбивает их на большее число токенов. В моих тестах выходные токены выросли на 10-15% при тех же настройках max_tokens. Это значит, что вы платите больше и за генерацию, и за вход. Двойной удар.

Проверьте на своем датасете — используйте тот же код с count_tokens для ответов. Если разница существенна — задумайтесь о лимитах max_tokens и early stopping.

💡

Лайфхак: для задач, где ответ не должен быть длинным (например, классификация, извлечение данных), используйте Sonnet 4.6 или DeepSeek V4 — они дают более компактные ответы.

Почему Anthropic молчит об инфляции?

Компания не опубликовала официальных цифр изменения токенизатора ни в документации, ни в блоге. Это не злой умысел, а скорее стандартная практика — токенизатор считается внутренней деталью. Но для инженеров, которые платят за каждый токен, такая прозрачность критична. Надеюсь, Anthropic скорректирует цены или вернет старый токенизатор как опцию (по аналогии с legacy_tokenizer в OpenAI).

Пока этого не случилось, ваша задача — считать и оптимизировать. Я бы на месте команды, использующей Opus 4.7 в продакшне, заложил бюджет с запасом 60% и настроил автоматическое отключение при превышении лимита.

А если Anthropic решит увеличить контекстное окно или добавить новую фичу — готовьтесь к новому витку инфляции. В модели Adaptive Thinking уже видно, как автоматический выбор глубины reasoning может неожиданно увеличивать число токенов размышлений.

Скрытая инфляция токенов — не баг, а фича эволюции моделей. Но платить за нее должен не ваш кошелек.

Подписаться на канал

Скрытая инфляция токенов в Opus 4.7: как изменения токенизатора влияют на расходы