Когда обновление модели бьет по карману
Anthropic выпустил Claude Opus 4.7. В релизных нотах - улучшенная логика, чуть лучше математика. Типичный минорный апдейт. Но за кадром случилось другое: тихий апгрейд токенизатора. Того самого алгоритма, который превращает ваши слова в "токены" - единицы расчета стоимости. Новый токенизатор жаднее. На тех же текстах он выдает на 45% больше токенов. Цена за токен не изменилась? Логично. Но ваши счета вырастут почти в полтора раза. И это не предположение. Это замеры сообщества, которые разошлись по тик-току разработчиков как скандал.
На 18 апреля 2026 года Claude Opus 4.7 - последняя стабильная версия флагманской модели Anthropic. Токенизатор в этой версии - claude-3-5-tokenizer-v2. Он заменил claude-3-tokenizer, который использовался в Opus 4.6 и более ранних моделях серии 3.5.
Почему +45% токенов - это не "немного дороже"
Давайте на цифрах. Допустим, вы обрабатываете 100 тыс. токенов в день по цене $15 за 1 млн токенов на вход (input). Раньше это было $1.5 в день. Теперь, из-за роста количества токенов на 45%, вам нужно обрабатывать 145 тыс. "единиц" для того же объема работы. Итог: $2.18 в день. Мелочь? Умножьте на 30 дней. $45 против $65.4 в месяц. А если у вас продакшен с 10 млн токенов в день? Разница в $4500 ежемесячно. И это без учета output-токенов, которые тоже подорожали пропорционально.
| Модель / Версия | Токенизатор | Токенов на текст (пример) | Прирост |
|---|---|---|---|
| Claude Opus 4.6 | claude-3-tokenizer | 1,000 | Базовый уровень |
| Claude Opus 4.7 | claude-3-5-tokenizer-v2 | 1,450 | +45% (средний по тестам) |
| Claude Sonnet 4.6 | claude-3-tokenizer | ~1,000 | Совместим с Opus 4.6 |
Инструмент для вскрытия: ваш Python-скрипт для замера
Anthropic не дает удобного способа сравнить токенизацию между версиями. Придется делать самим. Вот скелет скрипта, который использует официальный метод API count_tokens. Он есть в пакете anthropic версии 0.25.0 (актуально на апрель 2026).
import anthropic
from typing import Dict, List
import os
# Ключ API из переменной окружения
client = anthropic.Anthropic(api_key=os.environ.get("ANTHROPIC_API_KEY"))
def count_tokens_for_model(text: str, model: str) -> int:
"""Считает токены для указанной модели."""
try:
response = client.count_tokens(
model=model,
messages=[{"role": "user", "content": text}]
)
return response.input_tokens
except Exception as e:
print(f"Ошибка для модели {model}: {e}")
return 0
def compare_tokenizers(test_texts: List[str]):
"""Сравнивает расход токенов между Opus 4.6 и 4.7."""
models = ["claude-3-5-opus-20241022", "claude-3-5-opus-20260220"] # 4.6 и 4.7
results = {}
for model in models:
results[model] = []
for text in test_texts:
token_count = count_tokens_for_model(text, model)
results[model].append(token_count)
print(f"{model}: текст длиной {len(text)} символов -> {token_count} токенов")
# Считаем прирост
for i in range(len(test_texts)):
old_tokens = results[models[0]][i]
new_tokens = results[models[1]][i]
if old_tokens > 0:
increase = ((new_tokens - old_tokens) / old_tokens) * 100
print(f"Текст {i+1}: {old_tokens} -> {new_tokens} токенов. Прирост: {increase:.1f}%")
if __name__ == "__main__":
# Ваши тестовые тексты. Берите реальные промпты из продакшена.
sample_texts = [
"Напиши подробный план статьи про квантовые вычисления.",
"Проанализируй этот JSON и найди ошибки: {\"data\": [1,2,3]}",
# Добавьте длинные тексты, код, специфичные термины
]
compare_tokenizers(sample_texts)
client.count_tokens() - самый точный способ. Он использует тот же самый токенизатор, что и модель при реальном вызове. Локальные библиотеки типа tiktoken (для OpenAI) здесь не работают. У Anthropic свой, закрытый токенизатор.1 Соберите реальные промпты
Не тестируйте на "Привет, как дела?". Берите настоящие рабочие запросы: длинные инструкции, куски кода на Python, системные промпты из ваших агентов. Чем разнообразнее семплы, тем точнее картина. Особое внимание - техническим терминам и кодекс. Новый токенизатор может разбивать import pandas as pd на большее количество кусочков.
2 Запустите сравнение для всех моделей
Проверьте не только Opus. Запустите тесты для Sonnet 4.6 и Haiku. У них токенизатор пока старый? А если нет? В Claude Sonnet 4.6 используется claude-3-tokenizer, но кто даст гарантию, что в следующем патче не будет тихого обновления? Мониторьте еженедельно.
3 Пересчитайте бюджет сразу
Получили цифры прироста в 45%? Умножьте ваш месячный объем токенов на 1.45. Посмотрите на получившуюся сумму. Теперь сравните с альтернативами. Может, Kimi K2.5 с его 8-кратной экономией уже не выглядит экзотикой? Или пора включать в стек локальные модели? (Хотя сборка ПК для LLM - отдельная головная боль).
Где искать скрытые 45%
Новый токенизатор не просто "дробит" слова мельче. Он по-другому обрабатывает:
- Пунктуацию и пробелы: Каждая запятая, точка, скобка может считаться отдельным токеном чаще, чем раньше.
- Цифры и числа: "2026" могло быть одним токеном, а теперь разбивается на "20" и "26".
- Код: Символы вроде
=,{,}стали чаще получать свои собственные токены. Функцияdef calculate()"стоит" дороже. - Неанглийские языки: Русские слова, особенно длинные или редко встречающиеся, могут токенизироваться очень мелко, буквально по символам.
Ошибка №1: Думать, что это "просто +45%". На самом деле, для некоторых типов контента (например, таблицы данных в текстовом виде) прирост может достигать 60-70%. Для чистого английского эссе - может быть всего 30%. Все зависит от ваших данных.
Что делать, если бюджет уже кричит
Мигрировали на Opus 4.7 и увидели скачок в биллинге? Вариантов немного, но они есть.
-
Откатиться на Opus 4.6. Пока Anthropic поддерживает старую версию (model ID:
claude-3-5-opus-20241022), вы можете явно указывать ее в вызовах. Качество для большинства задач практически идентично. Проверьте, не теряете ли вы критичные улучшения 4.7. - Оптимизировать промпты до абсурда. Удалите все лишние слова. Замените длинные вежливые конструкции на команды. Вместо "Не мог бы ты, пожалуйста, проанализировать следующий текст и выделить основные идеи?" пишите "Проанализируй текст, выдели основные идеи:". Это снизит количество токенов на входе. Но не перестарайтесь - слишком сжатые инструкции могут ухудшить качество ответа.
- Использовать кэширование промптов. Anthropic предлагает Prompt Caching. Если у вас есть повторяющиеся системные промпты или большие куски контекста, которые не меняются между запросами, их можно закэшировать. Платите за токены один раз, используете много раз. Но здесь свои подводные камни с инвалидацией кэша.
- Рассмотреть многоуровневую архитектуру. Не гнать все запросы через дорогой Opus. Используйте Sonnet 4.6 для рутинных задач, а Opus оставьте для сложного анализа. Sonnet пока использует старый токенизатор и в 3-4 раза дешевле. Инструменты вроде гейткиперов и роутеров LLM помогут автоматизировать распределение.
- Зафиксировать стоимость в договоре. Если вы крупный клиент Anthropic, ведите переговоры. Требуйте фиксированную цену за символ или за запрос, а не за токен. Или договаривайтесь о лимитах на рост стоимости при смене токенизатора.
Частые ошибки при оценке ущерба
Ошибка: Тестировать только короткие тексты.
На промпте из 10 слов разница будет незначительной. Реальный удар почувствуется при работе с документами в 10k токенов. Берите ваши самые длинные контексты.
Ошибка: Забывать про output-токены.
Да, входные токены подорожали. Но и ответы модели тоже токенизируются новым алгоритмом! Если модель генерирует 500 токенов ответа, они тоже "тяжелее" на 45%. Считайте полную цепочку: input + output.
Ошибка: Не учитывать вложенные вызовы (агенты).
Современные агентские системы делают десятки вызовов LLM за одну сессию. Каждый вызов - это отдельный подсчет токенов. Умножьте ваши потери на коэффициент агентской активности. История про сгоревшие 10k кредитов за 3 часа здесь очень показательна.
Будущее: ждать ли улучшений?
Anthropic вряд ли откатит токенизатор. Скорее всего, они считают это "улучшением", которое дает модели более мелкие гранулярные единицы для работы - якобы для повышения качества. Цена молчаливо перекладывается на пользователя. Тренд очевиден: как и в случае с длинным контекстом в 1M токенов, маркетинговые фичи обходятся дорого.
Что делать? Принять как данность: стоимость владения API-моделями будет нестабильной. Фактор "токенизатор" теперь наравне с фактором "цена за токен". Внедрите регулярный аудит токенизации в ваши процессы мониторинга затрат. Каждый раз, когда в релизных нотах модели есть слова "улучшена обработка текста" или "обновлена архитектура токенизатора", запускайте скрипт сравнения. И держите наготове план Б: список альтернативных моделей с стабильным биллингом. Например, европейские компании, для которых важна предсказуемость расходов, уже смотрят в сторону GDPR-совместимых локальных кластеров.
Совет напоследок: Настройте алерт в вашей системе мониторинга затрат (например, LangWatch или ZenoTrack), который сработает при аномальном росте стоимости токена за последние 24 часа. Чаще всего это первый признак того, что кто-то где-то поменял правила игры. И вы об этом узнаете не из счета, а из push-уведомления.