Реальная стоимость LLM-запросов: effective cost с кэшем

Прайс-лист лжет: почему ваши LLM-запросы стоят в 10 раз дешевле (или дороже)

Вы смотрите на прайс-лист OpenAI: $0.01 за 1K токенов. Умножаете на миллион токенов, получаете $10. Кажется, все просто. Но это ложь.

На самом деле, ваши запросы могут стоить $1 или $100. Разница - в кэше. Игнорируете его - выбрасываете деньги на ветер.

Типичная ошибка: считать стоимость по прайс-листу, не учитывая hit rate кэша. В результате бюджеты раздуваются, а ROI падает.

Как работает кэширование в LLM: не только KV-cache

Когда модель генерирует текст, она хранит ключи и значения для предыдущих токенов - это KV-cache. Если промпт повторяется, часть вычислений можно пропустить. Но есть и промпт-кэш: некоторые провайдеры кэшируют целые промпты.

В 2026 году все крупные провайдеры используют агрессивное кэширование. OpenAI, Anthropic, Google - все они экономят на ваших повторяющихся запросах. Но вы об этом не знаете.

💡

KV-cache hit rate - это процент токенов, которые модель может взять из кэша, а не вычислять заново. Если у вас шаблонные запросы (например, классификация текста), hit rate может быть 80%. Если каждый запрос уникален - близко к 0%.

Формула effective cost: считаем по-настоящему

Эффективная стоимость одного токена:

effective_cost = (hit_rate * S + (1 - hit_rate) * O) / (hit_rate * cache_token_ratio + (1 - hit_rate))

Где:

hit_rate - вероятность попадания в кэш (от 0 до 1)
S - стоимость токена при попадании в кэш (обычно ниже)
O - стоимость токена при промахе (полная цена из прайс-листа)
cache_token_ratio - отношение количества токенов, взятых из кэша, к общему числу токенов в запросе (часто близко к 1 для повторяющихся промптов)

Звучит сложно? Давайте на примере.

Пример: GPT-4.5 против Claude 3.7 в 2026 году

Предположим, вы используете GPT-4.5 для классификации отзывов. Промпт шаблонный, hit rate = 70%. Цены на 10.03.2026:

Модель	Стоимость input (за 1K токенов)	Стоимость output (за 1K токенов)	Скидка за кэш
GPT-4.5 Turbo	$0.01	$0.03	90% для кэшированных токенов
Claude 3.7 Sonnet	$0.015	$0.04	85% для кэшированных токенов

Рассчитаем эффективную стоимость для input токенов в GPT-4.5. S = $0.01 * 0.1 = $0.001 (скидка 90%), O = $0.01. Пусть cache_token_ratio = 0.9 (90% токенов из кэша). Hit rate = 0.7.

hit_rate = 0.7
S = 0.001
O = 0.01
cache_token_ratio = 0.9

effective_cost = (0.7 * 0.001 + (1 - 0.7) * 0.01) / (0.7 * 0.9 + (1 - 0.7))
effective_cost = (0.0007 + 0.003) / (0.63 + 0.3) = 0.0037 / 0.93 ≈ 0.003978

Итого: эффективная стоимость - $0.003978 за 1K токенов, а не $0.01. В 2.5 раза дешевле!

Внимание: эти цифры условны. Реальные скидки за кэш у провайдеров меняются. На 2026 год OpenAI предлагает до 95% скидки для повторяющихся промптов в GPT-4.5, но только при использовании их API с включенным кэшированием.

Как измерить hit rate: три практических способа

1 Логирование запросов

Записывайте все промпты и ответы. Ищите паттерны. Если 80% запросов - это "классифицируй отзыв: {текст}", то hit rate высокий.

2 Используйте инструменты провайдера

OpenAI в 2026 году предоставляет Dashboard с метриками кэширования. Anthropic - аналогично. Смотрите, сколько токенов взято из кэша.

3 Эмуляция

Запустите тестовый набор запросов с и без кэша. Сравните время и стоимость. Библиотеки вроде LLMRouter помогают автоматизировать это.

Когда кэширование не работает: уникальные запросы

Если каждый запрос уникален (например, генерация творческого контента), hit rate близок к нулю. Тогда effective cost равна прайс-листовой. Но даже здесь есть хитрость: можно кэшировать части промптов. Например, системный промпт часто одинаковый.

Иногда выгоднее использовать локальную модель, если запросы уникальны и их много. Об этом я писал в статье про API vs локальные модели в 2026.

Ошибки, которые дорого стоят

Игнорирование hit rate: платить полную цену за кэшируемые запросы.
Неправильное измерение: считать hit rate по количеству запросов, а не по токенам. Важны именно токены.
Шаблонизация без тестов: пытаться увеличить hit rate, делая промпты похожими, но теряя качество. Всегда проверяйте качество модели после оптимизации.

FAQ: частые вопросы

Вопрос: Как увеличить hit rate?
Ответ: Стандартизируйте промпты. Вынесите изменяющиеся части в переменные. Используйте одинаковые системные сообщения. Но не жертвуйте качеством.

Вопрос: Все ли провайдеры дают скидку за кэш?
Ответ: Нет. Некоторые мелкие провайдеры в 2026 году еще не внедрили кэширование. Всегда уточняйте в документации.

Вопрос: Формула effective cost работает для output токенов?
Ответ: Да, но осторожно. Output кэшируется реже, потому что ответы разные. Обычно hit rate для output ниже.

Что дальше: неочевидный совет

Иногда дешевле использовать более дорогую модель, но с лучшим кэшированием. Например, если у модели hit rate 90% из-за оптимизированного инференса, а у конкурента 50%, то эффективная стоимость может быть ниже, даже если прайс-лист дороже.

Смотрите не на цены, а на effective cost. И считайте ее для каждого типа запросов отдельно. Как это сделать в продакшене, я рассказывал в кейсе с DeepSeek Reasoner.

И помните: в 2026 году кэширование - это не опция, а необходимость. Игнорируете - платите больше.

Подписаться на канал

Экономика AI: как считать реальную стоимость запроса к LLM с учётом кэша (формула effective cost)