Прайс-лист лжет: почему ваши LLM-запросы стоят в 10 раз дешевле (или дороже)
Вы смотрите на прайс-лист OpenAI: $0.01 за 1K токенов. Умножаете на миллион токенов, получаете $10. Кажется, все просто. Но это ложь.
На самом деле, ваши запросы могут стоить $1 или $100. Разница - в кэше. Игнорируете его - выбрасываете деньги на ветер.
Типичная ошибка: считать стоимость по прайс-листу, не учитывая hit rate кэша. В результате бюджеты раздуваются, а ROI падает.
Как работает кэширование в LLM: не только KV-cache
Когда модель генерирует текст, она хранит ключи и значения для предыдущих токенов - это KV-cache. Если промпт повторяется, часть вычислений можно пропустить. Но есть и промпт-кэш: некоторые провайдеры кэшируют целые промпты.
В 2026 году все крупные провайдеры используют агрессивное кэширование. OpenAI, Anthropic, Google - все они экономят на ваших повторяющихся запросах. Но вы об этом не знаете.
Формула effective cost: считаем по-настоящему
Эффективная стоимость одного токена:
effective_cost = (hit_rate * S + (1 - hit_rate) * O) / (hit_rate * cache_token_ratio + (1 - hit_rate))
Где:
- hit_rate - вероятность попадания в кэш (от 0 до 1)
- S - стоимость токена при попадании в кэш (обычно ниже)
- O - стоимость токена при промахе (полная цена из прайс-листа)
- cache_token_ratio - отношение количества токенов, взятых из кэша, к общему числу токенов в запросе (часто близко к 1 для повторяющихся промптов)
Звучит сложно? Давайте на примере.
Пример: GPT-4.5 против Claude 3.7 в 2026 году
Предположим, вы используете GPT-4.5 для классификации отзывов. Промпт шаблонный, hit rate = 70%. Цены на 10.03.2026:
| Модель | Стоимость input (за 1K токенов) | Стоимость output (за 1K токенов) | Скидка за кэш |
|---|---|---|---|
| GPT-4.5 Turbo | $0.01 | $0.03 | 90% для кэшированных токенов |
| Claude 3.7 Sonnet | $0.015 | $0.04 | 85% для кэшированных токенов |
Рассчитаем эффективную стоимость для input токенов в GPT-4.5. S = $0.01 * 0.1 = $0.001 (скидка 90%), O = $0.01. Пусть cache_token_ratio = 0.9 (90% токенов из кэша). Hit rate = 0.7.
hit_rate = 0.7
S = 0.001
O = 0.01
cache_token_ratio = 0.9
effective_cost = (0.7 * 0.001 + (1 - 0.7) * 0.01) / (0.7 * 0.9 + (1 - 0.7))
effective_cost = (0.0007 + 0.003) / (0.63 + 0.3) = 0.0037 / 0.93 ≈ 0.003978
Итого: эффективная стоимость - $0.003978 за 1K токенов, а не $0.01. В 2.5 раза дешевле!
Внимание: эти цифры условны. Реальные скидки за кэш у провайдеров меняются. На 2026 год OpenAI предлагает до 95% скидки для повторяющихся промптов в GPT-4.5, но только при использовании их API с включенным кэшированием.
Как измерить hit rate: три практических способа
1 Логирование запросов
Записывайте все промпты и ответы. Ищите паттерны. Если 80% запросов - это "классифицируй отзыв: {текст}", то hit rate высокий.
2 Используйте инструменты провайдера
OpenAI в 2026 году предоставляет Dashboard с метриками кэширования. Anthropic - аналогично. Смотрите, сколько токенов взято из кэша.
3 Эмуляция
Запустите тестовый набор запросов с и без кэша. Сравните время и стоимость. Библиотеки вроде LLMRouter помогают автоматизировать это.
Когда кэширование не работает: уникальные запросы
Если каждый запрос уникален (например, генерация творческого контента), hit rate близок к нулю. Тогда effective cost равна прайс-листовой. Но даже здесь есть хитрость: можно кэшировать части промптов. Например, системный промпт часто одинаковый.
Иногда выгоднее использовать локальную модель, если запросы уникальны и их много. Об этом я писал в статье про API vs локальные модели в 2026.
Ошибки, которые дорого стоят
- Игнорирование hit rate: платить полную цену за кэшируемые запросы.
- Неправильное измерение: считать hit rate по количеству запросов, а не по токенам. Важны именно токены.
- Шаблонизация без тестов: пытаться увеличить hit rate, делая промпты похожими, но теряя качество. Всегда проверяйте качество модели после оптимизации.
FAQ: частые вопросы
Вопрос: Как увеличить hit rate?
Ответ: Стандартизируйте промпты. Вынесите изменяющиеся части в переменные. Используйте одинаковые системные сообщения. Но не жертвуйте качеством.
Вопрос: Все ли провайдеры дают скидку за кэш?
Ответ: Нет. Некоторые мелкие провайдеры в 2026 году еще не внедрили кэширование. Всегда уточняйте в документации.
Вопрос: Формула effective cost работает для output токенов?
Ответ: Да, но осторожно. Output кэшируется реже, потому что ответы разные. Обычно hit rate для output ниже.
Что дальше: неочевидный совет
Иногда дешевле использовать более дорогую модель, но с лучшим кэшированием. Например, если у модели hit rate 90% из-за оптимизированного инференса, а у конкурента 50%, то эффективная стоимость может быть ниже, даже если прайс-лист дороже.
Смотрите не на цены, а на effective cost. И считайте ее для каждого типа запросов отдельно. Как это сделать в продакшене, я рассказывал в кейсе с DeepSeek Reasoner.
И помните: в 2026 году кэширование - это не опция, а необходимость. Игнорируете - платите больше.