Ваш счёт за AI взлетел. Вы не одиноки
В 2026 году считать стоимость LLM по старинке - всё равно что пытаться измерить расход бензина у Tesla, игнорируя электричество. Вы смотрите на счёт от OpenAI или Anthropic, видите цифры в 5-10 раз выше ожидаемых и чешете голову. Промпт был коротким, ответ - тоже. Откуда такие цифры?
Всё изменилось с приходом reasoning-режимов. Теперь ваша модель не просто генерирует текст. Она думает. А думать - дорого. Особенно когда провайдеры научились скрывать половину этой работы от ваших глаз.
Провальный сценарий: вы запускаете AI-аналитика для трейдинга с reasoning effort=high. Месячный бюджет в $500 сгорает за два дня. Вы не понимаете почему - в логах только входные и выходные токены.
Reasoning effort: от none до xhigh. Что скрывается за этими уровнями?
OpenAI ввела эту градацию ещё в 2025, но к 2026 она стала стандартом де-факто. Claude 3.7 Sonnet, GPT-4.5 Turbo, Gemini 2.0 Pro - все работают по схожей схеме. Чем сложнее задача, тем больше "мыслительных циклов" требуется модели.
| Уровень reasoning (OpenAI, 19.04.2026) | Множитель стоимости | Для каких задач |
|---|---|---|
| none / low | 1x | Классификация, простой чат, извлечение фактов |
| medium | 3-5x | Анализ текста, многошаговые инструкции |
| high | 8-12x | Сложные рассуждения, математические задачи |
| xhigh / max | 15-25x | Научные исследования, анализ кода, стратегическое планирование |
Здесь ловушка номер один. Вы ставите reasoning effort=high для задачи, которая решается на medium. И платите втрое больше. За что? За то, что модель будет "перебирать" больше гипотез, делать больше внутренних шагов. Которые вы не увидите.
Сколько на самом деле стоит ваш запрос? Формула 2026 года
Забудьте про старую формулу стоимость = (input_tokens + output_tokens) * цена. Она умерла. Актуальная на 19.04.2026 выглядит так:
# Псевдокод расчёта реальной стоимости запроса
def calculate_real_cost(
input_tokens: int,
output_tokens: int,
reasoning_effort: str, # 'none', 'low', 'medium', 'high', 'xhigh'
provider: str
) -> float:
# Базовые цены на 19.04.2026 (примерные, USD)
base_price_per_million = {
'openai_gpt4.5': {'input': 2.50, 'output': 10.00},
'anthropic_claude3.7': {'input': 3.00, 'output': 15.00},
'google_gemini2.0': {'input': 1.80, 'output': 7.20}
}
# Множители reasoning effort
effort_multiplier = {
'none': 1.0,
'low': 1.5,
'medium': 4.0,
'high': 10.0,
'xhigh': 20.0
}
# Коэффициент скрытых токенов (зависит от провайдера и усилия)
# Anthropic: до 3x от видимых токенов при high effort
# OpenAI: скрытые токены включены в множитель effort
hidden_token_factor = {
'anthropic': {
'low': 0.5,
'medium': 1.2,
'high': 2.5,
'xhigh': 4.0
},
'openai': 0.0, # уже учтено в effort_multiplier
'google': 0.8 # Gemini показывает часть reasoning tokens
}
provider_data = base_price_per_million[provider]
multiplier = effort_multiplier[reasoning_effort]
# Видимая стоимость
visible_cost = (
(input_tokens / 1_000_000) * provider_data['input'] +
(output_tokens / 1_000_000) * provider_data['output']
) * multiplier
# Скрытая стоимость (если применимо)
if provider in ['anthropic', 'google']:
hidden_factor = hidden_token_factor[provider].get(reasoning_effort, 0)
hidden_tokens = (input_tokens + output_tokens) * hidden_factor
hidden_cost = (hidden_tokens / 1_000_000) * provider_data['input']
else:
hidden_cost = 0
return visible_cost + hidden_costЭта формула - основа. Но в реальности нужно учитывать ещё кэширование, повторные запросы, неудачи. Отдельная статья про effective cost разбирает это подробно.
1Соберите реальные данные, а не теоретические
Не верьте документации на слово. Запустите нагрузочное тестирование с разными уровнями reasoning для ваших типовых задач. Замеряйте:
- Фактическое время ответа (оно растёт с effort)
- Количество токенов в биллинге от провайдера
- Качество ответа (есть ли разница между medium и high?)
Используйте инструменты вроде LangSmith или собственные скрипты. Без этого вы летите вслепую.
2Определите минимальный достаточный reasoning effort
Для криптоаналитики нужен high. Для генерации email-ответов - low или none. Создайте матрицу соответствия задач и усилий. Самый частый промах - ставить high везде "на всякий случай".
Пример: анализ настроений в отзывах работает на low с точностью 94%. На high - 95%. Стоимость при этом различается в 8 раз. Нужна ли вам эта 1% точность?
3Внедрите динамический выбор effort
Не хардкодьте уровень. Определяйте его на лету по типу запроса, сложности, приоритету пользователя. Простая эвристика может сэкономить 40-60%.
# Пример эвристики для динамического выбора reasoning effort
def determine_effort(user_query: str, user_tier: str) -> str:
query_lower = user_query.lower()
# Простые запросы - low
simple_keywords = ['привет', 'как дела', 'погода', 'напомни']
if any(keyword in query_lower for keyword in simple_keywords):
return 'low'
# Аналитические запросы - medium/high
analytical_keywords = ['проанализируй', 'сравни', 'почему', 'объясни']
complex_keywords = ['стратегия', 'прогноз', 'оптимизируй', 'найди ошибку']
if any(keyword in query_lower for keyword in complex_keywords):
return 'high' if user_tier == 'premium' else 'medium'
if any(keyword in query_lower for keyword in analytical_keywords):
return 'medium'
return 'low' # по умолчанию4Мониторьте не только токены, но и "стоимость за решение"
Токены - промежуточная метрика. Конечная - сколько стоит решить одну задачу пользователя. Если для ответа на сложный вопрос нужны 3 запроса с medium, это может быть дешевле одного с xhigh.
Настройте дашборды в инструментах мониторинга затрат, которые показывают cost-per-task, а не cost-per-token.
Где проваливаются даже опытные команды
1. Игнорирование warm-up costs. Reasoning-модели требуют "разогрева" - первые запросы в сессии дороже. Если вы делаете короткие сессии для тысяч пользователей, вы платите премию постоянно.
2. Смешивание задач в одном конвейере. Вы запускаете заголовочный конвейер, где первый шаг (анализ) требует high effort, а второй (генерация) - low. Но вы ставите high на весь пайплайн. Разделяйте и властвуйте.
3. Неверный выбор провайдера под задачу. Для reasoning-intensive задач иногда выгоднее локальная модель на своём железе, особенно после ценового обвала 2025-2026. Но не всегда - сборка ПК может быть ошибкой.
Самый опасный сценарий: вы создаёте AI-фичу, которая становится "дорогой cron-задачей". Она работает, приносит ценность, но её TCO съедает всю маржу. А отключить нельзя - пользователи привыкли.
Что будет дальше? Прогноз на 2027
Провайдеры введут посуточную тарификацию для reasoning. Не за токены, а за "единицы мыслительной мощности" в день. Как AWS для GPU, но для AI-рассуждений.
Появятся гибридные модели: простые задачи на дешёвых API, сложные - на дорогих reasoning-оптимизированных. Автоматическое распределение будет встроено во все фреймворки.
И главное - стоимость упадёт, но сложность расчётов вырастет. Умение считать real cost станет таким же обязательным навыком, как сегодня умение работать с Git.
Совет на последок: заведите spreadsheet прямо сегодня. Вбейте туда свои типовые запросы, посчитайте стоимость при разных effort уровнях. Увидите цифры, которые заставят пересмотреть половину фич. Это болезненно. Но дешевле, чем счёт в конце месяца.