Реальная стоимость LLM в 2026: reasoning-режимы и скрытые токены | AiManual
AiManual Logo Ai / Manual.
19 Апр 2026 Гайд

Экономика LLM в 2026: как считать реальную стоимость с учётом reasoning-режимов и скрытых токенов

Практический гайд по расчёту TCO для LLM API в 2026. Формулы, примеры от OpenAI и Anthropic, учёт reasoning effort и скрытых токенов.

Ваш счёт за AI взлетел. Вы не одиноки

В 2026 году считать стоимость LLM по старинке - всё равно что пытаться измерить расход бензина у Tesla, игнорируя электричество. Вы смотрите на счёт от OpenAI или Anthropic, видите цифры в 5-10 раз выше ожидаемых и чешете голову. Промпт был коротким, ответ - тоже. Откуда такие цифры?

Всё изменилось с приходом reasoning-режимов. Теперь ваша модель не просто генерирует текст. Она думает. А думать - дорого. Особенно когда провайдеры научились скрывать половину этой работы от ваших глаз.

Провальный сценарий: вы запускаете AI-аналитика для трейдинга с reasoning effort=high. Месячный бюджет в $500 сгорает за два дня. Вы не понимаете почему - в логах только входные и выходные токены.

Reasoning effort: от none до xhigh. Что скрывается за этими уровнями?

OpenAI ввела эту градацию ещё в 2025, но к 2026 она стала стандартом де-факто. Claude 3.7 Sonnet, GPT-4.5 Turbo, Gemini 2.0 Pro - все работают по схожей схеме. Чем сложнее задача, тем больше "мыслительных циклов" требуется модели.

Уровень reasoning (OpenAI, 19.04.2026)Множитель стоимостиДля каких задач
none / low1xКлассификация, простой чат, извлечение фактов
medium3-5xАнализ текста, многошаговые инструкции
high8-12xСложные рассуждения, математические задачи
xhigh / max15-25xНаучные исследования, анализ кода, стратегическое планирование

Здесь ловушка номер один. Вы ставите reasoning effort=high для задачи, которая решается на medium. И платите втрое больше. За что? За то, что модель будет "перебирать" больше гипотез, делать больше внутренних шагов. Которые вы не увидите.

💡
Anthropic называет это "скрытыми токенами". В документации Claude 3.7 прямо указано: до 70% вычислений могут быть internal reasoning tokens, не отражённые в стандартных input/output. Они считаются отдельно и дороже.

Сколько на самом деле стоит ваш запрос? Формула 2026 года

Забудьте про старую формулу стоимость = (input_tokens + output_tokens) * цена. Она умерла. Актуальная на 19.04.2026 выглядит так:

# Псевдокод расчёта реальной стоимости запроса

def calculate_real_cost(
    input_tokens: int,
    output_tokens: int,
    reasoning_effort: str,  # 'none', 'low', 'medium', 'high', 'xhigh'
    provider: str
) -> float:
    
    # Базовые цены на 19.04.2026 (примерные, USD)
    base_price_per_million = {
        'openai_gpt4.5': {'input': 2.50, 'output': 10.00},
        'anthropic_claude3.7': {'input': 3.00, 'output': 15.00},
        'google_gemini2.0': {'input': 1.80, 'output': 7.20}
    }
    
    # Множители reasoning effort
    effort_multiplier = {
        'none': 1.0,
        'low': 1.5,
        'medium': 4.0,
        'high': 10.0,
        'xhigh': 20.0
    }
    
    # Коэффициент скрытых токенов (зависит от провайдера и усилия)
    # Anthropic: до 3x от видимых токенов при high effort
    # OpenAI: скрытые токены включены в множитель effort
    hidden_token_factor = {
        'anthropic': {
            'low': 0.5,
            'medium': 1.2,
            'high': 2.5,
            'xhigh': 4.0
        },
        'openai': 0.0,  # уже учтено в effort_multiplier
        'google': 0.8   # Gemini показывает часть reasoning tokens
    }
    
    provider_data = base_price_per_million[provider]
    multiplier = effort_multiplier[reasoning_effort]
    
    # Видимая стоимость
    visible_cost = (
        (input_tokens / 1_000_000) * provider_data['input'] +
        (output_tokens / 1_000_000) * provider_data['output']
    ) * multiplier
    
    # Скрытая стоимость (если применимо)
    if provider in ['anthropic', 'google']:
        hidden_factor = hidden_token_factor[provider].get(reasoning_effort, 0)
        hidden_tokens = (input_tokens + output_tokens) * hidden_factor
        hidden_cost = (hidden_tokens / 1_000_000) * provider_data['input']
    else:
        hidden_cost = 0
    
    return visible_cost + hidden_cost

Эта формула - основа. Но в реальности нужно учитывать ещё кэширование, повторные запросы, неудачи. Отдельная статья про effective cost разбирает это подробно.

1Соберите реальные данные, а не теоретические

Не верьте документации на слово. Запустите нагрузочное тестирование с разными уровнями reasoning для ваших типовых задач. Замеряйте:

  • Фактическое время ответа (оно растёт с effort)
  • Количество токенов в биллинге от провайдера
  • Качество ответа (есть ли разница между medium и high?)

Используйте инструменты вроде LangSmith или собственные скрипты. Без этого вы летите вслепую.

2Определите минимальный достаточный reasoning effort

Для криптоаналитики нужен high. Для генерации email-ответов - low или none. Создайте матрицу соответствия задач и усилий. Самый частый промах - ставить high везде "на всякий случай".

Пример: анализ настроений в отзывах работает на low с точностью 94%. На high - 95%. Стоимость при этом различается в 8 раз. Нужна ли вам эта 1% точность?

3Внедрите динамический выбор effort

Не хардкодьте уровень. Определяйте его на лету по типу запроса, сложности, приоритету пользователя. Простая эвристика может сэкономить 40-60%.

# Пример эвристики для динамического выбора reasoning effort
def determine_effort(user_query: str, user_tier: str) -> str:
    query_lower = user_query.lower()
    
    # Простые запросы - low
    simple_keywords = ['привет', 'как дела', 'погода', 'напомни']
    if any(keyword in query_lower for keyword in simple_keywords):
        return 'low'
    
    # Аналитические запросы - medium/high
    analytical_keywords = ['проанализируй', 'сравни', 'почему', 'объясни']
    complex_keywords = ['стратегия', 'прогноз', 'оптимизируй', 'найди ошибку']
    
    if any(keyword in query_lower for keyword in complex_keywords):
        return 'high' if user_tier == 'premium' else 'medium'
    
    if any(keyword in query_lower for keyword in analytical_keywords):
        return 'medium'
    
    return 'low'  # по умолчанию

4Мониторьте не только токены, но и "стоимость за решение"

Токены - промежуточная метрика. Конечная - сколько стоит решить одну задачу пользователя. Если для ответа на сложный вопрос нужны 3 запроса с medium, это может быть дешевле одного с xhigh.

Настройте дашборды в инструментах мониторинга затрат, которые показывают cost-per-task, а не cost-per-token.

Где проваливаются даже опытные команды

1. Игнорирование warm-up costs. Reasoning-модели требуют "разогрева" - первые запросы в сессии дороже. Если вы делаете короткие сессии для тысяч пользователей, вы платите премию постоянно.

2. Смешивание задач в одном конвейере. Вы запускаете заголовочный конвейер, где первый шаг (анализ) требует high effort, а второй (генерация) - low. Но вы ставите high на весь пайплайн. Разделяйте и властвуйте.

3. Неверный выбор провайдера под задачу. Для reasoning-intensive задач иногда выгоднее локальная модель на своём железе, особенно после ценового обвала 2025-2026. Но не всегда - сборка ПК может быть ошибкой.

Самый опасный сценарий: вы создаёте AI-фичу, которая становится "дорогой cron-задачей". Она работает, приносит ценность, но её TCO съедает всю маржу. А отключить нельзя - пользователи привыкли.

Что будет дальше? Прогноз на 2027

Провайдеры введут посуточную тарификацию для reasoning. Не за токены, а за "единицы мыслительной мощности" в день. Как AWS для GPU, но для AI-рассуждений.

Появятся гибридные модели: простые задачи на дешёвых API, сложные - на дорогих reasoning-оптимизированных. Автоматическое распределение будет встроено во все фреймворки.

И главное - стоимость упадёт, но сложность расчётов вырастет. Умение считать real cost станет таким же обязательным навыком, как сегодня умение работать с Git.

Совет на последок: заведите spreadsheet прямо сегодня. Вбейте туда свои типовые запросы, посчитайте стоимость при разных effort уровнях. Увидите цифры, которые заставят пересмотреть половину фич. Это болезненно. Но дешевле, чем счёт в конце месяца.

Подписаться на канал