Стоимость GenAI в продакшене: от демо до enterprise

Q: Сколько стоит продакшен-версия RAG-системы на 1000 пользователей?

Минимум $300-500/мес на LLM API + $200-400 на инфраструктуру. Если используете open-source модель на своем GPU — прибавьте $1000-2000 за аренду/амортизацию.

Q: Что лучше: своя инфраструктура или облако?

Если утилизация GPU >70% — своя. Иначе облако с managed GPU, но следите за спот-ценами.

Демо-режим: когда $20 кажутся спасением

Вы запускаете прототип. OpenAI или локальная модель через Ollama — $20 в месяц на API, и вот уже чат-бот отвечает на вопросы. Красота? Нет, ловушка. Демо не включает нагрузку, latency, отказоустойчивость и, главное, реальные паттерны использования. В продакшене каждый запрос превращается в цепочку: guardrails -> RAG -> LLM -> постобработка. И каждый этап жрет ресурсы.

Когда я вижу стартапы, которые гордятся $20-прототипом, я вспоминаю историю про облачные кредиты: $300 000 превращаются в $2 млн долга за полгода. То же самое с GenAI: дешевое демо — это кредит под 1000% годовых.

Главная проблема: демо считает только cost per token. В продакшене к нему добавляются cost per request, cost per user и cost per failure.

Продакшен: где деньги прячутся на самом деле

В продакшене вы платите не за токены. Вы платите за гарантии. Гарантия, что ответ придет за 500 мс, а не за 5 секунд. Гарантия, что модель не упадет под пиковой нагрузкой. Гарантия, что данные не утекут.

Разберем три основных слоя затрат.

Инфраструктура: GPU — новая нефть

Если вы хостите модель сами — готовьтесь к ценам NVIDIA. DGX Spark подорожал на $700, и это только начало. Облачные инстансы с A100 или H100 стоят от $3 до $15 в час. Один инстанс — $10 000 в месяц. Для продакшена нужно минимум 2-3 таких, плюс балансировщики и CDN. AWS зарабатывает $142 млрд на AI — и эти деньги берете не вы, а облачные провайдеры.

Но даже если выберете облачного провайдера вроде Yandex Cloud AI, не обольщайтесь: managed GPU дешевле физических только при <20% утилизации. Как только ваш сервис начинает расти, стоимость утиных лапок (спотовых инстансов) удваивается.

Latency и холодный старт

Serverless GPU — зло. Модель загружается 30-60 секунд, вы платите за простой. Решение — warm pools, keep-alive, но это +30-50% к счету. Зато пользователь не видит задержек. Вопрос: готовы ли вы платить за комфорт?

Ошибка №1: не учитывать холодный старт в TCO. Результат — бюджет на инфраструктуру вырастает вдвое после первого load-test.

RAG: невидимый пожиратель бюджета

RAG (Retrieval-Augmented Generation) добавляет этап поиска. Звучит как «просто добавим векторную БД». На практике:

Embedding каждого документа — $0.0001 за токен (Ada v2), но если документов миллион — это $1000 только на генерацию эмбеддингов.
Хранение векторов в Pinecone/Weaviate/Qdrant — $0.10 за 1000 векторов в месяц. Для enterprise с 10 млн векторов — $1000/мес только за хранение.
Re-ranking — еще один запрос к LLM за поисковую выдачу. Каждый запрос пользователя превращается в 2-3 вызова модели: эмбеддинг запроса + реранк + генерация ответа.

Итоговая стоимость одного RAG-запроса может быть в 5-10 раз выше, чем простого вызова LLM. Цена на токены не упадет — инфраструктура дорожает.

Практический пример: чат-бот техподдержки

Допустим, вы делаете бота для 10 000 пользователей, каждый задает 10 вопросов в день. Объем базы знаний — 100 000 страниц. Оптимистичный расчет:

Компонент	Цена в месяц
LLM API (GPT-4o mini, 2M токенов)	$200
Embeddings (100k доков, ежедневное обновление)	$150
Векторная БД (100k векторов с replication)	$300
Re-ranking (10% запросов)	$80
Guardrails и мониторинг	$100
Итого	$830/мес

А теперь умножьте на 3, потому что в реальности половину запросов нужно логировать, да еще и A/B тесты. AI-стартапы закрываются именно из-за таких сюрпризов.

Guardrails и безопасность: плати дважды

Модель может сгенерировать что угодно. Чтобы этого не случилось, ставят guardrails — часто это отдельный LLM, который проверяет вход и выход. Значит, еще один вызов модели на каждый запрос. Плюс мониторинг: Prometheus + Grafana + дашборды + alerting. Выгорание при работе с AI-агентами — это и про постоянные инциденты из-за того, что guardrails пропустили токсичный ответ.

Добавьте сюда логирование всех промптов и ответов (для compliance и дообучения). Хранить их нужно дорого (S3 + Glacier), а удалять по закону — еще и риск репутации.

Масштабирование: от 100 до 100 000 пользователей

Когда число пользователей растет, линейная экстраполяция стоимости не работает. Появляются эффект масштаба (batch inference дешевле) и нелинейные скачки из-за необходимости репликации, CDN, мультирегиональности.

OpenAI платит $10 млрд Cerebras за чипы для inference — это о том, что даже гиганты ищут способы снизить стоимость. Если вы не гигант, ваш выход — кэширование. Кэширование ответов для одинаковых запросов (или семантически похожих) может сократить затраты на 40-70%. Но построить такой кэш — отдельная инженерная задача.

Три границы стоимости

Из интервью с лидом Google Cloud AI: есть три границы — интеллект, скорость, стоимость. Вы не можете улучшить все три одновременно. Хотите быстрее и дешевле — жертвуете качеством. Enterprise-уровень требует и скорости, и качества — значит, бюджет летит в космос.

Enterprise: юридические и compliance затраты

Если вы работаете с медицинскими или финансовыми данными, вам нужно:

Лицензирование модели (некоторые open-source модели требуют enterprise-лицензию при коммерческом использовании).
Data residency: модели и данные должны лежать в определенной юрисдикции — значит, собственное оборудование или выделенные регионы облака.
Audit trails: каждый запрос и ответ должны быть залогированы, а логи защищены от изменений.

Все это умножает стоимость инфраструктуры на 2-3x. OpenAI в красном коде — и если ваш провайдер поднимет цены или изменит условия, вы останетесь с работающим сервисом, но без margin.

Как оценить TCO: пошаговый план

Переходим к цифрам. Вот как считаю я (или мой инженер, после того как я на него наорал за сюрприз в счете).

Определите паттерн запросов: средняя длина промпта и ответа, частота, пики. Не гадайте — снимите метрики с беты.
Выберите модель: не берите самую умную. Часто GPT-4o mini справляется с 90% задач. Fine-tuning не всегда окупается (читайте про compactAI).
Рассчитайте стоимость inf+storage: учтите количество контекстов, эмбеддингов, размер базы знаний.
Добавьте множитель на reliability: 2x для продакшена (replicas, backups), 3x для enterprise (compliance, multi-region).
Прибавьте cost per error: false negative / false positive обходятся дорого. Guardrails — не роскошь, а экономия.

В итоге получите реалистичный прогноз. Помните про кредиты: они дают иллюзию бесплатного масштабирования, но потом приходит счет.

Типичные ошибки (на которых я обжегся)

Не учитывать embedding costs. Поверьте, обновлять эмбеддинги при каждом изменении документов — это дорого.
Игнорировать cost of failure. Если модель упадет в прайм-тайм, потеряете не только пользователей, но и деньги на репутации.
Верить в обещания «дешевого fine-tuning». CompactAI — звучит круто, но на продакшене вылезают скрытые затраты на dataset curation и validation.
Не рассчитывать бюджет на guardrails. Они могут стоить столько же, сколько и сама модель.

FAQ

Сколько стоит продакшен-версия RAG-системы на 1000 пользователей? Минимум $300-500/мес на LLM API + $200-400 на инфраструктуру. Если используете open-source модель на своем GPU — прибавьте $1000-2000 за аренду/амортизацию.

Что лучше: своя инфраструктура или облако? Если утилизация GPU >70% — своя. Иначе облако с managed GPU, но следите за спот-ценами.

Почему AI-продукты так дороги? Потому что каждый токен стоит денег, а в enterprise пайплайне токенов в 10 раз больше, чем кажется на старте.

Подписаться на канал

Реальная стоимость GenAI в продакшене: от демо до enterprise — полный разбор затрат