Демо-режим: когда $20 кажутся спасением
Вы запускаете прототип. OpenAI или локальная модель через Ollama — $20 в месяц на API, и вот уже чат-бот отвечает на вопросы. Красота? Нет, ловушка. Демо не включает нагрузку, latency, отказоустойчивость и, главное, реальные паттерны использования. В продакшене каждый запрос превращается в цепочку: guardrails -> RAG -> LLM -> постобработка. И каждый этап жрет ресурсы.
Когда я вижу стартапы, которые гордятся $20-прототипом, я вспоминаю историю про облачные кредиты: $300 000 превращаются в $2 млн долга за полгода. То же самое с GenAI: дешевое демо — это кредит под 1000% годовых.
Главная проблема: демо считает только cost per token. В продакшене к нему добавляются cost per request, cost per user и cost per failure.
Продакшен: где деньги прячутся на самом деле
В продакшене вы платите не за токены. Вы платите за гарантии. Гарантия, что ответ придет за 500 мс, а не за 5 секунд. Гарантия, что модель не упадет под пиковой нагрузкой. Гарантия, что данные не утекут.
Разберем три основных слоя затрат.
Инфраструктура: GPU — новая нефть
Если вы хостите модель сами — готовьтесь к ценам NVIDIA. DGX Spark подорожал на $700, и это только начало. Облачные инстансы с A100 или H100 стоят от $3 до $15 в час. Один инстанс — $10 000 в месяц. Для продакшена нужно минимум 2-3 таких, плюс балансировщики и CDN. AWS зарабатывает $142 млрд на AI — и эти деньги берете не вы, а облачные провайдеры.
Но даже если выберете облачного провайдера вроде Yandex Cloud AI, не обольщайтесь: managed GPU дешевле физических только при <20% утилизации. Как только ваш сервис начинает расти, стоимость утиных лапок (спотовых инстансов) удваивается.
Latency и холодный старт
Serverless GPU — зло. Модель загружается 30-60 секунд, вы платите за простой. Решение — warm pools, keep-alive, но это +30-50% к счету. Зато пользователь не видит задержек. Вопрос: готовы ли вы платить за комфорт?
Ошибка №1: не учитывать холодный старт в TCO. Результат — бюджет на инфраструктуру вырастает вдвое после первого load-test.
RAG: невидимый пожиратель бюджета
RAG (Retrieval-Augmented Generation) добавляет этап поиска. Звучит как «просто добавим векторную БД». На практике:
- Embedding каждого документа — $0.0001 за токен (Ada v2), но если документов миллион — это $1000 только на генерацию эмбеддингов.
- Хранение векторов в Pinecone/Weaviate/Qdrant — $0.10 за 1000 векторов в месяц. Для enterprise с 10 млн векторов — $1000/мес только за хранение.
- Re-ranking — еще один запрос к LLM за поисковую выдачу. Каждый запрос пользователя превращается в 2-3 вызова модели: эмбеддинг запроса + реранк + генерация ответа.
Итоговая стоимость одного RAG-запроса может быть в 5-10 раз выше, чем простого вызова LLM. Цена на токены не упадет — инфраструктура дорожает.
Практический пример: чат-бот техподдержки
Допустим, вы делаете бота для 10 000 пользователей, каждый задает 10 вопросов в день. Объем базы знаний — 100 000 страниц. Оптимистичный расчет:
| Компонент | Цена в месяц |
|---|---|
| LLM API (GPT-4o mini, 2M токенов) | $200 |
| Embeddings (100k доков, ежедневное обновление) | $150 |
| Векторная БД (100k векторов с replication) | $300 |
| Re-ranking (10% запросов) | $80 |
| Guardrails и мониторинг | $100 |
| Итого | $830/мес |
А теперь умножьте на 3, потому что в реальности половину запросов нужно логировать, да еще и A/B тесты. AI-стартапы закрываются именно из-за таких сюрпризов.
Guardrails и безопасность: плати дважды
Модель может сгенерировать что угодно. Чтобы этого не случилось, ставят guardrails — часто это отдельный LLM, который проверяет вход и выход. Значит, еще один вызов модели на каждый запрос. Плюс мониторинг: Prometheus + Grafana + дашборды + alerting. Выгорание при работе с AI-агентами — это и про постоянные инциденты из-за того, что guardrails пропустили токсичный ответ.
Добавьте сюда логирование всех промптов и ответов (для compliance и дообучения). Хранить их нужно дорого (S3 + Glacier), а удалять по закону — еще и риск репутации.
Масштабирование: от 100 до 100 000 пользователей
Когда число пользователей растет, линейная экстраполяция стоимости не работает. Появляются эффект масштаба (batch inference дешевле) и нелинейные скачки из-за необходимости репликации, CDN, мультирегиональности.
OpenAI платит $10 млрд Cerebras за чипы для inference — это о том, что даже гиганты ищут способы снизить стоимость. Если вы не гигант, ваш выход — кэширование. Кэширование ответов для одинаковых запросов (или семантически похожих) может сократить затраты на 40-70%. Но построить такой кэш — отдельная инженерная задача.
Три границы стоимости
Из интервью с лидом Google Cloud AI: есть три границы — интеллект, скорость, стоимость. Вы не можете улучшить все три одновременно. Хотите быстрее и дешевле — жертвуете качеством. Enterprise-уровень требует и скорости, и качества — значит, бюджет летит в космос.
Enterprise: юридические и compliance затраты
Если вы работаете с медицинскими или финансовыми данными, вам нужно:
- Лицензирование модели (некоторые open-source модели требуют enterprise-лицензию при коммерческом использовании).
- Data residency: модели и данные должны лежать в определенной юрисдикции — значит, собственное оборудование или выделенные регионы облака.
- Audit trails: каждый запрос и ответ должны быть залогированы, а логи защищены от изменений.
Все это умножает стоимость инфраструктуры на 2-3x. OpenAI в красном коде — и если ваш провайдер поднимет цены или изменит условия, вы останетесь с работающим сервисом, но без margin.
Как оценить TCO: пошаговый план
Переходим к цифрам. Вот как считаю я (или мой инженер, после того как я на него наорал за сюрприз в счете).
- Определите паттерн запросов: средняя длина промпта и ответа, частота, пики. Не гадайте — снимите метрики с беты.
- Выберите модель: не берите самую умную. Часто GPT-4o mini справляется с 90% задач. Fine-tuning не всегда окупается (читайте про compactAI).
- Рассчитайте стоимость inf+storage: учтите количество контекстов, эмбеддингов, размер базы знаний.
- Добавьте множитель на reliability: 2x для продакшена (replicas, backups), 3x для enterprise (compliance, multi-region).
- Прибавьте cost per error: false negative / false positive обходятся дорого. Guardrails — не роскошь, а экономия.
В итоге получите реалистичный прогноз. Помните про кредиты: они дают иллюзию бесплатного масштабирования, но потом приходит счет.
Типичные ошибки (на которых я обжегся)
- Не учитывать embedding costs. Поверьте, обновлять эмбеддинги при каждом изменении документов — это дорого.
- Игнорировать cost of failure. Если модель упадет в прайм-тайм, потеряете не только пользователей, но и деньги на репутации.
- Верить в обещания «дешевого fine-tuning». CompactAI — звучит круто, но на продакшене вылезают скрытые затраты на dataset curation и validation.
- Не рассчитывать бюджет на guardrails. Они могут стоить столько же, сколько и сама модель.
FAQ
Сколько стоит продакшен-версия RAG-системы на 1000 пользователей? Минимум $300-500/мес на LLM API + $200-400 на инфраструктуру. Если используете open-source модель на своем GPU — прибавьте $1000-2000 за аренду/амортизацию.
Что лучше: своя инфраструктура или облако? Если утилизация GPU >70% — своя. Иначе облако с managed GPU, но следите за спот-ценами.
Почему AI-продукты так дороги? Потому что каждый токен стоит денег, а в enterprise пайплайне токенов в 10 раз больше, чем кажется на старте.