Зачем вам этот геморрой?
Счет от OpenAI перевалил за сотку баксов? Юридический отдел зашевелился из-за того, что ваши промпты утекают в облако третьей стороны? Поздравляю, вы созрели для self-hosting. Это не про «поиграть с моделькой на ноуте». Это про то, чтобы поставить работающий, отказоустойчивый инференс-сервер, который не сломается от первого же RPS и не обанкротит компанию.
Звучит страшно. На деле – собрать конструктор, если знать, куда смотреть и какие грабли обойти. Я собрал десяток таких систем, от маленьких для анализа логов до крупных чат-сервисов. Дам план, который работает в 2026 году.
Это не теоретический разбор. Каждый совет проверен на проде – обычно после дорогостоящих ошибок. Если что-то кажется избыточным, вспомните ночной звонок из-за упавшей модели в час пик.
Модель: не гонитесь за размером, гонитесь за эффективностью
В 2026 году гонка параметров немного поутихла. Все поняли, что 400-миллиардная модель на трех запросах в секунду – красиво, но бесполезно. Критерии другие: качество ответов на вашей задаче, скорость инференса, потребление памяти.
1 Определите задачу точнее «нужна умная модель»
Четко сформулируйте, что должна делать модель. Генерировать код? Понимать длинные документы? Вести диалог? От этого зависит выбор архитектуры.
- Код и рассуждение: Ищите модели с хорошими scores на HumanEval и GSM8K. В начале 2026 лидируют DeepSeek-Coder-V3 (33B) и свежие форки Llama 3.2 Coder. Они понимают контекст до 128K токенов и умеют вызывать инструменты (tool calling).
- Диалог и общие знания: Mistral-SuperIOR-12B (да, такое имя) или Qwen2.5-32B-Instruct. Баланс скорости и качества. Llama 3.1 70B уже начинает считаться legacy, но для некоторых задач все еще актуальна.
- Обработка документов (RAG): Тут важна длина контекста. Ищите модели с поддержкой 200K+ токенов и низким «забыванием» информации из середины контекста. Новый Yarn-Mixtral-8x22B-256K показывает себя отлично, но жрет память.
Если сомневаетесь, запустите быстрый A/B тест на Ollama. Он позволяет за час прогнать несколько моделей на ваших данных и сравнить результаты. Не доверяйте голым бенчмаркам из интернета.
Железо: облако против своего сервера, или как не прогореть
Самый болезненный вопрос. Арендовать GPU в облаке или купить железо? Ответ – смотрите на горизонт планирования и график нагрузки.
| Сценарий | Что брать | Ориентировочная стоимость (2026) | Зачем |
|---|---|---|---|
| Эксперименты, разработка | RTX 4090 (24GB) локально или облачный T4/G10 | $2000 / $0.8 в час | Поместится большинство 7B-20B моделей. Быстро итерироваться. |
| Продакшн с низкой/средней нагрузкой | Облачный инстанс с 1x H100 80GB или 2x A100 40GB | $4-7 в час | Стабильность, масштабирование, поддержка bfloat16. |
| Высокая нагрузка, предсказуемый трафик, безопасность | Свой сервер (например, с 4x H100) | $50k+ CAPEX + OPEX | Окупаемость за 12-18 месяцев при 24/7 работе. Полный контроль. |
Облачные провайдеры в 2026 году поднажали на доступность H100 и новых чипов. У Vultr (партнерская ссылка) появились инстансы с H200 по адекватной цене. У AWS – инстансы на чипах Trainium2, которые для инференса LLM иногда эффективнее GPU. Сравнивайте цену за токен, а не за час аренды.
Самая частая ошибка – брать мощный инстанс «на авось». Начинайте с самого дешевого варианта, замеряйте реальную нагрузку (RPS, latency, memory usage) и масштабируйтесь только когда упираетесь в лимиты. Мониторинг с первого дня.
Волшебная таблетка: квантование. Без него – никуда
Квантование – это не магия, а строгая математика. Мы уменьшаем точность весов модели (скажем, с 16 бит до 4), чтобы она занимала меньше памяти и быстрее работала. Потери в качестве? Минимальные, если делать правильно. В 2026 году стандарт де-факто – GPTQ и AWQ для GPU, GGUF для CPU/смешанного режима.
2 Практическое квантование за 5 минут
Не нужно квантовать модель самому. Берём готовые квантованные версии с Hugging Face. Фильтруем по тегам: GPTQ, AWQ, GGUF. Авторитетные авторы: TheBloke, bartowski.
# Скачиваем 7B модель, квантованную в GPTQ (4 бита)
wget https://huggingface.co/TheBloke/Mistral-SuperIOR-12B-GPTQ/resolve/main/model.safetensors
wget https://huggingface.co/TheBloke/Mistral-SuperIOR-12B-GPTQ/raw/main/config.json
Как выбрать формат?
- GPTQ/AWQ: Если модель будет работать исключительно на GPU (NVIDIA). Максимальная скорость инференса.
- GGUF (Q4_K_M): Если возможен запуск на CPU или у вас слабая видеокарта. Универсально, но медленнее на GPU.
Подробнее про инструменты читайте в нашем сравнении LM Studio и llama.cpp.
Развертывание: от скачанного файла до продакшн-эндпоинта
Теперь соберем все вместе. Я предпочитаю стек: модель в GGUF/GPTQ + сервер vLLM или llama.cpp (через его сервер) + Docker + балансировщик.
3 Шаг за шагом: деплой с vLLM
vLLM в 2026 – это монстр оптимизации. Поддерживает Continuous Batching, PagedAttention и кучу других технологий, которые выжимают из железа максимум.
# Устанавливаем (лучше в виртуальное окружение)
pip install vllm
# Запускаем сервер. Модель автоматически скачается с Hugging Face.
# --gpu-memory-utilization 0.9 - использовать 90% видеопамяти.
# --max-model-len 8192 - максимальная длина контекста.
vllm serve TheBloke/Mistral-SuperIOR-12B-GPTQ --gpu-memory-utilization 0.9 --max-model-len 8192
Сервер поднимется на localhost:8000. Он предоставляет OpenAI-совместимый API. Ваше приложение, написанное для ChatGPT, будет работать с ним без изменения кода, кроме URL и API-ключа (можно задать через --api-key).
4 Настройка для реального мира
Голый сервер – это полдела. Нужно добавить обвязку:
- Rate Limiting: Используйте nginx или, лучше, API Gateway (Kong, Traefik), чтобы пользователи не положили сервер.
- Логирование и мониторинг: Все запросы и ответы – в структурированные логи (JSON). Metrika: latency (P95, P99), GPU utilization, токены в секунду. Grafana + Prometheus.
- Безопасность: HTTPS (Let's Encrypt), API-ключи (не один на всех!), изоляция сети. Если модель должна иметь доступ в интернет для поиска, делайте это через изолированный прокси-сервис, как описано в гайде про доступ в интернет для LLM.
Типичные грабли, на которые наступают все
- Не учитывают overhead памяти. Модель 13B в 4 бита занимает ~7.5GB. Но для работы vLLM с батчингом нужно еще 2-4GB. Берите видеопамяти на 30% больше.
- Забывают про cooling. GPU под 100% нагрузкой 24/7 превращают серверную в сауну. Планируйте охлаждение.
- Экономят на оперативке. Для работы с большими контекстами и быстрой загрузки весов нужна быстрая RAM. DDR5 – must have.
- Не тестируют под нагрузкой. Запустили – ответ пришел. Ура! А что будет при 100 параллельных запросах? Используйте инструменты вроде
locustилиk6для нагрузочного тестирования до запуска в продакшн.
Стоит ли оно того?
Давайте посчитаем. Допустим, у вас 10 тысяч запросов в день, в среднем по 500 токенов на запрос. При использовании GPT-4 Turbo (цены на март 2026) это примерно $50 в день или $1500 в месяц. Инстанс с H100 (80GB) в облаке обойдется вам в $5-6 в час. При равномерной нагрузке (24/7) – $3600-4300 в месяц. Кажется, дороже?
Но. 1) Вы контролируете данные. 2) Запросы к вашей модели не будут дешеветь или дорожать по воле OpenAI. 3) Вы можете оптимизировать модель под свою задачу (дообучение, лора), снизив количество токенов или улучшив качество. 4) При росте нагрузки ваши издержки растут линейно, а не по непредсказуемой формуле API.
Для многих проектов, особенно корпоративных, окупаемость наступает через 4-6 месяцев. И это только прямая экономия. Косвенная (безопасность, кастомизация, независимость) вообще бесценна.
FAQ: короткие ответы на больные вопросы
| Вопрос | Ответ |
|---|---|
| Какая модель лучше для старта? | Mistral-SuperIOR-12B-GPTQ. Хороший баланс, помещается на одной 4090, отличное качество. |
| Что проще развернуть: vLLM или Ollama? | Ollama проще для локальной разработки и тестов. Для продакшена с множеством пользователей – только vLLM или TensorRT-LLM. |
| Можно ли использовать CPU вместо GPU? | Да, с llama.cpp и GGUF моделями. Но latency будет в 10-50 раз выше. Только для фоновых задач с очень низким RPS. |
| Как обновлять модель на проде? | Синим-зеленым деплоем. Поднимаете новый сервер с новой версией, переключаете на него трафик, старый убиваете. Никаких «остановим сервер на 5 минут». |
Главный совет напоследок: не стремитесь сразу к идеалу. Соберите работающий прототип на самом дешевом железе. Пусть он будет медленным, но он должен работать. Получите первый feedback, поймите реальные требования. И только потом инвестируйте в мощную инфраструктуру. Удачи в поле.