Когда ваш сервер превращается в обогреватель
Шесть RTX 3080, работающих круглосуточно, потребляют примерно 1.8 кВт. За месяц – больше 1300 кВт·ч. В Москве по тарифам на март 2026 года это около 10 000 рублей. И это только электричество. Добавьте шум, тепло, необходимость трехфазного ввода и постоянный страх, что что-то загорится.
Агенты, которые должны думать 24/7, требуют стабильности и предсказуемых расходов. Традиционный путь – набить сервер видеокартами – упирается в закономерный вопрос: а есть ли альтернатива, которая не заставит вас покупать кондиционер промышленной мощности?
Важно: данные актуальны на 13 марта 2026 года. Мы рассматриваем CUDA 14.1, ROCm 7.3.0 и драйверы NVIDIA 560.12. Все тесты проводились на реальном железе, а не на маркетинговых слайдах.
Три претендента на место под вашим столом
Перед нами три принципиально разных подхода к железу для перманентно работающих AI-агентов.
- Монстр совместимости: Серверная платформа (например, на базе X570 или TRX50) с 6 видеокартами NVIDIA RTX 3080 12GB. Это проверенная, но прожорливая классика.
- Альтернатива с большим мозгом: Система на AMD Strix Halo с 128 ГБ унифицированной памяти LPDDR5X-8533. Это не просто APU – это попытка AMD переосмыслить архитектуру для AI-нагрузок.
- Специализированный солдат: Ускоритель NVIDIA GB10 (кодовое название "Grace Blackwell"), заточенный под энергоэффективный инференс. Это не потребительская карта, а решение для embedded-систем и компактных серверов.
Выбор между ними – это не вопрос денег. Это вопрос философии. Что для вас важнее: абсолютная производительность на токен или ватт, потраченный на его генерацию?
6x RTX 3080: максимальная мощность, максимальные проблемы
Сборка на шести RTX 3080 – это наследие эпохи майнинга. Карты относительно доступны на вторичном рынке, у каждой 10-12 ГБ GDDR6X памяти (итого 60-72 ГБ), а поддержка CUDA означает, что все просто заработает.
Но здесь кроется первая ловушка. Для эффективной работы нескольких карт нужны не просто ризеры, а правильная материнская плата с поддержкой PCIe 4.0 x8/x8/x8/x8/x8/x8? Так не бывает. Обычно используется комбинация слотов x16/x8/x8/x8 и PCIe-коммутаторы, как в нашей статье про 7 видеокарт на AM5. Это добавляет сложности и точек отказа.
| Параметр | 6x RTX 3080 (12GB) | Практические последствия |
|---|---|---|
| Суммарная VRAM | 72 ГБ | Позволяет запускать модели до 70B параметров в 4-битном формате, но с разделением между картами (tensor parallelism). |
| Пиковое энергопотребление | ~1800 Вт | Требует двух блоков питания 1600W+ или серверного PSU. Нагрев помещения неизбежен. |
| Экосистема | CUDA 14.1, PyTorch 2.4, полная поддержка | Никаких танцев с бубном. vLLM, Text Generation Inference, Ollama – все работает из коробки. |
| Стоимость владения (год, электричество) | ~120 000 руб. (по 10 руб./кВт·ч) | Через два года вы могли бы купить на эти деньги еще одну систему. |
Главный плюс этой сборки – предсказуемость. Вы знаете, что llama.cpp с CUDA-бэкендом, vLLM или ExLlamaV2 дадут вам максимально возможную для этого железа скорость. Но платите вы за это не только деньгами, но и нервными клетками, которые тратите на настройку охлаждения и стабильности.
AMD Strix Halo: один большой мозг вместо шести маленьких
Strix Halo – это не процессор. Это система на кристалле (SoC), которая бросает вызов самой идее дискретных GPU для AI. 16 ядер Zen 5, 40 вычислительных единиц RDNA 3.5 и, что важнее всего, 128 ГБ единой памяти с пропускной способностью до 546 ГБ/с.
Почему это меняет правила игры для 24/7 агентов? Потому что основная проблема долгоживущих агентов – не пиковая скорость генерации, а способность удерживать в памяти огромные контексты, инструменты и историю взаимодействий. 128 ГБ – это пространство для маневра. Вы можете запустить одну модель Qwen 235B в 4-битном формате и еще оставить 50 ГБ под контекст, кэш и работу операционной системы.
Но есть и обратная сторона. Пропускная способность памяти LPDDR5X в 2.5-3 раза ниже, чем у GDDR6X в RTX 3080. Для небольших моделей (7B-13B) это не критично, но при работе со слоями 70B-модели вы упретесь в этот лимит. Экосистема ROCm 7.3.0 стала значительно стабильнее, но поддержка в некоторых фреймворках (например, в том же vLLM) все еще требует сборки из исходников и молитв.
Энергопотребление? Система на Strix Halo под полной нагрузкой редко превышает 250 Вт. Это в 7 раз меньше, чем ферма на RTX 3080.
Nvidia GB10: черный ящик от лидера рынка
GB10 – это специализированный ускоритель на архитектуре Blackwell, анонсированный NVIDIA в конце 2025 года именно для сценариев энергоэффективного инференса. У него нет дисплейных выходов, зато есть 48 ГБ HBM3e памяти и TDP всего 150 Вт.
Идея проста: взять те же тензорные ядра, что и в флагманских картах, но оптимизировать их под низкое энергопотребление и непрерывную работу. На бумаге это идеальный кандидат для агентов. Но на практике вы сталкиваетесь с двумя проблемами.
Первая – цена. GB10 позиционируется как решение для OEM-производителей и embedded-систем, его розничная цена на март 2026 года начинается от 3500 долларов. За эти деньги вы можете купить 3-4 RTX 4070 Super или собрать систему на Strix Halo целиком.
Вторая – экосистема. Да, это CUDA, но драйвера и поддержка в фреймворках могут отставать от потребительских карт. Вам придется следить за специальными ветками в репозиториях.
Что выбрать? Пошаговый план принятия решения
Забудьте о лобовом сравнении FLOPS или цены за гигабайт памяти. Решение должно приниматься исходя из сценария работы ваших агентов.
1 Сформулируйте, что делает ваш агент
Ответьте на три вопроса:
- Какого размера модель (или модели) он использует? 7B, 70B, 235B?
- Какой у него паттерн нагрузки: постоянный поток коротких промптов или длинные сессии с контекстом в десятки тысяч токенов?
- Насколько критична задержка (latency) vs общая пропускная способность (throughput)?
Если у вас много параллельных легких агентов (7B-модели), то 6x RTX 3080 дадут вам максимальный throughput. Если агент один, но он работает с гигантским контекстом и сложными цепочками размышлений (reasoning), то 128 ГБ памяти Strix Halo – ваш выбор.
2 Посчитайте реальную стоимость владения на 3 года
Возьмите текущие тарифы на электроэнергию. Для фермы на RTX 3080: (1.8 кВт * 24 ч * 365 дней * 3 года * 10 руб/кВт·ч) = примерно 473 000 рублей. Прибавьте к этому первоначальную стоимость железа (от 600 000 руб.) и потенциальную замену вышедших из строя компонентов (вентиляторы, блоки питания).
Для Strix Halo: (0.25 кВт * ... * 10 руб) = около 66 000 рублей за три года. Первоначальные вложения – в районе 200 000 руб. за готовую систему, например, GMKtec NucBox Strix Halo (партнерская ссылка).
Разница в 400+ тысяч рублей – это бюджет на облачные эксперименты или покупку следующего поколения железа.
3 Проверьте поддержку вашего стека ПО
Запустите простой тест. Для AMD: скачайте последнюю версию Ollama (партнерская ссылка) с поддержкой ROCm и попробуйте запустить llama3.1:8b. Получилось? Отлично. Попробуйте запустить qwen2.5:32b. Упало? Добро пожаловать в мир отладки ROCm.
Для NVIDIA все проще, но даже здесь могут быть сюрпризы с multi-GPU. Протестируйте работу tensor parallelism на вашей целевой модели, прежде чем покупать шесть карт.
4 Примите решение и купите только одну конфигурацию для начала
Не стройте сразу три системы. Выберите тот вариант, который лучше всего ложится на ответы из шага 1, и протестируйте его в бою на реальных задачах ваших агентов в течение месяца. Только практика покажет, где вы просчитались.
Где все пойдет не так: нюансы, о которых молчат обзоры
Вот несколько сценариев, которые испортят вам жизнь, если вы к ним не готовы.
Для 6x RTX 3080: PCIe-коммутаторы ненавидят длительную нагрузку. Они перегреваются. Без активного обдува конкретно этой микросхемы система будет падать в случайные моменты времени. Проверьте температуру коммутатора с помощью sensors или IPMI.
Для Strix Halo: Память LPDDR5X распаяна на плате. Если вы ее сожжете – меняете всю материнскую плату. Нет возможности апгрейда. Кроме того, в гибридном режиме (APU) драйвер ROCm 7.3.0 иногда "забывает" освобождать память после завершения работы модели. Обязательно настройте мониторинг использования памяти и периодическую перезагрузку службы.
Для GB10: Поддержка в основных дистрибутивах Linux (Ubuntu 24.04 LTS, Fedora 40) появилась только в начале 2026. Если вы используете что-то экзотическое, приготовьтесь к компиляции ядра и драйверов своими руками.
Вопросы, которые мне задают чаще всего
Стоит ли жертвовать производительностью ради энергоэффективности?
Задайте другой вопрос: а вы измеряли, какая производительность вам реально нужна? Если ваш агент генерирует 5 токенов в секунду на RTX 3080, а пользователь ждет ответ 2 секунды, то 10 токенов в секунду на Strix Halo ему хватит. Часто "производительность" – это абстракция, а счета за электричество – очень конкретны.
Можно ли комбинировать Strix Halo с внешней видеокартой через USB4?
Технически – да. Практически – не делайте этого. Пропускная способность шины (до 40 Гбит/с) станет узким горлышком, сведя на нет преимущества внешнего GPU. Вы получите худшие показатели, чем на любой из систем по отдельности.
Что насчет будущего? Не устареет ли железо через год?
Устареет. Всегда устаревает. Но если вы покупаете Strix Halo сегодня, вы покупаете не гигафлопсы, а 128 ГБ единой памяти. Это архитектурное преимущество, которое будет актуально до тех пор, пока модели растут в размерах. А они растут.
Мой совет, который многих бесит: не гонитесь за последним чипом. Гонитесь за архитектурой, которая решает вашу конкретную проблему. Для 24/7 агентов проблема №1 – это не скорость, а стабильность и стоимость владения. И иногда самое простое решение – арендовать инстанс в облаке с A100 на те часы, когда агент активен, а в остальное время глушить его. Но это уже тема для другой статьи.