Мощь пришла: зачем в 2026 году всем вдруг понадобились терабайты HBM3e
Март 2026 года. OpenAI тихо выкатила GPT-5, Meta дообучила Llama 4 на 10 триллионах токенов, а китайские компании выпускают мультимодальные модели размером с небольшой город. Контекстное окно в 1 миллион токенов стало стандартом для серьезных задач. И тут выясняется: ваш старый сервер с парой RTX 6000 Ada просто не потянет даже инференс, не говоря уже о дообучении.
Selectel, всегда державший руку на пульсе, в начале марта представил три новые флагманские конфигурации под кодовыми названиями Titan, Atlas и Kraken. Основа – платформа NVIDIA HGX B300. Это не те B100, о которых все говорили в прошлом году. Архитектура Blackwell Next? Да. HBM3e памяти до 2.4 ТБ в одной стойке? Тоже да. Но главное – эти серверы уже доступны в аренду по часам, и их не нужно месяцами ждать, как те же DGX Spark.
Спойлер: Если вы до сих пор тренируете модели на кластере из GTX 1080 Ti, потому что "дешево и сердито", эта статья заставит вас выбросить это железо в окно. Или, как минимум, пересмотреть бюджет на инфраструктуру.
Три монстра: разбираем конфигурации по винтикам
Цифры звучат как научная фантастика, но это реальные тарифы в личном кабинете Selectel. Мы сравнили все три новинки в одной таблице, чтобы было понятно, за что вы платите каждый час.
| Конфигурация | Titan | Atlas | Kraken |
|---|---|---|---|
| GPU (NVIDIA HGX) | 4x B300 (8 GPU) | 8x B300 (16 GPU) | 16x B300 (32 GPU) |
| VRAM на узел | 1.2 ТБ HBM3e | 2.4 ТБ HBM3e | 4.8 ТБ HBM3e |
| CPU | 2x AMD EPYC 9755 (128 ядер) | 4x AMD EPYC 9755 (256 ядер) | 8x AMD EPYC 9755 (512 ядер) |
| Системная память | 2 ТБ DDR5 | 4 ТБ DDR5 | 8 ТБ DDR5 |
| Сеть | NVIDIA Quantum-3 X800 (8x 400 Гбит/с) | NVIDIA Quantum-3 X1600 (16x 400 Гбит/с) | Полная фабрика Quantum-3 |
| Примерная цена/час (руб.) | ~12 500 | ~24 000 | По запросу (готовьтесь) |
Цены, конечно, кусаются. Час работы Kraken стоит как неплохой ноутбук. Но здесь работает простое правило: если ваша модель с параметрами 700B не помещается в память Titan, у вас два варианта – либо резать модель и мучиться с квантованием в GGUF, либо арендовать Atlas и закончить тренировку за неделю, а не за месяц.
Выбирайте сервер под задачу, а не под красивую цифру в спецификации
Многие ошибаются, думая, что самый дорогой сервер – самый лучший. На практике Kraken простаивает без дела, пока его арендатор пытается настроить PyTorch для распределенной тренировки. Вот простой гайд:
- Берите Titan, если вы стартап, который хочет дообучить открытую Llama 4 на своем датасете для специфичной задачи. Или если вы собираетесь запускать инференс для кодинг-агента уровня Claude Code для команды из 50 разработчиков. Этой мощности хватит с головой.
- Atlas – для команд, которые уже переросли эксперименты и работают над коммерческим продуктом. Нужно тренировать мультимодальную модель с нуля? Дорабатывать архитектуру размером в 300 миллиардов параметров? Это ваш выбор. Кстати, для таких задач не забудьте про AI Gateway для продакшн-оркестрации.
- Kraken оставьте исследовательским институтам, крупным корпорациям и тем, кто получил грант в несколько миллионов долларов. Это машина для фундаментальных прорывов, а не для дообучения классификатора.
Облако vs "железо под кроватью": спор, который уже неактуален
Когда видишь эти цены, рука тянется к калькулятору: "А не дешевле ли собрать свой кластер?" Давайте начистоту. Да, построить локальный сервер с несколькими GPU можно. Но чтобы получить аналогичную Titan производительность, вам потребуется не только купить 8 GPU B300 (что само по себе почти невозможно для частного лица), но и решить вопросы с электропитанием (здесь речь о 10+ кВт), охлаждением и той самой сетью Quantum-3.
Для персональных проектов и мелких экспериментов локальное железо, как в гайде про сборку машины для ИИ-ассистента, все еще выигрывает. Но как только ваши вычисления длятся дольше двух недель, аренда в облаке становится экономически оправданной. Вы платите только за время работы, не за простой.
Внимание на Marketplace! Selectel не просто дает голое железо. В их AI Marketplace уже развернуты и готовы к работе последние версии популярных моделей, включая свежий Mixtral 2 и Qwen 2.5. Это экономит часы на установке CUDA и борьбе с зависимостями.
Итог: ваша следующая модель, вероятно, будет рождена в облаке
Рынок диктует жесткие условия. Скорость вывода продукта важнее идеальной оптимизации затрат. Новые серверы Selectel, особенно конфигурация Atlas, – это золотая середина для компаний, которые серьезно занимаются AI. Они снимают головную боль с инфраструктуры и позволяют сосредоточиться на данных и алгоритмах.
Мой прогноз? К концу 2026 года даже стартапы из гаража будут начинать с аренды подобных мощностей, а не с покупки б/у RTX 4090. Потому что время – самый ценный ресурс. И пока ваш локальный сервер на старом Dell T7910 грузит веса 70B-модели, ваш конкурент на Titan уже получил первую прибыль от работающего AI-агента.
Совет напоследок: перед тем как нажать кнопку "Арендовать", четко просчитайте, сколько часов реальной тренировки вам нужно. Иногда проще и дешевле заплатить за оптимизацию пайплайна, чем за лишние терафлопсы. И да, ознакомиться с актуальными тарифами и доступностью стоит прямо сейчас – такие мощности быстро разбирают.