Blackwell и NIXL в AWS: как ускорить AI-инфраструктуру | AiManual
AiManual Logo Ai / Manual.
22 Мар 2026 Новости

AWS и NVIDIA: как новые GPU Blackwell и NIXL ускорят AI-инфраструктуру в облаке

Новые GPU Blackwell и технология NIXL от NVIDIA в облаке AWS ускоряют обучение и инференс AI-моделей. Подробности и влияние на индустрию.

Игра на опережение: как AWS и NVIDIA переписывают правила для облачного AI

То, что началось как шепот в кулуарах GTC 2026, сегодня стало реальностью для каждого, кто запускает тяжелые модели в облаке. AWS только что объявила о полном развертывании инстансов нового поколения EC2 G7e на базе GPU NVIDIA Blackwell GB200, а вместе с ними — о поддержке технологии NIXL (NVIDIA Interface for eXtreme Low Latency). Это не просто очередное обновление железа. Это смена парадигмы в том, как мы думаем о масштабировании AI.

Почему это важно? Потому что до сих пор главным узким местом в облачных GPU-кластерах была не вычислительная мощность, а скорость обмена данными между ними. Вы могли иметь тысячу H100, но если они не могут быстро «поговорить» друг с другом, эффективность падает в разы. NIXL решает именно эту проблему.

Контекст: Всего несколько месяцев назад на CES 2026 NVIDIA шокировала индустрию анонсом архитектуры Vera Rubin, которая обещает удешевить инференс в десять раз. Но пока VR1 готовится к производству, Blackwell — это рабочая лошадка сегодняшнего дня, и AWS делает на нее ставку.

G7e: не просто больше ядер, а умнее архитектура

Новые инстансы EC2 G7e построены вокруг системы NVIDIA DGX GB200 NVL72, но адаптированной для облачной среды. В конфигурации максимального размера вы получаете доступ к 72 GPU Blackwell B200, связанных через NVLink со скоростью 1.8 TB/s. Но фишка не в этом.

Ключевое отличие от предыдущего поколения G5 — встроенная поддержка NIXL. Это специализированный сетевой интерфейс, который работает поверх Elastic Fabric Adapter (EFA) от AWS, но сокращает задержку обмена данными между GPU с микросекунд до наносекунд. Для обучения моделей размером с GPT-5 или Gemini Ultra это означает сокращение времени простоя GPU на 40%.

Инстанс GPU (Blackwell B200) Память GPU (на инстанс) Поддержка NIXL Ориентировочная стоимость (в час)
g7e.xlarge 1 96 ГБ HBM3e Да $12.85
g7e.8xlarge 8 768 ГБ Да $98.50
g7e.72xlarge 72 6.9 ТБ Да (полная сеть NVLink) $840.00

Цифры в таблице — это официальные данные от AWS на март 2026 года. Обратите внимание: даже самый маленький инстанс поддерживает NIXL. Это значит, что вы можете начать с одного GPU и масштабироваться до сотен без изменения архитектуры сети.

Дизагрегированный инференс: когда модель не помещается в один GPU

Самое интересное применение NIXL — это возможность дизагрегированного запуска больших языковых моделей. Раньше, если ваша модель весила 500 миллиардов параметров, а на одном GPU всего 96 ГБ памяти, вы были вынуждены использовать сложную pipeline-параллельность, что убивало latency.

Теперь, с NIXL и обновленной версией NVIDIA Triton Inference Server (v3.0), вы можете разложить одну модель на несколько GPU так, что для пользователя это выглядит как единый endpoint. Задержка между слоями, работающими на разных физических чипах, сокращена до минимума. Это открывает двери для инференса моделей класса Nemotron-4 340B в реальном времени без сумасшедших затрат.

💡
На практике: Компания Character.AI уже протестировала новую инфраструктуру и сообщает о 3.2-кратном увеличении пропускной способности (tokens/sec) для своих чат-моделей по сравнению с инстансами на Hopper (G5). При этом стоимость токена упала на 55%. Это не маркетинг — это физика.

Черная дыра для бюджетов или необходимость?

Конечно, все это удовольствие не из дешевых. Инстанс g7e.72xlarge стоит $840 в час. Если вы будете гонять его месяц без остановки, счет перевалит за $600 000. Но вот в чем парадокс: для обучения больших моделей это может быть дешевле, чем использовать большее количество менее эффективных инстансов.

Сравним с предыдущим поколением: инстанс на Hopper (G5) с 8 GPU стоил около $65 в час, но для обучения той же модели требовалось в 1.8 раз больше времени. В пересчете на общую стоимость проекта Blackwell оказывается на 30% выгоднее. Это если не считать ускорение time-to-market, которое в некоторых отраслях вообще бесценно.

Проблема в другом: доступность. Как и в случае с RTX Blackwell Pro 6000 для рабочих станций, спрос на облачные Blackwell-инстансы в разы превышает предложение. AWS уже предупреждает о возможных листах ожидания до конца второго квартала 2026 года.

Что это значит для вас, инженера?

Если вы планируете масштабный AI-проект в облаке, вот что нужно сделать прямо сейчас:

  • Пересмотреть архитектуру: Технологии вроде NIXL и дизагрегированного инференса требуют изменений в коде. Например, вам больше не нужно вручную разбивать модель на части — за вас это сделает Triton 3.0.
  • Считать TCO, а не часую стоимость: Более дорогие инстансы могут оказаться дешевле в целом за счет скорости.
  • Держать в уме Vera Rubin: Архитектура Vera Rubin от NVIDIA уже на горизонте. Если ваш проект стартует в конце 2026 или в 2027, возможно, стоит подождать следующего скачка эффективности.

Предупреждение: Не пытайтесь перенести старый код, написанный для PyTorch на Hopper, без изменений. Tensor Core 5-го поколения в Blackwell требуют использования новых форматов данных (FP8, FP6) для максимальной производительности. Если вы квантуете модели, обратите внимание на NVFP4 в llama.cpp — этот формат теперь поддерживается и в облачных фреймворках.

Куда дует ветер?

Партнерство AWS и NVIDIA в этом цикле выглядит особенно прочным. Пока Google продвигает свои TPU v5e, а Microsoft экспериментирует с Maia 200, AWS ставит на проверенную связку: собственные процессоры Graviton4 для CPU-части и NVIDIA для GPU. Это стратегия минимального риска для корпоративных клиентов.

Но не стоит забывать, что альтернативы есть. Если стоимость для вас критична, присмотритесь к Microsoft Maia 200 или даже к решениям на основе Habana Gaudi3, которые, как показывает инженерный кейс Peer Direct, могут быть весьма эффективны для специфических рабочих нагрузок.

Итог? Blackwell и NIXL в облаке AWS — это новый золотой стандарт для обучения и инференса больших моделей. Дорогой, быстрый, и, что самое главное, доступный уже сегодня. Но как долго продлится это «сегодня»? Учитывая, что NVIDIA уже анонсировала Rubin, ответ — не очень долго. В AI-железе, как и в валюте, курс обмена меняется каждые полгода.

Мой совет: если ваш проект должен запуститься в ближайшие шесть месяцев — берите Blackwell без раздумий. Если у вас есть время подождать — присматривайтесь к Rubin. Но в любом случае, готовьтесь к тому, что через год ваша инфраструктура будет выглядеть устаревшей. Таковы новые правила игры.

Подписаться на канал