Peer Direct и Habana Gaudi: решение host NIC bottleneck в облаке

Катастрофа на 8 узлах: когда Gaudi 3 в облаке превратился в улитку

Инженеры Peer Direct в феврале 2026 столкнулись с дилеммой: их кластер из 8 новейших Habana Gaudi 3 на AWS DL1 instances показывал производительность на 40% ниже ожидаемой. Тренды распределённого обучения моделей размером с Llama 3 405B или недавно анонсированной Gemma 3 640B буквально упирались в невидимую стену.

Симптомы были классическими: загрузка ускорителей плавала на уровне 60-70%, время эпохи росло нелинейно с добавлением нод. Первая мысль - проблема в софте, в синхронизации градиентов через HCCL (Habana Collective Communications Library). Но профилирование показало шокирующую вещь: главным врагом оказалась не вычисления, а... сетевая карта материнской платы хоста.

К февралю 2026 года Habana Gaudi 3 стал стандартом для бюджетного обучения больших моделей в облаке, особенно на AWS DL1 instances. Но его архитектура с отдельными TPC (Tensor Processor Cores) и NIC для RDMA создавала неочевидные зависимости.

Host NIC bottleneck: почему сеть между CPU и Gaudi стала узким местом

Вот в чём парадокс: каждый ускоритель Gaudi 3 имеет встроенный 100 GbE NIC для прямого обмена данными между картами (через RoCE). Но для инициализации коллективных операций, загрузки данных и управления процессом драйвер на CPU всё равно должен общаться с картой через PCIe и... host NIC.

Именно этот канал - между процессором хоста и ускорителем - стал бутылочным горлышком. При масштабировании на 8 узлов служебный трафик (контрольные сообщения, метаданные, небольшие тензоры) создавал очередь в стандартном сетевом стеке Linux. Это напоминало проблемы, о которых мы писали в случае с eGPU через Thunderbolt, только на уровне датацентра.

Компонент	Пропускная способность	Проблема в конфигурации по умолчанию
Host NIC (AWS DL1)	25 GbE	Общая для всех Gaudi на хосте, очередь в ядре
Gaudi 3 Internal NIC	100 GbE (RoCE v2)	Используется только для данных между картами
PCIe 4.0 x16	~32 ГБ/с	Не проблема, если не мешает host NIC

Решение: заставить RDMA работать и для управляющего трафика

Команда Peer Direct пошла неочевидным путём. Вместо настройки очередей в ядре или апгрейда железа (что в облаке невозможно), они решили перенести максимально возможный управляющий трафик из стека хоста прямо на RDMA каналы между ускорителями.

Звучит просто? На практике потребовалось:

Модифицировать рантайм-библиотеки SynapseAI (актуальная версия 2.0 на февраль 2026) для использования RoCE v2 не только для градиентов, но и для служебных сообщений.
Настроить PFC (Priority Flow Control) и ECN (Explicit Congestion Notification) в облачной сети AWS - что само по себе нетривиально в shared environment.
Переписать часть инициализации распределённого контекста, чтобы минимизировать синхронные вызовы через хост.

💡

RoCE v2 к 2026 году стал стандартом для высокопроизводительных кластеров, но его использование для управляющего трафика AI-ускорителей - относительно новая практика. Это похоже на то, как в гибридных RAG-системах выносят индексацию на GPU, а обслуживание оставляют на CPU для экономии, о чём мы писали в статье про гибридный RAG.

Результаты: от 40% потерь к 95% эффективности масштабирования

После трёх недель тестов и настройки (и нескольких бессонных ночей) команда получила результаты:

Загрузка Gaudi 3 выросла с 65% до 92-94% на 8-узловом кластере
Время эпохи для модели размером 70B параметров сократилось на 38%
Эффективность масштабирования (strong scaling) улучшилась с 60% до 95%
Потребление энергии на ускоритель снизилось - карты меньше ждали

Ключевой момент: решение почти не потребовало изменений в коде обучения. Вся магия скрыта в конфигурации рантайма и сетевых настройках. Это отличает подход от более инвазивных оптимизаций, как в случае с генетической эволюцией машинного кода для сжатия моделей.

Что это значит для индустрии? (И почему NVIDIA нервно курит в сторонке)

Кейс Peer Direct вскрыл системную проблему облачных AI-ускорителей: производители в погоне за TFLOPS забывают о full-stack производительности. Gaudi 3 - не единственная жертва. Аналогичные узкие места команда позже обнаружила в тестах для DGX Spark, где host-to-GPU latency влияла на мелкие матричные операции.

Практический совет для команд, разворачивающих распределённое обучение в 2026 году: прежде чем винить фреймворк или модель, проверьте host NIC utilization. Инструменты вроде habana-top (в SynapseAI 2.0) теперь показывают этот метрик отдельно.

AWS, по данным на февраль 2026, уже тестирует обновлённую конфигурацию DL1 instances с улучшенной сетевой архитектурой для Gaudi 3. Но пока решение Peer Direct остаётся must-have для серьёзных тренировочных нагрузок.

Финал истории? Peer Direct не только ускорил свои тренировки, но и открыл консалтинговое направление по оптимизации облачных AI-кластеров. Их клиенты теперь избегают ситуаций, когда дорогие ускорители простаивают из-за дешёвой сетевой карты.

Мораль: в эпоху, когда каждый процент производительности на вес золота (особенно с растущими моделями вроде Gemma 3), архитектура data plane становится важнее peak FLOPS. И иногда решение стоимостью в ноль долларов (настройка софта) даёт больший эффект, чем миллионные инвестиции в железо.

Подписаться на канал

Как Peer Direct решил проблему производительности ускорителей Gaudi в облаке: инженерный кейс

Катастрофа на 8 узлах: когда Gaudi 3 в облаке превратился в улитку

Host NIC bottleneck: почему сеть между CPU и Gaudi стала узким местом

Решение: заставить RDMA работать и для управляющего трафика

Результаты: от 40% потерь к 95% эффективности масштабирования

Что это значит для индустрии? (И почему NVIDIA нервно курит в сторонке)

Подписывайтесь на наш канал!