Катастрофа на 8 узлах: когда Gaudi 3 в облаке превратился в улитку
Инженеры Peer Direct в феврале 2026 столкнулись с дилеммой: их кластер из 8 новейших Habana Gaudi 3 на AWS DL1 instances показывал производительность на 40% ниже ожидаемой. Тренды распределённого обучения моделей размером с Llama 3 405B или недавно анонсированной Gemma 3 640B буквально упирались в невидимую стену.
Симптомы были классическими: загрузка ускорителей плавала на уровне 60-70%, время эпохи росло нелинейно с добавлением нод. Первая мысль - проблема в софте, в синхронизации градиентов через HCCL (Habana Collective Communications Library). Но профилирование показало шокирующую вещь: главным врагом оказалась не вычисления, а... сетевая карта материнской платы хоста.
К февралю 2026 года Habana Gaudi 3 стал стандартом для бюджетного обучения больших моделей в облаке, особенно на AWS DL1 instances. Но его архитектура с отдельными TPC (Tensor Processor Cores) и NIC для RDMA создавала неочевидные зависимости.
Host NIC bottleneck: почему сеть между CPU и Gaudi стала узким местом
Вот в чём парадокс: каждый ускоритель Gaudi 3 имеет встроенный 100 GbE NIC для прямого обмена данными между картами (через RoCE). Но для инициализации коллективных операций, загрузки данных и управления процессом драйвер на CPU всё равно должен общаться с картой через PCIe и... host NIC.
Именно этот канал - между процессором хоста и ускорителем - стал бутылочным горлышком. При масштабировании на 8 узлов служебный трафик (контрольные сообщения, метаданные, небольшие тензоры) создавал очередь в стандартном сетевом стеке Linux. Это напоминало проблемы, о которых мы писали в случае с eGPU через Thunderbolt, только на уровне датацентра.
| Компонент | Пропускная способность | Проблема в конфигурации по умолчанию |
|---|---|---|
| Host NIC (AWS DL1) | 25 GbE | Общая для всех Gaudi на хосте, очередь в ядре |
| Gaudi 3 Internal NIC | 100 GbE (RoCE v2) | Используется только для данных между картами |
| PCIe 4.0 x16 | ~32 ГБ/с | Не проблема, если не мешает host NIC |
Решение: заставить RDMA работать и для управляющего трафика
Команда Peer Direct пошла неочевидным путём. Вместо настройки очередей в ядре или апгрейда железа (что в облаке невозможно), они решили перенести максимально возможный управляющий трафик из стека хоста прямо на RDMA каналы между ускорителями.
Звучит просто? На практике потребовалось:
- Модифицировать рантайм-библиотеки SynapseAI (актуальная версия 2.0 на февраль 2026) для использования RoCE v2 не только для градиентов, но и для служебных сообщений.
- Настроить PFC (Priority Flow Control) и ECN (Explicit Congestion Notification) в облачной сети AWS - что само по себе нетривиально в shared environment.
- Переписать часть инициализации распределённого контекста, чтобы минимизировать синхронные вызовы через хост.
Результаты: от 40% потерь к 95% эффективности масштабирования
После трёх недель тестов и настройки (и нескольких бессонных ночей) команда получила результаты:
- Загрузка Gaudi 3 выросла с 65% до 92-94% на 8-узловом кластере
- Время эпохи для модели размером 70B параметров сократилось на 38%
- Эффективность масштабирования (strong scaling) улучшилась с 60% до 95%
- Потребление энергии на ускоритель снизилось - карты меньше ждали
Ключевой момент: решение почти не потребовало изменений в коде обучения. Вся магия скрыта в конфигурации рантайма и сетевых настройках. Это отличает подход от более инвазивных оптимизаций, как в случае с генетической эволюцией машинного кода для сжатия моделей.
Что это значит для индустрии? (И почему NVIDIA нервно курит в сторонке)
Кейс Peer Direct вскрыл системную проблему облачных AI-ускорителей: производители в погоне за TFLOPS забывают о full-stack производительности. Gaudi 3 - не единственная жертва. Аналогичные узкие места команда позже обнаружила в тестах для DGX Spark, где host-to-GPU latency влияла на мелкие матричные операции.
Практический совет для команд, разворачивающих распределённое обучение в 2026 году: прежде чем винить фреймворк или модель, проверьте host NIC utilization. Инструменты вроде habana-top (в SynapseAI 2.0) теперь показывают этот метрик отдельно.
AWS, по данным на февраль 2026, уже тестирует обновлённую конфигурацию DL1 instances с улучшенной сетевой архитектурой для Gaudi 3. Но пока решение Peer Direct остаётся must-have для серьёзных тренировочных нагрузок.
Финал истории? Peer Direct не только ускорил свои тренировки, но и открыл консалтинговое направление по оптимизации облачных AI-кластеров. Их клиенты теперь избегают ситуаций, когда дорогие ускорители простаивают из-за дешёвой сетевой карты.
Мораль: в эпоху, когда каждый процент производительности на вес золота (особенно с растущими моделями вроде Gemma 3), архитектура data plane становится важнее peak FLOPS. И иногда решение стоимостью в ноль долларов (настройка софта) даёт больший эффект, чем миллионные инвестиции в железо.