Сорок процентов производительности висели на волоске одной сетевой карты
Февраль 2026-го. Команда Peer Direct пытается раскачать кластер из восьми Gaudi 3 под обучение очередного монстра, а загрузка упрямо ползет вниз после четвертой ноды. Звучит знакомо? Это был классический случай, который мы разбирали в прошлом кейсе: host NIC превращался в узкое горлышко. Но там история закончилась на сетевом стеке Linux. А что, если проблема глубже — в самой архитектуре обмена данными между CPU и ускорителем?
На 01.03.2026 актуальная проблема: память хоста (host memory) становится главным тормозом для распределенного обучения на Gaudi 3, особенно при работе с моделями от 200B параметров и контекстом в 1M токенов, как в экспериментах с длинным контекстом.
Peer Direct — это не про сеть. Это про то, чтобы забыть про копирование
Все упирается в простую вещь: когда Gaudi нужно что-то отправить другому Gaudi, данные сначала путешествуют из его HBM в память хоста (RAM), а оттуда — через host NIC в сеть. Звучит как абсурдная цепочка, учитывая, что у каждого ускорителя есть свой собственный 100 GbE порт для RDMA. Но протоколы синхронизации (HCCL), загрузчик данных, менеджер обучения — всё это живет на CPU и работает с host memory.
Peer Direct в версии для Gaudi — это набор драйверов и модификаций в среде выполнения SynapseAI, который переворачивает эту парадигму. Вместо копирования данных в память хоста, он позволяет процессу на CPU напрямую работать с буферами в памяти Gaudi, используя механизм RDMA (Remote Direct Memory Access). По сути, память ускорителя становится расширением памяти хоста, но без посредников.
Цифры, от которых ускорители плачут от счастья
Что дает обход host memory bottleneck на практике? Команда Peer Direct провела бенчмарки в конце февраля 2026 на конфигурации 8xGaudi 3, обучая модель архитектуры, аналогичной недавно анонсированной Gemma 3 640B (но с более хитрой настройкой внимания).
| Метрика | Без Peer Direct | С Peer Direct | Изменение |
|---|---|---|---|
| Утилизация Gaudi | ~68% | ~94% | +38% |
| Время на эпоху | 4.7 ч | 3.1 ч | -34% |
| Пропускная способность host-Gaudi | ~18 ГБ/с | ~28 ГБ/с | +55% |
Главный выигрыш — в предсказуемости. Исчезают просадки (stalls), когда ускорители простаивают в ожидании данных из host memory. Особенно это критично для операций all-reduce во время синхронизации градиентов — они перестают упираться в медленный канал к CPU.
А как же NVIDIA? Они это уже сделали?
Если вы думаете о NVLink и DGX, то да, у NVIDIA своя закрытая экосистема. Но в облаке, на гетерогенных инстансах, история другая. Решение Peer Direct — это попытка выжать максимум из стандартного облачного железа, не полагаясь на экзотические и дорогие межсоединения. Это как собрать производительность DGX из доступных кубиков, но без переплаты в 300%.
Важный нюанс на март 2026: Peer Direct для Gaudi работает только со стеком SynapseAI версии 1.15 и выше, которая поддерживает новые примитивы прямого доступа к памяти через библиотеку HCCL. На старых версиях вас ждет kernel panic и несколько часов отладки.
И нет, это не волшебная таблетка. Если ваша модель упирается в вычисления на TPC (Tensor Processor Cores), а не в обмен данными, прирост будет минимальным. Но для современных sparse MoE-моделей или задач с гигантским контекстом, где активно работает свопинг параметров, разница — как между поездом и телегой.
Что делать, если вы не Peer Direct?
Во-первых, не паниковать. Есть несколько тактических ходов, чтобы смягчить bottleneck до внедрения полноценного решения:
- Увеличить размер пакета (batch size): Это снижает частоту обмена служебными сообщениями между хостами. Рискуете переполнить память? Используйте градиентный чекпойнтинг.
- Поиграть с настройками планировщика Linux: Приоритизация сетевых очередей для процесса SynapseAI может дать 5-10%.
- Рассмотреть альтернативные облака: Некоторые провайдеры, например, *партнерская ссылка на облачный сервис с Gaudi*, предлагают конфигурации с улучшенной виртуализацией PCIe, что снижает overhead. (Но готовьтесь к счету).
Но если вы тренируете что-то серьезнее очередного учебного эксперимента, то двигаться нужно в сторону прямой работы с памятью ускорителя. И здесь Peer Direct — пока самое готовое решение на рынке. Их команда фактически сделала за Habana Labs часть их работы, вытащив из железа скрытый потенциал.
Будущее без горлышка: а что дальше?
К концу 2026 года, по слухам, Habana интегрирует похожий механизм прямо в SynapseAI. Пока же Peer Direct остается хитрой надстройкой. Но тренд ясен: эпоха, когда CPU был главным дирижером оркестра ускорителей, заканчивается. Будущее за децентрализованным управлением, где память и вычислители общаются напрямую, а host — лишь скромный инициализатор процесса.
Пока крупные игроки спорят об углеродном следе и строят датацентры размером с город, реальный прорыв в эффективности происходит вот в таких инженерных хаках. Иногда, чтобы ускорить обучение следующего GPT-5, не нужен новый чип. Достаточно заставить старые чипы разговаривать без переводчика.