Что такое Peer Direct для Gaudi?

Это набор драйверов и модификаций в среде выполнения SynapseAI, который позволяет процессу на CPU напрямую работать с памятью ускорителя Gaudi, минуя копирование в host memory, что устраняет узкое место в обмене данными.

Какое ускорение дает Peer Direct на Gaudi 3?

По данным бенчмарков на март 2026, использование Peer Direct повышает утилизацию Gaudi до 94% (с 68%), сокращает время эпохи на 34% и увеличивает пропускную способность канала host-Gaudi на 55%.

Работает ли Peer Direct с другими ускорителями, кроме Gaudi?

Решение разработано специфично для стека Habana Gaudi и SynapseAI. Для других архитектур (например, NVIDIA) существуют аналогичные технологии, но реализованные иначе.

Peer Direct для Gaudi: решение bottleneck памяти в облаке | AI-обучение 2026

Сорок процентов производительности висели на волоске одной сетевой карты

Февраль 2026-го. Команда Peer Direct пытается раскачать кластер из восьми Gaudi 3 под обучение очередного монстра, а загрузка упрямо ползет вниз после четвертой ноды. Звучит знакомо? Это был классический случай, который мы разбирали в прошлом кейсе: host NIC превращался в узкое горлышко. Но там история закончилась на сетевом стеке Linux. А что, если проблема глубже — в самой архитектуре обмена данными между CPU и ускорителем?

На 01.03.2026 актуальная проблема: память хоста (host memory) становится главным тормозом для распределенного обучения на Gaudi 3, особенно при работе с моделями от 200B параметров и контекстом в 1M токенов, как в экспериментах с длинным контекстом.

Peer Direct — это не про сеть. Это про то, чтобы забыть про копирование

Все упирается в простую вещь: когда Gaudi нужно что-то отправить другому Gaudi, данные сначала путешествуют из его HBM в память хоста (RAM), а оттуда — через host NIC в сеть. Звучит как абсурдная цепочка, учитывая, что у каждого ускорителя есть свой собственный 100 GbE порт для RDMA. Но протоколы синхронизации (HCCL), загрузчик данных, менеджер обучения — всё это живет на CPU и работает с host memory.

Peer Direct в версии для Gaudi — это набор драйверов и модификаций в среде выполнения SynapseAI, который переворачивает эту парадигму. Вместо копирования данных в память хоста, он позволяет процессу на CPU напрямую работать с буферами в памяти Gaudi, используя механизм RDMA (Remote Direct Memory Access). По сути, память ускорителя становится расширением памяти хоста, но без посредников.

💡

Технология не нова — в мире HPC так работают десятилетиями. Но её интеграция в стеку Habana для облачных инстансов AWS DL1 (с их специфичной виртуализацией) — это инженерный трюк, который до 2025 года считали слишком хлопотным.

Цифры, от которых ускорители плачут от счастья

Что дает обход host memory bottleneck на практике? Команда Peer Direct провела бенчмарки в конце февраля 2026 на конфигурации 8xGaudi 3, обучая модель архитектуры, аналогичной недавно анонсированной Gemma 3 640B (но с более хитрой настройкой внимания).

Метрика	Без Peer Direct	С Peer Direct	Изменение
Утилизация Gaudi	~68%	~94%	+38%
Время на эпоху	4.7 ч	3.1 ч	-34%
Пропускная способность host-Gaudi	~18 ГБ/с	~28 ГБ/с	+55%

Главный выигрыш — в предсказуемости. Исчезают просадки (stalls), когда ускорители простаивают в ожидании данных из host memory. Особенно это критично для операций all-reduce во время синхронизации градиентов — они перестают упираться в медленный канал к CPU.

А как же NVIDIA? Они это уже сделали?

Если вы думаете о NVLink и DGX, то да, у NVIDIA своя закрытая экосистема. Но в облаке, на гетерогенных инстансах, история другая. Решение Peer Direct — это попытка выжать максимум из стандартного облачного железа, не полагаясь на экзотические и дорогие межсоединения. Это как собрать производительность DGX из доступных кубиков, но без переплаты в 300%.

Важный нюанс на март 2026: Peer Direct для Gaudi работает только со стеком SynapseAI версии 1.15 и выше, которая поддерживает новые примитивы прямого доступа к памяти через библиотеку HCCL. На старых версиях вас ждет kernel panic и несколько часов отладки.

И нет, это не волшебная таблетка. Если ваша модель упирается в вычисления на TPC (Tensor Processor Cores), а не в обмен данными, прирост будет минимальным. Но для современных sparse MoE-моделей или задач с гигантским контекстом, где активно работает свопинг параметров, разница — как между поездом и телегой.

Что делать, если вы не Peer Direct?

Во-первых, не паниковать. Есть несколько тактических ходов, чтобы смягчить bottleneck до внедрения полноценного решения:

Увеличить размер пакета (batch size): Это снижает частоту обмена служебными сообщениями между хостами. Рискуете переполнить память? Используйте градиентный чекпойнтинг.
Поиграть с настройками планировщика Linux: Приоритизация сетевых очередей для процесса SynapseAI может дать 5-10%.
Рассмотреть альтернативные облака: Некоторые провайдеры, например, *партнерская ссылка на облачный сервис с Gaudi*, предлагают конфигурации с улучшенной виртуализацией PCIe, что снижает overhead. (Но готовьтесь к счету).

Но если вы тренируете что-то серьезнее очередного учебного эксперимента, то двигаться нужно в сторону прямой работы с памятью ускорителя. И здесь Peer Direct — пока самое готовое решение на рынке. Их команда фактически сделала за Habana Labs часть их работы, вытащив из железа скрытый потенциал.

Будущее без горлышка: а что дальше?

К концу 2026 года, по слухам, Habana интегрирует похожий механизм прямо в SynapseAI. Пока же Peer Direct остается хитрой надстройкой. Но тренд ясен: эпоха, когда CPU был главным дирижером оркестра ускорителей, заканчивается. Будущее за децентрализованным управлением, где память и вычислители общаются напрямую, а host — лишь скромный инициализатор процесса.

Пока крупные игроки спорят об углеродном следе и строят датацентры размером с город, реальный прорыв в эффективности происходит вот в таких инженерных хаках. Иногда, чтобы ускорить обучение следующего GPT-5, не нужен новый чип. Достаточно заставить старые чипы разговаривать без переводчика.

Подписаться на канал

Peer Direct для Gaudi: как развязать память хоста, которая душит облачное обучение