Миллиарды точек и одна большая проблема
Представьте терабайты данных с лидаров. Не фотографии, а трёхмерные облака из миллионов точек. Каждая точка - это координата в пространстве, а вместе они описывают город, завод, шахту. Задача - научить ИИ автоматически различать в этой куче точек здания, дороги, машины, деревья. Звучит как научная фантастика? Для Hexagon, глобального гиганта в сфере промышленных цифровых решений, это была ежедневная рутина. И их собственные инженеры уже начали сходить с ума.
Обычные GPU-серверы захлёбывались. Обучение одной модели сегментации на их внутренних кластерах занимало недели. Каждый сбой - потерянные дни. Инфраструктурная команда постоянно тушила пожары: то GPU перегреваются, то сеть между узлами кластера становится узким местом, то версии библиотек конфликтуют. Они пробовали разные облачные решения, но управление распределённым обучением оставалось адом.
Вход HyperPod: когда AWS решила, что кластеры не должны сводить с ума
В середине 2025 года Hexagon обратился к Amazon SageMaker HyperPod. Не к базовому SageMaker, а именно к HyperPod - специализированному решению для распределённого обучения на десятках и сотнях GPU. (Если вам интересно, как выглядит управление этим зверем через CLI и SDK, у нас есть отдельный разбор - SageMaker HyperPod CLI и SDK: когда AWS решила, что управление кластерами должно быть сложным).
Суть HyperPod в том, что AWS предконфигурирует весь стек для распределённого обучения: от низкоуровневой сетевой библиотеки NVIDIA NCCL до оркестратора кластера. Вы получаете готовую среду, где можно запускать training job'ы, не становясь экспертом по системному администрированию. Для Hexagon это стало переломным моментом.
| Параметр | До HyperPod (внутр. кластер) | На HyperPod (к марту 2026) |
|---|---|---|
| Время обучения модели | 18-21 день | 3-4 дня |
| Макс. количество GPU в одном job | 16 | 128 (на инстансах p5.48xlarge) |
| Утилизация GPU | ~65% | 94-97% |
| Частота экспериментов | 1-2 в месяц | 10-15 в неделю |
Что они там вообще учили? (Спойлер: не Stable Diffusion)
Hexagon работал с архитектурами для сегментации 3D point clouds. На старте проекта в 2025 они использовали модификации PointNet++ и KPConv. Но к 2026 году перешли на более современные подходы, включая фокус на transformer-архитектуры, адаптированные для разреженных 3D-данных.
Ключевой трюк - самообучение (self-supervised pretraining). Модель сначала учится на гигантском объёме неразмеченных данных, восстанавливая замаскированные части облака точек или предсказывая spatial context. Потом эту предобученную модель доучивают (fine-tune) на сравнительно небольшом размеченном датасете для конкретной задачи - скажем, выделения инфраструктуры в данных сканирования умного города. (Принцип похож на то, как работают большие языковые модели, и если вам интересны детали масштабирования такой настройки, посмотрите наше руководство по тонкой настройке LLM с Hugging Face и SageMaker).
Важный нюанс: речь не о генеративных моделях типа Stable Diffusion 3 или Sora. Это специализированные нейросети для понимания геометрии. Они не рисуют картинки, а анализируют существующие сканы с миллиметровой точностью, требуемой для промышленного применения.
Почему именно HyperPod, а не просто куча виртуалок?
Потому что распределённое обучение на 100+ GPU - это не просто «взять больше машин». Это:
- Сетевая синхронизация градиентов. Каждый шаг обучения требует обмена данными между всеми GPU. Если сеть медленная, вы простаиваете. HyperPod использует специализированные сетевые карты Elastic Fabric Adapter (EFA) с пропускной способностью под 400 Gbps на инстансах p5 (актуально на 2026 год), что сводит накладные расходы к минимуму.
- Управление состоянием кластера. Что делать, если один узел упал через 3 дня обучения? HyperPod умеет автоматически перезапускать упавшие job'ы с последнего checkpoint, не теряя всю работу.
- Совместимость стеков. Версии драйверов NVIDIA, CUDA, NCCL, PyTorch или TensorFlow, MPI - всё должно быть идеально согласовано. В HyperPod AWS поддерживает эти «золотые образы» (golden images), которые гарантируют, что ваше окружение воспроизводимо и стабильно.
Без такой платформы инженеры Hexagon тратили бы 30% времени не на ML, а на DevOps. (Кстати, о сравнении платформ: если вам интересно, как SageMaker держит удар против Azure ML в 2026, у нас есть свежий разбор - AWS SageMaker vs Azure ML: инфраструктурная битва для обучения моделей в 2026).
И что в сухом остатке? Цифры, которые заставят вашего CFO улыбнуться
К марту 2026 года проект вышел на промышленную эксплуатацию. Результаты, которыми делится Hexagon:
- Время выхода новых моделей для клиентов сократилось с месяцев до недель.
- Точность моделей сегментации на внутренних бенчмарках выросла на 15-20% за счёт возможности экспериментировать с более крупными архитектурами и обучать их на в 10 раз больших датасетах.
- Инфраструктурные затраты на обучение (TCO) снизились примерно на 40% за счёт высокой утилизации ресурсов и отсутствия простоев.
- Команда ML-инженеров смогла сосредоточиться на исследованиях, а не на поддержке кластера.
А что, если у меня не 4 петабайта данных? Стоит ли смотреть в сторону HyperPod?
Вот вам неочевидный совет, основанный на разговорах с архитекторами из других компаний: HyperPod начинает «петь» тогда, когда ваши эксперименты перестают помещаться на 8-16 GPU. Если вы обучаете модели, которые требуют недели на кластере из 32+ ускорителей, или вам нужно запускать десятки таких экспериментов параллельно — это ваш кандидат.
Если же ваши модели обучаются за несколько часов на одной-двух видеокартах, HyperPod будет избыточным. Вам хватит стандартного SageMaker или даже более дешёвых специализированных GPU-провайдеров. (Для таких случаев мы как раз готовили материал о том, как выбрать самый дешёвый GPU-провайдер для запуска своей модели).
Прогноз на 2026-2027? Инфраструктура для распределённого обучения станет ещё более «невидимой». Такие платформы, как HyperPod, будут предлагать не просто кластеры, а интеллектуальные стратегии обучения: автоматический подбор оптимального количества GPU, динамическое изменение batch size в процессе обучения, предсказание стоимости job'а до его запуска. Битва между облачными гигантами сместится с «у кого больше GPU» к «у кого умнее оркестрация». И судя по тому, как AWS уже встраивает SageMaker HyperPod в более широкий контекст ModelOps (посмотрите, как они избавились от Service Catalog), они это прекрасно понимают.
Hexagon свой выбор сделал. Теперь их ИИ видит в 3D не в разы, а на порядки быстрее. А инженеры, наконец, могут спать по ночам, пока кластер тренирует следующую модель. Разве не ради этого мы и занимаемся всей этой магией с нейросетями?