Кейс Hexagon: обучение 3D-моделей на SageMaker HyperPod | 2026

Миллиарды точек и одна большая проблема

Представьте терабайты данных с лидаров. Не фотографии, а трёхмерные облака из миллионов точек. Каждая точка - это координата в пространстве, а вместе они описывают город, завод, шахту. Задача - научить ИИ автоматически различать в этой куче точек здания, дороги, машины, деревья. Звучит как научная фантастика? Для Hexagon, глобального гиганта в сфере промышленных цифровых решений, это была ежедневная рутина. И их собственные инженеры уже начали сходить с ума.

💡

На момент проекта в начале 2025 года у Hexagon накопилось свыше 4 петабайт неразмеченных 3D-данных с геосканирований по всему миру. Вручную размечать их для обучения моделей было экономически невозможно.

Обычные GPU-серверы захлёбывались. Обучение одной модели сегментации на их внутренних кластерах занимало недели. Каждый сбой - потерянные дни. Инфраструктурная команда постоянно тушила пожары: то GPU перегреваются, то сеть между узлами кластера становится узким местом, то версии библиотек конфликтуют. Они пробовали разные облачные решения, но управление распределённым обучением оставалось адом.

Вход HyperPod: когда AWS решила, что кластеры не должны сводить с ума

В середине 2025 года Hexagon обратился к Amazon SageMaker HyperPod. Не к базовому SageMaker, а именно к HyperPod - специализированному решению для распределённого обучения на десятках и сотнях GPU. (Если вам интересно, как выглядит управление этим зверем через CLI и SDK, у нас есть отдельный разбор - SageMaker HyperPod CLI и SDK: когда AWS решила, что управление кластерами должно быть сложным).

Суть HyperPod в том, что AWS предконфигурирует весь стек для распределённого обучения: от низкоуровневой сетевой библиотеки NVIDIA NCCL до оркестратора кластера. Вы получаете готовую среду, где можно запускать training job'ы, не становясь экспертом по системному администрированию. Для Hexagon это стало переломным моментом.

Параметр	До HyperPod (внутр. кластер)	На HyperPod (к марту 2026)
Время обучения модели	18-21 день	3-4 дня
Макс. количество GPU в одном job	16	128 (на инстансах p5.48xlarge)
Утилизация GPU	~65%	94-97%
Частота экспериментов	1-2 в месяц	10-15 в неделю

Что они там вообще учили? (Спойлер: не Stable Diffusion)

Hexagon работал с архитектурами для сегментации 3D point clouds. На старте проекта в 2025 они использовали модификации PointNet++ и KPConv. Но к 2026 году перешли на более современные подходы, включая фокус на transformer-архитектуры, адаптированные для разреженных 3D-данных.

Ключевой трюк - самообучение (self-supervised pretraining). Модель сначала учится на гигантском объёме неразмеченных данных, восстанавливая замаскированные части облака точек или предсказывая spatial context. Потом эту предобученную модель доучивают (fine-tune) на сравнительно небольшом размеченном датасете для конкретной задачи - скажем, выделения инфраструктуры в данных сканирования умного города. (Принцип похож на то, как работают большие языковые модели, и если вам интересны детали масштабирования такой настройки, посмотрите наше руководство по тонкой настройке LLM с Hugging Face и SageMaker).

Важный нюанс: речь не о генеративных моделях типа Stable Diffusion 3 или Sora. Это специализированные нейросети для понимания геометрии. Они не рисуют картинки, а анализируют существующие сканы с миллиметровой точностью, требуемой для промышленного применения.

Почему именно HyperPod, а не просто куча виртуалок?

Потому что распределённое обучение на 100+ GPU - это не просто «взять больше машин». Это:

Сетевая синхронизация градиентов. Каждый шаг обучения требует обмена данными между всеми GPU. Если сеть медленная, вы простаиваете. HyperPod использует специализированные сетевые карты Elastic Fabric Adapter (EFA) с пропускной способностью под 400 Gbps на инстансах p5 (актуально на 2026 год), что сводит накладные расходы к минимуму.
Управление состоянием кластера. Что делать, если один узел упал через 3 дня обучения? HyperPod умеет автоматически перезапускать упавшие job'ы с последнего checkpoint, не теряя всю работу.
Совместимость стеков. Версии драйверов NVIDIA, CUDA, NCCL, PyTorch или TensorFlow, MPI - всё должно быть идеально согласовано. В HyperPod AWS поддерживает эти «золотые образы» (golden images), которые гарантируют, что ваше окружение воспроизводимо и стабильно.

Без такой платформы инженеры Hexagon тратили бы 30% времени не на ML, а на DevOps. (Кстати, о сравнении платформ: если вам интересно, как SageMaker держит удар против Azure ML в 2026, у нас есть свежий разбор - AWS SageMaker vs Azure ML: инфраструктурная битва для обучения моделей в 2026).

И что в сухом остатке? Цифры, которые заставят вашего CFO улыбнуться

К марту 2026 года проект вышел на промышленную эксплуатацию. Результаты, которыми делится Hexagon:

Время выхода новых моделей для клиентов сократилось с месяцев до недель.
Точность моделей сегментации на внутренних бенчмарках выросла на 15-20% за счёт возможности экспериментировать с более крупными архитектурами и обучать их на в 10 раз больших датасетах.
Инфраструктурные затраты на обучение (TCO) снизились примерно на 40% за счёт высокой утилизации ресурсов и отсутствия простоев.
Команда ML-инженеров смогла сосредоточиться на исследованиях, а не на поддержке кластера.

💡

Ключевой урок не в технологии, а в экономике. HyperPod позволил Hexagon превратить дорогостоящий и редкий эксперимент (обучение огромной модели) в рутинную, повторяемую операцию. Это меняет всю динамику разработки промышленного ИИ.

А что, если у меня не 4 петабайта данных? Стоит ли смотреть в сторону HyperPod?

Вот вам неочевидный совет, основанный на разговорах с архитекторами из других компаний: HyperPod начинает «петь» тогда, когда ваши эксперименты перестают помещаться на 8-16 GPU. Если вы обучаете модели, которые требуют недели на кластере из 32+ ускорителей, или вам нужно запускать десятки таких экспериментов параллельно — это ваш кандидат.

Если же ваши модели обучаются за несколько часов на одной-двух видеокартах, HyperPod будет избыточным. Вам хватит стандартного SageMaker или даже более дешёвых специализированных GPU-провайдеров. (Для таких случаев мы как раз готовили материал о том, как выбрать самый дешёвый GPU-провайдер для запуска своей модели).

Прогноз на 2026-2027? Инфраструктура для распределённого обучения станет ещё более «невидимой». Такие платформы, как HyperPod, будут предлагать не просто кластеры, а интеллектуальные стратегии обучения: автоматический подбор оптимального количества GPU, динамическое изменение batch size в процессе обучения, предсказание стоимости job'а до его запуска. Битва между облачными гигантами сместится с «у кого больше GPU» к «у кого умнее оркестрация». И судя по тому, как AWS уже встраивает SageMaker HyperPod в более широкий контекст ModelOps (посмотрите, как они избавились от Service Catalog), они это прекрасно понимают.

Hexagon свой выбор сделал. Теперь их ИИ видит в 3D не в разы, а на порядки быстрее. А инженеры, наконец, могут спать по ночам, пока кластер тренирует следующую модель. Разве не ради этого мы и занимаемся всей этой магией с нейросетями?

Подписаться на канал

Hexagon против облаков точек: как индустриальный гигант учил ИИ видеть в 3D на Amazon SageMaker HyperPod