Чем суперкомпьютер MareNostrum V отличается от облачного кластера GPU?

MareNostrum V - это специализированная HPC-система с экстремально низколатентной сетью (Dragonfly+) и оптимизированным планировщиком задач. Облачные кластеры более гибкие, но их сетевая производительность и согласованность работы тысяч узлов часто уступают.

Какие основные сложности при запуске ML-задач на суперкомпьютере?

Основные сложности: длинные очереди на выполнение задач через планировщик Slurm, необходимость точной оценки требуемых ресурсов (память, процессоры), адаптация кода под специфическую среду и файловую систему, а также отладка в условиях, когда задача выполняется на сотнях узлов одновременно.

Запуск ML на суперкомпьютере MareNostrum V: личный опыт

Добро пожаловать в собор вычислений

Представьте зал. Тихо. Холодно. Стоимость железа вокруг вас – 200 миллионов евро. MareNostrum V в Барселоне – это не просто стойки с серверами. Это архитектурное заявление. Я приехал сюда с простой задачей: обучить несколько больших моделей для генерации синтетических данных. То, что на локальной машине заняло бы месяцы, здесь должно было уложиться в дни.

На момент написания (19.04.2026) MareNostrum V остается одним из самых мощных суперкомпьютеров в Европе, ориентированным на исследования в области AI и наук о жизни. Его архитектура за последние два года получила обновления для работы с фреймворками машинного обучения нового поколения.

Что внутри 200-миллионной коробки

Цифры впечатляют. Но за ними скрывается инженерная мысль. Это не просто груда процессоров.

Компонент	Спецификация (актуально на 19.04.2026)
Вычислительные узлы	Более 3500 узлов на базе последнего поколения процессоров AMD EPYC с поддержкой матричных расширений (AI-ускорители на кристалле).
Ускорители	Гибридная система: часть узлов оснащена NVIDIA H200, часть – специализированными картами для квантового моделирования.
Сеть	Dragonfly+ топология на основе HPE Slingshot 11. Задержка в наносекундах. Это главное.
Хранилище	Многоуровневая система Lustre на 250+ Петабайт. Пиковая скорость чтения ~2 ТБ/с.

Главная фишка – не процессоры. И даже не GPU. Это сеть. Dragonfly+ позволяет тысячам узлов общаться так, будто они сидят на одной шине. Для распределенного обучения, особенно когда мы экспериментировали с гигантскими MoE-моделями, это решало все.

Очередь. Жди. И снова жди

Вы не просто заходите в терминал и запускаете `python train.py`. Здесь царствует планировщик Slurm. Ваша заявка на ресурсы попадает в очередь. Моя первая задача на 128 узлах ждала своей очереди 16 часов. Шестнадцать. Это норма.

💡

Совет, который сэкономит вам недели: правильно оценивайте ресурсы. Запросите мало памяти – задача упадет. Запросите слишком много – будете ждать вечность. Изучите метрики завершившихся задач, прежде чем подавать свою.

Вот где пригодился опыт из статьи про разделение prefill и decode. Мы адаптировали логику: тяжелые фазы вычислений шли на узлы с H200, а задачи с высокой пропускной памятью – на другие. Но Slurm не всегда это понимал. Приходилось хитрить, разбивая задачу на две разных job-ы.

Когда все пошло не так

Первая же серьезная тренировка упала через 3 часа. Лог-файл на 5 гигабайт. Ошибка? Проблема с доступом к распределенной файловой системе. Один узел не смог прочитать чекпоинт. Вся работа – коту под хвост.

Здесь учат паранойе. Каждый скрипт должен постоянно сохранять состояние. Каждая операция ввода-вывода – потенциальная точка отказа. Мы переписали пайплайн генерации данных, чтобы он работал с небольшими чанками и постоянно синхронизировался. Это замедлило общую скорость на 15%, но дало надежность.

Предупреждение: инструменты, которые идеально работают на вашем локальном Kubernetes-кластере (вспомните архитектуру Nova AI), на суперкомпьютере могут вести себя непредсказуемо. Сетевое взаимодействие, права доступа, версии библиотек – все иначе.

Итоговая скорость? Слезы счастья

Когда все настроено, результат оглушает. Задача, которая на моем мощном локальном кластере (собранном, кстати, по мотивам гайда за $15 000) выполнялась бы 10 дней, на MareNostrum V завершилась за 18 часов.

Почему? Параллельная загрузка данных с Lustre, идеальная синхронизация градиентов через Slingshot, и отсутствие вмешательства других процессов. Это чистая, неразбавленная вычислительная мощь.

Стоило ли оно того?

С точки зрения pure research – безусловно. Для production ML-пайплайнов? Сомнительно. Суперкомпьютер – это научный инструмент, а не облачный провайдер. Административная накладка, очередь, уникальная среда – это цена за экстремальную производительность.

Если ваш проект упирается в вычисления и масштабируется почти линейно – дерзайте. Если же ваша работа – это череда коротких экспериментов, возможно, европейский GPU-дефицит проще пережить, арендуя облачные инстансы с последним железом.

Мой главный вывод банален. Будущее – за гибридом. Задача проектируется так, чтобы ее критическая, масштабируемая часть бежала на таком монстре, как MareNostrum. А инференс, дообучение, тонкая настройка – возвращаются на более управляемые платформы. Архитекторы HPC это уже поняли. Скоро и мы все к этому придем.

Подписаться на канал

Как запустить ML-задачи на суперкомпьютере за 200M€: архитектура MareNostrum V и опыт использования