Добро пожаловать в собор вычислений
Представьте зал. Тихо. Холодно. Стоимость железа вокруг вас – 200 миллионов евро. MareNostrum V в Барселоне – это не просто стойки с серверами. Это архитектурное заявление. Я приехал сюда с простой задачей: обучить несколько больших моделей для генерации синтетических данных. То, что на локальной машине заняло бы месяцы, здесь должно было уложиться в дни.
На момент написания (19.04.2026) MareNostrum V остается одним из самых мощных суперкомпьютеров в Европе, ориентированным на исследования в области AI и наук о жизни. Его архитектура за последние два года получила обновления для работы с фреймворками машинного обучения нового поколения.
Что внутри 200-миллионной коробки
Цифры впечатляют. Но за ними скрывается инженерная мысль. Это не просто груда процессоров.
| Компонент | Спецификация (актуально на 19.04.2026) |
|---|---|
| Вычислительные узлы | Более 3500 узлов на базе последнего поколения процессоров AMD EPYC с поддержкой матричных расширений (AI-ускорители на кристалле). |
| Ускорители | Гибридная система: часть узлов оснащена NVIDIA H200, часть – специализированными картами для квантового моделирования. |
| Сеть | Dragonfly+ топология на основе HPE Slingshot 11. Задержка в наносекундах. Это главное. |
| Хранилище | Многоуровневая система Lustre на 250+ Петабайт. Пиковая скорость чтения ~2 ТБ/с. |
Главная фишка – не процессоры. И даже не GPU. Это сеть. Dragonfly+ позволяет тысячам узлов общаться так, будто они сидят на одной шине. Для распределенного обучения, особенно когда мы экспериментировали с гигантскими MoE-моделями, это решало все.
Очередь. Жди. И снова жди
Вы не просто заходите в терминал и запускаете `python train.py`. Здесь царствует планировщик Slurm. Ваша заявка на ресурсы попадает в очередь. Моя первая задача на 128 узлах ждала своей очереди 16 часов. Шестнадцать. Это норма.
Вот где пригодился опыт из статьи про разделение prefill и decode. Мы адаптировали логику: тяжелые фазы вычислений шли на узлы с H200, а задачи с высокой пропускной памятью – на другие. Но Slurm не всегда это понимал. Приходилось хитрить, разбивая задачу на две разных job-ы.
Когда все пошло не так
Первая же серьезная тренировка упала через 3 часа. Лог-файл на 5 гигабайт. Ошибка? Проблема с доступом к распределенной файловой системе. Один узел не смог прочитать чекпоинт. Вся работа – коту под хвост.
Здесь учат паранойе. Каждый скрипт должен постоянно сохранять состояние. Каждая операция ввода-вывода – потенциальная точка отказа. Мы переписали пайплайн генерации данных, чтобы он работал с небольшими чанками и постоянно синхронизировался. Это замедлило общую скорость на 15%, но дало надежность.
Предупреждение: инструменты, которые идеально работают на вашем локальном Kubernetes-кластере (вспомните архитектуру Nova AI), на суперкомпьютере могут вести себя непредсказуемо. Сетевое взаимодействие, права доступа, версии библиотек – все иначе.
Итоговая скорость? Слезы счастья
Когда все настроено, результат оглушает. Задача, которая на моем мощном локальном кластере (собранном, кстати, по мотивам гайда за $15 000) выполнялась бы 10 дней, на MareNostrum V завершилась за 18 часов.
Почему? Параллельная загрузка данных с Lustre, идеальная синхронизация градиентов через Slingshot, и отсутствие вмешательства других процессов. Это чистая, неразбавленная вычислительная мощь.
Стоило ли оно того?
С точки зрения pure research – безусловно. Для production ML-пайплайнов? Сомнительно. Суперкомпьютер – это научный инструмент, а не облачный провайдер. Административная накладка, очередь, уникальная среда – это цена за экстремальную производительность.
Если ваш проект упирается в вычисления и масштабируется почти линейно – дерзайте. Если же ваша работа – это череда коротких экспериментов, возможно, европейский GPU-дефицит проще пережить, арендуя облачные инстансы с последним железом.
Мой главный вывод банален. Будущее – за гибридом. Задача проектируется так, чтобы ее критическая, масштабируемая часть бежала на таком монстре, как MareNostrum. А инференс, дообучение, тонкая настройка – возвращаются на более управляемые платформы. Архитекторы HPC это уже поняли. Скоро и мы все к этому придем.