DGX Spark тормозит? Atlas пришел на помощь

Если вы купили DGX Spark в надежде на молниеносный инференс больших моделей, то уже знаете горькую правду. Стандартные движки вроде vLLM или Text Generation Inference просто не выжимают из этой железяки все соки. Архитектура SM121 - штука капризная. Пока все пляшут вокруг старых A100, ваши дорогие карты простаивают.

Atlas появился как ответ на эту конкретную боль. Не универсальный солдат, а хирургический инструмент, заточенный под одну задачу: максимально быстрый инференс Qwen3.5-35B-A3B на платформе GB10. И он бьет рекорды.

На момент 04.03.2026, Qwen3.5-35B-A3B - последняя версия модели от Alibaba, оптимизированная под квантование NVFP4. Не путайте с обычным Qwen3.5-35B - прирост скорости только с правильным форматом весов.

Чистый Rust и кастомные ядра: как это работает

Создатели Atlas пошли ва-банк. Движок написан с нуля на Rust - это раз. Вместо универсальных CUTLASS 3.8 ядер они написали свои, специфичные под SM121 - это два. И зашили внутрь поддержку NVFP4 квантования, которое в начале 2026-го только набирает обороты.

💡

NVFP4 (NVIDIA Floating Point 4-bit) - новый формат квантования, анонсированный NVIDIA в конце 2025 года для архитектур SM120+. Он дает меньше потерь качества при сжатии весов в 4 раза по сравнению с INT4. Atlas один из первых движков, где он реализован нативно.

Что это дает на практике? Меньше накладных расходов на управление памятью (спасибо Rust), более эффективное использование tensor cores на SM121, и скорость. Много скорости.

vLLM vs Atlas: цифры не врут

Цифры из тестов, опубликованных 1 марта 2026 года, говорят сами за себя. Конфигурация: 2x DGX Spark (GB10), модель Qwen3.5-35B-A3B в NVFP4.

Движок	Токенов в секунду (инференс)	Задержка (p95)	Использование GPU
vLLM 0.4.5 (с NVFP4)	~145	~210 мс	78%
Atlas 1.0	~362	~85 мс	94%

Прирост в 2.5 раза. Это не теоретический максимум, а реальные цифры на продакшен-нагрузке с длинными контекстами. Если ваш бизнес зависит от скорости ответа AI (поддержка, код-генерация, аналитика), разница колоссальная. Для сравнения, Qwen3.5-27B на RTX A6000 выдает около 20 токенов в секунду. Здесь речь о 360+ на модели большего размера.

Запускаем Qwen3.5-35B-A3B за 5 минут

Установка Atlas - дело для инженера, а не для любителя. Движок поставляется как набор Rust-крейтов и требует сборки под вашу конкретную систему GB10. Но если вы справились с настройкой 2x DGX Spark, то и здесь не испугаетесь.

Основная магия происходит в конфигурационном файле TOML. Нужно указать точный путь к весам модели в формате NVFP4 (который можно получить с помощью утилиты NVIDIA Model Optimizer), количество GPU и параметры планировщика запросов.

Atlas не работает с обычными Hugging Face весами. Только с предварительно сконвертированными в NVFP4. Это главный компромисс. Но если скорость - ваш приоритет, другого выбора нет.

После запуска движок открывает HTTP-эндпоинт, совместимый с OpenAI API. Можно интегрировать в существующие пайплайны без переписывания кода. Поддерживается streaming, function calling и все основные фичи Qwen3.5.

Кому Atlas подойдет, а кому нет

Это узкоспециализированный инструмент. Он не для всех.

Берите Atlas, если:

У вас есть DGX Spark (GB10) и вы плачете от его нераскрытого потенциала.
Ваша основная модель - Qwen3.5-35B (или планируете перейти на нее). Модели вроде Gemini 3 Flash здесь не полетят.
Скорость инференса критична для бизнес-метрик (например, в high-frequency AI трейдинге или real-time мультиагентных системах).
У вас есть команда DevOps, готовая возиться со сборкой из исходников и кастомными форматами весов.

Обходите стороной, если:

У вас парк разношерстного железа (A100, H100, consumer cards). Используйте vLLM или Text Generation Inference.
Вы постоянно экспериментируете с разными моделями (Ling 17B, Falcon 90M). Atlas заточен только под одну архитектуру.
Вам нужна простая кнопка "развернуть" в облаке. Atlas - инструмент для on-premise энтузиастов и корпораций, которые сами управляют своим железом.
Вас устраивает скорость в 100-150 токенов в секунду. Зачем complicating your life?

Atlas - это не про удобство. Это про бескомпромиссную производительность. Он доказывает, что даже в 2026 году, когда все говорят об облачных API, есть место для кастомных, безумно оптимизированных железных решений. Если вы из тех, кто покупал DGX Spark не для галочки, а чтобы выжимать из него каждую миллисекунду - ваш новый любимый движок только что появился. Остальным же, возможно, стоит посмотреть в сторону более универсальных, но медленных решений или даже облачных провайдеров вроде тех, что предлагают Qwen3-235B как услугу.

Подписаться на канал

Atlas: Rust-движок, который заставляет Qwen3.5-35B летать на GB10

DGX Spark тормозит? Atlas пришел на помощь

Чистый Rust и кастомные ядра: как это работает

vLLM vs Atlas: цифры не врут

Запускаем Qwen3.5-35B-A3B за 5 минут

Кому Atlas подойдет, а кому нет

Подписывайтесь на наш канал!