DGX Spark тормозит? Atlas пришел на помощь
Если вы купили DGX Spark в надежде на молниеносный инференс больших моделей, то уже знаете горькую правду. Стандартные движки вроде vLLM или Text Generation Inference просто не выжимают из этой железяки все соки. Архитектура SM121 - штука капризная. Пока все пляшут вокруг старых A100, ваши дорогие карты простаивают.
Atlas появился как ответ на эту конкретную боль. Не универсальный солдат, а хирургический инструмент, заточенный под одну задачу: максимально быстрый инференс Qwen3.5-35B-A3B на платформе GB10. И он бьет рекорды.
На момент 04.03.2026, Qwen3.5-35B-A3B - последняя версия модели от Alibaba, оптимизированная под квантование NVFP4. Не путайте с обычным Qwen3.5-35B - прирост скорости только с правильным форматом весов.
Чистый Rust и кастомные ядра: как это работает
Создатели Atlas пошли ва-банк. Движок написан с нуля на Rust - это раз. Вместо универсальных CUTLASS 3.8 ядер они написали свои, специфичные под SM121 - это два. И зашили внутрь поддержку NVFP4 квантования, которое в начале 2026-го только набирает обороты.
Что это дает на практике? Меньше накладных расходов на управление памятью (спасибо Rust), более эффективное использование tensor cores на SM121, и скорость. Много скорости.
vLLM vs Atlas: цифры не врут
Цифры из тестов, опубликованных 1 марта 2026 года, говорят сами за себя. Конфигурация: 2x DGX Spark (GB10), модель Qwen3.5-35B-A3B в NVFP4.
| Движок | Токенов в секунду (инференс) | Задержка (p95) | Использование GPU |
|---|---|---|---|
| vLLM 0.4.5 (с NVFP4) | ~145 | ~210 мс | 78% |
| Atlas 1.0 | ~362 | ~85 мс | 94% |
Прирост в 2.5 раза. Это не теоретический максимум, а реальные цифры на продакшен-нагрузке с длинными контекстами. Если ваш бизнес зависит от скорости ответа AI (поддержка, код-генерация, аналитика), разница колоссальная. Для сравнения, Qwen3.5-27B на RTX A6000 выдает около 20 токенов в секунду. Здесь речь о 360+ на модели большего размера.
Запускаем Qwen3.5-35B-A3B за 5 минут
Установка Atlas - дело для инженера, а не для любителя. Движок поставляется как набор Rust-крейтов и требует сборки под вашу конкретную систему GB10. Но если вы справились с настройкой 2x DGX Spark, то и здесь не испугаетесь.
Основная магия происходит в конфигурационном файле TOML. Нужно указать точный путь к весам модели в формате NVFP4 (который можно получить с помощью утилиты NVIDIA Model Optimizer), количество GPU и параметры планировщика запросов.
Atlas не работает с обычными Hugging Face весами. Только с предварительно сконвертированными в NVFP4. Это главный компромисс. Но если скорость - ваш приоритет, другого выбора нет.
После запуска движок открывает HTTP-эндпоинт, совместимый с OpenAI API. Можно интегрировать в существующие пайплайны без переписывания кода. Поддерживается streaming, function calling и все основные фичи Qwen3.5.
Кому Atlas подойдет, а кому нет
Это узкоспециализированный инструмент. Он не для всех.
Берите Atlas, если:
- У вас есть DGX Spark (GB10) и вы плачете от его нераскрытого потенциала.
- Ваша основная модель - Qwen3.5-35B (или планируете перейти на нее). Модели вроде Gemini 3 Flash здесь не полетят.
- Скорость инференса критична для бизнес-метрик (например, в high-frequency AI трейдинге или real-time мультиагентных системах).
- У вас есть команда DevOps, готовая возиться со сборкой из исходников и кастомными форматами весов.
Обходите стороной, если:
- У вас парк разношерстного железа (A100, H100, consumer cards). Используйте vLLM или Text Generation Inference.
- Вы постоянно экспериментируете с разными моделями (Ling 17B, Falcon 90M). Atlas заточен только под одну архитектуру.
- Вам нужна простая кнопка "развернуть" в облаке. Atlas - инструмент для on-premise энтузиастов и корпораций, которые сами управляют своим железом.
- Вас устраивает скорость в 100-150 токенов в секунду. Зачем complicating your life?
Atlas - это не про удобство. Это про бескомпромиссную производительность. Он доказывает, что даже в 2026 году, когда все говорят об облачных API, есть место для кастомных, безумно оптимизированных железных решений. Если вы из тех, кто покупал DGX Spark не для галочки, а чтобы выжимать из него каждую миллисекунду - ваш новый любимый движок только что появился. Остальным же, возможно, стоит посмотреть в сторону более универсальных, но медленных решений или даже облачных провайдеров вроде тех, что предлагают Qwen3-235B как услугу.