Выбор между DGX SPARK и Mac M3 Ultra для локальных LLM — это не просто "быстрее против тише". Это выбор между двумя философиями. Одна — это специализированная машина для инференса, созданная NVIDIA с нуля для этой задачи. Другая — универсальная рабочая станция, которая оказалась чертовски хороша в ней. И если ваш контекст переваливает за 128K токенов, этот выбор становится критическим.
Почему длинный контекст меняет всё
Когда вы работаете с 7B моделькой и контекстом в 4K, почти любое железо справится. Но 128K — это другой зверь. Prefill-фаза (загрузка контекста в модель) начинает занимать не миллисекунды, а секунды. Потребление памяти взлетает. И здесь архитектурные различия между Spark и M3 Ultra выходят на первый план.
Архитектура памяти: раздельная против единой
Это ключевое различие, которое большинство упускает.
| Параметр | DGX SPARK | Mac M3 Ultra |
|---|---|---|
| Общая память | 64 GB (48 GB VRAM + 16 GB RAM) | 128 GB или 192 GB Unified Memory |
| Пропускная способность | ~960 GB/s (VRAM) + ~80 GB/s (RAM) | 800 GB/s (единая для всего) |
| Доступ к памяти | GPU → VRAM быстро, GPU → RAM медленно | CPU/GPU/NE → память одинаково быстро |
Вот где собака зарыта. В DGX SPARK у вас 48 GB быстрой VRAM и 16 GB медленной RAM. Если модель не помещается в VRAM, часть уходит в RAM — и производительность падает в разы. В M3 Ultra вся память одинаковая. Вы загружаете 70B модель в Q4 — и она просто работает. Никаких танцев с кешированием слоев.
Ошибка новичков: считать, что 64 GB в DGX SPARK равны 64 GB в M3 Ultra. Нет. В Spark эффективно для LLM только 48 GB (VRAM). Остальное — медленная подстраховка.
Скорость генерации: цифры против ощущений
Я тестировал обе системы на одном пайплайне: Llama 3.1 70B в Q4_K_M, контекст 128K, типичный RAG-запрос (префилл 5K токенов, генерация 512).
- DGX SPARK: Prefill — 4.2 секунды, Generation — 38 токенов/сек
- Mac M3 Ultra (128GB): Prefill — 5.8 секунды, Generation — 22 токена/сек
На бумаге Spark быстрее в 1.7 раза. На практике разница ощущается меньше. Почему? Потому что 38 токенов/сек — это уже за пределами человеческого чтения. Вы все равно не успеваете читать. А вот 5.8 секунд ожидания первого токена против 4.2 — это заметно.
Но есть нюанс: в M3 Ultra вы можете параллельно запускать еще одну модель в другом процессе. Или работать в Photoshop. Или кодить. Система не будет захлебываться. В Spark при полной загрузке GPU вы слышите вентиляторы (они не такие громкие, как в gaming PC, но звук есть) и больше ничего тяжелого не запустите.
1 Кейс: RAG с базой документов на 1000 страниц
Здесь M3 Ultra неожиданно вырывается вперед. Почему? Потому что RAG — это не только генерация. Это еще и семантический поиск, переранжирование, извлечение контекста. Все это происходит на CPU. А у M3 Ultra — 32-ядерный CPU, который не делит ресурсы с GPU.
В Spark же RTX 6000 Ada занята генерацией, а 16-ядерный Ryzen 9 обрабатывает поиск. Это создает бутылочное горлышко. Общее время обработки запроса в RAG-системе на M3 Ultra оказывается меньше, несмотря на более медленную генерацию.
Экосистема: CUDA против MLX
Если вы живете в мире PyTorch и transformers, Spark дает вам знакомую среду. Установил CUDA, поставил torch с cuda поддержкой — и все работает. Огромное сообщество, тонны готовых решений.
M3 Ultra требует перехода на MLX — фреймворк от Apple. Он хорош. Очень хорош. Но это другой API, другой способ работы. Плюс MLX активно развивается, но некоторые нишевые модели могут не поддерживаться.
Цена и скрытые расходы
Mac Studio M3 Ultra с 128GB памяти стоит около $5000. DGX SPARK — $3500. Кажется, Spark выгоднее. Но подождите.
- Spark потребляет 450W под нагрузкой. M3 Ultra — 150W. За год разница в электричестве — $200-300.
- Spark требует больше места, издает шум, греется. M3 Ultra — моноблок размером с книгу, работает почти бесшумно.
- Апгрейд? В Spark можно поменять видеокарту (но это не просто). В M3 Ultra ничего не поменяешь.
И главное: через 3 года вы сможете продать Mac Studio за 60% от цены. DGX SPARK? NVIDIA выпустит новые карты, и ваша система резко устареет.
Что выбрать: практическое руководство
Вот мое правило, выработанное на десятках проектов:
2 Берите DGX SPARK, если:
- Вы делаете демки для клиентов и нужна максимальная скорость генерации ("вау-эффект")
- Работаете исключительно с инференсом, не отвлекаясь на другие задачи
- Ваш стек завязан на CUDA и переписывать код под MLX слишком дорого
- Планируете апгрейдить видеокарту через год-два
3 Берите Mac M3 Ultra, если:
- LLM — часть вашего workflow, а не вся работа
- Нужно запускать несколько моделей параллельно или делать RAG с тяжелой препроцессингой
- Работаете в офисе или дома, где шум и тепло имеют значение
- Цените единую экосистему (у вас уже есть MacBook, iPhone)
- Думаете о долгосрочной инвестиции (Mac держит цену лучше)
Не верьте синтетическим тестам. Возьмите вашу реальную рабочую нагрузку (модель, контекст, пайплайн) и протестируйте на обеих системах. Часто решение становится очевидным после 30 минут реальной работы.
Мой личный выбор и почему
У меня в студии стоят обе системы. Но для основной работы я использую Mac M3 Ultra. Почему?
Потому что 80% времени я не гоняю LLM. Я пишу код, тестирую, анализирую результаты, работаю с документами. И иметь систему, которая мгновенно переключается между задачами, бесшумна и не требует танцев с драйверами — это productivity boost, который не измерить в токенах в секунду.
DGX SPARK у меня работает как специализированный сервер для тяжелых инференс-задач. Когда нужно обработать тысячу промптов за ночь или протестировать новую большую модель. Это инструмент, а не основная рабочая станция.
Если бы пришлось оставить только одну систему — оставил бы M3 Ultra. Его универсальность и предсказуемость перевешивают преимущество Spark в чистой скорости генерации.
Что будет через год?
NVIDIA анонсирует Blackwell. Apple готовит M4 Ultra. Гонка продолжается. Но тренд ясен: специализированные AI-ускорители против универсальных систем на чипе.
Мой прогноз: к концу 2025 года мы увидим Mac с 256 GB Unified Memory и Neural Engine в 2 раза быстрее. И NVIDIA выпустит DGX SPARK следующего поколения с HBM-памятью. Разрыв в скорости сократится, но разница в философии останется.
Выбирайте не железо. Выбирайте workflow, который вам подходит. Скорость генерации — это всего лишь одна метрика. А работа с LLM — это десятки метрик, из которых скорость — не самая важная.