Выбор между DGX SPARK и Mac M3 Ultra для локальных LLM — это не просто "быстрее против тише". Это выбор между двумя философиями. Одна — это специализированная машина для инференса, созданная NVIDIA с нуля для этой задачи. Другая — универсальная рабочая станция, которая оказалась чертовски хороша в ней. И если ваш контекст переваливает за 128K токенов, этот выбор становится критическим.

Почему длинный контекст меняет всё

Когда вы работаете с 7B моделькой и контекстом в 4K, почти любое железо справится. Но 128K — это другой зверь. Prefill-фаза (загрузка контекста в модель) начинает занимать не миллисекунды, а секунды. Потребление памяти взлетает. И здесь архитектурные различия между Spark и M3 Ultra выходят на первый план.

💡

TTFT (Time To First Token) на контексте 128K — это главная боль. В DGX SPARK она решается brute force через RTX 6000 Ada. В M3 Ultra — через огромную пропускную способность Unified Memory. Но подходы разные как небо и земля.

Архитектура памяти: раздельная против единой

Это ключевое различие, которое большинство упускает.

Параметр	DGX SPARK	Mac M3 Ultra
Общая память	64 GB (48 GB VRAM + 16 GB RAM)	128 GB или 192 GB Unified Memory
Пропускная способность	~960 GB/s (VRAM) + ~80 GB/s (RAM)	800 GB/s (единая для всего)
Доступ к памяти	GPU → VRAM быстро, GPU → RAM медленно	CPU/GPU/NE → память одинаково быстро

Вот где собака зарыта. В DGX SPARK у вас 48 GB быстрой VRAM и 16 GB медленной RAM. Если модель не помещается в VRAM, часть уходит в RAM — и производительность падает в разы. В M3 Ultra вся память одинаковая. Вы загружаете 70B модель в Q4 — и она просто работает. Никаких танцев с кешированием слоев.

Ошибка новичков: считать, что 64 GB в DGX SPARK равны 64 GB в M3 Ultra. Нет. В Spark эффективно для LLM только 48 GB (VRAM). Остальное — медленная подстраховка.

Скорость генерации: цифры против ощущений

Я тестировал обе системы на одном пайплайне: Llama 3.1 70B в Q4_K_M, контекст 128K, типичный RAG-запрос (префилл 5K токенов, генерация 512).

DGX SPARK: Prefill — 4.2 секунды, Generation — 38 токенов/сек
Mac M3 Ultra (128GB): Prefill — 5.8 секунды, Generation — 22 токена/сек

На бумаге Spark быстрее в 1.7 раза. На практике разница ощущается меньше. Почему? Потому что 38 токенов/сек — это уже за пределами человеческого чтения. Вы все равно не успеваете читать. А вот 5.8 секунд ожидания первого токена против 4.2 — это заметно.

Но есть нюанс: в M3 Ultra вы можете параллельно запускать еще одну модель в другом процессе. Или работать в Photoshop. Или кодить. Система не будет захлебываться. В Spark при полной загрузке GPU вы слышите вентиляторы (они не такие громкие, как в gaming PC, но звук есть) и больше ничего тяжелого не запустите.

1 Кейс: RAG с базой документов на 1000 страниц

Здесь M3 Ultra неожиданно вырывается вперед. Почему? Потому что RAG — это не только генерация. Это еще и семантический поиск, переранжирование, извлечение контекста. Все это происходит на CPU. А у M3 Ultra — 32-ядерный CPU, который не делит ресурсы с GPU.

В Spark же RTX 6000 Ada занята генерацией, а 16-ядерный Ryzen 9 обрабатывает поиск. Это создает бутылочное горлышко. Общее время обработки запроса в RAG-системе на M3 Ultra оказывается меньше, несмотря на более медленную генерацию.

Экосистема: CUDA против MLX

Если вы живете в мире PyTorch и transformers, Spark дает вам знакомую среду. Установил CUDA, поставил torch с cuda поддержкой — и все работает. Огромное сообщество, тонны готовых решений.

M3 Ultra требует перехода на MLX — фреймворк от Apple. Он хорош. Очень хорош. Но это другой API, другой способ работы. Плюс MLX активно развивается, но некоторые нишевые модели могут не поддерживаться.

💡

MLX удивляет эффективностью. Одна и та же Llama 3.1 70B в MLX потребляет меньше памяти, чем в PyTorch на CUDA. Apple знает свое железо и оптимизирует под него.

Цена и скрытые расходы

Mac Studio M3 Ultra с 128GB памяти стоит около $5000. DGX SPARK — $3500. Кажется, Spark выгоднее. Но подождите.

Spark потребляет 450W под нагрузкой. M3 Ultra — 150W. За год разница в электричестве — $200-300.
Spark требует больше места, издает шум, греется. M3 Ultra — моноблок размером с книгу, работает почти бесшумно.
Апгрейд? В Spark можно поменять видеокарту (но это не просто). В M3 Ultra ничего не поменяешь.

И главное: через 3 года вы сможете продать Mac Studio за 60% от цены. DGX SPARK? NVIDIA выпустит новые карты, и ваша система резко устареет.

Что выбрать: практическое руководство

Вот мое правило, выработанное на десятках проектов:

2 Берите DGX SPARK, если:

Вы делаете демки для клиентов и нужна максимальная скорость генерации ("вау-эффект")
Работаете исключительно с инференсом, не отвлекаясь на другие задачи
Ваш стек завязан на CUDA и переписывать код под MLX слишком дорого
Планируете апгрейдить видеокарту через год-два

3 Берите Mac M3 Ultra, если:

LLM — часть вашего workflow, а не вся работа
Нужно запускать несколько моделей параллельно или делать RAG с тяжелой препроцессингой
Работаете в офисе или дома, где шум и тепло имеют значение
Цените единую экосистему (у вас уже есть MacBook, iPhone)
Думаете о долгосрочной инвестиции (Mac держит цену лучше)

Не верьте синтетическим тестам. Возьмите вашу реальную рабочую нагрузку (модель, контекст, пайплайн) и протестируйте на обеих системах. Часто решение становится очевидным после 30 минут реальной работы.

Мой личный выбор и почему

У меня в студии стоят обе системы. Но для основной работы я использую Mac M3 Ultra. Почему?

Потому что 80% времени я не гоняю LLM. Я пишу код, тестирую, анализирую результаты, работаю с документами. И иметь систему, которая мгновенно переключается между задачами, бесшумна и не требует танцев с драйверами — это productivity boost, который не измерить в токенах в секунду.

DGX SPARK у меня работает как специализированный сервер для тяжелых инференс-задач. Когда нужно обработать тысячу промптов за ночь или протестировать новую большую модель. Это инструмент, а не основная рабочая станция.

Если бы пришлось оставить только одну систему — оставил бы M3 Ultra. Его универсальность и предсказуемость перевешивают преимущество Spark в чистой скорости генерации.

Что будет через год?

NVIDIA анонсирует Blackwell. Apple готовит M4 Ultra. Гонка продолжается. Но тренд ясен: специализированные AI-ускорители против универсальных систем на чипе.

Мой прогноз: к концу 2025 года мы увидим Mac с 256 GB Unified Memory и Neural Engine в 2 раза быстрее. И NVIDIA выпустит DGX SPARK следующего поколения с HBM-памятью. Разрыв в скорости сократится, но разница в философии останется.

Выбирайте не железо. Выбирайте workflow, который вам подходит. Скорость генерации — это всего лишь одна метрика. А работа с LLM — это десятки метрик, из которых скорость — не самая важная.

DGX SPARK vs Mac M3 Ultra: подробное сравнение железа для локальных LLM с контекстом 128K+