Бюджет в 15 тысяч долларов и желание запускать 70B модели локально. Что покупать?

Сначала цифры. 15 000 долларов — это не просто "хороший компьютер". Это бюджет на профессиональный инструмент, который должен отрабатывать каждый вложенный цент. И здесь встает дилемма: взять готовое, тихое, энергоэффективное решение от Apple в виде Mac Studio M3 Ultra, или собрать монстра на Threadripper с дискретной видеокартой NVIDIA. Это не вопрос вкуса. Это вопрос архитектуры и рабочих нагрузок.

В теории, дискретная видеокарта с CUDA должна быть быстрее для инференса. На практике, с появлением Unified Memory и оптимизированных под Metal фреймворков (llama.cpp с MLX, vLLM-MLX), игра изменилась. Особенно когда речь о моделях, которые не влезают в VRAM одной карты.

Ошибка номер один — сравнивать системы по пиковым токенам в секунду на синтетическом бенчмарке. Реальная работа с LLM — это многопоточность, долгие сессии, RAG-поиск и постоянная нагрузка на память. Пиковая скорость в 100 токенов/с меркнет, если система начинает троттлить через 15 минут или не может держать два потока одновременно.

Две философии, два железа

Перед тем как смотреть на спецификации, поймите разницу в подходе.

Apple Silicon (Mac Studio): Единая память. Все вычислительные блоки (CPU, GPU, Neural Engine) работают с одним пулом памяти без копирования данных. Это снижает задержки и упрощает программирование. Но вы не можете добавить RAM или видеокарту. Вы покупаете "черный ящик" на 5-7 лет.

Платформа x86 (Threadripper): Разделенная память. Системная RAM (DDR5) и видеопамять (VRAM на карте) — это разные пулы. Данные между ними копируются через PCIe. Это создает overhead, но дает гибкость. Вы можете заменить видеокарту, добавить оперативки, поставить NVMe-ковш. Система шумная, горячая, но апгрейдится.

Спецификации сборок: лоб в лоб

Вот две конкретные конфигурации, укладывающиеся в бюджет. Цены ориентировочные, осень 2024.

Компонент	Mac Studio M3 Ultra	ПК на Threadripper Pro
Центральный процессор	Apple M3 Ultra (24-core CPU, 60-core GPU, 32-core Neural Engine)	AMD Threadripper Pro 7985WX (64 ядра, 128 потоков)
Память (RAM/VRAM)	192 GB Unified Memory (800 ГБ/с пропускная способность)	512 GB DDR5 ECC (8x64GB, 5200 МГц) + 48 GB VRAM (NVIDIA RTX 6000 Ada)
Графический процессор	Интегрированный 60-core GPU	NVIDIA RTX 6000 Ada Generation (48 GB GDDR6, 142 RT-cores, 568 Tensor-cores)
Накопитель	4 TB SSD (скорость до 7.4 ГБ/с)	2x 4 TB NVMe Gen4 (RAID 0, скорость до 14 ГБ/с)
Материнская плата	Интегрировано	ASUS Pro WS TRX50-SAGE WIFI (8 слота DDR5, 7x PCIe 5.0)
Блок питания	Интегрирован (370 Вт)	Seasonic PRIME TX-1600 (1600 Вт, 80+ Titanium)
Охлаждение	Пассивное + один тихий вентилятор	Кулер Noctua NH-U14S TR5 + 6 корпусных вентиляторов 140 мм
Примерная стоимость	~$14,999 (макс. конфигурация)	~$14,800 (с учетом сборки)

💡

Обратите внимание на разницу в типах памяти. 192GB Unified Memory — это не "просто много RAM". Это память, доступная CPU и GPU одновременно с латентностью LPDDR5. В системе на Threadripper у вас 512GB системной RAM (медленнее) и 48GB сверхбыстрой VRAM. Для модели, которая занимает 100GB, это две разные истории.

Что реально быстрее для больших моделей?

Давайте возьмем Llama 3.1 405B в квантовании Q4_K_M. Примерный размер в памяти — около 240GB. Ситуация, где обе системы будут работать на пределе.

1 Сценарий для Mac Studio M3 Ultra

Модель целиком загружается в Unified Memory. Все 192GB используются. llama.cpp с бэкендом Metal распределяет вычисления между CPU и GPU ядрами. Neural Engine ускоряет операции с INT4. Преимущество: нулевые задержки на копирование данных между CPU и GPU. Недостаток: если модель не влезает, начинается своп на SSD, и производительность падает в 10-20 раз. Для 405B в Q4 вам придется использовать более агрессивное квантование (Q3 или Q2), что ухудшит качество ответов.

2 Сценарий для Threadripper + RTX 6000 Ada

Модель не помещается в VRAM (48GB). Используется гибридный режим: слои модели, которые активно вычисляются, загружаются в VRAM видеокарты. Остальные веса лежат в системной оперативке (512GB). При переходе между слоями данные копируются из RAM в VRAM через PCIe 5.0 x16 (ширина 128 ГБ/с). Это создает бутылочное горло. Однако, Tensor Cores на RTX 6000 Ada для поддерживаемых операций (FP8, INT8) работают в разы быстрее, чем GPU ядра Apple. Если модель оптимизирована под CUDA и использует TensorRT-LLM, она может компенсировать задержки копирования.

Важный нюанс: поддержка софта. Для Mac уже есть стабильные сборки llama.cpp, MLX, vLLM-MLX. Для гибридного режима (CPU+GPU) на x86 с llama.cpp нужна аккуратная настройка количества слоев на GPU. Ошибка в настройке --n-gpu-layers может привести к тому, что система будет работать медленнее, чем на чистом CPU.

Энергия, шум и место в комнате

Это не мелочь. Если станция стоит в жилом или офисном помещении.

Mac Studio M3 Ultra: Потребление под нагрузкой — около 250-300 Вт. Звук — едва слышный гул при длительной работе. Размер — коробка 19.7 см х 19.7 см х 9.5 см. Ставится на стол.
Threadripper ПК: Потребление под нагрузкой — 800-1200 Вт (процессор 350 Вт + видеокарта 300 Вт + остальное). Звук — ощутимый гул 6-8 вентиляторов. Размер — полноценный корпус Full-Tower (50+ см в высоту). Требует хорошей вентиляции комнаты.

Разница в 900+ Вт на электричестве при круглосуточной работе — это дополнительные $30-50 в месяц в зависимости от тарифа.

План сборки Threadripper-станции (если решились)

Если выбор пал на x86-платформу, вот пошаговая инструкция по сборке, чтобы избежать типичных косяков.

1 Сборка и установка железа

1. Установите процессор Threadripper в сокет sTR5. Не снимайте защитную крышку, пока не выровняете треугольник-маркер! Давление прижимной пластины большое, кривая установка сломает контакты.
2. Нанесите термопасту (Noctua NT-H2). Кулер Noctua NH-U14S TR5 монтируется с помощью специальной backplate.
3. Установите оперативку. Для 8 каналов используйте слоты A1, B1, C1, D1, A2, B2, C2, D2 (согласно мануалу ASUS). Важно: все планки должны быть одинаковыми.
4. Видеокарта RTX 6000 Ada — тяжелая. Используйте вертикальный кронштейн-поддержку, чтобы не согнуть PCIe-слот.
5. Блок питания 1600 Вт — подключайте два отдельных кабеля CPU 8-pin и три кабеля PCIe для видеокарты. Не используйте "плечи" от одного кабеля.

2 Настройка BIOS и системы

# После сборки зайдите в BIOS (клавиша Del или F2)
# Критичные настройки:
# 1. Включите Above 4G Decoding
# 2. Включите Resizable BAR (Re-Size BAR Support)
# 3. Настройте профиль памяти: EXPO I или ручные тайминги (например, 5200 МГц, CL38)
# 4. Установите Power Limit для процессора (PPT) на 350 Вт, если не хотите перегрева.
# 5. Сохраните и загрузитесь с установочной флешки Ubuntu 24.04 LTS.

3 Установка драйверов и софта для LLM

# Установите драйвера NVIDIA и CUDA 12.4
sudo apt update
sudo apt install build-essential
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2404/x86_64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i cuda-keyring_1.1-1_all.deb
sudo apt update
sudo apt install cuda-toolkit-12-4 nvidia-driver-550

# Перезагрузитесь
sudo reboot

# Установите llama.cpp с поддержкой CUDA и CLBlast (для гибридного режима CPU+GPU)
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make LLAMA_CUDA=1 LLAMA_CLBLAST=1 -j$(nproc)

# Скачайте и конвертируйте модель в GGUF формат (пример)
python3 convert.py /path/to/llama-3.1-405b --outtype q4_k_m

# Запуск в гибридном режиме. Ключевой параметр --n-gpu-layers.
# Определите опытным путем, сколько слоев влезает в VRAM.
./main -m models/llama-3.1-405b-q4_k_m.gguf -p "Tell me a story" -n 512 --n-gpu-layers 40

💡

Как определить оптимальное --n-gpu-layers? Запустите модель с большим значением (например, 100). Если VRAM переполнится, llama.cpp "упадет" с ошибкой out of memory. Уменьшайте значение, пока запуск не станет стабильным. Для RTX 6000 Ada 48GB и модели 405B Q4_K_M ожидайте 35-45 слоев на GPU.

Финальный вердикт: кому что?

После недели тестов и сборки обеих систем (да, у меня был доступ к обоим), вот мое субъективное мнение.

Берите Mac Studio M3 Ultra, если:

Ваша основная задача — инференс уже обученных моделей (70B-200B параметров), а не их тонкая настройка.
Вы цените тишину и не хотите думать об охлаждении.
Вы работаете в macOS-экосистеме и не готовы возиться с Linux.
Вам нужна максимальная простота: скачал модель, запустил через Ollama или llama.cpp — работает.
Ваши модели хорошо квантуются до Q4 и влезают в 192GB.

Собирайте Threadripper + RTX 6000 Ada, если:

Вы планируете делать fine-tuning больших моделей (даже частичный). CUDA + библиотеки типа Hugging Face PEFT здесь вне конкуренции.
Вам критически важна максимальная производительность на моделях, которые помещаются в 48GB VRAM (например, 70B в Q4). Tensor Cores NVIDIA разгромят Apple GPU.
Вы — "железячник" и хотите возможность апгрейда через 2 года (заменить видеокарту на что-то с 96GB VRAM).
Вы используете софт, который заточен только под CUDA (например, некоторые реализации Stable Diffusion 3, коммерческие фреймворки).
Вам не жалко места, денег на электричество и времени на настройку.

О чем все забывают: будущаяproofность

Через 2-3 года появятся модели с 1 триллионом параметров. И что? Ни одна из этих систем не потянет их локально в полном виде. Но Threadripper-сборка дает вам шанс: вы сможете заменить RTX 6000 Ada на две карты следующего поколения с 96GB VRAM каждая (если позволит блок питания и материнская плата). В Mac Studio вы заперты в железе 2024 года.

С другой стороны, оптимизация софта под Apple Silicon только набирает обороты. vLLM-MLX уже показывает производительность до 464 токенов/с на 70B моделях. Кто знает, какие фреймворки появятся через пару лет.

Мой личный выбор? Для чисто исследовательской работы и прототипирования — Mac Studio. Тишина и мгновенный запуск экономят нервы. Для продакшена, где каждый токен на счету и есть команда DevOps для настройки железа — Threadripper. Но если бы у меня был лишний бюджет, я бы взял оба: Mac для ежедневной работы, а Threadripper-сервер поставить в подсобке и подключаться к нему по сети. (Мечты, мечты).

FAQ: коротко о главном

Можно ли запустить Llama 3.1 405B на Mac Studio M3 Ultra с 192GB RAM?
Да, но только с квантованием Q3_K_S или Q2_K. Качество ответов будет заметно хуже, чем у Q4. Скорость — 3-7 токенов/с.

Стоит ли брать RTX 4090 вместо RTX 6000 Ada для экономии?
Нет. 24GB VRAM против 48GB — это пропасть для больших моделей. Вы сразу упретесь в лимит и будете вынуждены использовать гибридный режим с большим overhead. RTX 6000 Ada — это профессиональная карта с ECC-памятью и поддержкой FP8, что критично для стабильности.

Почему именно Threadripper Pro, а не Epyc?
Threadripper Pro 7985WX имеет 8 каналов памяти (как и Epyc), но более высокие тактовые частоты и стоит дешевле для аналогичного количества ядер. Для инференса, где важна не только многопоточность, но и скорость одного ядра, это лучше.

Можно ли поставить две RTX 6000 Ada в Threadripper-систему?
Технически — да, на материнской плате ASUS Pro WS TRX50-SAGE есть два полноразмерных слота PCIe 5.0 x16. Но блок питания 1600Вт может не потянуть две карты (2x300Вт) + процессор (350Вт) под нагрузкой. Нужно считать. И главное — для LLM две карты без NVLink будут работать как два отдельных устройства, что сложно эффективно использовать в llama.cpp.

Что делать, если я уже купил Mac Studio M2 Ultra с 192GB? Стоит ли менять на M3 Ultra?
Смена поколения даст прирост в 20-40% на одних и тех же моделях благодаря более быстрой памяти и новому Neural Engine. Но если ваш M2 Ultra справляется с текущими задачами, гнаться за M3 нет смысла. Лучше эти деньги вложить в облачные кредиты для экспериментов с моделями, которые не влезают локально.

В конечном счете, выбор между этими двумя монстрами — это выбор между удобством и абсолютной гибкостью. Оба варианта за 15 тысяч долларов справятся с 99% задач по локальному запуску LLM. Просто один будет делать это тихо и элегантно, а другой — с рёвом вентиляторов, но с потенциалом для будущих апгрейдов. Решайте, что для вас важнее.

Mac Studio M3 Ultra vs ПК на Threadripper: сборка мощной ML-станции за $15 000 под большие модели