Проблема: ты хочешь запускать 70B модели дома, а кошелек плачет

Ты сидишь на r/LocalLLaMA, видишь, как все обсуждают Llama 3.1 70B, Qwen2.5 72B, или какую-нибудь свежую Mixtral 8x22B. Руки чешутся попробовать. Но 70B модель – это не игрушка. Ей нужно минимум 40 ГБ VRAM для работы в 4-битном квантовании (q4). А лучше – 48-64 ГБ, чтобы еще и контекст побольше засунуть.

И вот перед тобой два пути: купить моноблок Mac Studio с M2 Ultra (192 ГБ унифицированной памяти) или собрать ПК с двумя RTX 3090 (итого 48 ГБ VRAM). Ценник в обоих случаях заставляет задуматься. Но что на самом деле выгоднее? Что быстрее? И главное – на чем меньше головной боли?

Забудь про теоретические терафлопсы. В мире локальных LLM важны только три метрики: токенов в секунду (t/s) на генерации, стоимость владения (покупка + электричество) и уровень нервотрепки при настройке.

Решение: разбираем по костокам, что тебя ждет в каждом варианте

Давай сразу к делу. Сравнивать будем не на бумаге, а исходя из реального опыта запуска моделей в llama.cpp, oobabooga's text-generation-webui и прочих популярных оболочек.

1 Стоимость входа: первый шок

Компонент	M2 Ultra (192GB)	2x RTX 3090 + ПК
Базовая стоимость (новое)	~ 550 000 - 600 000 руб.	~ 450 000 - 500 000 руб.
Стоимость (б/у рынок)	~ 500 000 руб. (редко)	~ 350 000 - 400 000 руб.
Главный ресурс	192 ГБ ОЗУ (унифицированная)	48 ГБ VRAM + ~64 ГБ ОЗУ

Первое, что бросается в глаза – Mac дороже. Даже на вторичном рынке. Но стоп. Это не вся история. В стоимость ПК ты должен включить все:

Материнскую плату с двумя полноразмерными PCIe x16 слотами (идеально – с поддержкой PCIe 4.0 x16/x16). Такие стоят от 30к.
Мощный блок питания (1200W минимум) от проверенного бренда. Еще 25-30к.
Процессор, который не будет бутылочным горлышком для двух карт. Ryzen 9 7950X или Intel i7 14700K. Плюс 50-60к.
Качественную систему охлаждения для двух горячих 3090 в одном корпусе. Это либо огромный корпус, либо кастомные водянки. Прибавь 15-20к.

Внезапно разница в 50-100 тысяч рублей уже не кажется такой огромной, правда? Особенно если учесть, что Mac – это готовое, тихое и компактное решение «из коробки».

💡

На вторичном рынке две б/у RTX 3090 можно найти за 140-160 тыс. рублей за пару. Это главный козырь PC-сборки. Но риски тоже есть: карты могли гонять на майнинге, и гарантии – ноль.

2 Производительность: где цифры, а где маркетинг

Вот здесь начинается самое интересное. Все говорят про «ускорение Neural Engine». Но как это выглядит на практике с 70B моделью в llama.cpp?

M2 Ultra (192GB):

Скорость генерации (inference): Ожидай 8-14 токенов/сек на Q4_K_M квантовании. Все 70 миллиардов параметров загружаются в оперативку и считаются на GPU-ядрах и Neural Engine. Плавно, стабильно.
Контекстное окно: Это король контекста. 192 ГБ позволяют загрузить модель с запасом и выставить контекст (ctx) в 16K, 32K или даже больше. Не нужно ничего делить, ничего переносить между памятью.
Пропускная способность памяти: 800 ГБ/с – это монстр. Для LLM, которые постоянно читают веса из памяти, это главнее, чем чистая вычислительная мощность.

2x RTX 3090 (48GB VRAM):

Скорость генерации: Здесь может быть быстрее. В идеальном мире, с грамотной настройкой tensor parallelism в llama.cpp – 15-22 токенов/сек. Но это «идеальный мир».
Главная проблема – слои: 70B модель нужно разрезать (split) между двумя картами. Примерно 35-40 слоев на каждую. Обмен данными между картами идет через PCIe. Если у тебя не топовая материнка с PCIe 4.0 x16/x16, а, например, x16/x8, производительность просядет. NVLink для двух RTX 3090 помогает, но не волшебным образом и стоит дополнительных денег.
Контекстное окно: Ограничено VRAM. 48 ГБ – это примерно модель Q4 + контекст 4-8K. Для большего контекста часть данных будет уходить в системную оперативку (RAM), и скорость упадет в разы.

Предупреждение: рекламные ролики Apple показывают нереальные цифры. Их замеры часто проводятся на оптимизированных под Metal фреймворках и с идеальными параметрами. В реальности, с llama.cpp и стандартными настройками, будь готов к цифрам ближе к нижней границе диапазона.

Пошаговый план выбора: не дай рекламе себя обмануть

3 Шаг 1. Определи свой основной сценарий

Ответь честно:

Ты будешь в основном генерировать текст (чат, творчество, анализ)? Тебе важны стабильные 10-15 t/s без сбоев.
Или ты экспериментируешь с RAG, гигантскими контекстами, тонкой настройкой (fine-tuning)? Тогда объем памяти решает все.

Для первого случая можно присмотреться к PC. Для второго – M2 Ultra почти не имеет альтернатив в этом ценовом сегменте. Хочешь запускать что-то больше 70B? Загляни в наш разбор про GPT-OSS-120b на двух 3090, чтобы понять масштаб проблемы.

4 Шаг 2. Посчитай полную стоимость владения на 3 года

Цена покупки – это только начало.

Статья расхода	M2 Ultra	2x RTX 3090 PC
Потребление под нагрузкой	~ 150-200 Вт	~ 700-850 Вт
Расход на электричество (24/7, 5 руб/кВт*ч)	~ 18 000 руб./год	~ 75 000 руб./год
Шум и нагрев	Практически бесшумный	Как реактивный двигатель. Нужна отдельная комната.
Апгрейд	Нулевой. Продал и купил новый Mac.	Можно менять карты по одной. Но материнка и БП могут устареть.

За три года разница в оплате электричества может составить 150-170 тысяч рублей. Внезапно «дешевый» ПК становится не таким уж и дешевым.

5 Шаг 3. Оцени свой уровень мазохизма (настройка)

На Mac: Скачал llama.cpp, собрал его с флагом LLAMA_METAL=1, скачал GGUF-файл модели, запустил. В 80% случаев все просто работает. Поддержка Metal в сообществе отличная.

На ПК с двумя 3090:

Убедись, что драйвера CUDA установлены.
Собери llama.cpp с поддержкой CUDA и CUBLAS.
Настрой правильные флаги для запуска на двух GPU: --tensor-split 24,24 (или другие значения, чтобы поделить слои).
Столкнись с ошибкой «out of memory», потому что неправильно оценил распределение слоев под контекст.
Потрать день на форумах, подбирая магические комбинации флагов --main-gpu, --split-mode.
Если карты от разных производителей (например, Asus и MSI), приготовься к дополнительным танцам.

Готов к этому? Если да, то PC даст тебе больше контроля и, потенциально, больше скорости. Если нет – Mac сбережет нервы. Хочешь готовые рецепты? Мы писали подробный гайд по запуску на двух картах.

Нюансы и ошибки, о которых молчат обзоры

Ошибка №1: Гнаться за максимальными t/s любой ценой. Разница между 12 и 18 токенами в секунду на длинных диалогах не так критична, как кажется. Гораздо важнее стабильность и отсутствие сбоев через 2 часа работы.

Ошибка №2: Не учитывать будущее. Модели растут. Через год 70B может стать стандартом для настольных систем, а все будут говорить о 120B. M2 Ultra с его 192 ГБ дает запас на будущее. Две 3090 – это потолок. Дальше только добавлять третью карту (и новый БП, и новую материнку). Об этом мы рассуждали в статье про рост цен на GPU.

Нюанс для PC: Не все модели и не все фреймворки одинаково хорошо работают с multi-GPU. ExLlamaV2? Отлично. AutoGPTQ? Могут быть проблемы. Всегда проверяй поддержку перед тем, как влюбиться в конкретную модель.

Нюанс для Mac: Поддержка новых архитектур (например, MoE-моделей, как Mixtral) в llama.cpp под Metal иногда появляется с задержкой в несколько недель после релиза под CUDA.

💡

Проверь, какие именно модели ты планируешь запускать. Зайди на Hugging Face, посмотри, есть ли у выбранной модели GGUF-файлы (для Mac) или GPTQ/EXL2 файлы, оптимизированные для многокарточных систем (для PC).

Итог: кому что?

Бери M2 Ultra, если:

Ты ценишь тишину и «просто работает».
Тебе нужен гарантированный огромный контекст.
Ты не хочешь думать об электричестве и жаре в комнате.
Твой бюджет позволяет заплатить больше сейчас, чтобы меньше платить потом.
Ты работаешь в macOS-экосистеме.

Собирай ПК с 2x RTX 3090, если:

Твой бюджет жестко ограничен, и ты готов охотиться за б/у картами.
Ты фанат максимальной кастомной производительности и готов часами копаться в настройках.
Ты планируешь использовать систему не только для LLM, но и для других GPU-задач (рендер, игры).
Ты веришь, что сможешь потом выгодно продать карты по отдельности.
Твоя основная ОС – Linux, и ты планируешь использовать экзотические фреймворки.

Лично мой выбор? Если деньги есть – M2 Ultra. Это инвестиция в спокойствие. Если денег в обрез и руки чешутся что-то паять и настраивать – две 3090 дадут тебе больше raw power за меньшие первоначальные вложения. Но приготовься к тому, что эта мощность будет сопровождаться гулом вентиляторов и счетами за свет.

А самый умный ход, возможно, – подождать. И посмотреть, что Apple покажет с M3/M4 Ultra, а NVIDIA – с RTX 5090. Потому что гонка железа для локального AI только начинается.

M2 Ultra vs 2x RTX 3090: какую бомбу купить для локального запуска 70B моделей