Проблема: ты хочешь запускать 70B модели дома, а кошелек плачет
Ты сидишь на r/LocalLLaMA, видишь, как все обсуждают Llama 3.1 70B, Qwen2.5 72B, или какую-нибудь свежую Mixtral 8x22B. Руки чешутся попробовать. Но 70B модель – это не игрушка. Ей нужно минимум 40 ГБ VRAM для работы в 4-битном квантовании (q4). А лучше – 48-64 ГБ, чтобы еще и контекст побольше засунуть.
И вот перед тобой два пути: купить моноблок Mac Studio с M2 Ultra (192 ГБ унифицированной памяти) или собрать ПК с двумя RTX 3090 (итого 48 ГБ VRAM). Ценник в обоих случаях заставляет задуматься. Но что на самом деле выгоднее? Что быстрее? И главное – на чем меньше головной боли?
Забудь про теоретические терафлопсы. В мире локальных LLM важны только три метрики: токенов в секунду (t/s) на генерации, стоимость владения (покупка + электричество) и уровень нервотрепки при настройке.
Решение: разбираем по костокам, что тебя ждет в каждом варианте
Давай сразу к делу. Сравнивать будем не на бумаге, а исходя из реального опыта запуска моделей в llama.cpp, oobabooga's text-generation-webui и прочих популярных оболочек.
1 Стоимость входа: первый шок
| Компонент | M2 Ultra (192GB) | 2x RTX 3090 + ПК |
|---|---|---|
| Базовая стоимость (новое) | ~ 550 000 - 600 000 руб. | ~ 450 000 - 500 000 руб. |
| Стоимость (б/у рынок) | ~ 500 000 руб. (редко) | ~ 350 000 - 400 000 руб. |
| Главный ресурс | 192 ГБ ОЗУ (унифицированная) | 48 ГБ VRAM + ~64 ГБ ОЗУ |
Первое, что бросается в глаза – Mac дороже. Даже на вторичном рынке. Но стоп. Это не вся история. В стоимость ПК ты должен включить все:
- Материнскую плату с двумя полноразмерными PCIe x16 слотами (идеально – с поддержкой PCIe 4.0 x16/x16). Такие стоят от 30к.
- Мощный блок питания (1200W минимум) от проверенного бренда. Еще 25-30к.
- Процессор, который не будет бутылочным горлышком для двух карт. Ryzen 9 7950X или Intel i7 14700K. Плюс 50-60к.
- Качественную систему охлаждения для двух горячих 3090 в одном корпусе. Это либо огромный корпус, либо кастомные водянки. Прибавь 15-20к.
Внезапно разница в 50-100 тысяч рублей уже не кажется такой огромной, правда? Особенно если учесть, что Mac – это готовое, тихое и компактное решение «из коробки».
2 Производительность: где цифры, а где маркетинг
Вот здесь начинается самое интересное. Все говорят про «ускорение Neural Engine». Но как это выглядит на практике с 70B моделью в llama.cpp?
M2 Ultra (192GB):
- Скорость генерации (inference): Ожидай 8-14 токенов/сек на Q4_K_M квантовании. Все 70 миллиардов параметров загружаются в оперативку и считаются на GPU-ядрах и Neural Engine. Плавно, стабильно.
- Контекстное окно: Это король контекста. 192 ГБ позволяют загрузить модель с запасом и выставить контекст (ctx) в 16K, 32K или даже больше. Не нужно ничего делить, ничего переносить между памятью.
- Пропускная способность памяти: 800 ГБ/с – это монстр. Для LLM, которые постоянно читают веса из памяти, это главнее, чем чистая вычислительная мощность.
2x RTX 3090 (48GB VRAM):
- Скорость генерации: Здесь может быть быстрее. В идеальном мире, с грамотной настройкой tensor parallelism в llama.cpp – 15-22 токенов/сек. Но это «идеальный мир».
- Главная проблема – слои: 70B модель нужно разрезать (split) между двумя картами. Примерно 35-40 слоев на каждую. Обмен данными между картами идет через PCIe. Если у тебя не топовая материнка с PCIe 4.0 x16/x16, а, например, x16/x8, производительность просядет. NVLink для двух RTX 3090 помогает, но не волшебным образом и стоит дополнительных денег.
- Контекстное окно: Ограничено VRAM. 48 ГБ – это примерно модель Q4 + контекст 4-8K. Для большего контекста часть данных будет уходить в системную оперативку (RAM), и скорость упадет в разы.
Предупреждение: рекламные ролики Apple показывают нереальные цифры. Их замеры часто проводятся на оптимизированных под Metal фреймворках и с идеальными параметрами. В реальности, с llama.cpp и стандартными настройками, будь готов к цифрам ближе к нижней границе диапазона.
Пошаговый план выбора: не дай рекламе себя обмануть
3 Шаг 1. Определи свой основной сценарий
Ответь честно:
- Ты будешь в основном генерировать текст (чат, творчество, анализ)? Тебе важны стабильные 10-15 t/s без сбоев.
- Или ты экспериментируешь с RAG, гигантскими контекстами, тонкой настройкой (fine-tuning)? Тогда объем памяти решает все.
Для первого случая можно присмотреться к PC. Для второго – M2 Ultra почти не имеет альтернатив в этом ценовом сегменте. Хочешь запускать что-то больше 70B? Загляни в наш разбор про GPT-OSS-120b на двух 3090, чтобы понять масштаб проблемы.
4 Шаг 2. Посчитай полную стоимость владения на 3 года
Цена покупки – это только начало.
| Статья расхода | M2 Ultra | 2x RTX 3090 PC |
|---|---|---|
| Потребление под нагрузкой | ~ 150-200 Вт | ~ 700-850 Вт |
| Расход на электричество (24/7, 5 руб/кВт*ч) | ~ 18 000 руб./год | ~ 75 000 руб./год |
| Шум и нагрев | Практически бесшумный | Как реактивный двигатель. Нужна отдельная комната. |
| Апгрейд | Нулевой. Продал и купил новый Mac. | Можно менять карты по одной. Но материнка и БП могут устареть. |
За три года разница в оплате электричества может составить 150-170 тысяч рублей. Внезапно «дешевый» ПК становится не таким уж и дешевым.
5 Шаг 3. Оцени свой уровень мазохизма (настройка)
На Mac: Скачал llama.cpp, собрал его с флагом LLAMA_METAL=1, скачал GGUF-файл модели, запустил. В 80% случаев все просто работает. Поддержка Metal в сообществе отличная.
На ПК с двумя 3090:
- Убедись, что драйвера CUDA установлены.
- Собери llama.cpp с поддержкой CUDA и CUBLAS.
- Настрой правильные флаги для запуска на двух GPU: --tensor-split 24,24 (или другие значения, чтобы поделить слои).
- Столкнись с ошибкой «out of memory», потому что неправильно оценил распределение слоев под контекст.
- Потрать день на форумах, подбирая магические комбинации флагов --main-gpu, --split-mode.
- Если карты от разных производителей (например, Asus и MSI), приготовься к дополнительным танцам.
Готов к этому? Если да, то PC даст тебе больше контроля и, потенциально, больше скорости. Если нет – Mac сбережет нервы. Хочешь готовые рецепты? Мы писали подробный гайд по запуску на двух картах.
Нюансы и ошибки, о которых молчат обзоры
Ошибка №1: Гнаться за максимальными t/s любой ценой. Разница между 12 и 18 токенами в секунду на длинных диалогах не так критична, как кажется. Гораздо важнее стабильность и отсутствие сбоев через 2 часа работы.
Ошибка №2: Не учитывать будущее. Модели растут. Через год 70B может стать стандартом для настольных систем, а все будут говорить о 120B. M2 Ultra с его 192 ГБ дает запас на будущее. Две 3090 – это потолок. Дальше только добавлять третью карту (и новый БП, и новую материнку). Об этом мы рассуждали в статье про рост цен на GPU.
Нюанс для PC: Не все модели и не все фреймворки одинаково хорошо работают с multi-GPU. ExLlamaV2? Отлично. AutoGPTQ? Могут быть проблемы. Всегда проверяй поддержку перед тем, как влюбиться в конкретную модель.
Нюанс для Mac: Поддержка новых архитектур (например, MoE-моделей, как Mixtral) в llama.cpp под Metal иногда появляется с задержкой в несколько недель после релиза под CUDA.
Итог: кому что?
Бери M2 Ultra, если:
- Ты ценишь тишину и «просто работает».
- Тебе нужен гарантированный огромный контекст.
- Ты не хочешь думать об электричестве и жаре в комнате.
- Твой бюджет позволяет заплатить больше сейчас, чтобы меньше платить потом.
- Ты работаешь в macOS-экосистеме.
Собирай ПК с 2x RTX 3090, если:
- Твой бюджет жестко ограничен, и ты готов охотиться за б/у картами.
- Ты фанат максимальной кастомной производительности и готов часами копаться в настройках.
- Ты планируешь использовать систему не только для LLM, но и для других GPU-задач (рендер, игры).
- Ты веришь, что сможешь потом выгодно продать карты по отдельности.
- Твоя основная ОС – Linux, и ты планируешь использовать экзотические фреймворки.
Лично мой выбор? Если деньги есть – M2 Ultra. Это инвестиция в спокойствие. Если денег в обрез и руки чешутся что-то паять и настраивать – две 3090 дадут тебе больше raw power за меньшие первоначальные вложения. Но приготовься к тому, что эта мощность будет сопровождаться гулом вентиляторов и счетами за свет.
А самый умный ход, возможно, – подождать. И посмотреть, что Apple покажет с M3/M4 Ultra, а NVIDIA – с RTX 5090. Потому что гонка железа для локального AI только начинается.