Почему Mac — это не просто красивая игрушка для локальных LLM
Слышу это постоянно: «Зачем платить за Mac, когда можно собрать PC с RTX?» Скажу прямо — если ваша цель гонять Stable Diffusion или fine-tune 70B модели ежедневно, да, PC с видеокартой будет быстрее. Но если вы хотите запускать LLM и одновременно работать, не слыша шума вентиляторов, не грея комнату как печка и не занимаясь танцами с CUDA-драйверами — Apple Silicon это другой мир.
Unified Memory — главное преимущество Apple Silicon для LLM. Это не просто «быстрая RAM». Это единое адресное пространство для CPU, GPU и Neural Engine. Модель загружается один раз — и все компоненты работают с ней без копирования данных туда-сюда.
M1, M2, M3, M4: какой чип реально нужен
Разница между поколениями не линейная. Это не «каждый год +20% скорости». Архитектурные изменения меняют правила игры.
| Чип | Neural Engine | Пропускная способность памяти | Что это значит для LLM |
|---|---|---|---|
| M1/M2 | 16 ядер | 100-200 ГБ/с | Хорошо для 7B моделей, 13B уже на пределе |
| M3 | 16-18 ядер | 300-400 ГБ/с | Комфортная работа с 13B, можно пробовать 34B в Q4 |
| M3 Pro/Max | 18-40 ядер | 300-800 ГБ/с | Серьёзные 34B модели, несколько инстансов 7B |
| M3 Ultra | 64 ядер | 800 ГБ/с | 70B в Q4, production-нагрузки |
| M4 | 16-38 ядер | 120-230 ГБ/с | Эффективность, а не максимальная скорость |
Вот что большинство упускает: Neural Engine в M3/M4 работает с INT8 и INT4 квантованными моделями в 2-3 раза эффективнее, чем в M1. Если вы используете Q4_K_M (а вы должны использовать именно его для баланса качества/скорости), разница между M2 и M3 достигает 40%.
RAM: сколько реально нужно
Здесь больше всего мифов. «Бери 128GB, чтобы наверняка» — совет, который стоит вам лишних 1000 долларов. Давайте по цифрам.
Размер модели в памяти рассчитывается просто: параметры × битность квантования ÷ 8. Но это только вес модели. Добавьте контекст.
- 7B Q4_K_M: ~4.5 GB + 4K контекст: ~5 GB
- 13B Q4_K_M: ~8 GB + 8K контекст: ~10 GB
- 34B Q4_K_M: ~20 GB + 16K контекст: ~25 GB
- 70B Q4_K_M: ~40 GB + 32K контекст: ~50 GB
Теперь добавьте операционную систему, браузер с 20 вкладками, IDE, Docker. Видите математику?
Критическая ошибка: брать ровно столько RAM, сколько нужно для модели. Система должна дышать. Если модель занимает 90% памяти — своп убьёт производительность. Оставляйте минимум 8-16 GB свободными.
1 Определите свою основную модель
Не «хочу запускать всё». Выберите 1-2 модели, с которыми будете работать 80% времени. Если это 7B — 24GB RAM хватит с запасом. Если 34B — смотрите на 64GB.
2 Планируйте контекст
128K контекст — это не только круто звучит. Это +20-30% к потреблению памяти. Если работаете с большими документами в локальном RAG, считайте память под максимальный планируемый контекст.
3 Учитывайте параллельную работу
Запускаете LLM + векторную базу + веб-сервер? Каждый процесс ест память. Для production-подобных сценариев добавляйте 20-30% к расчётам.
Mac mini vs Mac Studio: где проходит граница
Ценник Mac Studio пугает. Но иногда он дешевле.
Возьмём конфигурацию для 34B модели:
- Mac mini M2 Pro: 32GB RAM, 12-core CPU, 19-core GPU — $2100
- Mac Studio M2 Max: 64GB RAM, 12-core CPU, 30-core GPU — $2400
Разница $300. За эти $300 вы получаете:
- Вдвое больше RAM (критично для 34B с контекстом)
- Больше ядер GPU (ускорение инференса на 40-60%)
- Лучшее охлаждение (максимальная производительность дольше)
- Больше портов (полезно для внешних дисков с моделями)
Mac mini имеет смысл только в двух случаях:
- Бюджет строго ограничен $1500-2000
- Вы работаете исключительно с 7B моделями и не планируете апгрейд
В статье «Mac Studio M3 Ultra для локальных LLM» я тестировал GLM-4.7 Q4 на 64GB и 128GB версиях. Разница в скорости генерации — 15-20%. Но разница в комфорте работы с несколькими тяжёлыми приложениями — колоссальная.
Пропускная способность памяти: тихий убийца производительности
Все смотрят на объём RAM. Никто не смотрит на bandwidth. А зря.
Unified Memory быстрая. Но не вся одинаковая. M1 Pro: 200 ГБ/с. M3 Max: 400 ГБ/с. M3 Ultra: 800 ГБ/с. Что это значит на практике?
При генерации токенов модель постоянно читает веса из памяти. Высокая пропускная способность = больше токенов в секунду при той же модели. Особенно заметно на больших контекстах.
Реальные цифры: что ожидать от разных конфигураций
Я собрал данные из тестов, форумов и собственных замеров. Используем Llama 3.1 8B Q4_K_M, контекст 4096 токенов.
| Система | Токенов/сек (prompt) | Токенов/сек (генерация) | Макс. модель (Q4) |
|---|---|---|---|
| Mac mini M2 16GB | 45-55 | 18-22 | 13B |
| MacBook Pro M3 Pro 36GB | 65-75 | 25-30 | 34B |
| Mac Studio M2 Max 64GB | 85-100 | 35-45 | 70B |
| Mac Studio M3 Ultra 128GB | 120-140 | 50-65 | 70B + 13B параллельно |
Эти цифры — для чистого инференса. В реальном RAG-пайплайне с загрузкой документов и поиском по векторной базе скорость упадёт на 20-30%.
SSD: недооценённый компонент
Модели весят гигабайты. Llama 3.1 70B в Q4 — 40GB. Если у вас базовый SSD на 512GB, после системы и приложений останется ~200GB. Это 4-5 больших моделей.
Но размер — не главное. Скорость чтения определяет, как быстро модель загрузится в память при старте. M3/M4 используют SSD как расширение RAM через своп. Медленный SSD = тормоза при переключении между приложениями.
Минимум для работы с LLM: 1TB SSD. Идеально: 2TB+. Не экономьте здесь. Перенос моделей на внешний диск — это постоянные 2-5 минут ожидания при переключении.
Сравнение с PC: когда Mac проигрывает
Будем честны. Есть сценарии, где Mac — не лучший выбор.
Fine-tuning больших моделей. На Mac можно дообучать 7B модели. 13B — уже сложно. 70B — забудьте. CUDA + библиотеки типа Unsloth на PC дают на порядок большую скорость.
Если ваша работа — эксперименты с архитектурами, постоянный fine-tuning, обучение с нуля — смотрите в сторону систем с RTX 4090 или профессиональных карт. В статье «GB10 vs RTX vs Mac Studio» я подробно разбирал этот выбор.
Практический выбор: 5 сценариев
1 Студент/энтузиаст, бюджет до $2000
Mac mini M2 16GB. Хватит для 7B моделей, экспериментов, обучения. Если найдёте M2 Pro 32GB на распродаже — берите не думая.
2 Разработчик, работающий с 13B-34B моделями
Mac Studio M2 Max 64GB или MacBook Pro M3 Max 48GB. Первый — для стационарной работы, второй — если нужна мобильность. Разница в цене оправдана производительностью.
3 Research & Development, тестирование разных моделей
Mac Studio M3 Ultra 128GB. Быстрая загрузка моделей, возможность держать в памяти несколько инстансов, стабильная работа с 70B.
4 Производство, инференс одной оптимизированной модели
Серьёзно рассмотрите PC с RTX 4090. Скорость генерации будет в 2-3 раза выше. Mac выигрывает в энергоэффективности и тишине, но не в чистой скорости.
5 Гибридная работа: код + дизайн + LLM
MacBook Pro M3 Max 64GB или больше. Универсальное решение. Держите модель в фоне, работайте в IDE, Figma, браузере. Unified Memory распределит ресурсы оптимально.
Оптимизация: как выжать максимум из любого Mac
Купили железо? Теперь настройте софт.
- Используйте llama.cpp с поддержкой Metal. Не LM Studio, не Ollama в базовой конфигурации. llama.cpp даёт лучшую производительность на Apple Silicon.
- Включайте Metal Performance Shaders. В llama.cpp флаг --ngl 100 отправляет все слои на GPU. Экспериментируйте: иногда 80-90 даёт лучший баланс с CPU.
- Используйте квантование Q4_K_M. Q8 даёт 1-2% качества дорогой ценой в скорости. Q2 — слишком большая потеря качества.
- Настройте размер контекста под задачу. Не выставляйте 128K «на всякий случай». Каждый лишний токен в контексте замедляет генерацию.
- Закрывайте лишние приложения. Chrome с 20 вкладками съедает 4-8GB RAM. Это половина 7B модели.
Будущее: что ждать от M4 и дальше
M4 — эволюция, а не революция. Улучшенная энергоэффективность, лучшее кодирование видео. Для LLM — прирост 10-15% против M3.
Настоящий прорыв будет в M5 или M6, когда Apple интегрирует в чип специализированные блоки для матричных умножений (как TPU у Google). Пока что Neural Engine оптимизирован для задач компьютерного зрения, а не LLM.
Слухи говорят о увеличенной пропускной способности памяти (до 1.2 ТБ/с) и поддержке более эффективных форматов квантования на уровне железа. Когда это случится — разрыв с PC GPU сократится ещё сильнее.
А пока — выбирайте исходя из сегодняшних задач. Не гонитесь за максимальными характеристиками «на будущее». К тому времени, когда вам понадобится M5 Ultra, сегодняшний M3 Max уже обесценится.
Последний совет: если сомневаетесь между двумя конфигурациями — берите больше RAM. Процессор можно «разогнать» оптимизацией, память — нет. 64GB сегодня кажутся избыточными. Через год, когда стандартом станут 34B модели с 32K контекстом — будут в самый раз.