Сколько оперативной памяти нужно для запуска 7B модели на Mac?

Для 7B модели в Q4_K_M квантовании нужно около 4.5 GB плюс память под контекст. С учётом операционной системы и других приложений, минимально комфортный объём — 16 GB, оптимальный — 24-32 GB.

Mac mini или Mac Studio — что лучше для локальных LLM?

Mac Studio имеет смысл при работе с моделями от 13B и выше, либо при необходимости запускать несколько моделей одновременно. Для 7B моделей и ограниченного бюджета Mac mini достаточно. Разница в $300 часто даёт вдвое больше RAM и лучшее охлаждение.

Насколько M3 быстрее M2 для работы с LLM?

M3 обеспечивает на 20-40% более высокую производительность при работе с квантованными моделями благодаря улучшенному Neural Engine и большей пропускной способности памяти (300-400 ГБ/с против 100-200 ГБ/с у M2).

Можно ли запускать 70B модели на Mac?

Да, на Mac Studio M2/M3 Ultra с 128 GB памяти можно комфортно работать с 70B моделями в Q4 квантовании. Скорость генерации составит 25-40 токенов в секунду в зависимости от контекста.

Что важнее для скорости LLM: объём RAM или пропускная способность?

Объём RAM определяет, какие модели вообще можно запустить. Пропускная способность влияет на скорость генерации токенов. При недостатке RAM система не запустит модель, при низкой пропускной способности — будет работать медленно.

Выбор Mac для локальных LLM: Apple Silicon, RAM, производительность 2024

Почему Mac — это не просто красивая игрушка для локальных LLM

Слышу это постоянно: «Зачем платить за Mac, когда можно собрать PC с RTX?» Скажу прямо — если ваша цель гонять Stable Diffusion или fine-tune 70B модели ежедневно, да, PC с видеокартой будет быстрее. Но если вы хотите запускать LLM и одновременно работать, не слыша шума вентиляторов, не грея комнату как печка и не занимаясь танцами с CUDA-драйверами — Apple Silicon это другой мир.

Unified Memory — главное преимущество Apple Silicon для LLM. Это не просто «быстрая RAM». Это единое адресное пространство для CPU, GPU и Neural Engine. Модель загружается один раз — и все компоненты работают с ней без копирования данных туда-сюда.

M1, M2, M3, M4: какой чип реально нужен

Разница между поколениями не линейная. Это не «каждый год +20% скорости». Архитектурные изменения меняют правила игры.

Чип	Neural Engine	Пропускная способность памяти	Что это значит для LLM
M1/M2	16 ядер	100-200 ГБ/с	Хорошо для 7B моделей, 13B уже на пределе
M3	16-18 ядер	300-400 ГБ/с	Комфортная работа с 13B, можно пробовать 34B в Q4
M3 Pro/Max	18-40 ядер	300-800 ГБ/с	Серьёзные 34B модели, несколько инстансов 7B
M3 Ultra	64 ядер	800 ГБ/с	70B в Q4, production-нагрузки
M4	16-38 ядер	120-230 ГБ/с	Эффективность, а не максимальная скорость

Вот что большинство упускает: Neural Engine в M3/M4 работает с INT8 и INT4 квантованными моделями в 2-3 раза эффективнее, чем в M1. Если вы используете Q4_K_M (а вы должны использовать именно его для баланса качества/скорости), разница между M2 и M3 достигает 40%.

💡

M4 — странный зверь. Apple сделала упор на энергоэффективность, а не на максимальную производительность. Для ноутбука — отлично. Для стационарной работы с LLM — M3 Max/Ultra пока лучше.

RAM: сколько реально нужно

Здесь больше всего мифов. «Бери 128GB, чтобы наверняка» — совет, который стоит вам лишних 1000 долларов. Давайте по цифрам.

Размер модели в памяти рассчитывается просто: параметры × битность квантования ÷ 8. Но это только вес модели. Добавьте контекст.

7B Q4_K_M: ~4.5 GB + 4K контекст: ~5 GB
13B Q4_K_M: ~8 GB + 8K контекст: ~10 GB
34B Q4_K_M: ~20 GB + 16K контекст: ~25 GB
70B Q4_K_M: ~40 GB + 32K контекст: ~50 GB

Теперь добавьте операционную систему, браузер с 20 вкладками, IDE, Docker. Видите математику?

Критическая ошибка: брать ровно столько RAM, сколько нужно для модели. Система должна дышать. Если модель занимает 90% памяти — своп убьёт производительность. Оставляйте минимум 8-16 GB свободными.

1 Определите свою основную модель

Не «хочу запускать всё». Выберите 1-2 модели, с которыми будете работать 80% времени. Если это 7B — 24GB RAM хватит с запасом. Если 34B — смотрите на 64GB.

2 Планируйте контекст

128K контекст — это не только круто звучит. Это +20-30% к потреблению памяти. Если работаете с большими документами в локальном RAG, считайте память под максимальный планируемый контекст.

3 Учитывайте параллельную работу

Запускаете LLM + векторную базу + веб-сервер? Каждый процесс ест память. Для production-подобных сценариев добавляйте 20-30% к расчётам.

Mac mini vs Mac Studio: где проходит граница

Ценник Mac Studio пугает. Но иногда он дешевле.

Возьмём конфигурацию для 34B модели:

Mac mini M2 Pro: 32GB RAM, 12-core CPU, 19-core GPU — $2100
Mac Studio M2 Max: 64GB RAM, 12-core CPU, 30-core GPU — $2400

Разница $300. За эти $300 вы получаете:

Вдвое больше RAM (критично для 34B с контекстом)
Больше ядер GPU (ускорение инференса на 40-60%)
Лучшее охлаждение (максимальная производительность дольше)
Больше портов (полезно для внешних дисков с моделями)

Mac mini имеет смысл только в двух случаях:

Бюджет строго ограничен $1500-2000
Вы работаете исключительно с 7B моделями и не планируете апгрейд

В статье «Mac Studio M3 Ultra для локальных LLM» я тестировал GLM-4.7 Q4 на 64GB и 128GB версиях. Разница в скорости генерации — 15-20%. Но разница в комфорте работы с несколькими тяжёлыми приложениями — колоссальная.

Пропускная способность памяти: тихий убийца производительности

Все смотрят на объём RAM. Никто не смотрит на bandwidth. А зря.

Unified Memory быстрая. Но не вся одинаковая. M1 Pro: 200 ГБ/с. M3 Max: 400 ГБ/с. M3 Ultra: 800 ГБ/с. Что это значит на практике?

При генерации токенов модель постоянно читает веса из памяти. Высокая пропускная способность = больше токенов в секунду при той же модели. Особенно заметно на больших контекстах.

💡

Пропускная способность влияет не только на скорость генерации. Она определяет, насколько быстро модель загружается из SSD в RAM. 70B модель на 400 ГБ/с загружается в 2 раза быстрее, чем на 200 ГБ/с.

Реальные цифры: что ожидать от разных конфигураций

Я собрал данные из тестов, форумов и собственных замеров. Используем Llama 3.1 8B Q4_K_M, контекст 4096 токенов.

Система	Токенов/сек (prompt)	Токенов/сек (генерация)	Макс. модель (Q4)
Mac mini M2 16GB	45-55	18-22	13B
MacBook Pro M3 Pro 36GB	65-75	25-30	34B
Mac Studio M2 Max 64GB	85-100	35-45	70B
Mac Studio M3 Ultra 128GB	120-140	50-65	70B + 13B параллельно

Эти цифры — для чистого инференса. В реальном RAG-пайплайне с загрузкой документов и поиском по векторной базе скорость упадёт на 20-30%.

SSD: недооценённый компонент

Модели весят гигабайты. Llama 3.1 70B в Q4 — 40GB. Если у вас базовый SSD на 512GB, после системы и приложений останется ~200GB. Это 4-5 больших моделей.

Но размер — не главное. Скорость чтения определяет, как быстро модель загрузится в память при старте. M3/M4 используют SSD как расширение RAM через своп. Медленный SSD = тормоза при переключении между приложениями.

Минимум для работы с LLM: 1TB SSD. Идеально: 2TB+. Не экономьте здесь. Перенос моделей на внешний диск — это постоянные 2-5 минут ожидания при переключении.

Сравнение с PC: когда Mac проигрывает

Будем честны. Есть сценарии, где Mac — не лучший выбор.

Fine-tuning больших моделей. На Mac можно дообучать 7B модели. 13B — уже сложно. 70B — забудьте. CUDA + библиотеки типа Unsloth на PC дают на порядок большую скорость.

Если ваша работа — эксперименты с архитектурами, постоянный fine-tuning, обучение с нуля — смотрите в сторону систем с RTX 4090 или профессиональных карт. В статье «GB10 vs RTX vs Mac Studio» я подробно разбирал этот выбор.

Практический выбор: 5 сценариев

1 Студент/энтузиаст, бюджет до $2000

Mac mini M2 16GB. Хватит для 7B моделей, экспериментов, обучения. Если найдёте M2 Pro 32GB на распродаже — берите не думая.

2 Разработчик, работающий с 13B-34B моделями

Mac Studio M2 Max 64GB или MacBook Pro M3 Max 48GB. Первый — для стационарной работы, второй — если нужна мобильность. Разница в цене оправдана производительностью.

3 Research & Development, тестирование разных моделей

Mac Studio M3 Ultra 128GB. Быстрая загрузка моделей, возможность держать в памяти несколько инстансов, стабильная работа с 70B.

4 Производство, инференс одной оптимизированной модели

Серьёзно рассмотрите PC с RTX 4090. Скорость генерации будет в 2-3 раза выше. Mac выигрывает в энергоэффективности и тишине, но не в чистой скорости.

5 Гибридная работа: код + дизайн + LLM

MacBook Pro M3 Max 64GB или больше. Универсальное решение. Держите модель в фоне, работайте в IDE, Figma, браузере. Unified Memory распределит ресурсы оптимально.

Оптимизация: как выжать максимум из любого Mac

Купили железо? Теперь настройте софт.

Используйте llama.cpp с поддержкой Metal. Не LM Studio, не Ollama в базовой конфигурации. llama.cpp даёт лучшую производительность на Apple Silicon.
Включайте Metal Performance Shaders. В llama.cpp флаг --ngl 100 отправляет все слои на GPU. Экспериментируйте: иногда 80-90 даёт лучший баланс с CPU.
Используйте квантование Q4_K_M. Q8 даёт 1-2% качества дорогой ценой в скорости. Q2 — слишком большая потеря качества.
Настройте размер контекста под задачу. Не выставляйте 128K «на всякий случай». Каждый лишний токен в контексте замедляет генерацию.
Закрывайте лишние приложения. Chrome с 20 вкладками съедает 4-8GB RAM. Это половина 7B модели.

Будущее: что ждать от M4 и дальше

M4 — эволюция, а не революция. Улучшенная энергоэффективность, лучшее кодирование видео. Для LLM — прирост 10-15% против M3.

Настоящий прорыв будет в M5 или M6, когда Apple интегрирует в чип специализированные блоки для матричных умножений (как TPU у Google). Пока что Neural Engine оптимизирован для задач компьютерного зрения, а не LLM.

Слухи говорят о увеличенной пропускной способности памяти (до 1.2 ТБ/с) и поддержке более эффективных форматов квантования на уровне железа. Когда это случится — разрыв с PC GPU сократится ещё сильнее.

А пока — выбирайте исходя из сегодняшних задач. Не гонитесь за максимальными характеристиками «на будущее». К тому времени, когда вам понадобится M5 Ultra, сегодняшний M3 Max уже обесценится.

Последний совет: если сомневаетесь между двумя конфигурациями — берите больше RAM. Процессор можно «разогнать» оптимизацией, память — нет. 64GB сегодня кажутся избыточными. Через год, когда стандартом станут 34B модели с 32K контекстом — будут в самый раз.

Как выбрать Mac для локальных LLM: сравнение чипов Apple Silicon, оперативной памяти и производительности