Почему выбор ОЗУ для локальных LLM - это головная боль

Вы купили MacBook Pro с Apple Silicon, запустили первую локальную языковую модель и... уперлись в ограничения памяти. Система начинает активно использовать своп, вентиляторы взлетают до космических оборотов, а генерация текста превращается в слайд-шоу. Знакомая картина?

Проблема в том, что LLM - это не обычные приложения. Они жрут оперативку как голодные звери, и чем мощнее модель, тем больше ей нужно. Но Apple Silicon использует Unified Memory - это и хорошо, и плохо. Хорошо, потому что память общая для CPU и GPU, и данные не нужно копировать. Плохо, потому что нельзя докупить еще планок - объем фиксирован и выбирается один раз при покупке.

Ошибка номер один: покупать MacBook с 16 ГБ ОЗУ для серьезной работы с LLM. Этого хватит разве что на модели размером с золотую рыбку. На 2026 год даже для Qwen2.5-7B в Q4 квантовании нужно около 5 ГБ, но это без учета операционной системы и других приложений.

Как LLM используют память: технические детали, которые нельзя игнорировать

Когда вы загружаете модель в llama.cpp или LM Studio, она занимает место в оперативной памяти. Объем зависит от трех факторов:

Размер модели в параметрах: например, Llama 3.1 70B имеет 70 миллиардов параметров.
Тип данных: полноценный float16 (2 байта на параметр) или квантованные версии (1 байт и меньше).
Контекстное окно: чем длиннее контекст, тем больше памяти нужно для ключей и значений (KV-cache).

На Apple Silicon память используется эффективно благодаря архитектуре Unified Memory, но есть нюанс: нейронный движок (Neural Engine) и GPU тоже делят эту память. Если вы параллельно редактируете видео в Final Cut Pro, памяти может не хватить.

💡

В теории, для модели в формате GGUF память рассчитывается просто: параметры × байты на параметр. На практике добавляется накладные расходы llama.cpp, плюс память под контекст. Для контекста в 8192 токена добавляйте примерно 1-2 ГБ сверху.

Актуальные модели 2026 года: что стоит запускать на Mac

На апрель 2026 года в тренде несколько семейств моделей:

Llama 3.1: от 8B до 405B параметров. Для MacBook Pro реалистичны версии до 70B, и то с квантованием.
Qwen2.5: линейка от 0.5B до 122B. Qwen2.5-72B показывает отличные результаты для кодинга.
GLM-4.7: китайская модель, оптимизированная для длинного контекста.
GPT-OSS-120B: открытая альтернатива GPT-4, но требует много памяти.

Подробнее о выборе моделей для программирования можно прочитать в нашем обзоре лучших LLM для программирования на Macbook M5 Pro.

Квантования GGUF: магия сжатия без (сильной) потери качества

Квантование - это техника сжатия моделей за счет снижения точности весов. Вместо float16 используют int8, int4 и даже int2. Формат GGUF, разработанный для llama.cpp, стал стандартом де-факто для локального запуска.

Основные типы квантований на 2026 год:

Тип квантования	Байт на параметр	Качество	Рекомендация
Q2_K	~2.5 бит	Низкое	Только для экспериментов
Q3_K_S / Q3_K_M / Q3_K_L	~3.5 бит	Приемлемое	Для моделей >70B при ограниченной памяти
Q4_K_S / Q4_K_M	~4.5 бит	Хорошее	Баланс качества и скорости
Q5_K_S / Q5_K_M	~5.5 бит	Очень хорошее	Для ответственных задач
Q6_K	6 бит	Отличное	Близко к оригиналу
Q8_0	8 бит	Практически без потерь	Если память позволяет

Разница между K и S/M/L вариациями в том, как квантуются отдельные группы весов. Буква S (small) означает меньший размер, но и большее сжатие. M (medium) - баланс, L (large) - лучшее качество. Подробнее о форматах читайте в полном руководстве по выбору GGUF-модели.

Цифры, которые решают: какие модели помещаются в 48 ГБ, 64 ГБ, 128 ГБ

Давайте перейдем к конкретике. Вот таблица с оценкой памяти для популярных моделей в разных квантованиях (на 2026 год):

Модель	Параметры	Q4_K_M	Q5_K_M	Q6_K	Q8_0
Llama 3.1 8B	8B	~4.5 ГБ	~5.5 ГБ	~6 ГБ	~8 ГБ
Qwen2.5 14B	14B	~8 ГБ	~10 ГБ	~11 ГБ	~14 ГБ
Llama 3.1 32B	32B	~18 ГБ	~22 ГБ	~24 ГБ	~32 ГБ
Qwen2.5 72B	72B	~40 ГБ	~49 ГБ	~54 ГБ	~72 ГБ
GPT-OSS-120B	120B	~67 ГБ	~82 ГБ	~90 ГБ	~120 ГБ

Этот расчет приблизительный и не учитывает память под контекст (добавьте 1-2 ГБ) и операционную систему (macOS занимает 2-3 ГБ в простое).

Важно: если модель занимает больше 80% доступной памяти, система начнет использовать своп. На SSD это работает, но снижает скорость генерации и изнашивает накопитель. Для 48 ГБ ОЗУ максимальный комфортный размер модели - около 38 ГБ.

Скорость генерации, тепловыделение и стоимость: три кита выбора

Объем ОЗУ влияет не только на то, какие модели вы сможете запустить, но и на то, как они будут работать.

Скорость генерации: чем больше модель, тем медленнее она генерирует текст. Но с увеличением ОЗУ вы можете выбрать менее агрессивное квантование (например, Q5 вместо Q4), что улучшит качество ответов без сильного падения скорости.
Тепловыделение: MacBook Pro с активным охлаждением справляется лучше, но при постоянной нагрузке на 100% памяти чипсет будет нагреваться. Модели, которые едва помещаются в память, вызывают больше свопа и, как следствие, больше нагрева.
Стоимость: Apple берет дорого за апгрейд памяти. Переход с 36 ГБ на 48 ГБ в MacBook Pro M5 Max стоит около 400 долларов. Стоит ли оно того? Если вы планируете работать с Qwen2.5 72B в Q5 - да.

Если вы выбираете между MacBook Pro 14 и 16 дюймов, учтите, что у 16-дюймовой версии лучше система охлаждения, что важно для длительных сессий с LLM. Для сравнения чипов Apple Silicon прочитайте как выбрать Mac для локальных LLM.

1Определите свои задачи

Ответьте на вопросы: будете ли вы использовать LLM для кодинга, творчества, анализа данных? Для кодинга часто нужны модели от 32B параметров, для чата хватит и 14B.

2Выберите целевые модели

Исходя из задач, выберите 2-3 модели, которые хотите запускать. Например, Qwen2.5-32B для кодинга и Llama 3.1 8B для быстрых ответов.

3Определите необходимое квантование

Для каждой модели решите, какое квантование вас устроит. Если качество критично - Q5_K_M или Q6_K. Если важна скорость и экономия памяти - Q4_K_M.

4Рассчитайте требуемую память

Используйте таблицы выше, чтобы оценить, сколько памяти будет занимать каждая модель в выбранном квантовании. Добавьте 4-5 ГБ для macOS и других приложений.

5Выберите конфигурацию MacBook Pro

Теперь подберите MacBook Pro с объемом ОЗУ, который покрывает ваши потребности с запасом 20%. Если нужно 40 ГБ - берите 48 ГБ или 64 ГБ.

Не повторяйте ошибку многих: не экономьте на памяти. Апгрейд SSD возможен через внешние накопители, а вот оперативку вы не увеличите никогда. Лучше переплатить сейчас, чем менять ноутбук через год.

Частые ошибки и как их избежать

Игнорирование памяти под контекст: Длинные контексты (32K, 128K) требуют дополнительной памяти для KV-cache. Для контекста в 32K токенов добавьте 4-8 ГБ к расчетам.
Запуск нескольких моделей одновременно: Не пытайтесь запустить две большие модели сразу - памяти не хватит. Если нужно переключаться между моделями, используйте скрипты для выгрузки одной и загрузки другой.
Использование свопа как нормы: Если система постоянно использует своп, это снижает скорость и долговечность SSD. Увеличьте объем ОЗУ или выберите меньшую модель.
Неправильный выбор квантования: Не гонитесь за самым легким квантованием. Q2_K может давать совершенно бессмысленные ответы. Начните с Q4_K_M, а затем экспериментируйте.

Если вы столкнулись с галлюцинациями моделей на Mac, прочитайте почему GPT-OSS-120B и Deepseek галлюцинируют на Mac.

Что в будущем? Прогноз на 2027-2028

Тренды показывают, что модели будут становиться больше и эффективнее. Но также улучшаются техники квантования и сжатия. К 2028 году, возможно, появятся модели с 200B параметрами, которые в квантовании Q4 будут занимать те же 40-50 ГБ, но с качеством, сравнимым с сегодняшними 70B в Q8.

Архитектура Apple Silicon также эволюционирует. Ожидаются чипы M6 с еще более быстрой Unified Memory и улучшенным Neural Engine. Возможно, Apple представит варианты с 192 ГБ ОЗУ в ноутбуках, что откроет двери для гигантских моделей.

Но не ждите будущего - берите то, что нужно сейчас. И помните: лучше купить MacBook Pro с запасом памяти, чем потом жалеть об экономии.

Подписаться на канал

Как выбрать ОЗУ для MacBook Pro под локальные LLM: подробный гайд по моделям и квантованиям