Когда 120 миллиардов параметров не помещаются в 64 гигабайта

Запустить GPT-OSS-120B на Mac с 64GB памяти — это как пытаться упаковать гору вещей в один чемодан ручной клади. В теории, простые расчеты показывают: 120 миллиардов параметров в 3-битном формате — это примерно 45 ГБ. Кажется, должно влезть. На практике, модель сразу начинает задыхаться, галлюцинировать или просто падает с ошибкой malloc: can't allocate region.

Почему? Потому что память нужна не только для весов. Есть контекст, KV-кэш, промежуточные активации, и сама операционная система тоже не воздухом питается. Особенно коварны MoE-архитектуры (Mixture of Experts), которые использует GPT-OSS-120B. Они не загружают все эксперты разом, но доступ к ним хаотичный и непредсказуемый, что создает латентность и дополнительные накладные расходы.

На 05.04.2026 ситуация не изменилась. Даже последние версии llama.cpp (v0.9.2) и GGUF формата все еще борются с эффективным управлением памятью для моделей >70B на Apple Silicon с ограниченной RAM. Ключ к успеху — не просто сжать веса, а сделать это умно.

3-битное квантование — не все биты созданы равны

Обычное квантование в GGUF, например Q3_K_S, распределяет биты равномерно. Оно грубо обрезает веса, сохраняя только грубую структуру. Потери точности огромны. Для 120B модели это смерть.

Мы пойдем другим путем — Lloyd–Max quantization. Это не новый алгоритм (его придумали в 60-х для телефонии), но для LLM в 2026 году он стал актуальным. Суть: вместо равномерных интервалов, мы строим уровни квантования, которые минимизируют среднеквадратичную ошибку (MSE) для конкретного распределения весов нашей модели. Проще говоря, мы тратим наши 3 бита с умом — больше уровней там, где веса скапливаются чаще.

💡

Если вы сталкивались с галлюцинациями GPT-OSS-120B на Mac, то знаете — корень проблемы часто в потере информации при квантовании. Lloyd–Max борется с этим целенаправленно.

Но и этого мало. Веса в трансформерах коррелированы. Ошибка квантования накапливается. Здесь на помощь приходит хитрый трюк — randomized Hadamard rotations. Перед квантованием мы умножаем блоки весов на матрицу Адамара (или случайную ортогональную матрицу). Это «перемешивает» веса, делая распределение ошибок более равномерным и независимым. После квантования — обратное преобразование. Результат: тот же размер, но гораздо выше качество.

Пошаговый план: от сырой модели до работающего инференса

Забудьте про одну команду llama.cpp --convert. Наш процесс сложнее, но он работает. Проверено на Mac Studio M2 Ultra с 64GB на macOS Sequoia 15.4 (актуально на 05.04.2026).

1Подготовка поля боя: инструменты и модель

Сначала собираем llama.cpp из исходников с поддержкой AVX2 и ARM_NEON для Apple Silicon. Убедитесь, что у вас установлен cmake и Python 3.11+.

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
mkdir build && cd build
cmake -DLLAMA_METAL=ON -DLLAMA_ACCELERATE=ON -DCMAKE_BUILD_TYPE=Release ..
cmake --build . --config Release

Скачайте оригинальную модель GPT-OSS-120B в формате PyTorch (.pth или .safetensors). Если у вас уже есть GGUF версия, вам все равно нужно вернуться к исходникам для нашего кастомного квантования.

2Конвертация и калибровка для Lloyd–Max

Обычный конвертер не знает про Lloyd–Max. Нам нужно использовать скрипт с калибровкой. Создаем датасет для калибровки — 100-200 случайных текстовых отрывков из вашей целевой доменной области (например, код на Python, если модель для программирования).

# Пример фрагмента Python-скрипта для подготовки калибровки
# Используйте актуальное API llama.cpp на 2026 год
from llama_cpp.llama import Llama, LlamaConfig
import numpy as np

# Загружаем модель в fp16 для анализа распределения весов
config = LlamaConfig(
    model_path="./gpt-oss-120b/consolidated.00.pth",
    n_gpu_layers=0  # Пока только CPU для анализа
)
llm = Llama(config)

# Собираем статистику по весам определенных слоев
weights = llm.get_parameter('layers.0.attention.wq.weight')
# ... анализ гистограммы и подбор оптимальных уровней квантования Lloyd–Max

На практике, проще использовать модифицированную версию convert.py из llama.cpp, которая интегрирует алгоритмы 2-3 битного квантования. Ищите форки llama.cpp с тегами 'lloyd-max' или 'hadamard'.

3Применяем Hadamard rotations и финальное квантование

Это самый ответственный этап. Нужно применить вращение к блокам весов перед передачей их в квантователь. В актуальных форках llama.cpp это может быть флаг --hadamard или отдельный скрипт.

# Пример команды конвертации с кастомными настройками (синтаксис может меняться)
./bin/llama-cli \
  --model ./gpt-oss-120b \
  --convert-to-gguf \
  --quantize 3-bit \
  --quant-method lloyd_max \
  --hadamard-rotation \
  --calib-data ./calibration.txt \
  --output ./gpt-oss-120b-q3_LM.gguf

Внимание: если скрипт запрашивает более 64GB оперативной памяти на этапе конвертации, не паникуйте. Используйте флаг --split-max-size 4G, чтобы работать с моделью по частям. Это долго, но необходимо.

4Запуск и тонкая настройка для MoE

Теперь у нас есть GGUF файл. Но запустить его с настройками по умолчанию — провалить все. MoE требует контроля за количеством активных экспертов.

./bin/main -m ./gpt-oss-120b-q3_LM.gguf \
  -n 512 \
  --threads 12 \
  --temp 0.2 \
  --top-k 40 \
  --top-p 0.9 \
  --mlock \
  --n-gpu-layers 40 \
  --expert-ratio 0.25 \
  --tensor-split 0.75  # 75% памяти под веса на GPU, 25% на CPU

Ключевые флаги:

--mlock: пытается удержать модель в RAM, предотвращая свопинг.
--n-gpu-layers 40: сколько слоев отправить на GPU Neural Engine. Экспериментируйте, пока не увидите оптимальную загрузку памяти.
--expert-ratio 0.25 (или --num-experts-per-token): ограничивает число активных экспертов в MoE. Чем меньше, тем меньше пиковая память, но и качество падает. Старт с 0.25 от общего числа.

Если видите ошибки ggml_metal_add_buffer: error: too large, уменьшайте --tensor-split или --n-gpu-layers. Помните, что 64GB — это зона риска.

Где спрятаны грабли: нюансы и ошибки

Ошибка или симптом	Причина	Решение
Модель генерирует бессвязный текст сразу после контекста.	Слишком агрессивное квантование разрушило embeddings слоев.	Увеличьте битность для первых и последних слоев (адаптивное квантование). Или используйте более качественную калибровку.
Инференс работает 5 секунд, потом все зависает.	Система начала свопировать на SSD из-за нехватки RAM.	Жестко ограничьте контекст (`-c 2048`). Убедитесь, что флаг `--mlock` работает (проверьте через `htop`).
Скорость генерации - 0.5 токена в секунду.	Слишком много слоев осталось на CPU или активны все эксперты MoE.	Увеличьте `--n-gpu-layers` до предела, но следите за памятью GPU. Понизьте `--expert-ratio` до 0.1.
При конвертации: `Illegal instruction: 4`.	Ваша версия llama.cpp собрана с устаревшими флагами для нового Apple Silicon (M4/M5).	Пересоберите с `-DLLAMA_ARM82=ON` и `-DCMAKE_OSX_ARCHITECTURES=arm64`.

Частые вопросы (и честные ответы)

Насколько упадет качество от 3-битного квантования с Lloyd–Max?
На тестах MMLU или HumanEval падение может быть всего -5-7% относительно 4-битной версии, если калибровка сделана на репрезентативных данных. Но на творческих задачах или длинных рассуждениях потери заметнее. Это плата за возможность запуска.

Есть ли готовые GGUF файлы с таким квантованием?
На 05.04.2026 — почти нет. Сообщество только начинает экспериментировать. Ветка llama.cpp с поддержкой Lloyd–Max еще не влита в мастер. Придется собирать самому или искать нишевые репозитории на GitHub.

Можно ли использовать этот метод для других гигантов, например MiniMax-M2.5 230B?
Да, абсолютно. Принцип универсален. Но чем больше модель, тем важнее калибровка и контроль над экспертами в MoE. Для 230B на 64GB, вероятно, придется опуститься до 2-битного квантования.

Lloyd–Max или GPTQ/AWQ для Apple Silicon?
GPTQ/AWQ — отличные методы, но они заточены под NVIDIA GPU. На Apple Silicon с его unified memory и Metal API, GGUF формат с продвинутым квантованием пока вне конкуренции. Особенно после битвы форматов MLX vs GGUF.

Главный совет, который вы не найдете в мануалах: не гонитесь за максимальным контекстом. Установите -c 2048 и живите с этим. 120B модель с контекстом 2K токенов на вашем Mac — это уже чудо. А чудо с контекстом 32K, которое падает на третьей реплике, — просто разочарование.

Подписаться на канал

Как запустить GPT-OSS-120B на Mac с 64GB памяти: эксперименты с 3-битным квантованием и Lloyd-Max