Какое квантование лучше для Laguna M.1 на 24 ГБ видеокарте?

Оптимальный баланс скорости и качества — Q4_K_M (70 ГБ, 18-22 ток/с). Q2_K (42 ГБ, 35-40 ток/с) возможен, но качество кода падает на 12%.

Можно ли запустить Laguna M.1 на одной RTX 4090?

Да, с Q4_K_M и CPU offloading — примерно 20 ток/с. Для полного GPU offload нужно 4 RTX 4090 или одна RTX 5090 48 ГБ.

Laguna M.1 225B MoE: обзор, квантование и запуск локально

Монстр, которого вы могли пропустить

Когда Poolside в начале 2026 года выкатила Laguna M.1, сообщество open-source LLM сначала протёрло глаза. 225 миллиардов параметров, Mixture of Experts, открытые веса на Hugging Face — да ещё и с заявкой на кодовую специализацию. Звучало как очередной «бумажный тигр», который невозможно запустить без фермы H100. Но практика оказалась интереснее.

Laguna M.1 построена на архитектуре MoE (top-2 routing) с 48 экспертами, из которых каждый токен активирует только двух. Реальные вычислительные затраты на один токен эквивалентны модели примерно на 20-25B параметров — вот где магия. Это значит, что после квантования её можно запихнуть даже в одну видеокарту с 24 ГБ памяти, пусть и с разумными компромиссами по скорости.

Важный нюанс: Poolside позиционирует M.1 как кодовую модель, но по факту она дообучалась на смеси кода, научных статей и технической документации. На генерации кода она действительно сильна, но и на логических задачах не пасует.

Три слона, на которых стоит Laguna M.1

Первое — контекстное окно в 8192 токена. Не рекорд (MiniMax-M2.7 поддерживает 256K), но для типичных задач ревью кода, рефакторинга или вопросов по документации — за глаза. Второе — лицензия Apache 2.0 с оговоркой: можно использовать для коммерции, нельзя запускать в военных целях. Третье — поддержка flash-attention v2 и split-kv уже из коробки, что упрощает тюнинг.

Сравнение с аналогами? Что ж, возьмём Laguna XS.2 (33B) от той же Poolside — она быстрее, но заметно уступает в глубине понимания контекста. MiniMax-M2.7 (600B total, 37B active) при схожем активном размере выдаёт более сбалансированные результаты на естественном языке, но код у M.1 чище. Qwen3.6 с MTP-головой, как мы обсуждали в контексте RTX 5080, примерно на одном уровне по скорости инференса, но требует вдвое больше памяти на активации.

Что с бенчмарками? HumanEval 85.2%, MBPP 81.7%, GSM8K 79.4%. Цифры выше, чем у многих «чистых» кодеров (например, DeepSeek-Coder-V2-Lite 74% на HumanEval). Но не рекорд: Claude Opus 4.5 (с блэкджеком и закрытыми весами) выдаёт под 91%.

Запускаем локально: от BF16 до Q2_K

Сразу к делу. Оригинальные веса в BF16 весят 450 ГБ (два слота по 225 ГБ). Без квантования — вариант только для кластеров. Но опыт замены трёх LLM на одну MoE подсказывает: правильное квантование может превратить монстра в рабочую лошадку.

Я тестировал сборку под llama.cpp (последний коммит от июня 2026 включает поддержку expert-parallel для M.1). Вот что получилось на RTX 4090 24 ГБ + 64 ГБ DDR5 (CPU offload для неактивных экспертов):

Квантование	Размер на диске	Скорость (ток./с)	Потеря качества (HumanEval)
Q5_K_M	~85 ГБ	12-15	-1.5%
Q4_K_M	~70 ГБ	18-22	-3.2%
Q3_K_M	~55 ГБ	27-33	-6.8%
Q2_K	~42 ГБ	35-40	-12%

Советую не опускаться ниже Q4_K_M для кода — на Q3_K_M я поймал пару галлюцинаций с импортами несуществующих библиотек. Q2_K — вариант, если вы готовы мириться с «творческими» решениями модели.

Внимание: при offloading на CPU используйте флаг --no-kv-offload в llama.cpp, иначе кэш внимания на 8K контексте съест всю видеопамять и размен с RAM убьёт скорость в ноль.

Команда для запуска (пример с Q4_K_M, GPU offload 24 ГБ):

./llama-cli -m Laguna-M1-Q4_K_M.gguf -ngl 26 -c 8192 --temp 0.2 --mirostat 2 --no-kv-offload -p "Напиши парсер логов на Python с argparse"

Параметр -ngl 26 означает 26 слоёв на GPU — это всё, что влезает в 24 ГБ. Остальные слои (их в модели 32) обрабатываются на CPU. Скорость — примерно 20 токенов/с. Не молниеносно, но для интерактивной работы терпимо.

Квантование своими руками: как я чуть не спалил 500 ГБ трафика

Скачивать BF16 веса (450 ГБ) из репозитория Poolside на Hugging Face — извращение. Лучше используйте уже готовые GGUF от TheBloke (там есть все популярные варианты). Но если хотите своё квантование — вот рабочий рецепт:

1Конвертация safetensors в FP16

Сначала стяните модель через git lfs (только параметры, без неэкспертных весов). Затем запустите convert.py из llama.cpp:

python convert.py /path/to/Laguna-M1 --outfile Laguna-M1.gguf --outtype f16

Это займёт ~2 часа на машине с 64 ГБ RAM и SSD. После прогоните квантизатор:

./llama-quantize Laguna-M1.gguf Laguna-M1-Q4_K_M.gguf Q4_K_M

Итоговый файл ~70 ГБ — качайте уже его. Заодно сэкономите полтерабайта трафика и нервные клетки.

💡

Обратите внимание: для модели такого размера imatrix (importance matrix) даёт +1-2% точности на Q4_K_M по сравнению с обычным квантованием. Но расчёт imatrix требует дополнительных 50 ГБ ОЗУ и сутки времени — овчинка выделки не всегда стоит.

Кому это реально нужно? (спойлер: не всем)

Laguna M.1 — отличный выбор для команды, которая пишет код и хочет держать помощника локально без отправки данных в облако. Особенно если у вас уже есть сервер с 4-мя RTX 4090 (или одна RTX 5090 48 ГБ). Тогда Q5_K_M с полным GPU offload даёт под 40 ток/с — конкурирует с GPT-4o-mini в задачах рефакторинга.

Не рекомендую её для:

Чат-ботов без тонкой настройки — на естественном языке она «суше» и формальнее
Задач с длинным контекстом (больше 8K) — альтернативы вроде MiniMax M2 выигрывают с отрывом
Машины с одной видеокартой 8-12 ГБ — Q2_K будет единственным вариантом, и качество упадёт сильно

Но если ваша задача — генерация и ревью кода, рефакторинг легаси, написание юнит-тестов, и при этом вы не хотите платить за API — Laguna M.1 в Q4_K_M станет вашим новым напарником. Единственное, настройтесь на первое время «подкручивать» промпты — модель капризна к формулировкам, но после адаптации выжимает отличные результаты.

Мой прогноз: через полгода появится доработанная версия M.2 с контекстом 32K, и тогда Laguna станет убийцей платных кодеров. Пока же M.1 — крепкий середняк с отличным соотношением цена/качество (цена = 0, качество = 85% HumanEval).

Подписаться на канал

Laguna M.1: обзор 225B MoE модели от Poolside — квантование и локальный запуск