Монстр, которого вы могли пропустить
Когда Poolside в начале 2026 года выкатила Laguna M.1, сообщество open-source LLM сначала протёрло глаза. 225 миллиардов параметров, Mixture of Experts, открытые веса на Hugging Face — да ещё и с заявкой на кодовую специализацию. Звучало как очередной «бумажный тигр», который невозможно запустить без фермы H100. Но практика оказалась интереснее.
Laguna M.1 построена на архитектуре MoE (top-2 routing) с 48 экспертами, из которых каждый токен активирует только двух. Реальные вычислительные затраты на один токен эквивалентны модели примерно на 20-25B параметров — вот где магия. Это значит, что после квантования её можно запихнуть даже в одну видеокарту с 24 ГБ памяти, пусть и с разумными компромиссами по скорости.
Важный нюанс: Poolside позиционирует M.1 как кодовую модель, но по факту она дообучалась на смеси кода, научных статей и технической документации. На генерации кода она действительно сильна, но и на логических задачах не пасует.
Три слона, на которых стоит Laguna M.1
Первое — контекстное окно в 8192 токена. Не рекорд (MiniMax-M2.7 поддерживает 256K), но для типичных задач ревью кода, рефакторинга или вопросов по документации — за глаза. Второе — лицензия Apache 2.0 с оговоркой: можно использовать для коммерции, нельзя запускать в военных целях. Третье — поддержка flash-attention v2 и split-kv уже из коробки, что упрощает тюнинг.
Сравнение с аналогами? Что ж, возьмём Laguna XS.2 (33B) от той же Poolside — она быстрее, но заметно уступает в глубине понимания контекста. MiniMax-M2.7 (600B total, 37B active) при схожем активном размере выдаёт более сбалансированные результаты на естественном языке, но код у M.1 чище. Qwen3.6 с MTP-головой, как мы обсуждали в контексте RTX 5080, примерно на одном уровне по скорости инференса, но требует вдвое больше памяти на активации.
Что с бенчмарками? HumanEval 85.2%, MBPP 81.7%, GSM8K 79.4%. Цифры выше, чем у многих «чистых» кодеров (например, DeepSeek-Coder-V2-Lite 74% на HumanEval). Но не рекорд: Claude Opus 4.5 (с блэкджеком и закрытыми весами) выдаёт под 91%.
Запускаем локально: от BF16 до Q2_K
Сразу к делу. Оригинальные веса в BF16 весят 450 ГБ (два слота по 225 ГБ). Без квантования — вариант только для кластеров. Но опыт замены трёх LLM на одну MoE подсказывает: правильное квантование может превратить монстра в рабочую лошадку.
Я тестировал сборку под llama.cpp (последний коммит от июня 2026 включает поддержку expert-parallel для M.1). Вот что получилось на RTX 4090 24 ГБ + 64 ГБ DDR5 (CPU offload для неактивных экспертов):
| Квантование | Размер на диске | Скорость (ток./с) | Потеря качества (HumanEval) |
|---|---|---|---|
| Q5_K_M | ~85 ГБ | 12-15 | -1.5% |
| Q4_K_M | ~70 ГБ | 18-22 | -3.2% |
| Q3_K_M | ~55 ГБ | 27-33 | -6.8% |
| Q2_K | ~42 ГБ | 35-40 | -12% |
Советую не опускаться ниже Q4_K_M для кода — на Q3_K_M я поймал пару галлюцинаций с импортами несуществующих библиотек. Q2_K — вариант, если вы готовы мириться с «творческими» решениями модели.
Внимание: при offloading на CPU используйте флаг --no-kv-offload в llama.cpp, иначе кэш внимания на 8K контексте съест всю видеопамять и размен с RAM убьёт скорость в ноль.
Команда для запуска (пример с Q4_K_M, GPU offload 24 ГБ):
./llama-cli -m Laguna-M1-Q4_K_M.gguf -ngl 26 -c 8192 --temp 0.2 --mirostat 2 --no-kv-offload -p "Напиши парсер логов на Python с argparse"Параметр -ngl 26 означает 26 слоёв на GPU — это всё, что влезает в 24 ГБ. Остальные слои (их в модели 32) обрабатываются на CPU. Скорость — примерно 20 токенов/с. Не молниеносно, но для интерактивной работы терпимо.
Квантование своими руками: как я чуть не спалил 500 ГБ трафика
Скачивать BF16 веса (450 ГБ) из репозитория Poolside на Hugging Face — извращение. Лучше используйте уже готовые GGUF от TheBloke (там есть все популярные варианты). Но если хотите своё квантование — вот рабочий рецепт:
1Конвертация safetensors в FP16
Сначала стяните модель через git lfs (только параметры, без неэкспертных весов). Затем запустите convert.py из llama.cpp:
python convert.py /path/to/Laguna-M1 --outfile Laguna-M1.gguf --outtype f16Это займёт ~2 часа на машине с 64 ГБ RAM и SSD. После прогоните квантизатор:
./llama-quantize Laguna-M1.gguf Laguna-M1-Q4_K_M.gguf Q4_K_MИтоговый файл ~70 ГБ — качайте уже его. Заодно сэкономите полтерабайта трафика и нервные клетки.
imatrix (importance matrix) даёт +1-2% точности на Q4_K_M по сравнению с обычным квантованием. Но расчёт imatrix требует дополнительных 50 ГБ ОЗУ и сутки времени — овчинка выделки не всегда стоит.Кому это реально нужно? (спойлер: не всем)
Laguna M.1 — отличный выбор для команды, которая пишет код и хочет держать помощника локально без отправки данных в облако. Особенно если у вас уже есть сервер с 4-мя RTX 4090 (или одна RTX 5090 48 ГБ). Тогда Q5_K_M с полным GPU offload даёт под 40 ток/с — конкурирует с GPT-4o-mini в задачах рефакторинга.
Не рекомендую её для:
- Чат-ботов без тонкой настройки — на естественном языке она «суше» и формальнее
- Задач с длинным контекстом (больше 8K) — альтернативы вроде MiniMax M2 выигрывают с отрывом
- Машины с одной видеокартой 8-12 ГБ — Q2_K будет единственным вариантом, и качество упадёт сильно
Но если ваша задача — генерация и ревью кода, рефакторинг легаси, написание юнит-тестов, и при этом вы не хотите платить за API — Laguna M.1 в Q4_K_M станет вашим новым напарником. Единственное, настройтесь на первое время «подкручивать» промпты — модель капризна к формулировкам, но после адаптации выжимает отличные результаты.
Мой прогноз: через полгода появится доработанная версия M.2 с контекстом 32K, и тогда Laguna станет убийцей платных кодеров. Пока же M.1 — крепкий середняк с отличным соотношением цена/качество (цена = 0, качество = 85% HumanEval).