Agents-A1 GGUF: 35B Qwen3.5-MoE с NVFP4 и MTP ускорением 1.22x

Иногда тишина на фронте локальных LLM взрывается не громким заявлением, а релизом GGUF-квантов, после которого хочется пересчитывать бюджет на видеокарты. Сегодня как раз такой день. Выкатились квантизации Agents-A1 — 35B-модели на базе Qwen3.5-MoE, и это не просто очередной форк с переименованием. Тут замешаны сразу три вещи, ради которых стоит задержаться на пару минут: поддержка нативного NVFP4 для Blackwell, встроенное MTP speculative decoding с заявленным acceptance rate 1.22x и агрессивная экономия памяти под локальных агентов.

NVFP4: не просто «ещё один формат»

Если вы следили за запуском Qwen3.5 397B на FP4, то знаете, что Nvidia придумала свой формат 4-битного плавающего квантования. Он не совместим с обычным INT4 по битовой точности, но даёт заметный прирост качества на распределениях с большим разбросом значений — а именно такие чаще всего встречаются в MoE-архитектурах. Agents-A1 GGUF использует этот трюк именно для Blackwell (RTX 5090, RTX PRO 6000 и грядущие датацентровые). Если у вас карта старшего поколения — ничего страшного, квантизации есть и в обычном Q4_K_M, но именно с NVFP4 скорость и плотность сжимаются до максимума.

Для тех, кто хочет разобраться в деталях: сравнение NVFP4 с INT4 мы уже разбирали, а настройку llama.cpp под Blackwell — ещё раньше. Из нового: в этой же сборке появилась поддержка MXFP4, но NVFP4 остаётся фирменным козырем для моделей, которым нужно больше динамического диапазона.

MTP speculative decoding: ускорение без смены железа

Speculative decoding — штука не новая, но до сих пор её реализация в GGUF часто была сырой. EAGLE3 от MiniMax показывает, что драфт-модель может работать на порядок быстрее, если её правильно обучить. В Agents-A1 пошли другим путём — MTP (Multi-Token Prediction). Модель сама предсказывает несколько токенов за шаг без внешней драфт-сети, используя встроенные вспомогательные головы.

Заявленное ускорение 1.22x — это среднее по бенчмаркам вроде HumanEval и GSM8K при batch size = 1. Звучит скромно по сравнению с 2.5x у Qwen 3.6 27B, но там размер целиком другой. 35B MoE — архитектура с разреженными экспертами, где каждый forward дороже. Acceptance rate (доля токенов, которые принимаются с первой попытки) держится около 78-82% на коде и 85% на структурированных текстах — очень достойно для первого релиза.

В контексте предыдущих экспериментов с Qwen 27B на 3090 видно, что MTP позволяет выжать ещё 15-20% пропускной способности без увеличения потребления VRAM. Для владельцев 24-гигабайтных карт это может стать решающим аргументом при выборе модели.

Кому это нужно прямо сейчас?

Agents-A1 — не универсальная «болтушка», а чисто агентная модель. Её тренировали на трейсаф-вызовах инструментов, планировании цепочек шагов и кодинге. Как и Qwopus 3.6 27B Coder, она умеет вызывать функции, но за счёт 35B параметров и MoE работает аккуратнее на сложных многошаговых сценариях. Если вы собираете стек локальных LLM-агентов, эта модель ложится в среднее звено — не такая тяжёлая, как 397B, но уже способна заменить облачные API для большинства задач.

По потреблению: NVFP4-версия занимает ~18 GB, Q4_K_M — ~21 GB, IQ4_XS — ~15 GB. На Blackwell с 48 GB RTX PRO 6000 можно запустить даже с контекстом в 128K токенов. На картах 24 GB (3090/4090) — только с коротким контекстом и квантованием IQ4_XS, но MTP даст выигрыш в скорости до ~18%.

Лично меня больше всего радует, что комьюнити AesSedai и CatalystSec не просто переквантовали модель, а добавили ещё и прошивку для MTP — такого в стандартных сборках llama.cpp пока нет. Понадобится кастомная версия (уже есть на их гитхабе), но она собирается за пять минут.

Что дальше? Скорее всего, через пару недель мы увидим форки с ускорением под EAGLE3 или ещё более агрессивные квантизации с IQ2_S. А пока — берите, тестируйте, и не забудьте поделиться результатами.

Подписаться на канал

Запуск Agents-A1 GGUF: 35B Qwen3.5-MoE, NVFP4 для Blackwell и MTP speculative decoding с ускорением 1.22x

NVFP4: не просто «ещё один формат»

MTP speculative decoding: ускорение без смены железа

Кому это нужно прямо сейчас?

Подписывайтесь на наш канал!