Обзор Nemotron-3-Super-120B: запуск на MLX с LatentMoE | AiManual
AiManual Logo Ai / Manual.
14 Мар 2026 Инструмент

Nemotron-3-Super-120B Uncensored: запуск на MLX с LatentMoE и Mamba attention

Разбор Nemotron-3-Super-120B Uncensored: архитектура LatentMoE и Mamba attention, рекордные бенчмарки, квантование для MLX и практический запуск локально в 2026

Гигант, который чуть не сгорел на старте

NVIDIA выпустила Nemotron-3-Super-120B в начале марта 2026, и это была настоящая катастрофа. Не модель, а огненный шар. Первые файлы весов содержали критическую ошибку в реализации Mamba attention — она просто отказывалась работать с квантованными версиями для MLX. Сообщество взорвалось. «120 миллиардов параметров для декора?» — спрашивали на форумах.

Через три дня титанической работы энтузиастов появился патч и исправленные файлы. И сейчас перед нами не просто исправленная модель, а один из самых технически интересных проектов года. LatentMoE, Mamba attention, и все это — в 120-миллиардном uncensored варианте, готовом к запуску на вашем Mac через MLX.

Обновление от 12.03.2026: финальные веса модели с патчем для Mamba attention официально выложены в Hugging Face Hub. Версия для MLX включает квантование q6_K и q8_0.

Архитектурный коктейль: почему это не очередной трансформер

Забудьте про обычные плотные модели. Nemotron-3-Super-120B — это гибридная архитектура, где смешали две горячие технологии 2025-2026 годов.

Компонент Что делает Эффект
LatentMoE (Latent Mixture of Experts) Динамически активирует только 14-16 экспертов из 128 на каждый токен Скорость инференса как у 20B модели, качество — как у 120B
Mamba attention (SSM) Заменяет классическое внимание State Space Model Линейная сложность от длины контекста (64K токенов без раздутия памяти)
Мультимодальный проектор Встроенный адаптер для изображений/аудио (отключаемый) Можно кормить картинки напрямую, без отдельных моделей

Звучит как маркетинг, но цифры не врут. На бенчмарке HarmBench (оценка устойчивости к вредоносным промптам) модель показала 97.1%. На HumanEval (решение программистских задач) — 94.3%. Это ставит ее в один ряд с коммерческими API топ-уровня, но с одной разницей — она uncensored и работает локально.

💡
LatentMoE здесь — не классическая Mixture of Experts. Эксперты активируются в скрытом (latent) пространстве, что резко снижает overhead коммутации. На практике это значит, что даже на CPU с 64 ГБ ОЗУ модель будет дышать, а не задыхаться. Подробнее о выживании MoE в спартанских условиях мы писали в обзоре «64 ГБ RAM, чистая CPU и MoE-модели».

MLX — главный союзник для запуска на Apple Silicon

Изначально модель заточена под PyTorch и NVIDIA. Но комьюнити моментально портировало ее в экосистему MLX — фреймворк Apple для машинного обучения на их чипах. Зачем? Потому что только так можно выжать из M2 Ultra/M3 Max всю мощь, не возясь с трансляцией через Metal Performance Shaders.

Готовые квантованные веса — вот что меняет игру. Вы можете скачать:

  • Nemotron-3-Super-120B-Q6_K.gguf — оптимальный баланс качества и размера (около 65 ГБ).
  • Nemotron-3-Super-120B-Q8_0.gguf — почти без потерь, но уже 78 ГБ (для маньяков качества).

Запуск сводится к одной команде в терминале (если у вас установлен mlx-lm). Никаких танцев с бубном, как это было с ранними MoE через «MoE на RTX 4090». Apple-железо просто молча съедает модель и начинает генерировать текст.

Важно: Mamba attention в MLX реализована через оптимизированные ядра на Metal. На M3 Max с 128 ГБ unified memory генерация идет со скоростью ~12 токенов/сек. Это в 3-4 раза быстрее, чем CPU-инференс той же Llama 3.1 405B через llama.cpp.

С чем вообще конкурирует этот гибрид?

На рынке локальных больших моделей в 2026 году идет жесткая война. Каждая новая архитектура пытается переизобрести эффективность. Вот куда можно воткнуть Nemotron-3-Super-120B в этом ряду.

Модель Размер Ключевая фича Проблема
Nemotron-3-Super-120B 120B (активных ~20B) LatentMoE + Mamba, uncensored Требует много памяти (от 48 ГБ)
Llama 3.2 90B MoE 90B (активных 14B) Стабильность, экосистема Слабее в reasoning, цензура
Minimax m2.1 DWQ 32B Невероятная эффективность на Mac Меньший масштаб, нет MoE
Granite 4 Small MoE 30B Работает на ноутбуке с 8 ГБ VRAM Далеко не 120B по способностям

Главный козырь Nemotron — гибридность. Она объединяет эффективность MoE с линейной сложностью Mamba для длинных контекстов. Если вам нужно анализировать код на 50 тысяч строк или вести диалог в 100к токенов — альтернатив почти нет. Разве что младший брат Nemotron-3-nano:30b, но он проигрывает в глубине.

Кому стоит заморачиваться с этой махиной?

Если у вас Mac Studio с M2 Ultra и 192 ГБ памяти — вопросов нет. Качайте. Но реальность скромнее. Вот портрет пользователя, которому модель принесет реальную пользу, а не головную боль.

  • Исследователи AI/ML, которым нужен uncensored ассистент для генерации синтетических данных, тестирования adversarial атак или экспериментов с новыми архитектурами. Модель — идеальный полигон для абляции и взлома безопасности.
  • Разработчики нишевых enterprise-решений, где данные не могут уходить в облако. 97% на HarmBench — это уровень, который удовлетворяет даже параноидальных compliance-офицеров.
  • Энтузиасты длинного контекста. Писать целую книгу в одном промпте, держа в памяти все сюжетные линии — здесь Mamba attention раскрывается полностью.
  • Создатели мультимодальных агентов. Встроенный проектор позволяет строить голосовых или визуальных ассистентов без лишних слоев. Представьте связку с Kokoro-82M для голоса — и у вас супер-быстрый локальный агент.

Не советую: если у вас MacBook Air с 16 ГБ ОЗУ или ПК с одной RTX 4090. Модель будет тормозить или не запустится. Для 24 ГБ VRAM есть трюки с оффлокированием, но это уже отдельная магия.

Что дальше? Прогноз от 2026 года

Nemotron-3-Super-120B — не конечная точка. Это тестовая площадка. Уже сейчас в репозиториях MLX появляются экспериментальные ветки, где LatentMoE комбинируют с другими SSM-архитектурами (например, с GLA). Скорость инференса обещают поднять еще на 40%.

Мой прогноз: к концу 2026 года мы увидим «облегченную» версию на 60-70 миллиардов параметров, которая будет стабильно работать на M3 Pro с 36 ГБ памяти. А может, и на ноутбуке с 8 ГБ VRAM после хитрых оптимизаций.

Но главный урок этой истории — никогда не скачивайте модель в день релиза. Подождите неделю, пока энтузиасты напишут на чистом C все недостающие ядра. Или пока NVIDIA не выпустит патч. Иначе рискуете стать тестером, который платит за это своим временем и нервами.

Подписаться на канал