Гигант, который чуть не сгорел на старте
NVIDIA выпустила Nemotron-3-Super-120B в начале марта 2026, и это была настоящая катастрофа. Не модель, а огненный шар. Первые файлы весов содержали критическую ошибку в реализации Mamba attention — она просто отказывалась работать с квантованными версиями для MLX. Сообщество взорвалось. «120 миллиардов параметров для декора?» — спрашивали на форумах.
Через три дня титанической работы энтузиастов появился патч и исправленные файлы. И сейчас перед нами не просто исправленная модель, а один из самых технически интересных проектов года. LatentMoE, Mamba attention, и все это — в 120-миллиардном uncensored варианте, готовом к запуску на вашем Mac через MLX.
Обновление от 12.03.2026: финальные веса модели с патчем для Mamba attention официально выложены в Hugging Face Hub. Версия для MLX включает квантование q6_K и q8_0.
Архитектурный коктейль: почему это не очередной трансформер
Забудьте про обычные плотные модели. Nemotron-3-Super-120B — это гибридная архитектура, где смешали две горячие технологии 2025-2026 годов.
| Компонент | Что делает | Эффект |
|---|---|---|
| LatentMoE (Latent Mixture of Experts) | Динамически активирует только 14-16 экспертов из 128 на каждый токен | Скорость инференса как у 20B модели, качество — как у 120B |
| Mamba attention (SSM) | Заменяет классическое внимание State Space Model | Линейная сложность от длины контекста (64K токенов без раздутия памяти) |
| Мультимодальный проектор | Встроенный адаптер для изображений/аудио (отключаемый) | Можно кормить картинки напрямую, без отдельных моделей |
Звучит как маркетинг, но цифры не врут. На бенчмарке HarmBench (оценка устойчивости к вредоносным промптам) модель показала 97.1%. На HumanEval (решение программистских задач) — 94.3%. Это ставит ее в один ряд с коммерческими API топ-уровня, но с одной разницей — она uncensored и работает локально.
MLX — главный союзник для запуска на Apple Silicon
Изначально модель заточена под PyTorch и NVIDIA. Но комьюнити моментально портировало ее в экосистему MLX — фреймворк Apple для машинного обучения на их чипах. Зачем? Потому что только так можно выжать из M2 Ultra/M3 Max всю мощь, не возясь с трансляцией через Metal Performance Shaders.
Готовые квантованные веса — вот что меняет игру. Вы можете скачать:
- Nemotron-3-Super-120B-Q6_K.gguf — оптимальный баланс качества и размера (около 65 ГБ).
- Nemotron-3-Super-120B-Q8_0.gguf — почти без потерь, но уже 78 ГБ (для маньяков качества).
Запуск сводится к одной команде в терминале (если у вас установлен mlx-lm). Никаких танцев с бубном, как это было с ранними MoE через «MoE на RTX 4090». Apple-железо просто молча съедает модель и начинает генерировать текст.
Важно: Mamba attention в MLX реализована через оптимизированные ядра на Metal. На M3 Max с 128 ГБ unified memory генерация идет со скоростью ~12 токенов/сек. Это в 3-4 раза быстрее, чем CPU-инференс той же Llama 3.1 405B через llama.cpp.
С чем вообще конкурирует этот гибрид?
На рынке локальных больших моделей в 2026 году идет жесткая война. Каждая новая архитектура пытается переизобрести эффективность. Вот куда можно воткнуть Nemotron-3-Super-120B в этом ряду.
| Модель | Размер | Ключевая фича | Проблема |
|---|---|---|---|
| Nemotron-3-Super-120B | 120B (активных ~20B) | LatentMoE + Mamba, uncensored | Требует много памяти (от 48 ГБ) |
| Llama 3.2 90B MoE | 90B (активных 14B) | Стабильность, экосистема | Слабее в reasoning, цензура |
| Minimax m2.1 DWQ | 32B | Невероятная эффективность на Mac | Меньший масштаб, нет MoE |
| Granite 4 Small MoE | 30B | Работает на ноутбуке с 8 ГБ VRAM | Далеко не 120B по способностям |
Главный козырь Nemotron — гибридность. Она объединяет эффективность MoE с линейной сложностью Mamba для длинных контекстов. Если вам нужно анализировать код на 50 тысяч строк или вести диалог в 100к токенов — альтернатив почти нет. Разве что младший брат Nemotron-3-nano:30b, но он проигрывает в глубине.
Кому стоит заморачиваться с этой махиной?
Если у вас Mac Studio с M2 Ultra и 192 ГБ памяти — вопросов нет. Качайте. Но реальность скромнее. Вот портрет пользователя, которому модель принесет реальную пользу, а не головную боль.
- Исследователи AI/ML, которым нужен uncensored ассистент для генерации синтетических данных, тестирования adversarial атак или экспериментов с новыми архитектурами. Модель — идеальный полигон для абляции и взлома безопасности.
- Разработчики нишевых enterprise-решений, где данные не могут уходить в облако. 97% на HarmBench — это уровень, который удовлетворяет даже параноидальных compliance-офицеров.
- Энтузиасты длинного контекста. Писать целую книгу в одном промпте, держа в памяти все сюжетные линии — здесь Mamba attention раскрывается полностью.
- Создатели мультимодальных агентов. Встроенный проектор позволяет строить голосовых или визуальных ассистентов без лишних слоев. Представьте связку с Kokoro-82M для голоса — и у вас супер-быстрый локальный агент.
Не советую: если у вас MacBook Air с 16 ГБ ОЗУ или ПК с одной RTX 4090. Модель будет тормозить или не запустится. Для 24 ГБ VRAM есть трюки с оффлокированием, но это уже отдельная магия.
Что дальше? Прогноз от 2026 года
Nemotron-3-Super-120B — не конечная точка. Это тестовая площадка. Уже сейчас в репозиториях MLX появляются экспериментальные ветки, где LatentMoE комбинируют с другими SSM-архитектурами (например, с GLA). Скорость инференса обещают поднять еще на 40%.
Мой прогноз: к концу 2026 года мы увидим «облегченную» версию на 60-70 миллиардов параметров, которая будет стабильно работать на M3 Pro с 36 ГБ памяти. А может, и на ноутбуке с 8 ГБ VRAM после хитрых оптимизаций.
Но главный урок этой истории — никогда не скачивайте модель в день релиза. Подождите неделю, пока энтузиасты напишут на чистом C все недостающие ядра. Или пока NVIDIA не выпустит патч. Иначе рискуете стать тестером, который платит за это своим временем и нервами.