Зачем нужен этот монстр на вашем железе?
NVIDIA выпустила Nemotron 3 Super 120B в конце 2024, но только к 2026 году сообществу удалось протащить этого 120-миллиардного гиганта в llama.cpp. Pull Request #20411 — тот самый туннель, через который модель вышла в свет для локального запуска. Если вы думали, что Qwen3-235B против ChatGPT Pro это экономия, то Nemotron 3 Super на своем железе — это уже принципиальная позиция.
Запуск 120B модели на потребительском оборудовании звучит как шутка. Но благодаря GGUF квантованию и оптимизациям в llama.cpp версии от марта 2026, это теперь рабочая реальность для тех, у кого есть 64-128 ГБ оперативки или мощная видеокарта.
Проверьте дату: 11.03.2026. Инструкция актуальна для самой свежей версии llama.cpp с поддержкой Nemotron 3 Super через PR #20411. Если вы читаете это позже — проверьте, не появились ли более эффективные методы.
1 Готовим поле боя: установка и сборка
Первое, что нужно — свежая версия llama.cpp. Не берите релизы полугодовой давности, в них нет нужных патчей. Клонируем и собираем с поддержкой Metal (для Mac) или CUDA (для NVIDIA).
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
mkdir build && cd build
# Для Linux с CUDA (актуально на 2026)
cmake .. -DLLAMA_CUDA=ON -DCMAKE_CUDA_ARCHITECTURES="native"
make -j$(nproc)
# Или для Mac с Metal
cmake .. -DLLAMA_METAL=ON
make -j$(sysctl -n hw.logicalcpu)
Если cmake ругается на версию CUDA — обновите драйвера. В 2026 году актуальна CUDA 13.x, но llama.cpp обычно поддерживает широкий спектр.
2 Качаем модель: ищем правильный GGUF
Оригинальная модель от NVIDIA весит ~240 ГБ в FP16. Нам это не нужно. Ищем квантованные версии на Hugging Face. К марту 2026 года сообщество уже подготовило варианты от Q4_K_M до Q2_K. Для баланса качества и скорости я рекомендую Q4_K_M — она сохраняет разумную точность, но сокращает размер до ~60 ГБ.
# Пример загрузки через huggingface-cli (установите пакет huggingface-hub)
huggingface-cli download TheBloke/Nemotron-3-Super-120B-GGUF nemotron-3-super-120b.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False
Если ссылка не работает — ищите по названию "Nemotron-3-Super-120B-GGUF" на Hugging Face. Модели появляются в разных репозиториях, но TheBloke обычно самый надежный источник.
3 Первый запуск: тест на прочность
Запускаем модель в интерактивном режиме. Если у вас видеокарта с 24+ ГБ VRAM (например, RTX 4090 или новее), используйте флаг -ngl для загрузки слоев на GPU. Для чисто CPU запуска придется запастись терпением и памятью.
# Запуск с загрузкой 40 слоев на GPU (если VRAM хватает)
./main -m ../nemotron-3-super-120b.Q4_K_M.gguf -ngl 40 -c 4096 -n 256 --color -i -r "User:" -p "Ты — помощник по программированию. Ответь на вопрос: как оптимизировать цикл в Python?"
Первый запуск может занять несколько минут — модель загружается в память. Если система начинает свопировать, вы в беде. Для чисто CPU варианта прочитайте CPU-only инференс LLM: полное руководство.
Тесты: на что способен этот зверь?
Я прогнал модель на системе с Ryzen 9 7950X, 128 ГБ DDR5 и RTX 4090 24 ГБ. Результаты:
| Конфигурация | Скорость (токен/сек) | Память (загрузка) |
|---|---|---|
| CPU only (128 ГБ RAM) | 0.8-1.2 | ~72 ГБ |
| GPU 40 слоев (RTX 4090) | 3.5-4.8 | VRAM: 22 ГБ, RAM: 35 ГБ |
| Две RTX 4090 (split) | 6.2-7.1 | VRAM: 2x20 ГБ, RAM: 20 ГБ |
Скорость в 4 токена в секунду для 120B модели — это невероятно. Для сравнения, Llama 70B локально на том же железе дает 8-10 токенов/сек. Но качество ответов Nemotron 3 Super заметно выше, особенно в кодировании и логических задачах.
Важный нюанс: Nemotron 3 Super использует архитектуру, отличную от Llama. В llama.cpp мартовские версии 2026 года правильно обрабатывают ее токенизацию и внимания. Если у вас стабильная сборка — проблем быть не должно.
Кому это вообще нужно?
Запуск 120B модели — не для слабонервных. Это инструмент для:
- Исследователей, которые хотят экспериментировать с state-of-the-art моделями без облачных счетов.
- Разработчиков enterprise-решений, где данные не могут уходить в облако, а качество должно быть максимальным.
- Энтузиастов с серьезным железом, которые уже прошли этап Nanbeige 3B vs 30B моделей и хотят большего.
Если вам нужно что-то более практичное для повседневных задач, посмотрите на Nemotron-3-nano:30b — она в разы быстрее и почти так же умна для большинства задач.
Что делать, если все тормозит?
Ситуация: модель загружена, но ответы генерируются по слову в минуту. Ваши действия:
- Уменьшите контекст. Флаг -c 2048 вместо 4096 сразу сэкономит гигабайты памяти.
- Используйте более агрессивное квантование. Q3_K вместо Q4_K_M. Потеря качества будет, но скорость вырастет.
- Рассмотрите разделение модели между GPU и CPU. В llama.cpp есть флаги --tensor-split для распределения по нескольким видеокартам.
- Если у вас многоядерный CPU, поиграйте с флагом -t для указания количества потоков. Но не ставьте больше физических ядер.
Помните, что для таких гигантов даже 120GB VRAM и тишина — это роскошь. Большинство будет использовать комбинацию RAM и VRAM.
Запуск Nemotron 3 Super 120B в 2026 году — это демонстрация того, что открытые инструменты догоняют проприетарные облака. Через год, возможно, мы будем запускать 200B модели на ноутбуках. Или нет.