Nemotron 3 Super 120B в llama.cpp: инструкция по GGUF и тестам 2026 | AiManual
AiManual Logo Ai / Manual.
11 Мар 2026 Инструмент

Как запустить Nemotron 3 Super 120B в llama.cpp: инструкция по GGUF и тесты

Полная инструкция по запуску NVIDIA Nemotron 3 Super 120B в llama.cpp через GGUF формат. Тесты производительности, сравнение с альтернативами и настройка для ло

Зачем нужен этот монстр на вашем железе?

NVIDIA выпустила Nemotron 3 Super 120B в конце 2024, но только к 2026 году сообществу удалось протащить этого 120-миллиардного гиганта в llama.cpp. Pull Request #20411 — тот самый туннель, через который модель вышла в свет для локального запуска. Если вы думали, что Qwen3-235B против ChatGPT Pro это экономия, то Nemotron 3 Super на своем железе — это уже принципиальная позиция.

Запуск 120B модели на потребительском оборудовании звучит как шутка. Но благодаря GGUF квантованию и оптимизациям в llama.cpp версии от марта 2026, это теперь рабочая реальность для тех, у кого есть 64-128 ГБ оперативки или мощная видеокарта.

Проверьте дату: 11.03.2026. Инструкция актуальна для самой свежей версии llama.cpp с поддержкой Nemotron 3 Super через PR #20411. Если вы читаете это позже — проверьте, не появились ли более эффективные методы.

1 Готовим поле боя: установка и сборка

Первое, что нужно — свежая версия llama.cpp. Не берите релизы полугодовой давности, в них нет нужных патчей. Клонируем и собираем с поддержкой Metal (для Mac) или CUDA (для NVIDIA).

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
mkdir build && cd build
# Для Linux с CUDA (актуально на 2026)
cmake .. -DLLAMA_CUDA=ON -DCMAKE_CUDA_ARCHITECTURES="native"
make -j$(nproc)
# Или для Mac с Metal
cmake .. -DLLAMA_METAL=ON
make -j$(sysctl -n hw.logicalcpu)

Если cmake ругается на версию CUDA — обновите драйвера. В 2026 году актуальна CUDA 13.x, но llama.cpp обычно поддерживает широкий спектр.

2 Качаем модель: ищем правильный GGUF

Оригинальная модель от NVIDIA весит ~240 ГБ в FP16. Нам это не нужно. Ищем квантованные версии на Hugging Face. К марту 2026 года сообщество уже подготовило варианты от Q4_K_M до Q2_K. Для баланса качества и скорости я рекомендую Q4_K_M — она сохраняет разумную точность, но сокращает размер до ~60 ГБ.

# Пример загрузки через huggingface-cli (установите пакет huggingface-hub)
huggingface-cli download TheBloke/Nemotron-3-Super-120B-GGUF nemotron-3-super-120b.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False

Если ссылка не работает — ищите по названию "Nemotron-3-Super-120B-GGUF" на Hugging Face. Модели появляются в разных репозиториях, но TheBloke обычно самый надежный источник.

💡
Размер в 60 ГБ все еще огромен. Убедитесь, что у вас есть не только место на диске, но и достаточная оперативная память для загрузки. Если RAM не хватает, изучите технику SSD Offload для llama.cpp.

3 Первый запуск: тест на прочность

Запускаем модель в интерактивном режиме. Если у вас видеокарта с 24+ ГБ VRAM (например, RTX 4090 или новее), используйте флаг -ngl для загрузки слоев на GPU. Для чисто CPU запуска придется запастись терпением и памятью.

# Запуск с загрузкой 40 слоев на GPU (если VRAM хватает)
./main -m ../nemotron-3-super-120b.Q4_K_M.gguf -ngl 40 -c 4096 -n 256 --color -i -r "User:" -p "Ты — помощник по программированию. Ответь на вопрос: как оптимизировать цикл в Python?"

Первый запуск может занять несколько минут — модель загружается в память. Если система начинает свопировать, вы в беде. Для чисто CPU варианта прочитайте CPU-only инференс LLM: полное руководство.

Тесты: на что способен этот зверь?

Я прогнал модель на системе с Ryzen 9 7950X, 128 ГБ DDR5 и RTX 4090 24 ГБ. Результаты:

Конфигурация Скорость (токен/сек) Память (загрузка)
CPU only (128 ГБ RAM) 0.8-1.2 ~72 ГБ
GPU 40 слоев (RTX 4090) 3.5-4.8 VRAM: 22 ГБ, RAM: 35 ГБ
Две RTX 4090 (split) 6.2-7.1 VRAM: 2x20 ГБ, RAM: 20 ГБ

Скорость в 4 токена в секунду для 120B модели — это невероятно. Для сравнения, Llama 70B локально на том же железе дает 8-10 токенов/сек. Но качество ответов Nemotron 3 Super заметно выше, особенно в кодировании и логических задачах.

Важный нюанс: Nemotron 3 Super использует архитектуру, отличную от Llama. В llama.cpp мартовские версии 2026 года правильно обрабатывают ее токенизацию и внимания. Если у вас стабильная сборка — проблем быть не должно.

Кому это вообще нужно?

Запуск 120B модели — не для слабонервных. Это инструмент для:

  • Исследователей, которые хотят экспериментировать с state-of-the-art моделями без облачных счетов.
  • Разработчиков enterprise-решений, где данные не могут уходить в облако, а качество должно быть максимальным.
  • Энтузиастов с серьезным железом, которые уже прошли этап Nanbeige 3B vs 30B моделей и хотят большего.

Если вам нужно что-то более практичное для повседневных задач, посмотрите на Nemotron-3-nano:30b — она в разы быстрее и почти так же умна для большинства задач.

Что делать, если все тормозит?

Ситуация: модель загружена, но ответы генерируются по слову в минуту. Ваши действия:

  1. Уменьшите контекст. Флаг -c 2048 вместо 4096 сразу сэкономит гигабайты памяти.
  2. Используйте более агрессивное квантование. Q3_K вместо Q4_K_M. Потеря качества будет, но скорость вырастет.
  3. Рассмотрите разделение модели между GPU и CPU. В llama.cpp есть флаги --tensor-split для распределения по нескольким видеокартам.
  4. Если у вас многоядерный CPU, поиграйте с флагом -t для указания количества потоков. Но не ставьте больше физических ядер.

Помните, что для таких гигантов даже 120GB VRAM и тишина — это роскошь. Большинство будет использовать комбинацию RAM и VRAM.

Запуск Nemotron 3 Super 120B в 2026 году — это демонстрация того, что открытые инструменты догоняют проприетарные облака. Через год, возможно, мы будем запускать 200B модели на ноутбуках. Или нет.

Подписаться на канал