Тест NVIDIA Nemotron-3-Nano-4B в GGUF: запуск, сравнение с Phi-4, Qwen3.5 | Март 2026 | AiManual
AiManual Logo Ai / Manual.
16 Мар 2026 Инструмент

Nemotron-3-Nano-4B в GGUF: NVIDIA наконец-то играет по нашим правилам

NVIDIA выпустила компактную модель Nemotron-3-Nano-4B в формате GGUF. Полный гайд: как скачать с Hugging Face, запустить на слабом ПК и сравнить с Phi-4 и Qwen3

Билет в клуб GGUF: NVIDIA сдает позиции

Еще в январе 2026-го скачать Nemotron 3 Nano было квестом. Лицензии на Hugging Face, экзотический формат NVFP4, глюки в LM Studio. NVIDIA будто говорила: «Хотите поиграть с нашей игрушкой? Купите наше железо и танцуйте под нашу дудку». Март всё изменил.

На Хагинг Фейс тихо залили nemotron-3-nano-4b-instruct.Q4_K_M.gguf. Без лишнего шума, без необходимости принимать лицензию вручную. Просто файл. Это не просто обновление — это капитуляция. GGUF, созданный сообществом для llama.cpp, стал де-факто стандартом для локального запуска. И NVIDIA, скрепя сердце, приняла правила игры.

💡
Формат GGUF (GPT-Generated Unified Format) — это открытый формат для хранения квантованных моделей, созданный для llama.cpp. Его главный плюс — полная независимость от конкретного железа. Один файл работает на Mac, Windows, Linux, на процессорах и видеокартах.

Скачивание: два клика вместо двадцати

Старый способ с принятием лицензии умер. Новый — до безобразия прост.

  1. Открываете LM Studio версии 0.3.5 или новее (на 16.03.2026 актуальна 0.3.7).
  2. В поиске вводите «TheBloke/Nemotron-3-Nano-4B-Instruct-GGUF».
  3. Выбираете версию квантования, например, Q4_K_M — оптимальный баланс качества и размера.
  4. Жмете Download. Всё.

Если любите командную строку, качайте через huggingface-hub:

huggingface-cli download TheBloke/Nemotron-3-Nano-4B-Instruct-GGUF nemotron-3-nano-4b-instruct.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False

Файл весит около 2.5 ГБ. Поместится даже на смартфон (теоретически).

Запуск: даже на картофеле

Здесь начинается магия GGUF. У вас есть три пути.

1 LM Studio (для тех, кто не любит терминал)

Загрузили модель — переходите во вкладку «Chat». Выбираете модель, нажимаете «Load». Интерфейс интуитивный, но под капотом он все равно использует llama.cpp. Поддержка GPU ускорителя включается автоматически для карт NVIDIA и AMD через ROCm.

2 llama.cpp напрямую (для контроля)

Скачайте последнюю сборку llama.cpp или соберите из исходников. Команда для запуска на GPU NVIDIA:

./main -m nemotron-3-nano-4b-instruct.Q4_K_M.gguf -n 512 --gpu-layers 32 --temp 0.7 -p "<|user|>\nНапиши код Hello World на Python<|assistant|>"

Флаг --gpu-layers 32 загружает 32 слоя модели в VRAM. Если видеокарты нет или мало памяти, llama.cpp автоматически сбросит вычисления на CPU. На Intel Core i5 12400F без видеокарты модель выдает около 15 токенов в секунду. Не быстро, но работает.

Важный нюанс: в отличие от родного формата NVFP4, GGUF не использует специфичные инструкции карт Blackwell для INT4. Скорость на RTX 5090 будет немного ниже, чем у NVFP4-версии. Но зато запустится на чем угодно.

3 Ollama (для фанатов одной команды)

Создайте Modelfile:

FROM ./nemotron-3-nano-4b-instruct.Q4_K_M.gguf\nTEMPLATE "<|user|>\n{{ .Prompt }}\n<|assistant|>"

И создайте модель: ollama create nemotron:4b -f ./Modelfile. Запускайте: ollama run nemotron:4b.

Тест-драйв: что умеет 4 миллиарда параметров

Я прогнал модель через три типовых сценария. Результаты — ниже.

ЗадачаПромптОтвет Nemotron-3-Nano-4BОценка
КодНапиши функцию Python, которая проверяет, является ли строка палиндромом.
def is_palindrome(s):\n    s = s.lower().replace(" ", "")\n    return s == s[::-1]
Чисто, работает. Добавила lower() и replace(), что умно.
✅ Отлично
РазумЕсли я вчера положил в холодильник три яблока, а сегодня там два, что могло случиться?Возможные варианты: 1. Одно яблоко съели. 2. Одно испортилось и его выбросили. 3. Его переместили в другое место. Нужно проверить.✅ Логично, без галлюцинаций
ИнструкцияОбъясни, как поменять колесо на машине, в трех пунктах.1. Поставь машину на ровную поверхность и затяни ручник. 2. Открути болты на колесе слегка, потом подними машину домкратом. 3. Сними колесо, поставь запаску, закрути болты, опусти машину.⚠️ Порядок верный, но не хватает предупреждения о безопасности. Средне.

Вывод? Для своих размеров модель адекватна. Код пишет лучше, чем рассуждает. Не ждите от нее глубоких философских трактатов — она создана для конкретных инструкций, и с этим справляется. Как и задумывала NVIDIA.

Сравнение: битва нано-моделей 2026 года

4 миллиарда параметров — самый конкурентный класс. Вот как Nemotron держит удар против свежих версий.

МодельРазмер (GGUF Q4)Сильная сторонаСлабая сторонаКому подойдет
Nemotron-3-Nano-4B (март 2026)~2.5 ГБСтабильность, качество кода, низкие требования к RAMСредняя креативность, простые рассужденияНачинающим, для простых задач кодинга на слабом железе
Microsoft Phi-4-Mini-4B (v2, январь 2026)~2.8 ГБЛогика, математика, рассужденияБолее жесткая лицензия, капризен в промптахДля учебных задач, логических головоломок
Qwen3.5-Coder-4B (январь 2026)~2.6 ГБЛучший в классе по генерации кода, поддержка длинного контекстаТребует больше VRAM для полной скоростиРазработчикам, которые пишут код ежедневно
Google Gemma 2 4B (итоговая версия)~2.7 ГББезопасные, «правильные» ответы, хороший английскийИзлишне осторожна, скучнаДля образовательных проектов, где важна безопасность

Nemotron не выигрывает ни в одной категории с разгромным счетом. Но она — самый сбалансированный вариант. Как Toyota Corolla среди малых моделей: завелась на любом железе, сделала свою работу без сюрпризов.

Вердикт: кому загружать эту GGUF-ку?

Эта модель — не для хайпа. Не ждите, что она поразит воображение.

Качайте Nemotron-3-Nano-4B в GGUF, если:

  • У вас компьютер с 8 ГБ ОЗУ без видеокарты. Она запустится.
  • Нужен локальный ассистент для проверки синтаксиса Python или SQL.
  • Надоели глюки с экзотическими форматами, и хочется «просто файл, который работает».
  • Вы только начинаете путь в локальные LLM и не хотите разбираться с квантованием.

Проходите мимо, если:

  • Нужна максимальная скорость на картах Blackwell — берите NVFP4-версии.
  • Хотите, чтобы модель глубоко рассуждала — ваш выбор Phi-4-Reasoning.
  • Нужен лучший код — смотрите в сторону Qwen3.5-Coder.

Финальный прогноз. К концу 2026 года NVIDIA окончательно откажется от проприетарных форматов квантования для потребительских моделей. GGUF победил. И теперь даже гиганты играют на поле сообщества. Скачивайте, пока это бесплатно. Завтра, возможно, они снова захотят продавать вам подписку на облачный инференс.

Подписаться на канал