Билет в клуб GGUF: NVIDIA сдает позиции

Еще в январе 2026-го скачать Nemotron 3 Nano было квестом. Лицензии на Hugging Face, экзотический формат NVFP4, глюки в LM Studio. NVIDIA будто говорила: «Хотите поиграть с нашей игрушкой? Купите наше железо и танцуйте под нашу дудку». Март всё изменил.

На Хагинг Фейс тихо залили nemotron-3-nano-4b-instruct.Q4_K_M.gguf. Без лишнего шума, без необходимости принимать лицензию вручную. Просто файл. Это не просто обновление — это капитуляция. GGUF, созданный сообществом для llama.cpp, стал де-факто стандартом для локального запуска. И NVIDIA, скрепя сердце, приняла правила игры.

💡

Формат GGUF (GPT-Generated Unified Format) — это открытый формат для хранения квантованных моделей, созданный для llama.cpp. Его главный плюс — полная независимость от конкретного железа. Один файл работает на Mac, Windows, Linux, на процессорах и видеокартах.

Скачивание: два клика вместо двадцати

Старый способ с принятием лицензии умер. Новый — до безобразия прост.

Открываете LM Studio версии 0.3.5 или новее (на 16.03.2026 актуальна 0.3.7).
В поиске вводите «TheBloke/Nemotron-3-Nano-4B-Instruct-GGUF».
Выбираете версию квантования, например, Q4_K_M — оптимальный баланс качества и размера.
Жмете Download. Всё.

Если любите командную строку, качайте через huggingface-hub:

huggingface-cli download TheBloke/Nemotron-3-Nano-4B-Instruct-GGUF nemotron-3-nano-4b-instruct.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False

Файл весит около 2.5 ГБ. Поместится даже на смартфон (теоретически).

Запуск: даже на картофеле

Здесь начинается магия GGUF. У вас есть три пути.

1 LM Studio (для тех, кто не любит терминал)

Загрузили модель — переходите во вкладку «Chat». Выбираете модель, нажимаете «Load». Интерфейс интуитивный, но под капотом он все равно использует llama.cpp. Поддержка GPU ускорителя включается автоматически для карт NVIDIA и AMD через ROCm.

2 llama.cpp напрямую (для контроля)

Скачайте последнюю сборку llama.cpp или соберите из исходников. Команда для запуска на GPU NVIDIA:

./main -m nemotron-3-nano-4b-instruct.Q4_K_M.gguf -n 512 --gpu-layers 32 --temp 0.7 -p "<|user|>\nНапиши код Hello World на Python<|assistant|>"

Флаг --gpu-layers 32 загружает 32 слоя модели в VRAM. Если видеокарты нет или мало памяти, llama.cpp автоматически сбросит вычисления на CPU. На Intel Core i5 12400F без видеокарты модель выдает около 15 токенов в секунду. Не быстро, но работает.

Важный нюанс: в отличие от родного формата NVFP4, GGUF не использует специфичные инструкции карт Blackwell для INT4. Скорость на RTX 5090 будет немного ниже, чем у NVFP4-версии. Но зато запустится на чем угодно.

3 Ollama (для фанатов одной команды)

Создайте Modelfile:

FROM ./nemotron-3-nano-4b-instruct.Q4_K_M.gguf\nTEMPLATE "<|user|>\n{{ .Prompt }}\n<|assistant|>"

И создайте модель: ollama create nemotron:4b -f ./Modelfile. Запускайте: ollama run nemotron:4b.

Тест-драйв: что умеет 4 миллиарда параметров

Я прогнал модель через три типовых сценария. Результаты — ниже.

Задача	Промпт	Ответ Nemotron-3-Nano-4B	Оценка
Код	Напиши функцию Python, которая проверяет, является ли строка палиндромом.	`def is_palindrome(s):\n s = s.lower().replace(" ", "")\n return s == s[::-1]` Чисто, работает. Добавила lower() и replace(), что умно.	✅ Отлично
Разум	Если я вчера положил в холодильник три яблока, а сегодня там два, что могло случиться?	Возможные варианты: 1. Одно яблоко съели. 2. Одно испортилось и его выбросили. 3. Его переместили в другое место. Нужно проверить.	✅ Логично, без галлюцинаций
Инструкция	Объясни, как поменять колесо на машине, в трех пунктах.	1. Поставь машину на ровную поверхность и затяни ручник. 2. Открути болты на колесе слегка, потом подними машину домкратом. 3. Сними колесо, поставь запаску, закрути болты, опусти машину.	⚠️ Порядок верный, но не хватает предупреждения о безопасности. Средне.

Вывод? Для своих размеров модель адекватна. Код пишет лучше, чем рассуждает. Не ждите от нее глубоких философских трактатов — она создана для конкретных инструкций, и с этим справляется. Как и задумывала NVIDIA.

Сравнение: битва нано-моделей 2026 года

4 миллиарда параметров — самый конкурентный класс. Вот как Nemotron держит удар против свежих версий.

Модель	Размер (GGUF Q4)	Сильная сторона	Слабая сторона	Кому подойдет
Nemotron-3-Nano-4B (март 2026)	~2.5 ГБ	Стабильность, качество кода, низкие требования к RAM	Средняя креативность, простые рассуждения	Начинающим, для простых задач кодинга на слабом железе
Microsoft Phi-4-Mini-4B (v2, январь 2026)	~2.8 ГБ	Логика, математика, рассуждения	Более жесткая лицензия, капризен в промптах	Для учебных задач, логических головоломок
Qwen3.5-Coder-4B (январь 2026)	~2.6 ГБ	Лучший в классе по генерации кода, поддержка длинного контекста	Требует больше VRAM для полной скорости	Разработчикам, которые пишут код ежедневно
Google Gemma 2 4B (итоговая версия)	~2.7 ГБ	Безопасные, «правильные» ответы, хороший английский	Излишне осторожна, скучна	Для образовательных проектов, где важна безопасность

Nemotron не выигрывает ни в одной категории с разгромным счетом. Но она — самый сбалансированный вариант. Как Toyota Corolla среди малых моделей: завелась на любом железе, сделала свою работу без сюрпризов.

Вердикт: кому загружать эту GGUF-ку?

Эта модель — не для хайпа. Не ждите, что она поразит воображение.

Качайте Nemotron-3-Nano-4B в GGUF, если:

У вас компьютер с 8 ГБ ОЗУ без видеокарты. Она запустится.
Нужен локальный ассистент для проверки синтаксиса Python или SQL.
Надоели глюки с экзотическими форматами, и хочется «просто файл, который работает».
Вы только начинаете путь в локальные LLM и не хотите разбираться с квантованием.

Проходите мимо, если:

Нужна максимальная скорость на картах Blackwell — берите NVFP4-версии.
Хотите, чтобы модель глубоко рассуждала — ваш выбор Phi-4-Reasoning.
Нужен лучший код — смотрите в сторону Qwen3.5-Coder.

Финальный прогноз. К концу 2026 года NVIDIA окончательно откажется от проприетарных форматов квантования для потребительских моделей. GGUF победил. И теперь даже гиганты играют на поле сообщества. Скачивайте, пока это бесплатно. Завтра, возможно, они снова захотят продавать вам подписку на облачный инференс.

Подписаться на канал

Nemotron-3-Nano-4B в GGUF: NVIDIA наконец-то играет по нашим правилам