Билет в клуб GGUF: NVIDIA сдает позиции
Еще в январе 2026-го скачать Nemotron 3 Nano было квестом. Лицензии на Hugging Face, экзотический формат NVFP4, глюки в LM Studio. NVIDIA будто говорила: «Хотите поиграть с нашей игрушкой? Купите наше железо и танцуйте под нашу дудку». Март всё изменил.
На Хагинг Фейс тихо залили nemotron-3-nano-4b-instruct.Q4_K_M.gguf. Без лишнего шума, без необходимости принимать лицензию вручную. Просто файл. Это не просто обновление — это капитуляция. GGUF, созданный сообществом для llama.cpp, стал де-факто стандартом для локального запуска. И NVIDIA, скрепя сердце, приняла правила игры.
Скачивание: два клика вместо двадцати
Старый способ с принятием лицензии умер. Новый — до безобразия прост.
- Открываете LM Studio версии 0.3.5 или новее (на 16.03.2026 актуальна 0.3.7).
- В поиске вводите «TheBloke/Nemotron-3-Nano-4B-Instruct-GGUF».
- Выбираете версию квантования, например,
Q4_K_M— оптимальный баланс качества и размера. - Жмете Download. Всё.
Если любите командную строку, качайте через huggingface-hub:
huggingface-cli download TheBloke/Nemotron-3-Nano-4B-Instruct-GGUF nemotron-3-nano-4b-instruct.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks FalseФайл весит около 2.5 ГБ. Поместится даже на смартфон (теоретически).
Запуск: даже на картофеле
Здесь начинается магия GGUF. У вас есть три пути.
1 LM Studio (для тех, кто не любит терминал)
Загрузили модель — переходите во вкладку «Chat». Выбираете модель, нажимаете «Load». Интерфейс интуитивный, но под капотом он все равно использует llama.cpp. Поддержка GPU ускорителя включается автоматически для карт NVIDIA и AMD через ROCm.
2 llama.cpp напрямую (для контроля)
Скачайте последнюю сборку llama.cpp или соберите из исходников. Команда для запуска на GPU NVIDIA:
./main -m nemotron-3-nano-4b-instruct.Q4_K_M.gguf -n 512 --gpu-layers 32 --temp 0.7 -p "<|user|>\nНапиши код Hello World на Python<|assistant|>"Флаг --gpu-layers 32 загружает 32 слоя модели в VRAM. Если видеокарты нет или мало памяти, llama.cpp автоматически сбросит вычисления на CPU. На Intel Core i5 12400F без видеокарты модель выдает около 15 токенов в секунду. Не быстро, но работает.
Важный нюанс: в отличие от родного формата NVFP4, GGUF не использует специфичные инструкции карт Blackwell для INT4. Скорость на RTX 5090 будет немного ниже, чем у NVFP4-версии. Но зато запустится на чем угодно.
3 Ollama (для фанатов одной команды)
Создайте Modelfile:
FROM ./nemotron-3-nano-4b-instruct.Q4_K_M.gguf\nTEMPLATE "<|user|>\n{{ .Prompt }}\n<|assistant|>"И создайте модель: ollama create nemotron:4b -f ./Modelfile. Запускайте: ollama run nemotron:4b.
Тест-драйв: что умеет 4 миллиарда параметров
Я прогнал модель через три типовых сценария. Результаты — ниже.
| Задача | Промпт | Ответ Nemotron-3-Nano-4B | Оценка |
|---|---|---|---|
| Код | Напиши функцию Python, которая проверяет, является ли строка палиндромом. | Чисто, работает. Добавила lower() и replace(), что умно. | ✅ Отлично |
| Разум | Если я вчера положил в холодильник три яблока, а сегодня там два, что могло случиться? | Возможные варианты: 1. Одно яблоко съели. 2. Одно испортилось и его выбросили. 3. Его переместили в другое место. Нужно проверить. | ✅ Логично, без галлюцинаций |
| Инструкция | Объясни, как поменять колесо на машине, в трех пунктах. | 1. Поставь машину на ровную поверхность и затяни ручник. 2. Открути болты на колесе слегка, потом подними машину домкратом. 3. Сними колесо, поставь запаску, закрути болты, опусти машину. | ⚠️ Порядок верный, но не хватает предупреждения о безопасности. Средне. |
Вывод? Для своих размеров модель адекватна. Код пишет лучше, чем рассуждает. Не ждите от нее глубоких философских трактатов — она создана для конкретных инструкций, и с этим справляется. Как и задумывала NVIDIA.
Сравнение: битва нано-моделей 2026 года
4 миллиарда параметров — самый конкурентный класс. Вот как Nemotron держит удар против свежих версий.
| Модель | Размер (GGUF Q4) | Сильная сторона | Слабая сторона | Кому подойдет |
|---|---|---|---|---|
| Nemotron-3-Nano-4B (март 2026) | ~2.5 ГБ | Стабильность, качество кода, низкие требования к RAM | Средняя креативность, простые рассуждения | Начинающим, для простых задач кодинга на слабом железе |
| Microsoft Phi-4-Mini-4B (v2, январь 2026) | ~2.8 ГБ | Логика, математика, рассуждения | Более жесткая лицензия, капризен в промптах | Для учебных задач, логических головоломок |
| Qwen3.5-Coder-4B (январь 2026) | ~2.6 ГБ | Лучший в классе по генерации кода, поддержка длинного контекста | Требует больше VRAM для полной скорости | Разработчикам, которые пишут код ежедневно |
| Google Gemma 2 4B (итоговая версия) | ~2.7 ГБ | Безопасные, «правильные» ответы, хороший английский | Излишне осторожна, скучна | Для образовательных проектов, где важна безопасность |
Nemotron не выигрывает ни в одной категории с разгромным счетом. Но она — самый сбалансированный вариант. Как Toyota Corolla среди малых моделей: завелась на любом железе, сделала свою работу без сюрпризов.
Вердикт: кому загружать эту GGUF-ку?
Эта модель — не для хайпа. Не ждите, что она поразит воображение.
Качайте Nemotron-3-Nano-4B в GGUF, если:
- У вас компьютер с 8 ГБ ОЗУ без видеокарты. Она запустится.
- Нужен локальный ассистент для проверки синтаксиса Python или SQL.
- Надоели глюки с экзотическими форматами, и хочется «просто файл, который работает».
- Вы только начинаете путь в локальные LLM и не хотите разбираться с квантованием.
Проходите мимо, если:
- Нужна максимальная скорость на картах Blackwell — берите NVFP4-версии.
- Хотите, чтобы модель глубоко рассуждала — ваш выбор Phi-4-Reasoning.
- Нужен лучший код — смотрите в сторону Qwen3.5-Coder.
Финальный прогноз. К концу 2026 года NVIDIA окончательно откажется от проприетарных форматов квантования для потребительских моделей. GGUF победил. И теперь даже гиганты играют на поле сообщества. Скачивайте, пока это бесплатно. Завтра, возможно, они снова захотят продавать вам подписку на облачный инференс.