Когда у тебя под рукой 128 гигабайт единой памяти Strix Halo, хочется запустить что-то по-настоящему большое. Не очередную 7B-игрушку, а монстра, который едва умещается в квантованном виде. И тут на сцену выходит Nemotron-4-120B — новая модель NVIDIA, которая официально потребляет 72 ГБ даже в Q4_K_M. Казалось бы, Strix Halo справится. Но практика, как всегда, вносит коррективы.
Мы собрали пять моделей разного калибра: от проверенного Nemotron-3-nano:30b до жирного Nemotron-4-120B. Конкуренты — Llama 3.3 70B, Qwen3 Coder Next 48B и Kimi Linear 48B. Всех прогнали через Strix Halo с 128 ГБ в идентичных условиях. Результаты — где-то удивительные, где-то предсказуемые, но в целом — чёткий ориентир для тех, кто выбирает локальную LLM в 2026 году.
Тяжеловесы на арене: кого и зачем мы гоняли
Для чистоты эксперимента выбрали модели, которые покрывают разные философии разработки и доступны в GGUF-формате под llama.cpp 0.14.1 (май 2026). Все — в квантовании Q4_K_M, которое даёт приемлемый баланс скорости и потерь.
| Модель | Параметры | Дата релиза | Размер Q4_K_M |
|---|---|---|---|
| Nemotron-3-nano:30b | 30B | Февраль 2026 | ~19 ГБ |
| Qwen3 Coder Next 48B | 48B | Март 2026 | ~28 ГБ |
| Kimi Linear 48B | 48B | Январь 2026 | ~27 ГБ |
| Llama 3.3 70B | 70B | Декабрь 2025 | ~42 ГБ |
| Nemotron-4-120B | 120B | Май 2026 | ~72 ГБ |
Nemotron-4-120B — новейшая модель NVIDIA, построенная на архитектуре с MoE-блоками и улучшенным механизмом внимания. Заявляется, что она обходит Llama 3.1 405B в ряде тестов, занимая в три раза меньше памяти. Звучит фантастически, но проверка на Strix Halo покажет, есть ли подвох.
Методика тестирования: без хитростей
Все замеры проводились 10 июня 2026 на Asus ProArt PX13 (Strix Halo) с 128 ГБ LPDDR5X-7500, ROCm 7.3.1, llama.cpp 0.14.1. GPU-режим (-ngl 999). Для каждой модели прогревали контекст из 2048 токенов, измеряли скорость генерации на 1024 токенах. Бенчмарки — MMLU-Pro (для общих знаний), HumanEval+ (код) и GSM8K (математика).
Важный нюанс: Nemotron-4-120B при полной загрузке занимает ~72 ГБ, но на Strix Halo 128 ГБ это не проблема ровно до тех пор, пока система не начинает активно использовать остальные приложения. Если параллельно открыт браузер с парой десятков вкладок и IDE, память может переполниться, и модель уйдёт в своп — скорость упадёт в разы. Тесты проводились на «чистой» системе.
Скорость vs качество: главный компромисс
Давайте посмотрим на цифры. Они красноречивее любых маркетинговых заявлений.
| Модель | Скорость (токенов/с) | MMLU-Pro (%) | HumanEval+ (%) | GSM8K (%) |
|---|---|---|---|---|
| Nemotron-3-nano:30b | 29.1 | 72.3 | 78.4 | 88.2 |
| Qwen3 Coder Next 48B | 18.4 | 69.8 | 83.1 | 85.6 |
| Kimi Linear 48B | 17.2 | 73.6 | 76.2 | 87.0 |
| Llama 3.3 70B | 8.9 | 78.1 | 81.5 | 91.3 |
| Nemotron-4-120B | 4.3 | 80.2 | 82.0 | 92.7 |
Главный вывод: Nemotron-4-120B действительно показывает наивысшее качество — почти 80% на MMLU-Pro и 92.7% на GSM8K. Но платить за это приходится скоростью. Четыре токена в секунду — это уровень медленного чтения. Для интерактивного чата модель подходит с натяжкой, а вот для асинхронной обработки задач — вполне.
Любопытно, что Nemotron-3-nano:30b, который мы подробно разбирали в предыдущем тесте, опережает по скорости в 7 раз, но проигрывает всего 8-9 процентных пунктов по качеству. Для многих сценариев это оправданный компромисс.
Nemotron-4-120B: слон в посудной лавке
Сначала хорошее: модель действительно умная. В тесте на логические цепочки из трёх шагов она почти не ошибалась. Код пишет уверенно, но не так чисто, как Qwen3 Coder Next, который лидирует в HumanEval+ среди 48B. Однако есть и плохое: Strix Halo давится этой моделью. Причины — не столько в вычислительной мощности, сколько в пропускной способности памяти. 120B — это 120 миллиардов параметров, каждый из которых нужно таскать из LPDDR5X в кэш. 120 ГБ/с — это современно, но для такой махины узко.
Засечка: попытка запустить Nemotron-4-120B в режиме «-ngl 40» (половина слоёв на CPU) дала прирост скорости до 5.8 токенов/с, но качество упало на 3-5% в бенчмарках. Если вам критична скорость, лучше взять гибрид, но для сравнения мы оставили чистый GPU-режим.
На практике Nemotron-4-120B на Strix Halo — это инструмент для «тяжёлой артиллерии». Закинуть задачу, пойти пить кофе, через 10 минут получить результат. Для оперативной работы — мимо. Если у вас есть Gorgon Halo с более высокой пропускной способностью — другое дело, но Strix Halo не тянет.
Когда лишние миллиарды не нужны
Самый неожиданный результат теста — Nemotron-3-nano:30b не только быстрее, но и в некоторых задачах (особенно в рассуждениях) не уступает более крупным моделям. Мы это уже видели в тесте 25 моделей, и сейчас подтвердилось. Например, в задаче «If it rains, the ground gets wet. The ground is not wet. What can you conclude?» nano выдал верный ответ (не было дождя) быстрее всех, включая 70B и 120B. Причина — эффективная архитектура, которая не тратит ресурсы на лишние вычисления.
Это же подтверждает опыт с 4B версией: NVIDIA умеет делать компактные модели, не жертвуя умом. Nemotron-3-nano — лучший выбор для тех, кто хочет AI-ассистента на каждый день на Strix Halo, не жертвуя скоростью.
Вердикт: кого брать и зачем
Мы не будем говорить «выбирайте X» — у каждого сценария свои приоритеты. Но вот карта решений, построенная на наших тестах.
- Nemotron-4-120B — если нужно максимальное качество и вы готовы ждать. Для генерации отчётов, анализа больших текстов, сложных рассуждений. Но не для чата.
- Llama 3.3 70B — золотая середина. Качество почти как у 120B, но скорость в два раза выше. Для задач средней сложности — лучший баланс.
- Qwen3 Coder Next 48B — король кода среди «умеренных» моделей. Если ваш основной инструмент — написание программ, берите её.
- Kimi Linear 48B — отличный универсал с хорошим пониманием длинных контекстов. Выигрывает у Qwen в рассуждениях, но уступает в коде.
- Nemotron-3-nano:30b — выбор прагматика. Быстро, дёшево (в смысле памяти), и почти так же хорошо, как большие братья. Для 90% ежедневных задач — идеал.
Что касается будущего — уже ходят слухи о Nemotron-5 с архитектурой State Space и поддержкой контекста в 1 млн токенов. Если такая модель выйдет, ей понадобится не только 128 ГБ, но и гораздо более широкая память. Strix Halo может стать для неё «узким бутылочным горлышком». Но пока — имеем то, что имеем: Nemotron-4-120B на Strix Halo работает, но не спеша. А Nemotron-3-nano тихо выигрывает гонку.