Какая скорость генерации у Nemotron-3 120B на контексте в 512K токенов?

При полной загрузке контекста в 512 тысяч токенов скорость генерации составляет около 12.8 токенов в секунду, а Time to First Token (TTFT) — 14.7 секунд.

Влезает ли Nemotron-3 120B с контекстом 512K в память RTX Pro 6000 Blackwell?

Да, благодаря использованию формата FP8 для модели и KV-кэша, вся система занимает примерно 71 ГБ из 72 ГБ доступной HBM4 памяти на карте.

Бенчмарк Nemotron-3 120B на RTX Pro 6000: скорость 512K контекста

512 тысяч токенов: когда контекст перестает быть проблемой

Все говорят про длинный контекст. Каждая новая модель клянется, что ее 128K, 256K, а то и миллион токенов изменят все. Но когда вы пытаетесь запустить такую модель локально, она либо не влезает в память, либо генерирует текст со скоростью печатной машинки XIX века. Мы взяли новейшую карту RTX Pro 6000 Blackwell и свежайшую модель Nemotron-3 120B, чтобы проверить, что реально можно выжать из 512K контекста в марте 2026 года.

💡

RTX Pro 6000 Blackwell — это не просто обновление архитектуры. Здесь впервые в потребительском сегменте (если можно так назвать карту за 10+ тысяч долларов) появилась полноценная поддержка FP8 для KV-кэша прямо на уровне драйверов. Это меняет правила игры для длинного контекста.

Стенд: что, где и как мы тестировали

Железо: один RTX Pro 6000 Blackwell с 72 ГБ HBM4 памяти. Процессор — Ryzen 9 9950X, 64 ГБ DDR5. Система охлаждения — кастомная СЖО, потому что Blackwell под нагрузкой греется как реактор.

Софт: Ubuntu 24.10 с драйверами 560.30, vLLM версии 0.6.8 (последняя стабильная на март 2026) с включенной поддержкой FP8 KV cache через флаг --kv-cache-dtype fp8. Модель — Nemotron-3 120B-Instruct-FP8, специально квантованная NVIDIA для нового формата.

Методика: замеряли Time to First Token (TTFT) и токенов в секунду при полной загрузке контекста (от 4K до 512K токенов) и при генерации 1024 новых токенов. Плюс стресс-тест с 4 параллельными пользователями, эмулирующими реальную нагрузку на сервер инференса.

Цифры, которые все ждали (и которых боялись)

Сначала хорошие новости: модель влезла в память. Все 120 миллиардов параметров плюс KV-кэш на 512K токенов уместились в 72 ГБ благодаря FP8. Год назад для такого потребовались бы минимум две карты. Теперь — одна.

Длина контекста	TTFT (сек)	Скорость генерации (токен/сек)	Использование VRAM
4K	0.8	42.5	38 ГБ
32K	1.2	38.1	45 ГБ
128K	3.5	29.4	58 ГБ
512K	14.7	12.8	71 ГБ

TTFT в 14.7 секунд для 512K — это много. Очень много. Вы не будете использовать такой контекст для чата. Но для задач, где нужно один раз загрузить гигантский документ и затем генерировать ответы, это приемлемо. Скорость генерации в 12.8 токенов в секунду — примерно страница текста в минуту. Медленно, но для аналитики или кода терпимо.

Главный bottleneck — не память, а шина. Даже с HBM4 загрузка 512K токенов в вычислительные ядра занимает время. Если вы планируете работать с максимальным контекстом, готовьтесь к паузе перед первым ответом.

А что, если пользователей несколько?

vLLM 0.6.8 отлично справляется с параллельными запросами. При 4 пользователях с контекстом по 128K каждый, общая скорость генерации упала до 18 токенов в секунду на пользователя, но система осталась стабильной. VRAM использовалась на 99%, но без переполнения.

Для сравнения, запуск Qwen3.5 397B на FP4 на том же железе показал похожие цифры по скорости, но с большим потреблением памяти. Nemotron-3 здесь выигрывает за счет оптимизации под архитектуру NVIDIA.

С чем вообще можно сравнить?

Альтернативы на рынке есть, но все с компромиссами.

Qwen3.5-122B: Дешевле в эксплуатации, но для 512K контекста потребует квантования в GGUF и, возможно, нескольких GPU AMD. Скорость генерации будет ниже.
Llama 3.1 405B: Мощнее, но даже на FP8 не влезет в одну карту. Нужна кластеризация.
Связка из двух RTX 5060 Ti: По цене сопоставима с одной RTX Pro 6000. Наш тест показывает, что для моделей до 70B это выгодно, но для 120B с длинным контекстом коммуникация между картами съест всю выгоду.

Отдельно стоит Nvidia Trion-3 — серверное решение, которое обойдет Blackwell по производительности, но его цена начинается от стоимости небольшой квартиры.

Где это вообще использовать?

Сценариев, где нужен именно 512K контекста, не так много. Но они есть.

Анализ кодовой базы: Можно загрузить весь репозиторий среднего проекта и задавать вопросы по архитектуре.
Юридические документы: Слияния, договоры на сотни страниц — модель прожевывает их за один проход.
Длинные нарративы: Написание или анализ сценариев, романов. Попытки были и раньше, но сейчас это работает быстрее.
Мультимодальный RAG: Загрузить десятки PDF с таблицами и схемами. Nemotron тут особенно хорош.

Кому стоит заморачиваться с этой связкой?

Ответ прост: тем, кому нужно все и сразу. Если вы исследователь, который тестирует пределы длинного контекста, или компания, разворачивающая внутренний сервер для анализа документов, RTX Pro 6000 Blackwell + Nemotron-3 120B — это рабочая лошадка на ближайшие два года.

Для домашнего использования это избыточно и безумно дорого. RTX PRO 4000 SFF с моделью поменьше справится с 99% задач.

И главное: не гонитесь за максимальным контекстом, если не уверены, что он вам нужен. Настройка и отладка такого стека отнимет время, которое можно потратить на работу. Начните с моделей попроще, а потом масштабируйтесь.

💡

Прогноз на 2027 год: поддержка FP8 станет стандартом для всех крупных моделей. И тогда длинный контекст в 1M токенов будет работать на одной карте со скоростью сегодняшних 128K. Ждать осталось недолго.

P.S. Цена на RTX Pro 6000 Blackwell, как уже писали, кусается. Но если вы считаете время инженеров дороже железа — это того стоит.

Подписаться на канал

Nemotron-3 120B на RTX Pro 6000 Blackwell: полный бенчмарк скорости при длинном контексте до 512K