Что такое NVIDIA Groq 3?

NVIDIA Groq 3 — это специализированный чип (Language Processing Unit, LPU) для ускорения инференса больших языковых моделей. Он был анонсирован на конференции GTC в марте 2026 года и предлагает скорость обработки до 30 000 токенов в секунду при низкой и предсказуемой задержке.

Чем LPU отличается от GPU?

GPU — универсальные процессоры, оптимизированные для параллельных вычислений, подходят как для обучения, так и для инференса моделей. LPU создан исключительно для инференса языковых моделей, его архитектура обеспечивает детерминированную (стабильную и предсказуемую) высокую скорость генерации текста и значительно меньшую задержку.

Когда появится в продаже NVIDIA Groq 3?

Старт продаж запланирован на четвертый квартал 2026 года. Чип будет доступен для покупки отдельно (ориентировочная цена $45 000) и через облачные сервисы, такие как NVIDIA Inference Cloud.

NVIDIA Groq 3: новый LPU чип для инференса AI на GTC 2026 | Скорость

Поглощение оказалось прологом к взрыву

Тот самый $20-миллиардный скандал с покупкой Groq теперь выглядит гениальной прелюдией. На GTC 2026 Дженсен Хуанг молнией вытащил из-под стола не очередной GPU, а черный прямоугольник с надписью Groq 3. В зале повисла тишина. Потом смех. Потом аплодисменты. Год назад NVIDIA купила дерзкого конкурента не для того, чтобы похоронить его технологии, а чтобы перезапустить их под своим флагом. И у них получилось.

Groq 3 – это первый специализированный Language Processing Unit (LPU), выпущенный под брендом NVIDIA. Он не заменяет графические процессоры, а занимает новую нишу: сверхбыстрый, детерминированный инференс языковых моделей. Если GPU – это швейцарский нож, то LPU – скальпель нейрохирурга.

Архитектура без сюрпризов? Не в этот раз

Внутри Groq 3 нет привычных ядер CUDA. Вместо них – массив однотипных вычислительных блоков, заточенных под одну операцию: предсказание следующего токена. Это звучит просто, пока не видишь цифры. Чип сделан по 3-нм техпроцессу TSMC и содержит 896 вычислительных модулей, соединенных сверхбыстрой сетью на кристалле. Задержка передачи данных между модулями – меньше 2 наносекунд. Для сравнения, у лучших GPU на сегодня она колеблется от 10 до 50 наносекунд в зависимости от нагрузки.

💡

Ключевое слово – детерминизм. Скорость работы GPU падает при высокой загрузке или сложных запросах. LPU выдает стабильные 30 000 токенов в секунду на модели Llama 3.1-405B, независимо от того, просите вы его написать сонет или проанализировать код на Rust. Это меняет правила игры для коммерческих сервисов, где предсказуемость – основа SLA.

Цифры, от которых холодеет спина

NVIDIA не стала скромничать и выложила сравнительную таблицу прямо во время презентации. Результаты проверяли на стенде с пятью независимыми экспертами (спойлер: все подтвердили).

Параметр / Чип	NVIDIA Groq 3	NVIDIA B200	AMD MI325X
Скорость инференса (Llama 3.1-405B, токен/с)	30 000	2 100	1 850
Задержка (первый токен), мс	8	95	110
Потребляемая мощность, Вт	450	1000	920
Поддерживаемый контекст, токенов	1 048 576	256 000	256 000

Разница в 15 раз по скорости и в 12 раз по задержке – это не эволюция. Это архитектурный прорыв, который перечеркивает годы оптимизации под CUDA. (Хотя, конечно, NVIDIA не убьет свою золотую курицу – GPU останутся для обучения и сложных мультимодальных задач).

Что теперь делать разработчикам?

Хорошая новость: программный стек Groq 3 интегрирован в NVIDIA NIM – стандартный фреймворк для развертывания моделей. Плохая новость: придется переписать половину пайплайнов, потому что старые оптимизации под GPU здесь не работают.

Мгновенное масштабирование. Один сервер с 8 чипами Groq 3 обслуживает 240 000 одновременных пользователей на модели Llama 3.1-70B. Раньше для этого нужен был кластер из 64 GPU. Инфраструктурные затраты падают в разы.
Новая экономика токенов. Стоимость инференса на публичных облаках обещают снизить на 70-80%. Технологии вроде AETHER-X теперь выглядят как временный костыль.
Локальный апокалипсис. Представьте: запустить Nemotron-3-70B на ноутбуке с задержкой 20 мс. Инженеры NVIDIA намекнули, что версия LPU для потребительских устройств появится уже в 2027 году. RIP, NPU от AMD.

Темная сторона скорости

Groq 3 не поддерживает обучение моделей. Вообще. Даже fine-tuning. Это чистый инференс-движок. Если ваша задача – дообучить модель на корпоративных данных, придется держать отдельный кластер на GPU, а потом экспортировать веса в LPU. (Звучит как шаг назад, но на практике 90% компаний используют предобученные модели).

Вторая проблема – экосистема. Библиотеки для LPU пока сырые, документация напоминает черновик, а сообщество только формируется. Опытные инженеры, которые годами отлаживали CUDA-код, будут плеваться первые полгода.

Где это взять и сколько стоит?

Старт продаж – четвертый квартал 2026. Цена за чип – $45 000. Это в два раза дороже, чем топовый потребительский GPU, но в три раза дешевле, чем B200 с сопоставимой производительностью в инференсе. Крупные облачные провайдеры (AWS, Azure, Google Cloud) уже заказали первые партии на сотни тысяч чипов.

Для небольших команд NVIDIA предлагает облачный доступ через сервис NVIDIA Inference Cloud. Цена – $0.0001 за 1000 токенов для модели Llama 3.1-405B. В пересчете на реальные задачи: полный анализ 100-страничного документа будет стоить меньше 5 центов.

Что это значит для рынка? Конкуренты в панике. AMD ускоряет разработку собственного LPU (кодовое имя Phoenix). Google пересматривает дорожную карту TPU. А китайские производители, вроде создателей чипа Алтай-3, оказались отброшены на годы назад.

Последний бастион пал

До вчерашнего дня инференс оставался узким местом в цепочке AI. Модели обучались месяцами, а отвечали с задержкой в секунды. Groq 3 ломает эту парадигму. Теперь скорость генерации текста сравнима со скоростью человеческой речи. Агентные системы, вроде тех, что работают на Nemotron 3, смогут принимать решения в реальном времени.

Мой прогноз? Через два года 80% коммерческого инференса будет работать на LPU. GPU вернутся в свою нишу – обучение и научные вычисления. А разработчики, которые сегодня игнорируют специализированные ускорители, окажутся в положении тех, кто в 2015 году смеялся над TensorFlow.

Если вы планируете миграцию на LPU, начните с малого – протестируйте вашу модель на NVIDIA Inference Cloud. Не пытайтесь перенести весь пайплайн сразу. И приготовьтесь к тому, что ваши мониторинговые дашборды покажут непривычно прямые линии вместо привычных пиков.

Подписаться на канал

NVIDIA Groq 3: как чип для инференса LPU изменит скорость работы AI-моделей