NVIDIA Groq 3: новый LPU чип для инференса AI на GTC 2026 | Скорость | AiManual
AiManual Logo Ai / Manual.
16 Мар 2026 Новости

NVIDIA Groq 3: как чип для инференса LPU изменит скорость работы AI-моделей

NVIDIA представила Groq 3 на GTC 2026. Специализированный чип LPU ускоряет инференс языковых моделей в 15 раз. Детали архитектуры и влияние на рынок.

Поглощение оказалось прологом к взрыву

Тот самый $20-миллиардный скандал с покупкой Groq теперь выглядит гениальной прелюдией. На GTC 2026 Дженсен Хуанг молнией вытащил из-под стола не очередной GPU, а черный прямоугольник с надписью Groq 3. В зале повисла тишина. Потом смех. Потом аплодисменты. Год назад NVIDIA купила дерзкого конкурента не для того, чтобы похоронить его технологии, а чтобы перезапустить их под своим флагом. И у них получилось.

Groq 3 – это первый специализированный Language Processing Unit (LPU), выпущенный под брендом NVIDIA. Он не заменяет графические процессоры, а занимает новую нишу: сверхбыстрый, детерминированный инференс языковых моделей. Если GPU – это швейцарский нож, то LPU – скальпель нейрохирурга.

Архитектура без сюрпризов? Не в этот раз

Внутри Groq 3 нет привычных ядер CUDA. Вместо них – массив однотипных вычислительных блоков, заточенных под одну операцию: предсказание следующего токена. Это звучит просто, пока не видишь цифры. Чип сделан по 3-нм техпроцессу TSMC и содержит 896 вычислительных модулей, соединенных сверхбыстрой сетью на кристалле. Задержка передачи данных между модулями – меньше 2 наносекунд. Для сравнения, у лучших GPU на сегодня она колеблется от 10 до 50 наносекунд в зависимости от нагрузки.

💡
Ключевое слово – детерминизм. Скорость работы GPU падает при высокой загрузке или сложных запросах. LPU выдает стабильные 30 000 токенов в секунду на модели Llama 3.1-405B, независимо от того, просите вы его написать сонет или проанализировать код на Rust. Это меняет правила игры для коммерческих сервисов, где предсказуемость – основа SLA.

Цифры, от которых холодеет спина

NVIDIA не стала скромничать и выложила сравнительную таблицу прямо во время презентации. Результаты проверяли на стенде с пятью независимыми экспертами (спойлер: все подтвердили).

Параметр / Чип NVIDIA Groq 3 NVIDIA B200 AMD MI325X
Скорость инференса (Llama 3.1-405B, токен/с) 30 000 2 100 1 850
Задержка (первый токен), мс 8 95 110
Потребляемая мощность, Вт 450 1000 920
Поддерживаемый контекст, токенов 1 048 576 256 000 256 000

Разница в 15 раз по скорости и в 12 раз по задержке – это не эволюция. Это архитектурный прорыв, который перечеркивает годы оптимизации под CUDA. (Хотя, конечно, NVIDIA не убьет свою золотую курицу – GPU останутся для обучения и сложных мультимодальных задач).

Что теперь делать разработчикам?

Хорошая новость: программный стек Groq 3 интегрирован в NVIDIA NIM – стандартный фреймворк для развертывания моделей. Плохая новость: придется переписать половину пайплайнов, потому что старые оптимизации под GPU здесь не работают.

  • Мгновенное масштабирование. Один сервер с 8 чипами Groq 3 обслуживает 240 000 одновременных пользователей на модели Llama 3.1-70B. Раньше для этого нужен был кластер из 64 GPU. Инфраструктурные затраты падают в разы.
  • Новая экономика токенов. Стоимость инференса на публичных облаках обещают снизить на 70-80%. Технологии вроде AETHER-X теперь выглядят как временный костыль.
  • Локальный апокалипсис. Представьте: запустить Nemotron-3-70B на ноутбуке с задержкой 20 мс. Инженеры NVIDIA намекнули, что версия LPU для потребительских устройств появится уже в 2027 году. RIP, NPU от AMD.

Темная сторона скорости

Groq 3 не поддерживает обучение моделей. Вообще. Даже fine-tuning. Это чистый инференс-движок. Если ваша задача – дообучить модель на корпоративных данных, придется держать отдельный кластер на GPU, а потом экспортировать веса в LPU. (Звучит как шаг назад, но на практике 90% компаний используют предобученные модели).

Вторая проблема – экосистема. Библиотеки для LPU пока сырые, документация напоминает черновик, а сообщество только формируется. Опытные инженеры, которые годами отлаживали CUDA-код, будут плеваться первые полгода.

Где это взять и сколько стоит?

Старт продаж – четвертый квартал 2026. Цена за чип – $45 000. Это в два раза дороже, чем топовый потребительский GPU, но в три раза дешевле, чем B200 с сопоставимой производительностью в инференсе. Крупные облачные провайдеры (AWS, Azure, Google Cloud) уже заказали первые партии на сотни тысяч чипов.

Для небольших команд NVIDIA предлагает облачный доступ через сервис NVIDIA Inference Cloud. Цена – $0.0001 за 1000 токенов для модели Llama 3.1-405B. В пересчете на реальные задачи: полный анализ 100-страничного документа будет стоить меньше 5 центов.

Что это значит для рынка? Конкуренты в панике. AMD ускоряет разработку собственного LPU (кодовое имя Phoenix). Google пересматривает дорожную карту TPU. А китайские производители, вроде создателей чипа Алтай-3, оказались отброшены на годы назад.

Последний бастион пал

До вчерашнего дня инференс оставался узким местом в цепочке AI. Модели обучались месяцами, а отвечали с задержкой в секунды. Groq 3 ломает эту парадигму. Теперь скорость генерации текста сравнима со скоростью человеческой речи. Агентные системы, вроде тех, что работают на Nemotron 3, смогут принимать решения в реальном времени.

Мой прогноз? Через два года 80% коммерческого инференса будет работать на LPU. GPU вернутся в свою нишу – обучение и научные вычисления. А разработчики, которые сегодня игнорируют специализированные ускорители, окажутся в положении тех, кто в 2015 году смеялся над TensorFlow.

Если вы планируете миграцию на LPU, начните с малого – протестируйте вашу модель на NVIDIA Inference Cloud. Не пытайтесь перенести весь пайплайн сразу. И приготовьтесь к тому, что ваши мониторинговые дашборды покажут непривычно прямые линии вместо привычных пиков.

Подписаться на канал