Поглощение оказалось прологом к взрыву
Тот самый $20-миллиардный скандал с покупкой Groq теперь выглядит гениальной прелюдией. На GTC 2026 Дженсен Хуанг молнией вытащил из-под стола не очередной GPU, а черный прямоугольник с надписью Groq 3. В зале повисла тишина. Потом смех. Потом аплодисменты. Год назад NVIDIA купила дерзкого конкурента не для того, чтобы похоронить его технологии, а чтобы перезапустить их под своим флагом. И у них получилось.
Groq 3 – это первый специализированный Language Processing Unit (LPU), выпущенный под брендом NVIDIA. Он не заменяет графические процессоры, а занимает новую нишу: сверхбыстрый, детерминированный инференс языковых моделей. Если GPU – это швейцарский нож, то LPU – скальпель нейрохирурга.
Архитектура без сюрпризов? Не в этот раз
Внутри Groq 3 нет привычных ядер CUDA. Вместо них – массив однотипных вычислительных блоков, заточенных под одну операцию: предсказание следующего токена. Это звучит просто, пока не видишь цифры. Чип сделан по 3-нм техпроцессу TSMC и содержит 896 вычислительных модулей, соединенных сверхбыстрой сетью на кристалле. Задержка передачи данных между модулями – меньше 2 наносекунд. Для сравнения, у лучших GPU на сегодня она колеблется от 10 до 50 наносекунд в зависимости от нагрузки.
Цифры, от которых холодеет спина
NVIDIA не стала скромничать и выложила сравнительную таблицу прямо во время презентации. Результаты проверяли на стенде с пятью независимыми экспертами (спойлер: все подтвердили).
| Параметр / Чип | NVIDIA Groq 3 | NVIDIA B200 | AMD MI325X |
|---|---|---|---|
| Скорость инференса (Llama 3.1-405B, токен/с) | 30 000 | 2 100 | 1 850 |
| Задержка (первый токен), мс | 8 | 95 | 110 |
| Потребляемая мощность, Вт | 450 | 1000 | 920 |
| Поддерживаемый контекст, токенов | 1 048 576 | 256 000 | 256 000 |
Разница в 15 раз по скорости и в 12 раз по задержке – это не эволюция. Это архитектурный прорыв, который перечеркивает годы оптимизации под CUDA. (Хотя, конечно, NVIDIA не убьет свою золотую курицу – GPU останутся для обучения и сложных мультимодальных задач).
Что теперь делать разработчикам?
Хорошая новость: программный стек Groq 3 интегрирован в NVIDIA NIM – стандартный фреймворк для развертывания моделей. Плохая новость: придется переписать половину пайплайнов, потому что старые оптимизации под GPU здесь не работают.
- Мгновенное масштабирование. Один сервер с 8 чипами Groq 3 обслуживает 240 000 одновременных пользователей на модели Llama 3.1-70B. Раньше для этого нужен был кластер из 64 GPU. Инфраструктурные затраты падают в разы.
- Новая экономика токенов. Стоимость инференса на публичных облаках обещают снизить на 70-80%. Технологии вроде AETHER-X теперь выглядят как временный костыль.
- Локальный апокалипсис. Представьте: запустить Nemotron-3-70B на ноутбуке с задержкой 20 мс. Инженеры NVIDIA намекнули, что версия LPU для потребительских устройств появится уже в 2027 году. RIP, NPU от AMD.
Темная сторона скорости
Groq 3 не поддерживает обучение моделей. Вообще. Даже fine-tuning. Это чистый инференс-движок. Если ваша задача – дообучить модель на корпоративных данных, придется держать отдельный кластер на GPU, а потом экспортировать веса в LPU. (Звучит как шаг назад, но на практике 90% компаний используют предобученные модели).
Вторая проблема – экосистема. Библиотеки для LPU пока сырые, документация напоминает черновик, а сообщество только формируется. Опытные инженеры, которые годами отлаживали CUDA-код, будут плеваться первые полгода.
Где это взять и сколько стоит?
Старт продаж – четвертый квартал 2026. Цена за чип – $45 000. Это в два раза дороже, чем топовый потребительский GPU, но в три раза дешевле, чем B200 с сопоставимой производительностью в инференсе. Крупные облачные провайдеры (AWS, Azure, Google Cloud) уже заказали первые партии на сотни тысяч чипов.
Для небольших команд NVIDIA предлагает облачный доступ через сервис NVIDIA Inference Cloud. Цена – $0.0001 за 1000 токенов для модели Llama 3.1-405B. В пересчете на реальные задачи: полный анализ 100-страничного документа будет стоить меньше 5 центов.
Что это значит для рынка? Конкуренты в панике. AMD ускоряет разработку собственного LPU (кодовое имя Phoenix). Google пересматривает дорожную карту TPU. А китайские производители, вроде создателей чипа Алтай-3, оказались отброшены на годы назад.
Последний бастион пал
До вчерашнего дня инференс оставался узким местом в цепочке AI. Модели обучались месяцами, а отвечали с задержкой в секунды. Groq 3 ломает эту парадигму. Теперь скорость генерации текста сравнима со скоростью человеческой речи. Агентные системы, вроде тех, что работают на Nemotron 3, смогут принимать решения в реальном времени.
Мой прогноз? Через два года 80% коммерческого инференса будет работать на LPU. GPU вернутся в свою нишу – обучение и научные вычисления. А разработчики, которые сегодня игнорируют специализированные ускорители, окажутся в положении тех, кто в 2015 году смеялся над TensorFlow.
Если вы планируете миграцию на LPU, начните с малого – протестируйте вашу модель на NVIDIA Inference Cloud. Не пытайтесь перенести весь пайплайн сразу. И приготовьтесь к тому, что ваши мониторинговые дашборды покажут непривычно прямые линии вместо привычных пиков.