Почему OpenAI инвестирует в специализированные inference-чипы?

Потому что универсальные GPU от NVIDIA, отлично подходящие для тренировки моделей, слишком дороги и энергозатратны для массового inference. Специализированные чипы Cerebras предлагают в 5-10 раз более низкую задержку и стоимость обработки запроса, что критически важно для масштабирования сервисов вроде ChatGPT.

Как сделка повлияет на обычных пользователей AI-сервисов?

Пользователи увидят более быстрые ответы от ChatGPT и других ИИ-сервисов (задержка снизится с секунд до миллисекунд), возможное снижение стоимости подписок, а также появление новых реальных ИИ-приложений, которые были экономически невыгодны из-за высоких затрат на inference.

Сделка OpenAI и Cerebras на $10 млрд: конец эпохи NVIDIA?

Q: Что такое inference в искусственном интеллекте?

Inference (вывод) - это процесс, когда обученная нейросетевая модель генерирует ответ на запрос пользователя. Например, когда ChatGPT пишет текст или Midjourney создает изображение по описанию - это inference. На inference приходится около 90% всех вычислений в коммерческих AI-сервисах.

$10 миллиардов за скорость

OpenAI только что подписала контракт с Cerebras на $10 миллиардов. Это не просто очередная сделка. Это стратегический удар по самой болезненной точке современного AI - стоимости inference.

Сэм Альтман покупает не просто чипы. Он покупает будущее, где ChatGPT отвечает мгновенно, а счета за облачные вычисления перестают вызывать панику у финансовых директоров.

Детали сделки: 750 МВт выделенной мощности, системы Cerebras CS-3 на базе чипов Wafer Scale Engine 3. Достаточно, чтобы обслуживать миллионы одновременных пользователей с задержкой в миллисекунды.

Почему inference стал главной битвой

До сих пор все говорили о тренировке моделей. Триллионы параметров, месяцы на кластерах NVIDIA H100. Но тренировка - разовая операция. А inference - это каждый день, каждый запрос, каждый пользователь.

Именно здесь NVIDIA теряет монополию. Их GPU - универсальные солдаты. Отлично подходят для тренировки, но для inference - слишком дорогие, слишком энергозатратные, слишком сложные.

💡

Inference (вывод) - процесс, когда обученная модель генерирует ответ на ваш запрос. Каждый раз, когда ChatGPT пишет текст или Midjourney создает картинку - это inference. На него приходится 90% всех вычислений в коммерческих AI-сервисах.

Cerebras против всех

Чипы Cerebras - это не просто альтернатива NVIDIA. Это другая философия. Вместо тысяч маленьких чипов на одной плате - один гигантский кристалл размером с целую пластину кремния. 4 триллиона транзисторов. 900 тысяч ядер.

Для inference это идеально. Меньше задержек при передаче данных между чипами. Меньше энергии на охлаждение. И главное - предсказуемая производительность. В отличие от GPU, которые могут "проседать" при определенных типах запросов.

Параметр	NVIDIA H100 (inference)	Cerebras CS-3
Задержка (latency)	10-50 мс	1-5 мс
Стоимость запроса	$0.01-0.05	$0.001-0.005
Энергопотребление	700 Вт	15 кВт (на систему)

Что это значит для нас?

Представьте ChatGPT, который не "думает" 5 секунд перед ответом. ИИ-агенты, принимающие решения в реальном времени. Видеогенерация без буферизации. Это не будущее. Это 2026 год.

Снижение стоимости inference на порядок откроет двери для:

Бесплатных коммерческих AI-сервисов (как сейчас поиск Google)
ИИ в каждом приложении - от текстового редактора до холодильника
Мгновенной персонализации контента для миллионов пользователей одновременно

Но есть проблема: специализированные inference-чипы не умеют тренировать модели. OpenAI придется сохранять гигантские кластеры NVIDIA для обучения новых GPT-5, GPT-6. Диверсификация инфраструктуры - новая норма.

Контекст большой игры

Эта сделка - часть триллионного плана OpenAI. Альтман понимает: чтобы доминировать на рынке, нужно контролировать не только модели, но и железо под ними.

Параллельно NVIDIA поглощает Groq за $20 млрд - другого игрока в inference-чипах. Рынок консолидируется с пугающей скоростью.

А что с малыми игроками? Для стартапов без $10 млрд ситуация усложняется. Как отмечалось в материале о кризисе железа, доступ к вычислительным ресурсам становится ключевым конкурентным преимуществом.

Китайский фактор

Пока Запад играет в сделки на десятки миллиардов, Китай тихо захватывает рынок AI-железа. Как мы писали в обзоре CES 2026, китайские inference-чипы уже на 30% дешевле американских аналогов.

OpenAI с Cerebras могут выиграть битву за производительность. Но войну за глобальный рынок inference-чипов еще предстоит проиграть или выиграть.

Что будет дальше?

Через год мы увидим:

Первые коммерческие сервисы OpenAI на Cerebras - в 2-5 раз быстрее при той же цене
Волну аналогичных сделок от Google, Meta, Amazon с другими производителями inference-чипов
Рост инвестиций в стартапы, разрабатывающие специализированные AI-процессоры (после примера NVIDIA все поняли важность стратегических инвестиций)

Самое интересное: снижение стоимости inference ускорит консолидацию AI-рынка. Когда базовые AI-сервисы станут практически бесплатными, выживут только те, кто предлагает уникальную ценность.

Прогноз на 2027: стоимость inference упадет в 100 раз относительно 2024 года. ИИ станет такой же базовой утилитой, как электричество или интернет. И те, кто контролирует "розетки" для этого ИИ, будут контролировать все.

P.S. Если думаете, что $10 млрд - это много, посмотрите на триллионные планы OpenAI. Это только разминка.

OpenAI платит $10 млрд Cerebras: как чипы для inference взорвут рынок