Google Cloud C4 с Intel Xeon 6: на 70% дешевле инференс GPT OSS

Цифры, от которых у финансового директора потекут слюнки

Представьте, что вы запускаете инференс на Mixtral 8x7B или Llama 3.1 70B. Счет за облако приходит. Вы морщитесь. Потом смотрите на новые бенчмарки от Google, Intel и Hugging Face и понимаете: можно было платить на 70% меньше. И получать ответы быстрее.

Это не маркетинговая сказка. Это результаты тестов новой виртуальной машины Google Cloud C4 на процессорах Intel Xeon 6 с P-ядрами. Сквозная пропускная способность на доллар (throughput/$) выросла в 1.4-1.7 раз по сравнению с предыдущим поколением C3. Общая стоимость владения (TCO) упала на те самые 70%.

TCO (Total Cost of Ownership) — это не только цена аренды железа. Это все: электричество, охлаждение, простои, администрирование. Снижение на 70% — это не "немного сэкономили". Это переход проекта из категории "эксперимент" в категорию "масштабируемый бизнес".

Что сломали в C4? Все, что тормозило MoE

Ключ к успеху — оптимизация под архитектуру Mixture of Experts (MoE). Такие модели, как Mixtral или Qwen 2.5 32B, работают не как монолит. Это комитет из "экспертов" — небольших подсетей. Для каждого токена активируется только 2 из 8, 4 из 16 экспертов.

Звучит эффективно? На бумаге — да. На практике до недавнего времени CPU простаивали, ожидая, пока все эксперты загрузятся в память, даже если они не нужны. Это как вызывать всю пожарную бригаду, чтобы зажечь одну свечку.

💡

MoE (Mixture of Experts) — архитектура, где модель состоит из множества "экспертных" подсетей. Для каждого входного запроса динамически выбирается и выполняется только небольшая их часть. Это экономит вычислительные ресурсы при инференсе, но создает сложности с планированием загрузки данных.

Инженеры Google и Intel переписали планировщик выполнения. Теперь система заранее знает, какие эксперты понадобятся для следующего батча, и подгружает только их веса в кэш процессора. Остальные спокойно лежат в оперативной памяти. Результат — резкое снижение задержек (latency) и скачок в использовании ядер CPU.

C4 vs C3: таблица, после которой старые VM хочется удалить

Параметр	C3 (старое поколение)	C4 (на Intel Xeon 6)	Улучшение
Пропускная способность на $ (throughput/$)	База (1x)	До 1.7x	+70%
Общая стоимость владения (TCO)	База (100%)	~30%	Снижение на 70%
Поддержка MoE-оптимизаций	Ограниченная	Глубокая (экспертное выполнение)	Ключевое нововведение
Идеально для моделей	Универсальные LLM	Mixtral, Qwen 2.5 MoE, Llama 3.1 70B+	Сдвиг в сторону сложных архитектур

Цифры взяты из тестов на реальных рабочих нагрузках, опубликованных Hugging Face. Они запускали инференс на моделях размером до 70 миллиардов параметров. Разница не в пару процентов — она настолько велика, что заставляет пересматривать бюджеты.

А что с GPU? Пора продавать видеокарты?

Не спешите. C4 на CPU — это не убийца GPU, а хитрая альтернатива для конкретного сценария: масштабного инференса уже обученных больших моделей.

Обучение моделей — все еще удел GPU. Там параллелизм другого уровня.
Инференс с экстремально низкой задержкой (менее 50 мс) — тоже часто за GPU.
Локальные эксперименты — как в нашем руководстве «Как запустить локальную LLM-инфраструктуру на домашнем железе» — требуют своего подхода.

Но если у вас потоковый сервис, который обрабатывает тысячи запросов в час к 70B-параметровой модели, и каждый цент на счету — тогда да, C4 выглядит убедительно. Особенно на фоне новостей, что цены на GPU могут взлететь на 60%.

Не переходите на C4 только из-за красивых цифр. Протестируйте свою реальную рабочую нагрузку. Задержка (latency) может быть выше, чем на GPU. Для чат-интерфейса, где важен мгновенный ответ, это может быть критично. Для фоновой обработки документов — нет.

Большая игра Google: зачем им дешевый CPU-инференс?

Это не просто апгрейд железа. Это стратегический ход.

Диверсификация от NVIDIA. Зависимость от одного поставщика GPU для ИИ — риск. Intel с Xeon 6 — сильный союзник.
Борьба за электричество. CPU под нагрузкой MoE-оптимизаций могут быть энергоэффективнее GPU для инференса. Напомним, гиганты уже воюют за энергосети. Каждый ватт на счету.
Популяризация открытых моделей. Дешевый инференс для GPT OSS (Llama, Mixtral, Qwen) — это удар по монополии закрытых API вроде GPT-4. Google делает ставку на открытую экосистему, где его облако — естественный хост.

Получается, Google одной технологией решает три проблемы: снижает затраты клиентов, уменьшает свои операционные риски и продвигает экосистему, конкурентоспособную против OpenAI/Microsoft.

Что делать прямо сейчас?

Если вы управляете инференс-инфраструктурой:

1Запустите A/B-тест

Возьмите свою самую дорогую в инференсе модель. Запустите недельный нагрузочный тест на старом железе (C3 или ваших GPU). Потом повторите на C4. Сравните не только throughput, но и реальный счет из консоли Google Cloud. Цифры на слайдах и в вашем биллинге могут отличаться.

2Пересмотрите архитектуру

Может, часть запросов с низкими требованиями к задержке (аналитика, классификация, суммаризация больших текстов) стоит перевести на оптимизированные CPU, оставив на GPU только интерактивный чат? Гибридные подходы сейчас выигрывают.

3Не забывайте про риски

Вся экосистема оптимизирована под определенные модели (в основном из семейства MoE). Если вы завтра решите запустить какую-нибудь новую корейскую модель с абсолютно другой архитектурой, магия может испариться. Привязка к конкретному железу — это всегда риск.

Итог? Google Cloud C4 на Intel Xeon 6 — это не эволюция, а точечная революция для инференса больших открытых моделей. Она не заменит GPU везде, но создает новый ценовой порог. После которого платить по-старому будет выглядеть просто расточительством.

А тем, кто все еще считает, что LLM — «не серебряная пуля», снижение стоимости инференса на 70% — хороший повод пересмотреть свои бизнес-кейсы. Вдруг теперь они сойдутся?

На 70% дешевле: как Google Cloud C4 на Intel Xeon 6 ускоряет GPT OSS и снижает TCO