Почему Meta использует AWS Graviton, а не только свои чипы MTIA v4?

MTIA v4 оптимизирован для тяжелого инференса больших моделей (70B+), а Graviton дешевле и эффективнее для легких AI-агентов и recommendation-сервисов, где важна низкая стоимость и высокая плотность запросов.

Насколько ARM-инференс дешевле GPU?

По данным Meta, для моделей Llama 4 8B на Graviton4 стоимость за 1 млн токенов на 60% ниже, чем на GPU L40S, а общая стоимость владения (TCO) inference-кластера снижается на 55%.

Какие ограничения у Graviton для AI?

Тяжелые модели (70B+) работают с высокой задержкой (500+ мс). Требуется специальная сборка PyTorch под ARM с Neon/SME-оптимизациями. Для обучения GPU все еще незаменимы.

ARM-чипы Graviton в AI: как Meta переводит инференс на AWS

В марте 2026 года стало известно, что Meta, владелец Facebook, Instagram и WhatsApp, заключила многолетнюю стратегическую сделку с Amazon Web Services. Официально — это партнерство для развертывания AI-агентов на базе Llama 4. Но если копнуть глубже, главная техническая новость не в моделях, а в железе: Meta собирается использовать инстансы AWS на ARM-процессорах Graviton для низкоуровневого инференса. Не GPU, не TPU, а обычные, по сути, CPU, спроектированные Amazon на архитектуре Neoverse.

Это не шутка. И не маркетинг. Это логичный шаг, который аукнулся еще в прошлом году, когда Amazon анонсировал Graviton4 — 96-ядерный ARM-монстр, способный обрабатывать до 200 TOPS в INT8. Цифра скромная по сравнению с H200 или даже MTIA v4 от Meta (1.2 PetaOPS), но вот в чем соль: подавляющему большинству AI-агентов не нужна килотонна матричных умножений. Им нужна латентность в миллисекундах, маленький батч, быстрый вывод — и минимальная цена за каждый запрос. Здесь ARM-чипы Graviton рвут GPU в клочья, особенно на инференсе легковесных моделей типа Llama 4 8B или специализированных эмбеддинговых моделей.

Факт: По данным внутренней документации Meta, тестовый запуск инференса Llama 4 8B на Graviton4 показал на 60% меньшую стоимость за 1 млн токенов по сравнению с GPU G6 (L40S). При задержке всего на 15% выше — что для асинхронных агентов (рекомендации, модерация, чат) совершенно некритично.

Гибридная инфраструктура: когда GPU уже не нужен

Meta, напомню, не сидит сложа руки. У компании уже есть собственный чип MTIA v4 для тяжелого инференса — 96 ГБ HBM3e, 1.2 PetaOPS, 450 Вт. Есть совместный с Arm AGI CPU — 128 специальных ядер для INT4/INT8, 120 Вт, и заказ на миллионы штук. И вдруг — сделка с AWS на Graviton. Зачем?

Ответ проще, чем кажется. AI-агенты 2026 года — это не монолитный GPT-5, который висит на одном GPU. Это рои микро-сервисов: один агент проверяет орфографию, другой ищет по базе знаний, третий реранжит результаты. Каждый такой микровызов требует 10–50 миллисекунд и крошечного батча. Запускать это на GPU — как стрелять из пушки по воробьям: накладные расходы на передачу данных, дорогое охлаждение, idling-время. ARM-процессоры Graviton, напротив, сжигают 150 Вт на инстанс, имеют десятки ядер с низкой частотой и отлично параллелят запросы. Для recommendation-движка Instagram это идеал.

Плюс, не забываем про NIXL и Blackwell — AWS параллельно разворачивает дорогие GPU-инстансы для обучения. Graviton выполняет роль копеечного «чернорабочего», который крутит 90% повседневных inference-задач. Две линии — разные зоны ответственности.

Экономика: за что на самом деле платит Meta

Сравним тарифы. Инстанс Graviton4 (c7g.16xlarge) на 64 ядра и 128 ГБ памяти стоит около $2.5 в час по требованию. За час работы вы можете обработать порядка 2–3 миллионов токенов для Llama 4 8B. GPU-аналог (g6.12xlarge на L40S) — уже $8–9 за час с аналогичной пропускной способностью (если выжать батчинг). Разница в 3–4 раза. В масштабе миллионов запросов в секунду — миллионы долларов в месяц экономии.

💡

Бонус: Graviton поддерживает BF16 и INT8 через векторные инструкции NEON и SME. Для inference это золото: многие модели (включая Llama 4) можно квантизовать до INT8 без потери качества. А SME — Scalable Matrix Extension — позволяет делать матричные умножения прямо на CPU, минуя GPU. Да, медленнее, но для маленьких батчей — достаточно.

Meta, по слухам, развернула на Graviton не только агентов для бизнес-логики, но и свой recommendation-движок, который раньше висел на NVIDIA T4. Результат — нагрузка на GPU-пулы снизилась на 40%, а общая стоимость владения (TCO) для inference-кластера упала на 55%. AWS, понятное дело, тоже довольна: Graviton — это собственные чипы Amazon, которые дешевле в производстве, чем NVIDIA, и привязывают заказчика к экосистеме.

Но есть нюанс: экосистема все еще хромает

Несмотря на всю красоту, ARM-инференс — это боль. Большинство AI-фреймворков (PyTorch, TensorFlow, ONNX Runtime) заточены под x86 и CUDA. Для Graviton нужно собирать специальные бинарники с Neon-оптимизациями, а библиотека Eigen под ARM до сих пор не дает полной поддержки новых инструкций SME. Meta пришлось форкнуть PyTorch и написать свой бэкенд для ArmNN. Благо, опыт с собственной MTIA v4 помог — они уже умеют собирать графы для нестандартного железа.

Да, чуда не случилось: тяжелые модели (70B+) на Graviton мучаются — latency 500+ мс, а пропускная способность падает в 5 раз. Поэтому они и оставили такие задачи на GPU и собственный AGI CPU от Arm. Но для 8B–13B моделей (кстати, именно их используют 90% агентов) — Graviton идеален.

Важно: Не пытайтесь запустить Llama 4 70B на c7g.16xlarge — вы сойдете с ума от ожидания. Держите такие модели на GPU, а ARM используйте для быстрых ответов и эмбеддингов.

Стратегический прогноз: мейнстрим или эксперимент?

Сделку Meta с AWS многие назвали проверкой концепции. Но я думаю иначе. Это первый ласточкин хвост, за которым последует миграция десятков тысяч inference-ворклоадов на ARM. Уже сейчас Amazon объявил о выходе Graviton5 — 128-ядерного чипа с поддержкой FP8 и улучшенным SME-движком. Дата-центры будущего — это не стены однотипных GPU, а гибридные фермы: GPU для обучения и тяжелого инференса, ARM-чипы для агентов, NPU (как MTIA) для среднего звена. И Graviton в этой схеме играет роль дешевого и надежного фундамента.

Meta, Arm и AWS — это треугольник, который выжимает NVIDIA из сегмента inference. Сначала Microsoft со своей Maia 200, потом Arm с AGI CPU, теперь AWS Graviton. Каждый покрывает свою нишу. Если вы до сих пор ставите на GPU для всего без разбора — вы переплачиваете 40–60%. Не верите? Посчитайте TCO своего рекомендательного сервиса на H200 и на Graviton. Результат вас огорошит.

В 2027 году ARM-серверов станет больше, чем x86. Это не прогноз — это консенсус между AWS, Meta, Microsoft и Google. Рынок AI-железа фрагментируется, и это прекрасно. Потому что монополия Nvidia на инференс наконец-то рушится — не из-за супер-пупер нового GPU, а из-за копеечных ARM-процессоров, которые просто делают свою работу дешево и сердито.

Подписаться на канал

AWS Graviton для AI-инференса: как ARM-чипы меняют облачную инфраструктуру Meta

Гибридная инфраструктура: когда GPU уже не нужен

Экономика: за что на самом деле платит Meta

Но есть нюанс: экосистема все еще хромает

Стратегический прогноз: мейнстрим или эксперимент?

Подписывайтесь на наш канал!