MTIA v4 чипы Meta: архитектура, производительность, будущее AI-инференса | 12.03.2026 | AiManual
AiManual Logo Ai / Manual.
12 Мар 2026 Новости

MTIA v4: как Meta перехватывает инициативу у Nvidia в инференсе больших моделей

Разбор новейшего чипа MTIA v4 от Meta: чиплетная архитектура с HBM3e, поддержка 8-битного инференса в PyTorch 2.4 и плагин для vLLM. Сравнение с Nvidia H200.

Железный кулак Meta

Пока все обсуждали, куда подевались обещанные ИИ-агенты, Meta тихо выкатила MTIA v4. Не очередной фреймворк, не модельку на 10 параметров больше, а настоящее железо. Тот самый специализированный чип для инференса, о котором шептались три года. И знаете что? Это не просто «еще один ускоритель». Это первый по-настоящему массовый удар по гегемонии Nvidia в дата-центрах. Потому что он сделан не для того, чтобы продаваться, а для того, чтобы работать.

💡
Контекст: Гонка AI-железа набирает обороты. Пока Microsoft выпускает Maia 200, а Qualcomm давит на AI250, Meta решает проблему изнутри — для своих собственных моделей и сервисов.

Архитектура: разбор на запчасти

MTIA v4 — это не монолит. Это конструктор из чиплетов. Восемь вычислительных тайлов, соединенных через сверхбыструю сеть на кристалле, и четыре стека HBM3e памяти по 24 ГБ каждый. Итого 96 ГБ HBM на чип. Звучит знакомо? Это прямой ответ на H200 от Nvidia. Но фишка не в памяти, а в том, как она используется.

Чиплеты — не просто мода

Чиплетная архитектура — единственный способ обойти ограничения TSMC по размерам кристаллов. Каждый тайл в MTIA v4 — это 128 специализированных ядер для матричных умножений (INT8/FP8) и скалярных операций. Если один тайл сломается, чип не умрет. Его просто отключат. Надежность дата-центра повышается в разы, а выход годных чипов при производстве растет. Экономика, которую Nvidia со своими монолитами проигрывает.

Характеристика MTIA v4 (Meta) H200 (Nvidia) Комментарий
Память (HBM) 96 ГБ HBM3e 141 ГБ HBM3e H200 выигрывает в объеме, но пропускная способность сравнима
Вычисления (пиковая, INT8) 1.2 PetaOPS ~1.0 PetaOPS MTIA v4 оптимизирован для низкой точности
TDP (Тепловыделение) 450 Вт 700 Вт Энергоэффективность — ключевое преимущество Meta
Поддержка в PyTorch Нативно, через torch.compile CUDA, Triton Meta не стала изобретать свой софт-стек, что упрощает миграцию

Производительность: цифры, которые заставляют задуматься

Внутренние тесты Meta (опубликованные в декабре 2025) показывают, что для инференса Llama 3.1 405B в режиме 8-битного квантования MTIA v4 обходит H200 на 40% по tokens/s при вдвое меньшем энергопотреблении. Это не магия. Это результат тотальной оптимизации всего стека: от драйвера до компилятора PyTorch. Чип заточен под одну задачу — быстро и дешево прогонять через себя уже обученные трансформеры.

Важно: Эта производительность достижима только при использовании INT8/FP8. Попробуйте запустить на MTIA v4 обучение с FP32 — и он просто сгорит от стыда (и перегрева). Это чип-специалист, а не универсальный солдат.

Конкуренция накаляется. Как отмечалось в обзоре битвы за AI-чипы, рынок фрагментируется. Но у Meta есть гигантское преимущество: им не нужно продавать железо. Они могут позволить себе идеально настроить его под свои модели (Llama, Code Llama) и сервисы (поиск, рекомендации). И именно поэтому их метрики выглядят так убедительно.

Интеграция с PyTorch 2.4 и vLLM: просто добавь флаг

Самое умное в MTIA v4 — софт. Инженеры Meta не стали создавать отдельный SDK, который нужно изучать годами. Они встроили поддержку прямо в PyTorch 2.4 (релиз ноября 2025). Теперь чтобы запустить модель на MTIA, достаточно добавить target='mtia' в torch.compile. Серьезно.

Для любителей vLLM — есть официальный плагин, который устанавливается через pip. После этого в конфиге указываете "mtia" как бэкенд, и ваша инференс-система начинает работать на железе Meta. Никакого портирования кода, никаких мучений с CUDA-версиями. Эта простота — смерть для мелких вендоров, которые предлагали свои «оптимизированные» решения для инференса.

Что дальше? Будущее, где инференс — это commodity

Meta уже использует MTIA v4 в своих дата-центрах для сервисов Instagram и Facebook. Следующий шаг — предложить их как сервис в облаке AWS и Google Cloud. Представьте: вы разворачиваете инференс Llama 3.1 не на заоблачно дорогих инстансах с H200, а на «железе от Meta» за половину цены. Это перевернет экономику стартапов.

Но есть подвог. Meta контролирует и железо, и софт, и самые популярные открытые модели. Это дает им уровень вертикальной интеграции, который пугает. ИИ, проектирующий чипы, — это следующий логический шаг. Они могут создавать чипы следующего поколения, идеально подогнанные под архитектуры моделей, которые сами же и придумали.

💡
Для тех, кто хочет глубже погрузиться в тему проектирования AI-железа, книга «AI Hardware Design from Scratch» (партнерская ссылка) дает отличную основу, хотя и не учитывает последних релизов, таких как MTIA v4.

Итог: совет, который вам не понравится

Если вы сегодня строите инференс-сервис на базе Nvidia, присмотритесь к своему стеку. Прямо сейчас. Потому что через год, когда контракт на аренду GPU будет подходить к концу, ваш CFO посмотрит на счета и спросит: «А почему мы не используем то, что в три раза дешевле?». И у вас не будет хорошего ответа. Начните экспериментировать с портированием хотя бы части рабочей нагрузки на MTIA через PyTorch 2.4 уже сейчас. Хоть в симуляторе. Потому что волна, которую подняла Meta, смоет тех, кто решил, что железный ландшафт застыл навсегда.

И да, следующий на очереди — локальный инференс на устройстве. Но это уже совсем другая история, где играют по другим правилам.

Подписаться на канал