Железный кулак Meta
Пока все обсуждали, куда подевались обещанные ИИ-агенты, Meta тихо выкатила MTIA v4. Не очередной фреймворк, не модельку на 10 параметров больше, а настоящее железо. Тот самый специализированный чип для инференса, о котором шептались три года. И знаете что? Это не просто «еще один ускоритель». Это первый по-настоящему массовый удар по гегемонии Nvidia в дата-центрах. Потому что он сделан не для того, чтобы продаваться, а для того, чтобы работать.
Архитектура: разбор на запчасти
MTIA v4 — это не монолит. Это конструктор из чиплетов. Восемь вычислительных тайлов, соединенных через сверхбыструю сеть на кристалле, и четыре стека HBM3e памяти по 24 ГБ каждый. Итого 96 ГБ HBM на чип. Звучит знакомо? Это прямой ответ на H200 от Nvidia. Но фишка не в памяти, а в том, как она используется.
Чиплеты — не просто мода
Чиплетная архитектура — единственный способ обойти ограничения TSMC по размерам кристаллов. Каждый тайл в MTIA v4 — это 128 специализированных ядер для матричных умножений (INT8/FP8) и скалярных операций. Если один тайл сломается, чип не умрет. Его просто отключат. Надежность дата-центра повышается в разы, а выход годных чипов при производстве растет. Экономика, которую Nvidia со своими монолитами проигрывает.
| Характеристика | MTIA v4 (Meta) | H200 (Nvidia) | Комментарий |
|---|---|---|---|
| Память (HBM) | 96 ГБ HBM3e | 141 ГБ HBM3e | H200 выигрывает в объеме, но пропускная способность сравнима |
| Вычисления (пиковая, INT8) | 1.2 PetaOPS | ~1.0 PetaOPS | MTIA v4 оптимизирован для низкой точности |
| TDP (Тепловыделение) | 450 Вт | 700 Вт | Энергоэффективность — ключевое преимущество Meta |
| Поддержка в PyTorch | Нативно, через torch.compile | CUDA, Triton | Meta не стала изобретать свой софт-стек, что упрощает миграцию |
Производительность: цифры, которые заставляют задуматься
Внутренние тесты Meta (опубликованные в декабре 2025) показывают, что для инференса Llama 3.1 405B в режиме 8-битного квантования MTIA v4 обходит H200 на 40% по tokens/s при вдвое меньшем энергопотреблении. Это не магия. Это результат тотальной оптимизации всего стека: от драйвера до компилятора PyTorch. Чип заточен под одну задачу — быстро и дешево прогонять через себя уже обученные трансформеры.
Важно: Эта производительность достижима только при использовании INT8/FP8. Попробуйте запустить на MTIA v4 обучение с FP32 — и он просто сгорит от стыда (и перегрева). Это чип-специалист, а не универсальный солдат.
Конкуренция накаляется. Как отмечалось в обзоре битвы за AI-чипы, рынок фрагментируется. Но у Meta есть гигантское преимущество: им не нужно продавать железо. Они могут позволить себе идеально настроить его под свои модели (Llama, Code Llama) и сервисы (поиск, рекомендации). И именно поэтому их метрики выглядят так убедительно.
Интеграция с PyTorch 2.4 и vLLM: просто добавь флаг
Самое умное в MTIA v4 — софт. Инженеры Meta не стали создавать отдельный SDK, который нужно изучать годами. Они встроили поддержку прямо в PyTorch 2.4 (релиз ноября 2025). Теперь чтобы запустить модель на MTIA, достаточно добавить target='mtia' в torch.compile. Серьезно.
Для любителей vLLM — есть официальный плагин, который устанавливается через pip. После этого в конфиге указываете "mtia" как бэкенд, и ваша инференс-система начинает работать на железе Meta. Никакого портирования кода, никаких мучений с CUDA-версиями. Эта простота — смерть для мелких вендоров, которые предлагали свои «оптимизированные» решения для инференса.
Что дальше? Будущее, где инференс — это commodity
Meta уже использует MTIA v4 в своих дата-центрах для сервисов Instagram и Facebook. Следующий шаг — предложить их как сервис в облаке AWS и Google Cloud. Представьте: вы разворачиваете инференс Llama 3.1 не на заоблачно дорогих инстансах с H200, а на «железе от Meta» за половину цены. Это перевернет экономику стартапов.
Но есть подвог. Meta контролирует и железо, и софт, и самые популярные открытые модели. Это дает им уровень вертикальной интеграции, который пугает. ИИ, проектирующий чипы, — это следующий логический шаг. Они могут создавать чипы следующего поколения, идеально подогнанные под архитектуры моделей, которые сами же и придумали.
Итог: совет, который вам не понравится
Если вы сегодня строите инференс-сервис на базе Nvidia, присмотритесь к своему стеку. Прямо сейчас. Потому что через год, когда контракт на аренду GPU будет подходить к концу, ваш CFO посмотрит на счета и спросит: «А почему мы не используем то, что в три раза дешевле?». И у вас не будет хорошего ответа. Начните экспериментировать с портированием хотя бы части рабочей нагрузки на MTIA через PyTorch 2.4 уже сейчас. Хоть в симуляторе. Потому что волна, которую подняла Meta, смоет тех, кто решил, что железный ландшафт застыл навсегда.
И да, следующий на очереди — локальный инференс на устройстве. Но это уже совсем другая история, где играют по другим правилам.