Забудьте про Sora и Veo. Это другая лига
Пока все обсуждают, как Veo 3.1 от DeepMind генерирует красивые ролики из текста, в лабораториях происходит тихая революция. Речь не о создании контента для соцсетей. Речь о том, чтобы научить ИИ понимать физический мир через призму человеческого тела.
Модель PEVA (Predicting Egocentric Video from Actions) делает именно это. Она не рисует драконов по запросу. Она смотрит на ваши действия — поворот головы, движение руки, шаг вперед — и предсказывает, что вы увидите в следующий момент. Звучит как магия? Это почти она.
Embodied AI — это направление, где ИИ обучается не на статических данных, а через взаимодействие с виртуальной или реальной средой. Как если бы вы учили ребенка ходить, а не показывали ему миллион фотографий ног.
Проблема, от которой у инженеров болит голова
Представьте, что вы разрабатываете робота-помощника для склада. Или симулятор для обучения хирургов. Или даже продвинутую систему для беспилотных автомобилей. Вам нужно, чтобы система не просто реагировала на картинку, а понимала последствия действий в динамическом мире.
Традиционный подход: накормить нейросеть терабайтами записанного видео. Но это дорого, медленно и, главное, пассивно. Система видит, что происходит, но не понимает причинно-следственных связей. Почему после поворота руля картинка за окном изменилась именно так?
PEVA переворачивает задачу. На входе — не текст и не изображение, а высокоразмерное действие. Вектор из десятков параметров, описывающих положение суставов, ориентацию тела в пространстве, мышечную активность. На выходе — предсказание следующего кадра эгоцентричного видео.
Как это работает? Не так, как вы думаете
Если вы ждете здесь разбора архитектуры Transformer или диффузионных моделей в духе World Models от Runway, то будете разочарованы. PEVA использует другой подход — она строит внутреннюю, сжатую модель окружающего мира.
Вместо того чтобы напрямую генерировать пиксели, модель сначала кодирует текущее визуальное состояние в латентное представление. Затем она принимает на вход вектор действия и предсказывает, как это латентное состояние изменится. И только потом декодирует его обратно в картинку.
| Что на входе | Что делает модель | Что на выходе |
|---|---|---|
| Текущий кадр видео + вектор действий (поворот, движение) | Сжимает кадр в латентный код, предсказывает его изменение от действия, раскодирует | Предсказанный следующий кадр видео |
| Только вектор действий (для планирования) | Использует внутреннюю мировую модель для симуляции последствий | Последовательность предсказанных состояний мира |
Это похоже на то, как работает ваш мозг. Вы не перерисовываете всю комнату в воображении, когда решаете повернуть голову. У вас есть ментальная модель, которая быстро обновляется.
Зачем это нужно? (Спойлер: не для TikTok)
Если вы думаете, что эта технология пригодится для создания крутых эффектов в следующем аниме-проекте, вы ошибаетесь. Применения гораздо серьезнее:
- Робототехника: Робот может «проигрывать» действия в уме, прежде чем сделать шаг. Уронится ли чашка, если я возьму ее вот так? Что увидит камера, если манипулятор повернется на 30 градусов?
- Дообучение с подкреплением: Вместо тысяч реальных попыток, агент может тренироваться в симуляции, которую сам же и предсказывает. Дешево и безопасно.
- Реалистичные симуляторы: Для обучения пилотов, водителей, хирургов. Симулятор, который не просто проигрывает записанный сценарий, а динамически генерирует визуальную обратную связь на действия ученика.
- Протезирование и интерфейсы мозг-компьютер: Предсказание визуального потока могло бы помочь в калибровке систем, заменяющих утраченные функции.
Главный вызов — это «проклятие размерности». Пространство возможных действий (все комбинации движений суставов) — астрономически велико. Обучить модель, которая будет устойчиво работать на всем этом пространстве, — задача не для слабонервных. Современные результаты выглядят убедительно, но только в ограниченных, контролируемых средах.
А что с качеством? Пока не дотягивает до Голливуда
Давайте будем честны. Предсказанные кадры PEVA не выиграют конкурс красоты у Veo 3.1. Они часто размыты, детали теряются, временная консистентность хромает. Но в этом и нет цели.
Цель — не фотореализм, а семантическая и физическая точность. Если я поверну голову направо, исчезнет ли стол из кадра? Появится ли окно? Если я толкну шар, покатится ли он в правильном направлении? На этих вопросах PEVA фокусируется в первую очередь.
Это как разница между художником, который рисует красивое яблоко, и физиком, который может предсказать его траекторию падения. Второе для робота ценнее.
Что дальше? Слияние миров
Самый интересный путь развития — гибридизация. Представьте модель, которая сочетает физическое понимание PEVA с мощью генеративных моделей типа Sora. Сначала спрогнозируй структуру и динамику сцены (как PEVA), затем «раскрась» ее в фотореалистичные детали (как диффузионная модель).
Такой подход мог бы решить проблему, знакомую по созданию аватаров или 3D-анимации: как сохранить физическую правдоподобность, когда ты генерируешь контент с нуля.
Другое направление — масштабирование. Обучить PEVA не на данных с одного человека в одной комнате, а на огромных наборах разнообразных эгоцентричных видео (например, с экшн-камер). Это могло бы привести к появлению универсальной «мировой модели от первого лица».
Пока индустрия меряется параметрами языковых моделей в гонке бенчмарков, фундаментальные исследования вроде PEVA закладывают кирпичики в основание настоящего, embodied искусственного интеллекта. Того, который не просто болтает, а существует в мире и взаимодействует с ним. И это, возможно, важнее любого чат-бота.
Следующий логичный шаг? Внедрение подобных моделей в такие системы, как PhysicalAgent, чтобы дать им не просто инструкции, а внутреннее предвидение. Тогда, возможно, мы наконец перестанем шутить про роботов, которые не могут поднять соринку, не уронив вазу.