Почему мультимодальные модели не приведут к AGI?

Потому что они остаются пассивными наблюдателями, которые обрабатывают символы без телесного опыта. Они улавливают корреляции, но не понимают причинно-следственные связи, так как не взаимодействуют с миром физически.

Что такое воплощённый интеллект?

Это подход, утверждающий, что разум развивается через сенсомоторный опыт — через активное взаимодействие с физическим миром, а не через пассивное наблюдение за данными.

Какие есть альтернативы мультимодальному подходу?

Разработка систем, которые учатся через действие в физической среде или симуляциях, с замкнутой петлей обратной связи. Это требует робототехники или сложных симуляций, но создаёт заземлённые ментальные модели мира.

Критика мультимодального ИИ: почему AGI требует тела, а не картинок

Мы кормим ИИ картинками, а он хочет рук

Каждый месяц — новая анонсированная мультимодальная модель. GPT-4o, Gemini, Claude — все они теперь "видят" и "слышат". Индустрия уверена: это следующий логический шаг к искусственному общему интеллекту (AGI). Добавим зрение, добавим слух, потом осязание — и вот он, разум в цифровой оболочке.

Это красивая сказка. И опасное заблуждение.

Мультимодальность не решает фундаментальную проблему современных ИИ — отсутствие телесного опыта. Модель, которая обрабатывает текст, изображения и аудио, остаётся такой же статистической машиной, как и её предшественники. Просто с большим количеством входных данных.

Ошибка в самой парадигме

Представьте, что вы пытаетесь объяснить слепому от рождения человеку, что такое "красный". Вы можете дать ему тысячи описаний: "как кровь", "как закат", "как спелая клубника". Вы можете проиграть ему музыку, которая ассоциируется с красным цветом. Вы даже можете подключить его к устройству, которое преобразует цвет в звук определённой частоты.

Он выучит все корреляции. Сможет генерировать тексты о красном, которые будут неотличимы от текстов зрячего человека. Но поймёт ли он красный? Нет. Потому что понимание требует не данных, а опыта.

Современные мультимодальные модели — это тот самый слепой, натренированный на триллионах описаний. Они научились угадывать, какое слово должно следовать за каким пикселем. Но у них нет опыта взаимодействия с миром, который эти пиксели представляют.

💡

Это напрямую связано с проблемой, которую мы разбирали в статье "GigaChat не думает. Он просто очень хорошо угадывает слова". Добавление модальностей не меняет природу угадывания — просто увеличивает количество параметров для угадывания.

Три аргумента против мультимодального пути к AGI

1 Проблема заземления символов

Языковая модель оперирует символами — словами, токенами. Мультимодальная модель добавляет другие символы — векторы пикселей, спектрограммы. Но символы остаются символами. Они не "заземлены" в реальном опыте.

Что такое "тяжёлый" для ИИ? Это статистическая корреляция между словом "тяжёлый" и другими словами ("камень", "поднять", "усталость") или изображениями (напряжённые мышцы, согнутая спина). Что такое "тяжёлый" для ребёнка? Это опыт неудачной попытки поднять камень. Опыт напряжения мышц. Опыт падения предмета на ногу.

Без этого телесного опыта символы остаются пустыми. Модель может идеально описывать тяжесть, но не понимает её.

2 Отсутствие причинно-следственных моделей

Мультимодальные модели прекрасно улавливают корреляции. Если на картинке идёт дождь, люди часто с зонтами. Если кто-то говорит "горячо", он может дуть на пальцы. Но корреляция — не причинность.

Чтобы понять причинность, нужен эксперимент. Нужно действие и наблюдение за его последствиями. Нужно толкнуть чашку со стола и увидеть, как она падает и разбивается. Нужно почувствовать сопротивление воздуха, когда машешь рукой. Нужно обжечься, прикоснувшись к чему-то горячему.

Пассивное наблюдение за триллионами примеров не даёт причинно-следственного понимания. Оно даёт только статистические закономерности. Как мы писали в статье о математике и LLM, предсказание следующего токена — это не вычисление причин.

3 Иллюзия понимания через интерполяцию

Когда мультимодальная модель "понимает" шутку на картинке или описывает сложную сцену, мы видим результат интерполяции между миллионами похожих примеров в обучающих данных. Это впечатляет. Но это не понимание.

Понимание требует способности к экстраполяции — к действиям в новых, непредвиденных ситуациях. К решению проблем, которых нет в обучающих данных. К творчеству, которое не является рекомбинацией увиденного.

И здесь мы упираемся в главное: творчество и решение новых проблем рождаются из взаимодействия с миром, а не из наблюдения за ним.

Мультимодальный подход	Воплощённый интеллект
Пассивное восприятие данных	Активное взаимодействие со средой
Статистические корреляции	Причинно-следственные модели
Интерполяция на основе данных	Экстраполяция и творчество
Символы без заземления	Заземлённые понятия через опыт

Так что же такое воплощённый интеллект?

Воплощённый интеллект — это подход, который утверждает: разум не существует отдельно от тела. Интеллект развивается через сенсомоторный опыт — через взаимодействие с физическим миром.

Ребёнок учится понятиям не через чтение текстов или просмотр видео. Он учится через действие: хватает, бросает, тянет, толкает. Он строит ментальные модели физического мира, которые позволяют ему предсказывать последствия действий.

Для создания AGI, по мнению сторонников этого подхода, нужны не более крупные модели на более мощных GPU. Нужны роботы, которые взаимодействуют с миром. Нужны системы, которые учатся через действие и получают обратную связь от среды.

Это не значит, что нужно строить человекообразных роботов. Это значит, что алгоритмы обучения должны включать компонент действия и последствий. Даже в симуляции. Даже в ограниченной среде. Но обязательно с замкнутой петлей "действие-наблюдение-коррекция".

Почему индустрия игнорирует этот подход?

Три простые причины:

Деньги. Обучать мультимодальные модели на статических данных — это масштабируемо. Можно арендовать кластеры, загрузить датасеты и ждать. Робототехника — это дорого, медленно и не масштабируется так же легко.
Измеримость. Точность классификации изображений или BLEU-скор для описания картинок — это понятные метрики. Как измерить "понимание физического мира"? Нет стандартных бенчмарков.
Непосредственная полезность. Мультимодальные модели уже сейчас приносят прибыль — чат-боты с зрением, анализ документов, генерация контента. Исследования в области воплощённого интеллекта — это фундаментальная наука с неочевидным коммерческим выходом.

Индустрия выбрала путь наименьшего сопротивления и наибольшей немедленной отдачи. И в этом её стратегическая ошибка.

Что будет дальше?

Мы увидим ещё более впечатляющие мультимодальные модели. GPT-5 будет "понимать" видео. GPT-6 добавит что-то ещё. Каждый релиз будет вызывать волну эйфории: "Вот оно! Почти AGI!"

Но фундаментальный потолок останется. Модели будут становиться лучше в интерполяции, но не в понимании. Они будут генерировать более качественные ответы, но не будут способны к подлинному творчеству или решению принципиально новых проблем.

Настоящий прорыв произойдёт не в лабораториях OpenAI или Google. Он произойдёт там, где кто-то осмелится пойти против тренда. Где вместо добавления очередной модальности к языковой модели, исследователи начнут строить системы, которые учатся через действие. Как Genie от DeepMind, но с реальным, а не предсказанным взаимодействием.

AGI не появится из большего количества данных. Он появится из другого типа обучения. Из опыта, а не наблюдения. Из действия, а не пассивного потребления.

И когда это случится, мы оглянемся на сегодняшнюю мультимодальную эйфорию с той же снисходительностью, с какой сейчас смотрим на экспертные системы 80-х. Как на милую, но наивную попытку создать разум, не понимая, что такое разум.

Интеллект — это не обработка информации. Это взаимодействие с миром. И пока наши ИИ остаются пассивными наблюдателями, они останутся умными попугаями. Даже если эти попугаи научатся описывать то, что видят.

Мультимодальность — это тупик: почему GPT-5 с глазами не станет разумным