Сплошное настоящее: почему VLM живут без прошлого и будущего
Представьте человека, который смотрит видео, где кто-то роняет стакан, а в следующем кадре на полу лежат осколки. Для нас это одна история. Для передовых видео-языковых моделей на 15 марта 2026 года – это два независимых кадра без логической связи. Результаты нового исследования, представленного на EMNLP 2025, рисуют трезвую, даже мрачную картину.
Бенчмарк SPLICE (Spatio-temporal Reasoning with Logic and Causal Events) – это не просто еще один тест. Это системная проверка способности моделей понимать, что было сначала, что потом, и почему одно событие ведет к другому. Разработчики из Стэнфорда и MIT собрали коллекцию коротких видеоклипов, где правильный ответ требует именно временных и причинно-следственных умозаключений. Не просто описать, что видишь. Понять, как это связано.
Вот что случилось: модели-лидеры, такие как Gemini 2.0 от Google, Qwen2.5-VL-72B от Alibaba и новейшая LLaVA-Next, показали точность на уровне случайного угадывания (45-55%) в задачах на причинность. Для сравнения, люди решают эти же задачи с точностью выше 98%.
Кто виноват: хронология провала
Бенчмарк SPLICE разделен на три уровня сложности: последовательность (что идет за чем?), предварительное условие (что должно было произойти раньше, чтобы это стало возможным?) и причинно-следственная связь (почему это произошло?). Именно на последнем уровне все современные VLM, выпущенные к началу 2026 года, спотыкаются.
Возьмем пример из теста: видео, где человек входит в темную комнату, а затем зажигается свет. Вопрос: «Почему свет включился?» Правильный ответ требует понимания намерений и физического взаимодействия (он нажал выключатель). Модели же чаще всего генерируют ответы вроде «Потому что в комнате было темно» или «Чтобы осветить пространство». Они видят корреляцию, но не причину. Они описывают состояние, а не действие.
| Модель (Версия на 15.03.2026) | SPLICE (Общая точность) | Причинно-следственный блок | Основная ошибка |
|---|---|---|---|
| Gemini 2.0 Pro Vision | 52.1% | 48.3% | Путает следствие с причиной |
| Qwen2.5-VL-72B | 49.8% | 45.7% | Игнорирует скрытые действия |
| LLaVA-Next (34B) | 47.3% | 43.1% | Рассуждает на основе статичных кадров |
| Claude 3.5 Sonnet (Vision) | 54.6% | 50.2% | Генерирует правдоподобные, но неверные нарративы |
| Человек (контрольная группа) | 98.5% | 97.8% | - |
В чем корень проблемы? Исследователи полагают, что архитектурный фундамент VLM изначально кривой. Эти модели по сути – мощные языковые модели (LLM), к которым прикрутили модуль для извлечения признаков из изображений (или видео). Их обучают на парах «видео-текст», где текст – это описание того, что видно. Но его редко учат описывать то, что подразумевается или что не видно, но логически необходимо.
Это похоже на нашумевшую историю о том, почему большие языковые модели не понимают, чего вы на самом деле хотите. Тот же принцип: модель отлично обрабатывает поверхностные сигналы, но полностью пропускает глубинный контекст и намерение.
Сломанные часы в голове у ИИ
Провал в SPLICE – не просто академический курьез. Это прямой удар по надеждам на использование VLM в критически важных областях.
- Автономные системы: Робот, не понимающий, что открытие двери – это причина, по которой он может войти в комнату, а не просто два события рядом во времени.
- Медицинская диагностика по видео: Анализ последовательности симптомов, где порядок и причинность – ключ к диагнозу.
- Безопасность и видеонаблюдение: Определение, является ли толчок человека причиной его падения или просто совпадением.
Авторы исследования сравнивают текущее состояние VLM с человеком с тяжелой формой амнезии, который живет только в текущем моменте. Модель видит кадр A и кадр B. Она может их красиво описать. Но нейронная «нить», связывающая A и B в единый причинный клубок, у нее просто отсутствует. Это перекликается с проблемой, описанной в материале о слепых пятнах VLM, где распознавание текста вытесняло понимание пространства.
Что дальше? Архитектурный тупик или новый прорыв?
Перед исследователями сейчас стоит дилемма. Можно ли научить текущую архитектуру VLM причинно-следственному мышлению, просто накормив ее большим объемом специально размеченных данных? Или нужен принципиально новый подход, где временная ось и причинность зашиты в саму архитектуру модели с самого начала?
Некоторые лаборатории уже экспериментируют с гибридными системами, где VLM работает в паре с символическим ИИ-модулем, специально обученным на логических правилах. Другие пытаются внедрить механизмы, похожие на «внутренний диалог», чтобы модель сначала реконструировала цепь событий, а потом формулировала ответ.
Но пока эти попытки – лабораторные прототипы. А на рынке доминируют модели, блестяще проваливающие базовые для человека тесты. Это яркое напоминание, что сложность ИИ – это не только параметры и вычислительная мощность. Это вопрос правильной инженерии самой мыслительной конструкции. Для тех, кто хочет глубже понять, как модели на самом деле «мыслят», стоит изучить статью о внутренних состояниях LLM.
Практический вывод: как не обжечься на VLM в 2026 году
Не верьте маркетинговым заявлениям о «глубоком понимании видео». Тестируйте. Тестируйте именно на своих use-case, которые могут требовать временных рассуждений. Задавайте модели не «Что происходит на видео?», а «Что должно было случиться за секунду до этого кадра?» или «Если бы я убрал вот этот объект из сцены в начале, изменился бы финал?».
И главное – помните, что этот провал в причинности является фундаментальным ограничением, а не мелким багом. Пока не появится новое поколение архитектур (ожидать его раньше 2027-2028 годов не стоит), критически важные решения на основе видеоанализа должны проходить через человека или специализированные, узконаправленные алгоритмы. VLMs сегодня – это гениальные, но очень поверхностные рассказчики. Они видят картинки. Но истории – пока нет.