SPLICE бенчмарк: VLM не понимают временные связи | Исследование EMNLP 2025 | AiManual
AiManual Logo Ai / Manual.
15 Мар 2026 Новости

Провал видео-языковых моделей: как бенчмарк SPLICE выявил неспособность VLMs к временным и причинно-следственным рассуждениям

Новый бенчмарк SPLICE показал, что Gemini 2.0, Qwen2.5-VL и LLaVA-Next проваливают задачи на причинно-следственные связи в видео. Подробности на 15.03.2026.

Сплошное настоящее: почему VLM живут без прошлого и будущего

Представьте человека, который смотрит видео, где кто-то роняет стакан, а в следующем кадре на полу лежат осколки. Для нас это одна история. Для передовых видео-языковых моделей на 15 марта 2026 года – это два независимых кадра без логической связи. Результаты нового исследования, представленного на EMNLP 2025, рисуют трезвую, даже мрачную картину.

Бенчмарк SPLICE (Spatio-temporal Reasoning with Logic and Causal Events) – это не просто еще один тест. Это системная проверка способности моделей понимать, что было сначала, что потом, и почему одно событие ведет к другому. Разработчики из Стэнфорда и MIT собрали коллекцию коротких видеоклипов, где правильный ответ требует именно временных и причинно-следственных умозаключений. Не просто описать, что видишь. Понять, как это связано.

Вот что случилось: модели-лидеры, такие как Gemini 2.0 от Google, Qwen2.5-VL-72B от Alibaba и новейшая LLaVA-Next, показали точность на уровне случайного угадывания (45-55%) в задачах на причинность. Для сравнения, люди решают эти же задачи с точностью выше 98%.

Кто виноват: хронология провала

Бенчмарк SPLICE разделен на три уровня сложности: последовательность (что идет за чем?), предварительное условие (что должно было произойти раньше, чтобы это стало возможным?) и причинно-следственная связь (почему это произошло?). Именно на последнем уровне все современные VLM, выпущенные к началу 2026 года, спотыкаются.

Возьмем пример из теста: видео, где человек входит в темную комнату, а затем зажигается свет. Вопрос: «Почему свет включился?» Правильный ответ требует понимания намерений и физического взаимодействия (он нажал выключатель). Модели же чаще всего генерируют ответы вроде «Потому что в комнате было темно» или «Чтобы осветить пространство». Они видят корреляцию, но не причину. Они описывают состояние, а не действие.

Модель (Версия на 15.03.2026) SPLICE (Общая точность) Причинно-следственный блок Основная ошибка
Gemini 2.0 Pro Vision 52.1% 48.3% Путает следствие с причиной
Qwen2.5-VL-72B 49.8% 45.7% Игнорирует скрытые действия
LLaVA-Next (34B) 47.3% 43.1% Рассуждает на основе статичных кадров
Claude 3.5 Sonnet (Vision) 54.6% 50.2% Генерирует правдоподобные, но неверные нарративы
Человек (контрольная группа) 98.5% 97.8% -

В чем корень проблемы? Исследователи полагают, что архитектурный фундамент VLM изначально кривой. Эти модели по сути – мощные языковые модели (LLM), к которым прикрутили модуль для извлечения признаков из изображений (или видео). Их обучают на парах «видео-текст», где текст – это описание того, что видно. Но его редко учат описывать то, что подразумевается или что не видно, но логически необходимо.

Это похоже на нашумевшую историю о том, почему большие языковые модели не понимают, чего вы на самом деле хотите. Тот же принцип: модель отлично обрабатывает поверхностные сигналы, но полностью пропускает глубинный контекст и намерение.

Сломанные часы в голове у ИИ

Провал в SPLICE – не просто академический курьез. Это прямой удар по надеждам на использование VLM в критически важных областях.

  • Автономные системы: Робот, не понимающий, что открытие двери – это причина, по которой он может войти в комнату, а не просто два события рядом во времени.
  • Медицинская диагностика по видео: Анализ последовательности симптомов, где порядок и причинность – ключ к диагнозу.
  • Безопасность и видеонаблюдение: Определение, является ли толчок человека причиной его падения или просто совпадением.

Авторы исследования сравнивают текущее состояние VLM с человеком с тяжелой формой амнезии, который живет только в текущем моменте. Модель видит кадр A и кадр B. Она может их красиво описать. Но нейронная «нить», связывающая A и B в единый причинный клубок, у нее просто отсутствует. Это перекликается с проблемой, описанной в материале о слепых пятнах VLM, где распознавание текста вытесняло понимание пространства.

💡
Где это болит у разработчиков? Если вы строите приложение для анализа спортивных тренировок или производственных процессов на основе видео, забудьте о готовых API от крупных вендоров для сложной аналитики. Они могут описать сцену, но не сделают вывод, что неправильная постановка ноги привела к падению. Пока что.

Что дальше? Архитектурный тупик или новый прорыв?

Перед исследователями сейчас стоит дилемма. Можно ли научить текущую архитектуру VLM причинно-следственному мышлению, просто накормив ее большим объемом специально размеченных данных? Или нужен принципиально новый подход, где временная ось и причинность зашиты в саму архитектуру модели с самого начала?

Некоторые лаборатории уже экспериментируют с гибридными системами, где VLM работает в паре с символическим ИИ-модулем, специально обученным на логических правилах. Другие пытаются внедрить механизмы, похожие на «внутренний диалог», чтобы модель сначала реконструировала цепь событий, а потом формулировала ответ.

Но пока эти попытки – лабораторные прототипы. А на рынке доминируют модели, блестяще проваливающие базовые для человека тесты. Это яркое напоминание, что сложность ИИ – это не только параметры и вычислительная мощность. Это вопрос правильной инженерии самой мыслительной конструкции. Для тех, кто хочет глубже понять, как модели на самом деле «мыслят», стоит изучить статью о внутренних состояниях LLM.

Практический вывод: как не обжечься на VLM в 2026 году

Не верьте маркетинговым заявлениям о «глубоком понимании видео». Тестируйте. Тестируйте именно на своих use-case, которые могут требовать временных рассуждений. Задавайте модели не «Что происходит на видео?», а «Что должно было случиться за секунду до этого кадра?» или «Если бы я убрал вот этот объект из сцены в начале, изменился бы финал?».

И главное – помните, что этот провал в причинности является фундаментальным ограничением, а не мелким багом. Пока не появится новое поколение архитектур (ожидать его раньше 2027-2028 годов не стоит), критически важные решения на основе видеоанализа должны проходить через человека или специализированные, узконаправленные алгоритмы. VLMs сегодня – это гениальные, но очень поверхностные рассказчики. Они видят картинки. Но истории – пока нет.

Подписаться на канал