2 миллиона видео, чтобы научить ИИ думать
Все устали от моделей, которые генерируют красивое видео, но не понимают, что на нем происходит. Человек видит, как мяч летит в окно, и предсказывает звук бьющегося стекла. Sora 2 или Veo 3.1 просто нарисуют вам красивую траекторию. VBVR - это попытка исправить эту когнитивную пропасть. Датасет на 2 миллиона коротких роликов, каждый - не просто картинки в движении, а готовая логическая задача.
На 26.02.2026 именно открытая модель Wan2.2, обученная на VBVR, показывает лучшие результаты в тестах на видео-рассуждение, обходя последние коммерческие релизы. Это редкий случай, когда open-source опережает закрытые системы в конкретной, сложной нише.
Что внутри этого монстра?
VBVR (Video-Based Visual Reasoning) - не просто архив видео с YouTube. Каждый клип длиной 5-15 секунд аннотирован многоуровневыми вопросами и цепочками рассуждений (CoT). Типичный пример: видео, где человек наливает воду из кувшина в стакан. Вопросы идут от простого ("Что делает человек?") к сложному ("Что произойдет со стаканом через 3 секунды, если он продолжит наклонять кувшин?"). Ответ требует понимания физики, причинно-следственных связей и прогнозирования.
| Характеристика | Значение |
|---|---|
| Объем видео | ~2 млн клипов |
| Длительность | 5-15 секунд |
| Аннотации | Вопросы, ответы, цепочки рассуждений (CoT) |
| Задачи | Причинно-следственный вывод, прогнозирование, понимание действий |
| Формат | Видео (MP4) + JSONL с метаданными |
Сбор данных - отдельная инженерная драма. Авторы не скребли просто все подряд, а использовали гибридный подход: синтетические симуляции для четких физических сцен и фильтрацию реальных видео с помощью мощных VLM вроде Gemini 3 Flash для генерации аннотаций. Методология очень похожа на ту, что описана в нашем руководстве по дистилляции визуального мышления, только в промышленном масштабе.
Wan2.2: открытая модель, которая бьет коммерческие
Звезда проекта - модель Wan2.2 (Visual Reasoning Net, версия 2.2). Это не очередная тонкая настройка Stable Diffusion. Архитектура гибридная: видео-энкодер на основе ViT-3B, который выжимает пространственно-временные признаки, и языковая модель Qwen2.5-7B-Instruct в качестве "мозга" для рассуждений. Связь между ними - кастомный кросс-аттеншн-модуль, обученный с нуля на VBVR.
Результаты на внутреннем бенчмарке VideoLogicBench (также открытом) впечатляют. Wan2.2 набирает 78.3% точности в задачах на прогнозирование и причинный вывод. Sora 2 (в режиме "понимания") - 71.1%. Veo 3.1 - 69.8%. Разрыв в 7+ процентных пунктов для open-source модели - это событие. Особенно силен Wan2.2 в сценариях, где нужно понять намерение человека или последствия его действий - те самые "слепые пятна" большинства VLM.
Как загрузить и использовать: не так просто, как кажется
Все выложено на Hugging Face: датасет VBVR (частично, с торрент-ссылками на полную версию), веса Wan2.2 в формате Safetensors, код для инференса и обучения. Но приготовьтесь к хардкору. Полный датасет весит ~400 ТБ в несжатом виде. Для нормальной работы Wan2.2 нужно минимум 24 ГБ VRAM (например, RTX 4090) для инференса в полном разрешении.
1Базовый инференс через Hugging Face Transformers
Самый быстрый способ попробовать - использовать конвейер из библиотеки `transformers` (версия 4.45.0 и новее). Модель автоматически загрузит нужный видео процессор и языковую часть.
Важно: для работы с видео нужны дополнительные библиотеки: `decord` для эффективной загрузки кадров и `av` для обработки контейнеров. Установите их до начала работы.
После загрузки модели вы можете задавать вопросы о видеофайле. Модель возвращает не просто ответ, а полную цепочку рассуждений в формате JSON, что идеально для отладки или использования в синтетических конвейерах.
Чем VBVR и Wan2.2 лучше альтернатив?
Другие открытые датасеты для видео (WebVid, HowTo100M) хороши для обучения распознаванию действий или генерации, но не для глубокого reasoning. Коммерческие API (от OpenAI, Google) дают только черный ящик без возможности дообучения. Wan2.2 выигрывает за счет трех факторов:
- Прозрачность: полный доступ к архитектуре и данным.
- Специализация: модель заточена именно под рассуждение, а не под все задачи сразу.
- Эффективность: при меньшем размере (около 10B параметров) она показывает лучшие результаты в своей нише, чем мультимодальные гиганты.
Если вам нужна именно способность к логическому выводу из видео, а не генерация контента, альтернатив на рынке open-source в 2026 году практически нет. Разве что можно попробовать дообучить какую-нибудь компактную VLM вроде Youtu-VL-4B на своих данных, но это будет долго и сложно.
Кому стоит за этим следить прямо сейчас?
Это не инструмент для хобби-проектов на ноутбуке. Целевая аудитория конкретна:
- Исследователи в области computer vision и VLM: для воспроизведения экспериментов, создания новых бенчмарков или как превосходный базовый чекпоинт для дообучения.
- Разработчики автономных агентов и робототехники: где понимание последствий действий в динамической среде - ключевой навык. Для них может быть полезна наша статья про сборку локальной AI-станции.
- Команды, создающие образовательный или аналитический софт: например, для автоматического анализа спортивных тренировок или инцидентов на видеозаписях.
Если вы хотите поэкспериментировать с дообучением, обратите внимание на новые методы, такие как GRPO, которые, как обсуждалось на ICLR 2026, становятся стандартом для выравнивания моделей. И помните о ловушках при тонкой настройке VLM.
Что дальше? Прогноз на 2027
VBVR и Wan2.2 - не конечная точка. Это сигнал: эра, когда качественные датасеты для рассуждений были закрытыми или маленькими, заканчивается. В течение 2026-2027 годов ожидайте взрыв похожих инициатив, особенно с фокусом на 3D-сценах и тактильном взаимодействии. Проблема в том, что разрыв в реализме между видео ИИ и реальностью еще велик, и для истинного понимания мира его нужно сокращать.
Совет напоследок: не гонитесь за размером. Локальная 7B-параметричная модель, обученная на качественных данных для рассуждений, часто полезнее облачного 100B-параметричного универсала. Иногда лучше думать медленно, но правильно.