Veo 3.1: когда вертикальный формат перестал быть костылем

Забудьте про обрезку горизонтального видео под вертикал. Это всегда выглядело убого — то голова обрезана, то важный объект за кадром. Google в Veo 3.1 наконец-то добавил нативную поддержку вертикального формата (1080x1920). Не опция, не костыль, а полноценный режим генерации.

💡

Вертикальный режим в Veo 3.1 — это не просто изменение пропорций. Модель обучали на датасетах из TikTok и Reels, поэтому она понимает композицию вертикального кадра: где должен быть главный объект, как работает динамика в ограниченном пространстве.

Почему это важно? Потому что 90% контента сейчас потребляется с телефона. И если вы делаете видео для соцсетей, горизонтальный формат — это самоубийство. Engagement падает в разы. С Veo 3.1 можно сразу генерировать контент под платформу, без постобработки.

Консистентность персонажей: больше не лотерея

Помните, как в ранних видео-ИИ персонаж на третьей секунде внезапно менял цвет волос, а на пятой — форму лица? Это называлось "творческой свободой модели". На деле — технический косяк.

Veo 3.1 с функцией Ingredients to Video решает эту проблему радикально. Система не просто берет ваше изображение и пытается его анимировать. Она сначала анализирует картинку, выделяет ключевые признаки персонажа (прическу, черты лица, одежду, позу) и создает текстовое описание — тот самый "ингредиент".

Важный нюанс: вы можете редактировать это текстовое описание. Хотите, чтобы персонаж повернул голову? Добавьте "turning head slowly". Нужно изменить эмоцию? Пропишите "smiling gently". Это дает контроль, которого раньше не было.

Как это работает на практике? Загружаете фото основателя компании. Получаете описание: "A man in a blue suit, short dark hair, standing in an office". Меняете промпт на "The same man presenting a chart to colleagues". И получаете видео, где этот же человек (точно тот же, не похожий) что-то объясняет у доски.

Сравнение с альтернативами: где Veo 3.1 выигрывает, а где проигрывает

Инструмент	Консистентность	Вертикальный формат	Доступ
Veo 3.1	Высокая (Ingredients to Video)	Нативная поддержка	Только API (Gemini/Vertex AI)
Sora (OpenAI)	Средняя	Через обрезку	Закрытый доступ
Runway Gen-3	Низкая	Есть	Web-интерфейс, API
Luma Dream Machine	Очень низкая	Есть	Web-интерфейс

Главное преимущество Veo 3.1 — именно контроль консистентности через Ingredients to Video. Ни у кого больше нет такого подхода. Но есть и недостаток: модель доступна только через API. Нет веб-интерфейса для быстрого тестирования, как у Runway или Luma.

Если вам интересно, как другие модели справляются с созданием сложного контента, посмотрите наш обзор World Models от Runway — там совсем другой подход к генерации.

Кому подойдет Veo 3.1? Реальные кейсы вместо маркетинговой шелухи

1 Создатели контента для соцсетей

Нужно делать 10-15 вертикальных видео в день для TikTok/Reels. Раньше приходилось снимать, монтировать, тратить часы. Теперь: загружаете фото продукта или человека, меняете промпты, получаете серию консистентных роликов за 30 минут.

2 Малый бизнес и стартапы

Нет бюджета на профессиональную видеосъемку. Нужно быстро создать рекламные ролики с участием основателя или демонстрацией продукта. Veo 3.1 позволяет сделать это за копейки (по сравнению со стоимостью production).

3 Образовательные платформы

Можно создавать персонализированные видеоуроки. Загружаете аватар ученика (с его разрешения, конечно), генерируете видео, где этот аватар объясняет тему. Психологически работает лучше безликой анимации.

Важно: Veo 3.1 — не локальная модель. Все изображения и видео обрабатываются на серверах Google. Если нужна полная приватность, как в локальных решениях вроде LTX-2 или Qwen3-VL, этот вариант не подойдет.

Как начать использовать? Только API, только хардкор

Тут Google не стал мудрить. Нет красивой веб-морды, как у конкурентов. Только Gemini API или Vertex AI. Для разработчика — нормально. Для обычного пользователя — барьер.

Что нужно сделать:

Получить API ключ в Google AI Studio
Настроить вызов к модели через REST API
Подготовить изображение (рекомендуется 1024x1024 для лучшего качества)
Отправить запрос с параметрами (длительность видео, формат, промпт)
Дождаться генерации (от 30 секунд до нескольких минут)

Если нужен подробный технический гайд, у нас есть отдельная статья: Veo 3.1 Ingredients to Video: полный гайд по превращению картинок в кино через Gemini API.

Что не так с Veo 3.1? (Потому что идеальных технологий не бывает)

Первое — цена. API-вызовы стоят денег. Для массового производства контента счет может набежать приличный. Второе — задержки генерации. Хотя Google обещает быструю обработку, на практике иногда приходится ждать несколько минут, особенно для 4K-видео.

Третье — ограничения на контент. Как и все крупные модели, Veo 3.1 имеет строгие политики безопасности. Попробуйте сгенерировать что-то спорное — получите отказ. Для творческих экспериментов это может быть проблемой.

И четвертое — артефакты. Да, консистентность улучшили, но идеальной ее не сделали. Иногда персонаж все равно "плывет", особенно в сложных движениях. Если нужна идеальная точность, лучше использовать специализированные инструменты вроде Tencent HY-Motion 1.0 для 3D-анимации.

Итог: стоит ли пробовать?

Если вы делаете контент для соцсетей и устали от проблем с консистентностью персонажей — да, определенно стоит. Ingredients to Video реально работает, вертикальный формат — не маркетинговая уловка.

Если вам нужна полная анонимность и локальный запуск — нет, ищите другие варианты. Veo 3.1 на 100% облачный.

Главное — не ждите чудес. Модель все еще делает ошибки, все еще требует тонкой настройки промптов. Но это самый продвинутый инструмент для контролируемой генерации видео из изображений на рынке. По крайней мере, пока.

P.S. Интересный факт: Google уже работает над детекцией AI-видео. Если хотите понимать, какие артефакты выдают синтетический контент, почитайте про новый инструмент в приложении Gemini. Полезно для обратной стороны медали.

Veo 3.1 Ingredients to Video: вертикальный формат и консистентность персонажей — это работает или маркетинг?