Почему вы до сих пор не генерируете видео через RAG?

В теории все просто. У вас есть запрос от клиента: "Сделай мне видео про наш новый стартап в сфере эко-туризма". Вы берете универсальную AI-модель для генерации видео, даете ей этот промпт, и на выходе получаете анимацию с улыбающимися людьми на фоне зеленых холмов. Проблема в том, что эти холмы выглядят как картинка из стокового фото 2015 года, а люди одеты не в походную экипировку, а в пижамы. Клиент платит за персонализацию, а получает шаблон.

Video RAG решает эту проблему кардинально. Вместо того чтобы надеяться на общие знания модели, вы заставляете ее искать ответы в вашей собственной базе знаний — архиве из сотен часов промо-роликов, интервью, анимаций. Вы не генерируете видео с нуля. Вы ассемблируете его из проверенных, релевантных и стилистически выверенных фрагментов. Это не просто мода — это единственный способ получить предсказуемый, кастомизированный и профессиональный результат в 2026 году.

Стек технологий, который не подведет

Прежде чем лезть в консоль AWS, убедитесь, что у вас под рукой есть все необходимое. Я собрал этот пайплайн на основе сервисов, которые стабильно работают в продакшене и не заставят вас писать костыли.

Amazon Bedrock (2026): Флагманская платформа для работы с foundation models. Нам нужны самые свежие мультимодальные модели для анализа и генерации контента. Акцент на Nova Reel, которая в текущей версии обрабатывает видео на уровне сцен, а не кадров.
Amazon Nova Reel: Не путайте с Nova Image. Это специализированная модель для сегментации, описания и векторного представления видео. В версии 2026 года она научилась понимать контекстные переходы между сценами.
Amazon OpenSearch Serverless с k-NN: Хранилище для векторных эмбеддингов. Serverless-вариант избавляет от головной боли с кластерами.
Amazon S3: Очевидный выбор для хранения исходных и сгенерированных видеофайлов.
AWS Lambda + Step Functions: Оркестрация пайплайна. Lambda для легковесной логики, Step Functions для визуального управления состоянием всего workflow.

Проверьте квоты! Перед началом убедитесь, что в вашем аккаунте AWS включен доступ к Bedrock, а для Nova Reel и выбранных моделей запрошены лимиты. Иначе упретесь в стену на первом же шаге.

От теории к коду: собираем пайплайн за 5 шагов

Архитектура выглядит так: S3 (исходники) -> Nova Reel (разбивка на сцены и эмбеддинги) -> OpenSearch (индекс) -> Bedrock (обработка запроса и поиск) -> Nova Reel (генерация финального видео). Весь процесс управляется Step Functions.

1 Подготовка и загрузка видео-сырья

Не пытайтесь скармливать модели все подряд. Качество входных данных определяет 80% успеха. Создайте в S3 бакет с четкой структурой, например: s3://my-video-rag/source/{project_id}/{video_asset}. Загрузите туда только отобранные, чистые видео в максимально возможном качестве. Удалите титры, водяные знаки, посторонний звук. Если у вас много роликов с YouTube, автоматизируйте загрузку с помощью методов из нашего гайда про автоматизацию обработки YouTube-плейлистов с Reko.

# Пример структуры бакета через AWS CLI
aws s3 sync ./local_video_assets s3://my-video-rag/source/project_alpine/ --exclude "*.txt" --include "*.mp4"

2 Индексация: превращаем видео в поисковую базу

Здесь происходит магия. Мы используем Nova Reel через Bedrock API, чтобы разбить каждое видео на смысловые сцены и получить для каждой сцены текстовое описание и векторный эмбеддинг.

💡

Nova Reel 2026 возвращает не один эмбеддинг на видео, а массив эмбеддингов для каждой обнаруженной сцены. Это ключевое отличие от старых подходов, которые работали с целым файлом. Для поиска по конкретным кадрам изучите наш кейс про поиск по видео для геймдева.

import boto3
import json
from datetime import datetime

bedrock = boto3.client('bedrock-runtime', region_name='us-east-1')

# Конфигурация запроса к Nova Reel для индексации
indexing_prompt = """
Analyze this video and provide:
1. A concise title for each scene.
2. A detailed description including actions, subjects, setting, and mood.
3. Keywords relevant for search.
"""

def index_video(s3_uri):
    body = {
        "inputVideoUri": s3_uri,
        "taskType": "SCENE_DESCRIPTION_AND_EMBEDDING",
        "prompt": indexing_prompt,
        "embeddingConfig": {
            "outputDimensions": 1024  # Актуальная размерность для Nova Reel в 2026
        }
    }
    
    response = bedrock.invoke_model(
        modelId='amazon.nova-reel-v2',  # Указываем самую новую модель на 2026 год
        contentType='application/json',
        accept='application/json',
        body=json.dumps(body)
    )
    
    result = json.loads(response['body'].read())
    # result содержит массив сцен с описаниями и эмбеддингами
    return result['scenes']

Полученные сцены с их эмбеддингами нужно сохранить в OpenSearch Serverless. Создайте индекс с векторным полем соответствующей размерности.

3 Построение поискового движка на OpenSearch

Настройте коллекцию в OpenSearch Serverless с политикой доступа. Это проще, чем управлять кластером. В индексной политике определите поле для векторного поиска (k-NN).

# Запись сцены в OpenSearch
from opensearchpy import OpenSearch, RequestsHttpConnection
import boto3

host = 'your-collection-endpoint.us-east-1.aoss.amazonaws.com'
region = 'us-east-1'

service = 'aoss'
credentials = boto3.Session().get_credentials()
auth = AWSV4SignerAuth(credentials, region, service)

client = OpenSearch(
    hosts=[{'host': host, 'port': 443}],
    http_auth=auth,
    use_ssl=True,
    verify_certs=True,
    connection_class=RequestsHttpConnection
)

def index_scene(project_id, scene_data, video_s3_uri):
    document = {
        'project_id': project_id,
        'scene_title': scene_data['title'],
        'scene_description': scene_data['description'],
        'keywords': scene_data['keywords'],
        'start_ts': scene_data['start_time'],
        'end_ts': scene_data['end_time'],
        'source_video_uri': video_s3_uri,
        'embedding_vector': scene_data['embedding']  # Вектор размерности 1024
    }
    
    response = client.index(
        index='video-scenes-index',
        body=document,
        refresh=True
    )
    return response

4 Retrieval & Generation: сердце пайплайна

Когда приходит запрос пользователя ("создай динамичный тизер про горный поход"), мы сначала превращаем этот текст в эмбеддинг с помощью той же Nova Reel (или текстовой модели в Bedrock, например, Nova Embed Text). Затем ищем самые близкие сцены в OpenSearch.

def retrieve_relevant_scenes(query_text, k=5):
    # Получаем эмбеддинг для текстового запроса
    query_embedding = get_text_embedding(query_text) 
    
    search_query = {
        "size": k,
        "query": {
            "knn": {
                "embedding_vector": {
                    "vector": query_embedding,
                    "k": k
                }
            }
        }
    }
    
    response = client.search(
        index='video-scenes-index',
        body=search_query
    )
    return response['hits']['hits']

# Получаем промпт для генерации, обогащенный контекстом
retrieved_scenes = retrieve_relevant_scenes("горный поход, восход, палатка")
context = "\n".join([hit['_source']['scene_description'] for hit in retrieved_scenes])

final_prompt = f"""
Ты профессиональный видеомонтажер. Используй следующие описания сцен как источник материалов:
{context}

Задача: Создай короткое, динамичное видео-тизер (до 30 секунд) на тему 'горный поход'.
Опиши последовательность сцен, визуальный стиль, темп монтажа и ключевые визуальные элементы.
"""

Этот структурированный промпт, наполненный контекстом из найденных сцен, отправляется в модель генерации видео в Bedrock. В 2026 году вы можете выбрать из нескольких продвинутых моделей. Критически важно использовать режим, который позволяет ссылаться на исходные видео-ассеты через их S3 URI.

5 Ассемблирование и вывод результата

Модель возвращает не готовое видео, а детальный план (EDL - Edit Decision List) или скрипт, который определяет, какие исходные сцены в каком порядке и с какими эффектами смонтировать. Этот план исполняется Nova Reel или специализированным медиа-сервисом (например, AWS MediaConvert). Финальный ролик сохраняется в S3, а ссылка возвращается пользователю.

# Упрощенный вызов генерации через Bedrock
generation_response = bedrock.invoke_model(
    modelId='amazon.nova-reel-v2',  # Или другая модель для генерации
    body=json.dumps({
        "taskType": "VIDEO_GENERATION_FROM_SCRIPT",
        "script": final_prompt,
        "sourceAssets": [hit['_source']['source_video_uri'] for hit in retrieved_scenes],
        "outputConfig": {
            "resolution": "1080p",
            "format": "mp4"
        }
    })
)
# Сохраняем результат
output_uri = f"s3://my-video-rag/output/{datetime.now().isoformat()}.mp4"
# ... загрузка результата в S3

Типичные грабли, на которые наступают все

Я видел, как команды теряли недели и тысячи долларов из-за этих ошибок. Не повторяйте их.

Ошибка	Последствие	Как исправить
Индексация всего подряд без фильтрации	В поиск попадает мусор, релевантность падает, стоимость хранения эмбеддингов растет.	Внедрите пре-индексационный этап проверки качества. Используйте простые правила для оценки видео перед загрузкой.
Игнорирование метаданных в поиске	Чисто векторный поиск может пропустить сцену с идеальным визуалом, но неочевидным эмбеддингом.	Используйте гибридный поиск OpenSearch: комбинируйте k-NN с полнотекстовым поиском по заголовкам и описаниям.
Слабые, неструктурированные промпты	Модель генерирует абстрактную ересь вместо конкретного плана монтажа.	Создайте шаблоны промптов с обязательными секциями: контекст, задача, требования к выходу, ограничения. Для вдохновения посмотрите, как Peacock структурировал промпты для AI-аватара.
Отсутствие валидации выходного видео	Клиент получает видео с артефактами, обрезанными лицами или нелогичным нарративом.	Добавьте в Step Functions этап проверки с помощью простой Lambda-функции, которая анализирует длину, разрешение и наличие черных кадров.

Ответы на вопросы, которые вы постеснялись задать

Этот пайплайн заменит видеомонтажера?

Нет. Он заменит видеомонтажера, который 8 часов в день монотонно режет однотипные ролики по шаблону. Творческую часть, работу с брендом, художественное видение — пока нет. Этот пайплайн — супер-помощник, который увеличивает производительность в десятки раз, как показано в кейсе про масштабирование генерации видео на AWS.

Можно ли запустить что-то подобное локально, без AWS?

Технически — да, но готовьтесь к боли. Вам понадобится развернуть локальные аналоги всех компонентов: модель для эмбеддингов видео (огромная), векторную БД, модель для генерации. Вы потратите кучу времени на настройку инфраструктуры, а не на решение бизнес-задачи. Для экспериментов подойдет наш гайд по локальному RAG для видео, но для продакшена берите облачные сервисы.

Как оценить стоимость такого пайплайна?

Основные статьи расходов: вызовы моделей Bedrock (особенно Nova Reel, которая дороже текстовых), хранение данных в S3, операции с OpenSearch Serverless. Для типового сценария (индексация 100 часов видео, 1000 запросов на генерацию в месяц) ориентируйтесь на $500-1500 в месяц. Всегда начинайте с пилота на маленьком датасете, чтобы прикинуть реальные цифры.

А если мне нужен полный контроль над генерируемым видео — кодом?

Тогда ваш путь — комбинация RAG для поиска ассетов и библиотек типа Remotion для программной сборки. Вы извлекаете релевантные сцены через наш пайплайн, а затем скриптуете их композицию и анимацию с помощью React и Remotion. Это более низкоуровнево, но дает абсолютную точность. Мы разбирали этот подход в статье про Remotion и AI.

Что дальше? Не пытайтесь построить идеальный пайплайн с первого раза. Соберите минимальную рабочую версию на одном видео и одном запросе. Убедитесь, что поиск находит нужные сцены, а генератор понимает, что с ними делать. Затем масштабируйте. И помните: самое ценное в этом подходе — не AI, а ваша уникальная библиотека видео-активов. Начинайте ее собирать сегодня.

Подписаться на канал

Как собрать видео-RAG пайплайн с Amazon Bedrock и Nova Reel: инструкция по генерации кастомных видео