Когда YouTube-ролик становится книгой на ночь

Представьте: ваш ребёнок смотрит видео про экскаватор или про котёнка. Смотрит в десятый раз. Глаза горят. А вы уже готовы этот экскаватор ненавидеть. Что если превратить это видео в книжку? Ту самую, которую можно листать перед сном, без синего света экрана, без рекламы и внезапных переходов на другие ролики.

Vid2BedtimeStory делает именно это. Берёт любое видео, вырезает ключевые кадры, генерирует по ним детский текст и упаковывает в красивый PDF. Получается книжка-раскладушка, которую можно загрузить в Google Play Books или распечатать.

💡

Инструмент полностью open-source, работает локально и не требует подписок. Всё, что нужно — Python и немного терпения для настройки.

Что умеет Vid2BedtimeStory (и что не умеет)

Сначала разберёмся с возможностями, чтобы не строить иллюзий. Это не волшебная палочка, а довольно прямой пайплайн.

Рабочий процесс:

Захват ключевых кадров — инструмент анализирует видео и выбирает самые информативные моменты. Не просто каждый десятый кадр, а сцены, где что-то меняется.
Генерация текста — для каждого скриншота пишется короткий, понятный ребёнку абзац. Можно использовать локальные модели вроде Llama 3.2 или облачные типа GPT-4.
Создание PDF — скриншоты и текст компонуются в аккуратный документ с разметкой под книгу.
Экспорт в Google Play Books — готовая опция для тех, кто читает с планшета.

Ограничения (чтобы не разочароваться):

Не ждите шедевров литературы. Текст будет простым, иногда шаблонным.
Сложные мультфильмы с быстрым монтажом превратятся в кашу из несвязанных кадров.
Для работы с локальными моделями нужен хотя бы 8 ГБ оперативной памяти (лучше 16).

Главный подводный камень — качество скриншотов. Если в видео темно, много движения или мелкие детали, ИИ может выбрать совершенно не те кадры. Придётся вручную проверять или настраивать пороги чувствительности.

Альтернативы? Их почти нет

Честно говоря, подобных специализированных инструментов я не встречал. Есть общие решения, которые можно согнуть под свои нужды, но это потребует времени и скилла.

Инструмент	Что делает	Почему не подходит для книжек
FFmpeg + скрипты	Вытаскивает кадры из видео	Нет отбора ключевых сцен, нет генерации текста
Canva / подобные редакторы	Позволяет вручную собрать книгу	Полностью ручной процесс, никакой автоматизации
Локальный RAG для видео	Анализирует и ищет информацию в видео	Слишком сложная настройка для простой задачи

Единственный похожий по духу проект — Splat, который превращает фото в раскраски. Но там входные данные другие.

Ставим и запускаем: практический разбор

Теперь к делу. Весь код лежит на GitHub, установка стандартная для Python-проектов.

1 Подготовка окружения

Клонируем репозиторий и ставим зависимости. Никаких сюрпризов.

git clone https://github.com/.../Vid2BedtimeStory.git
cd Vid2BedtimeStory
pip install -r requirements.txt

Требуется Python 3.9+. Проверьте, что установлен FFmpeg в системе (он нужен для работы с видео). На Windows это может быть головной болью.

2 Выбор модели для генерации текста

Здесь начинается самое интересное. По умолчанию проект настроен на OpenAI API. Это просто, но платно и не приватно.

Для локального запуска нужно заменить вызовы на что-то вроде Ollama или прямые запросы к локальной модели через transformers. В теории это звучит просто. На практике придётся поковыряться с промптами и форматом ответов.

💡

Если уже работали с локальными LLM через MCP Hangar или SurfSense, адаптация займёт минут 15. Если нет — готовьтесь к отладке.

Хорошие кандидаты для локальных моделей:

Llama 3.2 Instruct (3B параметров) — лёгкая, достаточно умная для детских текстов
Phi-3-mini — от Microsoft, хорошо справляется с инструкциями
Qwen2.5-Coder (если хотите добавить элементов квеста) — но это уже для продвинутых

3 Запуск конвейера

Основная команда выглядит так:

python vid2story.py --input video.mp4 --output book.pdf --model local --language ru

Проект поддерживает русский язык, но качество перевода промптов может хромать. Лучше сразу проверять, что генерирует модель.

Что происходит внутри:

Видео разбивается на сцены (алгоритм ищет резкие изменения в гистограмме)
Из каждой сцены берётся один репрезентативный кадр
Каждый кадр описывается LLM в стиле детской книги
Текст и изображения компонуются в PDF с помощью ReportLab

Пример из жизни: видео про грузовик

Я взял короткое (2 минуты) видео строительного грузовика с YouTube. Результат — книжка на 6 страниц.

Что получилось хорошо:

Кадры выбраны логично: грузовик подъезжает, поднимает ковш, сгружает песок, уезжает
Текст простой: "Вот большой жёлтый грузовик. Он привёз песок для песочницы."
PDF получился чистым, шрифт крупный, подходит для чтения с планшета

Что сломалось:

В одном месте ИИ решил, что грузовик "грустит, потому что работа закончилась". Это мило, но не соответствует видео
Два кадра оказались почти идентичными — пришлось удалять вручную
Автоматическая загрузка в Google Play Books сработала только со второго раза

Совет: запускайте сначала в режиме предпросмотра, чтобы проверить скриншоты. Команда --preview покажет все выбранные кадры перед генерацией текста. Сэкономит время, если алгоритм отбора сработал плохо.

Кому подойдёт этот инструмент (а кому нет)

Vid2BedtimeStory — не для всех. Это инструмент для тех, кто готов потратить час на настройку, чтобы потом экономить время на каждом видео.

Идеальная аудитория:

Родители технического склада, у которых дети залипают в одни и те же ролики
Воспитатели и педагоги, создающие учебные материалы из доступного видео
Разработчики детского контента, которые хотят быстро прототипировать книжки по существующим видео
Энтузиасты локальных LLM, ищущие практические проекты для отработки навыков

Не тратьте время, если:

Ждёте идеального результата с первого запуска
Не готовы копаться в Python-скриптах и настройке моделей
Хотите превращать часовые фильмы — алгоритм отбора кадров не масштабируется на длинные видео
Ищете коммерческое решение под ключ (такого пока нет)

Что можно улучшить (если хватит энтузиазма)

Проект на GitHub — отличная основа, но есть куда расти.

Простые улучшения:

Добавить интерфейс выбора скриншотов вручную (сейчас только автоматический)
Поддержку большего количества форматов экспорта (EPUB, CBZ для комиксов)
Шаблоны оформления — разные шрифты, рамки, фоны

Сложные, но интересные:

Интеграцию с локальными TTS-моделями для создания аудиокниги по тому же видео
Использование мультимодальных моделей для более точного описания кадров
Добавление элементов интерактива по типу нейросетевых квестов — "куда повернёт грузовик?" с вариантами ответов

Самое ценное в Vid2BedtimeStory — не готовый результат, а демонстрация полного пайплайна. Вы видите, как видео распадается на кадры, как LLM интерпретирует изображения, как всё собирается в конечный продукт. Это образовательный проект в первую очередь.

Попробуйте на одном коротком видео. Даже если книжка получится кривоватой — вы поймёте принцип. А потом сможете адаптировать под свои нужды. Может, добавить персонажей из Lemon Slice-2 или сгенерировать продолжение истории с помощью Veo 3.1. Главное — начать.

Как превратить любое видео в книжку-раскладушку для ребёнка: туториал по Vid2BedtimeStory