Локальный поиск по видео: архитектура Edit Mind и инструкция по запуску | AiManual
AiManual Logo Ai / Manual.
16 Янв 2026 Инструмент

Edit Mind: ваш личный детектив для видеоархивов, который работает без интернета

Разбираем полностью локальный мультимодальный поисковик Edit Mind для видео. Whisper, YOLOv8, ChromaDB и Docker. Запускаем за 5 минут.

Забудьте про ручной перемотки. Встречайте Edit Mind

Представьте: у вас терабайты записанных лекций, семейных видео или рабочих встреч. Нужно найти момент, где кто-то говорил про "квантовые вычисления" или где в кадре появилась красная машина. Вручную? Не смешите. Онлайн-сервисы? Прощай, приватность.

Edit Mind — это ответ. Полностью локальный инструмент, который превращает вашу видеотеку в умный архив. Он не отправляет ни байта в облака. Не требует подписки. Просто работает на вашем железе.

Стек проекта читается как вишлист ML-инженера: Whisper для транскрипции, YOLOv8 для детекции объектов, Sentence Transformers для эмбеддингов текста, CLIP для эмбеддингов изображений и ChromaDB в качестве векторного хранилища. Всё упаковано в Docker.

Как это работает? Разбираем архитектуру по косточкам

Система не пытается быть умной за счёт одной супермодели. Она использует несколько специалистов, каждый из которых делает своё дело идеально.

1 Извлечение: режем видео на кусочки

Видео разбивается на сегменты (по умолчанию — 10 секунд). Для каждого сегмента система параллельно запускает три процесса:

  • Транскрипция аудио: Whisper (чаще всего модель base или small) превращает речь в текст с временными метками.
  • Извлечение ключевых кадров: Берётся кадр из середины сегмента. Иногда — несколько, если сцена резко меняется.
  • Детекция объектов: YOLOv8 прогоняет кадр и выписывает всё, что видит: person, car, dog, cell phone.

2 Векторизация: превращаем всё в числа

Здесь начинается магия мультимодальности. Каждый тип данных кодируется в свой вектор (эмбеддинг).

Что векторизуемМодельНа что способен поиск
Транскрибированный текстSentence Transformers (all-MiniLM-L6-v2)Найти по смыслу, а не точному совпадению слов
Ключевой кадрCLIP (ViT-B/32)Найти визуально похожие сцены
Список объектов (текст)Тот же Sentence TransformersНайти все сегменты с определённым объектом

Получается три независимых вектора для каждого 10-секундного куска видео. Все они летят в ChromaDB — локальную векторную базу, которая умеет искать по сходству.

💡
Именно разделение на три "канала" (текст, изображение, объекты) даёт ту самую мультимодальность. Можно искать "собаку в машине" — система совместит семантику текста ("собака", "машина") с визуальными эмбеддингами кадра и списком объектов от YOLO.

3 Поиск и ранжирование: находим нужный момент

Пользователь вводит запрос. Система делает с ним ровно то же, что и с исходными данными: превращает в три вектора (через те же модели).

Затем идёт три параллельных поиска в ChromaDB:

  1. По текстовому эмбеддингу запроса.
  2. По визуальному эмбеддингу (если запрос можно представить как изображение).
  3. По эмбеддингу списка объектов (если в запросе есть объекты).

Результаты трёх поисков агрегируются. Самые релевантные сегменты поднимаются наверх. Пользователь получает список таймкодов с превью-картинками и расшифровкой. Клик — и плеер перематывается прямо к нужной секунде.

А что с альтернативами? Сравниваем

Почему Edit Mind, а не что-то другое?

Инструмент / ПодходПлюсыМинусы (и почему Edit Mind лучше)
Ручная разметка в NLE (DaVinci, Premiere)Полный контрольЗанимает дни. Человеческий фактор. Не ищет по смыслу.
Облачные сервисы (Google Video AI, AWS Rekognition)Мощно, не грузит ПКДорого. Данные уходят на чужие серверы. Нет оффлайн-работы.
Простые локальные скрипты (только Whisper + grep)Быстро, приватноИщет только по точному тексту. Игнорирует видео-контент.
Edit MindПолностью локально. Мультимодальный поиск. Готовый Docker-образ.Требует GPU для скорости. Индексация долгая для больших архивов.

Главный козырь Edit Mind — целостность. Это не набор скриптов, которые нужно склеивать, а готовый продукт. Если вам близка идея локальных LLM, то вы оцените и этот подход. Это как мультимодальный краулер, но заточенный исключительно под видео.

Запускаем за 5 минут: инструкция без воды

Всё упаковано в Docker. Это и хорошо (все зависимости в контейнере), и плохо (нужен Docker).

Предупреждение: для комфортной работы (особенно индексации) желателен GPU с поддержкой CUDA. Без него будет очень медленно. Убедитесь, что у вас установлены драйверы NVIDIA и Docker с поддержкой GPU (nvidia-docker2).

1 Клонируем и настраиваем

Открываем терминал и клонируем репозиторий. Все модели скачаются автоматически при первом запуске.

2 Запускаем контейнер

Переходим в директорию проекта и запускаем docker-compose. Система поднимет два контейнера: один для бэкенда (обработка), другой для фронтенда (веб-интерфейс).

3 Индексируем первое видео

В веб-интерфейсе (обычно http://localhost:8501) загружаем видеофайл. Нажимаем "Index". Пойдёт процесс извлечения, транскрипции, детекции и векторизации. За чашкой кофе 10-минутное видео превратится в поисковый индекс.

4 Ищем

Вводим запрос. Например, "человек в очках показывает график на доске". Система найдёт все похожие визуальные сцены (CLIP), проверит, есть ли в кадре человек и, возможно, доска (YOLO), и посмотрит, говорил ли кто-то про графики в этот момент (Whisper + семантический поиск). Выдаст таймкоды. Вы — гений.

💡
Если столкнётесь с ошибками CUDA или нехваткой памяти при локальном запуске — вы не одиноки. Многие из этих проблем уже разобраны в нашем практическом гайде по локальным LLM. Принципы те же: следите за версиями драйверов, выделяйте достаточно памяти и не стесняйтесь уменьшать размеры моделей (например, использовать Whisper tiny вместо base).

Кому это в руки? Реальные кейсы

Edit Mind — не игрушка для хайпа. Это рабочий инструмент для конкретных задач.

  • Исследователи и журналисты: Просматривают сотни часов интервью. Нужно быстро найти все упоминания персоны или события. Раньше — неделя работы стажёра. Теперь — запрос и 5 секунд.
  • Видеомонтажёры и продюсеры: Ищут лучшие дубли, конкретные планы ("крупный план рук"), или все сцены с определённым реквизитом. Инструмент вроде автоматического монтажа по промпту, но для пре-продакшена.
  • Преподаватели и студенты: Архивируют лекции. Хотят найти, где объясняли теорему Пифагора или показывали эксперимент с реакцией. Теперь их видеоархив умнее университетской библиотеки.
  • Корпоративные security и юристы: Анализируют записи с камер наблюдения или рабочие встречи. Данные не должны покидать периметр компании. Локальность — не прихоть, а требование.

Главное ограничение — производительность. Индексация 100 часов видео займёт время и потребует места на диске под векторную базу. Но разве это плата за то, чтобы никогда больше не скроллить ползунок времени вручную?

Edit Mind доказывает, что сложный мультимодальный поиск может быть приватным, автономным и доступным. Он не заменит профессиональные облачные решения для студий уровня Netflix. Но он даёт каждому возможность иметь персонального видео-детектива, который работает в офлайне и ничего о вас не просочит. В мире, где каждый становится создателем контента, такие инструменты перестают быть экзотикой и превращаются в необходимость. Следующий шаг? Наверное, интеграция с локальными LLM для генерации саммари целых видео или ответов на сложные вопросы по их содержанию. Но это уже совсем другая история.