Наконец-то можно забыть про ручное размытие. И про облака тоже

Представь: у тебя есть 4K-ролик с уличной камеры. Нужно скрыть лица прохожих, автомобильные номера и фирменный логотип на чьей-то футболке. Стандартный путь — час в Premiere с ручным трекингом каждого объекта. Или отправить видео в облачный сервис, молиться о приватности исходников и ждать десять минут на рендер.

LocalVideoBlur ломает эту схему. Это open-source инструмент, который прячет что угодно в видео по текстовому запросу. И делает это локально, со скоростью до 76 кадров в секунду для 4K. Всё, что нужно — указать объекты для размытия обычными словами.

💡

В основе инструмента — тандем двух современных моделей. Grounding DINO (актуальная версия 2.5 на 02.04.2026) находит объекты по текстовому описанию. Multi-object трекер ByteTrack (с последними оптимизациями 2025 года) следит за ними между кадрами. Ключевой трюк — skip-frame tracking. Модель детекции запускается не на каждом кадре, а, например, на каждом пятом. ByteTrack заполняет пропуски. Это и даёт прирост скорости.

Чем это лучше ручного труда и облачных сервисов?

Попробуй вручную затрэкать тридцать лиц в толпе на пятиминутном видео. Примерно через пятнадцать минут захочется всё удалить. Облачные сервисы вроде анонимизации от AWS Bedrock справятся, но передача контента на чужие серверы — это всегда риск утечки. LocalVideoBlur обрабатывает всё на твоём железе. Никаких данных в сеть.

Инструмент / Подход	Скорость (4K, FPS)	Локальность	Точность	Стоимость
Adobe Premiere (ручной трекинг)	~0.5-2 FPS (работа человека)	Да	Высокая (если не заснуть)	Дорого (время монтажёра)
Облачный AI-сервис (AWS, GCP)	5-15 FPS	Нет	Средняя	$0.05-$0.15 за минуту видео
LocalVideoBlur	до 76 FPS	Да	Высокая	Бесплатно (электричество)

Технология skip-frame tracking — это тот случай, когда простое решение работает. Детекция — самая тяжёлая часть пайплайна. Зачем делать её 60 раз в секунду, если объекты движутся предсказуемо? Достаточно «поймать» их раз в N кадров и позволить лёгкому трекеру дорисовать траекторию. Такой подход уже используют в браузерных моделях для анализа видео, но здесь он выведен на уровень 4K.

«Размыть все красные машины и лица» — и это сработает

Интерфейс — командная строка или простой Python-скрипт. Никаких сложных обучений, как в LTX-2 или Kling для кастомизации видео. Пишешь промпт на естественном языке, указываешь видеофайл — получаешь результат. Примеры промптов, которые понимает модель:

«person, face, license plate» — классика для анонимизации уличного видео.
«company logo, branded t-shirt» — для скрытия коммерческой атрибутики в репортажах.
«dog, cat» — если нужно защитить приватность домашних животных (да, и такое бывает).
«car, bicycle, truck» — для удаления всего транспорта из кадра.

Grounding DINO иногда ошибается в деталях. Запрос «black car» может захватить тёмный джип или даже мотоцикл с чёрным баком. Всегда проверяй результат на нескольких ключевых кадрах. Для сверхточных задач лучше использовать заранее размеченные датасеты, но тогда потеряешь преимущество гибкости.

Поддержка 360° видео — отдельный бонус. Панорамное видео разворачивается в equirectangular проекцию, обрабатывается, а затем снова сворачивается. Размытие идёт с учётом сферических искажений, так что артефактов на стыках не возникает. Правда, для такого разрешения FPS падает до 25-30 — но это всё равно быстрее, чем в реальном времени.

Что под капотом и на чём это запустить?

Архитектура напоминает мультимодальные пайплайны Amazon Bedrock, но заточена под локальную работу. Поток кадров -> Grounding DINO (на опорных кадрах) -> ByteTrack (на всех кадрах) -> применение гауссова размытия к bounding boxes -> кодирование обратно в видео. Всё на PyTorch с оптимизацией для CUDA.

Минимальные требования: GPU с 8 ГБ VRAM (например, RTX 3070), для 4K лучше 12+ ГБ.
Оптимально: RTX 4080 или 4090 для максимальной скорости.
Можно и на CPU: но тогда жди 2-5 FPS — только для коротких роликов.

Интересно, что инструмент не требует суперсовременной видеокарты. Он отлично работает и на прошлых поколениях. Это отличает его от монстров вроде LTX-2 19B, которую едва удаётся запихнуть в 32 ГБ памяти Jetson Thor. LocalVideoBlur скромнее и практичнее.

Кому это в руки? Сценарии, о которых не сразу подумаешь

Очевидные пользователи — журналисты, правоохранители и операторы городского видеонаблюдения. Но есть и другие.

Контент-мейкеры для соцсетей. Снимаешь влог в торговом центре? Размываешь случайных людей и бренды одним промптом перед публикацией.
Корпоративные security-отделы. Нужно выложить запись внутреннего митинга, не показывая лица сотрудников или схемы на доске.
Исследователи в университетах. Обработка видео с экспериментов для публикации, где важны только действия, а не идентификационные данные участников.
Владельцы камер дверного звонка. Хочешь поделиться забавным роликом с доставщиком, но не светить свой домофон и номер квартиры.

Для архивного видео, где нужно не только размыть, но и понять содержание, может пригодиться Edit Mind — локальный детектив по видеоархивам. А если хочется не скрывать, а генерировать движение, смотри в сторону Wan-Move или Kling 1.5 Pro.

💡

Лайфхак: если у тебя слабая видеокарта (скажем, всего 6 ГБ VRAM), можно запустить обработку в половинном разрешении (1080p вместо 4K), а затем использовать апскейлер. Качество размытия от этого почти не пострадает, а скорость вырастет в разы. Для таких сценариев полезен гайд по запуску тяжёлых моделей на слабом железе.

Что дальше? Будущее за гибридными пайплайнами

LocalVideoBlur — пример тренда на edge AI. Обработка видео переезжает из облаков обратно на устройство. Следующий логичный шаг — объединение с моделями генерации. Представь: инструмент не просто размывает лицо, а заменяет его на сгенерированное, сохраняя мимику. Или стирает бренд с футболки, дорисовывая ткань.

Уже сейчас подобные технологии для контролируемой генерации развиваются в проектах вроде FlashMotion с 50-кратным ускорением. Осталось собрать пайплайн: детекция -> трекинг -> inpainting. Скорость, конечно, упадёт, но приватность будет абсолютной — видео вообще не покинет твой компьютер. Это сильнее, чем любое облако.

А пока LocalVideoBlur — самый быстрый способ сказать «этого человека здесь не было». Просто, локально, без оправданий.

Подписаться на канал

LocalVideoBlur: размывай что угодно в 4K-видео простым текстом (и без облаков)