Конец эпохи IMG_0042.JPG

У вас на диске валяется папка с пятью тысячами скриншотов, фотографий с телефона и сканов документов. Названия – бессмысленный набор символов. Ручное переименование займет неделю. Платные облачные сервисы требуют загружать всё в интернет (спасибо, но нет). Решение? Локальная VLM (Vision-Language Model), которая смотрит на картинку и придумывает для неё имя. А ещё лучше – инструмент, который делает это в одну команду. Встречайте Sorting Hat CLI.

Что такое Sorting Hat и как он видит ваши файлы?

Sorting Hat – это утилита командной строки на Python, которая берёт локально запущенную модель VLM (например, Qwen3.5-VL-14B или свежую LLaVA-NeXT) и заставляет её описывать содержимое изображений, PDF-ов и даже видео. На основе этого описания файл получает новое, человекочитаемое имя.

💡

Под капотом – гибкая архитектура. Вы можете использовать локальный сервер через llama.cpp (поддерживаются самые новые модели в формате GGUF), OpenAI-совместимый API (например, для локального запуска vLLM) или даже облачные вызовы, хотя это противоречит основной идее приватности.

С чем его едят: команды и сценарии

Всё начинается с установки. Инструмент живёт на GitHub (не партнёрская ссылка, просто факт). После pip install sorting-hat вы получаете доступ к магии.

# Базовый вызов: переименовать все jpg в папке, используя локальную LLaVA
sorting-hat --model llama.cpp --model-path ~/models/llava-v1.6-34b.Q4_K_M.gguf *.jpg

# Более тонкая настройка: задать шаблон имени и обрабатывать вложенные папки
sorting-hat -r --template "{date}_{description}.{ext}" --prompt "Опиши кратко, что на изображении, на русском языке" ./photos/

# Использование с локальным OpenAI-совместимым сервером (например, запущенным через text-generation-webui)
sorting-hat --api http://localhost:5000/v1 --model gpt-4-vision-preview *.png

Инструмент умеет работать с изображениями (JPEG, PNG, WebP), PDF (извлекает и анализирует первую страницу как картинку) и видео (берет ключевой кадр). Результат – файлы с именами вроде 20250312_схема_архитектуры_микросервисов.png вместо SCHEMA_FINAL_FINAL2.png.

Главный нюанс – производительность. Запуск 34B-параметрической модели на CPU займёт несколько секунд на файл. Если у вас нет мощной видеокарты, готовьтесь к долгой работе. Для массовой обработки тысяч файлов стоит посмотреть в сторону AI File Sorter 1.5, который оптимизирован именно для таких задач.

Чем Sorting Hat лучше или хуже конкурентов?

Давайте честно. Альтернативы есть.

Инструмент	Принцип работы	Плюсы	Минусы
Sorting Hat CLI	Локальная VLM через CLI	Полная приватность, гибкость выбора модели, бесплатно	Требует технических навыков, медленно на слабом железе
Плагины для фоторедакторов (Adobe Bridge, etc)	Встроенные AI-сервисы	Интеграция в рабочий процесс	Подписка, данные уходят в облако
Самописные скрипты на API OpenAI	Облачные вызовы GPT-4V	Высокая точность	Дорого, нет оффлайн-работы
Obsidian + локальная LLM	Анализ текста в заметках	Работает в экосистеме Obsidian	Не для произвольных файлов

Sorting Hat выигрывает у облачных решений в приватности и у одноразовых скриптов – в готовности. Это инструмент инженера, который можно встроить в пайплайн. Хотите автоматически сортировать скриншоты по проектам? Легко. Обрабатывать сканы документов? Пожалуйста. Главное – у вас есть полный контроль над моделью.

Кому стоит попробовать прямо сейчас?

Если вы:

Фотограф или исследователь с терабайтами неразобранных медиафайлов.
Системный администратор, которому надоели лог-файлы с кривыми именами.
Любитель экспериментов с локальными LLM, ищущий практическое применение.
Разработчик, который хочет автоматизировать обработку пользовательских загрузок без облачных API.

То Sorting Hat – ваш выбор. Инструмент бесплатен, с открытым исходным кодом, и его можно доработать под свои нужды. Например, подключить роутинг между несколькими GPU для ускорения обработки.

⚠️

Не ждите чудес от маленьких моделей. 7B-параметрическая VLM на слабом описании скриншота с кодом может выдать что-то вроде зеленый_текст_на_черном_фоне.png. Для сложных задач берите модели от 13B и выше. И да, на 12.03.2026 уже есть Qwen4-VL-72B, но для её запуска потребуется серьёзное железо. Если нет, присмотритесь к аренде GPU в облаке (например, через DigitalOcean – партнёрская ссылка).

И что дальше?

Sorting Hat – симптом большой тенденции. Локальные мультимодальные модели становятся достаточно хороши для повседневных задач. Следующий шаг – не просто переименование, а полноценная категоризация и связывание файлов на основе семантики. Представьте: инструмент, который смотрит на скриншот ошибки, находит соответствующий лог-файл и тикет в Jira. И всё это – на вашем ноутбуке, без интернета.

Пока же, чтобы начать, достаточно скачать модель в GGUF, запустить llama-server и дать команду. Через час ваша папка с "хламом" заговорит человеческим языком. А вы сможете найти нужную схему или документ, просто набрав в поиске архитектура_базы_данных. Магия, которая работает.

Подписаться на канал

Sorting Hat CLI: магия переименования файлов через локальную VLM