Конец эпохи IMG_0042.JPG
У вас на диске валяется папка с пятью тысячами скриншотов, фотографий с телефона и сканов документов. Названия – бессмысленный набор символов. Ручное переименование займет неделю. Платные облачные сервисы требуют загружать всё в интернет (спасибо, но нет). Решение? Локальная VLM (Vision-Language Model), которая смотрит на картинку и придумывает для неё имя. А ещё лучше – инструмент, который делает это в одну команду. Встречайте Sorting Hat CLI.
Что такое Sorting Hat и как он видит ваши файлы?
Sorting Hat – это утилита командной строки на Python, которая берёт локально запущенную модель VLM (например, Qwen3.5-VL-14B или свежую LLaVA-NeXT) и заставляет её описывать содержимое изображений, PDF-ов и даже видео. На основе этого описания файл получает новое, человекочитаемое имя.
С чем его едят: команды и сценарии
Всё начинается с установки. Инструмент живёт на GitHub (не партнёрская ссылка, просто факт). После pip install sorting-hat вы получаете доступ к магии.
# Базовый вызов: переименовать все jpg в папке, используя локальную LLaVA
sorting-hat --model llama.cpp --model-path ~/models/llava-v1.6-34b.Q4_K_M.gguf *.jpg
# Более тонкая настройка: задать шаблон имени и обрабатывать вложенные папки
sorting-hat -r --template "{date}_{description}.{ext}" --prompt "Опиши кратко, что на изображении, на русском языке" ./photos/
# Использование с локальным OpenAI-совместимым сервером (например, запущенным через text-generation-webui)
sorting-hat --api http://localhost:5000/v1 --model gpt-4-vision-preview *.png
Инструмент умеет работать с изображениями (JPEG, PNG, WebP), PDF (извлекает и анализирует первую страницу как картинку) и видео (берет ключевой кадр). Результат – файлы с именами вроде 20250312_схема_архитектуры_микросервисов.png вместо SCHEMA_FINAL_FINAL2.png.
Главный нюанс – производительность. Запуск 34B-параметрической модели на CPU займёт несколько секунд на файл. Если у вас нет мощной видеокарты, готовьтесь к долгой работе. Для массовой обработки тысяч файлов стоит посмотреть в сторону AI File Sorter 1.5, который оптимизирован именно для таких задач.
Чем Sorting Hat лучше или хуже конкурентов?
Давайте честно. Альтернативы есть.
| Инструмент | Принцип работы | Плюсы | Минусы |
|---|---|---|---|
| Sorting Hat CLI | Локальная VLM через CLI | Полная приватность, гибкость выбора модели, бесплатно | Требует технических навыков, медленно на слабом железе |
| Плагины для фоторедакторов (Adobe Bridge, etc) | Встроенные AI-сервисы | Интеграция в рабочий процесс | Подписка, данные уходят в облако |
| Самописные скрипты на API OpenAI | Облачные вызовы GPT-4V | Высокая точность | Дорого, нет оффлайн-работы |
| Obsidian + локальная LLM | Анализ текста в заметках | Работает в экосистеме Obsidian | Не для произвольных файлов |
Sorting Hat выигрывает у облачных решений в приватности и у одноразовых скриптов – в готовности. Это инструмент инженера, который можно встроить в пайплайн. Хотите автоматически сортировать скриншоты по проектам? Легко. Обрабатывать сканы документов? Пожалуйста. Главное – у вас есть полный контроль над моделью.
Кому стоит попробовать прямо сейчас?
Если вы:
- Фотограф или исследователь с терабайтами неразобранных медиафайлов.
- Системный администратор, которому надоели лог-файлы с кривыми именами.
- Любитель экспериментов с локальными LLM, ищущий практическое применение.
- Разработчик, который хочет автоматизировать обработку пользовательских загрузок без облачных API.
То Sorting Hat – ваш выбор. Инструмент бесплатен, с открытым исходным кодом, и его можно доработать под свои нужды. Например, подключить роутинг между несколькими GPU для ускорения обработки.
зеленый_текст_на_черном_фоне.png. Для сложных задач берите модели от 13B и выше. И да, на 12.03.2026 уже есть Qwen4-VL-72B, но для её запуска потребуется серьёзное железо. Если нет, присмотритесь к аренде GPU в облаке (например, через DigitalOcean – партнёрская ссылка).И что дальше?
Sorting Hat – симптом большой тенденции. Локальные мультимодальные модели становятся достаточно хороши для повседневных задач. Следующий шаг – не просто переименование, а полноценная категоризация и связывание файлов на основе семантики. Представьте: инструмент, который смотрит на скриншот ошибки, находит соответствующий лог-файл и тикет в Jira. И всё это – на вашем ноутбуке, без интернета.
Пока же, чтобы начать, достаточно скачать модель в GGUF, запустить llama-server и дать команду. Через час ваша папка с "хламом" заговорит человеческим языком. А вы сможете найти нужную схему или документ, просто набрав в поиске архитектура_базы_данных. Магия, которая работает.