Зачем вообще это нужно?
Представьте: вы говорите "найди все PDF за последнюю неделю и отправь их на печать", а компьютер делает это сам. Или "открой браузер, залогинься в почту и скачай вложения с темой 'отчет'". Это не голосовой помощник уровня Siri. Это полноценный агент, который видит интерфейс, кликает мышкой, вводит текст и принимает решения.
Show UI Aloha — это мост между языковой моделью и вашей операционной системой. Модель получает скриншоты, анализирует их и генерирует команды: кликнуть здесь, ввести текст там, прокрутить. Всё локально. Никаких облаков, никакой отправки скриншотов непонятно куда.
Это не игрушка. Сломать что-то можно запросто. Дайте агенту права на удаление файлов — и он их удалит. Настройте доступ к банковскому приложению — подумайте дважды. Работайте в песочнице или на тестовой машине сначала.
Какая модель подойдет? Не все LLM умеют "видеть"
Здесь главная ошибка — скачать первую попавшуюся модель с Hugging Face. Обычные текстовые модели (даже мощные) для Show UI Aloha бесполезны. Нужны VLM — Vision Language Models. Они обучены понимать связь между изображением и текстом.
| Модель | Размер | Что умеет | Минимальные требования |
|---|---|---|---|
| Llava 1.6 (34B) | ~20 ГБ | Отличное понимание UI, точные координаты кликов | RTX 3090/4090, 32 ГБ ОЗУ |
| CogVLM2 (19B) | ~12 ГБ | Быстрая, хорошая точность для простых задач | RTX 3080, 16 ГБ ОЗУ |
| Qwen2-VL (7B) | ~4.5 ГБ (квант.) | Работает почти на чем угодно, базовые операции | GTX 1660, 8 ГБ ОЗУ |
| InternVL2 (8B) | ~5 ГБ (квант.) | Специально для UI, но капризная в настройке | RTX 3060, 12 ГБ ОЗУ |
Мой выбор для начала — Qwen2-VL в 4-битном квантовании. Запустится даже на слабом железе, ошибки не такие критичные. Для серьезной автоматизации берите Llava 1.6 — она дорогая в ресурсах, но результат того стоит.
Собираем пазл: установка и настройка за 30 минут
Теория — это хорошо, но давайте запускать. План простой: ставим сервер для модели, ставим Show UI Aloha, соединяем.
1Готовим модель к работе
Самый безболезненный способ — Ollama. Качаем с официального сайта, устанавливаем. Потом в терминале:
ollama pull qwen2.5-vl:7b
# Или для большей точности (если хватит памяти):
# ollama pull llava:34bПроверяем, что модель отвечает:
ollama run qwen2.5-vl:7b "Опиши, что ты видишь на картинке" --images ./test.pngЕсли видите внятное описание — модель работает. Ollama запустит сервер на localhost:11434. Запомните этот адрес.
Ollama тянет модели из своего репозитория. Если нужна конкретная версия или квантование — качайте GGUF-файлы вручную и запускайте через llama.cpp. Это сложнее, но гибче. Детали в гайде по избежанию ошибок при локальном запуске.
2Ставим и настраиваем Show UI Aloha
Идем на GitHub проекта (ищите "show-ui-aloha"), качаем релиз для вашей ОС. Распаковываем. Запускаем.
Первое, что нужно сделать — указать адрес LLM-сервера. В настройках (Settings > AI Provider):
- Provider: "OpenAI Compatible"
- Base URL:
http://localhost:11434/v1(для Ollama) - Model:
qwen2.5-vl:7b(точно так же, как в Ollama) - API Key: оставляем пустым (для локального сервера не нужно)
Сохраняем. Пробуем нажать кнопку "Capture & Ask". Программа сделает скриншот, отправит модели, получит ответ. Если видите что-то вроде "На скриншоте рабочий стол Windows, есть иконка Корзины" — связь работает.
3Учим агента действовать
Пока что модель только описывает. Чтобы она управляла, нужны инструменты (tools). В Show UI Aloha есть базовый набор: клик, ввод текста, прокрутка, нажатие клавиш.
Откройте вкладку "Tools". Активируйте "Mouse Control" и "Keyboard Input". Осторожно с правами — начните с ограниченной области экрана.
Теперь дайте команду не "опиши", а "действуй":
# В текстовом поле Show UI Aloha пишем:
Кликни на иконку браузера на панели задач.Модель должна прислать JSON с командой типа {"action": "click", "coordinates": [1250, 1050]}, и программа выполнит клик. Если клик происходит не там — модель плохо определяет координаты. Помогает предобучение: сделайте несколько скриншотов, покажите, где что находится, дайте feedback.
Где всё ломается: частые ошибки и как их чинить
1. "Model not found" в Show UI Aloha, хотя Ollama работает. Проверьте точное название модели. В Ollama список моделей: ollama list. Используйте то же имя, что там.
2. Модель описывает скриншот, но не генерирует действия. Она не понимает, что от нее хотят. Используйте четкие промпты: "Выполни действие: кликни на кнопку 'Пуск'", а не "Где тут Пуск?".
3. Клики мимо цели. Самая большая головная боль. Решения:
- Используйте модель побольше (Llava 1.6 вместо Qwen).
- Увеличьте разрешение скриншота, отправляемого модели (в настройках).
- Разметьте интерфейс заранее: создайте файл с описанием элементов ("иконка браузера — синий круг с белой буквой 'e'"). Дайте его модели как контекст.
4. Всё тормозит. Скриншот + VLM + вывод — тяжелая нагрузка. Уменьшайте частоту кадров, область захвата (не весь экран, а окно), используйте квантованные модели.
Что можно автоматизировать уже сегодня?
Не ждите универсального ИИ-помощника. Начните с конкретных, повторяющихся задач:
- Сортировка файлов. Агент открывает папку "Загрузки", распознает типы файлов по иконкам или расширениям в списке, перетаскивает в нужные папки.
- Заполнение форм. Открыть веб-страницу, ввести данные из CSV-файла в поля, нажать "Отправить". (Только на тестовых формах! Не для реальных данных.)
- Мониторинг статуса. Делать скриншот панели задач или системного трея каждые 5 минут, искать появление определенной иконки (например, сообщение в мессенджере) и уведомлять.
- Базовый тест UI. Запустить ваше приложение, пройти по сценарию (кнопка А -> окно Б -> поле В), записать, где интерфейс ломается.
Главное — задачи с четкими правилами и визуальными маркерами. "Найди все красные кнопки и нажми их" — хорошо. "Разберись в этом новом интерфейсе и сделай что-нибудь полезное" — плохо.
Что дальше? Будущее, которое уже почти здесь
Show UI Aloha — только первый шаг. Скоро появятся (уже появляются) агенты, которые не просто слепо кликают, а строят граф знаний о вашем интерфейсе, запоминают расположение элементов, учатся на ваших действиях.
Проблема в том, что модели все еще глупые. Они видят пиксели, но не понимают семантику. Кнопка "Сохранить" для них — просто прямоугольник с текстом. Они не знают, что после нажатия файл запишется на диск. Поэтому сложные workflows ("скачай отчет, открой в Excel, построй график, вставь в презентацию, сохрани в облако") постоянно сбоят на каком-то шаге.
Мой прогноз: через год-два появятся специализированные VLM, дообученные на миллионах скриншотов именно UI-интерфейсов (Windows, macOS, веб). Они будут знать, что кнопка в правом нижнем углу диалогового окна — обычно "ОК", а три точки в углу — меню. И тогда автоматизация станет по-настоящему массовой.
А пока — настраивайте, тестируйте, ломайте. И помните золотое правило: никогда не давайте агенту доступ к чему-то, что вам дорого. Особенно без бэкапа.