Зачем вообще это нужно?

Представьте: вы говорите "найди все PDF за последнюю неделю и отправь их на печать", а компьютер делает это сам. Или "открой браузер, залогинься в почту и скачай вложения с темой 'отчет'". Это не голосовой помощник уровня Siri. Это полноценный агент, который видит интерфейс, кликает мышкой, вводит текст и принимает решения.

Show UI Aloha — это мост между языковой моделью и вашей операционной системой. Модель получает скриншоты, анализирует их и генерирует команды: кликнуть здесь, ввести текст там, прокрутить. Всё локально. Никаких облаков, никакой отправки скриншотов непонятно куда.

Это не игрушка. Сломать что-то можно запросто. Дайте агенту права на удаление файлов — и он их удалит. Настройте доступ к банковскому приложению — подумайте дважды. Работайте в песочнице или на тестовой машине сначала.

Какая модель подойдет? Не все LLM умеют "видеть"

Здесь главная ошибка — скачать первую попавшуюся модель с Hugging Face. Обычные текстовые модели (даже мощные) для Show UI Aloha бесполезны. Нужны VLM — Vision Language Models. Они обучены понимать связь между изображением и текстом.

Модель	Размер	Что умеет	Минимальные требования
Llava 1.6 (34B)	~20 ГБ	Отличное понимание UI, точные координаты кликов	RTX 3090/4090, 32 ГБ ОЗУ
CogVLM2 (19B)	~12 ГБ	Быстрая, хорошая точность для простых задач	RTX 3080, 16 ГБ ОЗУ
Qwen2-VL (7B)	~4.5 ГБ (квант.)	Работает почти на чем угодно, базовые операции	GTX 1660, 8 ГБ ОЗУ
InternVL2 (8B)	~5 ГБ (квант.)	Специально для UI, но капризная в настройке	RTX 3060, 12 ГБ ОЗУ

Мой выбор для начала — Qwen2-VL в 4-битном квантовании. Запустится даже на слабом железе, ошибки не такие критичные. Для серьезной автоматизации берите Llava 1.6 — она дорогая в ресурсах, но результат того стоит.

💡

Не пытайтесь использовать модели без vision-способностей вроде Mistral или Llama 3 в чистом виде. Они не поймут скриншот. Вам нужна именно VLM. Если интересно глубже погрузиться в тему инструментов для их запуска, почитайте сравнение LM Studio и llama.cpp или обзор Ollama и других решений.

Собираем пазл: установка и настройка за 30 минут

Теория — это хорошо, но давайте запускать. План простой: ставим сервер для модели, ставим Show UI Aloha, соединяем.

1Готовим модель к работе

Самый безболезненный способ — Ollama. Качаем с официального сайта, устанавливаем. Потом в терминале:

ollama pull qwen2.5-vl:7b
# Или для большей точности (если хватит памяти):
# ollama pull llava:34b

Проверяем, что модель отвечает:

ollama run qwen2.5-vl:7b "Опиши, что ты видишь на картинке" --images ./test.png

Если видите внятное описание — модель работает. Ollama запустит сервер на localhost:11434. Запомните этот адрес.

Ollama тянет модели из своего репозитория. Если нужна конкретная версия или квантование — качайте GGUF-файлы вручную и запускайте через llama.cpp. Это сложнее, но гибче. Детали в гайде по избежанию ошибок при локальном запуске.

2Ставим и настраиваем Show UI Aloha

Идем на GitHub проекта (ищите "show-ui-aloha"), качаем релиз для вашей ОС. Распаковываем. Запускаем.

Первое, что нужно сделать — указать адрес LLM-сервера. В настройках (Settings > AI Provider):

Provider: "OpenAI Compatible"
Base URL: http://localhost:11434/v1 (для Ollama)
Model: qwen2.5-vl:7b (точно так же, как в Ollama)
API Key: оставляем пустым (для локального сервера не нужно)

Сохраняем. Пробуем нажать кнопку "Capture & Ask". Программа сделает скриншот, отправит модели, получит ответ. Если видите что-то вроде "На скриншоте рабочий стол Windows, есть иконка Корзины" — связь работает.

3Учим агента действовать

Пока что модель только описывает. Чтобы она управляла, нужны инструменты (tools). В Show UI Aloha есть базовый набор: клик, ввод текста, прокрутка, нажатие клавиш.

Откройте вкладку "Tools". Активируйте "Mouse Control" и "Keyboard Input". Осторожно с правами — начните с ограниченной области экрана.

Теперь дайте команду не "опиши", а "действуй":

# В текстовом поле Show UI Aloha пишем:
Кликни на иконку браузера на панели задач.

Модель должна прислать JSON с командой типа {"action": "click", "coordinates": [1250, 1050]}, и программа выполнит клик. Если клик происходит не там — модель плохо определяет координаты. Помогает предобучение: сделайте несколько скриншотов, покажите, где что находится, дайте feedback.

Где всё ломается: частые ошибки и как их чинить

1. "Model not found" в Show UI Aloha, хотя Ollama работает. Проверьте точное название модели. В Ollama список моделей: ollama list. Используйте то же имя, что там.

2. Модель описывает скриншот, но не генерирует действия. Она не понимает, что от нее хотят. Используйте четкие промпты: "Выполни действие: кликни на кнопку 'Пуск'", а не "Где тут Пуск?".

3. Клики мимо цели. Самая большая головная боль. Решения:

Используйте модель побольше (Llava 1.6 вместо Qwen).
Увеличьте разрешение скриншота, отправляемого модели (в настройках).
Разметьте интерфейс заранее: создайте файл с описанием элементов ("иконка браузера — синий круг с белой буквой 'e'"). Дайте его модели как контекст.

4. Всё тормозит. Скриншот + VLM + вывод — тяжелая нагрузка. Уменьшайте частоту кадров, область захвата (не весь экран, а окно), используйте квантованные модели.

💡

Если Show UI Aloha кажется слишком ограниченной, можно собрать своего агента на Python. Используйте библиотеку для захвата экрана (mss), отправляйте кадры в локальный VLM-сервер (например, через Oobabooga Text Generation WebUI), парсите ответ и эмулируйте ввод с помощью pyautogui. Это сложнее, но безгранично в кастомизации.

Что можно автоматизировать уже сегодня?

Не ждите универсального ИИ-помощника. Начните с конкретных, повторяющихся задач:

Сортировка файлов. Агент открывает папку "Загрузки", распознает типы файлов по иконкам или расширениям в списке, перетаскивает в нужные папки.
Заполнение форм. Открыть веб-страницу, ввести данные из CSV-файла в поля, нажать "Отправить". (Только на тестовых формах! Не для реальных данных.)
Мониторинг статуса. Делать скриншот панели задач или системного трея каждые 5 минут, искать появление определенной иконки (например, сообщение в мессенджере) и уведомлять.
Базовый тест UI. Запустить ваше приложение, пройти по сценарию (кнопка А -> окно Б -> поле В), записать, где интерфейс ломается.

Главное — задачи с четкими правилами и визуальными маркерами. "Найди все красные кнопки и нажми их" — хорошо. "Разберись в этом новом интерфейсе и сделай что-нибудь полезное" — плохо.

Что дальше? Будущее, которое уже почти здесь

Show UI Aloha — только первый шаг. Скоро появятся (уже появляются) агенты, которые не просто слепо кликают, а строят граф знаний о вашем интерфейсе, запоминают расположение элементов, учатся на ваших действиях.

Проблема в том, что модели все еще глупые. Они видят пиксели, но не понимают семантику. Кнопка "Сохранить" для них — просто прямоугольник с текстом. Они не знают, что после нажатия файл запишется на диск. Поэтому сложные workflows ("скачай отчет, открой в Excel, построй график, вставь в презентацию, сохрани в облако") постоянно сбоят на каком-то шаге.

Мой прогноз: через год-два появятся специализированные VLM, дообученные на миллионах скриншотов именно UI-интерфейсов (Windows, macOS, веб). Они будут знать, что кнопка в правом нижнем углу диалогового окна — обычно "ОК", а три точки в углу — меню. И тогда автоматизация станет по-настоящему массовой.

А пока — настраивайте, тестируйте, ломайте. И помните золотое правило: никогда не давайте агенту доступ к чему-то, что вам дорого. Особенно без бэкапа.

Ваш компьютер на автопилоте: как заставить локальную LLM управлять ПК через Show UI Aloha