Когда облака мешают работать
Представьте: вам нужно автоматически заполнять формы, парсить данные или тестировать веб-интерфейсы. Обычные облачные агенты шлют скриншоты на сервер, ждут ответа, тормозят. А если в данных есть конфиденциальная информация? Выход есть - on-device браузерный агент на Qwen. Работает прямо в Chrome, без интернета, на вашем железе.
Что умеет этот зверь
Открытый проект от Alibaba Cloud берет модель Qwen (от 1.8B до 72B параметров), засовывает ее в Chrome расширение и учит щелкать по интерфейсам. Не через скриншоты, а через DOM-дерево. Агент видит структуру страницы, а не пиксели, что делает его быстрее и точнее.
Пять вещей, которые он делает без облаков
- Автозаполнение форм - логины, пароли, персональные данные остаются на вашем компьютере
- Тестирование интерфейсов - можно гонять сценарии ночью, когда интернет отвалился
- Сбор данных - парсинг сайтов с динамическим контентом, который не взять обычным скрапером
- Интеграция с корпоративными системами - работает внутри VPN, не светит данные наружу
- Прототипирование автоматизации - быстрая проверка гипотез без настройки инфраструктуры
Чем он лучше альтернатив
Сравним с популярными решениями:
| Инструмент | Локальность | Скорость | Сложность |
|---|---|---|---|
| Qwen Browser Agent | Полностью on-device | 20-50 мс на действие | Средняя |
| Cloud агенты (OpenAI) | Облачные API | 500-2000 мс | Низкая |
| Selenium + локальная LLM | Частично локальная | 100-300 мс | Высокая |
| Iris Agent | Локальный или облачный | Зависит от настроек | Очень высокая |
Главное преимущество - не нужно пересылать скриншоты в облако. Это не только быстрее, но и безопаснее. Вспомните историю с синхронизацией cookies Chrome - когда агент работает локально, он может использовать сохраненные сессии браузера.
Не ждите чудес от 1.8B модели. Для сложных задач нужны Qwen-7B или 14B. На слабом железе придется мириться с ограничениями.
Как заставить это работать на вашем компьютере
Инструкция для тех, кто не боится командной строки и готов потратить 30 минут на настройку.
1Подготовка железа
Нужен Chrome 121+ с включенным WebGPU. Проверьте в chrome://flags/ - ищите "WebGPU Developer Features" и "Vulkan". Видеокарта с поддержкой Vulkan (NVIDIA, AMD, Intel Arc). Без этого не запустится.
2Скачивание и конвертация модели
Берем Qwen2.5-Coder-1.5B-Instruct (самая легкая) или Qwen2.5-7B-Instruct (баланс скорости и качества). Конвертируем в ONNX формат - разработчики дали скрипты. Если не хотите возиться, есть готовые конвертированные модели на Hugging Face.
На Mac M1/M2 работает через Metal backend. На Linux через Vulkan. Windows пока требует больше танцев с бубном.
3Установка расширения
Клонируем репозиторий, собираем расширение для Chrome. Включаем режим разработчика, загружаем распакованное расширение. Здесь главное не пропустить настройку CORS политики для локальных файлов.
4Первый запуск и калибровка
Открываем тестовую страницу, даем агенту простую команду вроде "найди поле поиска и введи 'test'". С первого раза может не получиться - нужно подкрутить параметры внимания модели к DOM-элементам. Помогает статья про DOM-пранинг.
Реальные кейсы вместо теоретических
Что можно делать прямо сегодня:
- Автоматический поиск товаров на маркетплейсах с фильтрацией по цене
- Ежедневное заполнение time tracking систем в корпоративном портале
- Тестирование адаптивности - агент меняет размер окна и проверяет ломается ли верстка
- Мониторинг статусов заказов без постоянного обновления страницы
- Сбор отзывов с сайтов, где нет нормального API
Для сложных сценариев, где нужна координация нескольких агентов, смотрите архитектуру автономного QA агента.
Подводные камни, о которых молчат
Все выглядит радужно, пока не столкнешься с реальностью:
- Память видеокарты - 7B модель съедает 4-6GB VRAM. На интегрированной графике это проблема
- Стабильность WebGPU - технология сырая, драйвера падают, особенно на AMD
- Обновления Chrome ломают расширения. Придется следить за версиями
- Капчи и сложная аутентификация все еще требуют человеческого вмешательства
- Динамические SPA (React, Vue) иногда сбивают агента с толку - элементы появляются/исчезают
Если нужна максимальная стабильность, рассмотрите гибридный подход: легкую модель локально для простых действий, тяжелую в облаке для сложных решений. Как в Screen Vision.
Кому это действительно нужно
Не всем. Но есть категории пользователей, для которых on-device агент меняет правила игры:
| Профиль | Выгода | Какая модель |
|---|---|---|
| Тестировщики интерфейсов | Автономные тесты без облачной инфраструктуры | Qwen-1.5B |
| Аналитики данных | Парсинг закрытых корпоративных порталов | Qwen-7B |
| Разработчики RPA | Прототипирование без лицензий UiPath/Automation Anywhere | Qwen-14B |
| Исследователи | Эксперименты с агентами без облачных затрат | Любая, зависит от задачи |
Если вы из тех, кто уже пробовал локальные LLM агенты и столкнулся с ограничениями облачных решений - этот инструмент для вас.
Что будет дальше
Технология еще сырая, но направление очевидно. Скоро появятся:
- Более легкие модели, оптимизированные специально для браузера
- Интеграция с SEDAC v5 для динамического ускорения
- Готовые расширения для Firefox и Edge
- Библиотеки действий для популярных сайтов (типа "войти в Gmail", "скачать отчет из Salesforce")
Самый интересный сценарий - распределенные агенты. Один на ноутбуке собирает данные, другой на сервере их анализирует, третий на телефоне (как в мобильной автоматизации) показывает уведомления. Все без единого облачного вызова.
Попробуйте запустить сегодня. Даже если с первого раза не заработает - вы поймете, куда движется отрасль. А когда облачные API подорожают в очередной раз, у вас уже будет работающая альтернатива в браузере.