Веб-автоматизация на мультимодальных ИИ — это как резать хлеб бензопилой
Каждый второй стартап в 2026 году пытается запихнуть GPT-5 Vision или Claude 4 с мультимодальностью в своих веб-агентов. Получается дорого, медленно и криво. Почему? Потому что мультимодальные модели созданы для общего понимания изображений, а не для точного взаимодействия с интерфейсами.
Выглядит логично: скриншот страницы → модель «видит» кнопки → нажимает на них. На практике это цепь ошибок, где каждая стоит денег.
В апреле 2026 года OpenAI выпустила GPT-5 с улучшенным vision-модулем. Точность распознавания UI-элементов выросла на 15%. Все равно недостаточно для production.
Проблема первая: модель видит картинку, а не структуру
Мультимодальная модель анализирует пиксели. Для нее кнопка «Купить» и рекламный баннер с текстом «Купить» — часто одно и то же. Она не знает DOM-дерева, не видит атрибуты data-testid, не различает скрытые элементы.
В проекте JanusCoder эту проблему пытались решить через SVG — структурированное представление интерфейса. Работает лучше скриншотов, но все равно остается надстройкой над неправильным фундаментом.
Латентность и цена: зачем платить больше за худший результат?
Обработка скриншота через GPT-5 Vision занимает 2-3 секунды и стоит в 5 раз дороже, чем текстовый запрос. При массовой автоматизации счет идет на тысячи операций в час. Математика простая: вы платите за красивую, но ненужную абстракцию.
- Текстовый парсинг HTML: 50-100 мс, ~0.001$ за запрос
- Мультимодальный анализ: 2000-3000 мс, ~0.005-0.01$ за запрос
- Точность взаимодействия: у текстового подхода на 30-40% выше на динамических сайтах
Интеграции вроде Browserbase предлагают готовые решения для веб-автоматизации через API. Но под капотом они часто используют те же мультимодальные модели — просто спрятали сложность за красивым интерфейсом.
Динамический контент — убийца мультимодальных агентов
Современные SPAs (Single Page Applications) меняют интерфейс на лету. Кнопка появляется через 2 секунды после загрузки. Модальное окно выезжает с анимацией. Мультимодальный агент должен постоянно делать скриншоты и анализировать их. Это безумие.
Текстовый агент работает с событиями DOM. Он знает, когда элемент появился, потому что браузер сообщил ему об этом. Не нужно гадать по пикселям.
Как мы писали в материале «ИИ против человеческих интерфейсов», веб создавался для людей. Но машинам нужны машиночитаемые интерфейсы. Мультимодальность пытается заставить ИИ думать как человек — и проигрывает специализированным инструментам.
| Задача | Мультимодальный ИИ (GPT-5V) | Специализированный парсинг |
|---|---|---|
| Найти форму входа | 78% точность, 2.1 сек | 99% точность, 0.1 сек |
| Кликнуть на выпадающий список | Часто промахивается | Точный клик по селектору |
| Работа с iframe | Не различает контексты | Переключение контекста |
Альтернативы, которые работают сегодня
Вместо того чтобы заставлять ИИ «видеть», дайте ему данные. Это быстрее, дешевле и надежнее.
- Парсинг HTML + CSSOM: извлекайте структуру страницы через Playwright или Puppeteer, передавайте в текстовую LLM (например, Claude 4 без vision). Модель отлично понимает иерархию тегов.
- Семантические селекторы: используйте атрибуты
aria-label,role,data-qa. Браузеры уже умеют их экспортировать. - Гибридный подход: для действительно сложных случаев (капча, сложная графика) можно использовать мультимодальность, но как последнюю линию обороны, а не основной инструмент.
Проекты вроде Screen Vision показывают, как можно комбинировать подходы, но их сложность часто не оправдана для бизнес-задач.
Новость апреля 2026: Anthropic выпустила Claude 4.1 с улучшенной работой с HTML. Модель теперь лучше понимает структуру страницы без vision-модуля. Тенденция явная — текстовый анализ выигрывает.
Что будет дальше? Прогноз от практика
Мультимодальные модели останутся в нишах, где действительно нужно распознавать визуальные паттерны: анализ графиков, чтение документов со сканов, работа с интерфейсами, где нет доступа к коду (например, мобильные приложения через эмуляцию).
Но для веб-автоматизации будущее за специализированными протоколами. Представьте, что сайты будут предоставлять machine-friendly API для своих же интерфейсов. Звучит утопично, но движение в эту сторону уже есть. До тех пор — парсинг и текстовые модели.
Совет: если вы строите веб-агента в 2026 году, начните с текстового подхода. Добавьте мультимодальность только если точность упадет ниже приемлемого уровня. В 90% случаев она не понадобится. Вы сэкономите бюджет и нервы.
P.S. Инструменты вроде Phind уже предлагают готовые решения для разработчиков, но под капотом они используют те же принципы — минимум vision, максимум структуры.