Что такое WebMCP?

WebMCP — это расширение протокола MCP для веба, которое позволяет AI-агентам получать структурированное DOM-дерево вместо скриншотов, что радикально ускоряет взаимодействие и экономит токены.

Насколько быстрее работают агенты с WebMCP?

Согласно бенчмаркам от апреля 2026 года, среднее время на шаг сокращается с 6.4 секунд (со скриншотами) до 0.28 секунд с WebMCP. Экономия токенов — до 90%.

Какие риски у WebMCP?

Основные риски — безопасность (доступ к полному DOM) и сопротивление сайтов (блокировка как скрапинг). Спецификация включает опциональные механизмы защиты, но они не обязательны.

WebMCP: AI-агенты без скриншотов — новый стандарт 2026

Скриншоты — проклятие AI-агентов. Наконец-то появился выход

Если вы хоть раз запускали AI-агента для работы с сайтами, вы знаете эту боль. Агент открывает страницу, делает скриншот, прогоняет его через мультимодальную модель — и ждет 10 секунд, сжигая сотни тысяч токенов. Потом щелкает кнопку, снова скриншот... Это безумие. Мы привыкли, что по-другому нельзя. Но в апреле 2026 года появился черновик спецификации WebMCP, который разом ломает эту парадигму.

WebMCP — это расширение протокола Model Context Protocol (MCP) для веба. Вместо картинок агент получает структурированное DOM-дерево с координатами интерактивных элементов, атрибутами и текстовым контентом. Никаких скриншотов — только чистый JSON с metadata. Скорость? Вместо 5-10 секунд на снятие скриншота — 50 миллисекунд на передачу схемы. Экономия токенов — до 90% по сравнению с мультимодальным анализом.

Суть: WebMCP превращает любой сайт в API для AI-агента. Агент получает не картинку, а полную карту страницы: какие кнопки, где форма ввода, какие ссылки — и может действовать сразу.

Давайте разберем, как это работает и почему это меняет правила игры.

Откуда взялась идея — и почему именно сейчас

Проблема скриншотов не нова. Еще в 2024-2025 годах появились обходные пути: TextWeb пытался выдергивать текст вручную, Screen Vision учил нейронки понимать пиксели. Но корень зла — в самом подходе. Мультимодальные модели (даже GPT-4.5, Gemini 2.5 Ultra) тратят кучу ресурсов на распознавание кнопок и текста, хотя вся необходимая информация уже есть в DOM.

WebMCP родился как ответ на этот абсурд. Разработчики из Anthropic и нескольких opensource-команд (включая ребят из проекта Agent-browser от Vercel) осознали: если агент может парсить DOM напрямую, зачем делать скриншот? Черновик спецификации опубликовали в конце марта 2026 года, и уже к началу мая его поддержали многие фреймворки.

Кстати, это отличный ответ на критику мультимодальных ИИ: мол, они дороги, медленны и неуклюжи. WebMCP предлагает принципиально другой путь — без картинок.

Как это выглядит на практике: молниеносная навигация

Представим типичную задачу: агент заходит на сайт авиакомпании, выбирает рейс из Москвы в Берлин, заполняет форму и оплачивает. Со скриншотами: открыли страницу -> скриншот -> отправили в LLM -> LLM распознала -> сгенерировала действие -> клик -> новый скриншот... Пауза между шагами — 8-12 секунд. Итог: покупка билета занимает 2-3 минуты.

WebMCP: браузер (или прокси-слой) отдает DOM-дерево в виде JSON по протоколу MCP. Агент получает список всех интерактивных элементов с координатами и состояниями (активна/неактивна кнопка, есть ошибки в полях). Он выбирает селектор, кликает. Весь цикл — 200-300 мс. Билет куплен за 15 секунд.

Но есть нюанс: DOM может быть огромным. Для страниц с тысячами элементов полная выгрузка весит больше, чем сжатый JPEG. Поэтому WebMCP использует умный фильтр: передает только кликабельные и видимые узлы, плюс их текстовую близость. Тесты показывают, что типичный размер ответа — 5-15 КБ против 200-800 КБ для скриншота.

Неудивительно, что проект TextWeb уже адаптируется под WebMCP: авторы говорят, что новый протокол делает их подход (выдергивание текста) вторичным.

Экономия железа и денег: конкретные цифры

Приведу данные из первых бенчмарков, опубликованных командой WebMCP 2 мая 2026 года. Протестировали трех популярных агентов: браузерного ассистента на базе LM Studio MCP с локальной моделью, облачного агента на Claude 4.5 и гибридного на Llama 5. Задачи: бронирование отеля, поиск товара на маркетплейсе, регистрация на сайте.

Метрика	Со скриншотами (мультимодальные)	WebMCP
Среднее время на шаг	6.4 с	0.28 с
Токенов на шаг (вход)	~45 000	~1 200
Общая стоимость задачи (10 шагов)	$0.35 (через API)	$0.01
Успешность выполнения	94%	98%

Да, успешность выше — потому что нет ошибок распознавания текста на скриншоте. Особенно на сайтах с нестандартными шрифтами или темными темами. Агент просто читает actual HTML content.

Кстати, Screen Vision, который делал упор на скриншоты, сейчас экстренно добавляет поддержку WebMCP. Создатели признают: в лобовых тестах на сложных SPAPage (например, Google Sheets) скриншоты падают, а WebMCP справляется.

Темная сторона: безопасность и сопротивление сайтов

Не все так радужно. WebMCP по сути дает агенту доступ к полному DOM, включая скрытые поля, метаданные, возможно, защищенные элементы. Это мощный инструмент, но и риск: злой агент может прочитать содержимое страниц, которое не видит пользователь (например, данные с модальных окон, которые не отрисовываются).

Спецификация включает зоны privacy: сайты могут запрещать передачу определенных полей (с паролями, токенами) через атрибут data-webmcp-exclude. Но это опционально. На практике уже появились сервисы (типа Cloudflare), которые начали блокировать WebMCP-запросы, считая их автоматизированным scraping'ом.

Кстати, это похоже на ситуацию с кризисом MCP-серверов, где 52% endpoint'ов оказались мертвыми. WebMCP может постичь та же участь, если владельцы сайтов не захотят поддерживать новый протокол. Но, к счастью, спецификация работает и без явной поддержки: можно внедрить на уровне браузера или расширения с помощью JavaScript (хотя это уже менее безопасно).

Что это меняет для разработчиков и веб-сервисов

Если раньше AI-агенты были дорогой игрушкой для хакеров и энтузиастов, то WebMCP делает их дешевыми и быстрыми. Это прямая дорога к массовому использованию: персональные ассистенты, которые покупают билеты, бронируют столики, управляют подписками — все это станет реальностью уже в 2026–2027.

Веб-сервисам придется адаптироваться: если ваш сайт не отдает корректный DOM (с перегруженным JavaScript, динамическими ID), агенты на WebMCP будут работать плохо. Google и Яндекс уже задумываются о том, чтобы ранжировать страницы по их пригодности для AI-агентов — новый SEO-фактор. Шутка? Вовсе нет.

Кстати, проект WordPress.com и AI-агенты как раз показывает, как MCP уже интегрируется в CMS: теперь WebMCP позволит агентам не только писать посты, но и настраивать тему, менять блоки — без скриншотов, через структурированное взаимодействие.

Неочевидный прогноз: конец эры визуального распознавания для веб-агентов?

Многие скажут: но как же капчи, сложные графики, защищенные области? WebMCP не отменяет мультимодальность полностью. Для задач, где визуальная информация критична (например, анализ графика на сайте), по-прежнему нужны скриншоты. Но для 90% повседневных действий — заполнение форм, клики, навигация — WebMCP станет стандартом.

Совет для разработчиков: не ждите, пока ваш любимый фреймворк официально поддержит WebMCP. Можно уже сейчас написать простой MCP-сервер, который будет выгружать DOM через браузерное расширение или headless-браузер. Пример кода? Не буду, гуглите — но это банально 50 строк на Node.js. Главное — начать тестировать свои агенты в новом формате.

WebMCP не идеален. Он зависит от готовности площадок и борьбы с безопасностью. Но это первый реальный шаг к тому, чтобы AI-агенты перестали быть дорогими калеками, которые смотрят на мир через грязное стекло скриншота. Возможно, через год мы будем вспоминать мультимодальный подход к вебу так же, как сейчас вспоминаем dial-up модемы — с улыбкой и ужасом.

Подписаться на канал

WebMCP: новый стандарт для AI-агентов, меняющий веб-взаимодействие без скриншотов