Playwright умнее, но агенты глупее

Playwright создавали для E2E-тестов. Он ждет селекторы, знает про shadow DOM, умеет скриншотить с точностью до пикселя. Красивый инструмент. Но когда вы даете Playwright в лапы AI-агенту, начинается ад. Агент не знает, какой селектор вводить, он пытается угадать, падает на таймаутах, тратит кучу токенов на чтение "загрузка 45%" из модального окна.

Vercel — компания, которая кормит фронтендеров Next.js, — в начале 2026 года выпустила agent-browser. Это не очередной Puppeteer-форк. Это браузер, заточенный под сценарии AI-агентов: быстрый запуск, встроенная поддержка MCP (Model Context Protocol), минималистичный API без привязки к селекторам.

Agent-browser написан на Rust с биндингами для Node.js. По замерам Vercel, запуск браузера занимает 120 мс — в 4 раза быстрее Playwright в headless-режиме. Для агента, который открывает десятки страниц за задачу, это килограммы сэкономленных секунд.

Но скорость — лишь вершина. Главное — философия: агент не должен писать page.click('#submit'). Агент должен сказать "нажми кнопку отправки", а браузер сам найдёт эту кнопку. Agent-browser внутри использует LLM для семантического понимания интерфейсов? Нет, пока нет. Но он предоставляет высокоуровневые методы, которые агент может вызывать через MCP, не думая о DOM.

Как это выглядит в коде? Спойлер: вы офигеете от простоты

Вместо цепочки page.goto -> page.waitForSelector -> page.click -> page.evaluate, agent-browser предлагает модуль MCP-инструментов. Вы просто подключаете сервер, и ваш агент (через AI SDK или Claude Code) получает список действий:

import { AgentBrowserServer } from '@vercel/agent-browser/mcp';  
const server = new AgentBrowserServer({ headless: true });  
server.start(3100);  // запускаем MCP-сервер

Агентская модель (например, Claude 3.5 Sonnet или Qwen3-Max) после подключения к серверу автоматически узнаёт, что может открыть страницу, ввести текст, нажать кнопку, получить текст страницы. Ей не нужно писать код. Она просто выбирает действие и передаёт параметры — например, "на странице логина введи user@example.com в поле email".

💡

В DeepAgents CLI и Screen Vision для работы с UI приходится тащить Playwright и городить костыли. Agent-browser решает эту проблему на уровне протокола.

Таблица: Agent-browser vs Playwright — что лучше для агента?

Параметр	Playwright 1.52	Agent-browser 1.2
Время запуска (холодный старт)	~500 мс	~120 мс
Потребление памяти на сессию	~80 МБ	~35 МБ
Поддержка MCP из коробки	Нет (нужны обёртки)	Да
Автоматическое управление контекстом (tabs)	Вручную	Автоматически для агента
Встроенная оптимизация HTML→Markdown	Нет	Да (через turndown + ML-фильтры)

Самое вкусное — автоматическая конвертация страницы в Markdown. Вспомните AgentCrawl: там сначала пробовали fetch, потом поднимали браузер. Agent-browser внутри делает примерно то же самое, но родными средствами. Получил HTML — сразу превратил в чистый Markdown, выкинув навигацию и рекламу. Агент получает сжатый контент, тратит меньше токенов.

Сценарий из жизни: агент бронирует столик в ресторане

Допустим, ваш AI-секретарь (на базе GPT-5 или Hermes Agent) должен забронировать столик в "Пушкине" на четверых завтра в 19:00. Раньше вы бы написали Playwright-скрипт с кучей селекторов, которые сломаются при редизайне. С agent-browser агент просто подключается к MCP-серверу и описывает задачу естественным языком:

Открыть ресторан.ру
Ввести "Пушкинъ" в строку поиска
Нажать кнопку поиска
Выбрать завтрашнюю дату
Указать 4 гостей и 19:00
Нажать "Забронировать"

Agent-browser сам разбирается: где поле ввода, где кнопка, как обработать календарь. На сложных формах использует семантику aria-лейблов и видимый текст. Если кнопка "Забронировать" не находится — возвращает ошибку агенту, тот пробует другой сценарий. Не нужно возиться с selector:has-text.

Важно: agent-browser пока не умеет кликать по canvas-картам (Яндекс.Карты) — там нужна вся DOM-логика. Для сложных приложений типа Google Docs он тоже сыроват. Но для 80% типовых сайтов (формы, списки, статьи, поиск) — заменяет Playwright один в один, но с меньшим геморроем.

Но есть нюанс: Playwright не умрёт

Agent-browser — не замена Playwright. Это нишевый продукт для AI-агентов. Playwright остаётся королём E2E-тестов: если вы пишете автотест с assert'ами, вам нужны стабильные селекторы, а не "примерное поведение". Agent-browser, напротив, избыточен для обычного скрапинга — там дешевле работает fetch + Tavily/Exa.

Ещё одна проблема — сообщество. На апрель 2026 у agent-browser около 1,2k звёзд на GitHub. Это мало. Многие фичи (снятие скриншотов, запись видео, эмуляция мобильных устройств) ещё не реализованы. Vercel активно допиливает, но production-ready vs Playwright — пока шансов нет.

Тем не менее, для фреймворков вроде Autogen или LangChain agent-browser уже стал дефолтным браузером в их MCP-стеках. Потому что он не требует от разработчика писать код действий для агента — достаточно настроить MCP-сервер.

Кому это действительно нужно?

Разработчикам автономных агентов — если ваш агент постоянно лазает по сайтам, agent-browser с MCP сэкономит часы на отладке селекторов.
Создателям no-code AI-платформ — можно дать пользователю возможность "видеть" страницу без написания кода. Просто коннект к MCP.
Хардкорным тестировщикам — нет, лучше не надо. Playwright с Codegen гораздо удобнее.

Мой прогноз: к концу 2026 года agent-browser либо выстрелит и станет стандартом для MCP-браузеров (Vercel лоббирует свой AI SDK не просто так), либо уйдёт в тень, если Google внедрит что-то подобное в Puppeteer. Но сейчас — это самый интересный инструмент в сегменте "браузер для нейросетей".

Если хотите попробовать — заходите на сайт, там есть демо с видеопримером. А я пойду думать, как встроить его в своего агента, который собирает новости про AI. Спойлер: EvoCUA уже это умеет, но с agent-browser будет быстрее.

Подписаться на канал

Agent-browser от Vercel: бунт AI-агентов против Playwright? Обзор нового инструмента