Playwright умнее, но агенты глупее
Playwright создавали для E2E-тестов. Он ждет селекторы, знает про shadow DOM, умеет скриншотить с точностью до пикселя. Красивый инструмент. Но когда вы даете Playwright в лапы AI-агенту, начинается ад. Агент не знает, какой селектор вводить, он пытается угадать, падает на таймаутах, тратит кучу токенов на чтение "загрузка 45%" из модального окна.
Vercel — компания, которая кормит фронтендеров Next.js, — в начале 2026 года выпустила agent-browser. Это не очередной Puppeteer-форк. Это браузер, заточенный под сценарии AI-агентов: быстрый запуск, встроенная поддержка MCP (Model Context Protocol), минималистичный API без привязки к селекторам.
Agent-browser написан на Rust с биндингами для Node.js. По замерам Vercel, запуск браузера занимает 120 мс — в 4 раза быстрее Playwright в headless-режиме. Для агента, который открывает десятки страниц за задачу, это килограммы сэкономленных секунд.
Но скорость — лишь вершина. Главное — философия: агент не должен писать page.click('#submit'). Агент должен сказать "нажми кнопку отправки", а браузер сам найдёт эту кнопку. Agent-browser внутри использует LLM для семантического понимания интерфейсов? Нет, пока нет. Но он предоставляет высокоуровневые методы, которые агент может вызывать через MCP, не думая о DOM.
Как это выглядит в коде? Спойлер: вы офигеете от простоты
Вместо цепочки page.goto -> page.waitForSelector -> page.click -> page.evaluate, agent-browser предлагает модуль MCP-инструментов. Вы просто подключаете сервер, и ваш агент (через AI SDK или Claude Code) получает список действий:
import { AgentBrowserServer } from '@vercel/agent-browser/mcp';
const server = new AgentBrowserServer({ headless: true });
server.start(3100); // запускаем MCP-серверАгентская модель (например, Claude 3.5 Sonnet или Qwen3-Max) после подключения к серверу автоматически узнаёт, что может открыть страницу, ввести текст, нажать кнопку, получить текст страницы. Ей не нужно писать код. Она просто выбирает действие и передаёт параметры — например, "на странице логина введи user@example.com в поле email".
Таблица: Agent-browser vs Playwright — что лучше для агента?
| Параметр | Playwright 1.52 | Agent-browser 1.2 |
|---|---|---|
| Время запуска (холодный старт) | ~500 мс | ~120 мс |
| Потребление памяти на сессию | ~80 МБ | ~35 МБ |
| Поддержка MCP из коробки | Нет (нужны обёртки) | Да |
| Автоматическое управление контекстом (tabs) | Вручную | Автоматически для агента |
| Встроенная оптимизация HTML→Markdown | Нет | Да (через turndown + ML-фильтры) |
Самое вкусное — автоматическая конвертация страницы в Markdown. Вспомните AgentCrawl: там сначала пробовали fetch, потом поднимали браузер. Agent-browser внутри делает примерно то же самое, но родными средствами. Получил HTML — сразу превратил в чистый Markdown, выкинув навигацию и рекламу. Агент получает сжатый контент, тратит меньше токенов.
Сценарий из жизни: агент бронирует столик в ресторане
Допустим, ваш AI-секретарь (на базе GPT-5 или Hermes Agent) должен забронировать столик в "Пушкине" на четверых завтра в 19:00. Раньше вы бы написали Playwright-скрипт с кучей селекторов, которые сломаются при редизайне. С agent-browser агент просто подключается к MCP-серверу и описывает задачу естественным языком:
- Открыть ресторан.ру
- Ввести "Пушкинъ" в строку поиска
- Нажать кнопку поиска
- Выбрать завтрашнюю дату
- Указать 4 гостей и 19:00
- Нажать "Забронировать"
Agent-browser сам разбирается: где поле ввода, где кнопка, как обработать календарь. На сложных формах использует семантику aria-лейблов и видимый текст. Если кнопка "Забронировать" не находится — возвращает ошибку агенту, тот пробует другой сценарий. Не нужно возиться с selector:has-text.
Важно: agent-browser пока не умеет кликать по canvas-картам (Яндекс.Карты) — там нужна вся DOM-логика. Для сложных приложений типа Google Docs он тоже сыроват. Но для 80% типовых сайтов (формы, списки, статьи, поиск) — заменяет Playwright один в один, но с меньшим геморроем.
Но есть нюанс: Playwright не умрёт
Agent-browser — не замена Playwright. Это нишевый продукт для AI-агентов. Playwright остаётся королём E2E-тестов: если вы пишете автотест с assert'ами, вам нужны стабильные селекторы, а не "примерное поведение". Agent-browser, напротив, избыточен для обычного скрапинга — там дешевле работает fetch + Tavily/Exa.
Ещё одна проблема — сообщество. На апрель 2026 у agent-browser около 1,2k звёзд на GitHub. Это мало. Многие фичи (снятие скриншотов, запись видео, эмуляция мобильных устройств) ещё не реализованы. Vercel активно допиливает, но production-ready vs Playwright — пока шансов нет.
Тем не менее, для фреймворков вроде Autogen или LangChain agent-browser уже стал дефолтным браузером в их MCP-стеках. Потому что он не требует от разработчика писать код действий для агента — достаточно настроить MCP-сервер.
Кому это действительно нужно?
- Разработчикам автономных агентов — если ваш агент постоянно лазает по сайтам, agent-browser с MCP сэкономит часы на отладке селекторов.
- Создателям no-code AI-платформ — можно дать пользователю возможность "видеть" страницу без написания кода. Просто коннект к MCP.
- Хардкорным тестировщикам — нет, лучше не надо. Playwright с Codegen гораздо удобнее.
Мой прогноз: к концу 2026 года agent-browser либо выстрелит и станет стандартом для MCP-браузеров (Vercel лоббирует свой AI SDK не просто так), либо уйдёт в тень, если Google внедрит что-то подобное в Puppeteer. Но сейчас — это самый интересный инструмент в сегменте "браузер для нейросетей".
Если хотите попробовать — заходите на сайт, там есть демо с видеопримером. А я пойду думать, как встроить его в своего агента, который собирает новости про AI. Спойлер: EvoCUA уже это умеет, но с agent-browser будет быстрее.