Когда ваш AI-агент тратит больше на чтение страниц, чем на мышление
Представьте: ваш AI-агент получает задание проанализировать новости. Он открывает 10 статей через Playwright, каждая страница весит 200К токенов. Только на чтение контента уходит $2. А сам анализ стоит 20 центов. Абсурд? Именно так работают большинство агентов сегодня.
AgentCrawl решает эту проблему радикально. Это TypeScript библиотека, которая делает то, что должен был делать давно: сначала пытается получить чистый HTML через быстрый fetch, а если не получается — автоматически переключается на headless-браузер. И все это — с конвертацией в оптимизированный для LLM Markdown.
Ключевая цифра: AgentCrawl сокращает расход токенов на 80-90% по сравнению с прямым использованием Playwright или Puppeteer для каждого запроса.
Как это работает на практике? Проще, чем кажется
Библиотека построена на простой, но мощной идее: большинство сайтов отдают нормальный HTML по первичному запросу. JavaScript-рендеринг нужен только для SPA и динамического контента. Зачем платить тяжелым браузером за статический текст?
1 Пробуем легкий путь: обычный fetch
AgentCrawl сначала делает простой HTTP-запрос. Если получает валидный HTML с контентом (не пустую обертку SPA), парсит его через cheerio. Быстро, дешево, без лишних накладных расходов.
2 Если не получилось — запускаем тяжелую артиллерию
Наткнулись на React-приложение? Библиотека автоматически запускает Playwright, ждет загрузки страницы (можно настроить кастомные условия), и только потом извлекает контент. Вы платите за браузер только когда это действительно нужно.
3 Оптимизация под LLM: не просто HTML, а чистый Markdown
Вот где магия. Библиотека не просто выдирает текст. Она преобразует HTML в структурированный Markdown, удаляет навигацию, рекламу, футеры — все, что не несет смысловой нагрузки для LLM. Результат: в 3-5 раз меньше токенов при том же информационном содержании.
Что умеет AgentCrawl? Не только базовый парсинг
- Гибридный движок: автоматический выбор между fetch и Playwright на основе анализа ответа
- Извлечение чистого контента: удаление boilerplate-кода через алгоритмы типа Readability
- Конвертация в Markdown: структурированный вывод с сохранением заголовков, списков, таблиц
- Настраиваемые селекторы: можно указать CSS-селекторы для извлечения конкретных областей
- Ограничение длины: автоматическая обрезка по количеству токенов или символов
- Интеграция с Vercel AI SDK: готовые адаптеры для работы в стеке Vercel
- Поддержка cookies и сессий: критично для авторизованных действий (помните проблему с Gmail и 2FA?)
Альтернативы? Есть, но с нюансами
| Инструмент | Плюсы | Минусы для агентов | Когда выбирать |
|---|---|---|---|
| Playwright/Puppeteer | Полная эмуляция браузера, работает с любым JS | Медленно, тяжело, дорого в токенах | Только для сложных SPA с критичным JS |
| Cheerio + axios | Быстро, легко, дешево | Не работает с динамическим контентом | Только статические сайты |
| Scrapy/Selenium | Мощные фреймворки для парсинга | Python-стек (не TypeScript), сложная интеграция с Node.js агентами | Сложные пайплайны данных на Python |
| Firecrawl, Mendable | Готовые облачные решения | Дорого, зависимость от API, нет контроля | Быстрый старт без разработки |
| AgentCrawl | Гибридный подход, оптимизация токенов, TypeScript | Относительно новый, меньше community | AI-агенты на Node.js, где важна экономия токенов |
Главный недостаток прямого использования Playwright для агентов — не предсказуемость, а стоимость. Каждый запуск браузера съедает сотни миллисекунд и тысячи токенов. AgentCrawl решает именно эту проблему.
Типичные сценарии: где это реально нужно?
Агент-исследователь новостей
Ваш агент мониторит 50 новостных сайтов. 45 из них — статические или с серверным рендерингом. С AgentCrawl он тратит браузер только на 5 сложных SPA, а остальное берет через fetch. Экономия: 90% времени и токенов.
Анализ документации
Документация React, Vue, Next.js — обычно это статические сайты с GitHub Pages. Но некоторые разделы используют клиентский рендеринг. Гибридный подход идеален: берем основную массу через cheerio, динамические примеры кода — через Playwright.
Мониторинг цен и наличия
Интернет-магазины: половина на старых движках, половина на современных SPA. AgentCrawl автоматически подбирает правильный подход для каждого сайта. Особенно полезно в связке с Screen Vision для сложных интерфейсов.
Кому подойдет AgentCrawl? Спойлер: почти всем
- Разработчикам AI-агентов на Node.js/TypeScript — нативная интеграция, меньше костылей
- Тем, кто строит агентов с ограниченным бюджетом на API — экономия токенов напрямую конвертируется в деньги
- Проектам с локальными LLM — меньше контекста = больше возможностей даже на слабом железе
- Командам, которые уже используют Vercel AI SDK — готовые адаптеры, минимум настройки
- Тем, кто устал от «везде Playwright» — наконец-то интеллектуальный выбор инструмента
Не подойдет если: вам нужен только Python-стек (хотя можно сделать bridge), или вы парсите исключительно SPA-приложения (тогда берите чистый Playwright), или вам нужен облачный managed-сервис (смотрите в сторону Firecrawl).
Что дальше? Будущее гибридного скрапинга
AgentCrawl — только начало. Следующий логичный шаг: предиктивный выбор движка. Зачем ждать ответа от fetch, если мы знаем, что сайт всегда требует JS? Можно хранить кэш «профилей» сайтов: этот — статический, этот — React, этот — требует задержки 2 секунды.
Еще интереснее интеграция с vision-моделями. Представьте: fetch не дал контента, Playwright загрузил страницу, но вместо текста мы делаем скриншот и отправляем в локальную vision-модель. Это уже следующий уровень — когда текстовый парсинг бессилен против капчи или сложной визуализации.
Самое важное: AgentCrawl меняет парадигму. Вместо «браузер для всего» — интеллектуальный выбор инструмента под задачу. Как молоток и шуруповерт: иногда нужен первый, иногда второй, а умный мастер берет оба и решает, что использовать здесь и сейчас.
Главный совет: не используйте AgentCrawl слепо для всех сайтов. Протестируйте на вашем конкретном наборе доменов. Некоторые «статические» сайты на деле оказываются хитрыми SPA, а некоторые «современные» приложения отлично отдают HTML с сервера. Измеряйте, настраивайте, адаптируйте.
И последнее: если вы уже используете что-то вроде Perplexity Comet MCP или Claude Cowork, спросите себя — сколько токенов вы тратите на веб-доступ? Возможно, именно гибридный подход станет тем самым недостающим звеном, которое сделает ваших агентов не только умными, но и экономными.