AgentCrawl: Скрапер для AI агентов с экономией токенов 90% | TypeScript | AiManual
AiManual Logo Ai / Manual.
19 Янв 2026 Инструмент

AgentCrawl: Как создать оптимизированный под LLM скрапер с автоматическим переходом на headless-браузер

AgentCrawl - библиотека для гибридного веб-скрапинга под LLM с автоматическим переходом на Playwright. Оптимизация токенов, чистый Markdown, интеграция Vercel A

Когда ваш AI-агент тратит больше на чтение страниц, чем на мышление

Представьте: ваш AI-агент получает задание проанализировать новости. Он открывает 10 статей через Playwright, каждая страница весит 200К токенов. Только на чтение контента уходит $2. А сам анализ стоит 20 центов. Абсурд? Именно так работают большинство агентов сегодня.

AgentCrawl решает эту проблему радикально. Это TypeScript библиотека, которая делает то, что должен был делать давно: сначала пытается получить чистый HTML через быстрый fetch, а если не получается — автоматически переключается на headless-браузер. И все это — с конвертацией в оптимизированный для LLM Markdown.

Ключевая цифра: AgentCrawl сокращает расход токенов на 80-90% по сравнению с прямым использованием Playwright или Puppeteer для каждого запроса.

Как это работает на практике? Проще, чем кажется

Библиотека построена на простой, но мощной идее: большинство сайтов отдают нормальный HTML по первичному запросу. JavaScript-рендеринг нужен только для SPA и динамического контента. Зачем платить тяжелым браузером за статический текст?

1 Пробуем легкий путь: обычный fetch

AgentCrawl сначала делает простой HTTP-запрос. Если получает валидный HTML с контентом (не пустую обертку SPA), парсит его через cheerio. Быстро, дешево, без лишних накладных расходов.

2 Если не получилось — запускаем тяжелую артиллерию

Наткнулись на React-приложение? Библиотека автоматически запускает Playwright, ждет загрузки страницы (можно настроить кастомные условия), и только потом извлекает контент. Вы платите за браузер только когда это действительно нужно.

3 Оптимизация под LLM: не просто HTML, а чистый Markdown

Вот где магия. Библиотека не просто выдирает текст. Она преобразует HTML в структурированный Markdown, удаляет навигацию, рекламу, футеры — все, что не несет смысловой нагрузки для LLM. Результат: в 3-5 раз меньше токенов при том же информационном содержании.

💡
Если вы работаете с локальными моделями через LM Studio или LlamaBarn, экономия контекста становится критически важной. Особенно с моделями вроде Llama-3-8B на ограниченном VRAM.

Что умеет AgentCrawl? Не только базовый парсинг

  • Гибридный движок: автоматический выбор между fetch и Playwright на основе анализа ответа
  • Извлечение чистого контента: удаление boilerplate-кода через алгоритмы типа Readability
  • Конвертация в Markdown: структурированный вывод с сохранением заголовков, списков, таблиц
  • Настраиваемые селекторы: можно указать CSS-селекторы для извлечения конкретных областей
  • Ограничение длины: автоматическая обрезка по количеству токенов или символов
  • Интеграция с Vercel AI SDK: готовые адаптеры для работы в стеке Vercel
  • Поддержка cookies и сессий: критично для авторизованных действий (помните проблему с Gmail и 2FA?)

Альтернативы? Есть, но с нюансами

Инструмент Плюсы Минусы для агентов Когда выбирать
Playwright/Puppeteer Полная эмуляция браузера, работает с любым JS Медленно, тяжело, дорого в токенах Только для сложных SPA с критичным JS
Cheerio + axios Быстро, легко, дешево Не работает с динамическим контентом Только статические сайты
Scrapy/Selenium Мощные фреймворки для парсинга Python-стек (не TypeScript), сложная интеграция с Node.js агентами Сложные пайплайны данных на Python
Firecrawl, Mendable Готовые облачные решения Дорого, зависимость от API, нет контроля Быстрый старт без разработки
AgentCrawl Гибридный подход, оптимизация токенов, TypeScript Относительно новый, меньше community AI-агенты на Node.js, где важна экономия токенов

Главный недостаток прямого использования Playwright для агентов — не предсказуемость, а стоимость. Каждый запуск браузера съедает сотни миллисекунд и тысячи токенов. AgentCrawl решает именно эту проблему.

Типичные сценарии: где это реально нужно?

Агент-исследователь новостей

Ваш агент мониторит 50 новостных сайтов. 45 из них — статические или с серверным рендерингом. С AgentCrawl он тратит браузер только на 5 сложных SPA, а остальное берет через fetch. Экономия: 90% времени и токенов.

Анализ документации

Документация React, Vue, Next.js — обычно это статические сайты с GitHub Pages. Но некоторые разделы используют клиентский рендеринг. Гибридный подход идеален: берем основную массу через cheerio, динамические примеры кода — через Playwright.

Мониторинг цен и наличия

Интернет-магазины: половина на старых движках, половина на современных SPA. AgentCrawl автоматически подбирает правильный подход для каждого сайта. Особенно полезно в связке с Screen Vision для сложных интерфейсов.

Кому подойдет AgentCrawl? Спойлер: почти всем

  1. Разработчикам AI-агентов на Node.js/TypeScript — нативная интеграция, меньше костылей
  2. Тем, кто строит агентов с ограниченным бюджетом на API — экономия токенов напрямую конвертируется в деньги
  3. Проектам с локальными LLM — меньше контекста = больше возможностей даже на слабом железе
  4. Командам, которые уже используют Vercel AI SDK — готовые адаптеры, минимум настройки
  5. Тем, кто устал от «везде Playwright» — наконец-то интеллектуальный выбор инструмента

Не подойдет если: вам нужен только Python-стек (хотя можно сделать bridge), или вы парсите исключительно SPA-приложения (тогда берите чистый Playwright), или вам нужен облачный managed-сервис (смотрите в сторону Firecrawl).

💡
Если вы работаете с мульти-агентными системами, как в этих сценариях, AgentCrawl становится особенно ценным. Каждый суб-агент экономит токены, что в масштабе дает колоссальную разницу.

Что дальше? Будущее гибридного скрапинга

AgentCrawl — только начало. Следующий логичный шаг: предиктивный выбор движка. Зачем ждать ответа от fetch, если мы знаем, что сайт всегда требует JS? Можно хранить кэш «профилей» сайтов: этот — статический, этот — React, этот — требует задержки 2 секунды.

Еще интереснее интеграция с vision-моделями. Представьте: fetch не дал контента, Playwright загрузил страницу, но вместо текста мы делаем скриншот и отправляем в локальную vision-модель. Это уже следующий уровень — когда текстовый парсинг бессилен против капчи или сложной визуализации.

Самое важное: AgentCrawl меняет парадигму. Вместо «браузер для всего» — интеллектуальный выбор инструмента под задачу. Как молоток и шуруповерт: иногда нужен первый, иногда второй, а умный мастер берет оба и решает, что использовать здесь и сейчас.

Главный совет: не используйте AgentCrawl слепо для всех сайтов. Протестируйте на вашем конкретном наборе доменов. Некоторые «статические» сайты на деле оказываются хитрыми SPA, а некоторые «современные» приложения отлично отдают HTML с сервера. Измеряйте, настраивайте, адаптируйте.

И последнее: если вы уже используете что-то вроде Perplexity Comet MCP или Claude Cowork, спросите себя — сколько токенов вы тратите на веб-доступ? Возможно, именно гибридный подход станет тем самым недостающим звеном, которое сделает ваших агентов не только умными, но и экономными.