Браузер, который думает сам. Но локально
В феврале 2026 года все говорят про автономных агентов, но большинство из них требуют либо облачных API, либо моделей компьютерного зрения, которые съедают половину оперативной памяти. PageAgent предлагает другой путь - глупый, но гениальный. Вместо скриншотов и сложной семантической разметки он просто берёт DOM и превращает его в текст.
Звучит примитивно? Может быть. Но пока другие агенты тратят тысячи токенов на описание интерфейса, PageAgent читает HTML как книгу. И делает это полностью локально, через Ollama. Никаких счетов от OpenAI, никаких отправок данных в облако. Простая MIT лицензия и код на GitHub.
На 28.02.2026 PageAgent активно развивается. Последние коммиты в репозитории показывают добавление поддержки OpenAI-совместимых эндпоинтов и улучшенную обработку динамического контента.
Как это вообще работает? (Спойлер: проще, чем кажется)
Вот алгоритм, который заставит плакать инженеров из крупных компаний:
- Загружаем страницу в headless-браузере
- Достаём чистый DOM (убираем стили, скрипты, всё лишнее)
- Превращаем структуру в читаемый текст с сохранением семантики
- Кормим этот текст локальной LLM через Ollama
- Модель анализирует содержимое и решает, что делать дальше
- Агент выполняет действие (клик, ввод текста, навигация)
- Повторяем до выполнения задачи
Никаких нейросетей для зрения, никаких сложных эмбеддингов. Просто текст и модель, которая его понимает. И знаете что? Это работает. Особенно с современными LLM вроде Qwen2.5-32B или DeepSeek-V3, которые на конец февраля 2026 года прекрасно справляются с пониманием структурированного текста.
Установка: пять минут и вы в деле
Если у вас уже стоит Ollama (а на февраль 2026 это стандарт де-факто для локальных моделей), то процесс выглядит так:
1 Клонируем и настраиваем
git clone https://github.com/yourusername/pageagent
cd pageagent
npm install # или yarn, или pnpm - на ваш выбор
2 Запускаем Ollama с нужной моделью
# На февраль 2026 Qwen2.5-Coder-7B показывает лучшие результаты
# для задач браузерной автоматизации
ollama run qwen2.5-coder:7b
# Или если предпочитаете что-то более универсальное
ollama run deepseek-coder-v2:16b-lite
3 Конфигурируем PageAgent
// config.json
{
"ollamaEndpoint": "http://localhost:11434",
"model": "qwen2.5-coder:7b",
"maxTokens": 4096,
"temperature": 0.1, // Низкая температура для детерминированных действий
"timeout": 30000
}
Готово. Теперь у вас есть браузерный агент, который не спрашивает кредитную карту и не отправляет ваши данные на серверы в Кремниевой долине.
А что он умеет делать на практике?
Вот сценарий, который я тестировал вчера. Задача: зайти на GitHub Trends, найти три самых популярных репозитория за неделю, вывести их названия и количество звёзд.
const PageAgent = require('pageagent');
const agent = new PageAgent({
model: 'qwen2.5-coder:7b',
headless: true
});
async function analyzeGitHubTrends() {
await agent.navigate('https://github.com/trending');
const result = await agent.executeTask(
'Найди три самых популярных репозитория на этой странице. ' +
'Для каждого выведи название и количество звёзд.'
);
console.log('Результат:', result);
await agent.close();
}
analyzeGitHubTrends().catch(console.error);
Агент открывает страницу, анализирует DOM, находит таблицу с трендами, извлекает данные и возвращает структурированный результат. Всё локально, всё приватно. Никаких запросов к GitHub API, никаких ограничений на количество запросов.
Важный момент: PageAgent использует чистый DOM, а не скриншоты. Это значит, что он работает с динамическим контентом и SPA-приложениями лучше, чем агенты на базе компьютерного зрения. Но ему нужна правильная семантическая разметка - если сайт построен на дивах с кучей инлайн-стилей, могут быть проблемы.
PageAgent vs. Остальной мир: кто кого?
Давайте сравним с тем, что есть на рынке в феврале 2026:
| Инструмент | Локальность | Скорость | Точность | Сложность |
|---|---|---|---|---|
| PageAgent | Полная | Быстрая | Высокая на структурированных сайтах | Низкая |
| LocalAgent v0.1.1 | Полная | Медленная | Очень высокая | Высокая |
| Облачные агенты (OpenAI, Anthropic) | Нет | Очень быстрая | Высокая | Средняя |
| OpenClaw с Browser Sandbox | Частичная | Средняя | Средняя | Очень высокая |
PageAgent занимает интересную нишу: он проще, чем LocalAgent, но приватнее облачных решений. Он не пытается быть универсальным солдатом - вместо этого делает одну вещь (браузерную автоматизацию) хорошо и без лишних сложностей.
Кому стоит посмотреть на PageAgent?
Не всем. Вот три типа людей, для которых этот инструмент имеет смысл:
- Разработчики, которые ненавидят облачные API. Вы знаете, о чём я. Те, у кого аллергия на ежемесячные счета и условия использования, которые позволяют компаниям делать что угодно с вашими данными.
- Команды с требованиями к приватности. Медицина, финансы, юридические услуги - там, где нельзя отправлять данные третьим сторонам даже через API.
- Энтузиасты локального ИИ. Те, у кого уже стоит Ollama с парой моделей, и они хотят попробовать что-то практическое, кроме чатов.
Если же вам нужно что-то более мощное, с доступом к файловой системе и другим инструментам, посмотрите на архитектуру локальных агентов. Но будьте готовы к сложностям.
Подводные камни (потому что их всегда есть)
Идеальных инструментов не бывает. Вот с чем вы столкнётесь:
1. CAPTCHA и сложные системы защиты. PageAgent не обходит защиту от ботов. Он просто автоматизирует браузер. Если сайт использует Cloudflare Turnstile или аналогичные системы - забудьте.
2. Динамический контент на JavaScript. Хотя PageAgent работает с SPA лучше, чем агенты на компьютерном зрении, ему всё равно нужен полностью загруженный DOM. Если контент подгружается по мере скролла или по таймеру - придётся добавлять задержки.
3. Требования к модели. Не каждая локальная LLM справится с анализом DOM. Нужны модели, которые понимают структурированный текст. На февраль 2026 лучшие результаты показывают Qwen2.5-Coder, DeepSeek-Coder и CodeLlama 34B.
Что дальше? Прогноз на 2026
PageAgent - это не конечный продукт, а начало тренда. К середине 2026 года я ожидаю появления десятков подобных инструментов, каждый со своей специализацией. DOM как текст окажется тем самым компромиссом, который устроит большинство: достаточно точный, достаточно быстрый, полностью приватный.
Уже сейчас видно движение в эту сторону. Новые open-source агенты всё чаще используют гибридные подходы, сочетая текстовый анализ с минимальным использованием компьютерного зрения только для сложных случаев.
Мой совет? Поставьте PageAgent сегодня. Не для production-использования, а чтобы понять, куда движется индустрия. Через полгода, когда все начнут переходить на подобные инструменты, вы уже будете знать, как они работают изнутри.
И да, проверьте, чтобы у вас было хотя бы 8 ГБ свободной оперативной памяти для моделей. Хотя с появлением Qwen2.5-1.5B этого может быть достаточно для простых задач.