Браузер, который думает сам. Но локально

В феврале 2026 года все говорят про автономных агентов, но большинство из них требуют либо облачных API, либо моделей компьютерного зрения, которые съедают половину оперативной памяти. PageAgent предлагает другой путь - глупый, но гениальный. Вместо скриншотов и сложной семантической разметки он просто берёт DOM и превращает его в текст.

Звучит примитивно? Может быть. Но пока другие агенты тратят тысячи токенов на описание интерфейса, PageAgent читает HTML как книгу. И делает это полностью локально, через Ollama. Никаких счетов от OpenAI, никаких отправок данных в облако. Простая MIT лицензия и код на GitHub.

На 28.02.2026 PageAgent активно развивается. Последние коммиты в репозитории показывают добавление поддержки OpenAI-совместимых эндпоинтов и улучшенную обработку динамического контента.

Как это вообще работает? (Спойлер: проще, чем кажется)

Вот алгоритм, который заставит плакать инженеров из крупных компаний:

Загружаем страницу в headless-браузере
Достаём чистый DOM (убираем стили, скрипты, всё лишнее)
Превращаем структуру в читаемый текст с сохранением семантики
Кормим этот текст локальной LLM через Ollama
Модель анализирует содержимое и решает, что делать дальше
Агент выполняет действие (клик, ввод текста, навигация)
Повторяем до выполнения задачи

Никаких нейросетей для зрения, никаких сложных эмбеддингов. Просто текст и модель, которая его понимает. И знаете что? Это работает. Особенно с современными LLM вроде Qwen2.5-32B или DeepSeek-V3, которые на конец февраля 2026 года прекрасно справляются с пониманием структурированного текста.

💡

Трюк в том, что современные LLM (особенно модели размером от 7B параметров) научились отлично понимать HTML-подобные структуры. PageAgent просто использует эту способность, не пытаясь превратить браузер в какое-то магическое устройство.

Установка: пять минут и вы в деле

Если у вас уже стоит Ollama (а на февраль 2026 это стандарт де-факто для локальных моделей), то процесс выглядит так:

1 Клонируем и настраиваем

git clone https://github.com/yourusername/pageagent
cd pageagent
npm install  # или yarn, или pnpm - на ваш выбор

2 Запускаем Ollama с нужной моделью

# На февраль 2026 Qwen2.5-Coder-7B показывает лучшие результаты
# для задач браузерной автоматизации
ollama run qwen2.5-coder:7b

# Или если предпочитаете что-то более универсальное
ollama run deepseek-coder-v2:16b-lite

3 Конфигурируем PageAgent

// config.json
{
  "ollamaEndpoint": "http://localhost:11434",
  "model": "qwen2.5-coder:7b",
  "maxTokens": 4096,
  "temperature": 0.1,  // Низкая температура для детерминированных действий
  "timeout": 30000
}

Готово. Теперь у вас есть браузерный агент, который не спрашивает кредитную карту и не отправляет ваши данные на серверы в Кремниевой долине.

А что он умеет делать на практике?

Вот сценарий, который я тестировал вчера. Задача: зайти на GitHub Trends, найти три самых популярных репозитория за неделю, вывести их названия и количество звёзд.

const PageAgent = require('pageagent');

const agent = new PageAgent({
  model: 'qwen2.5-coder:7b',
  headless: true
});

async function analyzeGitHubTrends() {
  await agent.navigate('https://github.com/trending');
  
  const result = await agent.executeTask(
    'Найди три самых популярных репозитория на этой странице. ' +
    'Для каждого выведи название и количество звёзд.'
  );
  
  console.log('Результат:', result);
  await agent.close();
}

analyzeGitHubTrends().catch(console.error);

Агент открывает страницу, анализирует DOM, находит таблицу с трендами, извлекает данные и возвращает структурированный результат. Всё локально, всё приватно. Никаких запросов к GitHub API, никаких ограничений на количество запросов.

Важный момент: PageAgent использует чистый DOM, а не скриншоты. Это значит, что он работает с динамическим контентом и SPA-приложениями лучше, чем агенты на базе компьютерного зрения. Но ему нужна правильная семантическая разметка - если сайт построен на дивах с кучей инлайн-стилей, могут быть проблемы.

PageAgent vs. Остальной мир: кто кого?

Давайте сравним с тем, что есть на рынке в феврале 2026:

Инструмент	Локальность	Скорость	Точность	Сложность
PageAgent	Полная	Быстрая	Высокая на структурированных сайтах	Низкая
LocalAgent v0.1.1	Полная	Медленная	Очень высокая	Высокая
Облачные агенты (OpenAI, Anthropic)	Нет	Очень быстрая	Высокая	Средняя
OpenClaw с Browser Sandbox	Частичная	Средняя	Средняя	Очень высокая

PageAgent занимает интересную нишу: он проще, чем LocalAgent, но приватнее облачных решений. Он не пытается быть универсальным солдатом - вместо этого делает одну вещь (браузерную автоматизацию) хорошо и без лишних сложностей.

Кому стоит посмотреть на PageAgent?

Не всем. Вот три типа людей, для которых этот инструмент имеет смысл:

Разработчики, которые ненавидят облачные API. Вы знаете, о чём я. Те, у кого аллергия на ежемесячные счета и условия использования, которые позволяют компаниям делать что угодно с вашими данными.
Команды с требованиями к приватности. Медицина, финансы, юридические услуги - там, где нельзя отправлять данные третьим сторонам даже через API.
Энтузиасты локального ИИ. Те, у кого уже стоит Ollama с парой моделей, и они хотят попробовать что-то практическое, кроме чатов.

Если же вам нужно что-то более мощное, с доступом к файловой системе и другим инструментам, посмотрите на архитектуру локальных агентов. Но будьте готовы к сложностям.

Подводные камни (потому что их всегда есть)

Идеальных инструментов не бывает. Вот с чем вы столкнётесь:

1. CAPTCHA и сложные системы защиты. PageAgent не обходит защиту от ботов. Он просто автоматизирует браузер. Если сайт использует Cloudflare Turnstile или аналогичные системы - забудьте.

2. Динамический контент на JavaScript. Хотя PageAgent работает с SPA лучше, чем агенты на компьютерном зрении, ему всё равно нужен полностью загруженный DOM. Если контент подгружается по мере скролла или по таймеру - придётся добавлять задержки.

3. Требования к модели. Не каждая локальная LLM справится с анализом DOM. Нужны модели, которые понимают структурированный текст. На февраль 2026 лучшие результаты показывают Qwen2.5-Coder, DeepSeek-Coder и CodeLlama 34B.

Что дальше? Прогноз на 2026

PageAgent - это не конечный продукт, а начало тренда. К середине 2026 года я ожидаю появления десятков подобных инструментов, каждый со своей специализацией. DOM как текст окажется тем самым компромиссом, который устроит большинство: достаточно точный, достаточно быстрый, полностью приватный.

Уже сейчас видно движение в эту сторону. Новые open-source агенты всё чаще используют гибридные подходы, сочетая текстовый анализ с минимальным использованием компьютерного зрения только для сложных случаев.

Мой совет? Поставьте PageAgent сегодня. Не для production-использования, а чтобы понять, куда движется индустрия. Через полгода, когда все начнут переходить на подобные инструменты, вы уже будете знать, как они работают изнутри.

И да, проверьте, чтобы у вас было хотя бы 8 ГБ свободной оперативной памяти для моделей. Хотя с появлением Qwen2.5-1.5B этого может быть достаточно для простых задач.

Подписаться на канал

PageAgent: браузерный AI-агент для локального запуска с Ollama — обзор и туториал