Какое железо нужно для запуска AgentCPM-Explore?

Минимум 8 ГБ оперативной памяти, рекомендуется 16 ГБ. Модель работает на CPU, но для лучшей производительности нужна видеокарта с 6+ ГБ VRAM.

Чем AgentCPM-Explore лучше других локальных моделей?

Это специализированный агент, обученный на задачах взаимодействия (работа с браузером, последовательные действия). Показывает SOTA-результаты на агентных бенчмарках, хотя имеет всего 4B параметров.

Нужно ли знать китайский для работы с фреймворками?

Основная документация на китайском, но есть английская версия. Для сложных моментов можно использовать переводчики. Код хорошо документирован и понятен.

AgentCPM-Explore: локальный SOTA-агент 4B параметров – установка и фреймворки

Что это за зверь и почему все внезапно о нем говорят

Представьте себе: модель всего на 4 миллиарда параметров, которая обходит на бенчмарках монстров в 5-10 раз больше. Звучит как шутка, но нет – это AgentCPM-Explore. Китайские исследователи из Tsinghua и Zhipu AI выпустили не просто очередную мелкую модельку, а полноценного агента с открытым исходным кодом, включая три фреймворка для его обучения и оценки.

SOTA на восьми бенчмарках – включая GAIA, BrowserGym, AgentBench. 100+ раундов взаимодействия без деградации. И все это работает на обычном ноутбуке с 16 ГБ оперативки.

Три фреймворка в одном флаконе: зачем они нужны

Обычно вы скачиваете модель – и все. Здесь вам дают целый арсенал:

AgentRL – фреймворк для обучения с подкреплением. Тот самый, на котором тренировали AgentCPM-Explore. Не просто код, а полная воспроизводимая среда.
AgentDock – платформа для оценки агентов. Запускаете своего агента, смотрите метрики, сравниваете с другими. Как MCP Chat Studio, но для бенчмарков.
AgentToLeaP – инструмент для анализа поведения агентов. Почему он принял такое решение? Где ошибся? Этот фреймворк показывает «мыслительный процесс».

💡

В отличие от большинства «открытых» моделей, где вы получаете только веса, здесь открыто все – от данных тренировки до алгоритмов RL. Можно воспроизвести результаты с нуля или дообучить под свои задачи.

Чем AgentCPM-Explore отличается от других локальных агентов

Вы пробовали запускать GPT-OSS 20B в LM Studio? Или Kilo Code на трех 3090? Это совсем другая история.

Модель	Размер	SOTA бенчмарки	Фреймворки в комплекте
AgentCPM-Explore	4B	8 бенчмарков	AgentRL, AgentDock, AgentToLeaP
Gemma 3 1B	1B	Нет агентных	Только модель
GPT-OSS 20B	20B	Частично	Требует LM Studio

Главное преимущество – специализация. Это не языковая модель общего назначения, которую пытаются заставить работать как агента. AgentCPM-Explore с рождения обучался на задачах взаимодействия: работа с браузером, выполнение инструкций, последовательные действия.

Что он умеет на практике: от браузера до GAIA

Забудьте про простые чат-боты. Этот агент справляется с BrowserGym – симулированной средой веб-браузера, где нужно:

Найти рейс с определенными параметрами
Забронировать столик в ресторане через сайт
Сравнить цены на товары в интернет-магазине

GAIA benchmark – еще интереснее. Это задачи, требующие реальных знаний и рассуждений: «Найди самую высокую гору в стране, где родился автор романа «1984»». AgentCPM-Explore показывает здесь результаты лучше, чем многие 70B-модели. (Хотя, честно говоря, иногда он все равно ошибается – но реже других).

Важный нюанс: для работы с реальными сайтами (не симуляцией) вам понадобится интеграция вроде синхронизации cookies Chrome или rmcp-presence. Фреймворки дают основу, но подключать инструменты – ваша задача.

Кому это реально нужно (а кому нет)

Берите AgentCPM-Explore, если:

Хотите исследовать RL-обучение агентов, но не готовы собирать инфраструктуру с нуля
Нужен локальный агент для автоматизации рутинных задач в браузере
Планируете дообучать модель под специфические сценарии (например, работу с вашим внутренним ПО)
Устали платить за Claude API или аналоги, как в статье про GLM-4.7

Не тратьте время, если:

Нужен просто чат-бот для общения – возьмите что-то вроде Gemma 3 1B
Требуется обработка больших документов или сложный анализ текста
У вас нет хотя бы 8 ГБ свободной оперативки (хотя в теории должно работать и на 6)

Как начать использовать прямо сейчас

Самый быстрый способ – через Transformers:

pip install transformers torch
git clone https://github.com/OpenBMB/AgentCPM-Explore
cd AgentCPM-Explore

Загрузка модели (предупреждаю – около 8 ГБ):

from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained(
    "OpenBMB/AgentCPM-Explore-4B",
    torch_dtype=torch.float16,
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained("OpenBMB/AgentCPM-Explore-4B")

Для работы с фреймворками установите дополнительные зависимости:

cd AgentRL
pip install -e .
cd ../AgentDock
pip install -e .
cd ../AgentToLeaP
pip install -e .

💡

Если хотите максимальную производительность на слабом железе – конвертируйте в GGUF через llama.cpp. Но учтите, что некоторые возможности агента могут потеряться при квантовании. Не как с Gemma 3 1B Q4_0, где квантование почти без потерь.

Проблемы, с которыми столкнетесь (и как их решить)

1. Китайская документация. Основной репозиторий на китайском. Английская версия есть, но местами перевод корявый. Используйте DeepL или ChatGPT для перевода сложных моментов.

2. Зависимости конфликтуют. AgentRL требует определенных версий torch и других библиотек. Рекомендую использовать виртуальные окружения или Docker. Или просто ставить все в clean-окружение.

3. Для BrowserGym нужна полная симуляция. Это не просто «открыть сайт». Нужно поднимать среду с эмулированным браузером. Готовьтесь потратить час на настройку.

Что дальше: куда движется экосистема локальных агентов

AgentCPM-Explore – не единичный случай. Мы видим тренд: маленькие специализированные модели, которые бьют больших универсалов в конкретных задачах. Скоро появятся аналоги для:

Автоматического исправления багов в коде (как FrogBoss от Microsoft, но локально)
Глубокого исследования с проверкой фактов (вроде Deep Research Agent)
Координации нескольких агентов (посмотрите Beads – это следующий уровень)

Главный вопрос безопасности: локальные агенты уязвимы. AgentCPM-Explore не исключение. Если дадите ему доступ к важным системам – проверяйте каждое действие.

Мой прогноз: через полгода у нас будет десяток таких 4B-8B специализированных агентов, каждый для своей области. И выбирать будем не по размеру модели, а по качеству фреймворков вокруг нее. AgentRL, AgentDock и AgentToLeaP – это только начало.

Попробуйте запустить AgentCPM-Explore сегодня. Даже если не будете использовать в продакшене – поймете, куда движется индустрия. А завтра, когда все будут говорить о следующем прорыве, вы уже будете знать, как это работает изнутри.

AgentCPM-Explore: 4B параметра на вашем ноутбуке. Как SOTA-агент бьет рекорды без облаков