DeepAgents CLI: установка, тестирование Terminal Bench 2.0, сравнение с Claude Code | AiManual
AiManual Logo Ai / Manual.
20 Янв 2026 Инструмент

DeepAgents CLI: кодирующий агент, который работает в терминале. Тестируем на Terminal Bench 2.0 и сравниваем с Claude Code

Обзор DeepAgents CLI — автономного кодирующего агента для терминала. Установка через uvx, тест на Terminal Bench 2.0 (42.5%), сравнение производительности с Cla

Еще один кодирующий агент? Да, но этот работает в терминале

Сначала был Cursor. Потом Claude Code. Потом еще десяток IDE с AI-ассистентами. Все они хотят заменить ваш редактор кода. DeepAgents CLI поступает иначе — он не трогает ваш VS Code или Neovim. Он просто живет в терминале и выполняет задачи, которые вы ему даете.

Представьте: вам нужно написать скрипт для обработки данных, но лень писать его с нуля. Или добавить тесты в проект. Или пофиксить баг в чужом коде. Вместо того чтобы открывать тяжелую IDE или копировать код в ChatGPT, вы просто пишете в терминале deepagents run "напиши скрипт для парсинга CSV".

💡
DeepAgents CLI — это автономный агент, который работает в изолированном окружении. Он не меняет ваши файлы напрямую, а создает копию проекта в песочнице. Если что-то пойдет не так, ваш основной код останется нетронутым.

Установка за 30 секунд. Если, конечно, у вас уже есть uvx

Разработчики выбрали самый быстрый путь распространения — через uvx, современный аналог pipx. Если у вас его нет, придется поставить:

curl -LsSf https://astral.sh/uv/install.sh | sh

А дальше все просто:

uvx install deepagents-cli

Готово. Никаких зависимостей, виртуальных окружений, конфликтов с Python-пакетами. Uvx упаковывает инструмент в изолированный контейнер и ставит его как глобальную утилиту.

Если вы уже используете Claude Code на локальных моделях, будьте готовы к конфликту зависимостей. Лучше ставить DeepAgents CLI в отдельное окружение.

Terminal Bench 2.0: 42.5% — это много или мало?

Разработчики сразу же заявили о результатах на Terminal Bench 2.0 — открытом бенчмарке для оценки кодирующих агентов. DeepAgents CLI показывает 42.5% успешных решений.

Цифра в вакууме ничего не значит. Давайте сравним:

Инструмент Terminal Bench 2.0 Особенность
DeepAgents CLI 42.5% Работает в терминале, изолированное окружение
Claude Code (последняя версия на 20.01.2026) ~68-72% Полноценная IDE с интеграцией
Cursor ~65-70% Редактор на базе VS Code

Разрыв в 25-30 процентных пунктов выглядит внушительно. Но Terminal Bench 2.0 — специфичный тест. Он проверяет способность агента работать в терминале: выполнять команды, читать вывод, исправлять ошибки.

DeepAgents создавался именно для этого. Claude Code и Cursor — универсальные инструменты, которые пытаются делать все. DeepAgents фокусируется на одной задаче: быть вашими руками в терминале.

Как работает этот агент? Не как Claude Code

Если вы привыкли к интерфейсу Claude Code, DeepAgents CLI покажется примитивным. Нет интерактивного чата. Нет подсветки синтаксиса. Нет автодополнения.

Зато есть четкий workflow:

  1. Вы даете задачу в текстовом виде
  2. Агент анализирует контекст (ваш текущий каталог, файлы)
  3. Создает план выполнения
  4. Выполняет команды в изолированном окружении
  5. Показывает результат и спрашивает, устраивает ли он вас

Пример из реальной жизни. У вас есть проект на Python с криво написанными тестами:

deepagents run "Перепиши тесты в проекте, чтобы они использовали pytest.fixture вместо setUp"

Агент просканирует ваш проект, найдет все файлы с тестами, предложит изменения. Вы соглашаетесь — он применяет их в песочнице. Вы проверяете результат — если все ок, копируете изменения в основной проект.

💡
Изоляция — главное преимущество. Помните, как в BigCodeArena код AI-моделей запускают в песочнице? Здесь тот же принцип. Агент может сломать что угодно в своей копии, но ваш код останется целым.

Сравниваем с альтернативами: когда DeepAgents выигрывает, а когда проигрывает

1 Против Claude Code: скорость против интеграции

Claude Code — это монстр. Он знает контекст вашего проекта, понимает зависимости, интегрируется с git. Но он медленный. Особенно если вы используете сложные workflow.

DeepAgents CLI быстрее в разы. Запустили команду — получили результат. Никаких тяжелых IDE, никакой индексации проекта.

2 Против локальных агентов: простота против контроля

Если вы экспериментируете с локальными моделями типа AgentCPM-Explore, вы знаете, каково это — настраивать окружение, бороться с зависимостями, оптимизировать память.

DeepAgents CLI — готовое решение. Установил и работаешь. Но за простоту платите отсутствием контроля. Не можете поменять модель, не можете настроить промпты, не можете добавить свои инструменты.

3 Против Chief CLI: задачи против процессов

Chief CLI — это про автоматизацию рабочих процессов. Он умеет работать с git worktrees, создавать ветки, управлять несколькими задачами параллельно.

DeepAgents CLI — про выполнение конкретных задач. Нужно пофиксить баг? Написать скрипт? Добавить фичу? Он сделает это здесь и сейчас, но не будет управлять вашим git-репозиторием.

Кому подойдет DeepAgents CLI? А кому лучше поискать альтернативу

Этот инструмент — не для всех. Он решает конкретные проблемы конкретных людей.

Возьмите DeepAgents CLI, если:

  • Вы живете в терминале и ненавидите переключаться между окнами
  • Вам нужно быстро выполнять рутинные задачи: рефакторинг, написание тестов, фиксы багов
  • Вы цените изоляцию и не хотите, чтобы AI-агент ломал ваш рабочий код
  • У вас уже есть любимый редактор, и вы не хотите его менять

Посмотрите на альтернативы, если:

  • Вам нужна глубокая интеграция с проектом — тогда Gas Town или Claude Code
  • Вы хотите полный контроль над моделью и промптами — тогда локальные агенты
  • Вам нужно автоматизировать сложные workflow — тогда Chief CLI
  • Вы занимаетесь код-ревью — тогда специализированные агенты для ревью

Что будет дальше? Мои прогнозы на 2026 год

DeepAgents CLI — симптом большой тенденции. AI-инструменты становятся специализированными. Вместо одного монстра, который делает все, появляются десятки узкоспециализированных агентов.

К концу 2026 года, я предсказываю, мы увидим:

  1. Агенты для конкретных языков (Python-агент, Rust-агент, TypeScript-агент)
  2. Агенты для конкретных задач (тестирование, как в автономных QA-агентах, документация, деплой)
  3. Стандартизацию интерфейсов — сможете переключаться между агентами как между командами в терминале

DeepAgents CLI — один из первых. Он сыроват, ограничен, но показывает направление. Не удивлюсь, если через год его купят и интегрируют в какую-нибудь крупную платформу.

А пока — попробуйте. Установите через uvx, дайте простую задачу вроде "напиши скрипт для резервного копирования". Посмотрите, как он работает. И решите сами: это будущее разработки или еще одна игрушка в коллекции AI-инструментов.

Помните: 42.5% на Terminal Bench 2.0 — это не проценты успешных задач в реальной жизни. В вашем проекте со специфичной архитектурой и legacy-кодом результат может быть и 20%, и 80%. Тестируйте на своих задачах, а не на синтетических бенчмарках.