Агент, который помещается в твит. Серьёзно
Представьте автономный ИИ, который не требует гигабайтов памяти, не теряет контекст через час работы и при этом справляется со сложными цепочками задач. Звучит как фантастика? На 02.03.2026 это реальность. Шестифазный агент на 200 килобайт — не опечатка, именно килобайт — доказывает, что размер не главное.
Пока большинство разработчиков гонятся за параметрами 397B-моделей, этот агент делает полезную работу на скромном Qwen3.5-35B-A3B. И делает её стабильнее многих «монстров».
Шесть фаз вместо хаоса: как устроен цикл
Обычные агенты напоминают пьяного голубя: летят туда-сюда без чёткого плана. Шестифазная архитектура — это военная операция. Каждый цикл строго структурирован.
- Восприятие: Агент читает текущее состояние среды и свою git-память. Не весь контекст, а только релевантные диффы.
- Рефлексия: Анализ прошлых действий. Что сработало? Что привело к ошибке? Здесь включается кратковременная память.
- Планирование: Разбиение большой задачи на атомарные шаги. Не больше трёх шагов вперёд — чтобы не улетать в фантазии.
- Действие: Выполнение одного шага. Запрос к LLM через llama-server, вызов инструмента или изменение кода.
- Оценка: Мгновенный анализ результата. Успех, неудача или нужно больше данных?
- Консолидация: Самое важное. Результат фиксируется в git-репозитории. Каждое изменение — отдельный коммит с понятным сообщением.
Цикл повторяется. Git выступает как долговременная память. Хотите откатить агента на три часа назад? Просто сделайте git reset. Потеряли контекст из-за сбоя? git log покажет всю историю мыслей.
Почему именно Qwen3.5-35B-A3B и llama-server?
Здесь нет места для экспериментов с сырыми моделями. Qwen3.5-35B-A3B — проверенный вариант, который отлично работает в multi-agent задачах. Он достаточно умен для сложных рассуждений и достаточно компактен для локального запуска. Да, на 2026 год есть и Qwen4, и какие-то экзотические 100B-модели, но они не дают пропорционального прироста качества для таких агентов.
Llama-server — не прихоть, а необходимость. Он предоставляет стабильный API, совместимый с OpenAI, что позволяет агенту общаться с моделью как с сервисом. Это критично для шестифазного цикла, где задержки должны быть предсказуемыми. Настраивая bf16 KV cache в llama.cpp, вы избегаете деградации качества на длинных сессиях.
| Компонент | Роль | Альтернатива (хуже) |
|---|---|---|
| Qwen3.5-35B-A3B | Мозг агента, обработка естественного языка | Более тяжёлые модели (медленнее) или более лёгкие (глупее) |
| Git-репозиторий | Долговременная память, история действий | Векторные базы данных (сложнее, требуют обслуживания) |
| Llama-server | Интерфейс между агентом и моделью | Прямые вызовы библиотек (менее стабильно) |
| Шестифазный цикл | Когнитивная архитектура, управление потоком | Одношаговые или реактивные агенты (склонны к хаосу) |
Кому этот агент нужен? (Спойлер: не всем)
Если вы гоняете 397B-монстров в облаке за $200 в час — этот инструмент не для вас. Он создан для прагматиков.
- Разработчики на ограниченном железе. Mac M1 с 16 ГБ ОЗУ? Агент работает. Даже на CPU, как в этом руководстве.
- Те, кто ненавидит потерю контекста. Git-память переживает перезагрузки системы, обрывы связи и кривые обновления.
- Любители тотального контроля. Каждая фаза логируется, каждый коммит — это точка остановки. Вы всегда знаете, что делает агент.
А вот если вам нужен агент для одноразовых задач «напиши мне код функции» — берите простой ChatGPT. Этот инструмент для многочасовых миссий: рефакторинг целого репозитория, длинные исследования, автоматизация рутинных рабочих процессов.
Как он выглядит в бою: два реальных сценария
Сценарий первый: рефакторинг устаревшего модуля на Python. Агент не просто генерирует код. Он анализирует историю изменений (git log), находит похожие паттерны в памяти (git grep по своему репозиторию), предлагает план, выполняет его по шагам и после каждого шага фиксирует результат. Если что-то ломается — откатывается на последний рабочий коммит и пробует другой подход.
Сценарий второй: сбор данных из интернета. Здесь он работает как on-device браузерный агент. Фаза восприятия — чтение HTML. Планирование — навигация по сайту. Действие — клик или скролл. И всё это сохраняется в git как последовательность снимков состояния. Через неделю вы можете понять, как агент пришёл к тому или иному выводу.
Git-память — это не только история. Это ещё и семантический поиск. Агент может задавать вопросы к своей прошлой деятельности: «Как я решал похожую проблему с API в прошлый раз?» И найти ответ в сообщениях коммитов.
Что делать, если агент «глупеет»? (Он не глупеет, это вы что-то настроили не так)
Частая жалоба: после нескольких циклов качество решений падает. В 90% случаев проблема не в архитектуре, а в деградации KV cache или в переполнении контекста ненужной историей. Шестифазный цикл решает это жёсткой дисциплиной: в фазу восприятия загружается только релевантная история. Не весь git log, а только диффы, связанные с текущей задачей.
Если проблемы остаются — смотрите на настройки квантования. Запуск 35B-модели на 16 ГБ VRAM возможен, но требует жертв. Иногда лучше использовать более агрессивное квантование, чем терять в стабильности.
Будущее: агенты станут меньше, а не больше
Тренд 2023-2024 годов — увеличение параметров. 2025-2026 — оптимизация архитектуры. Шестифазный агент весом в 200 КБ — предвестник этого сдвига. Зачем тащить 100 миллиардов параметров, если задача решается 35 миллиардами и правильной организацией работы?
Следующий шаг — распределённые агенты с общей git-памятью. Представьте несколько таких экземпляров, работающих над одним репозиторием, как команда разработчиков. Каждый со своей специализацией, но с полным доступом к истории мысли друг друга. Это уже не фантастика, а логичное развитие идеи.
Совет напоследок: не гонитесь за самой новой моделью. Возьмите Qwen3.5-35B-A3B, настройте llama-server по этому гайду, реализуйте шестифазный цикл. И посмотрите, на что способен компактный, но дисциплинированный интеллект. Это меняет представление о том, что такое автономный ИИ.