Шестифазный автономный агент 200 КБ для Qwen3.5: архитектура | AiManual
AiManual Logo Ai / Manual.
02 Мар 2026 Инструмент

Шестифазный автономный агент на 200 КБ для Qwen3.5: архитектура и настройка с git-памятью

Компактный автономный агент с шестифазным циклом и git-памятью для Qwen3.5. Настройка, сравнение, примеры использования.

Агент, который помещается в твит. Серьёзно

Представьте автономный ИИ, который не требует гигабайтов памяти, не теряет контекст через час работы и при этом справляется со сложными цепочками задач. Звучит как фантастика? На 02.03.2026 это реальность. Шестифазный агент на 200 килобайт — не опечатка, именно килобайт — доказывает, что размер не главное.

Пока большинство разработчиков гонятся за параметрами 397B-моделей, этот агент делает полезную работу на скромном Qwen3.5-35B-A3B. И делает её стабильнее многих «монстров».

Шесть фаз вместо хаоса: как устроен цикл

Обычные агенты напоминают пьяного голубя: летят туда-сюда без чёткого плана. Шестифазная архитектура — это военная операция. Каждый цикл строго структурирован.

  • Восприятие: Агент читает текущее состояние среды и свою git-память. Не весь контекст, а только релевантные диффы.
  • Рефлексия: Анализ прошлых действий. Что сработало? Что привело к ошибке? Здесь включается кратковременная память.
  • Планирование: Разбиение большой задачи на атомарные шаги. Не больше трёх шагов вперёд — чтобы не улетать в фантазии.
  • Действие: Выполнение одного шага. Запрос к LLM через llama-server, вызов инструмента или изменение кода.
  • Оценка: Мгновенный анализ результата. Успех, неудача или нужно больше данных?
  • Консолидация: Самое важное. Результат фиксируется в git-репозитории. Каждое изменение — отдельный коммит с понятным сообщением.

Цикл повторяется. Git выступает как долговременная память. Хотите откатить агента на три часа назад? Просто сделайте git reset. Потеряли контекст из-за сбоя? git log покажет всю историю мыслей.

💡
Эта архитектура родилась из боли. Разработчики устали от агентов, которые «забывали» ключевые решения через 100 токенов. Git решает проблему персистентности элегантно и бесплатно.

Почему именно Qwen3.5-35B-A3B и llama-server?

Здесь нет места для экспериментов с сырыми моделями. Qwen3.5-35B-A3B — проверенный вариант, который отлично работает в multi-agent задачах. Он достаточно умен для сложных рассуждений и достаточно компактен для локального запуска. Да, на 2026 год есть и Qwen4, и какие-то экзотические 100B-модели, но они не дают пропорционального прироста качества для таких агентов.

Llama-server — не прихоть, а необходимость. Он предоставляет стабильный API, совместимый с OpenAI, что позволяет агенту общаться с моделью как с сервисом. Это критично для шестифазного цикла, где задержки должны быть предсказуемыми. Настраивая bf16 KV cache в llama.cpp, вы избегаете деградации качества на длинных сессиях.

КомпонентРольАльтернатива (хуже)
Qwen3.5-35B-A3BМозг агента, обработка естественного языкаБолее тяжёлые модели (медленнее) или более лёгкие (глупее)
Git-репозиторийДолговременная память, история действийВекторные базы данных (сложнее, требуют обслуживания)
Llama-serverИнтерфейс между агентом и модельюПрямые вызовы библиотек (менее стабильно)
Шестифазный циклКогнитивная архитектура, управление потокомОдношаговые или реактивные агенты (склонны к хаосу)

Кому этот агент нужен? (Спойлер: не всем)

Если вы гоняете 397B-монстров в облаке за $200 в час — этот инструмент не для вас. Он создан для прагматиков.

  • Разработчики на ограниченном железе. Mac M1 с 16 ГБ ОЗУ? Агент работает. Даже на CPU, как в этом руководстве.
  • Те, кто ненавидит потерю контекста. Git-память переживает перезагрузки системы, обрывы связи и кривые обновления.
  • Любители тотального контроля. Каждая фаза логируется, каждый коммит — это точка остановки. Вы всегда знаете, что делает агент.

А вот если вам нужен агент для одноразовых задач «напиши мне код функции» — берите простой ChatGPT. Этот инструмент для многочасовых миссий: рефакторинг целого репозитория, длинные исследования, автоматизация рутинных рабочих процессов.

Как он выглядит в бою: два реальных сценария

Сценарий первый: рефакторинг устаревшего модуля на Python. Агент не просто генерирует код. Он анализирует историю изменений (git log), находит похожие паттерны в памяти (git grep по своему репозиторию), предлагает план, выполняет его по шагам и после каждого шага фиксирует результат. Если что-то ломается — откатывается на последний рабочий коммит и пробует другой подход.

Сценарий второй: сбор данных из интернета. Здесь он работает как on-device браузерный агент. Фаза восприятия — чтение HTML. Планирование — навигация по сайту. Действие — клик или скролл. И всё это сохраняется в git как последовательность снимков состояния. Через неделю вы можете понять, как агент пришёл к тому или иному выводу.

Git-память — это не только история. Это ещё и семантический поиск. Агент может задавать вопросы к своей прошлой деятельности: «Как я решал похожую проблему с API в прошлый раз?» И найти ответ в сообщениях коммитов.

Что делать, если агент «глупеет»? (Он не глупеет, это вы что-то настроили не так)

Частая жалоба: после нескольких циклов качество решений падает. В 90% случаев проблема не в архитектуре, а в деградации KV cache или в переполнении контекста ненужной историей. Шестифазный цикл решает это жёсткой дисциплиной: в фазу восприятия загружается только релевантная история. Не весь git log, а только диффы, связанные с текущей задачей.

Если проблемы остаются — смотрите на настройки квантования. Запуск 35B-модели на 16 ГБ VRAM возможен, но требует жертв. Иногда лучше использовать более агрессивное квантование, чем терять в стабильности.

Будущее: агенты станут меньше, а не больше

Тренд 2023-2024 годов — увеличение параметров. 2025-2026 — оптимизация архитектуры. Шестифазный агент весом в 200 КБ — предвестник этого сдвига. Зачем тащить 100 миллиардов параметров, если задача решается 35 миллиардами и правильной организацией работы?

Следующий шаг — распределённые агенты с общей git-памятью. Представьте несколько таких экземпляров, работающих над одним репозиторием, как команда разработчиков. Каждый со своей специализацией, но с полным доступом к истории мысли друг друга. Это уже не фантастика, а логичное развитие идеи.

Совет напоследок: не гонитесь за самой новой моделью. Возьмите Qwen3.5-35B-A3B, настройте llama-server по этому гайду, реализуйте шестифазный цикл. И посмотрите, на что способен компактный, но дисциплинированный интеллект. Это меняет представление о том, что такое автономный ИИ.

Подписаться на канал