Persistent REPL для LLM: экономия контекста и долгие сессии агента | AiManual
AiManual Logo Ai / Manual.
04 Мар 2026 Инструмент

Persistent REPL для локальных LLM: open-source скилл для экономии контекста и долгих сессий агента

Open-source скилл с persistent REPL через tmux для локальных LLM. Решает проблему деградации качества на длинном контексте, экономя ресурсы.

Когда контекст заканчивается: как локальные LLM сходят с ума

Ваш агент на Llama 3.3 70B только что начал интересный разговор о рефакторинге ядра Linux. Прошло два часа, 15 тысяч токенов, и он внезапно предлагает переписать всё на Visual Basic. Знакомо? Это не глупость модели. Это катастрофа контекстного окна.

Локальные модели, даже свежие DeepSeek-V3 671B или Qwen 2.5 128B (актуальные на март 2026), имеют жёсткий лимит. Обычно 128K, если повезёт. Ваша сессия агента легко съедает миллион токенов за день. Что остаётся? Либо платить за облачные API, либо смириться с тем, что агент превращается в «пьяного стажёра» после первых 20 сообщений.

Наивное решение — просто сбрасывать контекст и начинать заново. Результат? Агент забывает, что только что сделал, и предлагает то, что уже отвергнуто. Классический case из статьи про долгоживущих LLM.

Persistent REPL: спасательный круг, который никто не ждал

Идея из научной работы RLM (Recursive Language Model) 2025 года проста до гениальности. Не пихай весь контекст в модель. Держи агента в отдельном, долгоживущем REPL-окружении. Пусть там живёт его состояние, история, промежуточные результаты. А модель получает только сводку — контракт того, что нужно сделать прямо сейчас.

💡
Это как если бы ваш ассистент не пытался запомнить всю переписку за год, а просто смотрел в свой блокнот (REPL), где записаны итоги прошлых встреч и текущие задачи. Модель работает только с одной страницей блокнота за раз.

Open-source скилл, о котором речь, — это грубая, рабочая реализация той самой теории. Под капотом — tmux сессия, которая висит днями. В ней крутится Python REPL (или любой другой интерпретатор). Ваш агент, будь то LocalAgent или кастомный скрипт на MRS-Core, не говорит с моделью напрямую. Он отправляет в REPL команды «распечатай переменную X», «выполни функцию Y», «сохрани результат в Z». Модель видит лишь короткий print contract — что нужно сейчас напечатать. Всё остальное лежит в памяти REPL, которая не считается в контекст.

1 Что он умеет на практике?

  • Держать состояние сессии неделями без потери контекста. Загрузили датасет на 10 ГБ? Он лежит в переменной REPL, модель о нём «не знает», но может запросить выборку.
  • Экономить 90-99% контекстных токенов. Вместо тысячи строк истории диалога — три строчки: «текущая задача, последний результат, следующее действие».
  • Работать с любым локальным LLM. Неважно, это 7B-модель на ноутбуке или 671B на ферме серверов. Проблема контекста едина для всех.
  • Интегрироваться в существующие агентские фреймворки через простой API. Отправляешь JSON, получаешь результат из REPL.

«А как же RLM?» Сравниваем с альтернативами

Когда заходит речь об обработке длинных контекстов, все сразу вспоминают рекурсивные языковые модели (RLM). Технически, Persistent REPL — их упрощённый, прагматичный cousin. RLM пытаются научить модель самой сжимать историю. Наш скилл выносит эту задачу вовне, в доверенное окружение.

Метод Сложность Экономия контекста Нужна дообучка модели?
Наивный длинный контекст Низкая 0% Нет
Fast-RLM (2025) Высокая до 95% Да, специальная архитектура
Persistent REPL скилл Средняя до 99% Нет, работает с любой LLM

RLM — это академично и мощно. Но попробуйте найти готовую, дообученную RLM-версию для свежего Qwen 2.5. Правильно, её нет. А этот скилл работает сегодня, с любой моделью из Ollama, LM Studio или vLLM. Он не требует тонкой настройки, как агенты на MRS-Core. Просто запускаешь tmux и забываешь.

Ключевое отличие от «классических» агентских циклов: здесь модель не управляет состоянием напрямую. Она выдаёт команды для REPL, а тот возвращает результат. Модель — стратег, REPL — оперативная память.

Кому это впишется в стек? (Спойлер: почти всем)

Если вы делаете что-то из этого списка, Persistent REPL сэкономит вам нервы и терабайты трафика:

  • Разработчики кодовых агентов. Тот же PocketCoder, но без вечных «я забыл, что мы уже реализовали эту функцию». REPL держит весь проект в памяти, модель видит только текущий файл.
  • Исследователи, работающие с длинными документами. Анализ научных статей, юридических договоров. Загрузил документ в REPL — модель может часами ходить по нему, не теряя нити.
  • Энтузиасты локальных AI. Которые устали от того, что их Open Coworker сбрасывает контекст после каждого чайного перерыва.
  • Те, кто считает токены. Для кого разница между 128K и 1M токенах — это вопрос бюджета на новый GPU или аренду облака. REPL снижает нагрузку в разы, позволяя крутить даже большие модели на умеренном железе.

А вот кому не подойдёт: если ваша задача — одноразовый запрос-ответ без истории. Или если вы фанат чистых RLM-архитектур и верите, что модель должна сама всё сжимать. (Удачи с обучением на датасетах 2026 года).

Что дальше? Прогноз от 2026 года

Persistent REPL — это не финальное решение. Это костыль, но костыль, который ходит быстрее здоровых ног. В ближайшие год-два ждём появления нативных RLM-версий для популярных open-source моделей. Или, что более вероятно, интеграции подобного REPL-подхода прямо в рантаймы вроде vLLM 3.0 или Ollama 2.0.

Пока же этот open-source скилл — самый простой способ заставить вашего локального агента не страдать склерозом. Он не требует глубоких знаний из статьи для junior-разработчиков. Просто поставь и работай.

И да, ваш RTX 5090 наконец-то перестанет плакать, пытаясь затолкать всю историю диалога в контекст очередной 120B-модели. REPL возьмёт это на себя.

Подписаться на канал