Память агента: от 8К к 1M и что между ними сломалось

Все помнят тот момент, когда ваш локальный агент на Llama или Qwen3 начинал 'глючить' на 12-м шаге сложного workflow. Он забывал первую инструкцию, путал переменные, выдавал абсурдные команды. Контекстный лимит в 8К, 32К или даже 128К токенов – это не техническая спецификация, а настоящая стенка, о которую разбиваются амбиции по созданию автономных ассистентов. Старые методы вроде RAG или оконного внимания похожи на попытку читать 'Войну и мир' через замочную скважину.

💡

К марту 2026 года проблема контекстной амнезии стала главной головной болью для разработчиков агентов. Модели вроде gpt-oss или Devstral-Small-2, о которых мы писали ранее, упирались в аппаратные и архитектурные ограничения.

Vera 1.6: Три кита, которые держат миллион токенов

Vera 1.6 – это не просто очередная 'большая модель'. Это специализированная архитектура, заточенная под одну задачу: быть стабильным, долгопамятным агентом. Ее создатели выбросили учебник по трансформерам и собрали свою конструкцию из трех ключевых блоков.

Gated Delta Networks: Внимание на изменениях

Вместо того чтобы на каждом слое заново анализировать весь гигантский контекст, GDN обучается идентифицировать дельты – что изменилось относительно предыдущего состояния скрытых представлений. Представьте, что вы смотрите длинное видео. Вам не нужно запоминать каждый кадр, достаточно фиксировать моменты, когда в кадре что-то происходит. Так и GDN фильтрует информационный шум.

Компонент	Принцип работы	Эффект для контекста
Gated Delta Networks (GDN)	Вычисляет и кодирует только изменения (дельты) между активациями слоев	Резко снижает вычислительную сложность для длинных последовательностей
Sparse Mixture-of-Experts (MoE) с 128 экспертами	Маршрутизирует токены к 2-4 наиболее релевантным 'экспертам' из общего пула	Параметрическая емкость в 70B, но активация только 12B за токен
Динамический RoPE Scaling (s=128)	Адаптивно масштабирует ротационные эмбеддинги позиций для экстремальной длины	Сохраняет позиционную чувствительность даже на 900K+ токенах

Sparse MoE: 128 умов в одном флаконе

Здесь Vera 1.6 использует проверенный, но радикально расширенный подход. 128 экспертов, каждый – мини-специалист по своей теме (код, логика, планирование, диалог). Но активируются только 2-4. Результат? Модель ведет себя как коллектив узких специалистов, а потребляет ресурсы как одна средняя. Это эволюция идей, которые мы видели в архитектуре 'коллективного разума' для Claude Code, но на новых рельсах.

RoPE scaling (s=128): Чтобы не сбиться со счета

Самая техническая, но критичная часть. Обычные модели теряют понимание порядка токенов за пределами их тренировочного контекста. Vera 1.6 использует динамическое масштабирование RoPE с коэффициентом 128. Проще говоря, она 'растягивает' свое понимание позиций, чтобы адекватно обрабатывать токен номер 800 000. Без этого любая архитектура превращается в болтуна, который забывает, что говорил минуту назад – классическая контекстная амнезия.

Важный нюанс: Vera 1.6 не магическим образом 'понимает' все 1M токенов одинаково хорошо. Ее внимание все еще спарсифицировано. Но ключевые опорные точки – начала задач, результаты критических шагов, системные инструкции – удерживаются в фокусе намного стабильнее, чем у предшественников.

Agentic Alignment и Tool Calling: Чем Vera 1.6 думает

Архитектура – это костяк. Но без правильного 'мышления' агент будет тупой машиной. Vera 1.6 с рождения обучалась на симуляциях многошаговых workflows. Ее не учили просто предсказывать текст. Ее учили достигать целей.

Нативный JSON Tool Calling: Она не парсит ответы в поисках JSON. Она мыслит структурированными вызовами функций. Это как разница между человеком, который говорит 'надо бы проверить погоду', и тем, кто сразу открывает приложение с прогнозом.
Встроенный планировщик: Модель разбивает высокоуровневую цель ('проанализируй этот годовой отчет') на цепочку атомарных действий, не теряя из виду конечную точку. Решает проблему, описанную в руководстве по RLM.
Контекстный приоритет: Системные промпты и критические инструкции получают метки, которые защищают их от вытеснения новыми данными. Больше не нужно каждые 10 минут напоминать агенту 'кто ты и зачем здесь'.

А что же конкуренты? Холодная война контекстов

К началу 2026 года гонка за длинный контекст вышла на новый виток. Давайте сравним Vera 1.6 не с абстракциями, а с реальными альтернативами, которые можно запустить сегодня.

Модель / Подход	Эффективный контекст (март 2026)	Слабые места для агентов	Кому подойдет вместо Vera
Vera 1.6 (архитектура GDN+MoE)	До 1M токенов (стабильно до ~800K)	Требует совместимого бэкенда для инференса, не просто HF pipeline.	Тем, кто строит сложные мультиагентные системы с долгой памятью.
Llama 4 с оконным вниманием	До 256K (скользящее окно 8K)	'Зона тупости': модель забывает все, что вышло за окно. Полный провал для долгих задач.	Для коротких диалогов или одношаговых запросов к данным в мультиагентных системах.
Qwen3-32B с линейным вниманием	До 128K (заявлено), на практике ~64K	Качество рассуждений падает пропорционально длине контекста. Не агентская настройка.	Для анализа одного длинного документа, но не для планирования.
Паттерны долговременной памяти (внешние базы)	Теоретически неограничен	Задержки, проблемы с согласованностью. Агент 'вспоминает' факты, но теряет нить рассуждений.	Для хранения фактов и ссылок, как в обзоре паттернов памяти.

Главный вывод? Vera 1.6 не пытается быть универсальной моделью для всех задач. Она – специализированный процессор для агентского интеллекта. Ее конкуренты – не общие LLM, а такие же узкие решения вроде доработанных версий Devstral или Kilo Code, которые, как мы знаем, требуют трёх 3090 для работы.

Кому стоит смотреть в сторону Vera 1.6 прямо сейчас?

Эта архитектура – не для всех. Если ваш агент работает с контекстом в пару тысяч токенов и делает два вызова API, вам хватит и обычной Llama 4. Но Vera 1.6 становится незаменимой в трех сценариях:

Автономные исследовательские ассистенты, которые должны прочитать 50 научных статей (500+ страниц), сопоставить данные и написать обзор, не теряя логических связей.
Сложные DevOps или Data Science пайплайны, где агент должен отслеживать состояние десятков задач, логов и переменных на протяжении часов симуляции.
Мультиагентные симуляции с долгой историей, где контекст – это общая память и поле взаимодействия между десятками сущностей.

Практический совет: Не гонитесь за цифрой 1M сразу. Начните тестировать Vera 1.6 на своих рабочих нагрузках с контекстом в 100-200К токенов. Если вы видите, что качество планирования и устойчивость цели резко выросли по сравнению с вашей текущей моделью – вы на правильном пути. Официальные веса и инференс-движок можно найти на Hugging Face организации Vera AI (партнерская ссылка).

Что дальше? Прогноз от скептика

Архитектура Vera 1.6 – это не конечная точка, а первый уверенный шаг в мир, где контекст перестает быть лимитирующим фактором. Но я бы не стал праздновать победу над памятью. Потому что теперь на первый план выходит новая проблема: качественное наполнение этого гигантского контекста. Загрузить в модель миллион токенов мусора – теперь технически возможно. И результат будет соответствующим.

Уже к концу 2026 года, я прогнозирую, фокус сместится с 'сколько' на 'как'. Появятся стандарты для разметки долгосрочных агентских контекстов, техники динамической компрессии нерелевантных сегментов и, возможно, гибридные архитектуры, которые комбинируют внутреннюю память Vera с внешними системами из статьи о продлении памяти. Vera 1.6 дала нам большой холст. Теперь нужно научиться на нем рисовать.

Подписаться на канал

Архитектура Vera 1.6: как Gated Delta Networks и Sparse MoE создают агента с 1M контекстом