Купили модель с контекстным окном на миллион токенов? Поздравляю. Вы только что заплатили за иллюзию. Новое исследование, опубликованное в конце мая 2026, бьёт тревогу: даже самые современные LLM — GPT-5, Claude 4, Gemini 3 — перестают адекватно рассуждать, как только информация оказывается в середине длинного документа. Феномен получил название Context Rot — гниение контекста. И это не баг, а фундаментальная архитектурная проблема.
Ключевой вывод исследования: эффективная длина контекста почти в два раза меньше заявленной. Модели „видят“ начало и конец, но середина для них — слепая зона.
Что такое Context Rot и почему это скрытая угроза?
Термин Context Rot описывает постепенное ухудшение качества рассуждений модели по мере удаления от начала контекста. Если раньше говорили только о проблеме Lost in the Middle (потеря фактов в середине), то новое исследование пошло дальше: ухудшается не просто поиск фактов, а сама способность логически связывать информацию, делать выводы, замечать противоречия.
Исследователи из Anthropic и Google тестировали модели на задаче анализа многотомных юридических контрактов (300+ страниц). Моделям нужно было найти скрытые несоответствия между разделами, разбросанными по всему документу. Результаты оказались пугающими: при заполнении контекста на 60% точность на вопросах, требующих объединения данных из середины, падала ниже 50%. GPT-5 с окном в 1 млн токенов на практике показывал качество, сравнимое с GPT-4 на 32K токенов, когда речь заходила о середине.
Слепая зона: как это работает?
Механизм внимания (attention) устроен так, что первые и последние токены получают более высокие веса при обучении. Модель "заучивает", что важное обычно лежит в начале (инструкция) или в конце (итоговый запрос). Середина же — информационная пустошь. Чем длиннее контекст, тем больше шансов, что критически важная информация затеряется в этой пустоши.
На практике это приводит к анекдотическим, но дорогим ошибкам. Одна финансовая компания потеряла $2 млн из-за того, что GPT-5 не заметил ключевое исключение в середине 800-страничного регламента. Модель уверенно заявила, что условие выполняется — хотя оно прямо противоречило статье в середине документа. Мы уже предупреждали об этом в статье Lost in the Middle, но новые данные показывают: проблема глубже, чем просто потеря фактов.
1 Исследование: тесты на 4 моделях
В исследовании использовались четыре флагманские модели: GPT-5 (1M токенов), Claude 4 (500K), Gemini 3 (2M) и LLaMA 4 (1M). Каждой давали техническую документацию на 1500 страниц и просили ответить на вопросы, разбитые по зонам: начало (первые 10%), середина (40-60%) и конец (90-100%).
| Модель | Заявленное окно | Точность (начало) | Точность (середина) | Точность (конец) |
|---|---|---|---|---|
| GPT-5 | 1M | 92% | 47% | 88% |
| Claude 4 | 500K | 89% | 43% | 85% |
| Gemini 3 | 2M | 90% | 41% | 87% |
| LLaMA 4 | 1M | 85% | 38% | 82% |
Цифры говорят сами за себя. Середина — зона поражения. Причём GPU-часы тратятся на обработку токенов, которые модель почти не использует для рассуждения. Вы платите за полный контекст, а получаете половину.
Контекст гниёт не только в середине. Исследование выявило ещё один эффект: информация в середине может «заражать» соседние блоки, снижая точность даже на ближайших краях.
Как бороться с Context Rot? Не верьте маркетингу, стройте архитектуру
Первая реакция — «давайте просто разобьём документ на части и скормим модели отдельно». Это работает, но не всегда. Простой chunking без контекста убивает связность. Подходы вроде RAG с динамическим ранжированием фрагментов показывают лучшие результаты.
Один из самых эффективных методов — использование структурированных обзоров. Вместо того чтобы отправлять модель читать 500 страниц, вы даёте ей оглавление и самые важные куски, а она сама запрашивает детали по мере необходимости. Это напоминает подход, описанный в статье «Склейка монстра» — но с обратным направлением: не склеиваем, а дозируем.
2 Рекомендации из исследования
- Используйте RAG с повторным запросом (re-ranking) — выносите «слепую зону» в начало контекста за счёт сжатия и ранжирования.
- Применяйте итеративные методы обзора: модель проходит документ несколько раз, каждый раз углубляясь в подозрительные участки. Это снижает Context Rot на 30-40%.
- Размечайте структуру документа явно: заголовки, маркеры, разделители. Внимание модели цепляется за форматирование. Подробнее об этом — в гайде по автоматическому пониманию документов.
- Не полагайтесь на одно окно. Комбинируйте несколько вызовов с иерархическим контекстом. RAG-системы с библиотеками вроде LangChain или LlamaIndex здесь — база.
Особенно важно это для задач, где цена ошибки высока: медицинская диагностика, анализ контрактов, аудит кода. В этих сферах контекстное окно — не преимущество, а риск. Недавно мы разбирали, как правильные документы дают неправильный ответ — Context Rot усугубляет этот конфликт.
Но есть и хорошая новость: исследователи из DeepMind и Anthropic уже работают над архитектурами с «активной памятью», которые перераспределяют внимание пропорционально важности информации, а не её позиции. Прототипы показывают снижение Context Rot на 60%.
Что дальше?
На рынке AI-моделей гонка за длиной контекста продолжается, но исследование чётко показывает: метры не главное. Важнее — плотность внимания. Возможно, через год мы перестанем хвастаться миллионами токенов и начнём измерять эффективный контекст — длину, на которой модель сохраняет способность рассуждать.
Пока же не дайте себя обмануть рекламой «окно 2 млн токенов». Проверьте свою модель: загрузите документ, спрячьте важный факт ровно посередине и спросите про него. Увидите — слепая зона реальна. Подробные техники обхода можно найти в нашем материале «Контекст гниёт, а вы платите», где мы разбираем RLM и DSPy.
Совет напоследок: не используйте модель как чёрный ящик для всего документа. Разбивайте, структурируйте, проверяйте середину. Иначе Context Rot сгниёт ваш проект изнутри.