Шум в длинном контексте убивает маленькие LLM

Попробуй скормить своей локальной Qwen 0.8B репозиторий на 50 файлов. Результат? Идеальный шторм из галлюцинаций и тайм-аутов. В 2026 году все еще пытаются решить эту проблему, наращивая контекстные окна до 1M токенов. Но это как лечить головную боль гильотиной. Graph-Oriented Generation (GOG) пошел другим путем — если код нельзя впихнуть, его нужно разобрать на части и показать LLM только скелет.

Справка: на 06.03.2026 последняя версия Qwen 0.8B — это Qwen3.5-0.8B-Instruct, выпущенная в конце 2025. Именно она используется в тестах GOG. Моделька крошечная, но с правильным подходом — опасная.

AST-граф вместо километров сырого кода

GOG не отправляет в LLM текст файлов. Сначала парсер (используется Tree-sitter 0.22.8, актуальный на 2026 год) разбирает код на абстрактное синтаксическое дерево (AST). Потом это дерево превращается в граф, где узлы — это функции, классы, переменные, а ребра — вызовы, наследования, импорты. Весь репозиторий в одном графе.

Когда ты задаешь вопрос («Какая функция вызывает process_data в модуле utils?»), GOG не тупо ищет по тексту. Он идет по графу: находит узел process_data, смотрит на входящие и исходящие связи, вытаскивает только релевантные фрагменты AST. В контекст попадает не 10 тысяч строк, а 100-200 токенов структурированного описания.

Метод	Средний контекст (токенов)	Точность ответа	Затраты GPU (отн.)
Наивный RAG (весь файл)	~15,000	34%	100%
GOG (AST-граф)	~1,600	78%	11%
Полное окно контекста (модель 128k)	~45,000	62%	350%

Почему GraphRAG и Gitnexus не спасают

Да, графы — не новость. GraphRAG строит граф знаний из текста, а Gitnexus создает граф кодовой базы. Но они работают на уровне семантики и коммитов. GOG же оперирует синтаксисом — тем, что компьютер понимает без слов. Разница как между картой города (GraphRAG) и чертежом электросетей дома (GOG).

Плюс, большинство графовых систем требуют тяжелых эмбеддингов и инференса больших моделей для извлечения сущностей. GOG обходится парсером, который работает в 100 раз быстрее любого LLM. В спорах «Knowledge Graphs для агентов — лучшая инфраструктура или избыточная сложность?» GOG ставит на практичность.

💡

На 06.03.2026 GOG поддерживает Python, JavaScript, TypeScript, Go и Rust через актуальные грамматики Tree-sitter. Поддержка Kotlin и C# в бета-версии.

Как заставить Qwen 0.8B разобраться в чужом коде за 5 минут

1 Ставим и настраиваем

GOG — это Python-библиотека. Установка: pip install gog-framework (версия 1.2.0 на март 2026). Тебе также понадобится Ollama с последней Qwen3.5-0.8B или любая локальная LLM с API. Создаешь конфиг, указываешь путь к репозиторию — все, движок готов парсить.

2 Задаем вопрос на человеческом языке

Не нужно писать промпты в духе «найди функцию». Пишешь: «Где в этом проекте обрабатываются ошибки платежей и какие модули задействованы?». GOG разберет запрос, выделит ключевые сущности (обработка ошибок, платежи), найдет соответствующие узлы в графе, построит путь и сформирует для LLM контекст вроде: «Функция handle_payment_error в модуле payment/processor вызывает logger из utils и возвращает статус в api/gateway». Это и попадет в промпт.

Qwen 0.8B получает не гору текста, а четкую схему. И выдает вменяемый ответ, потому что ее 0.8 миллиарда параметров не перегружены мусором.

Кому GOG зайдет, а кому будет бесполезен

Этот инструмент для конкретной ниши. Он идеален, если:

Ты разрабатываешь на JavaScript, Go или Rust и хочешь быстрого ассистента для навигации по коду на ноутбуке.
Тебе нужен локальный ассистент, как в гайде по RAG для учебы, но для анализа проектов, а не документов.
Ты экспериментируешь с оптимизацией, как в статье Groq vs. Локальный GPU, и хочешь выжать максимум из крошечных моделей.

Забудь про GOG, если твой код — это сплошные шаблоны на Jinja2 или конфиги в YAML. AST-парсер просто не поймет их структуру. Или если ты ждешь, что ИИ напишет код за тебя — GOG только анализирует.

Что будет дальше? AST-графы как новый стандарт

Тренд 2026 года — не увеличение параметров, а уменьшение контекста. Методы вроде GOG доказывают, что можно заставить модель думать, а не запоминать. Скоро появятся аналогичные инструменты для анализа документации (превращение Markdown в графы разделов) и даже для поиска багов через сравнение графов разных версий.

Совет напоследок: не гонись за 1M контекстом в Claude-4 или GPT-5o. Возьми Qwen 0.8B, подключи GOG к своему пет-проекту и посмотри, как модель, которая помещается в оперативку телефона, начинает рассуждать о твоей архитектуре. Это впечатляет больше, чем любая статистика.

Подписаться на канал

Graph-Oriented Generation (GOG): как заставить маленькую Qwen 0.8B анализировать целый репозиторий через AST-графы (сокращение токенов на 89%)