Шум в длинном контексте убивает маленькие LLM
Попробуй скормить своей локальной Qwen 0.8B репозиторий на 50 файлов. Результат? Идеальный шторм из галлюцинаций и тайм-аутов. В 2026 году все еще пытаются решить эту проблему, наращивая контекстные окна до 1M токенов. Но это как лечить головную боль гильотиной. Graph-Oriented Generation (GOG) пошел другим путем — если код нельзя впихнуть, его нужно разобрать на части и показать LLM только скелет.
Справка: на 06.03.2026 последняя версия Qwen 0.8B — это Qwen3.5-0.8B-Instruct, выпущенная в конце 2025. Именно она используется в тестах GOG. Моделька крошечная, но с правильным подходом — опасная.
AST-граф вместо километров сырого кода
GOG не отправляет в LLM текст файлов. Сначала парсер (используется Tree-sitter 0.22.8, актуальный на 2026 год) разбирает код на абстрактное синтаксическое дерево (AST). Потом это дерево превращается в граф, где узлы — это функции, классы, переменные, а ребра — вызовы, наследования, импорты. Весь репозиторий в одном графе.
Когда ты задаешь вопрос («Какая функция вызывает process_data в модуле utils?»), GOG не тупо ищет по тексту. Он идет по графу: находит узел process_data, смотрит на входящие и исходящие связи, вытаскивает только релевантные фрагменты AST. В контекст попадает не 10 тысяч строк, а 100-200 токенов структурированного описания.
| Метод | Средний контекст (токенов) | Точность ответа | Затраты GPU (отн.) |
|---|---|---|---|
| Наивный RAG (весь файл) | ~15,000 | 34% | 100% |
| GOG (AST-граф) | ~1,600 | 78% | 11% |
| Полное окно контекста (модель 128k) | ~45,000 | 62% | 350% |
Почему GraphRAG и Gitnexus не спасают
Да, графы — не новость. GraphRAG строит граф знаний из текста, а Gitnexus создает граф кодовой базы. Но они работают на уровне семантики и коммитов. GOG же оперирует синтаксисом — тем, что компьютер понимает без слов. Разница как между картой города (GraphRAG) и чертежом электросетей дома (GOG).
Плюс, большинство графовых систем требуют тяжелых эмбеддингов и инференса больших моделей для извлечения сущностей. GOG обходится парсером, который работает в 100 раз быстрее любого LLM. В спорах «Knowledge Graphs для агентов — лучшая инфраструктура или избыточная сложность?» GOG ставит на практичность.
Как заставить Qwen 0.8B разобраться в чужом коде за 5 минут
1 Ставим и настраиваем
GOG — это Python-библиотека. Установка: pip install gog-framework (версия 1.2.0 на март 2026). Тебе также понадобится Ollama с последней Qwen3.5-0.8B или любая локальная LLM с API. Создаешь конфиг, указываешь путь к репозиторию — все, движок готов парсить.
2 Задаем вопрос на человеческом языке
Не нужно писать промпты в духе «найди функцию». Пишешь: «Где в этом проекте обрабатываются ошибки платежей и какие модули задействованы?». GOG разберет запрос, выделит ключевые сущности (обработка ошибок, платежи), найдет соответствующие узлы в графе, построит путь и сформирует для LLM контекст вроде: «Функция handle_payment_error в модуле payment/processor вызывает logger из utils и возвращает статус в api/gateway». Это и попадет в промпт.
Qwen 0.8B получает не гору текста, а четкую схему. И выдает вменяемый ответ, потому что ее 0.8 миллиарда параметров не перегружены мусором.
Кому GOG зайдет, а кому будет бесполезен
Этот инструмент для конкретной ниши. Он идеален, если:
- Ты разрабатываешь на JavaScript, Go или Rust и хочешь быстрого ассистента для навигации по коду на ноутбуке.
- Тебе нужен локальный ассистент, как в гайде по RAG для учебы, но для анализа проектов, а не документов.
- Ты экспериментируешь с оптимизацией, как в статье Groq vs. Локальный GPU, и хочешь выжать максимум из крошечных моделей.
Забудь про GOG, если твой код — это сплошные шаблоны на Jinja2 или конфиги в YAML. AST-парсер просто не поймет их структуру. Или если ты ждешь, что ИИ напишет код за тебя — GOG только анализирует.
Что будет дальше? AST-графы как новый стандарт
Тренд 2026 года — не увеличение параметров, а уменьшение контекста. Методы вроде GOG доказывают, что можно заставить модель думать, а не запоминать. Скоро появятся аналогичные инструменты для анализа документации (превращение Markdown в графы разделов) и даже для поиска багов через сравнение графов разных версий.
Совет напоследок: не гонись за 1M контекстом в Claude-4 или GPT-5o. Возьми Qwen 0.8B, подключи GOG к своему пет-проекту и посмотри, как модель, которая помещается в оперативку телефона, начинает рассуждать о твоей архитектуре. Это впечатляет больше, чем любая статистика.