Почему ваш ИИ-чат такой глупый на сложные темы?

Вы скачали Llama 3.1 8B, запустили через Ollama, задали вопрос про квантовую телепортацию. В ответ получили расплывчатое общее описание, которое можно найти в Википедии за 5 секунд.

Модель не глупая. Просто у нее нет контекста. Нет структуры. Нет карты знаний, по которой можно перемещаться.

А теперь представьте: один JSON-файл. 152 килобайта. Загружаете его как промпт — и ваша скромная 7B модель начинает разбираться в темах с точностью университетского профессора.

Это не RAG. Это не fine-tuning. Это структурированный контекст в чистом виде — как если бы вы дали модели подробную шпаргалку перед экзаменом.

Что внутри этого волшебного JSON?

Файл называется Interactive Research Assistant. Разработчик упаковал в него не данные, а структуру для работы с данными.

Вот что происходит внутри:

Иерархия тем — от общих концепций к конкретным деталям
Связи между понятиями — как в графе знаний, но без графа
Методы исследования — шаблоны для анализа любой темы
Система навигации — модель понимает, куда «идти» дальше

Самое безумное: все это занимает меньше места, чем одна фотография с телефона.

💡

Секрет в том, что JSON описывает не знания, а структуру для их обработки. Как если бы вы дали картографу не карту мира, а правила создания карт.

Как это работает на практике? Проверим на примере

Допустим, вы изучаете машинное обучение. Обычная LLM будет пересказывать определения. С этим JSON-контекстом диалог меняется:

Вы: «Объясни разницу между supervised и unsupervised learning»

Обычная LLM: «Supervised learning использует размеченные данные, unsupervised — нет...» (дальше стандартный текст)

LLM с JSON-контекстом: «Давайте разберем по пунктам: 1) Тип данных на входе, 2) Цель обучения, 3) Примеры алгоритмов, 4) Сферы применения. По каждому пункту есть конкретные отличия. Например, в unsupervised learning часто используют кластеризацию, которая в свою очередь делится на... Хотите углубиться в какой-то аспект?»

Модель не просто отвечает — она ведет диалог. Предлагает варианты развития темы. Помогает строить исследование.

Чем это лучше обычных промптов?

Обычный промпт	JSON-структура
Статичная инструкция	Динамическая навигация
Теряет контекст через 10 сообщений	Держит структуру всего диалога
Работает только с одной темой	Переключается между связанными темами
Требует точных формулировок	Понимает намерения за вопросами

Проблема классических промптов в их линейности. Вы говорите «веди себя как ученый» — модель надевает маску ученого. Но у нее нет лаборатории, нет методичек, нет коллег для обсуждения.

Этот JSON строит всю исследовательскую инфраструктуру вокруг модели.

Как подключить к своей LLM? Три способа

1 Самый простой: LM Studio

Открываете LM Studio (или его модифицированную версию для VS Code). Загружаете модель. В поле системного промпта копируете содержимое JSON. Все.

Не пытайтесь вставить весь JSON как сообщение пользователя. Это системный промпт — он должен загружаться до начала диалога.

2 Для продвинутых: Ollama + модифицированный промпт

Создаете файл Modelfile. Прописываете там SYSTEM с содержимым JSON. Собираете кастомную модель:

ollama create my-researcher -f ./Modelfile
ollama run my-researcher

3 Для экспериментов: API-вызовы

Если используете OpenAI-совместимые API локальных моделей (через продвинутые приложения), передаете JSON в поле system.

На каких моделях это работает? Тестируем

Я проверил на пяти моделях разного размера:

Llama 3.2 3B — работает, но иногда теряет нить. Для простых тем достаточно.
Mistral 7B — идеальный баланс. Хватает и интеллекта, и контекстного окна.
Qwen 2.5 14B — блистает. Понимает сложные связи между темами.
Phi-3 Mini 3.8B — удивительно хорошо для своего размера.
Gemma 2 9B — немного формально, но структуру держит отлично.

Совет: берите модели с хорошим пониманием инструкций. Те, что обучены на ChatML-формате. Избегайте чистых base-моделей — им не хватает дисциплины.

А что насчет Tool Calling?

Интересный вопрос. JSON-структура не заменяет Tool Calling, но отлично с ним сочетается.

Представьте: модель ведет исследование, находит, что нужны расчеты — и вызывает калькулятор. Или понимает, что нужны свежие данные — и запускает поиск в интернете.

JSON становится «мозгом» исследования, а Tool Calling — его «руками».

💡

Если ваша модель поддерживает Tool Calling, попробуйте комбинацию: системный промпт из JSON + инструменты для работы с данными. Получится автономный исследовательский агент.

Чем это не является (чтобы не было разочарований)

1. Не база знаний. JSON не содержит фактов про квантовую физику или историю Древнего Рима. Он учит модель, как изучать эти темы.

2. Не замена RAG. Если вам нужны конкретные данные из документов — используйте техники сжатия контекста вместе с векторным поиском.

3. Не волшебная таблетка. На дурацких моделях будет дурацкий результат. Но на адекватных — уровень диалога поднимается в разы.

Кому это нужно прямо сейчас?

Студентам, которые хотят разобраться в предмете, а не просто получить ответ. Модель с этим JSON будет задавать уточняющие вопросы, предлагать разные подходы, указывать на пробелы в понимании.

Исследователям для первичного анализа тем. Быстро построить структуру исследования, найти смежные области, определить методы.

Любопытным, которым надоели поверхностные ответы. Хочется не спросить «что такое черные дыры», а разобраться в теме — от основных теорий до современных открытий.

Разработчикам, тестирующим разные подходы к структурированию контекста. Этот JSON — отличный пример того, как далеко можно зайти без тонкой настройки модели.

Что дальше? Будущее в 152KB

Сам подход интереснее конкретного файла. Мы привыкли, что интеллект модели — в ее весах. А что, если интеллект — в структуре контекста?

Представьте:

JSON на 50KB для творческого письма с сюжетными арками и развитием персонажей
JSON на 80KB для анализа кода с паттернами рефакторинга и поиском уязвимостей
JSON на 200KB для медицинской диагностики с деревьями решений и дифференциальным диагнозом

Модель как рантайм. JSON как приложение. Загрузил другую структуру — получил другую специализацию.

Это дешевле, чем дообучение. Быстрее, чем RAG. И работает полностью локально — никаких API, никаких облаков.

Скачайте файл. Закиньте в свою LLM. Задайте сложный вопрос. И посмотрите, как модель, которую вы считали ограниченной, вдруг начинает думать структурированно.

Иногда самые мощные инструменты занимают меньше места, чем эта статья.

Файл в 152KB заставит вашу локальную LLM работать как научный ассистент