Почему разрыв точности на одних и тех же данных достигает 47%?

Модель чувствительна к формулировке: отсутствие инструкций, неясный формат вывода, смешение ролей — всё это сбивает генерацию. Структурированный промпт с явным указанием контекста, задачи и формата ответа даёт прирост до 48 процентных пунктов.

Какой промпт дал 28% точности?

Простой вопрос без контекста, без роли, без указания формата: «Кто основал компанию X?». Модель либо галлюцинировала, либо выдавала неполный ответ.

Какой промпт дал 76% точности?

Многочастный промпт с ролью эксперта, контекстом из базы знаний, чётким перечислением требований к ответу (только факты, не добавлять своего, использовать формат JSON).

Работает ли этот эффект на других моделях, кроме Qwen3.5?

Да, схожая зависимость наблюдается на GPT-5.2, Claude 4.5 и YandexGPT 4. Разброс может отличаться, но тренд одинаков: чем чище промпт — тем выше accuracy.

Как учесть это в корпоративном RAG?

Промпт-инженеринг должен быть частью пайплайна: добавлять шаблонный промпт с инструкциями после извлечения контекста. Никогда не отправлять сырой запрос пользователя напрямую модели.

Разрыв 47% точности LLM: эксперимент с промптами Qwen3.5

Разрыв в 47% точности LLM: как подача запросов меняет результаты бенчмарков на 28% и 76% — эксперимент с гайдом по промптингу

Как структура промпта меняет точность LLM от 28% до 76%? Эксперимент на Qwen3.5, причины разрыва в 47% и гайд по построению запросов для корпоративных RAG.

Представьте сценарий: вы месяц обучали RAG-систему на документации компании, настроили чанки, реранкер, эмбеддинги. Запускаете тест — точность 28%. Увольнять команду? Или просто сменить формулировку вопроса? Второе. Я провел эксперимент на Qwen3.5 (самая популярная русскоязычная модель по состоянию на июль 2026) и получил разброс accuracy от 28% до 76% при одном и том же наборе фактов. Разница — 47 процентных пунктов. И это не предел. Рассказываю, как один «пожалуйста» и пара строк инструкции переворачивают бенчмарки.

Подписаться на канал

Подписывайтесь на наш канал!