Когда промпты бессильны: история нашего провала

Три года тикетов в системе поддержки. Тысячи ответов от лучших операторов. Мы думали, что просто скормим это GPT-4 через RAG или напишем умные промпты — и получим идеального AI-ассистента. Ошибка.

Модель выдавала общие фразы вроде "Спасибо за обращение, специалисты уже работают над вашим вопросом" на конкретные технические запросы. Она не знала наших внутренних сокращений, не понимала контекста прошлых обращений клиента, путала продукты. Prompt engineering давал прирост в 10-15%, но не более. RAG работал, но медленно и с пропусками важной информации.

Главное заблуждение: если у вас специфичная доменная область (медицина, юриспруденция, техническая поддержка), промптами и RAG'ом вы не решите проблему полностью. Модель должна думать в вашей парадигме, а не просто искать факты в базе знаний.

Fine-tuning как последний аргумент

Тонкая настройка — это не просто "подкрутить параметры". Это переучить языковую модель на ваших данных так, чтобы она усвоила ваши термины, стиль общения, логику принятия решений. В нашем случае — чтобы отвечала как опытный сотрудник поддержки, а не как вежливый новичок.

Но вот проблема: сделать fine-tuning правильно — это не запустить скрипт из туториала. Нужно понимать, как подготовить данные, какую модель выбрать, как оценить результат, как развернуть. И здесь большинство компаний идут к подрядчикам. И попадают в ловушки.

Критерии выбора: что спрашивать у агентства

После пяти неудачных собеседований с агентствами (одно предлагало просто обернуть API OpenAI, другое — обучить модель на 100 примерах) мы выработали чек-лист. Если агентство не может ответить на эти вопросы — бегите.

1 Опыт с похожими кейсами

Не просто "мы делали fine-tuning", а именно для вашей задачи. Поддержка, чат-боты, классификация — все это разные истории. Спросите:

Можете показать примеры ответов до и после настройки для похожих проектов?
Как вы измеряли успех? Только accuracy или что-то еще?
Были ли проблемы с переобучением (overfitting) на специфичных данных?

💡

Остерегайтесь агентств, которые показывают только метрики вроде "точность 95%". В задачах поддержки важнее соответствие тону компании и отсутствие галлюцинаций, чем формальная точность.

2 Методология работы с данными

Ваши три года тикетов — это не готовый датасет. Это сырые, часто противоречивые данные. Хорошее агентство должно объяснить, как они будут:

Очищать данные (удалять личную информацию, исправлять опечатки)
Размечать (что будет prompt, что — completion)
Балансировать классы (если у вас 90% простых вопросов и 10% сложных)
Создавать тестовую выборку, которая отражает реальные сценарии

Если предлагают просто взять все тикеты как есть — это красный флаг. Вам нужна стратегия подготовки данных, и она должна быть прозрачной. Кстати, о том, где брать данные для обучения, мы подробно писали в отдельном материале.

3 Выбор модели и подход к настройке

Не всякая модель одинаково хороша для fine-tuning. Некоторые лучше усваивают новые знания, другие — стиль. Спросите:

Критерий	Что должно насторожить	Что должно обрадовать
Базовая модель	"Будем использовать GPT-4" (без обоснования)	"Рассмотрим Llama 3.1 8B для скорости или Mixtral для качества, потому что..."
Метод fine-tuning	"Полное обучение (full fine-tuning)" на всех параметрах	"LoRA или QLoRA для эффективности, с контролем переобучения"
Аппаратура	"Наш облачный кластер" без деталей	"Используем A100/H100, обучение займет X часов, стоит Y"

Кстати, если вам интересны локальные модели с поддержкой tool calling, у нас есть большой обзор на 2025 год.

4 Оценка качества

Здесь большинство агентств сыпят метриками: perplexity, BLEU, ROUGE. Но в поддержке эти метрики часто бесполезны. Нужны человекочитаемые тесты:

А/Б тестирование с реальными операторами (кто ответ лучше?)
Проверка на edge-кейсах (редкие, но важные запросы)
Оценка тона и соответствия бренд-голосу
Тест на галлюцинации (выдумывает ли модель факты?)

Хорошее агентство предложит вовлечь ваших сотрудников в оценку. Плохое — отчитается графиками, которые ничего не говорят о реальной полезности. Для автоматического тестирования можно использовать автономного агента для бенчмаркинга.

5 Деплой и поддержка

Обученная модель — это половина дела. Ее нужно развернуть, интегрировать с вашей системой, настроить мониторинг. Спросите:

Будет ли модель работать на вашем железе или в облаке агентства?
Как решается вопрос с обновлениями (добучение на новых данных)?
Какие инструменты мониторинга качества ответов предлагаются?
Как обеспечивается безопасность и соответствие GDPR (если работаете с европейцами)?

Самый частый провал: агентство сдает проект, модель работает месяц, потом качество падает (потому что изменились продукты, политики, клиенты). Нет плана по поддержке — значит, через полгода вы вернетесь к началу.

Если ваш бизнес в Европе, обязательно прочитайте наш гайд про GDPR-совместимый ИИ.

Подводные камни: что не говорят агентства

За три месяца поисков мы набили шишек. Вот самые болезненные моменты, о которых вам не расскажут в презентации:

"У нас своя запатентованная технология"

Перевод: мы используем стандартные инструменты, но не хотим раскрывать, какие именно. Настоящие эксперты открыто говорят о стеке: Hugging Face Transformers, PEFT, Unsloth, vLLM. Если технология действительно инновационная — пусть покажут white paper или выступления на конференциях.

"Мы обучим модель за неделю"

Подготовка данных для fine-tuning — это 80% работы. Если агентство обещает быстрый результат, скорее всего, они пропустят этап очистки и разметки. Или того хуже — будут обучать на сырых данных. Результат? Модель, которая повторяет ошибки ваших стажеров.

"Наша модель достигла accuracy 99%"

Спросите, на каком датасете. Если на тестовом — это ничего не значит. Нужно видеть результаты на полностью новых данных, которых не было в обучении. И accuracy в задачах генерации текста — вообще сомнительная метрика.

"Мы берем фиксированную цену за проект"

Fine-tuning — итеративный процесс. Скорее всего, после первой итерации вы захотите что-то поправить: добавить больше примеров сложных кейсов, изменить стиль ответов. Фиксированная цена часто означает "первую версию сделаем, а дальше — доплачивайте". Ищите агентства с гибкой моделью: базовая настройка + итерации по часам.

Наш чек-лист для первого звонка

Прежде чем тратить время на глубокое обсуждение, задайте эти пять вопросов. Если ответы не устраивают — заканчивайте разговор.

Можете описать процесс подготовки данных для fine-tuning на примере наших тикетов? (Ждем конкретики, а не общих фраз)
Как вы будете оценивать качество модели, кроме стандартных метрик? (Должны быть упомянуты A/B тесты с людьми)
Какую модель вы рекомендуете и почему именно ее? (Должно быть техническое обоснование, а не "самая крутая")
Что входит в стоимость после обучения модели? (Деплой, интеграция, первые месяцы поддержки)
Можете показать пример реального проекта с похожей задачей? (Не скриншоты интерфейса, а примеры диалогов до/после)

Что делать, если агентство не подходит?

Бывает. Цены завышены, подход не внушает доверия, нет нужного опыта. Тогда два пути:

Первый — нанять специалиста в штат. Дорого, долго, но в перспективе вы контролируете все процессы. Понадобится ML-инженер с опытом работы с LLM, не просто дата-сайентист.

Второй — использовать платформы для самостоятельного fine-tuning (Saturn Cloud, Modal, RunPod) + консультанта на несколько часов. Это сложнее, но дешевле и прозрачнее. Для этого понадобятся open-source инструменты для работы с LLM и готовность разбираться.

💡

Неочевидный совет: начните с маленького пилота. Выберите 1000 самых характерных тикетов, настройте на них модель, протестируйте. Так вы поймете, подходит ли вам агентство, без больших вложений. И да, это должно быть в предложении любого нормального подрядчика.

Итог: как не провалить проект по fine-tuning

Fine-tuning — не волшебная палочка. Это инструмент, который требует правильного применения. Выбирая агентство, ищите не самую низкую цену и не самые красивые графики. Ищите понимание вашей задачи, прозрачность процессов и готовность работать итеративно.

Наша история закончилась хорошо. Мы нашли агентство, которое потратило месяц только на подготовку данных, провело три итерации обучения, внедрило модель в наш чат с мониторингом качества. Результат: 40% тикетов теперь закрывает ИИ, клиенты не замечают разницы. Но путь к этому был полон разочарований в подрядчиках, которые обещали золотые горы.

Последний совет: если ваша модель после fine-tuning все равно странно себя ведет в сложных диалогах, возможно, дело не в данных, а в архитектуре reasoning. Посмотрите в сторону фреймворков вроде KEF или OpenAI o3. Или упакуйте знания в Agent Skills вместо простых промптов.

Выбор агентства — это не контракт на услуги. Это выбор партнера, который будет разбираться в вашем бизнесе. Не торопитесь. Задавайте неудобные вопросы. И помните: хороший fine-tuning стоит дорого, но плохой — еще дороже.

Как выбрать агентство для тонкой настройки LLM: гайд по критериям и подводным камням на примере кейса поддержки