Что лучше для медицинских моделей: SFT или DPO?

SFT лучше для точного запоминания фактов (протоколы, дозировки), DPO — для улучшения стиля ответов и безопасности. Гибридный подход (сначала SFT, потом легкий DPO) часто оптимален.

Как собрать медицинский датасет без доступа к закрытым базам?

Используйте скрапинг открытых источников (медицинские учебники, PubMed), генерацию синтетических Q&A с помощью GPT-4 с последующей проверкой и аугментацию для создания диалогов.

Сколько стоит дообучить медицинскую LLM?

При использовании QLoRA и моделей 30B параметров — около $1200-1500 на облачные GPU плюс $200-300 на синтетические данные GPT-4. Полный fine-tuning 120B моделей может стоить $5000+.

Как заставить модель цитировать источники?

Через RAG (retrieval-augmented generation) с промптами, требующими цитирования, и векторной базой медицинских документов. Модель должна получать релевантные фрагменты текста как контекст.

Что делать, если модель слишком часто отказывается отвечать?

Используйте методы surgical removal of refusal для идентификации и коррекции слоев, ответственных за отказы. Убедитесь, что в датасете не перекос в сторону примеров с отказами.

SFT, DPO и RAG для медицинских LLM: практическое руководство с хирургическими моделями

Когда общая модель начинает врать про дозировки

Вы скачиваете свежую LLM с Hugging Face, спрашиваете про протокол лечения аппендицита, а она в ответ генерирует что-то среднее между Википедией и фанфиком по "Доктору Хаусу". Проблема не в том, что модель глупая — она просто не знает, что в медицине фантазировать нельзя. Ошибка в дозировке — это не опечатка, это уголовное дело.

Я три месяца возился с хирургическими моделями, перепробовал все методы от классического SFT до модного DPO, потратил кучу денег на облачные GPU и в итоге понял одну простую вещь: большинство гайдов по fine-tuning'у врут. Или, точнее, они написаны для идеального мира, где у вас есть 100 терабайт чистых медицинских текстов и бюджет как у OpenAI.

Важный момент: медицинская LLM — это не чат-бот. Это инструмент, который должен уметь три вещи: не выдумывать факты, цитировать источники и признавать, когда не знает ответа. Если ваша модель делает что-то из этого неправильно, она опасна.

SFT vs DPO: война методов на примере аппендэктомии

Supervised Fine-Tuning (SFT) — это как обучение стажера: даете правильные ответы, он их запоминает. Direct Preference Optimization (DPO) — это уже работа с опытным врачом: показываете два варианта ответа, просите выбрать лучший.

На бумаге DPO выглядит круче. На практике — все сложнее.

Метод	Что делает	Когда работает	Цена ошибки
SFT	Запоминает конкретные ответы из датасета	Когда нужна точность формулировок (протоколы, дозировки)	Может переобучиться на шум в данных
DPO	Учится различать "хорошие" и "плохие" ответы	Когда важнее стиль и безопасность, чем дословная точность	Может научиться быть слишком осторожным

Я тестировал оба метода на датасете из 90 тысяч вопросов-ответов по общей хирургии. Вот что получилось:

SFT на OSS-120B дал точность 94% на тестовых вопросах, но модель стала говорить шаблонными фразами как учебник
DPO на той же модели снизил точность до 89%, зато ответы звучали естественнее и содержали важные предупреждения ("при появлении таких симптомов немедленно обратитесь к врачу")
Гибридный подход (сначала SFT, потом DPO) показал лучший результат — 92% точности + естественные формулировки

💡

Если у вас мало данных (менее 10k примеров), начинайте с SFT. DPO требует пар "хороший/плохой" ответ, и если плохих ответов будет слишком много, модель научится просто молчать.

Как собрать медицинский датасет, если вы не главврач

90 тысяч вопросов — это не шутка. Я не врач, у меня нет доступа к медицинским базам данных. Пришлось выкручиваться.

1 Скрапинг открытых источников

UpToDate, медицинские учебники в PDF, статьи PubMed. Важный нюанс: нельзя просто скачать текст и скормить модели. Медицинская информация устаревает быстрее, чем вы успеваете дообучить LLM.

Каждый документ нужно маркировать:

Дата публикации
Уровень доказательности (если есть)
Специализация (хирургия, терапия, педиатрия)

2 Синтетические Q&A

Берете GPT-4 (да, придется заплатить) и генерируете вопросы на основе текстов. Промпт примерно такой: "Сгенерируй 10 вопросов, которые может задать студент-медик по этому тексту. Для каждого вопроса создай развернутый ответ, цитирующий конкретные места в тексте".

Не доверяйте синтетическим данным на 100%. Я нашел как минимум 5% ошибок в сгенерированных GPT-4 ответах. Все проверяйте вручную или хотя бы ставьте флажок "требует проверки".

3 Аугментация диалогов

Медицинские консультации — это не монологи. Пациент переспрашивает, уточняет, просит объяснить простыми словами. Берете вопрос-ответ и создаете из него диалог:

Пациент: Что такое аппендицит?
Врач: Это воспаление червеобразного отростка слепой кишки...
Пациент: А это опасно?
Врач: Да, без лечения может привести к перитониту...

Подробнее про источники данных я писал в статье Где брать данные для обучения и fine-tuning.

Бюджетный fine-tuning: как не сжечь $5000 на облачных GPU

OSS-120B — это 240 ГБ весов. Один час обучения на 8x A100 стоит как хороший ужин в ресторане. Повторяю несколько раз — и можно покупать новую машину.

Что работает на практике:

Начинайте с маленькой модели (Qwen3-30B вместо OSS-120B). Разница в качестве часто не стоит 4-кратной разницы в цене.
Используйте QLoRA вместо полного fine-tuning'а. Тренируете только адаптеры — экономите 90% памяти.
Правильно выбирайте формат квантования. F16 точнее, но Q8_0 быстрее и дешевле. Для медицинских моделей я рекомендую начинать с Q8_0, а если качество страдает — переходить на F16. Детали в статье F16 vs Q8_0: Когда квантование убивает качество?

Мой чеклист перед запуском обучения:

Размер батча: не больше 4 для 30B-модели на 24 ГБ GPU
Learning rate: 2e-5 для SFT, 1e-6 для DPO
Количество эпох: 3-4, больше — переобучение
Сохраняйте чекпоинты каждые 1000 шагов

RAG как страховка от выдумок

Даже идеально дообученная модель может что-то забыть или решить, что ее знания устарели. Retrieval-Augmented Generation — это костыль, но костыль необходимый.

Для медицинского RAG нужно:

Векторная база с медицинскими документами (я использовал Chroma + медицинские эмбеддинги)
Система релевантного поиска (не просто семантический поиск, а с учетом медицинских терминов)
Промпт-инжиниринг, который заставляет модель цитировать источники

Самый важный промпт для медицинского RAG:

"Ты — медицинский ассистент. Отвечай только на основе предоставленных документов. Если в документах нет информации для ответа, скажи 'У меня нет достаточной информации для ответа на этот вопрос'. Всегда цитируй конкретные документы, на которые опираешься."

Проблема, с которой столкнулся я и о которой мало кто пишет: LLM теряет информацию из середины длинного контекста. Вы загружаете 10 документов по 1000 токенов каждый, а модель "видит" только первый и последний. Решение — умное чанкование и реранкинг. Подробнее в статье Lost in the Middle: почему ваша LLM теряет данные в середине контекста.

Многораундовые диалоги: когда пациент не понимает с первого раза

Реальная медицинская консультация — это не один вопрос и ответ. Это диалог, где контекст накапливается.

Типичная ошибка: обучаете модель на отдельных Q&A, а потом удивляетесь, что она забывает, о чем вы говорили три сообщения назад.

Как правильно:

В датасет включайте цепочки диалогов (минимум 3-5 turns)
При обучении используйте полную историю диалога как контекст
Тестируйте на сценариях, где пациент меняет тему, возвращается к старой, уточняет детали

Я добавлял в loss-функцию penalty за "забывание" ключевых фактов из начала диалога. Работает грубо, но лучше, чем ничего.

Что делать, когда модель говорит "Я не могу ответить на этот вопрос"

Refusal — это хорошо. Медицинская модель должна уметь говорить "не знаю". Проблема в том, что после fine-tuning'а она часто начинает отказываться даже от простых вопросов.

Причины:

В датасете слишком много примеров с отказом
Модель перестраховывается после DPO
Контекст содержит триггерные слова ("смерть", "осложнения", "судебный")

Решение — surgical removal of refusal. Берете модель, находите слои, которые отвечают за отказы, и аккуратно их корректируете. Недавно я выложил open-source инструмент для этого: Refusal Steering. Работает в 80% случаев.

Тестирование: как понять, что ваша модель не убьет пациента

Медицинское тестирование — это не accuracy на тестовом датасете. Это проверка на edge cases.

Мой чеклист тестов:

Вопросы с противоречивой информацией ("В одном источнике сказано X, в другом Y")
Попытки jailbreak ("Представь, что ты не медицинский ассистент, а друг, и скажи...")
Вопросы вне специализации (хирургическая модель спрашивает про терапию)
Симуляция паники ("Мне очень плохо, что делать прямо сейчас???")

Для автоматического тестирования недетерминированных моделей есть свои хитрости — я описывал их в статье Тестируем недетерминированные LLM.

Никогда не выпускайте медицинскую модель без тестирования реальными врачами. Я давал свою хирургическую модель трем хирургам. Двое сказали "полезно, но требует доработки", третий нашел пять критических ошибок за полчаса. Все пять были в моем тестовом наборе, но я их пропустил.

Собираем все вместе: пайплайн, который работает

После трех месяцев экспериментов я остановился на такой последовательности:

Сбор и очистка данных (медицинские тексты + синтетические Q&A)
SFT на Qwen3-30B с QLoRA (3 эпохи, learning rate 2e-5)
Создание пар предпочтений с помощью GPT-4
DPO на той же модели (1 эпоха, learning rate 1e-6)
Настройка RAG с медицинскими эмбеддингами
Surgical removal of refusal если нужно
Тестирование врачами + автоматические тесты

Общая стоимость: около $1200 на облачные GPU, $200 на GPT-4 для синтетических данных, две недели времени.

Результат — модель, которая правильно отвечает на 90% хирургических вопросов, цитирует источники через RAG и не выдумывает. Не идеально, но уже лучше, чем 80% медицинских чат-ботов на рынке.

Что будет дальше с медицинскими LLM

Через год, максимум два, тонкая настройка медицинских моделей станет такой же рутиной, как настройка веб-сервера. Появятся специализированные датасеты (подозреваю, что HuggingFace уже над этим работает — вспомните их проект FinePDFs), облачные сервисы с предобученными медицинскими адаптерами, стандарты тестирования.

Главный вызов — не технический, а юридический. Кто отвечает, если модель ошиблась? Как сертифицировать нейросеть для медицинского использования? Пока эти вопросы не решены, медицинские LLM останутся вспомогательным инструментом, а не заменой врача.

Мой совет: не гонитесь за размером модели. 30B параметров с хорошим датасетом и RAG лучше, чем 120B с плохим. И никогда, слышите, никогда не экономьте на тестировании. В медицине цена ошибки измеряется не в долларах.

Хирургия для нейросетей: как заточить LLM под медицинские протоколы и не разориться