Почему все ненавидят выбор метода fine-tuning
Представьте ситуацию: у вас есть Nova Pro Max (самая свежая версия на апрель 2026, если что) в Bedrock. Модель мощная, но тупая как пробка для ваших конкретных задач. Она путает медицинские термины с кулинарными, юридические документы читает как меню ресторана, а техподдержку ведет так, что клиенты хотят разорвать контракт.
Вы открываете документацию AWS и видите: SFT, RFT, дистилляция, еще какая-то алхимия с приставкой "LoRA". Цены разные, результаты непредсказуемые, а timeline проекта уже горит. Выбор метода fine-tuning сегодня - это не техническое решение, а ставка на будущее с непонятными коэффициентами.
Самый частый провал - начать с SFT только потому что "это стандартно". Через месяц и $20,000 вы получаете модель, которая блестяще решает учебные задачи и полностью забыла, как отвечать на обычные вопросы.
Три пути в ад: разбираем методы по косточкам
Давайте без воды. Каждый метод - это компромисс между точностью, стоимостью и скоростью. Но не тем компромиссом, о котором пишут в блогах AWS.
Supervised Fine-Tuning (SFT): старый добрый молоток
SFT - это когда вы берете 5000 примеров "вопрос-ответ" и заставляете модель их выучить. Просто? Только на первый взгляд.
Почему это работает: модель перенастраивает свои веса под вашу конкретную задачу. Nova Pro Max имеет 340 миллиардов параметров (актуально на 2026 год), и даже небольшая корректировка меняет поведение.
Почему это ад: катастрофическое забывание. Модель так увлекается вашими медицинскими протоколами, что забывает, как составлять обычные предложения. Вы получается узкоспециализированного идиота.
Reinforcement Fine-Tuning (RFT): дрессировка с угощением
RFT - это когда вы не говорите модели, какой ответ правильный. Вы даете ей reward-функцию (функцию вознаграждения) и говорите: "Делай то, за что получишь печеньку".
Например, для чат-бота поддержки reward может учитывать: решил ли проблему, был ли вежлив, уложился ли в 5 сообщений.
Зачем это нужно: когда у вас нет эталонных ответов, но есть критерии качества. Или когда правильных ответов много, и вы хотите, чтобы модель находила оптимальный.
Подводный камень: reward hacking. Модель находит лазейки в вашей функции вознаграждения и оптимизирует не то, что вы хотели. Например, если награждать за краткость, она начнет отвечать "ок" на все вопросы.
RFT в Bedrock теперь поддерживает кастомные reward-модели через API. Раньше нужно было городить свой пайплайн, теперь можно подключить любую модель, которая возвращает число от 0 до 1. Даже ту же Nova, настроенную оценивать ответы.
Дистилляция: кража интеллекта
Дистилляция - это когда у вас есть большая, дорогая, точно настроенная модель (учитель), и вы учите маленькую, дешевую модель (ученик) имитировать ее поведение.
Магия здесь: ученик достигает 90% качества учителя при 10% размера и стоимости inference. Для Bedrock это значит, что вы можете донастроить Nova Pro Max, а затем "сжать" ее в более дешевую модель для продакшена.
Где спотыкаются: дистилляция не создает новые знания. Если учитель ошибается в 10% случаев, ученик усвоит и ошибки. Это копирование, а не обучение.
Цифры, которые заставят ваш финансовый отдел нервно курить
| Метод | Стоимость обучения (Nova Pro Max) | Стоимость inference | Требования к данным | Время на подготовку | Что получаете |
|---|---|---|---|---|---|
| SFT | $15-25 за 1K токенов обучения | Высокая (полная модель) | 1000-10000 пар "вопрос-ответ" высокого качества | 2-4 недели на разметку | Эксперта в узкой области |
| RFT | $20-40 за 1K токенов (дороже из-за итераций) | Высокая (полная модель) | Reward-функция + начальные промпты | 1-2 недели на настройку reward | Оптимизатора под метрики |
| Дистилляция | $8-15 за 1K токенов (учитель + ученик) | Низкая (маленькая модель) | Выходы учителя на разнообразных запросах | Неделя на генерацию данных | Быструю копию эксперта |
Цены актуальны на апрель 2026 года. Заметьте: самый дорогой метод не всегда дает лучший результат. Иногда дистилляция выигрывает просто потому, что вы можете позволить себе в 10 раз больше запросов в продакшене.
Пошаговый алгоритм выбора: как не прогадать
1 Спросите себя: что вы максимизируете?
Не точность. Никто не платит за точность. Платят за:
- Снижение затрат на поддержку (автоматизируем 80% тикетов)
- Ускорение процессов (анализ документов за секунды вместо часов)
- Удержание клиентов (чат-бот, который не злит людей)
Если вам нужно снизить стоимость запроса в 10 раз - сразу смотрите на дистилляцию. Если важнее решить сложные кейсы - SFT или RFT.
2 Оцените свои данные (честно)
У вас есть 5000 размеченных примеров идеального поведения? Или только доступ к логам чатов, где 70% ответов "перезвоните нам"?
SFT требует качественных данных. Если их нет, их создание стоит как второй раунд финансирования. RFT требует четких метрик - если не можете формализовать, что такое "хороший ответ", даже не начинайте.
3 Прикиньте бюджет на обучение И на inference
Ошибка новичков: считают только стоимость fine-tuning. Nova Pro Max стоит $0.03 за 1K токенов на выход. Если ваш сервис обрабатывает 10 млн запросов в месяц - это $300,000 в месяц только за инференс.
Дистиллированная модель на базе Nova Lite (если такая появится к 2026) может стоить в 10 раз дешевле. Экономия за год покроет все расходы на обучение.
4 Запустите пилот на самом гибком варианте
Не заказывайте сразу fine-tuning за $50,000. Возьмите Nova Forge SDK (о котором я писал в этой статье) и сделайте быстрый прототип с few-shot обучением.
Если few-shot learning дает 70% нужного качества, значит, задача решаема. Если 30% - возможно, вам нужна не кастомизация, а другая архитектура.
Где все падают: 5 ошибок, которые совершают даже опытные
Ошибка 1: Fine-tuning вместо лучшего промпта
Перед тем как тратить $20,000, попробуйте улучшить промпт. Иногда добавление "Ты - опытный юрист с 20-летним стажем" дает +30% качества бесплатно.
Ошибка 2: Обучение на biased данных
Если ваши менеджеры пишут клиентам агрессивно, SFT научит модель быть агрессивной. RFT закрепит это поведение reward'ом за "быстрое решение".
Ошибка 3: Игнорирование latency
Дистиллированная модель быстрее, но если она работает в регионе с высокой задержкой (не в Окленде, про который я писал здесь), выигрыш съедается сетью.
Ошибка 4: Одна модель на все случаи жизни
Для сложных юридических документов - донастроенная Nova Pro Max. Для простых ответов клиентам - дистиллированная легкая модель. Не пытайтесь сделать универсальный солдат.
Ошибка 5: Забыть про A/B тестирование
Запустите новую модель на 5% трафика. Сравните не только accuracy, но и бизнес-метрики: конверсию, удовлетворенность, время решения.
Сценарии, где выбор очевиден (и неочевиден)
Медицинский чат-бот для симптомов: SFT. Нужна точность, ошибки стоят дорого. Катастрофическое забывание не страшно - бот не должен обсуждать погоду.
Генератор креативных текстов для рекламы: RFT. Нет "правильных" ответов, есть только "цепляющие" и "нецепляющие". Reward-функция может учитывать engagement метрики.
Анализ юридических документов в реальном времени: дистилляция. Юрист донастраивает Nova Pro Max на своих документах, затем создает легкую модель для paralegals. Скорость анализа важнее, чем 100% точность.
Неочевидный кейс: чат-бот поддержки банка. Казалось бы, SFT. Но если у банка 100 продуктов с меняющимися условиями - RFT с reward за актуальность информации. Модель научится искать свежие данные в knowledge base, а не полагаться на заученные ответы.
Что будет завтра: тренды 2026-2027
К 2027 году дистилляция станет стандартом для продакшена. Компании будут держать "тяжелую" экспертизную модель для сложных случаев и "легкую" для 95% запросов. Стоимость инференса упадет в разы.
RFT интегрируется с системами мониторинга: reward-функция будет обновляться автоматически на основе реальных бизнес-метрик. Модель будет адаптироваться к изменениям в продукте без переобучения.
SFT останется для нишевых экспертных задач, но станет дороже. Разметка качественных данных - это работа экспертов, а их час стоит $200-500. Fine-tuning медицинской модели будет стоить как Lamborghini.
Мой совет: начните с дистилляции уже сегодня. Возьмите вашу текущую настройку через промпты, запустите ее на 1000 разнообразных запросов, и обучите маленькую модель на этих выходах. Даже если качество упадет на 5-10%, экономия на инференсе окупит это за месяц. А потом, когда поймете реальные потребности, инвестируйте в SFT или RFT для критически важных компонентов.