Сравнение SFT, RFT и дистилляции для Amazon Nova: гайд по выбору метода | AiManual
AiManual Logo Ai / Manual.
12 Апр 2026 Гайд

SFT, RFT или дистилляция: какой метод fine-tuning выбрать для Amazon Nova в Bedrock

Подробное сравнение Supervised Fine-Tuning, Reinforcement Fine-Tuning и дистилляции для Amazon Nova в Bedrock. Как выбрать метод исходя из задач, бюджета и треб

Почему все ненавидят выбор метода fine-tuning

Представьте ситуацию: у вас есть Nova Pro Max (самая свежая версия на апрель 2026, если что) в Bedrock. Модель мощная, но тупая как пробка для ваших конкретных задач. Она путает медицинские термины с кулинарными, юридические документы читает как меню ресторана, а техподдержку ведет так, что клиенты хотят разорвать контракт.

Вы открываете документацию AWS и видите: SFT, RFT, дистилляция, еще какая-то алхимия с приставкой "LoRA". Цены разные, результаты непредсказуемые, а timeline проекта уже горит. Выбор метода fine-tuning сегодня - это не техническое решение, а ставка на будущее с непонятными коэффициентами.

Самый частый провал - начать с SFT только потому что "это стандартно". Через месяц и $20,000 вы получаете модель, которая блестяще решает учебные задачи и полностью забыла, как отвечать на обычные вопросы.

Три пути в ад: разбираем методы по косточкам

Давайте без воды. Каждый метод - это компромисс между точностью, стоимостью и скоростью. Но не тем компромиссом, о котором пишут в блогах AWS.

Supervised Fine-Tuning (SFT): старый добрый молоток

SFT - это когда вы берете 5000 примеров "вопрос-ответ" и заставляете модель их выучить. Просто? Только на первый взгляд.

Почему это работает: модель перенастраивает свои веса под вашу конкретную задачу. Nova Pro Max имеет 340 миллиардов параметров (актуально на 2026 год), и даже небольшая корректировка меняет поведение.

Почему это ад: катастрофическое забывание. Модель так увлекается вашими медицинскими протоколами, что забывает, как составлять обычные предложения. Вы получается узкоспециализированного идиота.

💡
Если боитесь катастрофического забывания, посмотрите мой гайд Nova Forge vs. Катастрофическое забывание. Там разобрана техника смешивания данных, которая сохраняет общие знания модели.

Reinforcement Fine-Tuning (RFT): дрессировка с угощением

RFT - это когда вы не говорите модели, какой ответ правильный. Вы даете ей reward-функцию (функцию вознаграждения) и говорите: "Делай то, за что получишь печеньку".

Например, для чат-бота поддержки reward может учитывать: решил ли проблему, был ли вежлив, уложился ли в 5 сообщений.

Зачем это нужно: когда у вас нет эталонных ответов, но есть критерии качества. Или когда правильных ответов много, и вы хотите, чтобы модель находила оптимальный.

Подводный камень: reward hacking. Модель находит лазейки в вашей функции вознаграждения и оптимизирует не то, что вы хотели. Например, если награждать за краткость, она начнет отвечать "ок" на все вопросы.

RFT в Bedrock теперь поддерживает кастомные reward-модели через API. Раньше нужно было городить свой пайплайн, теперь можно подключить любую модель, которая возвращает число от 0 до 1. Даже ту же Nova, настроенную оценивать ответы.

Дистилляция: кража интеллекта

Дистилляция - это когда у вас есть большая, дорогая, точно настроенная модель (учитель), и вы учите маленькую, дешевую модель (ученик) имитировать ее поведение.

Магия здесь: ученик достигает 90% качества учителя при 10% размера и стоимости inference. Для Bedrock это значит, что вы можете донастроить Nova Pro Max, а затем "сжать" ее в более дешевую модель для продакшена.

Где спотыкаются: дистилляция не создает новые знания. Если учитель ошибается в 10% случаев, ученик усвоит и ошибки. Это копирование, а не обучение.

Цифры, которые заставят ваш финансовый отдел нервно курить

Метод Стоимость обучения (Nova Pro Max) Стоимость inference Требования к данным Время на подготовку Что получаете
SFT $15-25 за 1K токенов обучения Высокая (полная модель) 1000-10000 пар "вопрос-ответ" высокого качества 2-4 недели на разметку Эксперта в узкой области
RFT $20-40 за 1K токенов (дороже из-за итераций) Высокая (полная модель) Reward-функция + начальные промпты 1-2 недели на настройку reward Оптимизатора под метрики
Дистилляция $8-15 за 1K токенов (учитель + ученик) Низкая (маленькая модель) Выходы учителя на разнообразных запросах Неделя на генерацию данных Быструю копию эксперта

Цены актуальны на апрель 2026 года. Заметьте: самый дорогой метод не всегда дает лучший результат. Иногда дистилляция выигрывает просто потому, что вы можете позволить себе в 10 раз больше запросов в продакшене.

Пошаговый алгоритм выбора: как не прогадать

1 Спросите себя: что вы максимизируете?

Не точность. Никто не платит за точность. Платят за:

  • Снижение затрат на поддержку (автоматизируем 80% тикетов)
  • Ускорение процессов (анализ документов за секунды вместо часов)
  • Удержание клиентов (чат-бот, который не злит людей)

Если вам нужно снизить стоимость запроса в 10 раз - сразу смотрите на дистилляцию. Если важнее решить сложные кейсы - SFT или RFT.

2 Оцените свои данные (честно)

У вас есть 5000 размеченных примеров идеального поведения? Или только доступ к логам чатов, где 70% ответов "перезвоните нам"?

SFT требует качественных данных. Если их нет, их создание стоит как второй раунд финансирования. RFT требует четких метрик - если не можете формализовать, что такое "хороший ответ", даже не начинайте.

3 Прикиньте бюджет на обучение И на inference

Ошибка новичков: считают только стоимость fine-tuning. Nova Pro Max стоит $0.03 за 1K токенов на выход. Если ваш сервис обрабатывает 10 млн запросов в месяц - это $300,000 в месяц только за инференс.

Дистиллированная модель на базе Nova Lite (если такая появится к 2026) может стоить в 10 раз дешевле. Экономия за год покроет все расходы на обучение.

4 Запустите пилот на самом гибком варианте

Не заказывайте сразу fine-tuning за $50,000. Возьмите Nova Forge SDK (о котором я писал в этой статье) и сделайте быстрый прототип с few-shot обучением.

Если few-shot learning дает 70% нужного качества, значит, задача решаема. Если 30% - возможно, вам нужна не кастомизация, а другая архитектура.

Где все падают: 5 ошибок, которые совершают даже опытные

Ошибка 1: Fine-tuning вместо лучшего промпта
Перед тем как тратить $20,000, попробуйте улучшить промпт. Иногда добавление "Ты - опытный юрист с 20-летним стажем" дает +30% качества бесплатно.

Ошибка 2: Обучение на biased данных
Если ваши менеджеры пишут клиентам агрессивно, SFT научит модель быть агрессивной. RFT закрепит это поведение reward'ом за "быстрое решение".

Ошибка 3: Игнорирование latency
Дистиллированная модель быстрее, но если она работает в регионе с высокой задержкой (не в Окленде, про который я писал здесь), выигрыш съедается сетью.

Ошибка 4: Одна модель на все случаи жизни
Для сложных юридических документов - донастроенная Nova Pro Max. Для простых ответов клиентам - дистиллированная легкая модель. Не пытайтесь сделать универсальный солдат.

Ошибка 5: Забыть про A/B тестирование
Запустите новую модель на 5% трафика. Сравните не только accuracy, но и бизнес-метрики: конверсию, удовлетворенность, время решения.

Сценарии, где выбор очевиден (и неочевиден)

Медицинский чат-бот для симптомов: SFT. Нужна точность, ошибки стоят дорого. Катастрофическое забывание не страшно - бот не должен обсуждать погоду.

Генератор креативных текстов для рекламы: RFT. Нет "правильных" ответов, есть только "цепляющие" и "нецепляющие". Reward-функция может учитывать engagement метрики.

Анализ юридических документов в реальном времени: дистилляция. Юрист донастраивает Nova Pro Max на своих документах, затем создает легкую модель для paralegals. Скорость анализа важнее, чем 100% точность.

Неочевидный кейс: чат-бот поддержки банка. Казалось бы, SFT. Но если у банка 100 продуктов с меняющимися условиями - RFT с reward за актуальность информации. Модель научится искать свежие данные в knowledge base, а не полагаться на заученные ответы.

💡
Для сложных агентов, где LLM - только часть системы, посмотрите шаблон FAST. Там разобрана архитектура, где разные задачи решаются разными моделями.

Что будет завтра: тренды 2026-2027

К 2027 году дистилляция станет стандартом для продакшена. Компании будут держать "тяжелую" экспертизную модель для сложных случаев и "легкую" для 95% запросов. Стоимость инференса упадет в разы.

RFT интегрируется с системами мониторинга: reward-функция будет обновляться автоматически на основе реальных бизнес-метрик. Модель будет адаптироваться к изменениям в продукте без переобучения.

SFT останется для нишевых экспертных задач, но станет дороже. Разметка качественных данных - это работа экспертов, а их час стоит $200-500. Fine-tuning медицинской модели будет стоить как Lamborghini.

Мой совет: начните с дистилляции уже сегодня. Возьмите вашу текущую настройку через промпты, запустите ее на 1000 разнообразных запросов, и обучите маленькую модель на этих выходах. Даже если качество упадет на 5-10%, экономия на инференсе окупит это за месяц. А потом, когда поймете реальные потребности, инвестируйте в SFT или RFT для критически важных компонентов.

Подписаться на канал