Какая последовательность техник тонкой настройки наиболее эффективна?

Правильная последовательность: SFT → DPO/PPO → GRPO. SFT создает базовую компетенцию, DPO/PPO добавляют гибкость и соответствие предпочтениям, GRPO оптимизирует групповое взаимодействие.

Сколько данных нужно для эффективной тонкой настройки?

Amazon использовал 50,000 примеров для каждого типа агента для SFT и 500,000 пар сравнений для DPO. Минимальный рабочий набор - 1,000 качественных примеров на агента.

Можно ли использовать эти техники с открытыми LLM?

Да, техники работают с любыми LLM. Amazon использовал Mixtral 8x22B, DeepSeek Coder 33B, Qwen 2.5 14B в комбинации с GPT-4.5 Turbo для координации.

Какое оборудование требуется для развертывания?

Для продакшена Amazon использует NVIDIA RTX 6000 Pro Blackwell 96GB. Для начала можно использовать технику квантования (GGUF/AWQ) для запуска на более доступном оборудовании с 24-48GB VRAM.

В чем главное преимущество GRPO перед другими методами?

GRPO оптимизирует не отдельных агентов, а всю группу как единое целое. Агенты учатся явно документировать предположения, использовать стандартизированные форматы и предвосхищать потребности других агентов в цепочке.

Тонкая настройка LLM для агентов: SFT, PPO, DPO, GRPO от Amazon | 2026

Когда базовый промптинг уже не работает

Вы построили мультиагентную систему. У вас есть агент-планировщик, агент-исполнитель, агент-валидатор. Все общаются через общий контекст, передают друг другу сообщения. И все работает... пока не начинает работать.

Проблема в том, что базовые LLM - даже самые продвинутые модели типа GPT-4.5 Turbo (актуальная версия на январь 2026) - не обучены специфике мультиагентного взаимодействия. Они генерируют ответы для человека, а не для другого агента. Это приводит к:

Неконсистентным форматам ответов (сегодня JSON, завтра Markdown)
Пропуску критических полей в структурированных данных
Неявным предположениям о состоянии других агентов
Катастрофическому накоплению ошибок в цепочках агентов

Типичная ошибка: пытаться решить проблему через промпт-инжиниринг. Добавлять все больше инструкций в системный промпт. Результат? Контекст раздувается до 16K токенов, латентность растет, а качество падает. Это тупик.

Amazon столкнулся с этой проблемой в 2024 году при развертывании внутренних мультиагентных систем для автоматизации кода, тестирования и деплоя. Их решение - не промпты, а систематическая тонкая настройка LLM под конкретные роли агентов.

Supervised Fine-Tuning (SFT): не просто дообучение, а перепрошивка поведения

SFT часто воспринимают как "дообучение модели на дополнительных данных". В контексте мультиагентных систем - это полная перепрошивка поведения LLM под конкретную роль.

💡

Ключевое отличие: вы обучаете не на общих диалогах, а на реальных взаимодействиях между агентами. Каждый пример - это полный цикл коммуникации в системе.

1Собираем тренировочные данные

Amazon использовал подход "shadow mode": запускали мультиагентную систему параллельно с человеческими операторами. Каждое человеческое действие записывалось как "идеальный ответ" соответствующего агента.

# Пример структуры данных для SFT агента-валидатора
{
    "agent_role": "validator",
    "input_context": "Agent 'planner' output: {\"action\": \"deploy_service\", \"service_name\": \"api-gateway\", \"version\": \"v2.3.1\"}",
    "expected_output": "{\"status\": \"validation_passed\", \"checks\": [\"version_semantic\", \"dependencies_met\"], \"next_step\": \"executor\"}",
    "metadata": {
        "timestamp": "2025-11-15T14:30:00Z",
        "human_operator_id": "op-789",
        "system_state": "production"
    }
}

Важный нюанс: данные должны покрывать не только успешные сценарии, но и edge cases - ошибки, частичные успехи, нестандартные ситуации. Amazon собрал 50,000 таких примеров для каждого типа агента.

2Настраиваем параметры обучения

Здесь большинство ошибается, используя стандартные параметры из туториалов. Для мультиагентных систем нужны специфические настройки:

Параметр	Обычное значение	Значение для агентов	Почему
Learning rate	2e-5	1e-6	Меньше "забывания" базовых способностей
Epochs	3	1-2	Предотвращение overfitting на специфичных данных
Context length	4096	8192+	Агенты работают с длинными историями взаимодействий

Результат после SFT: снижение ошибок формата на 67%, но... появилась новая проблема. Агенты стали слишком "послушными", потеряли способность к креативному решению нестандартных задач.

Proximal Policy Optimization (PPO): добавляем гибкости через RL

SFT дает консистентность, но убивает адаптивность. PPO возвращает баланс через reinforcement learning.

В Amazon построили симулятор мультиагентной системы, где агенты получают reward за:

Успешное завершение задачи (основной reward)
Минимизацию количества шагов (эффективность)
Сохранение консистентности форматов (читаемость для других агентов)
Избегание опасных действий (safety)

# Упрощенная функция reward для PPO
class AgentReward:
    def calculate(self, agent_action, system_state):
        reward = 0
        
        # Базовый reward за завершение подзадачи
        if agent_action["status"] == "completed":
            reward += 10
        
        # Penalty за лишние шаги
        reward -= system_state["steps_taken"] * 0.1
        
        # Важность консистентности формата
        if self._is_valid_format(agent_action):
            reward += 5
        else:
            reward -= 3  # Другие агенты не поймут
            
        # Safety penalty
        if self._is_dangerous_action(agent_action):
            reward -= 20  # Сильный негативный reward
            
        return reward

Критическая ошибка: использовать одну общую модель для всех агентов в PPO. Каждый тип агента должен иметь свою политику, иначе они "сходятся" к усредненному, бесполезному поведению.

После PPO тонкой настройки Amazon получил улучшение на 33% в решении нестандартных задач, при сохранении 85% консистентности от SFT этапа.

Direct Preference Optimization (DPO): когда человеческая оценка слишком дорога

PPO требует симулятора с четко определенными reward функциями. Но многие аспекты качества субъективны: "насколько понятно агент объяснил свою логику", "насколько элегантно решение".

DPO решает это через сравнение пар ответов. Вместо того чтобы определять абсолютный reward, человек (или более мощная LLM) просто выбирает, какой из двух ответов лучше.

Amazon автоматизировал этот процесс:

Генерировали два варианта ответа для одного контекста
Использовали GPT-4.5 Turbo как "супервизора" для сравнения
Собирали предпочтения в масштабе (500,000 пар)
Обучали через DPO, максимизируя вероятность предпочитаемых ответов

💡

Трюк: используйте разные LLM как супервизоров для разных аспектов. GPT-4.5 для общей логики, Claude 3.7 для безопасности, специализированную модель для code quality.

Результат - улучшение human preference alignment на 41% при сокращении человеческих усилий на 80% (по сравнению с pure human evaluation).

GRPO: Group Relative Policy Optimization - секретное оружие Amazon

Самый интересный паттерн - GRPO, разработанный внутри Amazon специально для мультиагентных систем. Идея в том, что агенты оптимизируются не изолированно, а как группа.

Вместо "как этому агенту стать лучше" система задает вопрос "как всей группе агентов стать более эффективной вместе".

Технически это выглядит так:

# Псевдокод GRPO training loop
for episode in range(total_episodes):
    # Запускаем группу агентов
    group_outputs = []
    for agent in agent_group:
        output = agent.act(shared_context)
        group_outputs.append(output)
    
    # Вычисляем групповой reward
    group_reward = calculate_group_reward(group_outputs)
    
    # Распределяем reward между агентами
    # Ключевая часть: reward зависит от вклада в групповой успех
    individual_rewards = []
    for i, agent_output in enumerate(group_outputs):
        contribution = calculate_contribution(agent_output, group_outputs)
        # Агент получает больше, если его вывод помогает другим агентам
        individual_reward = group_reward * contribution
        individual_rewards.append(individual_reward)
    
    # Обновляем политики с учетом группового контекста
    update_policies(agent_group, individual_rewards, group_context)

Эффект поразительный: агенты начинают:

Явно документировать свои предположения для следующих агентов
Использовать стандартизированные форматы без явного требования
Предвосхищать потребности других агентов в цепочке
Создавать "интеллектуальные интерфейсы" между собой

Метрика успеха Amazon: после внедрения GRPO общее время выполнения сложных мультиагентных задач сократилось на 45%, при этом количество ручных вмешательств упало на 72%.

Паттерны оркестрации в продакшене

Техники тонкой настройки - только половина уравнения. Вторая половина - как организовать работу множества специализированных моделей.

Amazon использует паттерн "Skill-based Routing":

Входящий запрос анализируется классификатором
Определяется необходимый набор навыков (skills)
Запрос маршрутизируется к соответствующей группе агентов
Каждый агент имеет свою тонко настроенную LLM
Результаты агрегируются через координатора

Это похоже на подход, описанный в статье про Agent Skills, но с важным дополнением: каждый "skill" - это не просто промпт, а отдельная тонко настроенная модель.

Тип агента	Базовая модель	Техника настройки	Размер (GB)	Латентность (p95)
Планировщик	Mixtral 8x22B	SFT + DPO	42	850 мс
Исполнитель кода	DeepSeek Coder 33B	SFT + GRPO	19	1200 мс
Валидатор	Qwen 2.5 14B	SFT + PPO	8	400 мс
Координатор	GPT-4.5 Turbo	API (no fine-tuning)	N/A	2200 мс

Обратите внимание на стратегию: более тяжелые модели для сложных задач (планирование), легкие - для простых, но частых (валидация). Координатор - внешний API, потому что ему нужна максимальная гибкость.

Инфраструктурные требования: где это все запускать

Тонкая настройка мультиагентной системы - это не только алгоритмы, но и железо. Amazon использует:

NVIDIA RTX 6000 Pro Blackwell 96GB для обучения и инференса тяжелых моделей
Кластеры из 8-16 GPU для параллельного обслуживания разных агентов
Специализированные оптимизации через vLLM для максимальной throughput

Если у вас нет бюджета Amazon, начинайте с оптимизаций. Например, используйте техники квантования GGUF и AWQ для уменьшения размера моделей без существенной потери качества.

Для локального развертывания на ограниченных ресурсах посмотрите статью про оптимизацию памяти под агентные системы.

Чего не делать: антипаттерны из реальных провалов

За 2 года экспериментов Amazon набил достаточно шишек. Вот что точно не работает:

Антипаттерн 1: Тонкая настройка всех агентов на одном датасете. Результат - агенты становятся слишком похожими, теряют специализацию.

Антипаттерн 2: Использование PPO без четкой reward функции. Модель быстро находит лазейки для максимизации reward без реального улучшения.

Антипаттерн 3: Запуск GRPO до SFT. Агенты не имеют базовой компетенции, "кооперация" превращается в "коллективное безумие".

Правильная последовательность: SFT → DPO/PPO → GRPO. Каждый этап строит поверх предыдущего.

Что будет дальше: тренды на 2026-2027

По данным внутренних исследований Amazon, следующие прорывы будут в:

Cross-agent transfer learning: Агенты смогут делиться "знаниями" без переобучения
Dynamic architecture adjustment: Система будет менять количество и типы агентов на лету
Multi-modal agent tuning: Тонкая настройка не только для текста, но для кода, изображений, данных
Federated fine-tuning: Обучение на распределенных данных без их централизации

Самый интересный тренд - появление "meta-agents", которые сами оптимизируют архитектуру мультиагентной системы под конкретную задачу. Это следующий уровень абстракции, где AI проектирует AI системы.

Но пока это будущее. Сегодняшний совет: начните с SFT для самого проблемного агента в вашей системе. Соберите 1000 качественных примеров, дообучите модель, измерьте эффект. Это даст больше, чем месяцы теоретических изысканий.

И помните главный принцип Amazon: "Каждый агент должен быть настолько хорош в своей роли, чтобы другим агентам было легко с ним работать". Это не про максимальную точность, а про максимальную сочетаемость.

Продвинутые техники тонкой настройки LLM для мультиагентных систем: паттерны Amazon в продакшене