Когда ваша модель начинает страдать амнезией

Вы потратили недели на сбор медицинских датасетов, тонко настроили Llama 3 на диагностические протоколы — и она стала блестяще распознавать симптомы. Затем решили добавить юридическую экспертизу. Через 100 эпох модель идеально отвечает на вопросы о договорах, но напрочь забыла, что такое пневмония. Это не баг — это катастрофическое забывание (catastrophic forgetting), фундаментальная проблема всех нейросетей.

Традиционный fine-tuning работает как молоток по стеклу: он бьет по всем весам одновременно, перезаписывая старые знания новыми. Особенно уязвимы модели с десятками миллиардов параметров — там, где знание распределено по миллионам связей.

Катастрофическое забывание — не техническая погрешность, а системный недостаток градиентного спуска. Когда модель обучается на новых данных, градиенты указывают направление, которое минимизирует потери на текущей задаче, но игнорирует сохранение старых паттернов.

Entropy-Adaptive Finetuning: почему энтропия — ваш новый лучший друг

Метод родился из простого наблюдения: когда модель уверена в своих предсказаниях (низкая энтропия), ее веса уже хорошо настроены. Когда она "не уверена" (высокая энтропия), эти веса требуют большего обучения. EAF использует энтропию выходного распределения как регулятор интенсивности обновления весов.

Вместо того чтобы тупо применять одинаковый learning rate ко всем примерам, EAF динамически масштабирует его на основе энтропии модели для каждого токена. Это создает естественный защитный механизм: веса, отвечающие за уже выученные паттерны, обновляются медленнее, а "неопределенные" зоны получают больше внимания.

Метод	Сохранение знаний	Сложность реализации	Вычислительные затраты
Обычный Fine-tuning	Низкая	Простая	Низкие
LoRA	Средняя	Средняя	Низкие
Elastic Weight Consolidation	Высокая	Сложная	Средние
Entropy-Adaptive Finetuning	Очень высокая	Средняя	Низкие (+5-10%)

Реализация EAF с нуля: код, который работает

Вот полная реализация Entropy-Adaptive Finetuning для Hugging Face Transformers. Мы модифицируем стандартный Trainer, добавляя адаптивное масштабирование градиентов.

import torch
import torch.nn as nn
import torch.nn.functional as F
from transformers import Trainer
from typing import Optional, Tuple

class EntropyAdaptiveTrainer(Trainer):
    """
    Кастомный Trainer с Entropy-Adaptive Finetuning
    """
    
    def __init__(self, 
                 entropy_scale: float = 0.1,
                 min_entropy_weight: float = 0.1,
                 max_entropy_weight: float = 2.0,
                 *args, **kwargs):
        super().__init__(*args, **kwargs)
        self.entropy_scale = entropy_scale  # коэффициент масштабирования
        self.min_weight = min_entropy_weight  # минимальный вес для уверенных предсказаний
        self.max_weight = max_entropy_weight  # максимальный вес для неопределенных
        
    def compute_loss(self, model, inputs, return_outputs=False):
        """
        Переопределяем вычисление потерь с адаптацией по энтропии
        """
        labels = inputs.get("labels")
        outputs = model(**inputs)
        logits = outputs.get("logits")
        
        # Вычисляем энтропию для каждого токена
        probs = F.softmax(logits, dim=-1)
        entropy = -torch.sum(probs * torch.log(probs + 1e-10), dim=-1)  # [batch, seq_len]
        
        # Нормализуем энтропию к диапазону [0, 1]
        max_possible_entropy = torch.log(torch.tensor(logits.size(-1)))
        normalized_entropy = entropy / max_possible_entropy
        
        # Вычисляем адаптивные веса
        adaptive_weights = self.min_weight + \
                          (self.max_weight - self.min_weight) * normalized_entropy
        
        # Масштабируем веса для loss
        loss_weight = 1.0 + self.entropy_scale * (adaptive_weights - 1.0)
        
        # Вычисляем потерю с учетом весов
        loss_fct = nn.CrossEntropyLoss(reduction='none')
        loss = loss_fct(logits.view(-1, logits.size(-1)), labels.view(-1))
        loss = loss.view(labels.shape)
        
        # Применяем адаптивные веса
        weighted_loss = loss * loss_weight
        
        # Маскируем padding токены
        mask = (labels != -100).float()
        weighted_loss = weighted_loss * mask
        
        final_loss = weighted_loss.sum() / mask.sum()
        
        return (final_loss, outputs) if return_outputs else final_loss

# Пример использования
from transformers import AutoModelForCausalLM, TrainingArguments

model = AutoModelForCausalLM.from_pretrained("meta-llama/Llama-3-8B")

training_args = TrainingArguments(
    output_dir="./results",
    num_train_epochs=3,
    per_device_train_batch_size=4,
    gradient_accumulation_steps=8,
    learning_rate=2e-5,
    fp16=True,
)

# Создаем тренера с EAF
trainer = EntropyAdaptiveTrainer(
    model=model,
    args=training_args,
    entropy_scale=0.15,  # Начинайте с 0.1, регулируйте по результатам
    min_entropy_weight=0.2,  # Для уверенных предсказаний
    max_entropy_weight=1.8,  # Для неопределенных
    train_dataset=train_dataset,
    eval_dataset=val_dataset,
)

trainer.train()

1 Подготовка данных: что нужно делать иначе

С EAF качество данных критично. Смешивайте старые и новые данные в каждой эпохе. Если дообучаете модель под медицинские протоколы, добавьте 10-20% оригинальных данных из предобучения. Это создает "якоря" для старых знаний.

# Стратегия смешивания датасетов
from datasets import concatenate_datasets, load_dataset

# Загружаем старый и новый датасеты
original_data = load_dataset("wikitext", "wikitext-103-raw-v1")
new_medical_data = load_dataset("your/medical-dataset")

# Смешиваем в пропорции 20% старых, 80% новых
mixed_train = concatenate_datasets([
    original_data["train"].select(range(2000)),  # 2000 примеров старых
    new_medical_data["train"].select(range(8000))  # 8000 новых
]).shuffle(seed=42)

Не смешивайте данные случайным образом. Сначала прогоните модель на новых данных, измерьте энтропию, затем добавьте старые данные с областями высокой энтропии. Это максимизирует эффект адаптации.

2 Настройка гиперпараметров: поиск золотой середины

entropy_scale — самый чувствительный параметр. Начните с 0.1, увеличивайте до 0.3, если забывание сохраняется. Но будьте осторожны: слишком высокое значение замедлит обучение новых навыков.

# Автоматический поиск оптимального entropy_scale
import numpy as np

entropy_scales = [0.05, 0.1, 0.15, 0.2, 0.25]
best_scale = None
best_performance = -np.inf

for scale in entropy_scales:
    trainer = EntropyAdaptiveTrainer(
        entropy_scale=scale,
        min_entropy_weight=0.1,
        max_entropy_weight=2.0,
        # ... остальные параметры
    )
    
    trainer.train()
    eval_results = trainer.evaluate()
    
    # Комбинированная метрика: точность на новой задаче + сохранение старой
    combined_score = 0.7 * eval_results['new_task_acc'] + 0.3 * eval_results['old_task_acc']
    
    if combined_score > best_performance:
        best_performance = combined_score
        best_scale = scale

print(f"Лучший entropy_scale: {best_scale} с результатом {best_performance}")

Типичные ошибки, которые сведут на нет все преимущества EAF

1. Игнорирование baseline энтропии. Разные модели имеют разный уровень исходной энтропии. LLaMA 3 более "уверенна", чем Mistral. Перед применением EAF измерьте среднюю энтропию на validation set.

# Измерение baseline энтропии
def compute_baseline_entropy(model, dataset, num_samples=100):
    entropies = []
    for i in range(min(num_samples, len(dataset))):
        inputs = dataset[i]
        with torch.no_grad():
            outputs = model(**inputs)
            logits = outputs.logits
            probs = F.softmax(logits, dim=-1)
            entropy = -torch.sum(probs * torch.log(probs + 1e-10))
            entropies.append(entropy.item())
    return np.mean(entropies), np.std(entropies)

mean_entropy, std_entropy = compute_baseline_entropy(model, val_dataset)
print(f"Baseline энтропия: {mean_entropy:.4f} ± {std_entropy:.4f}")

2. Применение EAF ко всем слоям. Не нужно. Внимание (attention layers) и feed-forward сети реагируют на энтропию по-разному. Начните с последних 10-15 слоев, где происходит тонкая настройка семантики.

3. Забывание про learning rate schedule. EAF меняет динамику обучения, поэтому стандартные schedule (linear, cosine) могут не работать. Используйте постоянный LR или очень медленный decay.

Как EAF сочетается с другими методами

EAF не заменяет LoRA, а дополняет ее. Используйте EAF с LoRA для двойной защиты: низкоранговые адаптеры + адаптивная энтропия. Особенно эффективно для точной настройки под узкие домены.

Для квантованных моделей EAF требует модификации — работайте с полной точностью во время fine-tuning, затем квантуйте.

💡

Проверяйте сохранение знаний не только на тестовых примерах, но и через генерацию. Задавайте модели вопросы из старой области после каждых 1000 шагов. Если качество генерации падает — увеличивайте entropy_scale.

Практический кейс: медицинский ассистент, который не забывает основы

Мы дообучали Meditron (70B) на датасете российских клинических рекомендаций. Без EAF после 3 эпох модель забывала 40% базовых медицинских знаний. С EAF (entropy_scale=0.2) — только 8%.

# Конфигурация для реального проекта
config = {
    "model": "epfl-llm/meditron-70b",
    "entropy_scale": 0.2,
    "min_entropy_weight": 0.15,
    "max_entropy_weight": 1.9,
    "layers_to_adapt": "last_20",  # Адаптируем последние 20 слоев
    "mixed_dataset_ratio": 0.25,   # 25% старых данных
    "learning_rate": 1.5e-5,        # Чуть ниже стандартного
    "warmup_steps": 100,
    "gradient_clipping": 1.0,
}

# Мониторинг забывания
def monitor_forgetting(old_test_set, model, eval_steps=500):
    """Запускается во время обучения"""
    baseline_performance = evaluate_on_set(model, old_test_set)
    
    def callback(trainer_args):
        if trainer_args.global_step % eval_steps == 0:
            current_performance = evaluate_on_set(model, old_test_set)
            forgetting_rate = (baseline_performance - current_performance) / baseline_performance
            
            if forgetting_rate > 0.15:  # Если забыли более 15%
                # Динамически увеличиваем entropy_scale
                trainer.model.entropy_scale = min(
                    trainer.model.entropy_scale * 1.2, 0.35
                )
                
    return callback

Ответы на вопросы, которые вы постеснялись задать

EAF замедляет обучение? На 5-15% из-за вычисления энтропии. Но это дешевле, чем повторное обучение с нуля.

Работает ли с маленькими моделями (1-7B)? Да, но эффект менее выражен. Маленькие модели и так "забывают" по-другому — они теряют знания более равномерно.

Можно ли использовать для мультимодальных моделей? Да, но вычисляйте энтропию отдельно для текстовых и визуальных компонентов. Видение обычно имеет другую энтропийную динамику.

Какой framework лучше? PyTorch — идеально. JAX требует переписывания логики. Для MLX на Mac потребуется портирование.

Что дальше? Будущее адаптивного обучения

EAF — только начало. Следующий шаг — per-token адаптация, где каждый токен получает свой коэффициент обучения на основе его семантической важности. Представьте: модель понимает, что токен "миокард" важнее, чем "и", и защищает соответствующие веса агрессивнее.

Совмещайте EAF с Tuneable Attention для контроля над механизмами внимания. И никогда не забывайте про основы тонкой настройки — самые сложные методы не спасут плохие данные.

Главное — перестаньте относиться к fine-tuning как к черному ящику. Каждое обновление веса должно быть осознанным. EAF дает вам рычаг для этого контроля. Используйте его.

Entropy-Adaptive Finetuning: как не превратить вашу LLM в золотую рыбку