Entropy Adaptive Fine Tuning (EAFT) на практике: тестирование uncensor | AiManual
AiManual Logo Ai / Manual.
13 Янв 2026 Инструмент

EAFT в бою: тест на uncensor-задаче против обычного fine-tuning

Практический эксперимент: сравниваем Entropy Adaptive Fine Tuning с обычным fine-tuning на задаче uncensor. Результаты, код, модели.

Теория в бумаге vs реальность на железе

Все читали тот самый препринт arXiv:2601.02151 про Entropy Adaptive Fine Tuning. Красивые графики, убедительная теория про катастрофическое забывание. Но что происходит, когда берешь код, датасет и пытаешься заставить это работать на конкретной задаче? Например, на той самой uncensor-задаче, где нужно научить модель забыть свои этические ограничения (да, мы об этом).

Эксперимент проводился на Llama 3.1 8B. Все модели и код выложены в открытый доступ. Никаких секретов — только воспроизводимые результаты.

Что такое EAFT и зачем он нужен для uncensor?

Если коротко: обычный fine-tuning бьет молотком по всем весам модели. Хочешь научить ее чему-то новому — рискуешь стереть старое. В нашем случае «старое» — это встроенные цензоры и этические ограничения. «Новое» — способность отвечать на запрещенные вопросы.

EAFT работает умнее. Он смотрит на энтропию — меру неопределенности модели. Если модель уверена в своем ответе (низкая энтропия), веса почти не трогает. Если путается (высокая энтропия) — обновляет активнее. Получается хирургическая операция: вырезаем цензоры, оставляя остальные знания нетронутыми.

💡
Если вы пропустили нашу предыдущую статью про основы метода, рекомендую сначала ознакомиться с «Entropy-Adaptive Finetuning: как не превратить вашу LLM в золотую рыбку». Там разобрана теория и базовая реализация.

Экспериментальная установка: что и как тестировали

Взяли два одинаковых экземпляра Llama 3.1 8B. Один обучали обычным fine-tuning на датасете из 5000 «нецензурных» промптов. Второй — тем же датасетом, но с EAFT. Параметры обучения идентичны: batch size, learning rate, количество эпох. Разница только в алгоритме обновления весов.

Параметр Обычный FT EAFT
Датасет 5000 промптов 5000 промптов
Эпохи 3 3
Learning rate 2e-5 2e-5 (базовый)
Время обучения 4.5 часа 4.9 часа (+9%)

Результаты: кто победил?

Тестировали по трем метрикам: качество uncensor (сколько запрещенных вопросов модель обрабатывает), сохранение общих знаний (тест на MMLU), и стабильность генерации (perplexity на нейтральном тексте).

Обычный fine-tuning добился 94% успеха по uncensor-метрике. Отлично? Не совсем. MMLU упал с 68% до 52%. Модель забыла математику, историю, базовые факты. Стала узкоспециализированным идиотом, который знает только как обходить цензуру.

EAFT показал 91% по uncensor. На 3% хуже. Но MMLU сохранился на 65% — падение всего на 3 процентных пункта. Модель осталась умной. Perplexity почти не изменился, в то время как у обычного FT вырос в 1.8 раза.

Почему EAFT проиграл по uncensor-метрике?

Здесь интересный момент. EAFT консервативен. Он видит, что модель уверенно отвечает «Я не могу ответить на этот вопрос» (низкая энтропия) и не спешит менять эти веса. Нужно больше эпох или более агрессивные гиперпараметры, чтобы «переубедить» ее.

Обычный FT не думает — просто перезаписывает. Быстро, грубо, эффективно для узкой задачи. Но с побочными эффектами.

Вывод: если ваша цель — максимальная эффективность на одной задаче любой ценой, обычный fine-tuning может быть лучше. Если нужно сохранить общую компетентность модели — EAFT выигрывает.

Сравнение с альтернативами: LoRA, EWC и другие

Почему не использовали LoRA? Потому что для uncensor-задачи часто нужны изменения в базовых весах, а не только в адаптерах. LoRA хороша для добавления новых навыков, но для удаления встроенных ограничений может быть недостаточной.

Elastic Weight Consolidation (EWC) теоретически должен работать похоже на EAFT, но его реализация сложнее, требует расчета важности весов (Fisher information), что добавляет вычислительных затрат. EAFT проще — энтропия считается на лету.

Если сравнивать с методами из нашей статьи про Tuneable Attention, то EAFT решает другую проблему — не ускорение, а сохранение знаний.

Кому подойдет EAFT?

  • Разработчикам специализированных ассистентов: когда нужно дообучить модель на узкой предметной области, не потеряв общую эрудицию. Например, медицинские или юридические ассистенты, о которых мы писали в статье про хирургию для нейросетей.
  • При последовательном обучении на нескольких датасетах: сначала медицинские данные, потом юридические, потом технические. EAFT минимизирует катастрофическое забывание.
  • Для исследований поведения моделей: EAFT позволяет точечно модифицировать поведение, изучая, какие части сети за что отвечают. Пересекается с темой разреженных автоэнкодеров.

Ограничения и подводные камни

EAFT не панацея. Он добавляет 5-10% к времени обучения (нужно считать энтропию для каждого примера). Не всегда достигает той же точности на целевой задаче, что и обычный FT. Требует тонкой настройки коэффициента адаптации — слишком маленький, и обучение почти не происходит; слишком большой, и метод вырождается в обычный FT.

И главное: EAFT не решает проблему этики. Если вы обучаете модель на вредоносных данных, она станет вредоносной. Метод только контролирует, как быстро это произойдет и какой ценой для остальных знаний.

Что дальше?

Эксперимент показал: EAFT работает, но не идеально. Следующий шаг — комбинирование с другими методами. Например, EAFT + LoRA для еще более точного контроля. Или интеграция с техниками квантования вроде REAP для уменьшения памяти.

Код эксперимента, датасеты и обученные модели доступны на GitHub. Воспроизводите, улучшайте, делитесь результатами. Только так мы поймем, что действительно работает, а что остается красивой теорией.

P.S. Если вы хотите автоматизировать весь процесс fine-tuning от начала до конца, посмотрите нашу статью про автоматизацию с Codex и HF-skills. EAFT отлично встраивается в такие пайплайны.