Катастрофа, которая съедает ваши модели
Вы потратили три недели и $20 000 на обучение своей корпоративной Llama 3.2 405B на внутренних технических мануалах. Модель теперь идеально генерирует код по вашим стандартам. Но спросите ее, сколько будет 15*15, и она выдаст поток сознания про рефакторинг legacy-систем. Поздравляю, ваша LLM превратилась в идиота-саванта.
Катастрофическое забывание (catastrophic forgetting) - это не баг, а фундаментальное свойство нейронных сетей. Когда вы тонко настраиваете модель на узком датасете, веса перезаписываются. Старые знания стираются. Модель забывает, как быть умной.
В 2026 году это стало основной причиной провала 67% корпоративных проектов по кастомизации LLM. Компании получают узкого эксперта, который забыл базовую логику.
Nova Forge: не волшебство, а продуманный микс
В марте этого года AWS выкатила Nova Forge. Сервис позиционируют как «управляемый fine-tuning», но фишка в другом. Он заставляет модели не тупеть.
Внутри нет магии - только жесткая методология data mixing (смешивания данных). Алгоритм автоматически подмешивает общие данные к вашим специализированным. Вы загружаете датасет по медицинской терминологии? Nova Forge добавит к нему выборку из GSM8K (математика), SQuAD 3.0 (понимание контекста) и общих диалогов из OpenAssistant 2025.
Пропорция фиксирована: 70% ваших данных, 30% общих. Именно этот баланс, по заявлению AWS, сохраняет «общий интеллект» модели, пока она учится новому. Звучит просто. Работает чертовски эффективно.
Как работает data mixing на практике?
Открываете интерфейс Nova Forge (или вызываете API). Выбираете базовую модель - например, свежий Nemotron 3 Nano 30B MoE или Mistral 8x22B 2025 Edition. Загружаете свой датасет в формате JSONL.
Сервис сам анализирует домен ваших данных. Техническая документация? Юридические тексты? Код на Rust? И подбирает соответствующий «противовес» из своей библиотеки общих корпусов.
Обучение запускается на кластере GPU в Kubernetes. Вы платите за время инференса. Вуаля - через несколько часов получаете модель, которая и ваши специфичные промпты понимает, и таблицу умножения помнит.
На 15 марта 2026 года Nova Forge поддерживает все основные открытые архитектуры: Llama 3.2, Command R+, Qwen 2.5, Gemma 2 и их производные. Под капотом используется оптимизированный фреймворк на базе Hugging Face Transformers 4.45.
Full-rank vs PEFT: старый спор, новый поворот
Вечный вопрос: настраивать все параметры (full-rank SFT) или только адаптеры (PEFT, LoRA, QLoRA)? В 2026 году ответ звучит так: неважно, если вы не смешиваете данные.
| Метод | Риск забывания | Спасение через смешивание |
|---|---|---|
| Full-rank SFT | Высокий. Меняются все веса. | Обязательно. Без этого модель деградирует за одну эпоху. |
| PEFT (LoRA) | Средний. Меняются только адаптеры. | Критически важно. Адаптеры могут «перекрыть» важные веса базовой модели. |
| QLoRA (4-bit) | Высокий, из-за квантования. | Единственный способ сохранить хоть какую-то адекватность. |
Nova Forge по умолчанию использует полную настройку для моделей до 70B параметров. Для более крупных - PEFT с адаптерами LoRA. Но в любом случае data mixing включен всегда. Его нельзя отключить. (Разработчики AWS знают, что мы, инженеры, любим отключать «ненужные» фичи и потом плакать).
Что делать, если нет доступа к Nova Forge?
Сервис новый, доступен не всем регионам и не всем кошелькам. Если вы не можете его использовать, придется делать микс вручную. Это больно, но возможно.
Возьмите свой датасет. Добавьте в него 30% общих данных. Где их взять? Бесплатные варианты на 2026 год:
- OpenHermes 2.5 Dataset - для диалоговых навыков.
- Mathematical AI Benchmarks (MAB) - для логики и арифметики.
- CodeExercises от BigCode - для понимания структуры кода.
Смешайте. Обучите модель. Протестируйте не только на своих промптах, но и на общих вопросах. Если модель начала путаться - увеличьте долю общих данных. Методом тыка. (Да, вручную это именно так и работает).
Для стабилизации обучения посмотрите советы по стабилизации SFT. И не пытайтесь запускать это на одном задыхающемся GPU - возьмите нормальный кластер, хотя бы через AWS SageMaker или конкурентов.
Главная ошибка при самостоятельном смешивании - непропорциональные домены. Нельзя мешать медицинские тексты с датасетом по Star Trek. Модель сойдет с ума. Используйте семантически близкие общие данные.
Философский итог: интеллект как баланс
Nova Forge не решила проблему катастрофического забывания раз и навсегда. Она ее обошла, заставив модели постоянно практиковаться в разных навыках. Это как если бы вы, изучая японский, каждый день решали математические задачки на родном языке.
В будущем, возможно, появятся архитектуры с изолированной памятью (что-то вроде энтропийной адаптивной настройки). Но пока что data mixing - единственный работающий метод в продакшене.
Мой прогноз? К концу 2026 года все облачные платформы для fine-tuning будут использовать подобное смешивание. А те, кто продолжит тупо «долбить» модели узкими датасетами, получат армию высокоспециализированных идиотов. Что, впрочем, уже происходит в некоторых крупных банках.