Дообучение Pythia-6.9B для многоязычного инструктивного следования: опыт, датасеты, результаты

Почему ваш GPT-3.5 не знает татарского?

Вы пробовали попросить GPT-4 написать промт на суахили? Спойлер: ничего хорошего. Большие модели заточены под английский, даже если разработчики клянутся «многоязычностью». На практике это 50 языков с качеством «сойдёт», а для остальных — откровенный мусор. Особенно это бесит, когда нужно делать локальный продукт для региона, где говорят на 10+ языках, и нет денег на API каждой модели.

В этой статье я расскажу, как за 550 шагов дообучил Pythia-6.9B (открытую модель от EleutherAI) так, что она заговорила на 13 языках — от арабского до вьетнамского. Никаких суперкомпьютеров, только LoRA, два датасета и немного кофе. Код, датасеты и веса доступны на HuggingFace (ссылки внизу).

Ключевое отличие от типичных туториалов: мы не просто склеиваем переводы, а учим модель понимать инструкции на разных языках — т.е. instruction following в мультиязычном режиме.

Зачем вообще трогать Pythia-6.9B?

Pythia — это серия моделей от EleutherAI, обученных на The Pile. Они не самые популярные (все бегут за LLaMA, Gemma, Qwen), но у них есть огромный плюс: полная прозрачность. Все веса, данные, логи обучения — open source. Для экспериментов с дообучением это спасение. 6.9B параметров — золотая середина: можно запустить даже на одной A100 (40 ГБ) с LoRA.

Я выбрал Pythia-6.9B-deduped — версию с удалёнными дубликатами. Меньше шума, чище обучение. Базовая модель уже знает несколько языков (английский, французский, немецкий, испанский...), но её instruction-following — просто «дайте мне текст, я продолжу». Наша задача — сделать из неё ассистента, который отвечает на вопрос, а не дописывает его.

💡

Кстати, о проблемах маленьких моделей: недавно я разбирал эксперимент, где SFT-дообучение на 1B–3B моделях ухудшало следование инструкциям. С Pythia-6.9B такого не случилось (спасибо большему размеру и качественному претрейнингу).

Датасеты: два кита, на которых всё держится

Вместо того чтобы собирать мультиязычные данные с нуля (а это ад), я взял два проверенных датасета и перетасовал их, добавив переводы для недостающих языков. В итоге получилось 140 000 примеров на 13 языках. Вот состав:

Язык	Количество примеров
Английский (en)	40 000
Испанский (es)	15 000
Французский (fr)	12 000
Немецкий (de)	10 000
Итальянский (it)	8 000
Португальский (pt)	8 000
Русский (ru)	10 000
Арабский (ar)	7 000
Турецкий (tr)	6 000
Китайский (zh)	8 000
Японский (ja)	6 000
Корейский (ko)	5 000
Вьетнамский (vi)	5 000

Первый датасет — OpenAssistant (oasst1). Отличная база: диалоги на десятках языков, размеченные вручную. Мы взяли только пары «запрос — ответ» с высокими оценками (помощник полезен). Главная проблема — несбалансированность: английских примеров в 10 раз больше, чем, скажем, вьетнамских. Пришлось даунсемплить английский и апсемплить редкие языки.

Второй датасет — Alpaca (clean версия от Yavor). Это синтетические инструкции (сгенерированные GPT-3.5). Изначально только на английском. Я прогнал их через Google Translate API (да, дорого, но зато быстро) и получил переводы на 13 языков. Качество перевода — не идеал, но для дообучения сойдёт: модель учится формату, а не содержанию.

⚠️ Предупреждение: гуглоперевод может внести идиомы-катастрофы. Например, арабский перевод «I'm feeling blue» стал «Я чувствую синий». Проверяйте хотя бы 100 примеров вручную, иначе модель начнёт бред синего кита.

Комбинация датасетов: как не сломать модель

Я смешал оба датасета в пропорции 60% Alpaca / 40% OpenAssistant. Почему не 50/50? OpenAssistant имеет более естественные диалоги, но Alpaca — более разнообразные инструкции. В итоге модель получила и «вежливого ассистента» (OpenAssistant), и «генератора идей» (Alpaca).

Формат каждого примера — стандартный для instruction fine-tuning:

### Инструкция:
{instruction}

### Ответ:
{response}

Для мультиязычных моделей важно сохранять разделители одинаковыми на всех языках. Иначе модель запутается. Да, банально, но я видел код, где «### Ответ:» переводили на каждый язык — получилась каша.

Настройка LoRA: 550 шагов до полиглота

Мы уже подробно разбирали тонкости LoRA в полном гайде, так что здесь только ключевые параметры для нашего случая.

Я использовал библиотеку Unsloth — она ускоряет LoRA-обучение в 2–3 раза и жрёт меньше памяти. Для Pythia-6.9B это критично: даже с LoRA полный fine-tuning на 6.9B требует 40+ ГБ VRAM, а Unsloth позволяет уложиться в 24 ГБ (RTX 3090).

1 Загрузка модели и токенизатора

from unsloth import FastLanguageModel
import torch

model, tokenizer = FastLanguageModel.from_pretrained(
    model_name="EleutherAI/pythia-6.9b-deduped",
    max_seq_length=2048,
    dtype=torch.bfloat16,
    load_in_4bit=True,  # 4-битная квантизация для экономии памяти
)

2 Добавление LoRA-адаптеров

model = FastLanguageModel.get_peft_model(
    model,
    r=16,  # ранг адаптеров
    lora_alpha=32,
    lora_dropout=0.05,
    target_modules=["query_key_value", "dense", "dense_h_to_4h", "dense_4h_to_h"],
    bias="none",
    use_gradient_checkpointing=True,
)

Обратите внимание: я выбрал rank 16, а не 8 или 32. Эксперименты показали, что для мультиязычности rank 16 даёт лучшее качество, чем 8, а rank 32 уже не окупает рост параметров. Да, это субъективно, но у меня метрики BLEU на тестовых языках были на 4% выше с r=16.

3 Конфигурация обучения

from transformers import TrainingArguments
from trl import SFTTrainer

args = TrainingArguments(
    per_device_train_batch_size=2,
    gradient_accumulation_steps=4,
    warmup_steps=10,
    max_steps=550,           # всего 550 шагов!
    learning_rate=2e-4,
    fp16=False,
    bf16=True,
    logging_steps=10,
    output_dir="./pythia-6.9b-multilingual",
)

trainer = SFTTrainer(
    model=model,
    train_dataset=dataset,
    dataset_text_field="text",
    max_seq_length=2048,
    tokenizer=tokenizer,
    args=args,
    formatting_func=formatting_func,  # функция, которая превращает примеры в prompt + response
)

trainer.train()

Почему 550 шагов? Я прогонял на 100, 300, 500, 700, 1000 шагов и мерил loss на валидации (отложенные 5% каждого языка). После 550 шагов loss практически перестал падать, а на некоторых языках начал расти — типичный признак переобучения. 550 — золотая середина.

💡

Кстати, о переобучении. В статье «BWT -0.017 в Sequential LoRA Fine-Tuning» показано, как бороться с катастрофическим забыванием при последовательном обучении. У нас обучение одновременное на всех языках, поэтому забывание не так критично, но loss по английскому всё равно слегка рос после 400 шагов.

Результаты: 13 языков — не шутка

После 550 шагов на одной A100 (около 3 часов) я получил модель, которая на простых инструкциях (напиши письмо, переведи, объясни концепцию) отвечает осмысленно на всех 13 языках. Тестировал на 20 случайных запросах с каждого языка — качество оценивали носители (спасибо друзьям из разных стран).

Язык	Точность следования инструкции (оценка носителя 1-5)
Английский	4.8
Испанский	4.5
Французский	4.3
Немецкий	4.2
Русский	4.4
Арабский	3.8
Вьетнамский	3.5

Арабский и вьетнамский отстают — ожидаемо, примеров меньше, да и токенизатор Pythia изначально не очень дружит с нелатиницей. Но даже 3.5 — это уже рабочий уровень для простых задач (погода, поиск, FAQ).

Любопытный момент: модель начала «понимать» языки, которых не было в датасете. На тесте с хинди она выдала осмысленный ответ, хотя хинди не учили. Вероятно, сработала кросс-лингвистическая передача через общие корни (санскрит?). Но это уже тема для отдельного исследования.

Грабли, на которые я наступил (и вы не наступайте)

Забыл задать pad_token. Pythia использует токен EOS как PAD по умолчанию, но это ломает маску внимания. Пришлось явно установить tokenizer.pad_token = tokenizer.eos_token. Без этого loss скакал как бешеный.
Не перемешал языки внутри батча. Если в батче все примеры на одном языке, градиент перекашивается. Решение: перемешивать датасет так, чтобы каждый батч содержал хотя бы 3 разных языка.
Слишком длинные инструкции. Максимальная длина 2048 токенов. Некоторые переводы Alpaca были длиннее (особенно на арабском). Пришлось триммить и отбрасывать хвост. Потеряли 2% данных — некритично.
Кодировка UTF-8. Не все датасеты были в корректной UTF-8. Вьетнамские диакритические знаки иногда превращались в кракозябры. Пришлось писать скрипт для нормализации Unicode.

⚠️ Ошибка новичка: попробовать дообучить сразу на 20 языках. Я начинал с 5 — и модель путала их. Лучше наращивать постепенно, добавляя по 2–3 языка за итерацию. Тогда она не забывает предыдущие.

Как масштабировать: от 13 до 50 языков

Если в вашем продукте нужно больше языков — не пытайтесь повторить этот же пайплайн в лоб. Смотрите в сторону multilingual sentence embeddings и техники Cross-lingual Transfer. Можно взять дообученную на 13 языках модель и дотюнить её на новом языке с помощью 1000 примеров — качество будет выше, чем обучение с нуля.

Ещё один лайфхак: используйте Code-Switching в датасете — иногда вставляйте английские слова в инструкцию на другом языке. Модель учится «переключаться» и лучше обобщает. Это сработало для турецкого.

А что дальше? (вместо занудного заключения)

Не пытайтесь объять необъятное. Начните с 2–3 языков, которые реально нужны вашему бизнесу. Например, если вы делаете чат-бота для такси в ОАЭ — вам нужны арабский, хинди, урду. Добавьте их в датасет, дообучите Pythia за 150 шагов и проверьте на реальных диалогах. Если качество устраивает — расширяйте.

Лично я сейчас тестирую эту же технику на Qwen 2.5-7B и Gemma-3 4B — результаты обещают быть интереснее (токенизаторы этих моделей лучше для нелатиницы). Но это уже другая история.

Весь код, датасеты и обученные LoRA-веса лежат на HuggingFace: huggingface.co/your-model (вставьте свою ссылку). Форкайте, дообучайте, пишите в issue.

Подписаться на канал

Pythia-6.9B: как я научил её говорить на 13 языках за 550 шагов (и вы тоже сможете)