Итальянский в мире больших языковых моделей – вечный пасынок. GPT-5, Claude 4, даже открытые Mixtral – все они говорят на нем с акцентом, будто учат язык по туристическому разговорнику. Сложная морфология, куча спряжений, элизии – модели на английской диете все это сглаживают в безличную кашу.

Dante-2B – попытка исправить это. Не дообучение, не лора поверх Mistral, а полное обучение с нуля на 2.1 миллиардах параметров. Амбициозно? Безумно. Но на H200 и с правильным подходом – выполнимо.

Зачем городить с нуля? Адаптация ведь проще

Вот и нет. Взять подход Kakugo – сжать большую модель под свой язык. Или использовать автоматизацию от Claude для тонкой настройки. Работает, но фундамент остается английским. Токенизатор Byte-Pair Encoding изначально обучен на английских корпусах, он режет итальянские слова в странных местах, ломая смысл.

Dante-2B пошел другим путем – свой токенизатор Unigram с размером словаря 128k, обученный только на итальянских и английских текстах. Результат? Модель не путает «c'è» (есть) с обрывком слова, а видит его как цельную единицу. Мелочь, которая меняет все.

Обучение токенизатора с нуля – самый болезненный этап. Данные нужно чистить вручную, иначе модель выучит мусор как норму. Потом неделя вычислений на CPU. Но без этого шага любая билингвальная модель будет хромой.

Железо: H200 против скепсиса

2.1B параметров – не гигант, но и не игрушка. Обучать с нуля на A100 – долго и дорого. H200 с его 1.1 ТБ/с пропускной способности и 141 ГБ HBM3e памяти меняет правила.

Здесь пригодился опыт из статьи про обучение Covenant-72B на видеокартах геймеров. Тот же принцип эффективного распределения вычислений, только на профессиональном железе. Четыре H200 справились с предварительным обучением Dante-2B на 200 миллиардах токенов за 21 день. Без H200 это растянулось бы на месяцы.

Если ищете, где развернуть такие эксперименты, можно рассмотреть аренду H200 у специализированных провайдеров. Цена кусается, но время – дороже.

Архитектура: ничего сверхъестественного, и это хорошо

Decoder-only трансформер, RoPE-эмбеддинги, SwiGLU активации – все как у людей. Архитектурных изысков, как в Genesis-152M-Instruct, здесь нет. Зачем? Потому что задача – не удивить новизной, а создать работающий инструмент для конкретного языка.

Ключевое отличие – двуязычность с рождения. Данные смешивались в пропорции 70% итальянский, 30% английский. Модель училась не переводить, а мыслить в двух лингвистических пространствах одновременно. Это заметно по тому, как она переключается между языками в одном ответе без потери связности.

💡

Секрет не в архитектуре, а в данных. Тщательно очищенный корпус итальянских текстов (книги, юридические документы, научные статьи, веб-форумы) весом 1.2 ТБ – вот что делает модель аутентичной. Никакого машинного перевода.

С чем сравнить? Рынок пуст

Итальянско-английских моделей, обученных с нуля, можно пересчитать по пальцам. Большинство – это адаптации типа «итальянизированный Llama». Они страдают теми же проблемами: низкое качество генерации специфичных терминов, ошибки в согласовании родов и чисел.

Модель	Подход	Слабые места
Italiano-Llama-7B	Дообучение Llama 2	Английский акцент в синтаксисе, проблемы с идиомами
Multilingual BERT (итальянский)	Часть многоязычной модели	Плохая генерация текста, только классификация
Dante-2B (2026)	Обучение с нуля	Только 2.1B параметров, не «тянет» сверхсложные запросы

На фоне этих вариантов Dante-2B выглядит как специалист-носитель языка против туриста со словарем. Для задач вроде анализа тональности итальянских соцсетей или генерации контента для местного рынка – это небо и земля.

Кому это в руки? Не всем

Dante-2B – инструмент для конкретных целей. Если вам нужно просто перевести текст, используйте глубокий переводчик. Если нужна универсальная модель для сотни задач – компактные чемпионы вроде LFM2-2.6B справятся лучше.

А вот кому нужно:

Стартапы, targeting Италию: Создание чат-ботов, ассистентов, аналитических инструментов для итальянских клиентов. Модель, которая понимает разницу между «legge» (закон) и «legge» (он/она читает) в контексте.
Исследователи в цифровой гуманитаристике: Анализ исторических текстов, литературных произведений. Здесь своя морфология критически важна.
Госучреждения и НКО в Италии: Обработка обращений граждан, автоматизация документооборота. Dante-2B можно развернуть локально, что решает вопросы приватности.

Это тот же принцип, что и в истории про модель для языка луганда: когда глобальные решения не работают, нужно строить свое.

Что в сухом остатке? Будущее за нишевыми носителями

Dante-2B доказывает простую вещь: в 2026 году тренировка модели с нуля для языка с 60 миллионами носителей – не фантастика, а инженерная задача. Дорогая, сложная, но выполнимая даже для небольшой команды.

Следующий шаг – мультимодальность. Представьте модель, которая не только пишет тексты на итальянском, но и описывает изображения с культурными спецификами. Опыт студента с Dhi-5B показывает, что бюджет может быть не космическим.

Совет напоследок: если задумываетесь о своей модели для своего языка, не начинайте с архитектуры. Начните с токенизатора. Потом соберите данные. И только потом смотрите на железо. Иначе упретесь в ту же стену, что и все.

И да, открытые веса Dante-2B уже на Hugging Face. Можете попробовать прямо сейчас. Только не удивляйтесь, когда она правильно употребит сослагательное наклонение – для нее это естественно.

Подписаться на канал

Dante-2B: как создают и обучают с нуля 2.1B двуязычную модель для итальянского языка на H200