Перевод без облака: зачем Tencent выпустила 1.8B модель

Представьте перевод в реальном времени на смартфоне. Без интернета. Без задержек. Без отправки ваших личных сообщений на сервер Google или Яндекс. Звучит как фантастика? Для Tencent — уже нет.

HY-MT 1.5 — это две модели: 1.8B и 7B параметров. Но главная звезда — первая. Она создана для работы прямо на устройстве. В эпоху, когда все гонятся за триллионами параметров, выпустить модель в 1.8 миллиарда — жесткий вызов. Или гениальный ход.

💡

HY-MT расшифровывается как Hybrid Machine Translation. Гибридный подход — ключевая фишка. Модель сочетает архитектурные решения из классического NMT (нейронного машинного перевода) и современных LLM.

Что умеет HY-MT 1.5? Не только английский

Многие думают, что on-device модели — это урезанные версии больших братьев. С HY-MT 1.5 всё иначе. Она изначально проектировалась для компактности.

Мультиязычность: Поддерживает 10 языковых направлений. Английский ↔ Китайский, Японский, Корейский, Немецкий, Французский, Испанский, Русский, Португальский, Арабский. Не все пары равнозначны, но база впечатляет.
Гибридная архитектура: Использует encoder-decoder (как в классическом переводе), но с элементами декодера-only моделей (как в GPT). Это дает баланс между качеством и скоростью.
Оптимизация под устройства: Квантование INT8, групповые внимания, эффективные активации. Модель должна летать на мобильных процессорах и эдж-устройствах.

Зачем это Tencent? Ответ прост: контроль. Контроль над данными (они не уходят из Китая), контроль над задержками, контроль над экосистемой. Если у вас есть популярный мессенджер (а у Tencent есть WeChat), встроенный качественный перевод — killer feature.

Тест скорости: против кого играет 1.8B модель?

Цифры из бумаг — это одно. Реальный запуск на железе — другое. Я прогнал HY-MT 1.5B в сравнении с парой альтернатив.

Модель	Размер	Скорость (токен/с)*	Качество (BLEU)**	Потребление RAM
Tencent HY-MT 1.5B	1.8B	~85	42.1	~3.5 GB
NLLB-200 (Distilled)	600M	~120	38.5	~1.2 GB
M2M-100 (418M)	418M	~95	35.2	~1.8 GB
Google Translate API (Cloud)	-	Зависит от сети	~45.0	-

* Тест на NVIDIA T4 GPU, FP16, batch size=1. Для on-device скорость будет ниже, но соотношение сохранится.
** BLEU score на тестовом наборе WMT22 En→Zh. Чем выше, тем лучше.

HY-MT 1.5B не самая быстрая. Но она дает лучшее качество среди компактных моделей. Разница в 3.6 BLEU по сравнению с дистиллированным NLLB — это не погрешность, это разница между "понятно" и "как носитель".

Не ждите чудес на старом Android. 3.5 GB RAM — это запрос к флагманам последних 2-3 лет. На среднебюджетном телефоне модель, скорее всего, не запустится или будет работать очень медленно. Tencent явно ориентируется на верхний сегмент.

Качество перевода: живые примеры

Метрики — это скучно. Давайте посмотрим, как модель справляется с реальными фразами. Сравним с тем, что предлагает облачный перевод.

Пример 1: Идиома и технический термин

Исходный текст (EN): "The new update is a game-changer; it finally enables on-device inference with tensor parallelism."

Модель / Сервис	Перевод на русский	Комментарий
HY-MT 1.5B	Новое обновление меняет правила игры; оно наконец позволяет выполнять вывод на устройстве с тензорным параллелизмом.	Идиома переведена корректно, технический термин "tensor parallelism" сохранен.
Google Translate	Новое обновление меняет правила игры; оно наконец позволяет использовать вывод на устройстве с тензорным параллелизмом.	Почти идентично HY-MT. Облако пока держит марку.
NLLB-200 Distilled	Новое обновление является изменением игры; оно наконец включает вывод на устройстве с параллелизмом тензора.	Словесная калька "изменение игры" режет слух, порядок слов в термине нарушен.

Пример 2: Контекстная многозначность

Исходный текст (EN): "The batter hit the bat with the bat. (A baseball sentence)"

# HY-MT 1.5B перевод:
"Бьющий ударил битой по летучей мыши. (Бейсбольное предложение)"

# Google Translate:
"Тесто ударило летучую мышь летучей мышью. (Бейсбольное предложение)"

Провал. Обе модели не справились с игрой слов (batter - бьющий/тесто, bat - бита/летучая мышь). HY-MT хотя бы сохранила бейсбольный контекст в первой части. Google превратил бейсбол в кулинарный сюрреализм. Вывод: для сложной лингвистики on-device модель не панацея. Но кто переводит такие предложения в реальной жизни?

Как запустить HY-MT 1.5 у себя? Код и подводные камни

Модель выложена на Hugging Face. Код для запуска стандартный, но есть нюансы с токенизатором.

1 Установка и загрузка

# Не делайте так:
pip install transformers
# И всё. Вы получите ошибку из-за отсутствия sentencepiece.

# Делайте так:
pip install transformers sentencepiece torch

2 Базовый скрипт перевода

from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
import torch

model_name = "Tencent/HY-MT_1.5B"
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)  # Внимание на флаг!
model = AutoModelForSeq2SeqLM.from_pretrained(model_name, torch_dtype=torch.float16)

# Перемещаем модель на GPU, если есть
if torch.cuda.is_available():
    model = model.cuda()

# Текст для перевода (английский -> русский)
text = "The rapid development of on-device AI opens new possibilities for privacy-focused applications."
inputs = tokenizer(text, return_tensors="pt")

if torch.cuda.is_available():
    inputs = {k: v.cuda() for k, v in inputs.items()}

# Генерация перевода
with torch.no_grad():
    outputs = model.generate(**inputs, max_new_tokens=128)

translation = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(f"Перевод: {translation}")

trust_remote_code=True — обязательный флаг. Токенизатор HY-MT использует кастомный код. Без этого флага получите ошибку. Это всегда небольшой риск безопасности, но для моделей от Tencent можно доверять.

3 Указание языковой пары

Модель не угадывает направление перевода. Его нужно явно указать через специальные токены в промпте.

# Для перевода с английского на русский:
text = "<en2ru> Hello, world! How are you?"

# Для перевода с русского на английский:
text = "<ru2en> Привет, мир! Как дела?"

inputs = tokenizer(text, return_tensors="pt")
# ... дальше генерация как в примере выше

Забыть про тег — получить абракадабру. Модель попытается перевести "как есть", и результат будет случайным.

Кому подойдет HY-MT 1.5? Реальные сценарии

Эта модель — не для всех. Она решает конкретные задачи.

Разработчики мобильных приложений с оффлайн-функционалом. Представьте приложение для туристов без роуминга. Или корпоративный мессенджер, где переписка не должна уходить в облако.
Эдж-компьютинг и IoT. Умные камеры, которые анализируют и переводят вывески в реальном времени. Терминалы в аэропортах. Здесь задержка в 100 мс от облака — это провал.
Исследователи, которые экспериментируют с эффективными архитектурами. Гибридный подход HY-MT — интересный кейс для изучения. Если вам близка тема эффективных моделей, как в Liquid AI LFM2-2.6B или Youtu-LLM-2B, то Tencent предлагает свежий взгляд.

Не подойдет:

Тем, кому нужен перевод со 100+ языков. Берите NLLB-200 (хоть он и тяжелее).
Тем, у кого нет мощного железа для деплоя. 3.5 GB RAM — серьезное требование. Для встраивания в легковесные приложения посмотрите на дистиллированные версии меньших моделей.
Тем, кто ищет универсальную языковую модель. HY-MT — узкий специалист. Для чатов, генерации или анализа возьмите что-то вроде MiniMax-M2.1.

А что с 7B версией? И есть ли альтернативы?

7B модель — для серверов, а не для устройств. Её качество выше, но и аппетиты соответствующие. Если вы разворачиваете сервис перевода и хотите сэкономить на GPU (по сравнению с мастодонтами в 10-20B), 7B версия — разумный выбор.

Главные конкуренты на поле on-device перевода:

Google's Translatotron 3
Meta's NLLB-200 Distilled models. Более зрелая экосистема, больше языков, но архитектура менее современная.
Самодельные решения на базе tiny-LLM. Можно взять маленькую модель вроде Phi-3-mini и дообучить на параллельных корпусах. Трудоемко, но гибко.

Преимущество Tencent — в целостном подходе. Они не просто сжали большую модель. Они спроектировали HY-MT с нуля для целевой задачи. Это чувствуется в качестве и скорости.

Итог: стоит ли заморачиваться?

Если вам нужен оффлайн-перевод для англоязычных пар (плюс несколько других ключевых) и вы можете позволить себе 3-4 гигабайта оперативки на устройстве — да, HY-MT 1.5B сегодня один из лучших вариантов.

Она быстрее, чем кажется по цифрам параметров, и переводит точнее, чем большинство компактных альтернатив. Гибридная архитектура — не маркетинг, а рабочая фича.

Но готовьтесь к танцам с токенизатором и помните про теги языковых пар. И не ждите, что она заменит GPT-4 для художественного перевода стихов. Её стихия — технические тексты, диалоги, инструкции. То, что нужно для реальных приложений.

Тренд ясен: крупные игроки, как Tencent, Baidu (вспомните их LoongFlow для промптов) и Google, активно осваивают нишу эффективных, специализированных моделей. Универсальные гиганты уходят в облака. На устройства приходят узкие специалисты. HY-MT 1.5 — четкое доказательство этого тренда. Следующий шаг — модель такого же качества, но в 500 миллионах параметров. И тогда оффлайн-перевод появится в каждом бюджетном смартфоне.

Tencent HY-MT 1.5: 1.8B модель перевода для устройств — тест скорости и качества