Что это за зверь и зачем он нужен
Представьте, что ваш робот-помощник на Raspberry Pi внезапно заговорил голосом Моргана Фримена. Или ваш умный дом на Jetson Nano объявляет прогноз погоды интонациями любимого диктора. И все это — без облачных API, без ежемесячных подписок, прямо на устройстве с 4 ГБ оперативки. Звучит как фантастика? Это NeuTTS Nano.
Модель весит всего 700 МБ в формате GGUF, содержит 120 миллионов параметров и построена поверх архитектуры Llama3. Разработчики из NeuML выжали из концепции "TTS на устройстве" максимум: клонирование голоса по 30-секундной записи, поддержка нескольких языков (английский, испанский, французский, немецкий, итальянский, португальский), и все это — с приемлемым качеством синтеза.
Модель доступна на HuggingFace в двух вариантах: Q4_K_M (баланс качества/скорости) и Q5_K_M (максимальное качество). Для edge-устройств я рекомендую Q4 — разница в качестве почти незаметна, а экономия памяти существенная.
Как это работает на железе
Я протестировал NeuTTS Nano на трех устройствах:
- Raspberry Pi 5 (8 ГБ ОЗУ)
- Jetson Nano (4 ГБ ОЗУ)
- Обычный ноутбук с Intel i5 для сравнения
На Raspberry Pi 5 с активным охлаждением генерация 10 секунд аудио занимает 4-5 секунд. На Jetson Nano — около 7 секунд. Это не real-time в классическом понимании (коэффициент RTF около 0.5-0.7), но для большинства приложений умного дома или образовательных роботов — более чем достаточно.
Клонирование голоса: магия или разочарование?
Здесь начинается самое интересное. NeuTTS Nano умеет клонировать голос по 30-секундному образцу. Технически это работает через систему промптов: вы загружаете аудиофайл, модель извлекает эмбеддинг голоса, и потом использует его для синтеза.
На практике качество клонирования... скажем так, умеренное. Голосовая окраска передается неплохо, особенно если диктор говорит четко и без фонового шума. Но интонации и эмоциональная окраска — слабое место. Модель звучит как робот, который пытается имитировать человека, а не как человек.
Не ждите ElevenLabs-качества. Это инструмент для сценариев, где "похоже" важнее "идеально". Для образовательных роботов, аудиогидов, простых голосовых помощников — сойдет. Для озвучки аудиокниг или коммерческих проектов — лучше посмотреть на другие локальные TTS.
Сравнение с альтернативами
| Модель | Размер | Клонирование | Скорость на RPi 5 | Качество |
|---|---|---|---|---|
| NeuTTS Nano | 700 МБ | Есть (30 сек) | 4-5 сек | Среднее |
| Pocket TTS | 400 МБ | Нет | 2-3 сек | Ниже среднего |
| Sonya TTS | 1.5 ГБ | Ограниченное | 0.5-1 сек | Хорошее |
Выбор зависит от задачи. Нужна максимальная скорость на слабом железе? Pocket TTS. Важно качество и выразительность? Sonya TTS. Нужно клонирование голоса при ограниченных ресурсах? NeuTTS Nano.
Кому подойдет эта модель
NeuTTS Nano — нишевый инструмент. Он не заменит студийные TTS-системы, но в своей нише он почти без конкурентов.
- Разработчики образовательных роботов: Когда нужно, чтобы робот говорил голосом учителя или конкретного персонажа.
- Проекты умного дома на Raspberry Pi/Jetson: Для озвучивания уведомлений персонализированным голосом.
- Прототипирование: Быстро проверить идею клонирования голоса без аренды GPU-серверов.
- Энтузиасты edge AI: Кто хочет поиграть с TTS на устройстве, как с Llama на Orange Pi.
Подводные камни и ограничения
Модель требует llama.cpp последней версии. Установка не самая тривиальная — придется повозиться с зависимостями. Документация скудная, примеры кода минимальные.
Качество английской речи заметно лучше, чем других языков. Русского нет вообще — это важно для наших проектов.
Потребление памяти: даже Q4 версия требует около 1.5 ГБ ОЗУ в пике. На Jetson Nano с его 4 ГБ это оставляет мало места для других процессов.
Что в итоге
NeuTTS Nano — интересный эксперимент, который показывает, куда движется edge-TTS. Модель доказывает, что клонирование голоса возможно на устройстве размером с кредитную карту. Качество не идеальное, скорость не рекордная, но сам факт работы впечатляет.
Через год-два такие модели станут стандартом для умных устройств. А пока NeuTTS Nano — один из немногих вариантов, если вам нужно клонирование голоса на Raspberry Pi или Jetson без облачных зависимостей.
Скачать и попробовать можно на HuggingFace. Только не говорите потом, что вас не предупреждали про качество клонирования.