Что это за зверь и зачем он нужен

Представьте, что ваш робот-помощник на Raspberry Pi внезапно заговорил голосом Моргана Фримена. Или ваш умный дом на Jetson Nano объявляет прогноз погоды интонациями любимого диктора. И все это — без облачных API, без ежемесячных подписок, прямо на устройстве с 4 ГБ оперативки. Звучит как фантастика? Это NeuTTS Nano.

Модель весит всего 700 МБ в формате GGUF, содержит 120 миллионов параметров и построена поверх архитектуры Llama3. Разработчики из NeuML выжали из концепции "TTS на устройстве" максимум: клонирование голоса по 30-секундной записи, поддержка нескольких языков (английский, испанский, французский, немецкий, итальянский, португальский), и все это — с приемлемым качеством синтеза.

Модель доступна на HuggingFace в двух вариантах: Q4_K_M (баланс качества/скорости) и Q5_K_M (максимальное качество). Для edge-устройств я рекомендую Q4 — разница в качестве почти незаметна, а экономия памяти существенная.

Как это работает на железе

Я протестировал NeuTTS Nano на трех устройствах:

Raspberry Pi 5 (8 ГБ ОЗУ)
Jetson Nano (4 ГБ ОЗУ)
Обычный ноутбук с Intel i5 для сравнения

На Raspberry Pi 5 с активным охлаждением генерация 10 секунд аудио занимает 4-5 секунд. На Jetson Nano — около 7 секунд. Это не real-time в классическом понимании (коэффициент RTF около 0.5-0.7), но для большинства приложений умного дома или образовательных роботов — более чем достаточно.

💡

Если вам нужна truly real-time генерация (RTF < 0.1), посмотрите на Sonya TTS. Но будьте готовы к компромиссам в качестве голоса и отсутствию клонирования.

Клонирование голоса: магия или разочарование?

Здесь начинается самое интересное. NeuTTS Nano умеет клонировать голос по 30-секундному образцу. Технически это работает через систему промптов: вы загружаете аудиофайл, модель извлекает эмбеддинг голоса, и потом использует его для синтеза.

На практике качество клонирования... скажем так, умеренное. Голосовая окраска передается неплохо, особенно если диктор говорит четко и без фонового шума. Но интонации и эмоциональная окраска — слабое место. Модель звучит как робот, который пытается имитировать человека, а не как человек.

Не ждите ElevenLabs-качества. Это инструмент для сценариев, где "похоже" важнее "идеально". Для образовательных роботов, аудиогидов, простых голосовых помощников — сойдет. Для озвучки аудиокниг или коммерческих проектов — лучше посмотреть на другие локальные TTS.

Сравнение с альтернативами

Модель	Размер	Клонирование	Скорость на RPi 5	Качество
NeuTTS Nano	700 МБ	Есть (30 сек)	4-5 сек	Среднее
Pocket TTS	400 МБ	Нет	2-3 сек	Ниже среднего
Sonya TTS	1.5 ГБ	Ограниченное	0.5-1 сек	Хорошее

Выбор зависит от задачи. Нужна максимальная скорость на слабом железе? Pocket TTS. Важно качество и выразительность? Sonya TTS. Нужно клонирование голоса при ограниченных ресурсах? NeuTTS Nano.

Кому подойдет эта модель

NeuTTS Nano — нишевый инструмент. Он не заменит студийные TTS-системы, но в своей нише он почти без конкурентов.

Разработчики образовательных роботов: Когда нужно, чтобы робот говорил голосом учителя или конкретного персонажа.
Проекты умного дома на Raspberry Pi/Jetson: Для озвучивания уведомлений персонализированным голосом.
Прототипирование: Быстро проверить идею клонирования голоса без аренды GPU-серверов.
Энтузиасты edge AI: Кто хочет поиграть с TTS на устройстве, как с Llama на Orange Pi.

Подводные камни и ограничения

Модель требует llama.cpp последней версии. Установка не самая тривиальная — придется повозиться с зависимостями. Документация скудная, примеры кода минимальные.

Качество английской речи заметно лучше, чем других языков. Русского нет вообще — это важно для наших проектов.

Потребление памяти: даже Q4 версия требует около 1.5 ГБ ОЗУ в пике. На Jetson Nano с его 4 ГБ это оставляет мало места для других процессов.

💡

Если вы планируете запускать NeuTTS Nano вместе с LLM (например, для полноценного голосового помощника), посмотрите на Nanbeige 3B — она достаточно легкая, чтобы работать в паре с TTS на том же устройстве.

Что в итоге

NeuTTS Nano — интересный эксперимент, который показывает, куда движется edge-TTS. Модель доказывает, что клонирование голоса возможно на устройстве размером с кредитную карту. Качество не идеальное, скорость не рекордная, но сам факт работы впечатляет.

Через год-два такие модели станут стандартом для умных устройств. А пока NeuTTS Nano — один из немногих вариантов, если вам нужно клонирование голоса на Raspberry Pi или Jetson без облачных зависимостей.

Скачать и попробовать можно на HuggingFace. Только не говорите потом, что вас не предупреждали про качество клонирования.

NeuTTS Nano: голос для робота, который помещается в карман