NeuTTS Nano: тест TTS модели 120M параметров для Raspberry Pi и Jetson | AiManual
AiManual Logo Ai / Manual.
14 Янв 2026 Инструмент

NeuTTS Nano: голос для робота, который помещается в карман

Обзор NeuTTS Nano — сверхкомпактной TTS модели на Llama3. Тесты на Raspberry Pi 5 и Jetson Nano, сравнение с Pocket TTS и Sonya TTS, клонирование голоса.

Что это за зверь и зачем он нужен

Представьте, что ваш робот-помощник на Raspberry Pi внезапно заговорил голосом Моргана Фримена. Или ваш умный дом на Jetson Nano объявляет прогноз погоды интонациями любимого диктора. И все это — без облачных API, без ежемесячных подписок, прямо на устройстве с 4 ГБ оперативки. Звучит как фантастика? Это NeuTTS Nano.

Модель весит всего 700 МБ в формате GGUF, содержит 120 миллионов параметров и построена поверх архитектуры Llama3. Разработчики из NeuML выжали из концепции "TTS на устройстве" максимум: клонирование голоса по 30-секундной записи, поддержка нескольких языков (английский, испанский, французский, немецкий, итальянский, португальский), и все это — с приемлемым качеством синтеза.

Модель доступна на HuggingFace в двух вариантах: Q4_K_M (баланс качества/скорости) и Q5_K_M (максимальное качество). Для edge-устройств я рекомендую Q4 — разница в качестве почти незаметна, а экономия памяти существенная.

Как это работает на железе

Я протестировал NeuTTS Nano на трех устройствах:

  • Raspberry Pi 5 (8 ГБ ОЗУ)
  • Jetson Nano (4 ГБ ОЗУ)
  • Обычный ноутбук с Intel i5 для сравнения

На Raspberry Pi 5 с активным охлаждением генерация 10 секунд аудио занимает 4-5 секунд. На Jetson Nano — около 7 секунд. Это не real-time в классическом понимании (коэффициент RTF около 0.5-0.7), но для большинства приложений умного дома или образовательных роботов — более чем достаточно.

💡
Если вам нужна truly real-time генерация (RTF < 0.1), посмотрите на Sonya TTS. Но будьте готовы к компромиссам в качестве голоса и отсутствию клонирования.

Клонирование голоса: магия или разочарование?

Здесь начинается самое интересное. NeuTTS Nano умеет клонировать голос по 30-секундному образцу. Технически это работает через систему промптов: вы загружаете аудиофайл, модель извлекает эмбеддинг голоса, и потом использует его для синтеза.

На практике качество клонирования... скажем так, умеренное. Голосовая окраска передается неплохо, особенно если диктор говорит четко и без фонового шума. Но интонации и эмоциональная окраска — слабое место. Модель звучит как робот, который пытается имитировать человека, а не как человек.

Не ждите ElevenLabs-качества. Это инструмент для сценариев, где "похоже" важнее "идеально". Для образовательных роботов, аудиогидов, простых голосовых помощников — сойдет. Для озвучки аудиокниг или коммерческих проектов — лучше посмотреть на другие локальные TTS.

Сравнение с альтернативами

МодельРазмерКлонированиеСкорость на RPi 5Качество
NeuTTS Nano700 МБЕсть (30 сек)4-5 секСреднее
Pocket TTS400 МБНет2-3 секНиже среднего
Sonya TTS1.5 ГБОграниченное0.5-1 секХорошее

Выбор зависит от задачи. Нужна максимальная скорость на слабом железе? Pocket TTS. Важно качество и выразительность? Sonya TTS. Нужно клонирование голоса при ограниченных ресурсах? NeuTTS Nano.

Кому подойдет эта модель

NeuTTS Nano — нишевый инструмент. Он не заменит студийные TTS-системы, но в своей нише он почти без конкурентов.

  • Разработчики образовательных роботов: Когда нужно, чтобы робот говорил голосом учителя или конкретного персонажа.
  • Проекты умного дома на Raspberry Pi/Jetson: Для озвучивания уведомлений персонализированным голосом.
  • Прототипирование: Быстро проверить идею клонирования голоса без аренды GPU-серверов.
  • Энтузиасты edge AI: Кто хочет поиграть с TTS на устройстве, как с Llama на Orange Pi.

Подводные камни и ограничения

Модель требует llama.cpp последней версии. Установка не самая тривиальная — придется повозиться с зависимостями. Документация скудная, примеры кода минимальные.

Качество английской речи заметно лучше, чем других языков. Русского нет вообще — это важно для наших проектов.

Потребление памяти: даже Q4 версия требует около 1.5 ГБ ОЗУ в пике. На Jetson Nano с его 4 ГБ это оставляет мало места для других процессов.

💡
Если вы планируете запускать NeuTTS Nano вместе с LLM (например, для полноценного голосового помощника), посмотрите на Nanbeige 3B — она достаточно легкая, чтобы работать в паре с TTS на том же устройстве.

Что в итоге

NeuTTS Nano — интересный эксперимент, который показывает, куда движется edge-TTS. Модель доказывает, что клонирование голоса возможно на устройстве размером с кредитную карту. Качество не идеальное, скорость не рекордная, но сам факт работы впечатляет.

Через год-два такие модели станут стандартом для умных устройств. А пока NeuTTS Nano — один из немногих вариантов, если вам нужно клонирование голоса на Raspberry Pi или Jetson без облачных зависимостей.

Скачать и попробовать можно на HuggingFace. Только не говорите потом, что вас не предупреждали про качество клонирования.