Карманный синтезатор, который не требует видеокарты

Представьте: вам нужно сгенерировать озвучку для документального проекта, но ElevenLabs слишком дорог. Или вы делаете голосового ассистента на Raspberry Pi, где каждый мегабайт памяти на счету. Или просто хотите быстро проверить, как звучит ваш текст на разных голосах, не запуская тяжеловесную модель.

Вот здесь и появляется Pocket TTS. Модель с 100 миллионами параметров - это примерно в 10 раз меньше, чем у Coqui XTTS. Она умещается в 400 МБ на диске и работает на CPU без особых проблем.

Pocket TTS создана специально для ситуаций, когда качество нужно, но ресурсы ограничены. Она не будет звучать как студийная запись, но для большинства практических задач хватит с головой.

Что умеет эта малютка

Технические характеристики выглядят скромно, но список возможностей впечатляет:

Мультиязычность: английский, испанский, французский, немецкий, итальянский, португальский, польский
Несколько предобученных голосов в каждом языке
Контроль скорости речи и тона
Пакетная обработка текста
Экспорт в WAV, MP3, OGG

Самое важное - модель работает в реальном времени даже на слабом железе. На Core i5 последнего поколения она генерирует 10 секунд аудио примерно за 3-4 секунды. Для сравнения: Coqui XTTS на том же процессоре будет думать в 5-7 раз дольше.

Pocket TTS против Coqui: битва легковесов и тяжеловесов

Давайте сразу к делу. Если вам нужен максимально качественный синтез и есть мощная видеокарта - берите Coqui XTTS. Но если ресурсы ограничены, вот как они сравниваются:

Критерий	Pocket TTS	Coqui XTTS
Размер модели	~400 МБ	~2.5 ГБ
Параметры	100 миллионов	900 миллионов
Минимальные требования	CPU, 2 ГБ RAM	GPU с 4 ГБ VRAM
Скорость на CPU	3-4 секунды на 10 сек аудио	15-20 секунд на 10 сек аудио
Клонирование голоса	Нет	Да

Главный компромисс очевиден: Pocket TTS не умеет клонировать голоса из образцов. У вас есть только предобученные варианты. Зато она запускается на чем угодно - от старого ноутбука до Raspberry Pi 5.

Установка за пять минут

Hugging Face сделали процесс максимально простым. Если у вас уже стоит Python и pip, вот вся магия:

💡

Советую создать виртуальное окружение. Pocket TTS требует конкретных версий зависимостей, которые могут конфликтовать с другими проектами.

1 Ставим зависимости

Первым делом - torch. Без него ничего не заработает:

pip install torch torchaudio

Теперь сам Pocket TTS:

pip install pocket-tts

2 Первый запуск

Модель автоматически скачается при первом импорте. Вот минимальный рабочий код:

from pocket_tts import TTS

# Создаем экземпляр TTS
tts = TTS()

# Генерируем аудио
audio = tts.tts(
    text="Hello, this is Pocket TTS speaking!",
    language="en",
    speaker="en-female-1",
    speed=1.0
)

# Сохраняем в файл
tts.save_wav(audio, "output.wav")

Вот и все. Если все установилось правильно, в папке появится файл output.wav с вашей речью.

Где Pocket TTS выстреливает, а где проваливается

После недели тестов вот что обнаружилось:

Не пытайтесь генерировать длинные тексты целиком. Модель работает лучше с абзацами по 2-3 предложения. Больше - начинает терять интонацию.

Отлично работает:

Озвучка коротких уведомлений и алертов
Голосовые ответы в чат-ботах
Быстрое прототипирование интерфейсов
Образовательные приложения с небольшими текстами

Плохо справляется:

Художественная литература с эмоциональными перепадами
Технические тексты со сложными терминами
Мультиязычные предложения (переключение языков в середине фразы)
Имитация конкретных голосов (для этого лучше посмотреть на тренировку LoRA для VibeVoice)

Продвинутые фишки, о которых мало кто знает

Документация Pocket TTS скупа на детали, но покопавшись в коде, можно найти интересное:

# Контроль тона через параметр pitch
audio = tts.tts(
    text="This will sound higher",
    language="en",
    speaker="en-female-1",
    pitch=1.5  # Выше обычного
)

# Пакетная генерация нескольких фраз
sentences = [
    "First sentence.",
    "Second one here.",
    "And the third."
]

for sentence in sentences:
    audio = tts.tts(text=sentence, language="en", speaker="en-female-1")
    tts.save_wav(audio, f"output_{i}.wav")

Еще одна хитрость - можно микшировать несколько аудиофрагментов в один файл. Полезно для создания диалогов или сцен с несколькими говорящими.

Кому подойдет эта модель

Если вы делаете что-то из этого списка - Pocket TTS ваш выбор:

Разработчики мобильных приложений, где размер имеет значение
Создатели голосовых ассистентов для устройств типа DGX Spark
Те, кому нужна быстрая озвучка для прототипов
Образовательные проекты с ограниченным бюджетом
Любой, кто устал платить за облачные TTS API

А вот если вам нужно клонирование голоса или студийное качество для коммерческого проекта - смотрите в сторону более мощных open-source моделей или даже локальных альтернатив ElevenLabs.

Что будет дальше с легкими TTS моделями

Pocket TTS - не первая и не последняя попытка сделать синтез речи доступным на слабом железе. Тренд очевиден: модели становятся меньше, но умнее. Скоро мы увидим 50M-параметровые модели, которые будут звучать не хуже сегодняшних 500M.

Пока что Pocket TTS занимает золотую середину между качеством и требованиями. Она не идеальна, но работает там, где другие отказываются запускаться. Иногда лучше иметь работающий инструмент здесь и сейчас, чем ждать, пока накопятся на видеокарту.

Попробуйте. Установка занимает пять минут, а понять, подходит ли она для ваших задач, можно за десять. Если не подойдет - всегда можно вернуться к Coqui или посмотреть другие варианты через Models Explorer.

Главный урок Pocket TTS: иногда меньше действительно значит больше. Особенно когда больше просто не помещается.

Pocket TTS: легкая 100M-параметровая модель, которая помещается в карман и работает без GPU