Зачем вам это нужно? (И почему SAPI5 — это не старьё)

Потому что облачный синтез — это зависимость. Нет интернета? Нет голоса. Медленный канал? Робот заикается. Конфиденциальный текст? Отправляй его на чужой сервер и молись. SAPI5 — это интерфейс, которому больше 20 лет, но он до сих пор встроен в Windows. И это ключ к запуску современных нейросетевых моделей прямо на вашем процессоре, без видеокарты, без API-ключей, без подписок.

Представьте: экранная читалка, которая работает в самолёте, в глухой деревне или просто когда провайдер лег. Скрипт, который озвучивает статьи, пока вы за рулём. И всё это — на 20 языках, включая русский с правильным ударением в омографах ("зАмок" vs "замОк"). Звучит как фантастика? Это просто старый добрый SAPI5 и свежая модель от сообщества.

Предупреждение: Если вы ждёте человеческого голоса уровня ElevenLabs — вы не там. Это инструмент для работы, а не для озвучки подкастов. Но он бесплатный, локальный и работает там, где другие молчат.

Что вы получите в итоге?

Полностью офлайн синтез на процессоре (Intel/AMD). Никакого GPU не нужно.
20 языков в одной установке: русский, английский, немецкий, французский, испанский, китайский и другие.
Работа через стандартный интерфейс Windows (SAPI5) — совместимость с сотнями программ.
Балаболка как бесплатный фронтенд для чтения текстов, книг, PDF.
Модель v5_cis_base_nostress для русского языка, которая правильно произносит омографы.
Возможность интеграции в свои скрипты на Python или C#.

Подготовка: скачиваем всё что нужно

Вам понадобится три компонента. Не пугайтесь, всё весит около 2 ГБ и ставится за 10 минут.

1 RhVoice SAPI5-совместимый драйвер

Это сердце системы. RhVoice — это open-source движок синтеза, который эмулирует стандартный SAPI5 интерфейс Windows. Без него ваши программы просто не увидят новые голоса.

Качаем с официального GitHub. Берём последнюю версию установщика для Windows (например, RHVoice-setup-1.10.0.exe). Устанавливаем как обычную программу. После установки перезагрузите компьютер — это важно, чтобы драйвер корректно зарегистрировался в системе.

💡

Если после установки в списке голосов Windows ничего нового не появилось — проверьте, запущена ли служба RHVoice Service в диспетчере задач. Иногда антивирус блокирует её автозапуск.

2 Голоса (модели) для языков

Драйвер — это пустой плеер. Голоса — это музыканты. Нужно скачать модели для каждого языка отдельно.

Идём в тот же репозиторий RhVoice, в раздел "Downloads", ищем файлы с расширением .voice. Вот основные:

elena.voice — женский русский (рекомендую для начала)
alan.voice — мужской русский
baya.voice — женский английский
lyubov.voice — женский украинский
natasha.voice — женский русский (альтернатива)

Скачали? Теперь копируем эти файлы в папку C:\ProgramData\RHVoice\voices. Если папки нет — создайте. Система сама найдёт голоса при следующем запуске любой программы, использующей SAPI5.

3 Балаболка — бесплатный фронтенд

Тестировать синтез через настройки Windows неудобно. Балаболка — это швейцарский нож для работы с текстом и речью. Качаем с официального сайта (портативная версия не требует установки).

Запускаем balabolka.exe. В главном окне в поле ввода пишем любой текст. В выпадающем списке голосов должны появиться установленные через RhVoice варианты (например, "RHVoice Elena"). Нажимаем кнопку воспроизведения — должно заговорить.

Проблема: Если голосов нет, в Балаболке зайдите в меню "Параметры" → "Настройки речевых движков". Убедитесь, что выбран "Microsoft Speech API version 5" и в списке доступных голосов есть RHVoice. Если нет — перезапустите Балаболку от имени администратора.

Магия v5_cis_base_nostress: почему русский звучит правильно

Стандартные модели RhVoice хороши, но для русского языка есть особая модель — v5_cis_base_nostress. Это доработанная версия, которая умеет правильно ставить ударения в омографах. Без неё "зАмок" и "замОк" будут звучать одинаково (обычно с ударением на первый слог).

Где взять? Ищите в сообществе, например, на форумах, посвящённых синтезу речи. Модель распространяется как файл .onnx или .voice. Установка:

# 1. Находим файл модели (например, v5_cis_base_nostress.voice)
# 2. Копируем его в C:\ProgramData\RHVoice\voices
# 3. Переименовываем существующий русский голос (elena.voice в elena.voice.backup)
# 4. Переименовываем v5_cis_base_nostress.voice в elena.voice
# 5. Перезапускаем Балаболку

Теперь голос "Elena" будет использовать улучшенную модель. Проверьте: введите текст "Я шёл к замку по мосту через замок." — ударения должны быть расставлены правильно.

💡

Модель v5_cis_base_nostress также поддерживает фонетические алфавиты. В Балаболке можно вставить текст типа "[z\u0251\u02c8mok]" для точной настройки произношения.

Настройка под себя: скорость, тон, паузы

Стандартная скорость синтеза обычно слишком быстрая. В Балаболке настройки находятся прямо под окном ввода текста:

Скорость: -10 до +10. Для комфортного прослушивания я ставлю -3.
Тон: -10 до +10. Повышает или понижает голос.
Громкость: от 0 до 100. 80 обычно достаточно.
Пауза между предложениями: 200-500 мс. Без пауз речь сливается.

Но главная фишка — это профили. Создайте профиль "Книга" с медленной скоростью и длинными паузами, профиль "Быстрое чтение" с ускоренным темпом. Переключаетесь одним кликом.

Интеграция с другими программами

SAPI5 — это стандарт Windows. Любая программа, которая его поддерживает, увидит ваши новые голоса. Например:

NVDA — популярная экранная читалка. В настройках выберите RHVoice как основной синтезатор.
Браузеры с расширениями для чтения вслух.
Свои скрипты на Python через библиотеку pyttsx3 или win32com.client.

Пример кода на Python:

import win32com.client

speaker = win32com.client.Dispatch("SAPI.SpVoice")
# Получаем список всех голосов
for voice in speaker.GetVoices():
    print(voice.GetDescription())

# Выбираем RHVoice Elena
voices = speaker.GetVoices()
for voice in voices:
    if "RHVoice Elena" in voice.GetDescription():
        speaker.Voice = voice
        break

speaker.Speak("Привет, мир! Это локальный синтез речи.")

Типичные ошибки и как их избежать

Проблема	Причина	Решение
Голоса не появляются в программах	Служба RHVoice не запущена или блокируется антивирусом	Запустите службу вручную через services.msc. Добавьте исключение в антивирус.
Речь роботизированная, с паузами	Модель загружается с диска при каждом предложении	Увеличьте объём оперативной памяти или используйте SSD. Или смиритесь.
Нет русского языка в списке	Файлы голосов лежат не в той папке	Проверьте путь C:\ProgramData\RHVoice\voices. Папка должна быть скрытой.
Балаболка вылетает при воспроизведении	Конфликт версий SAPI5 или повреждённый голос	Переустановите RHVoice. Используйте портативную версию Балаболки.

Альтернативы и когда они лучше

RhVoice + SAPI5 — не единственный вариант. Если вам нужен более качественный звук, посмотрите на нейросетевые модели из нашего обзора. Но имейте в виду:

Piper TTS — отличное качество, но нет SAPI5 интерфейса. Придётся писать обёртки.
Coqui TTS — мощно, но требует Python и некоторых навыков.
Сервисы вроде with.audio — удобно, но это браузерное решение, которое работает через интернет.

Преимущество SAPI5 — универсальность. Однажды настроил — работает везде.

Что дальше? Автоматизация и скрипты

Когда базовый синтез работает, можно автоматизировать рутину:

Чтение RSS-лент вслух утром за кофе.
Озвучка длинных документов в фоновом режиме.
Интеграция с локальными LLM — чтобы ваш голосовой ассистент говорил человеческим голосом, а не биперами.
Создание аудиокниг из текстовых файлов с разбивкой по главам.

Балаболка умеет сохранять речь в MP3/WAV. Настройте пакетную обработку через командную строку:

balabolka.exe -t "текст для озвучки" -v "RHVoice Elena" -o output.mp3

💡

Для настоящей автоматизации посмотрите на MCP Tool Registry — инструмент для создания голосовых интерфейсов к любым системам.

Главный секрет — эта система уже работает на тысячах компьютеров. Не самая современная, не самая красивая, но невероятно живучая. Как старый добрый WinRAR. Когда все облачные сервисы отключатся, SAPI5 будет говорить.

Попробуйте. Худшее, что может случиться — вы потратите 15 минут и удалите всё. Лучшее — получите независимый голосовой инструмент на 20 языках, который будет работать даже когда интернета нет.

Локальный синтез речи для 20 языков в Windows: SAPI5 и Балаболка против облачных сервисов