Тишина в эфире: зачем локальной LLM голос?

Вы настроили локальную LLM в LM Studio, запустили продвинутую модель вроде Qwen2.5-32B, и она пишет тексты, которые не стыдно показать. Но общаться приходится в тишине. Текст на экране - это скучно. Хочется, чтобы ассистент говорил. Как в фильмах.

Проблема в том, что большинство TTS-решений требуют Python, тонны зависимостей, а некоторые еще и платные. Или облачные. А мы хотим локально и без головной боли.

Вот здесь и появляется Kitten TTS - маленькая, но мощная модель синтеза речи, которая работает даже на слабом железе. А с ONNX рантаймом она превращается в исполняемый файл, который не требует Python. Идеально для Windows.

А через MCP (Model Context Protocol) мы можем подключить этот TTS-сервер к любой LLM, которая поддерживает MCP. Например, к LM Studio или другим клиентам.

MCP стал стандартом де-факто для расширения функциональности LLM. Если ваша LLM-клиент его поддерживает, вы можете добавлять инструменты без модификации кода модели.

Kitten TTS: маленький, но голосистый

Kitten TTS - это open-source модель синтеза речи, которая славится своим размером и качеством. На 2026 год последняя версия - v1.2, которая включает несколько предобученных голосов и поддержку ONNX экспорта.

Почему ONNX? Потому что это формат, который позволяет запускать модели на любом железе с помощью ONNX Runtime. И что важно - без Python. Просто скачал рантайм и исполняемый файл - и работаешь.

Качество речи? Не NVIDIA Riva, конечно, но для диалогов с LLM более чем достаточно. Особенно если выбрать подходящий голос. Модель маленькая - всего несколько десятков мегабайт. Работает даже на CPU, причем быстро.

Если вы хотите углубиться в сравнение TTS-моделей, у нас есть детальное сравнение open-source моделей TTS.

1Скачиваем все необходимое

Первым делом идем на GitHub репозиторий Kitten TTS. На 2026 год проект активно развивается, так что ищем последний релиз. Скачиваем предварительно собранный ONNX пакет для Windows.

Также понадобится ONNX Runtime. Скачиваем последнюю версию для Windows (x64) с официального сайта.

И не забудьте голосовые модели. В репозитории Kitten TTS есть несколько предобученных. Выберите понравившийся - например, 'female' или 'male'.

# Пример ссылок для скачивания (актуально на 11.03.2026)
# Kitten TTS ONNX package: https://github.com/kitt-ai/kitten-tts/releases/download/v1.2/kitten-tts-onnx-windows.zip
# ONNX Runtime: https://github.com/microsoft/onnxruntime/releases/download/v1.18.0/onnxruntime-win-x64-1.18.0.zip
# Голосовые модели: https://huggingface.co/kitt-ai/kitten-tts/resolve/main/voices/female.zip

Внимание: ссылки могут измениться. Всегда проверяйте последние релизы на GitHub и Hugging Face.

2Распаковываем и настраиваем

Создайте папку, например, C:\kitten-tts-server. Распакуйте туда все скачанные архивы. Структура должна выглядеть примерно так:

C:\kitten-tts-server\
├── kitten-tts-onnx.exe
├── onnxruntime.dll
├── female\
│   ├── model.onnx
│   └── config.json
└── male\
    ├── model.onnx
    └── config.json

Теперь проверьте, что все файлы на месте. Если ONNX Runtime скачан как отдельный архив, скопируйте onnxruntime.dll в основную папку.

3Запускаем TTS-сервер

Kitten TTS ONNX пакет включает в себя простой HTTP-сервер. Запустите его из командной строки:

cd C:\kitten-tts-server
kitten-tts-onnx.exe --port 8000 --voice female

Сервер запустится на порту 8000. Теперь он готов принимать запросы. Вы можете проверить его, открыв в браузере http://localhost:8000/health. Должен быть ответ OK.

Если вы хотите использовать другой голос, укажите папку с голосовой моделью. Например, --voice male.

💡

Сервер может работать в фоне. Для постоянного использования создайте ярлык или добавьте в автозагрузку.

MCP: мост между текстом и звуком

Теперь у нас есть TTS-сервер. Но как заставить LLM с ним общаться? Через MCP. Model Context Protocol - это протокол, который позволяет LLM взаимодействовать с внешними инструментами.

Нам нужно создать MCP-сервер, который будет принимать текст от LLM, отправлять его в наш TTS-сервер, и возвращать аудио. Звучит сложно, но на самом деле есть готовые решения.

В репозитории Kitten TTS есть пример MCP-сервера. Скачайте его или создайте свой на основе примера.

Вот пример простого MCP-сервера на Python (да, здесь Python нужен, но только для MCP-сервера, который будет легким).

import asyncio
import aiohttp
from mcp.server import Server
from mcp.server.models import Tool

server = Server("kitten-tts-mcp")

@server.list_tools()
async def handle_list_tools():
    return [
        Tool(
            name="synthesize_speech",
            description="Синтезировать речь из текста",
            inputSchema={
                "type": "object",
                "properties": {
                    "text": {"type": "string", "description": "Текст для озвучки"}
                },
                "required": ["text"]
            }
        )
    ]

@server.call_tool()
async def handle_call_tool(name: str, arguments: dict):
    if name == "synthesize_speech":
        text = arguments.get("text", "")
        async with aiohttp.ClientSession() as session:
            async with session.post('http://localhost:8000/synthesize', json={'text': text}) as resp:
                audio_data = await resp.read()
                # Возвращаем аудио в base64 или как файл
                return {"audio": audio_data.hex()}  # упрощенно

async def main():
    async with server.run() as transport:
        await transport.wait_closed()

if __name__ == "__main__":
    asyncio.run(main())

Это упрощенный пример. На практике вам нужно будет настроить MCP-сервер согласно документации. Но суть в том, что LLM будет вызывать инструмент synthesize_speech, и получать аудио.

Затем в LLM-клиенте, который поддерживает MCP (например, LM Studio), вы добавляете этот MCP-сервер. И после этого модель может использовать TTS.

LM Studio с версии 2.0 и выше имеет встроенную поддержку MCP. Просто укажите адрес вашего MCP-сервера в настройках.

Если вы хотите более готовое решение, посмотрите AnyTTS для подключения TTS к LLM. Но здесь мы делаем все локально и с открытым кодом.

А что если...? Альтернативы и их недостатки

Kitten TTS не единственный вариант. Есть и другие TTS-модели, которые можно запустить локально.

Модель	Требования	Качество	Примечание
Kitten TTS ONNX	Низкие, работает на CPU	Хорошее для диалогов	Простая установка, нет Python
Qwen3 TTS	GPU, много памяти	Очень высокое	Требует мощное железо, сложная настройка
Coqui TTS	Python, зависимости	Высокое	Гибкая, но тяжелая в поддержке
Microsoft Speech API	Windows, лицензия	Хорошее	Проприетарная, не полностью локальная

Kitten TTS выигрывает по простоте развертывания. Если у вас слабое железо или вы не хотите возиться с Python, это лучший выбор.

Для более продвинутых сценариев, например, создания аудиокниг, может подойти Qwen3 TTS. У нас есть руководство по Qwen3 TTS в vLLM-Omni.

Говорим по-настоящему: примеры использования

Что можно делать с этим TTS-сервером?

Голосовой ассистент: Подключите к LM Studio и общайтесь с LLM голосом. Спросите о погоде, попросите рассказать историю.
Чтение текстов: Отправляйте длинные тексты, и сервер будет их озвучивать. Можно использовать для аудиокниг, но для длинных текстов лучше batch-обработка.
Игровые NPC: Если вы разрабатываете игру, Kitten TTS может генерировать реплики персонажей в реальном времени.
Обучение языкам: Слушайте произношение фраз, сгенерированных LLM.

Представьте, что вы собираете полноценного голосового ассистента на одной видеокарте. Kitten TTS отлично впишется в такую систему.

Кому это нужно? (Спойлер: многим)

Этот подход подойдет:

Энтузиастам локальных LLM, которые хотят добавить голосовой вывод без облаков.
Разработчикам прототипов, которым нужно быстро добавить TTS в приложение.
Пользователям Windows, которые не хотят устанавливать Python или разбираться с зависимостями.
Обладателям слабого железа - Kitten TTS работает даже на старых компьютерах.
Тем, кто ценит приватность - все данные остаются на вашем компьютере.

Если вы из тех, кто любит копаться в технологиях, но ненавидит сложные установки, Kitten TTS ONNX - ваш выбор.

И последнее: не забывайте обновлять. На 2026 год мир TTS быстро меняется. Следите за репозиторием Kitten TTS, и возможно, скоро появятся еще более качественные голоса.

Подписаться на канал

Голос для локальной LLM: разворачиваем Kitten TTS сервер на Windows через MCP