Amazon Polly Bidirectional Streaming: ускорение TTS для AI-ассистентов

Потоковый синтез речи: наконец-то без пауз

До сегодняшнего дня разговор с голосовым ассистентом напоминал игру в пинг-понг с задержкой. Вы говорите. Ждете. Он думает. Еще ждете. Потом слышите ответ. Эта пауза — тот самый latency — сводила с ума всех. AWS, кажется, нашла лекарство.

На этой неделе Amazon тихо, без громких анонсов, обновила Polly. Не просто добавила новый голос или поддержку языка. Они запустили Bidirectional Streaming API — двунаправленный потоковый синтез поверх HTTP/2. Проще говоря, теперь текст можно отправлять кусками, а аудио получать кусками же. И все это в одном соединении. В реальном времени.

Технический директор одного из крупных вендоров голосовых ботов в приватной беседе сказал: «Раньше мы хакали Polly, отправляя предложения по отдельности и склеивая аудио на своей стороне. Это было больно. Теперь у них есть нативный способ. Задержка упала с 800-1000 мс до 200-300 мс на том же контенте». Цифры говорят сами за себя.

Как это работает? Ломаем старую схему

Старый Polly API работал по принципу «запрос-ответ». Отправляешь весь текст — получаешь весь аудиофайл. Для длинных текстов нормально. Для диалога — катастрофа. Нужно было ждать, пока языковая модель (LLM) полностью сгенерирует ответ, отправить его в Polly, дождаться синтеза всего аудио и только потом начать воспроизведение.

Bidirectional Streaming ломает эту схему. Под капотом — HTTP/2, который поддерживает мультиплексирование и настоящие двунаправленные потоки (streams). Клиент открывает одно соединение к /v1/speech и получает два канала: для отправки текстовых фрагментов и для получения аудиофрагментов.

Параметр	Старый API (синхронный)	Новый Bidirectional Streaming (26.03.2026)
Протокол	HTTP/1.1	HTTP/2
Модель	Request-Response	Continuous Request/Response Stream
Задержка (E2E, типичная)	800+ мс	200-300 мс
Поддержка прерывания	Нет	Да (отправка сигнала в потоке)

Зачем это нужно? Представьте голосового ассистента на базе, скажем, DGX Spark. LLM генерирует токены постепенно. Раньше нужно было ждать генерации всего ответа. Теперь можно отправлять в Polly по предложению или даже по фразе, как только они готовы. Polly начнет синтезировать первое предложение, пока LLM думает над вторым.

Что это значит для вашего голосового ассистента? Все. Абсолютно все.

Разница в 500 миллисекунд — это граница между «удобно» и «раздражает». С новой системой диалог становится по-настоящему fluid. Пользователь перестает замечать, что говорит с машиной. Это не эволюция, это скачок.

Мгновенный старт ответа: Ассистент начинает говорить через 200-300 мс после вашего последнего слова. Вы даже не успеете подумать «он что, завис?».
Естественные паузы: Можно стримить текст с учетом пунктуации. Запятая — микропауза, точка — посерьезнее. Раньше это была одна сплошная аудиодорожка.
Прерывание (barge-in): Пользователь может перебить ассистента. Клиент отправляет специальный сигнал в тот же поток, соединение не рвется, синтез останавливается. Мечта.

Если вы собирали локального ассистента на одной видеокарте, то знаете, что TTS часто было узким местом. Теперь можно оставить тяжелый LLM локально, а TTS отдать в облако через этот API — и получить лучшую задержку, чем у полностью локального стека.

💡

Интересный побочный эффект: эта технология убивает последний аргумент в пользу каскадных архитектур ассистентов. Зачем нужны отдельные модели для намерений и диалога, если одна большая модель типа Nova Sonic справляется быстрее, а TTS теперь не добавляет задержку?

Но не все так гладко. Подводные камни 2026 года

API новый. Документация еще пахнет свежей краской. И есть нюансы, о которых AWS скромно умалчивает.

Во-первых, это не магия. Задержка в 200 мс — идеальный случай для коротких фраз и стабильного интернета. Как только вы начинаете стримить длинный текст, а сеть чуть подтормаживает, аудиобуфер на клиенте может опустеть. Появится та самая пауза. Нужна умная логика на стороне клиента для предзагрузки.

Во-вторых, цена. Потоковый синтез считается по символам, как и обычный. Но теперь вы платите и за время открытого соединения. Для массового сервиса счет может оказаться неожиданным. Хотя, если ваша цель — убить задержку для нескольких пользователей, игра стоит свеч.

Внимание на голоса! Не все голоса Polly поддерживают потоковый синтез в день запуска. «Нейронные» голоса последнего поколения (2025-2026 гг.) — да. Классические и некоторые старые нейронные — нет. Проверяйте документацию перед выбором.

Что дальше? Облако против локального фронта

Этот релиз — четкий сигнал. AWS не хочет уступать рынок локальным TTS-решениям вроде with.audio или систем, подключаемых через AnyTTS. Зачем мучиться с установкой моделей на свой RTX, если облако дает такое же качество и скорость?

Но битва не окончена. Для тех, кому важна конфиденциальность (а таких в 2026 году все больше), локальный ASR и TTS останутся единственным выбором. Проекты в духе сборки локального ASR на Python или полностью локального голосового ИИ на iPhone никуда не денутся.

Мой прогноз? К концу 2027 года bidirectional streaming станет стандартом для всех облачных TTS-провайдеров. Google и Microsoft ответят своими аналогичными API. А мы, разработчики, наконец-то перестанем объяснять пользователям, почему ассистент «тупит». Просто подключите новый эндпоинт.

P.S. Если вы уже тестируете этот API в связке с многопользовательским AI-чатом, напишите в комментариях о реальных цифрах задержки. Обещаю, теория от практики отличается всегда.

Подписаться на канал

Amazon Polly Bidirectional Streaming: как API для потокового синтеза речи ускорит голосовых ассистентов

Потоковый синтез речи: наконец-то без пауз

Как это работает? Ломаем старую схему

Что это значит для вашего голосового ассистента? Все. Абсолютно все.

Но не все так гладко. Подводные камни 2026 года

Что дальше? Облако против локального фронта

Подписывайтесь на наш канал!