DeepL Voice: голосовой перевод для Zoom и Teams в 2026 | Тест

DeepL решил перестать быть тихим. И заговорил

Спустя годы молчания, когда все думали, что компания будет вечно переводить только текст, DeepL выкатил голосовой перевод в реальном времени. Называется просто - DeepL Voice. И он уже встроен прямо в Zoom, Microsoft Teams и в мобильные приложения под iOS и Android. Анонс был месяц назад, но только сейчас сервис начал работать без сбоев. Мы взяли его, устроили адскую проверку на корпоративных планерках, звонках с зарубежными партнерами и в шумном метро. Вот что из этого вышло.

Что внутри коробки? Никакой магии, только API

Технически, DeepL Voice - это не какая-то революционная нейросеть с нуля. Это связка из двух вещей: их же флагманской модели перевода DeepL Translation Pro (v4.2, актуально на апрель 2026) и партнерского движка для синтеза речи. Голоса синтеза довольно натуральные, но до кастомных моделей от ElevenLabs им далеко. Главный козырь - качество перевода. Фразы "сложный технический английский на разговорный немецкий" или "быстрый испанский на размеренный японский" DeepL обрабатывает так, что у коллег по видеозвонку глаза на лоб лезут.

💡

На что смотреть: DeepL Voice доступен в трех тарифах: Starter (500 минут в месяц), Pro (5000 минут) и Enterprise. В Starter нет доступа к API и ограничено 5 языками. Для бизнеса - только Pro и выше. На момент 16.04.2026 поддержка 32 языков, включая русский, китайский, арабский и корейский.

Zoom и Teams: под капотом работает, но интерфейс сыроват

Интеграция с платформами для видеоконференций - главный козырь. В Zoom и Teams появилась отдельная кнопка "Перевод DeepL". Нажимаешь, выбираешь языки участников (например, ты говоришь по-русски, а коллега слышит по-английски) - и поехали. Качество перевода на уровне текстового DeepL, это впечатляет. Но задержка... Вот где собака зарыта.

Сценарий	Средняя задержка	Оценка
Zoom, тихая комната	1.2 - 1.8 секунды	Нормально для неторопливых обсуждений
Teams, групповой звонок (3+ человека)	До 2.5 секунд	Запаздывание заметно, перебивают друг друга
Мобильное приложение, уличный фон	1.5 - 2 секунды	Качество падает при шуме

Полторы секунды - это много или мало? Для неформальной беседы - терпимо. Для быстрого технического брифинга, где каждое слово на счету - уже сложно. Получается эффект легкого подвывания: ты уже договорил мысль, а в наушниках у собеседника все еще звучит перевод середины твоей фразы. Привыкнуть можно, но нервотрепка присутствует. Для сравнения, локальные решения вроде Voxtral-Mini 4B Realtime выдают задержку меньше 500ms, но там и языков меньше, и качество перевода скромнее.

Мобилка: работает, но садит батарею и требует стабильный интернет

Отдельное приложение DeepL Voice для iOS и Android - это по сути интерфейс к тому же облаку. Запускаешь, выбираешь языки, говоришь - приложение транскрибирует, переводит и озвучивает. Функция "разговор" (режим рации) удобна для живого диалога. Но здесь есть два подводных камня. Первый - все идет через сервер DeepL. Нет офлайн-режима. В метро или за городом связь прервалась - перевод умер. Второй - жрет батарею как не в себя. 20 минут непрерывного использования на iPhone 17 Pro (2026) съедают около 12% заряда. Google со своим офлайн-приложением AI Edge Eloquent здесь выглядит предусмотрительнее.

Главная боль: нет фонового режима. Нельзя свернуть приложение и говорить, например, в Telegram или WhatsApp. Приходится держать его открытым. Для быстрого перевода сообщения это неудобно. Разработчики обещают исправить в обновлении 2.1, которое запланировано на конец мая 2026.

API для разработчиков: мощно, но дорого и с ограничениями

Если вы хотите встроить голосовой перевод в свое приложение, DeepL предлагает Voice API. Документация четкая, есть SDK для Python, JavaScript, Java. Цена - от $0.02 за минуту аудио (на тарифе Pro). Звучит дешево? Посчитайте для сервиса с тысячей пользователей. В месяц могут набежать тысячи долларов. И тут есть лимит: максимальная длина аудио - 5 минут за один запрос. Для длинных встреч или подкастов придется резать поток. Альтернатива - собрать свой конвейер на базе LiveKit для обработки аудио и какого-нибудь открытого движка перевода, но это уже проект на несколько месяцев.

Итоги: кому это сейчас нужно?

DeepL Voice - не универсальный убийца всех языковых барьеров. Это инструмент для конкретных сценариев.

Бизнес-встречи один на один, где важна точность перевода, а скорость реакции второстепенна. Тут он блестящ.
Поддержка клиентов в режиме голосового чата. Интегрируете API - и операторы могут говорить на родном языке.
Путешественники для простых диалогов (спросить дорогу, заказать еду). Но для этого нужен стабильный интернет.

Для спонтанных уличных разговоров, шумных конференций или там, где важна мгновенная реакция - пока не идеально. Задержка и зависимость от сети кусаются. Качество перевода - на высоте, но платформа требует доработки. Совет? Если ваша компания уже сидит на DeepL Pro для текста, попробуйте Voice на пробном периоде. Для личного использования - пока присмотритесь к более нишевым инструментам вроде тех, что в нашем обзоре лучших AI-приложений для диктовки. Гонка голосового перевода только началась, и DeepL сделал сильный, но не решающий ход.

Подписаться на канал

DeepL Voice: тестируем голосовой перевод в реальном времени для Zoom, Teams и мобильных приложений