DeepL решил перестать быть тихим. И заговорил
Спустя годы молчания, когда все думали, что компания будет вечно переводить только текст, DeepL выкатил голосовой перевод в реальном времени. Называется просто - DeepL Voice. И он уже встроен прямо в Zoom, Microsoft Teams и в мобильные приложения под iOS и Android. Анонс был месяц назад, но только сейчас сервис начал работать без сбоев. Мы взяли его, устроили адскую проверку на корпоративных планерках, звонках с зарубежными партнерами и в шумном метро. Вот что из этого вышло.
Что внутри коробки? Никакой магии, только API
Технически, DeepL Voice - это не какая-то революционная нейросеть с нуля. Это связка из двух вещей: их же флагманской модели перевода DeepL Translation Pro (v4.2, актуально на апрель 2026) и партнерского движка для синтеза речи. Голоса синтеза довольно натуральные, но до кастомных моделей от ElevenLabs им далеко. Главный козырь - качество перевода. Фразы "сложный технический английский на разговорный немецкий" или "быстрый испанский на размеренный японский" DeepL обрабатывает так, что у коллег по видеозвонку глаза на лоб лезут.
Zoom и Teams: под капотом работает, но интерфейс сыроват
Интеграция с платформами для видеоконференций - главный козырь. В Zoom и Teams появилась отдельная кнопка "Перевод DeepL". Нажимаешь, выбираешь языки участников (например, ты говоришь по-русски, а коллега слышит по-английски) - и поехали. Качество перевода на уровне текстового DeepL, это впечатляет. Но задержка... Вот где собака зарыта.
| Сценарий | Средняя задержка | Оценка |
|---|---|---|
| Zoom, тихая комната | 1.2 - 1.8 секунды | Нормально для неторопливых обсуждений |
| Teams, групповой звонок (3+ человека) | До 2.5 секунд | Запаздывание заметно, перебивают друг друга |
| Мобильное приложение, уличный фон | 1.5 - 2 секунды | Качество падает при шуме |
Полторы секунды - это много или мало? Для неформальной беседы - терпимо. Для быстрого технического брифинга, где каждое слово на счету - уже сложно. Получается эффект легкого подвывания: ты уже договорил мысль, а в наушниках у собеседника все еще звучит перевод середины твоей фразы. Привыкнуть можно, но нервотрепка присутствует. Для сравнения, локальные решения вроде Voxtral-Mini 4B Realtime выдают задержку меньше 500ms, но там и языков меньше, и качество перевода скромнее.
Мобилка: работает, но садит батарею и требует стабильный интернет
Отдельное приложение DeepL Voice для iOS и Android - это по сути интерфейс к тому же облаку. Запускаешь, выбираешь языки, говоришь - приложение транскрибирует, переводит и озвучивает. Функция "разговор" (режим рации) удобна для живого диалога. Но здесь есть два подводных камня. Первый - все идет через сервер DeepL. Нет офлайн-режима. В метро или за городом связь прервалась - перевод умер. Второй - жрет батарею как не в себя. 20 минут непрерывного использования на iPhone 17 Pro (2026) съедают около 12% заряда. Google со своим офлайн-приложением AI Edge Eloquent здесь выглядит предусмотрительнее.
Главная боль: нет фонового режима. Нельзя свернуть приложение и говорить, например, в Telegram или WhatsApp. Приходится держать его открытым. Для быстрого перевода сообщения это неудобно. Разработчики обещают исправить в обновлении 2.1, которое запланировано на конец мая 2026.
API для разработчиков: мощно, но дорого и с ограничениями
Если вы хотите встроить голосовой перевод в свое приложение, DeepL предлагает Voice API. Документация четкая, есть SDK для Python, JavaScript, Java. Цена - от $0.02 за минуту аудио (на тарифе Pro). Звучит дешево? Посчитайте для сервиса с тысячей пользователей. В месяц могут набежать тысячи долларов. И тут есть лимит: максимальная длина аудио - 5 минут за один запрос. Для длинных встреч или подкастов придется резать поток. Альтернатива - собрать свой конвейер на базе LiveKit для обработки аудио и какого-нибудь открытого движка перевода, но это уже проект на несколько месяцев.
Итоги: кому это сейчас нужно?
DeepL Voice - не универсальный убийца всех языковых барьеров. Это инструмент для конкретных сценариев.
- Бизнес-встречи один на один, где важна точность перевода, а скорость реакции второстепенна. Тут он блестящ.
- Поддержка клиентов в режиме голосового чата. Интегрируете API - и операторы могут говорить на родном языке.
- Путешественники для простых диалогов (спросить дорогу, заказать еду). Но для этого нужен стабильный интернет.
Для спонтанных уличных разговоров, шумных конференций или там, где важна мгновенная реакция - пока не идеально. Задержка и зависимость от сети кусаются. Качество перевода - на высоте, но платформа требует доработки. Совет? Если ваша компания уже сидит на DeepL Pro для текста, попробуйте Voice на пробном периоде. Для личного использования - пока присмотритесь к более нишевым инструментам вроде тех, что в нашем обзоре лучших AI-приложений для диктовки. Гонка голосового перевода только началась, и DeepL сделал сильный, но не решающий ход.