Зачем вообще клонировать голос оффлайн?
Вот ситуация: хотите сделать озвучку для своего подкаста, но микрофон подводит. Или нужен голосовой ассистент с вашим тембром. Или просто поиграться. Обычные сервисы вроде ElevenLabs шлют ваши голосовые данные в облако — и кто знает, что с ними происходит дальше.
Chinny решает это радикально: всё работает на вашем устройстве. Записали голос — модель Chatterbox его обрабатывает локально. Никаких серверов, никаких подписок. Технически это выглядит как магия, но на самом деле — просто грамотно упакованная нейросеть.
Важно: Chinny не требует интернета после установки. Но загрузить приложение из App Store всё же придется.
Что внутри? Модель Chatterbox и жёсткие требования
Разработчики взяли Chatterbox — одну из последних open-source моделей для TTS — и запихнули её в мобильное приложение. Звучит просто, пока не посмотришь на системные требования:
| Требование | Минимум для iOS | Минимум для macOS |
|---|---|---|
| Оперативная память | 3 ГБ | 8 ГБ (рекомендуется) |
| Место на диске | 3.41 ГБ | 3.41 ГБ |
| Форматы аудио | MP3, WAV, M4A | |
| Версия iOS | 17.0+ | — |
3.41 ГБ — это не случайная цифра. Туда входит сама модель, веса, вспомогательные файлы. Если у вас iPhone с 64 ГБ памяти, придется подумать дважды. Старые устройства с 2 ГБ RAM просто не запустят приложение.
Работает? Да. Хорошо? Посмотрим
Я потестил Chinny на iPhone 13 Pro. Процесс выглядит так:
1 Запись образца голоса
Нужно наговорить 10-15 секунд чистой речи. Без фонового шума, без эмоциональных всплесков. Чем чище запись — тем лучше результат. Форматы принимает любые: mp3, wav, m4a. Можно импортировать из диктофона или специализированного диктофона.
2 Обучение модели
Тут начинается магия. Приложение анализирует ваш голос, извлекает характеристики — тембр, интонации, мелодику. На iPhone 13 Pro процесс занимает около 2-3 минут. Устройство заметно греется. Батарея уходит на 3-4%.
3 Синтез речи
Вводите текст — получаете аудио. Качество? Для бесплатного оффлайн-инструмента — отличное. Есть артефакты, иногда интонации сбиваются на длинных предложениях. Но голос узнаваемый.
Совет: для лучшего результата записывайте голос в тихом помещении. Фоновый шум модель не отфильтрует — он останется в клоне.
А есть альтернативы? Конечно, но...
Сравним Chinny с тем, что есть на рынке:
- ElevenLabs — золотой стандарт. Качество выше, возможностей больше. Но платно, и ваши голосовые данные улетают в облако. Если нужна приватность — не вариант.
- Whisper + Ollama — технически можно собрать свою систему, как в нашем гайде по голосовым ассистентам. Но это для гиков, а не для обычных пользователей.
- Облачные TTS-сервисы — их много в нашем топе нейросетей для озвучки. Дешевле, качественнее. Но опять же — данные уходят на сервер.
- Локальный синтез в браузере — как with.audio. Удобно, но клонирования голоса там нет.
Chinny занимает уникальную нишу: бесплатно, оффлайн, просто. Заплатите только памятью вашего телефона.
Кому подойдет Chinny? Трём типам людей
- Параноикам приватности. Те, кто не готов отправлять свой голос в неизвестность. Здесь всё остаётся на устройстве. Даже если удалите приложение — модель удалится вместе с ним.
- Экспериментаторам. Хотите озвучить мемы своим голосом? Или сделать шуточное поздравление? Chinny даёт достаточно качества для таких задач.
- Тем, кто часто без интернета. В поездках, на даче, в метро. Записали голос дома — генерируете аудио где угодно.
Не подойдет профессионалам, которым нужно студийное качество. И тем, у кого старые устройства — просто не потянет.
Подводные камни, которые разработчики не афишируют
После недели тестирования нашёл несколько проблем:
- Память, память и ещё раз память. Приложение жрёт оперативку. Если параллельно открыть браузер с парой вкладок — Chinny может вылететь. Особенно на устройствах с 3-4 ГБ RAM.
- Нагрев. Процесс обучения модели заставляет iPhone греться как утюг. Не советую делать это, пока устройство на зарядке.
- Только английский. Да, модель Chatterbox обучена в основном на английских данных. Русский поддерживает, но с акцентом и странными интонациями.
- Нет тонкой настройки. Хотите изменить скорость, тембр, эмоциональную окраску? Не получится. Модель выдаёт то, что считает нужным.
Это плата за оффлайн-работу и бесплатность. Разработчики выбрали простоту в ущерб гибкости.
Что дальше? Будущее оффлайн-TTS
Chinny — первый, но не последний. Технология Chatterbox показывает: мобильные устройства уже достаточно мощные для сложных нейросетевых задач. Скоро появятся аналоги с поддержкой большего количества языков, лучшим качеством, меньшим потреблением памяти.
Уже сейчас можно представить интеграцию таких инструментов с локальными голосовыми ассистентами. Ваш персональный ИИ с вашим голосом, работающий полностью оффлайн.
Пока же Chinny остаётся любопытным экспериментом. Не идеальным, но работающим. Скачайте, попробуйте, поймёте — ваш ли это инструмент. Главное — убедитесь, что места на телефоне хватит.
Предупреждение: используйте клонирование голоса ответственно. Не создавайте аудио, которые могут ввести кого-то в заблуждение или навредить.