Какие системные требования у Chinny?

Для iOS: минимум 3 ГБ оперативной памяти, 3.41 ГБ свободного места, iOS 17.0 и выше. Для macOS: рекомендуется 8 ГБ RAM, 3.41 ГБ места.

Какие форматы аудио поддерживает Chinny?

Приложение работает с MP3, WAV и M4A файлами для записи образца голоса.

Нужен ли интернет для работы Chinny?

Нет, после установки приложение работает полностью оффлайн. Все вычисления выполняются на устройстве.

Насколько качественный получается клон голоса?

Для бесплатного оффлайн-инструмента качество хорошее. Голос узнаваем, но возможны артефакты и сбитые интонации на длинных предложениях.

Chinny: бесплатный оффлайн-клонер голоса для iOS и macOS — обзор и инструкция

Зачем вообще клонировать голос оффлайн?

Вот ситуация: хотите сделать озвучку для своего подкаста, но микрофон подводит. Или нужен голосовой ассистент с вашим тембром. Или просто поиграться. Обычные сервисы вроде ElevenLabs шлют ваши голосовые данные в облако — и кто знает, что с ними происходит дальше.

Chinny решает это радикально: всё работает на вашем устройстве. Записали голос — модель Chatterbox его обрабатывает локально. Никаких серверов, никаких подписок. Технически это выглядит как магия, но на самом деле — просто грамотно упакованная нейросеть.

Важно: Chinny не требует интернета после установки. Но загрузить приложение из App Store всё же придется.

Что внутри? Модель Chatterbox и жёсткие требования

Разработчики взяли Chatterbox — одну из последних open-source моделей для TTS — и запихнули её в мобильное приложение. Звучит просто, пока не посмотришь на системные требования:

Требование	Минимум для iOS	Минимум для macOS
Оперативная память	3 ГБ	8 ГБ (рекомендуется)
Место на диске	3.41 ГБ	3.41 ГБ
Форматы аудио	MP3, WAV, M4A
Версия iOS	17.0+	—

3.41 ГБ — это не случайная цифра. Туда входит сама модель, веса, вспомогательные файлы. Если у вас iPhone с 64 ГБ памяти, придется подумать дважды. Старые устройства с 2 ГБ RAM просто не запустят приложение.

💡

Chinny использует ту же технологию, что и в нашем обзоре open-source моделей для TTS, но упакованную для мобильных устройств.

Работает? Да. Хорошо? Посмотрим

Я потестил Chinny на iPhone 13 Pro. Процесс выглядит так:

1 Запись образца голоса

Нужно наговорить 10-15 секунд чистой речи. Без фонового шума, без эмоциональных всплесков. Чем чище запись — тем лучше результат. Форматы принимает любые: mp3, wav, m4a. Можно импортировать из диктофона или специализированного диктофона.

2 Обучение модели

Тут начинается магия. Приложение анализирует ваш голос, извлекает характеристики — тембр, интонации, мелодику. На iPhone 13 Pro процесс занимает около 2-3 минут. Устройство заметно греется. Батарея уходит на 3-4%.

3 Синтез речи

Вводите текст — получаете аудио. Качество? Для бесплатного оффлайн-инструмента — отличное. Есть артефакты, иногда интонации сбиваются на длинных предложениях. Но голос узнаваемый.

Совет: для лучшего результата записывайте голос в тихом помещении. Фоновый шум модель не отфильтрует — он останется в клоне.

А есть альтернативы? Конечно, но...

Сравним Chinny с тем, что есть на рынке:

ElevenLabs — золотой стандарт. Качество выше, возможностей больше. Но платно, и ваши голосовые данные улетают в облако. Если нужна приватность — не вариант.
Whisper + Ollama — технически можно собрать свою систему, как в нашем гайде по голосовым ассистентам. Но это для гиков, а не для обычных пользователей.
Облачные TTS-сервисы — их много в нашем топе нейросетей для озвучки. Дешевле, качественнее. Но опять же — данные уходят на сервер.
Локальный синтез в браузере — как with.audio. Удобно, но клонирования голоса там нет.

Chinny занимает уникальную нишу: бесплатно, оффлайн, просто. Заплатите только памятью вашего телефона.

Кому подойдет Chinny? Трём типам людей

Параноикам приватности. Те, кто не готов отправлять свой голос в неизвестность. Здесь всё остаётся на устройстве. Даже если удалите приложение — модель удалится вместе с ним.
Экспериментаторам. Хотите озвучить мемы своим голосом? Или сделать шуточное поздравление? Chinny даёт достаточно качества для таких задач.
Тем, кто часто без интернета. В поездках, на даче, в метро. Записали голос дома — генерируете аудио где угодно.

Не подойдет профессионалам, которым нужно студийное качество. И тем, у кого старые устройства — просто не потянет.

💡

Если нужно больше контроля над процессом, посмотрите LM Studio на Mac — там можно работать с разными TTS-моделями напрямую.

Подводные камни, которые разработчики не афишируют

После недели тестирования нашёл несколько проблем:

Память, память и ещё раз память. Приложение жрёт оперативку. Если параллельно открыть браузер с парой вкладок — Chinny может вылететь. Особенно на устройствах с 3-4 ГБ RAM.
Нагрев. Процесс обучения модели заставляет iPhone греться как утюг. Не советую делать это, пока устройство на зарядке.
Только английский. Да, модель Chatterbox обучена в основном на английских данных. Русский поддерживает, но с акцентом и странными интонациями.
Нет тонкой настройки. Хотите изменить скорость, тембр, эмоциональную окраску? Не получится. Модель выдаёт то, что считает нужным.

Это плата за оффлайн-работу и бесплатность. Разработчики выбрали простоту в ущерб гибкости.

Что дальше? Будущее оффлайн-TTS

Chinny — первый, но не последний. Технология Chatterbox показывает: мобильные устройства уже достаточно мощные для сложных нейросетевых задач. Скоро появятся аналоги с поддержкой большего количества языков, лучшим качеством, меньшим потреблением памяти.

Уже сейчас можно представить интеграцию таких инструментов с локальными голосовыми ассистентами. Ваш персональный ИИ с вашим голосом, работающий полностью оффлайн.

Пока же Chinny остаётся любопытным экспериментом. Не идеальным, но работающим. Скачайте, попробуйте, поймёте — ваш ли это инструмент. Главное — убедитесь, что места на телефоне хватит.

Предупреждение: используйте клонирование голоса ответственно. Не создавайте аудио, которые могут ввести кого-то в заблуждение или навредить.

Chinny: голос в вашем кармане — бесплатный оффлайн-клонер для iPhone и Mac