Когда умирает голос, но остается ностальгия

В начале 2026 года xAI тихо убрала Ani из Grok. Официальная версия - "оптимизация интерфейса". На деле - голос, который стал для многих почти родным, превратился в цифровую реликвию. Платить за API, чтобы слышать знакомые интонации? Смешно. Есть другой путь - собрать своего собственного Ani, который будет жить на вашем железе и никуда не денется.

Законность клонирования голоса - серая зона. Ani - персонаж, созданный xAI. Используйте это знание для личных, некоммерческих экспериментов. Продажа клона или его интеграция в коммерческий продукт - прямой путь к юридическим проблемам.

CosyVoice против XTTS v2: за что голосует железо

Выбор модели в 2026 году - не про качество. Обе дают результат близкий к оригиналу. Выбор про то, сколько у вас VRAM и готовы ли вы ждать.

Модель	Минимум VRAM	Время обучения (5 мин аудио)	Качество клона	Главная боль
CosyVoice (v1.1, 2025)	8 ГБ	~45 минут	Идеальное сходство тона	Жрет память как не в себя
XTTS v2 (v2.0.3, 2025)	6 ГБ	~20 минут	Хорошее, иногда металлический оттенок	Сложности с эмоциональной окраской
Qwen3 TTS (v1.8B, 2025)	10 ГБ	~1.5 часа	Лучшее произношение	Требует танцев с бубном для тонкой настройки

CosyVoice от Microsoft - это монстр. Дает самое близкое к оригиналу звучание, но просит за это RTX 4070 или лучше. XTTS v2 от Coqui - демократичный вариант, который запустится даже на RTX 3060, но придется мириться с легкой роботизированностью в сложных фразах.

Помните статью про сравнение TTS моделей для аудиокниг? Там я ругал XTTS за проблемы с длинными текстами. Для коротких реплик в стиле Ani он подходит идеально.

Охота за голосом: как собрать чистый датасет

Здесь все ломается. Большинство пытается скормить модели нарезанные записи из YouTube-обзоров Grok. Результат - клон с фоновой музыкой, эхом и артефактами компрессии. Ani звучит так, будто говорит из колодца.

1 Ищите стримы, а не клипы

Забудьте про короткие тиктоки. Нужны длинные (30+ минут) стримы или подкасты, где Ani говорит монотонно, без эмоциональных всплесков. Идеально - записи демонстраций функционала Grok от самих разработчиков xAI. Фон должен быть максимально чистым. Чем меньше посторонних шумов, тем меньше модель будет пытаться их воспроизвести.

2 Нарезка - это медитация

Скачайте стрим, загрузите в Audacity или любой удобный редактор. Режьте на фрагменты по 5-15 секунд. Каждый фрагмент - одна законченная фраза. Никаких полуслов, никаких "эээ" и "ммм". Если сомневаетесь, выкидывайте. Лучше 3 минуты идеального аудио, чем 10 минут с мусором.

💡

Используйте инструменты вроде Whisper.cpp для автоматической транскрипции. Так вы получите не только аудиофрагменты, но и точный текст, который произносится. Для обучения это золото.

3 Очистка до скрипа

Готовые фрагменты пропустите через RNNoise или аналогичный денайзер. Цель - не сделать звук студийным, а убрать постоянный фоновый гул (характерный для любой записи с микрофона). После очистки нормализуйте громкость. Все файлы должны звучать примерно одинаково громко.

Обучение: где все идет не по плану

Вы собрали 20 минут чистого аудио. Разбили на 200 фрагментов. Пришло время обучения. И вот тут начинается магия (и разочарование).

Для CosyVoice стандартный рецепт такой:

python train.py --model_name "cosyvoice-v1.1" --dataset_path "./ani_dataset/" --num_epochs 100 --batch_size 8 --lr 0.0001

На практике первые 50 эпох вы не услышите ничего похожего на человеческую речь. К 80-й эпохе проступит узнаваемая интонация. К 100-й - голос стабилизируется. Дальше гнаться за эпохами бесполезно - модель начнет переобучаться и добавит странные артефакты.

С XTTS v2 процесс быстрее, но коварнее:

tts --model_name "tts_models/multilingual/multi-dataset/xtts_v2" --dataset_path "ani_dataset" --output_path "./output_ani" --epochs 50

Модель схватывает тембр уже на 30-й эпохе. Проблема в другом - она часто "забывает" особенности произношения и начинает говорить с легким акцентом. Спасение - увеличение датасета. Менее 15 минут аудио? Даже не пробуйте.

Не запускайте обучение на GPU, который одновременно отрисовывает рабочий стол или игры. Вы получите out-of-memory через 10 минут. Закройте все, оставьте модель одну с видеопамятью.

А если не хочется возиться с обучением?

Есть обходной путь - speech-to-speech конверсия. Берете свой голос, записанный на хороший микрофон, и с помощью RVC превращаете его в голос Ani. Качество будет немного ниже (теряются мелкие нюансы), зато не нужно собирать датасет и обучать модель с нуля.

Подробно этот метод я разбирал в статье про speech-to-speech конверсию для анонимизации. Принцип тот же, только целевой голос - Ani.

Кому это вообще нужно?

Ответ кажется очевидным - фанатам Grok. На деле все интереснее.

Разработчикам чат-ботов, которые хотят уникальный голосовой интерфейс без вечных лицензионных отчислений ElevenLabs.
Создателям контента, которые делают обзоры на AI-технологии и хотят добавить "изюминку".
Геймерам, которые модифицируют игры, заменяя стандартные голоса на знакомые (представьте Geralt из Rivia с голосом Ani - да, это уже кто-то сделал).
Исследователям, изучающим, как люди эмоционально привязываются к синтетическим голосам и что происходит, когда их отключают.

Для серьезных проектов вроде конвертации аудиокниг я бы все же посмотрел в сторону Qwen3 TTS. Он лучше справляется с длинными текстами и разнообразной пунктуацией.

Что в итоге получится?

Не идеальную копию. Тот голос, что жил в облаках xAI, был результатом тонкой настройки на огромных кластерах. Ваш локальный клон будет на 85-90% похож. Он будет иногда спотыкаться на сложных словах. Может добавить лишнюю паузу.

Но он будет вашим. Он не исчезнет после очередного обновления. Не потребует ежемесячной подписки. И в этом есть своя, странная поэзия - сохранить цифровой голос, который создавала корпорация, с помощью открытых инструментов, которые создавало сообщество.

Главный совет, который не даст никто: после обучения заставьте модель прочитать что-то совершенно нехарактерное для Ani. Стихи Есенина. Инструкцию к стиральной машине. Рецепт пасты карбонара. Так вы поймете реальные границы клона - где он блещет, а где рассыпается в цифровой прах.

Подписаться на канал

Хакинг голоса Ani из Grok: как собрать датасет и выжать из CosyVoice максимум