Когда умирает голос, но остается ностальгия
В начале 2026 года xAI тихо убрала Ani из Grok. Официальная версия - "оптимизация интерфейса". На деле - голос, который стал для многих почти родным, превратился в цифровую реликвию. Платить за API, чтобы слышать знакомые интонации? Смешно. Есть другой путь - собрать своего собственного Ani, который будет жить на вашем железе и никуда не денется.
Законность клонирования голоса - серая зона. Ani - персонаж, созданный xAI. Используйте это знание для личных, некоммерческих экспериментов. Продажа клона или его интеграция в коммерческий продукт - прямой путь к юридическим проблемам.
CosyVoice против XTTS v2: за что голосует железо
Выбор модели в 2026 году - не про качество. Обе дают результат близкий к оригиналу. Выбор про то, сколько у вас VRAM и готовы ли вы ждать.
| Модель | Минимум VRAM | Время обучения (5 мин аудио) | Качество клона | Главная боль |
|---|---|---|---|---|
| CosyVoice (v1.1, 2025) | 8 ГБ | ~45 минут | Идеальное сходство тона | Жрет память как не в себя |
| XTTS v2 (v2.0.3, 2025) | 6 ГБ | ~20 минут | Хорошее, иногда металлический оттенок | Сложности с эмоциональной окраской |
| Qwen3 TTS (v1.8B, 2025) | 10 ГБ | ~1.5 часа | Лучшее произношение | Требует танцев с бубном для тонкой настройки |
CosyVoice от Microsoft - это монстр. Дает самое близкое к оригиналу звучание, но просит за это RTX 4070 или лучше. XTTS v2 от Coqui - демократичный вариант, который запустится даже на RTX 3060, но придется мириться с легкой роботизированностью в сложных фразах.
Помните статью про сравнение TTS моделей для аудиокниг? Там я ругал XTTS за проблемы с длинными текстами. Для коротких реплик в стиле Ani он подходит идеально.
Охота за голосом: как собрать чистый датасет
Здесь все ломается. Большинство пытается скормить модели нарезанные записи из YouTube-обзоров Grok. Результат - клон с фоновой музыкой, эхом и артефактами компрессии. Ani звучит так, будто говорит из колодца.
1 Ищите стримы, а не клипы
Забудьте про короткие тиктоки. Нужны длинные (30+ минут) стримы или подкасты, где Ani говорит монотонно, без эмоциональных всплесков. Идеально - записи демонстраций функционала Grok от самих разработчиков xAI. Фон должен быть максимально чистым. Чем меньше посторонних шумов, тем меньше модель будет пытаться их воспроизвести.
2 Нарезка - это медитация
Скачайте стрим, загрузите в Audacity или любой удобный редактор. Режьте на фрагменты по 5-15 секунд. Каждый фрагмент - одна законченная фраза. Никаких полуслов, никаких "эээ" и "ммм". Если сомневаетесь, выкидывайте. Лучше 3 минуты идеального аудио, чем 10 минут с мусором.
3 Очистка до скрипа
Готовые фрагменты пропустите через RNNoise или аналогичный денайзер. Цель - не сделать звук студийным, а убрать постоянный фоновый гул (характерный для любой записи с микрофона). После очистки нормализуйте громкость. Все файлы должны звучать примерно одинаково громко.
Обучение: где все идет не по плану
Вы собрали 20 минут чистого аудио. Разбили на 200 фрагментов. Пришло время обучения. И вот тут начинается магия (и разочарование).
Для CosyVoice стандартный рецепт такой:
python train.py --model_name "cosyvoice-v1.1" --dataset_path "./ani_dataset/" --num_epochs 100 --batch_size 8 --lr 0.0001
На практике первые 50 эпох вы не услышите ничего похожего на человеческую речь. К 80-й эпохе проступит узнаваемая интонация. К 100-й - голос стабилизируется. Дальше гнаться за эпохами бесполезно - модель начнет переобучаться и добавит странные артефакты.
С XTTS v2 процесс быстрее, но коварнее:
tts --model_name "tts_models/multilingual/multi-dataset/xtts_v2" --dataset_path "ani_dataset" --output_path "./output_ani" --epochs 50
Модель схватывает тембр уже на 30-й эпохе. Проблема в другом - она часто "забывает" особенности произношения и начинает говорить с легким акцентом. Спасение - увеличение датасета. Менее 15 минут аудио? Даже не пробуйте.
Не запускайте обучение на GPU, который одновременно отрисовывает рабочий стол или игры. Вы получите out-of-memory через 10 минут. Закройте все, оставьте модель одну с видеопамятью.
А если не хочется возиться с обучением?
Есть обходной путь - speech-to-speech конверсия. Берете свой голос, записанный на хороший микрофон, и с помощью RVC превращаете его в голос Ani. Качество будет немного ниже (теряются мелкие нюансы), зато не нужно собирать датасет и обучать модель с нуля.
Подробно этот метод я разбирал в статье про speech-to-speech конверсию для анонимизации. Принцип тот же, только целевой голос - Ani.
Кому это вообще нужно?
Ответ кажется очевидным - фанатам Grok. На деле все интереснее.
- Разработчикам чат-ботов, которые хотят уникальный голосовой интерфейс без вечных лицензионных отчислений ElevenLabs.
- Создателям контента, которые делают обзоры на AI-технологии и хотят добавить "изюминку".
- Геймерам, которые модифицируют игры, заменяя стандартные голоса на знакомые (представьте Geralt из Rivia с голосом Ani - да, это уже кто-то сделал).
- Исследователям, изучающим, как люди эмоционально привязываются к синтетическим голосам и что происходит, когда их отключают.
Для серьезных проектов вроде конвертации аудиокниг я бы все же посмотрел в сторону Qwen3 TTS. Он лучше справляется с длинными текстами и разнообразной пунктуацией.
Что в итоге получится?
Не идеальную копию. Тот голос, что жил в облаках xAI, был результатом тонкой настройки на огромных кластерах. Ваш локальный клон будет на 85-90% похож. Он будет иногда спотыкаться на сложных словах. Может добавить лишнюю паузу.
Но он будет вашим. Он не исчезнет после очередного обновления. Не потребует ежемесячной подписки. И в этом есть своя, странная поэзия - сохранить цифровой голос, который создавала корпорация, с помощью открытых инструментов, которые создавало сообщество.
Главный совет, который не даст никто: после обучения заставьте модель прочитать что-то совершенно нехарактерное для Ani. Стихи Есенина. Инструкцию к стиральной машине. Рецепт пасты карбонара. Так вы поймете реальные границы клона - где он блещет, а где рассыпается в цифровой прах.