Еще одна модель для распознавания речи? Серьезно?
В марте 2026 года Cohere, обычно ассоциирующаяся с текстовыми моделями, выкатила на рынок Cohere Transcribe – открытую модель для автоматического распознавания речи на 2 миллиарда параметров. И да, это не просто очередной форк Whisper. Это заявление о намерениях: крупные игроки теперь всерьез берутся за открытые ASR-модели.
Зачем? Потому что облачные API – это дорого, медленно и небезопасно. А локальные решения до сих пор либо жутко прожорливы, как некоторые 7B-монстры, либо недотягивают по точности. Cohere попыталась найти баланс.
Что внутри у этого зверя
- 2 миллиарда параметров. Достаточно, чтобы понимать контекст, но не настолько, чтобы требовать серверную стойку.
- 14 языков из коробки: английский, русский, немецкий, французский, испанский, китайский и другие. Поддержка кодов переключения языков.
- Контекстное окно до 30 секунд аудио. Для длинных файлов работает стриминг.
- Вывод с временными метками (timestamps) и вероятностями. Полезно для субтитров или анализа.
Цифры, которые всех интересуют: WER и скорость
На тестовом наборе LibriSpeech test-clean (на март 2026 года это все еще стандарт) модель показывает Word Error Rate (WER) около 3.1% для английского. На noisy-данных – до 6.5%. Это уровень, который раньше был прерогативой моделей в 5-7 раз крупнее.
| Модель | Параметры | WER (LibriSpeech) | Скорость (x real-time) | Локальный запуск |
|---|---|---|---|---|
| Cohere Transcribe v1.0 | 2B | 3.1% | ~0.5x (RTX 4090) | Да |
| OpenAI Whisper Large v3 | 1.5B | 3.5% | ~0.8x | Да |
| LFM2-2.6B-Transcript | 2.6B | 4.2% | ~0.3x | Да (даже на Ryzen AI) |
| Parakeet RNNT 1.1B | 1.1B | 5.8% | ~1.2x | Да |
Скорость 0.5x реального времени на RTX 4090 – это не супербыстро. Для часовой встречи обработка займет два часа. Но если сравнить с монстрами вроде Voxtral, которые едва ли делают 0.1x, это уже прогресс.
Как заставить это работать у себя на компьютере
Вся прелесть в том, что модель открытая. Вам не нужен ключ API и интернет. Нужен Python, примерно 8 ГБ свободной VRAM и немного терпения.
Прямо сейчас, в марте 2026, самая большая проблема – нехватка удобных оберток. Официальный репозиторий предлагает только скрипт на Python. Если вы хотите красивый GUI, придется либо писать его самому, либо использовать что-то вроде TranscriptionSuite, который пока не имеет встроенной поддержки Cohere Transcribe (но, возможно, появится).
1 Скачать и установить
Клонируйте репозиторий с Hugging Face и установите зависимости. Вам понадобится PyTorch 2.5+ и Transformers 4.45+. Проще всего сделать это через pip.
2 Загрузить модель
Модель весит около 8 ГБ в формате FP16. Убедитесь, что у вас есть место на диске и стабильный интернет. Hugging Face сам все загрузит при первом запуске.
3 Запустить транскрипцию
Официальный скрипт принимает аудиофайлы в WAV формате (16 кГц, моно). Если у вас MP3, придется конвертировать. Для пакетной обработки множества файлов нужно написать простой цикл. Это не так удобно, как в NoobScribe, но зато полностью под вашим контролем.
А теперь главное: кому это на самом деле нужно?
Не всем. Если вам нужно быстро расшифровать пару интервью раз в месяц, проще использовать тот же Whisper через какую-нибудь простую CLI-утилиту.
Cohere Transcribe – инструмент для тех, кто:
- Обрабатывает сотни часов аудио еженедельно. Облачные API разорят, а локальная модель окупится за несколько месяцев.
- Работает с конфиденциальными данными. Юристы, врачи, финансисты – аудио не уходит в облако.
- Хочет кастомизировать модель под свой домен. Поскольку модель открыта, ее можно дообучить на специфическую лексику (медицинскую, техническую).
- Строит комплексные пайплайны. Например, транскрипция -> выравнивание речи с текстом -> суммаризация LLM.
Точность в 3.1% WER – это когда на странице текста может быть одна-две опечатки. Для большинства бизнес-задач этого более чем достаточно. Проблема в скорости. Если вам нужно транскрибировать в реальном времени, смотрите в сторону smaller `-fast` версии или других моделей.
Что дальше? Прогноз от того, кто уже обжегся
Cohere явно дала сигнал рынку. В 2026-2027 годах мы увидим волну открытых ASR-моделей размером от 500M до 3B параметров, которые будут соревноваться в точности и эффективности.
Совет неочевидный: если вы сейчас выбираете стек для транскрипции в своем продукте, не завязывайтесь на одну модель. Сделайте абстракцию. Сегодня Cohere Transcribe, завтра может выйти что-то от Meta или Google, что будет работать в 2 раза быстрее с той же точностью. И будьте готовы к тому, что локальный запуск – это всегда компромисс между точностью, скоростью и удобством. Иногда проще заплатить за API и не париться. Но если приватность – ваш главный козырь, то Cohere Transcribe сейчас один из самых сильных кандидатов на роль рабочей лошадки.