Можно ли запустить Cohere Transcribe на домашнем компьютере?

Да, для работы модели требуется примерно 8 ГБ VRAM (например, GPU уровня RTX 4070 или лучше). Модель открыта и работает полностью локально без подключения к интернету.

Чем Cohere Transcribe лучше Whisper?

Cohere Transcribe (2B параметров) немного точнее Whisper Large v3 (1.5B) на стандартных бенчмарках (3.1% vs 3.5% WER), но работает медленнее. Главное преимущество — открытая архитектура и возможность полного локального развертывания без ограничений API.

Cohere Transcribe: обзор 2B модели ASR, сравнение и локальный запуск

Еще одна модель для распознавания речи? Серьезно?

В марте 2026 года Cohere, обычно ассоциирующаяся с текстовыми моделями, выкатила на рынок Cohere Transcribe – открытую модель для автоматического распознавания речи на 2 миллиарда параметров. И да, это не просто очередной форк Whisper. Это заявление о намерениях: крупные игроки теперь всерьез берутся за открытые ASR-модели.

Зачем? Потому что облачные API – это дорого, медленно и небезопасно. А локальные решения до сих пор либо жутко прожорливы, как некоторые 7B-монстры, либо недотягивают по точности. Cohere попыталась найти баланс.

Что внутри у этого зверя

💡

Модель выпущена в двух вариантах: базовая cohere-transcribe-v1.0 и оптимизированная для низкой задержки cohere-transcribe-fast-v1.0. Обе доступны на Hugging Face по лицензии Apache 2.0.

2 миллиарда параметров. Достаточно, чтобы понимать контекст, но не настолько, чтобы требовать серверную стойку.
14 языков из коробки: английский, русский, немецкий, французский, испанский, китайский и другие. Поддержка кодов переключения языков.
Контекстное окно до 30 секунд аудио. Для длинных файлов работает стриминг.
Вывод с временными метками (timestamps) и вероятностями. Полезно для субтитров или анализа.

Цифры, которые всех интересуют: WER и скорость

На тестовом наборе LibriSpeech test-clean (на март 2026 года это все еще стандарт) модель показывает Word Error Rate (WER) около 3.1% для английского. На noisy-данных – до 6.5%. Это уровень, который раньше был прерогативой моделей в 5-7 раз крупнее.

Модель	Параметры	WER (LibriSpeech)	Скорость (x real-time)	Локальный запуск
Cohere Transcribe v1.0	2B	3.1%	~0.5x (RTX 4090)	Да
OpenAI Whisper Large v3	1.5B	3.5%	~0.8x	Да
LFM2-2.6B-Transcript	2.6B	4.2%	~0.3x	Да (даже на Ryzen AI)
Parakeet RNNT 1.1B	1.1B	5.8%	~1.2x	Да

Скорость 0.5x реального времени на RTX 4090 – это не супербыстро. Для часовой встречи обработка займет два часа. Но если сравнить с монстрами вроде Voxtral, которые едва ли делают 0.1x, это уже прогресс.

Как заставить это работать у себя на компьютере

Вся прелесть в том, что модель открытая. Вам не нужен ключ API и интернет. Нужен Python, примерно 8 ГБ свободной VRAM и немного терпения.

Прямо сейчас, в марте 2026, самая большая проблема – нехватка удобных оберток. Официальный репозиторий предлагает только скрипт на Python. Если вы хотите красивый GUI, придется либо писать его самому, либо использовать что-то вроде TranscriptionSuite, который пока не имеет встроенной поддержки Cohere Transcribe (но, возможно, появится).

1 Скачать и установить

Клонируйте репозиторий с Hugging Face и установите зависимости. Вам понадобится PyTorch 2.5+ и Transformers 4.45+. Проще всего сделать это через pip.

2 Загрузить модель

Модель весит около 8 ГБ в формате FP16. Убедитесь, что у вас есть место на диске и стабильный интернет. Hugging Face сам все загрузит при первом запуске.

3 Запустить транскрипцию

Официальный скрипт принимает аудиофайлы в WAV формате (16 кГц, моно). Если у вас MP3, придется конвертировать. Для пакетной обработки множества файлов нужно написать простой цикл. Это не так удобно, как в NoobScribe, но зато полностью под вашим контролем.

💡

Если не хотите возиться с установкой, Cohere предлагает и облачный API (платный). Для теста дают немного бесплатных кредитов. Зарегистрироваться можно здесь.

А теперь главное: кому это на самом деле нужно?

Не всем. Если вам нужно быстро расшифровать пару интервью раз в месяц, проще использовать тот же Whisper через какую-нибудь простую CLI-утилиту.

Cohere Transcribe – инструмент для тех, кто:

Обрабатывает сотни часов аудио еженедельно. Облачные API разорят, а локальная модель окупится за несколько месяцев.
Работает с конфиденциальными данными. Юристы, врачи, финансисты – аудио не уходит в облако.
Хочет кастомизировать модель под свой домен. Поскольку модель открыта, ее можно дообучить на специфическую лексику (медицинскую, техническую).
Строит комплексные пайплайны. Например, транскрипция -> выравнивание речи с текстом -> суммаризация LLM.

Точность в 3.1% WER – это когда на странице текста может быть одна-две опечатки. Для большинства бизнес-задач этого более чем достаточно. Проблема в скорости. Если вам нужно транскрибировать в реальном времени, смотрите в сторону smaller `-fast` версии или других моделей.

Что дальше? Прогноз от того, кто уже обжегся

Cohere явно дала сигнал рынку. В 2026-2027 годах мы увидим волну открытых ASR-моделей размером от 500M до 3B параметров, которые будут соревноваться в точности и эффективности.

Совет неочевидный: если вы сейчас выбираете стек для транскрипции в своем продукте, не завязывайтесь на одну модель. Сделайте абстракцию. Сегодня Cohere Transcribe, завтра может выйти что-то от Meta или Google, что будет работать в 2 раза быстрее с той же точностью. И будьте готовы к тому, что локальный запуск – это всегда компромисс между точностью, скоростью и удобством. Иногда проще заплатить за API и не париться. Но если приватность – ваш главный козырь, то Cohere Transcribe сейчас один из самых сильных кандидатов на роль рабочей лошадки.

Подписаться на канал

Cohere Transcribe: 2-миллиардный монстр для транскрипции, который не стесняется работать локально