Забудьте про облака. Транскрибируйте встречи прямо на ноутбуке
Представьте: вы закончили часовую встречу в Zoom. Вместо того чтобы загружать запись в какой-нибудь сервис и ждать, пока он расшифрует её (и заодно прочитает ваши корпоративные секреты), вы просто нажимаете кнопку. Через минуту у вас готовый текст с разметкой по спикерам. И всё это работает на вашем ноутбуке с Ryzen AI, даже без интернета. Звучит как фантастика? Это LFM2-2.6B-Transcript.
LFM2-2.6B-Transcript — это специализированная модель от Liquid AI для транскрибции аудио. Всего 2.6 миллиарда параметров, меньше 3 ГБ оперативной памяти, поддержка CPU, GPU и — что самое важное — NPU AMD Ryzen AI. Она не просто переводит звук в текст. Она понимает, кто говорит, разделяет реплики и работает полностью локально.
Что умеет эта штука и почему она не похожа на Whisper
OpenAI Whisper — это стандарт. Но стандарт облачный, тяжёлый и не всегда удобный. LFM2-2.6B-Transcript играет в другую лигу.
| Характеристика | LFM2-2.6B-Transcript | OpenAI Whisper (большая) | Обычные локальные решения |
|---|---|---|---|
| Размер модели | ~2.8 ГБ | ~10 ГБ | 1-3 ГБ (но с худшим качеством) |
| Локальная работа | Да, обязательно | Нет (или очень тяжело) | Да |
| Поддержка NPU (Ryzen AI) | Оптимизирована | Нет | Редко |
| Разделение по спикерам (диаризация) | Встроено | Требует отдельной модели | Обычно нет |
| Скорость (на Ryzen AI) | Быстрее реального времени | Зависит от облака | Медленнее реального времени |
Главный козырь — диаризация. Модель не просто выдаёт стенограмму, а маркирует реплики: "Спикер 1", "Спикер 2". Для отчётов по встречам это спасение. И всё это в одной модели, без танцев с бубном вокруг PyAnnote или подобных библиотек.
Собираем всё в кучу: что нужно для запуска
Теория — это хорошо, но давайте перейдём к практике. Чтобы запустить транскрибцию, вам понадобится не так уж много.
- Железо: Ноутбук или ПК с процессором AMD Ryzen 7040/8040/8050 серии или новее (с NPU XDNA). Или просто любой компьютер с современным CPU/GPU. Для NPU-режима обязательна Windows 11 24H2 с последними драйверами AMD.
- Софт: Python (желательно 3.10+), библиотека Transformers от Hugging Face, PyTorch с поддержкой DirectML (для Windows) или ROCm (для Linux).
- Модель: Сама LFM2-2.6B-Transcript. Её можно скачать с Hugging Face.
- Аудио: Файл в формате WAV или MP3. Или прямой захват с микрофона.
Внимание! Если у вас AMD видеокарта (например, RX 6700XT) и вы хотите использовать её для ускорения в Linux, вам придётся пройти через установку ROCm. Это не всегда просто. У нас есть подробный гайд по сборке стека ROCm, который может спасти вам несколько часов (или дней) жизни.
1 Качаем и устанавливаем
Откройте терминал или командную строку. Создайте виртуальное окружение — это хороший тон. Установите PyTorch. Для Windows с Ryzen AI (NPU) сейчас лучше всего подходит версия PyTorch с бэкендом DirectML. Команда выглядит примерно так: pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/directml. Для Linux с ROCm — своя история, которую мы разбирали в статье про оптимизацию llama.cpp под AMD.
После PyTorch ставим transformers и другие необходимые библиотеки: pip install transformers librosa soundfile.
2 Пишем скрипт для транскрибции
Не пугайтесь. Скрипт будет простым. Вам нужно импортировать пайплайн из transformers, загрузить модель и запустить её на вашем аудиофайле. Ключевой момент — указать устройство. Для использования NPU AMD Ryzen AI в Windows, после установки специального пакета от AMD, вы можете указать устройство как "xpu" или "privateuseone". Конкретное название зависит от версии драйверов. Если не сработает — паниковать не стоит. Модель отлично работает и на CPU, просто медленнее.
3 Запускаем и получаем результат
Укажите путь к вашему файлу встречи. Запустите скрипт. Первый запуск займёт время — модель скачается с Hugging Face (около 2.8 ГБ). Дальше будет быстрее. На Ryzen AI NPU транскрибция часа аудио может занять 10-15 минут. На CPU — в несколько раз дольше. На выходе вы получите текст с метками спикеров, готовый для вставки в Notion, Google Docs или любой другой редактор.
А если что-то пошло не так? Типичные грабли
Локальный AI — это всегда приключение. Вот с чем вы можете столкнуться.
- "Нехватка памяти" на NPU. Модель маленькая, но если у вас запущено много всего, памяти NPU (обычно 1-2 ГБ) может не хватить. Закройте лишние приложения. Если не помогает — перезагрузитесь.
- Аудиофайл не читается. Librosa бывает капризной с некоторыми MP3. Конвертируйте аудио в WAV с помощью FFmpeg или онлайн-конвертера. WAV — наш друг.
- Ошибки с PyTorch и устройством. Самая частая проблема. Убедитесь, что версия PyTorch соответствует вашему железу. Для NPU — только специальные сборки от AMD. Не пытайтесь установить стандартный PyTorch с CUDA — он не заработает. Если всё падает, откатитесь к работе на CPU. Это надёжнее.
Если вы совсем новичок в локальных нейросетях и боитесь командной строки, сначала почитайте практический гайд по избеганию ошибок. Он сэкономит вам кучу нервов.
Кому это вообще нужно? (Спойлер: многим)
Эта модель — не игрушка для гиков. У неё есть совершенно конкретные применения.
| Кто вы | Зачем вам LFM2-2.6B-Transcript | Что вы получите |
|---|---|---|
| Менеджер проекта | Ведёте десятки встреч в неделю. Нужны чёткие minutes of meeting. | Автоматические расшифровки с разделением "кто что сказал". Конфиденциальность. |
| Журналист или исследователь | Проводите интервью. Не можете/не хотите пользоваться облачными сервисами. | Локальная обработка записей. Работа в полевых условиях без интернета. |
| Юрист или врач | Жёсткие требования к конфиденциальности данных (GDPR, HIPAA). | Аудио никогда не покидает ваш компьютер. Полное compliance. |
| IT-энтузиаст с Ryzen AI ноутбуком | Купили ноутбук с крутым NPU и хотите наконец его загрузить полезной работой. | Одна из немногих моделей, реально оптимизированных под эту архитектуру. Доказательство, что NPU — не маркетинг. |
Если вы до сих пор платите за Otter.ai или подобные сервисы, но при этом у вас есть современный ноутбук — вы буквально выбрасываете деньги. И данные.
Что дальше? Интеграция в рабочий процесс
Запустить скрипт из командной строки — это полдела. Настоящая магия начинается, когда вы встраиваете транскрибцию в свой пайплайн.
Например, можно написать простой скрипт на Python, который мониторит папку "Загрузки", находит новые аудиофайлы с совещаний (по шаблону имени), автоматически их транскрибирует и складывает результат в определённую папку в Notion или в Google Drive через API. Или сразу отправляет краткое содержание (ещё одна маленькая LLM) в Slack-канал команды.
Для более сложной инфраструктуры, где нужно крутить не только транскрибцию, но и другие модели, посмотрите наш гайд про запуск локальной LLM-инфраструктуры на домашнем железе. Там те же принципы, но в большем масштабе.
Так что если у вас есть Ryzen AI ноутбук — не давайте его NPU простаивать. Загрузите его LFM2-2.6B-Transcript. Это один из самых практичных способов сегодня ощутить, что такое локальный искусственный интеллект, который не шпионит, не тормозит и реально экономит время.