Забудьте про облака. Транскрибируйте встречи прямо на ноутбуке

Представьте: вы закончили часовую встречу в Zoom. Вместо того чтобы загружать запись в какой-нибудь сервис и ждать, пока он расшифрует её (и заодно прочитает ваши корпоративные секреты), вы просто нажимаете кнопку. Через минуту у вас готовый текст с разметкой по спикерам. И всё это работает на вашем ноутбуке с Ryzen AI, даже без интернета. Звучит как фантастика? Это LFM2-2.6B-Transcript.

LFM2-2.6B-Transcript — это специализированная модель от Liquid AI для транскрибции аудио. Всего 2.6 миллиарда параметров, меньше 3 ГБ оперативной памяти, поддержка CPU, GPU и — что самое важное — NPU AMD Ryzen AI. Она не просто переводит звук в текст. Она понимает, кто говорит, разделяет реплики и работает полностью локально.

Что умеет эта штука и почему она не похожа на Whisper

OpenAI Whisper — это стандарт. Но стандарт облачный, тяжёлый и не всегда удобный. LFM2-2.6B-Transcript играет в другую лигу.

Характеристика	LFM2-2.6B-Transcript	OpenAI Whisper (большая)	Обычные локальные решения
Размер модели	~2.8 ГБ	~10 ГБ	1-3 ГБ (но с худшим качеством)
Локальная работа	Да, обязательно	Нет (или очень тяжело)	Да
Поддержка NPU (Ryzen AI)	Оптимизирована	Нет	Редко
Разделение по спикерам (диаризация)	Встроено	Требует отдельной модели	Обычно нет
Скорость (на Ryzen AI)	Быстрее реального времени	Зависит от облака	Медленнее реального времени

Главный козырь — диаризация. Модель не просто выдаёт стенограмму, а маркирует реплики: "Спикер 1", "Спикер 2". Для отчётов по встречам это спасение. И всё это в одной модели, без танцев с бубном вокруг PyAnnote или подобных библиотек.

💡

Liquid AI называют свои маленькие модели "Liquid Nano". Идея в том, чтобы создать специализированные, эффективные модели, которые делают одну задачу идеально, вместо огромных универсальных монстров. LFM2-2.6B-Transcript — яркий пример этого подхода.

Собираем всё в кучу: что нужно для запуска

Теория — это хорошо, но давайте перейдём к практике. Чтобы запустить транскрибцию, вам понадобится не так уж много.

Железо: Ноутбук или ПК с процессором AMD Ryzen 7040/8040/8050 серии или новее (с NPU XDNA). Или просто любой компьютер с современным CPU/GPU. Для NPU-режима обязательна Windows 11 24H2 с последними драйверами AMD.
Софт: Python (желательно 3.10+), библиотека Transformers от Hugging Face, PyTorch с поддержкой DirectML (для Windows) или ROCm (для Linux).
Модель: Сама LFM2-2.6B-Transcript. Её можно скачать с Hugging Face.
Аудио: Файл в формате WAV или MP3. Или прямой захват с микрофона.

Внимание! Если у вас AMD видеокарта (например, RX 6700XT) и вы хотите использовать её для ускорения в Linux, вам придётся пройти через установку ROCm. Это не всегда просто. У нас есть подробный гайд по сборке стека ROCm, который может спасти вам несколько часов (или дней) жизни.

1 Качаем и устанавливаем

Откройте терминал или командную строку. Создайте виртуальное окружение — это хороший тон. Установите PyTorch. Для Windows с Ryzen AI (NPU) сейчас лучше всего подходит версия PyTorch с бэкендом DirectML. Команда выглядит примерно так: pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/directml. Для Linux с ROCm — своя история, которую мы разбирали в статье про оптимизацию llama.cpp под AMD.

После PyTorch ставим transformers и другие необходимые библиотеки: pip install transformers librosa soundfile.

2 Пишем скрипт для транскрибции

Не пугайтесь. Скрипт будет простым. Вам нужно импортировать пайплайн из transformers, загрузить модель и запустить её на вашем аудиофайле. Ключевой момент — указать устройство. Для использования NPU AMD Ryzen AI в Windows, после установки специального пакета от AMD, вы можете указать устройство как "xpu" или "privateuseone". Конкретное название зависит от версии драйверов. Если не сработает — паниковать не стоит. Модель отлично работает и на CPU, просто медленнее.

3 Запускаем и получаем результат

Укажите путь к вашему файлу встречи. Запустите скрипт. Первый запуск займёт время — модель скачается с Hugging Face (около 2.8 ГБ). Дальше будет быстрее. На Ryzen AI NPU транскрибция часа аудио может занять 10-15 минут. На CPU — в несколько раз дольше. На выходе вы получите текст с метками спикеров, готовый для вставки в Notion, Google Docs или любой другой редактор.

А если что-то пошло не так? Типичные грабли

Локальный AI — это всегда приключение. Вот с чем вы можете столкнуться.

"Нехватка памяти" на NPU. Модель маленькая, но если у вас запущено много всего, памяти NPU (обычно 1-2 ГБ) может не хватить. Закройте лишние приложения. Если не помогает — перезагрузитесь.
Аудиофайл не читается. Librosa бывает капризной с некоторыми MP3. Конвертируйте аудио в WAV с помощью FFmpeg или онлайн-конвертера. WAV — наш друг.
Ошибки с PyTorch и устройством. Самая частая проблема. Убедитесь, что версия PyTorch соответствует вашему железу. Для NPU — только специальные сборки от AMD. Не пытайтесь установить стандартный PyTorch с CUDA — он не заработает. Если всё падает, откатитесь к работе на CPU. Это надёжнее.

Если вы совсем новичок в локальных нейросетях и боитесь командной строки, сначала почитайте практический гайд по избеганию ошибок. Он сэкономит вам кучу нервов.

Кому это вообще нужно? (Спойлер: многим)

Эта модель — не игрушка для гиков. У неё есть совершенно конкретные применения.

Кто вы	Зачем вам LFM2-2.6B-Transcript	Что вы получите
Менеджер проекта	Ведёте десятки встреч в неделю. Нужны чёткие minutes of meeting.	Автоматические расшифровки с разделением "кто что сказал". Конфиденциальность.
Журналист или исследователь	Проводите интервью. Не можете/не хотите пользоваться облачными сервисами.	Локальная обработка записей. Работа в полевых условиях без интернета.
Юрист или врач	Жёсткие требования к конфиденциальности данных (GDPR, HIPAA).	Аудио никогда не покидает ваш компьютер. Полное compliance.
IT-энтузиаст с Ryzen AI ноутбуком	Купили ноутбук с крутым NPU и хотите наконец его загрузить полезной работой.	Одна из немногих моделей, реально оптимизированных под эту архитектуру. Доказательство, что NPU — не маркетинг.

Если вы до сих пор платите за Otter.ai или подобные сервисы, но при этом у вас есть современный ноутбук — вы буквально выбрасываете деньги. И данные.

Что дальше? Интеграция в рабочий процесс

Запустить скрипт из командной строки — это полдела. Настоящая магия начинается, когда вы встраиваете транскрибцию в свой пайплайн.

Например, можно написать простой скрипт на Python, который мониторит папку "Загрузки", находит новые аудиофайлы с совещаний (по шаблону имени), автоматически их транскрибирует и складывает результат в определённую папку в Notion или в Google Drive через API. Или сразу отправляет краткое содержание (ещё одна маленькая LLM) в Slack-канал команды.

Для более сложной инфраструктуры, где нужно крутить не только транскрибцию, но и другие модели, посмотрите наш гайд про запуск локальной LLM-инфраструктуры на домашнем железе. Там те же принципы, но в большем масштабе.

💡

Прогноз: такие маленькие, эффективные и специализированные модели, как LFM2-2.6B-Transcript, — это будущее on-device AI. Вместо одной гигантской модели, которая пытается делать всё, у нас будет набор «инструментов»: один для транскрибции, другой для суммирования, третий для ответов на вопросы по документам. Все они будут работать локально, быстро и без отправки ваших данных кому бы то ни было. AMD Ryzen AI и аналогичные NPU от Intel и Qualcomm — это железная платформа для такого будущего. Пока что это территория энтузиастов, но через год-два это станет стандартом для корпоративных ноутбуков.

Так что если у вас есть Ryzen AI ноутбук — не давайте его NPU простаивать. Загрузите его LFM2-2.6B-Transcript. Это один из самых практичных способов сегодня ощутить, что такое локальный искусственный интеллект, который не шпионит, не тормозит и реально экономит время.

LFM2-2.6B-Transcript: как запустить локальную транскрибцию встреч с AMD Ryzen AI