Нужен свой J.A.R.V.I.S.? Speekium — это почти он

Забудьте про "Привет, Сири" и "Окей, Гугл". Эти ребята слушают всегда, а их хозяева знают о вас слишком много. Speekium — другой. Он живёт у вас на компе, не лезет в интернет без спроса и работает только когда вы нажимаете кнопку. Push-to-talk, как в рациях. Никакого постоянного прослушивания.

Если вы уже пробовали собирать голосового ассистента на LangChain, Ollama и Whisper, Speekium покажется вам готовым решением без танцев с бубном. Всё настроено из коробки.

Что умеет эта штука на самом деле

Под капотом — грамотный стек: Tauri на Rust для нативного десктопного приложения, React для интерфейса и Python-бэкенд для тяжёлой работы. Главная фишка — гибкость подключения движков.

Компонент	Варианты в Speekium	Что это даёт
Распознавание речи (STT)	Whisper (локальный), OpenAI Whisper API, Google Speech-to-Text	Можете выбрать скорость или приватность
Языковая модель (LLM)	Ollama (локально), OpenAI API, Anthropic Claude, Google Gemini	Запускайте Llama 3 или Mistral на своём железе
Синтез речи (TTS)	ElevenLabs, Google Text-to-Speech, OpenAI TTS	Голос как у живого человека или робота из 80-х
Активация	Push-to-talk (горячая клавиша), голосовое слово	Контроль над тем, когда ассистент слушает

Вот что мне нравится: вы можете собрать гибридную схему. Например, распознавание речи через локальный Whisper (чтобы Google не слышал ваш голос), LLM через Ollama с моделью Qwen2.5 (приватность на максимуме), а синтез — через ElevenLabs, потому что их голоса реально классные. Или наоборот — всё локально, если интернета нет.

💡

Если у вас уже стоит Ollama с любимой моделью, Speekium увидит её автоматически. Не нужно прописывать порты или токены — работает out of the box.

Установка: проще, чем кажется

Не нужно компилировать Rust-код или разбираться с Python-зависимостями. Разработчики собрали бинарники для всех основных ОС. Идёте на GitHub репозиторий, качаете установщик под свою систему — и вперёд.

1 Ставим Ollama (если ещё нет)

Без локальной LLM половина смысла теряется. Зайдите на ollama.com, скачайте и установите. Потом в терминале:

ollama pull llama3.2
ollama pull qwen2.5:7b

Вторую команду выполняйте, если хотите модель с хорошим русским. Llama 3.2 тоже неплохо справляется, но Qwen2.5 иногда точнее.

2 Качаем и запускаем Speekium

На той же странице релизов ищите файл Speekium_0.2.0_x64_en-US.msi для Windows, .dmg для Mac или .AppImage для Linux. Установка стандартная — Next, Next, Finish.

На Linux может потребоваться дать права на выполнение AppImage: chmod +x Speekium-*.AppImage. И проверьте, что есть библиотеки для работы с аудио.

3 Первая настройка за 2 минуты

Открываете Speekium. Видите три основных раздела:

STT — выбираете "Whisper (Local)" для полной приватности
LLM — выбираете "Ollama", программа сама найдёт запущенные модели
TTS — для начала хватит "System Default", потом поставите ElevenLabs

Назначаете горячую клавишу для push-to-talk (я использую Ctrl+Space). Всё. Можно говорить.

А с чем его едят? Реальные use cases

"Привет, как дела?" — это скучно. Вот для чего Speekium реально полезен.

Программистский rubber duck, только умный

Объясняете вслух проблему с кодом: "Почему этот скрипт падает с ошибкой сегментации при обработке больших CSV?" Speekium транскрибирует, отправляет в локальную LLM, вы получаете ответ голосом. Не нужно переключаться с IDE, не нужно печатать. Особенно кайфово, когда руки заняты — собираете стенд, а вопрос в голове возник.

Быстрый конспект мыслей

Идея пришла в душе? Нажали кнопку на Bluetooth-пульте (да, можно назначить любую клавишу), проговорили — Speekium записал в текстовый файл. Потом можно через тот же Speekium попросить: "Сформулируй основные тезисы из сегодняшних записей". Получите структурированный конспект. Гораздо эффективнее, чем Meeting-LLM для личных нужд.

Изучение языка с обратной связью

Настроили LLM на роль терпеливого преподавателя английского. Говорите фразу, получаете исправления произношения (через STT) и грамматики (через LLM). Всё локально, не стыдно ошибаться. Для этого случая лучше взять модель специализированную, например, через Tool Calling LLM, чтобы ассистент мог запускать упражнения.

Чем Speekium лучше других локальных ассистентов?

Попробовал кучу решений. Вот честное сравнение.

Инструмент	Плюсы	Минусы	Кому подходит
Speekium	Готовый UI, поддержка облачных и локальных движков, push-to-talk	Нельзя расширять функционал плагинами	Тем, кто хочет работать сразу, а не кодить
Самописный на LangChain	Полный контроль, можно добавить любую логику	Требует времени на разработку и отладку	Разработчикам, которые любят велосипеды
Голосовой ассистент на RTX 3090	Максимальная производительность, низкие задержки	Требует мощной видеокарты, сложная настройка	Геймерам и энтузиастам с топовым железом
LM Studio с плагинами	Много моделей, хороший интерфейс для экспериментов	Голосовой интерфейс — костыли	Исследователям моделей

Главное преимущество Speekium — он не пытается быть всем. Это инструмент с одной чёткой задачей: превратить ваш голос в диалог с ИИ. Без лишних настроек, без сложных конфигов. Запустил, выбрал модели, работай.

Подводные камни, о которых молчат

Идеальных инструментов не бывает. Что бесит в Speekium?

Требует чтобы Ollama уже работала. Если забыли запустить ollama serve, ассистент молчит. Хотелось бы автоматического старта.
Нет истории диалога в интерфейсе. Ответ прозвучал и исчез. Приходится включать логирование в файл.
Голосовая активация (wake word) работает так себе. Лучше использовать push-to-talk — надёжнее.
Интерфейс только на английском. Хотя с русскоязычными моделями в Ollama проблем нет.

Но разработчик активен, issues на GitHub закрываются быстро. Думаю, через пару версий эти шероховатости исчезнут.

Кому стоит поставить Speekium сегодня

Если вы из тех, кто:

Уже использует Ollama и ищет удобный голосовой интерфейс
Боится утечек данных и хочет полного контроля над запросами
Часто работает руками и не может печатать (лаборанты, инженеры, повара)
Устал от облачных ассистентов с их "я не понял ваш вопрос"

...то Speekium ваш выбор. Это не игрушка, а рабочий инструмент, который экономит время и сохраняет приватность.

Тем, кому нужны сложные агенты с памятью и инструментами, лучше посмотреть в сторону Agent-memory-state или RLM-Toolkit. Но готовьтесь к более сложной настройке.

Speekium показывает важный тренд: локальные ИИ-инструменты становятся не просто "версией для бедных", а осознанным выбором. Выбором в пользу контроля, приватности и независимости от чужой инфраструктуры. И это, кажется, только начало.

Speekium: ваш личный голосовой ассистент, который не шпионит