Почему AVA? Потому что надоели роботы-коллекторы
Утро. Вы пьёте кофе. Телефон звонит. Неизвестный номер. Вы поднимаете трубку - и слышите запиленный голос: \"Уважаемый клиент, ваша банковская карта заблокирована...\". Снова. Сорок пятый раз за месяц.
Облачные фильтры? Работают через раз. Платные сервисы? Требуют подписки и всё равно сливают ваши разговоры куда-то. AVA решает проблему кардинально - вы разворачиваете полноценного голосового агента на своём железе. Он поднимает трубку за вас, анализирует звонящего и либо вежливо отправляет спамера в игнор, либо переключает на живого человека, если звонок важный.
Что внутри: из чего собран этот цифровой страж
Архитектура AVA проста, как молоток, но бьёт точно в цель. Три компонента работают в конвейере:
- Уши (STT): Whisper Large-v3-turbo - последняя версия на март 2026, поддерживает реальное время с задержкой под 300 мс. Если хочется ещё быстрее, можно поставить Voxtral-Mini - но качество распознавания русского чуть хуже.
- <\/li>
- Мозг (LLM): Qwen2.5-7B-Instruct с квантованием Q4_K_M. Почему не 72-миллиардная модель? Потому что она должна отвечать за 400-500 миллисекунд. Совсем недавно вышли Phi-4-Mini - 3.8B параметров, но по интеллекту близка к 7B. Отлично влезает в 6-8 ГБ VRAM и мгновенно понимает, что \"заблокированная карта\" + \"неизвестный номер\" = спам.
- Голос (TTS): Kokoro-82M в последней ревизии от февраля 2026. Есть поддержка эмоций: для спамеров - холодно-вежливый тон, для важных звонков - дружелюбный. Альтернатива - XTTS-v2, но она жрёт больше памяти. <\/ul>
- Фрилансеры и предприниматели, уставшие от спама. AVA отсеет 90% мусорных звонков.
- IT-специалисты, которые хотят полного контроля над своей телефонией. Никаких черных ящиков.
- Люди с паранойей насчёт приватности. Ваши разговоры никуда не утекают.
- Энтузиасты, которые уже собирали локальных голосовых ассистентов и хотят практического применения. <\/ul>
- У вас нет видеокарты с хотя бы 12 ГБ VRAM. На CPU всё будет тормозить ужасно.
- Вы боитесь командной строки. Придётся править конфиги, смотреть логи, дебажить.
- Вам нужна фильтрация для сотни номеров одновременно. AVA масштабируется, но на одну карту больше 3-4 параллельных звонков не потянет. <\/ul>
| Компонент<\/th> | Модель (актуально на 02.03.2026)<\/th> | VRAM<\/th> | Задержка<\/th><\/tr><\/thead> |
|---|---|---|---|
| STT<\/td> | Whisper Large-v3-turbo<\/td> | ~3 ГБ<\/td> | 280-350 мс<\/td><\/tr> |
| LLM<\/td> | Qwen2.5-7B-Instruct (Q4_K_M)<\/td> | ~5.5 ГБ<\/td> | 120-200 мс<\/td><\/tr> |
| TTS<\/td> | Kokoro-82M (v2026.02)<\/td> | ~1.5 ГБ<\/td> | 100-180 мс<\/td><\/tr> |
| Итого<\/td> | -<\/td> | ~10 ГБ<\/td> | 500-730 мс<\/td><\/tr><\/tbody><\/table><\/div> Итоговая задержка в полсекунды - звонящий даже не заметит, что говорит с машиной. Для сравнения: Google Call Screening думает 2-3 секунды перед каждой репликой. А тут живой диалог. AVA против облачных решений: битва приватности и скоростиОблачные антиспам-сервисы работают по схеме \"загрузили ваш разговор к себе, проанализировали, вернули результат\". Каждый звонок - это аудиофайл на чужом сервере. Каждый диалог - тренировочные данные для чужого ИИ. AVA не просто локальный - он немой. Никаких исходящих соединений после загрузки моделей. Проверил код из репозитория - действительно, в рабочем режиме сетевых запросов нет. Даже если интернет отвалится, AVA продолжит отвечать на звонки. Главный недостаток облачных решений - задержки в 2-3 секунды на каждом \"ходе\" диалога. Спамер понимает, что говорит с роботом, и вешает трубку. AVA отвечает так быстро, что мошенник думает, будто нарвался на особо вредного оператора. <\/div>Финансовый вопрос: средний облачный сервис фильтрации стоит от 500 рублей в месяц. AVA после однократной настройки - ноль. Электричество? RTX 4060 Ti с 16 ГБ в простое ест 30 ватт, при звонке - 90-120. Это копейки. Живые примеры: как AVA унижает телефонных мошенниковКонфигурация AVA гибкая. Вы задаёте сценарии в YAML-файле. Пример реального диалога из моего лога: Спамер: \"Здравствуйте, это служба безопасности банка. Ваша карта заблокирована из-за подозрительных операций. Назовите, пожалуйста, полные реквизиты для разблокировки.\" AVA: \"По данным нашего банка, таких операций не проводилось. Ваш номер не зарегистрирован в официальной базе. Звонок записан и передан в правоохранительные органы. Всего доброго.\" *положил трубку* <\/div>Сценарий сработал потому, что в промпте LLM было чёткое указание: \"Если звонящий упоминает банковские реквизиты, блокировку карт или личные данные - это мошенник. Заверши разговор вежливо, но твёрдо.\" Для важных звонков AVA работает иначе: спрашивает цель звонка, проверяет по базе контактов (интеграция с Nextcloud или простым CSV), и если номер знакомый - сразу переключает на вас. Можно настроить разные голоса: для врача - один тон, для курьера - другой. Полная кастомизация под ваши нужды. Разворачиваем AVA на своей видеокарте: пошаговоТехнически, AVA - это Python-скрипт, который висит как демон и слушает Asterisk через AMI. Asterisk - это PBX, телефония. Можно использовать и FreeSWITCH, но Asterisk проще для новичка. 1<\/span> Железо и софт<\/h3>Берём готовый образ Asterisk с Docker Hub, настраиваем sip.conf. Провайдеров VoIP в России много - выбирайте любого. Важно: нужен номер, на который будут звонить. Или можно настроить переадресацию с мобильного. В Asterisk прописываем диалплан: если входящий звонок, запускать AGI-скрипт (AVA). 3<\/span> Клонируем и настраиваем AVA<\/h3> |
Внимание: Whisper Large-v3-turbo весит около 3 ГБ, Qwen2.5-7B в квантованном виде - 4 ГБ, Kokoro - 300 МБ. Итого 7-8 ГБ дискового пространства. Лучше SSD.
<\/div>4<\/span> Пишем сценарии<\/h3>Создаём YAML-файл с правилами. Пример простого правила:
rules:\n - trigger:\n keywords: [\"карта\", \"заблокирована\", \"реквизиты\", \"паспорт\"]\n response: \"Извините, я не уполномочен обсуждать эту информацию. Обратитесь в официальный офис банка.\"\n action: hangup\n voice_tone: cold\n
Можно сделать сложную логику: если звонящий называет ваше имя (из базы контактов) - переключить на мобильный. Если нет - продолжить диалог. Архитектура позволяет создавать цепочки агентов.
Кому AVA подойдет, а кому нет
Идеальная аудитория:
Не стоит связываться, если:
Мой прогноз: к концу 2026 таких локальных агентов станет в разы больше. Производители видеокарт начнут оптимизировать драйверы специально для телефонии. А пока AVA - это работающий proof-of-concept, который уже сегодня спасает нервы и время.
🤖Неочевидный совет: настройте AVA так, чтобы для спамеров он имитировал звук набора номера факса. 80% мошенников вешают трубку сразу, услышав этот звук. Экономит ресурсы GPU.<\/div>
rules:\n - trigger:\n keywords: [\"карта\", \"заблокирована\", \"реквизиты\", \"паспорт\"]\n response: \"Извините, я не уполномочен обсуждать эту информацию. Обратитесь в официальный офис банка.\"\n action: hangup\n voice_tone: cold\nНе стоит связываться, если:
Мой прогноз: к концу 2026 таких локальных агентов станет в разы больше. Производители видеокарт начнут оптимизировать драйверы специально для телефонии. А пока AVA - это работающий proof-of-concept, который уже сегодня спасает нервы и время.