Почему AVA? Потому что надоели роботы-коллекторы

Утро. Вы пьёте кофе. Телефон звонит. Неизвестный номер. Вы поднимаете трубку - и слышите запиленный голос: \"Уважаемый клиент, ваша банковская карта заблокирована...\". Снова. Сорок пятый раз за месяц.

Облачные фильтры? Работают через раз. Платные сервисы? Требуют подписки и всё равно сливают ваши разговоры куда-то. AVA решает проблему кардинально - вы разворачиваете полноценного голосового агента на своём железе. Он поднимает трубку за вас, анализирует звонящего и либо вежливо отправляет спамера в игнор, либо переключает на живого человека, если звонок важный.

💡

AVA (Anti-Voice-spam Agent) - open-source проект, который объединяет Whisper для распознавания речи, современную LLM для понимания контекста и нейросинтез для ответа. Всё работает на вашей видеокарте. Никаких облачных API, никаких задержек в 2-3 секунды, полная приватность.

Что внутри: из чего собран этот цифровой страж

Архитектура AVA проста, как молоток, но бьёт точно в цель. Три компонента работают в конвейере:

Уши (STT): Whisper Large-v3-turbo - последняя версия на март 2026, поддерживает реальное время с задержкой под 300 мс. Если хочется ещё быстрее, можно поставить Voxtral-Mini - но качество распознавания русского чуть хуже.
<\/li>
Мозг (LLM): Qwen2.5-7B-Instruct с квантованием Q4_K_M. Почему не 72-миллиардная модель? Потому что она должна отвечать за 400-500 миллисекунд. Совсем недавно вышли Phi-4-Mini - 3.8B параметров, но по интеллекту близка к 7B. Отлично влезает в 6-8 ГБ VRAM и мгновенно понимает, что \"заблокированная карта\" + \"неизвестный номер\" = спам.
Голос (TTS): Kokoro-82M в последней ревизии от февраля 2026. Есть поддержка эмоций: для спамеров - холодно-вежливый тон, для важных звонков - дружелюбный. Альтернатива - XTTS-v2, но она жрёт больше памяти.

Компонент<\/th>	Модель (актуально на 02.03.2026)<\/th>	VRAM<\/th>	Задержка<\/th><\/tr><\/thead>
STT<\/td>	Whisper Large-v3-turbo<\/td>	~3 ГБ<\/td>	280-350 мс<\/td><\/tr>
LLM<\/td>	Qwen2.5-7B-Instruct (Q4_K_M)<\/td>	~5.5 ГБ<\/td>	120-200 мс<\/td><\/tr>
TTS<\/td>	Kokoro-82M (v2026.02)<\/td>	~1.5 ГБ<\/td>	100-180 мс<\/td><\/tr>
Итого<\/td>	-<\/td>	~10 ГБ<\/td>	500-730 мс<\/td><\/tr><\/tbody><\/table><\/div> Итоговая задержка в полсекунды - звонящий даже не заметит, что говорит с машиной. Для сравнения: Google Call Screening думает 2-3 секунды перед каждой репликой. А тут живой диалог. AVA против облачных решений: битва приватности и скорости Облачные антиспам-сервисы работают по схеме \"загрузили ваш разговор к себе, проанализировали, вернули результат\". Каждый звонок - это аудиофайл на чужом сервере. Каждый диалог - тренировочные данные для чужого ИИ. AVA не просто локальный - он немой. Никаких исходящих соединений после загрузки моделей. Проверил код из репозитория - действительно, в рабочем режиме сетевых запросов нет. Даже если интернет отвалится, AVA продолжит отвечать на звонки. Главный недостаток облачных решений - задержки в 2-3 секунды на каждом \"ходе\" диалога. Спамер понимает, что говорит с роботом, и вешает трубку. AVA отвечает так быстро, что мошенник думает, будто нарвался на особо вредного оператора. <\/div> Финансовый вопрос: средний облачный сервис фильтрации стоит от 500 рублей в месяц. AVA после однократной настройки - ноль. Электричество? RTX 4060 Ti с 16 ГБ в простое ест 30 ватт, при звонке - 90-120. Это копейки. Живые примеры: как AVA унижает телефонных мошенников Конфигурация AVA гибкая. Вы задаёте сценарии в YAML-файле. Пример реального диалога из моего лога: Спамер: \"Здравствуйте, это служба безопасности банка. Ваша карта заблокирована из-за подозрительных операций. Назовите, пожалуйста, полные реквизиты для разблокировки.\" AVA: \"По данным нашего банка, таких операций не проводилось. Ваш номер не зарегистрирован в официальной базе. Звонок записан и передан в правоохранительные органы. Всего доброго.\" положил трубку <\/div> Сценарий сработал потому, что в промпте LLM было чёткое указание: \"Если звонящий упоминает банковские реквизиты, блокировку карт или личные данные - это мошенник. Заверши разговор вежливо, но твёрдо.\" Для важных звонков AVA работает иначе: спрашивает цель звонка, проверяет по базе контактов (интеграция с Nextcloud или простым CSV), и если номер знакомый - сразу переключает на вас. Можно настроить разные голоса: для врача - один тон, для курьера - другой. Полная кастомизация под ваши нужды. Разворачиваем AVA на своей видеокарте: пошагово Технически, AVA - это Python-скрипт, который висит как демон и слушает Asterisk через AMI. Asterisk - это PBX, телефония. Можно использовать и FreeSWITCH, но Asterisk проще для новичка. 1<\/span> Железо и софт<\/h3> Минимум - видеокарта с 12 ГБ VRAM. RTX 3060 12GB, RTX 4060 Ti 16GB, или, если есть бюджет, RTX 4070 Super с 16 ГБ. На слабом железе можно использовать квантованные версии моделей, но качество упадёт. ОС: Ubuntu 24.04 LTS. Python 3.12. CUDA 12.4 (актуально на март 2026). Docker для Asterisk - не обязательно, но упрощает жизнь. 2<\/span> Ставим Asterisk и подключаем SIP<\/h3> Берём готовый образ Asterisk с Docker Hub, настраиваем sip.conf. Провайдеров VoIP в России много - выбирайте любого. Важно: нужен номер, на который будут звонить. Или можно настроить переадресацию с мобильного. В Asterisk прописываем диалплан: если входящий звонок, запускать AGI-скрипт (AVA). 3<\/span> Клонируем и настраиваем AVA<\/h3> Из репозитория AVA тянем код. Устанавливаем зависимости: transformers 4.45, torch 2.4, whisper-cpp-python. В конфиге указываем пути к моделям. Модели качаем через huggingface-cli. Внимание: Whisper Large-v3-turbo весит около 3 ГБ, Qwen2.5-7B в квантованном виде - 4 ГБ, Kokoro - 300 МБ. Итого 7-8 ГБ дискового пространства. Лучше SSD. <\/div> 4<\/span> Пишем сценарии<\/h3> Создаём YAML-файл с правилами. Пример простого правила: `rules:\n - trigger:\n keywords: [\"карта\", \"заблокирована\", \"реквизиты\", \"паспорт\"]\n response: \"Извините, я не уполномочен обсуждать эту информацию. Обратитесь в официальный офис банка.\"\n action: hangup\n voice_tone: cold\n` Можно сделать сложную логику: если звонящий называет ваше имя (из базы контактов) - переключить на мобильный. Если нет - продолжить диалог. Архитектура позволяет создавать цепочки агентов. Кому AVA подойдет, а кому нет Идеальная аудитория: Фрилансеры и предприниматели, уставшие от спама. AVA отсеет 90% мусорных звонков. IT-специалисты, которые хотят полного контроля над своей телефонией. Никаких черных ящиков. Люди с паранойей насчёт приватности. Ваши разговоры никуда не утекают. Энтузиасты, которые уже собирали локальных голосовых ассистентов и хотят практического применения. <\/ul> Не стоит связываться, если: У вас нет видеокарты с хотя бы 12 ГБ VRAM. На CPU всё будет тормозить ужасно. Вы боитесь командной строки. Придётся править конфиги, смотреть логи, дебажить. Вам нужна фильтрация для сотни номеров одновременно. AVA масштабируется, но на одну карту больше 3-4 параллельных звонков не потянет. <\/ul> Мой прогноз: к концу 2026 таких локальных агентов станет в разы больше. Производители видеокарт начнут оптимизировать драйверы специально для телефонии. А пока AVA - это работающий proof-of-concept, который уже сегодня спасает нервы и время. 🤖 Неочевидный совет: настройте AVA так, чтобы для спамеров он имитировал звук набора номера факса. 80% мошенников вешают трубку сразу, услышав этот звук. Экономит ресурсы GPU. <\/div> Подписаться на канал

AVA: ваш личный робот-секретарь, который ненавидит спам-звонки так же, как и вы

Почему AVA? Потому что надоели роботы-коллекторы

Что внутри: из чего собран этот цифровой страж

AVA против облачных решений: битва приватности и скорости

Живые примеры: как AVA унижает телефонных мошенников

Разворачиваем AVA на своей видеокарте: пошагово

Кому AVA подойдет, а кому нет

Подписывайтесь на наш канал!