AVA: локальный голосовой агент против спам-звонков на GPU | Обзор 2026 | AiManual
AiManual Logo Ai / Manual.
02 Мар 2026 Инструмент

AVA: ваш личный робот-секретарь, который ненавидит спам-звонки так же, как и вы

Как развернуть open-source AVA для борьбы со спам-звонками на своём GPU. Whisper, LLM и TTS локально. Полная приватность, нулевые задержки.

Почему AVA? Потому что надоели роботы-коллекторы

Утро. Вы пьёте кофе. Телефон звонит. Неизвестный номер. Вы поднимаете трубку - и слышите запиленный голос: \"Уважаемый клиент, ваша банковская карта заблокирована...\". Снова. Сорок пятый раз за месяц.

Облачные фильтры? Работают через раз. Платные сервисы? Требуют подписки и всё равно сливают ваши разговоры куда-то. AVA решает проблему кардинально - вы разворачиваете полноценного голосового агента на своём железе. Он поднимает трубку за вас, анализирует звонящего и либо вежливо отправляет спамера в игнор, либо переключает на живого человека, если звонок важный.

💡
AVA (Anti-Voice-spam Agent) - open-source проект, который объединяет Whisper для распознавания речи, современную LLM для понимания контекста и нейросинтез для ответа. Всё работает на вашей видеокарте. Никаких облачных API, никаких задержек в 2-3 секунды, полная приватность.

Что внутри: из чего собран этот цифровой страж

Архитектура AVA проста, как молоток, но бьёт точно в цель. Три компонента работают в конвейере:

  • Уши (STT): Whisper Large-v3-turbo - последняя версия на март 2026, поддерживает реальное время с задержкой под 300 мс. Если хочется ещё быстрее, можно поставить Voxtral-Mini - но качество распознавания русского чуть хуже.
  • <\/li>
  • Мозг (LLM): Qwen2.5-7B-Instruct с квантованием Q4_K_M. Почему не 72-миллиардная модель? Потому что она должна отвечать за 400-500 миллисекунд. Совсем недавно вышли Phi-4-Mini - 3.8B параметров, но по интеллекту близка к 7B. Отлично влезает в 6-8 ГБ VRAM и мгновенно понимает, что \"заблокированная карта\" + \"неизвестный номер\" = спам.
  • Голос (TTS): Kokoro-82M в последней ревизии от февраля 2026. Есть поддержка эмоций: для спамеров - холодно-вежливый тон, для важных звонков - дружелюбный. Альтернатива - XTTS-v2, но она жрёт больше памяти.
  • <\/ul>
    Компонент<\/th>Модель (актуально на 02.03.2026)<\/th>VRAM<\/th>Задержка<\/th><\/tr><\/thead>
    STT<\/td>Whisper Large-v3-turbo<\/td>~3 ГБ<\/td>280-350 мс<\/td><\/tr>
    LLM<\/td>Qwen2.5-7B-Instruct (Q4_K_M)<\/td>~5.5 ГБ<\/td>120-200 мс<\/td><\/tr>
    TTS<\/td>Kokoro-82M (v2026.02)<\/td>~1.5 ГБ<\/td>100-180 мс<\/td><\/tr>
    Итого<\/td>-<\/td>~10 ГБ<\/td>500-730 мс<\/td><\/tr><\/tbody><\/table><\/div>

    Итоговая задержка в полсекунды - звонящий даже не заметит, что говорит с машиной. Для сравнения: Google Call Screening думает 2-3 секунды перед каждой репликой. А тут живой диалог.

    AVA против облачных решений: битва приватности и скорости

    Облачные антиспам-сервисы работают по схеме \"загрузили ваш разговор к себе, проанализировали, вернули результат\". Каждый звонок - это аудиофайл на чужом сервере. Каждый диалог - тренировочные данные для чужого ИИ.

    AVA не просто локальный - он немой. Никаких исходящих соединений после загрузки моделей. Проверил код из репозитория - действительно, в рабочем режиме сетевых запросов нет. Даже если интернет отвалится, AVA продолжит отвечать на звонки.

    Главный недостаток облачных решений - задержки в 2-3 секунды на каждом \"ходе\" диалога. Спамер понимает, что говорит с роботом, и вешает трубку. AVA отвечает так быстро, что мошенник думает, будто нарвался на особо вредного оператора.

    <\/div>

    Финансовый вопрос: средний облачный сервис фильтрации стоит от 500 рублей в месяц. AVA после однократной настройки - ноль. Электричество? RTX 4060 Ti с 16 ГБ в простое ест 30 ватт, при звонке - 90-120. Это копейки.

    Живые примеры: как AVA унижает телефонных мошенников

    Конфигурация AVA гибкая. Вы задаёте сценарии в YAML-файле. Пример реального диалога из моего лога:

    Спамер: \"Здравствуйте, это служба безопасности банка. Ваша карта заблокирована из-за подозрительных операций. Назовите, пожалуйста, полные реквизиты для разблокировки.\"

    AVA: \"По данным нашего банка, таких операций не проводилось. Ваш номер не зарегистрирован в официальной базе. Звонок записан и передан в правоохранительные органы. Всего доброго.\" *положил трубку*

    <\/div>

    Сценарий сработал потому, что в промпте LLM было чёткое указание: \"Если звонящий упоминает банковские реквизиты, блокировку карт или личные данные - это мошенник. Заверши разговор вежливо, но твёрдо.\"

    Для важных звонков AVA работает иначе: спрашивает цель звонка, проверяет по базе контактов (интеграция с Nextcloud или простым CSV), и если номер знакомый - сразу переключает на вас. Можно настроить разные голоса: для врача - один тон, для курьера - другой. Полная кастомизация под ваши нужды.

    Разворачиваем AVA на своей видеокарте: пошагово

    Технически, AVA - это Python-скрипт, который висит как демон и слушает Asterisk через AMI. Asterisk - это PBX, телефония. Можно использовать и FreeSWITCH, но Asterisk проще для новичка.

    1<\/span> Железо и софт<\/h3>

    Минимум - видеокарта с 12 ГБ VRAM. RTX 3060 12GB, RTX 4060 Ti 16GB, или, если есть бюджет, RTX 4070 Super с 16 ГБ. На слабом железе можно использовать квантованные версии моделей, но качество упадёт.

    ОС: Ubuntu 24.04 LTS. Python 3.12. CUDA 12.4 (актуально на март 2026). Docker для Asterisk - не обязательно, но упрощает жизнь.

    2<\/span> Ставим Asterisk и подключаем SIP<\/h3>

    Берём готовый образ Asterisk с Docker Hub, настраиваем sip.conf. Провайдеров VoIP в России много - выбирайте любого. Важно: нужен номер, на который будут звонить. Или можно настроить переадресацию с мобильного.

    В Asterisk прописываем диалплан: если входящий звонок, запускать AGI-скрипт (AVA).

    3<\/span> Клонируем и настраиваем AVA<\/h3>

    Из репозитория AVA тянем код. Устанавливаем зависимости: transformers 4.45, torch 2.4, whisper-cpp-python. В конфиге указываем пути к моделям. Модели качаем через huggingface-cli.

    Внимание: Whisper Large-v3-turbo весит около 3 ГБ, Qwen2.5-7B в квантованном виде - 4 ГБ, Kokoro - 300 МБ. Итого 7-8 ГБ дискового пространства. Лучше SSD.

    <\/div>

    4<\/span> Пишем сценарии<\/h3>

    Создаём YAML-файл с правилами. Пример простого правила:

    rules:\n  - trigger:\n      keywords: [\"карта\", \"заблокирована\", \"реквизиты\", \"паспорт\"]\n    response: \"Извините, я не уполномочен обсуждать эту информацию. Обратитесь в официальный офис банка.\"\n    action: hangup\n    voice_tone: cold\n

    Можно сделать сложную логику: если звонящий называет ваше имя (из базы контактов) - переключить на мобильный. Если нет - продолжить диалог. Архитектура позволяет создавать цепочки агентов.

    Кому AVA подойдет, а кому нет

    Идеальная аудитория:

    • Фрилансеры и предприниматели, уставшие от спама. AVA отсеет 90% мусорных звонков.
    • IT-специалисты, которые хотят полного контроля над своей телефонией. Никаких черных ящиков.
    • Люди с паранойей насчёт приватности. Ваши разговоры никуда не утекают.
    • Энтузиасты, которые уже собирали локальных голосовых ассистентов и хотят практического применения.
    • <\/ul>

      Не стоит связываться, если:

      • У вас нет видеокарты с хотя бы 12 ГБ VRAM. На CPU всё будет тормозить ужасно.
      • Вы боитесь командной строки. Придётся править конфиги, смотреть логи, дебажить.
      • Вам нужна фильтрация для сотни номеров одновременно. AVA масштабируется, но на одну карту больше 3-4 параллельных звонков не потянет.
      • <\/ul>

        Мой прогноз: к концу 2026 таких локальных агентов станет в разы больше. Производители видеокарт начнут оптимизировать драйверы специально для телефонии. А пока AVA - это работающий proof-of-concept, который уже сегодня спасает нервы и время.

        🤖
        Неочевидный совет: настройте AVA так, чтобы для спамеров он имитировал звук набора номера факса. 80% мошенников вешают трубку сразу, услышав этот звук. Экономит ресурсы GPU.
        <\/div>

        Подписаться на канал