Зачем это нужно? Когда ChatGPT не подходит

Вы запускаете локальную модель. Она умная, конфиденциальная, не платите за токены. Но спрашиваете про вчерашние новости — и получаете в ответ тишину. Или бред. Модель застряла в моменте своего обучения, а мир уже ушел вперед.

WebSearch AI решает эту проблему тупым, но работающим способом: берет ваш вопрос, лезет в интернет через поисковик, получает свежие данные, и только потом кормит их модели. Все происходит на вашем компьютере. Даже на старом.

Не ждите чудес. Это не GPT-4 с доступом в интернет. Это маленькая модель, которая умеет читать то, что нашла в сети. Но иногда этого достаточно.

Что внутри? Техническая кухня без прикрас

Проект собран из проверенных компонентов, каждый из которых уже доказал, что работает на слабом железе.

Llama.cpp — движок для запуска моделей. Если вы хоть раз запускали локальную LLM, то наверняка сталкивались с ним. Он превращает тяжелые модели в оптимизированные файлы GGUF, которые жрут мало памяти и считаются даже на CPU.
PySide6 (Qt для Python) — графический интерфейс. Не самый легкий, но знакомый тысячам разработчиков. Окно с кнопками и полем для ввода — то, что нужно для простого инструмента.
Веб-поиск через DuckDuckGo — тут без изысков. Отправляет запрос, получает сниппеты и ссылки, выкачивает текст с веб-страниц. Никакого сложного парсинга — просто берет то, что видит.

💡

Вся магия — в промптинге. Модель получает инструкцию: «Вот вопрос пользователя. Вот текст, который мы нашли в интернете. Ответь на вопрос, используя этот текст». Звучит просто, но это работает.

Сколько это жрет? Цифры для владельцев древних ноутбуков

Главный козырь — экономия ресурсов. Разработчик заявляет о работе на системах с 8 ГБ оперативной памяти. На практике это выглядит так:

Компонент	Потребление (примерное)	Примечания
Модель 7B параметров (q4)	~4-5 ГБ RAM	Основной вес. Используется квантование 4-bit.
Интерфейс PySide6	~200-300 МБ RAM	Обычное для Qt-приложения.
Веб-скрейпинг и обработка	Зависит от страниц	Пиковые нагрузки при загрузке нескольких сайтов.

Если у вас совсем туго с памятью, можно попробовать модели поменьше — например, 3B параметров. Они будут менее умными, но хотя бы ответят что-то на основе свежих данных.

С чем сравнивать? Альтернативы, которые либо сложнее, либо дороже

Вариантов получить ответ с доступом в сеть не так много.

ChatGPT Plus / Copilot с поиском — платно, требует интернет, ваши данные уходят на сервера. Но работает идеально.
Самодельный RAG-пайплайн — можно собрать что-то похожее с помощью гибридного поиска для RAG. Но это уже серьезная разработка, а не «скачал и запустил».
Другие локальные интерфейсы — многие, вроде Open WebUI и его альтернатив, не имеют встроенного веб-поиска. Нужно поднимать отдельные сервисы.

WebSearch AI занимает нишу «все в одном» для не требовательных пользователей. Хотите узнать погоду на завтра или последние результаты футбольного матча? Запросто. Писать аналитический отчет на основе двадцати источников? Вряд ли.

Как это выглядит в работе? От вопроса к ответу

Представьте типичный сценарий.

1Запуск и выбор модели

Качаете исполняемый файл (или клонируете репозиторий). Первым делом указываете путь к модели в формате GGUF. Если у вас ее нет — идете на Hugging Face и качаете что-то подходящее по размеру. Mistral 7B, Llama 3 8B — вариантов море.

2Вопрос и поиск

Пишете: «Какие новости сегодня по поводу запуска новой версии Python?». Нажимаете кнопку. Программа не бежит сразу к модели. Она сначала отправляет этот запрос в DuckDuckGo, получает список ссылок, загружает с них текст. Вы видите индикатор «Searching...» и «Scraping...».

3Обработка и ответ

Собранный текст обрезается до разумного размера (чтобы не перегружать контекстное окно модели), добавляется в промпт. И только теперь запрос уходит в локальную LLM. Через 10-30 секунд (зависит от вашего CPU) получаете ответ, который ссылается на реальные статьи.

Иногда модель «привирает», даже имея перед глазами текст. Это болезнь всех маленьких LLM. Но вероятность получить адекватный ответ все же выше, чем если бы она работала в вакууме.

Кому это подойдет (а кому — нет)

Инструмент очень специфический. Он не для всех.

Берите, если:

У вас старый компьютер, но хочется попробовать LLM с доступом к актуальной информации.
Нужен простой способ иногда спрашивать про новости или события без открытия браузера.
Вы любите «бабушкины» способы запуска ИИ — минимальные настройки, максимум практической пользы.
Конфиденциальность важнее скорости и качества ответов.

Не тратьте время, если:

Ждете уровня ChatGPT. Будет разочарование.
Нужна стабильная работа для бизнеса или автоматизации. Это скорее proof-of-concept.
Хотите глубокий анализ или работу с большими документами. Контекстное окно модели ограничено.
У вас мощная видеокарта и вы хотите выжать максимум из локальных моделей. Есть более продвинутые варианты.

Что дальше? Будущее нишевых локальных инструментов

WebSearch AI показывает тренд: локальные модели перестают быть игрушками для энтузиастов. Они обрастают полезными функциями — поиском, векторным поиском прямо на устройстве, работой с мультимедиа.

Следующий логичный шаг — интеграция с системами памяти, вроде Beads, чтобы модель запоминала, о чем вы уже говорили, и использовала это в новых поисках.

А пока — это рабочий способ заставить вашу локальную LLM выглядеть чуть менее глупо, когда речь заходит о сегодняшнем дне. Скачайте, попробуйте на своем железе. Если работает — отлично. Если нет... что ж, всегда есть облачные сервисы.

WebSearch AI: как запустить локальную модель с поиском в интернете на слабом железе