Когда паранойя — это разумно
Каждый раз, когда вы пишете заметку в Notion или Evernote, где-то на чужом сервере просыпается алгоритм, анализирующий ваши мысли. NotebookLM от Google вообще предлагает "поговорить" с документами — но платит за это доступом к данным. В 2026 году, когда утечки стали рутиной, а законы о данных — лотереей, держать личные заметки на стороне — роскошь, которую могут себе позволить только те, кто не записывает ничего важного.
Но есть другой путь. Полностью оффлайн, через терминал, на базе llama.cpp. Встречайте RAGpad — инструмент, который не отправляет ваши заметки никому, даже если вы сами этого захотите.
RAGpad — это open-source терминальное приложение для ведения заметок с встроенным RAG. Вся магия происходит локально: индексация, эмбеддинги, генерация ответов. Ни байта в облако.
Знакомьтесь, RAGpad: ваш локальный ИИ-секретарь
RAGpad берёт сырые Markdown-файлы из папки, индексирует их с помощью эмбеддингов (через llama.cpp) и позволяет задавать вопросы на естественном языке. Ответы извлекаются только из ваших заметок — модель не галлюцинирует за пределами контекста. Ну, почти не галлюцинирует.
Ключевые фишки:
- Полная автономия — работает без интернета, все вычисления на вашем железе.
- Локальные модели GGUF — поддержка любой модели, совместимой с llama.cpp: от крошечных Qwen 3 до тяжелых Llama 4.
- Семантический поиск — находите заметки не по ключевым словам, а по смыслу. Например, "идеи для презентации" найдёт даже те файлы, где слово "презентация" ни разу не встречается.
- Суммаризация и генерация — сожмите целый каталог заметок в три предложения или попросите написать план статьи на основе ваших черновиков.
- Режим CLI — никакого GUI, только хардкорный терминал. Зато можно встраивать в пайплайны и скрипты.
Сравнение: RAGpad против Obsidian и NotebookLM
На рынке уже есть популярные решения. Obsidian с плагином AI Copilot позволяет подключать локальные LLM, но требует ручной настройки и часто полагается на облачные API. Мы уже писали, как превратить Obsidian в локального помощника, но RAGpad сразу идёт с готовым RAG-пайплайном.
| Критерий | RAGpad | Obsidian + Copilot | NotebookLM |
|---|---|---|---|
| Приватность | Полная (оффлайн) | Частичная (зависит от API) | Данные уходят в Google |
| Сложность настройки | Средняя (потребуется скачать модель) | Высокая | Низкая (но облачная) |
| Скорость RAG | Зависит от GPU/CPU | Зависит от API | Мгновенно (сервера Google) |
| Формат заметок | Markdown (файлы) | Markdown (в хранилище) | Веб-интерфейс, нет экспорта |
| Цена | Бесплатно | Бесплатно (но API требует денег) | Бесплатно (с ограничениями) |
Главный минус RAGpad — он живёт в терминале. Не ждите красивого интерфейса. Зато вы точно знаете, куда уходит каждый токен.
Как это работает (и почему не болит голова)
В основе — llama.cpp, запущенный в режиме сервера. RAGpad подключается к нему по HTTP, отправляет эмбеддинги запросов и получает ответы. Векторное хранилище — SQLite с расширением sqlite-vec или FAISS — на выбор. Индексация происходит один раз, а затем обновляется инкрементально при изменении файлов.
Внимание: без GPU на больших коллекциях (>10 000 заметок) скорость упадет. RAGpad оптимизирован для персонального использования — сотни или тысячи файлов, не миллионы.
Архитектура простая:
- Сканируете папку с .md файлами.
- RAGpad разбивает каждый файл на чанки (по умолчанию 512 токенов с перекрытием 50).
- Вычисляет эмбеддинги через llama.cpp (модели типа bge-m3 или nomic-embed-text-v1.5).
- Сохраняет векторы в локальной базе.
- На запрос ищет топ-5 чанков, собирает контекст и отправляет в LLM вместе с промптом.
Всё это — в одном бинарнике, без лишних зависимостей. Сравнение фреймворков для локального запуска LLM показывает, что llama.cpp остаётся рекордсменом по производительности на CPU.
Пример сессии: от заметок до ответа
Предположим, у вас есть папка ~/notes с набросками статей, кода и рецептами. Устанавливаете RAGpad и запускаете индексацию:
# Установка (через Homebrew или git clone) brew install ragpad # или go install github.com/ragpad/ragpad@latest # Запуск сервера llama.cpp с моделью ./llama-server -m ~/models/qwen3-7b-q4_k_m.gguf --embedding --pooling cls -ngl 99 # Индексация заметок ragpad index ~/notes
Теперь можно задавать вопросы:
ragpad query "Как приготовить чиабатту по моему рецепту?"
RAGpad найдёт нужные файлы, соберёт контекст и ответит:
По вашим заметкам: "Итальянская выпечка" и "Хлеб на закваске". Для чиабатты нужно: 500 г муки, 350 г воды, 10 г соли, 5 г дрожжей. Расстойка 2 часа, затем формовка и ещё 1 час. Выпекать при 230°C с паром.Согласитесь, удобнее, чем грепать по папке вручную.
Кому это вообще надо?
RAGpad — не для широких масс. Он для тех, кто:
- Пишет код и хочет иметь под рукой локальную базу знаний по проекту.
- Ведёт личный дневник и не хочет, чтобы его анализировал корпоративный ИИ.
- Исследует тему и накопил сотни выдержек — семантический поиск заменяет теги.
- Работает в изолированной среде (военные, врачи, юристы), где нельзя использовать облака.
SentinLLM решает проблему утечек через RAG, но RAGpad идёт ещё дальше — он вообще не подключается к сети. Если вам нужно защитить персональные данные в RAG-системах, обязательно посмотрите тот инструмент, а для повседневных заметок — этого достаточно.
Что дальше?
Локальные LLM становятся быстрее, модели — компактнее. Уже сейчас Qwen 3 c 7B параметров на M4 MacBook генерирует 30 токенов в секунду — комфортно для диалога. А с выходом OCC-RAG (0.6B и 1.7B) можно обходиться вовсе без GPU. В 2026 году запустить RAG на Raspberry Pi 5 — уже не фантастика.
Единственное, что тормозит массовое внедрение — отсутствие удобного GUI. Но если вы дочитали до этого места, терминал вас не пугает. А значит, RAGpad — ваш следующий шаг к цифровому суверенитету.