RAGpad: Обзор локального RAG-блокнота на llama.cpp | AiManual
AiManual Logo Ai / Manual.
27 Июн 2026 Инструмент

RAGpad: Терминальный блокнот с локальным ИИ, который не сливает ваши заметки

Privacy-focused приложение для заметок с RAG в терминале. Работает оффлайн на llama.cpp. Сравнение с Obsidian, NotebookLM, примеры использования.

Реклама
partv1

Когда паранойя — это разумно

Каждый раз, когда вы пишете заметку в Notion или Evernote, где-то на чужом сервере просыпается алгоритм, анализирующий ваши мысли. NotebookLM от Google вообще предлагает "поговорить" с документами — но платит за это доступом к данным. В 2026 году, когда утечки стали рутиной, а законы о данных — лотереей, держать личные заметки на стороне — роскошь, которую могут себе позволить только те, кто не записывает ничего важного.

Но есть другой путь. Полностью оффлайн, через терминал, на базе llama.cpp. Встречайте RAGpad — инструмент, который не отправляет ваши заметки никому, даже если вы сами этого захотите.

RAGpad — это open-source терминальное приложение для ведения заметок с встроенным RAG. Вся магия происходит локально: индексация, эмбеддинги, генерация ответов. Ни байта в облако.

Знакомьтесь, RAGpad: ваш локальный ИИ-секретарь

RAGpad берёт сырые Markdown-файлы из папки, индексирует их с помощью эмбеддингов (через llama.cpp) и позволяет задавать вопросы на естественном языке. Ответы извлекаются только из ваших заметок — модель не галлюцинирует за пределами контекста. Ну, почти не галлюцинирует.

Ключевые фишки:

  • Полная автономия — работает без интернета, все вычисления на вашем железе.
  • Локальные модели GGUF — поддержка любой модели, совместимой с llama.cpp: от крошечных Qwen 3 до тяжелых Llama 4.
  • Семантический поиск — находите заметки не по ключевым словам, а по смыслу. Например, "идеи для презентации" найдёт даже те файлы, где слово "презентация" ни разу не встречается.
  • Суммаризация и генерация — сожмите целый каталог заметок в три предложения или попросите написать план статьи на основе ваших черновиков.
  • Режим CLI — никакого GUI, только хардкорный терминал. Зато можно встраивать в пайплайны и скрипты.

Сравнение: RAGpad против Obsidian и NotebookLM

На рынке уже есть популярные решения. Obsidian с плагином AI Copilot позволяет подключать локальные LLM, но требует ручной настройки и часто полагается на облачные API. Мы уже писали, как превратить Obsidian в локального помощника, но RAGpad сразу идёт с готовым RAG-пайплайном.

КритерийRAGpadObsidian + CopilotNotebookLM
ПриватностьПолная (оффлайн)Частичная (зависит от API)Данные уходят в Google
Сложность настройкиСредняя (потребуется скачать модель)ВысокаяНизкая (но облачная)
Скорость RAGЗависит от GPU/CPUЗависит от APIМгновенно (сервера Google)
Формат заметокMarkdown (файлы)Markdown (в хранилище)Веб-интерфейс, нет экспорта
ЦенаБесплатноБесплатно (но API требует денег)Бесплатно (с ограничениями)

Главный минус RAGpad — он живёт в терминале. Не ждите красивого интерфейса. Зато вы точно знаете, куда уходит каждый токен.

Как это работает (и почему не болит голова)

В основе — llama.cpp, запущенный в режиме сервера. RAGpad подключается к нему по HTTP, отправляет эмбеддинги запросов и получает ответы. Векторное хранилище — SQLite с расширением sqlite-vec или FAISS — на выбор. Индексация происходит один раз, а затем обновляется инкрементально при изменении файлов.

Внимание: без GPU на больших коллекциях (>10 000 заметок) скорость упадет. RAGpad оптимизирован для персонального использования — сотни или тысячи файлов, не миллионы.

Архитектура простая:

  1. Сканируете папку с .md файлами.
  2. RAGpad разбивает каждый файл на чанки (по умолчанию 512 токенов с перекрытием 50).
  3. Вычисляет эмбеддинги через llama.cpp (модели типа bge-m3 или nomic-embed-text-v1.5).
  4. Сохраняет векторы в локальной базе.
  5. На запрос ищет топ-5 чанков, собирает контекст и отправляет в LLM вместе с промптом.

Всё это — в одном бинарнике, без лишних зависимостей. Сравнение фреймворков для локального запуска LLM показывает, что llama.cpp остаётся рекордсменом по производительности на CPU.

Пример сессии: от заметок до ответа

Предположим, у вас есть папка ~/notes с набросками статей, кода и рецептами. Устанавливаете RAGpad и запускаете индексацию:

# Установка (через Homebrew или git clone) brew install ragpad # или go install github.com/ragpad/ragpad@latest # Запуск сервера llama.cpp с моделью ./llama-server -m ~/models/qwen3-7b-q4_k_m.gguf --embedding --pooling cls -ngl 99 # Индексация заметок ragpad index ~/notes


Теперь можно задавать вопросы:

ragpad query "Как приготовить чиабатту по моему рецепту?"


RAGpad найдёт нужные файлы, соберёт контекст и ответит:

По вашим заметкам: "Итальянская выпечка" и "Хлеб на закваске". Для чиабатты нужно: 500 г муки, 350 г воды, 10 г соли, 5 г дрожжей. Расстойка 2 часа, затем формовка и ещё 1 час. Выпекать при 230°C с паром.

Согласитесь, удобнее, чем грепать по папке вручную.

Кому это вообще надо?

RAGpad — не для широких масс. Он для тех, кто:

  • Пишет код и хочет иметь под рукой локальную базу знаний по проекту.
  • Ведёт личный дневник и не хочет, чтобы его анализировал корпоративный ИИ.
  • Исследует тему и накопил сотни выдержек — семантический поиск заменяет теги.
  • Работает в изолированной среде (военные, врачи, юристы), где нельзя использовать облака.

SentinLLM решает проблему утечек через RAG, но RAGpad идёт ещё дальше — он вообще не подключается к сети. Если вам нужно защитить персональные данные в RAG-системах, обязательно посмотрите тот инструмент, а для повседневных заметок — этого достаточно.

Что дальше?

Локальные LLM становятся быстрее, модели — компактнее. Уже сейчас Qwen 3 c 7B параметров на M4 MacBook генерирует 30 токенов в секунду — комфортно для диалога. А с выходом OCC-RAG (0.6B и 1.7B) можно обходиться вовсе без GPU. В 2026 году запустить RAG на Raspberry Pi 5 — уже не фантастика.

Единственное, что тормозит массовое внедрение — отсутствие удобного GUI. Но если вы дочитали до этого места, терминал вас не пугает. А значит, RAGpad — ваш следующий шаг к цифровому суверенитету.

Подписаться на канал