Можно ли использовать RAGpad с другими LLM, кроме llama.cpp?

RAGpad разработан для работы с любым сервером, реализующим API совместимость с llama.cpp. Подойдут vLLM, Ollama (через прокси), и другие бэкенды. Но основная цель — полная локальность, поэтому облачные API не поддерживаются намеренно.

Нужна ли видеокарта для работы?

Не обязательно. llama.cpp отлично работает на CPU с современными инструкциями (AVX2, NEON). Для коллекций до 1000 заметок и моделей до 7B параметров достаточно 16 ГБ ОЗУ. Для больших моделей или быстрого поиска рекомендуется GPU с 8+ ГБ VRAM.

RAGpad: Обзор локального RAG-блокнота на llama.cpp

Когда паранойя — это разумно

Каждый раз, когда вы пишете заметку в Notion или Evernote, где-то на чужом сервере просыпается алгоритм, анализирующий ваши мысли. NotebookLM от Google вообще предлагает "поговорить" с документами — но платит за это доступом к данным. В 2026 году, когда утечки стали рутиной, а законы о данных — лотереей, держать личные заметки на стороне — роскошь, которую могут себе позволить только те, кто не записывает ничего важного.

Но есть другой путь. Полностью оффлайн, через терминал, на базе llama.cpp. Встречайте RAGpad — инструмент, который не отправляет ваши заметки никому, даже если вы сами этого захотите.

RAGpad — это open-source терминальное приложение для ведения заметок с встроенным RAG. Вся магия происходит локально: индексация, эмбеддинги, генерация ответов. Ни байта в облако.

Знакомьтесь, RAGpad: ваш локальный ИИ-секретарь

RAGpad берёт сырые Markdown-файлы из папки, индексирует их с помощью эмбеддингов (через llama.cpp) и позволяет задавать вопросы на естественном языке. Ответы извлекаются только из ваших заметок — модель не галлюцинирует за пределами контекста. Ну, почти не галлюцинирует.

Ключевые фишки:

Полная автономия — работает без интернета, все вычисления на вашем железе.
Локальные модели GGUF — поддержка любой модели, совместимой с llama.cpp: от крошечных Qwen 3 до тяжелых Llama 4.
Семантический поиск — находите заметки не по ключевым словам, а по смыслу. Например, "идеи для презентации" найдёт даже те файлы, где слово "презентация" ни разу не встречается.
Суммаризация и генерация — сожмите целый каталог заметок в три предложения или попросите написать план статьи на основе ваших черновиков.
Режим CLI — никакого GUI, только хардкорный терминал. Зато можно встраивать в пайплайны и скрипты.

Сравнение: RAGpad против Obsidian и NotebookLM

На рынке уже есть популярные решения. Obsidian с плагином AI Copilot позволяет подключать локальные LLM, но требует ручной настройки и часто полагается на облачные API. Мы уже писали, как превратить Obsidian в локального помощника, но RAGpad сразу идёт с готовым RAG-пайплайном.

Критерий	RAGpad	Obsidian + Copilot	NotebookLM
Приватность	Полная (оффлайн)	Частичная (зависит от API)	Данные уходят в Google
Сложность настройки	Средняя (потребуется скачать модель)	Высокая	Низкая (но облачная)
Скорость RAG	Зависит от GPU/CPU	Зависит от API	Мгновенно (сервера Google)
Формат заметок	Markdown (файлы)	Markdown (в хранилище)	Веб-интерфейс, нет экспорта
Цена	Бесплатно	Бесплатно (но API требует денег)	Бесплатно (с ограничениями)

Главный минус RAGpad — он живёт в терминале. Не ждите красивого интерфейса. Зато вы точно знаете, куда уходит каждый токен.

Как это работает (и почему не болит голова)

В основе — llama.cpp, запущенный в режиме сервера. RAGpad подключается к нему по HTTP, отправляет эмбеддинги запросов и получает ответы. Векторное хранилище — SQLite с расширением sqlite-vec или FAISS — на выбор. Индексация происходит один раз, а затем обновляется инкрементально при изменении файлов.

Внимание: без GPU на больших коллекциях (>10 000 заметок) скорость упадет. RAGpad оптимизирован для персонального использования — сотни или тысячи файлов, не миллионы.

Архитектура простая:

Сканируете папку с .md файлами.
RAGpad разбивает каждый файл на чанки (по умолчанию 512 токенов с перекрытием 50).
Вычисляет эмбеддинги через llama.cpp (модели типа bge-m3 или nomic-embed-text-v1.5).
Сохраняет векторы в локальной базе.
На запрос ищет топ-5 чанков, собирает контекст и отправляет в LLM вместе с промптом.

Всё это — в одном бинарнике, без лишних зависимостей. Сравнение фреймворков для локального запуска LLM показывает, что llama.cpp остаётся рекордсменом по производительности на CPU.

Пример сессии: от заметок до ответа

Предположим, у вас есть папка ~/notes с набросками статей, кода и рецептами. Устанавливаете RAGpad и запускаете индексацию:

# Установка (через Homebrew или git clone) brew install ragpad # или go install github.com/ragpad/ragpad@latest # Запуск сервера llama.cpp с моделью ./llama-server -m ~/models/qwen3-7b-q4_k_m.gguf --embedding --pooling cls -ngl 99 # Индексация заметок ragpad index ~/notes

Теперь можно задавать вопросы:

ragpad query "Как приготовить чиабатту по моему рецепту?"

RAGpad найдёт нужные файлы, соберёт контекст и ответит:

По вашим заметкам: "Итальянская выпечка" и "Хлеб на закваске". Для чиабатты нужно: 500 г муки, 350 г воды, 10 г соли, 5 г дрожжей. Расстойка 2 часа, затем формовка и ещё 1 час. Выпекать при 230°C с паром.

Согласитесь, удобнее, чем грепать по папке вручную.

Кому это вообще надо?

RAGpad — не для широких масс. Он для тех, кто:

Пишет код и хочет иметь под рукой локальную базу знаний по проекту.
Ведёт личный дневник и не хочет, чтобы его анализировал корпоративный ИИ.
Исследует тему и накопил сотни выдержек — семантический поиск заменяет теги.
Работает в изолированной среде (военные, врачи, юристы), где нельзя использовать облака.

SentinLLM решает проблему утечек через RAG, но RAGpad идёт ещё дальше — он вообще не подключается к сети. Если вам нужно защитить персональные данные в RAG-системах, обязательно посмотрите тот инструмент, а для повседневных заметок — этого достаточно.

Что дальше?

Локальные LLM становятся быстрее, модели — компактнее. Уже сейчас Qwen 3 c 7B параметров на M4 MacBook генерирует 30 токенов в секунду — комфортно для диалога. А с выходом OCC-RAG (0.6B и 1.7B) можно обходиться вовсе без GPU. В 2026 году запустить RAG на Raspberry Pi 5 — уже не фантастика.

Единственное, что тормозит массовое внедрение — отсутствие удобного GUI. Но если вы дочитали до этого места, терминал вас не пугает. А значит, RAGpad — ваш следующий шаг к цифровому суверенитету.

Подписаться на канал

RAGpad: Терминальный блокнот с локальным ИИ, который не сливает ваши заметки