Забудьте про облака. Ваши PDF должны оставаться вашими

Вы загружаете договор в ChatGPT или Claude. Через месяц узнаете, что он стал частью обучающей выборки. Знакомо? Адвокатская тайна, медицинские записи, финансовые отчеты - все это утекает в черный ящик облачных AI. И платите вы за это дважды: деньгами за API и собственной безопасностью.

Есть другой путь. Я собрал на обычном игровом ноутбуке систему, которая индексирует 12 тысяч PDF-файлов (около 60 ГБ) и отвечает на вопросы за 2-3 секунды. Все работает локально. Ни один байт не уходит в интернет. Счет за электричество вырос на 300 рублей в месяц, а не на 3000 долларов за облачные сервисы.

Секрет не в каком-то волшебном железе, а в грамотном сочетании квантованных моделей и правильной индексации. Если у вас есть ноутбук с видеокартой RTX 5060 (или даже 4050) и 32 ГБ ОЗУ, вы повторите этот результат за один вечер.

Почему это работает сейчас, а не год назад? Модели Llama 3.2 и Mistral 8B в 4-битном квантовании показывают качество близкое к GPT-4, но требуют в 5 раз меньше памяти. На 07.03.2026 это не эксперимент, а рабочий инструмент.

1 Железо и софт: что реально нужно для 10k PDF

Вам не нужен сервер за 5000 долларов. Моя конфигурация:

Ноутбук: любой с RTX 5060 (8 ГБ VRAM) или RTX 5070. Важно: у NVIDIA на 2026 год архитектура Blackwell, но для локальных LLM хватает и предыдущего поколения.
ОЗУ: 32 ГБ минимум. 16 ГБ будет мало для индексации такого объема.
SSD: 1 ТБ NVMe. PDF и векторная база съедят 100-200 ГБ.
ОС: Ubuntu 24.04 LTS или Windows 11 с WSL2. Я выбрал Ubuntu - меньше головной боли с драйверами.

💡

RTX 5060 на 07.03.2026 - это не топовая карта, но для 8B моделей в 4-битном формате ее хватает с запасом. Она обрабатывает 25-30 токенов в секунду, что для RAG-запросов более чем достаточно. Если у вас слабее железо, посмотрите мой гайд про локальный RAG для 60 ГБ писем на слабом железе.

2 Ollama 0.5.0 и выбор модели: что актуально на 2026 год

Ollama - это не просто лаунчер для моделей. Это целая экосистема с оптимизацией под разные железы. На 07.03.2026 актуальна версия 0.5.0 с поддержкой EXL2 квантования (более эффективного, чем GGUF).

curl -fsSL https://ollama.ai/install.sh | sh
ollama serve &  # Запускаем фоновый сервер

Теперь выбор модели. Забудьте про 70B параметров - они не влезут в VRAM ноутбука. Нам нужна 8B модель в 4-битном формате. Мои тесты на 07.03.2026 показали:

Модель	Формат	Размер	Качество для RAG
Llama 3.2 8B Instruct	Q4_K_M	4.8 ГБ	Лучшее для английского
Command R+ 8B 2026	Q4_0	5.1 ГБ	Отличное для русского
Mistral-Nemo 8B	IQ4_XS	3.9 ГБ	Самый быстрый

Я выбрал Command R+ 8B (специально обучена для RAG на 2026 год) и загрузил ее:

ollama pull command-r-plus:8b-q4_0

Не используйте модели без указания формата квантования! 'ollama pull llama3.2:8b' скачает версию в 16 битах, которая займет 16 ГБ и не влезет в VRAM. Всегда указывайте 'q4' или 'iq4' в названии.

3 Индексация PDF: где большинство спотыкается

10 тысяч PDF - это не 10 тысяч текстовых файлов. Каждый PDF содержит:

Сканированные страницы (картинки)
Таблицы и формулы
Слои текста с разным кодированием
Метаданные и водяные знаки

Попытка использовать pypdf или pdfminer на таком объеме закончится через 3 дня и 50% потерянных данных. Нужен промышленный инструмент.

# Установка необходимых библиотек (актуально на 07.03.2026)
pip install "unstructured[pdf]" pdf2image pytesseract chromadb

Я использовал библиотеку Unstructured 2026.03.0 - она умеет извлекать текст даже из сканов с помощью Tesseract OCR, но делает это асинхронно и с кэшированием.

from unstructured.partition.pdf import partition_pdf
import asyncio
from pathlib import Path

async def process_pdf(pdf_path):
    # Стратегия "hi_res" для сканов, "fast" для цифровых PDF
    elements = partition_pdf(
        filename=str(pdf_path),
        strategy="auto",  # Автовыбор с 2025 года
        languages=["rus", "eng"],  # Важно для OCR
        max_partition_length=1000,  # Размер чанка
        include_page_breaks=False
    )
    return [el.text for el in elements if hasattr(el, 'text')]

Самая большая ошибка - пытаться обрабатывать все 10к файлов одним скриптом. Система упрется в память и упадет через 2 часа. Делаем батчинговую обработку:

import concurrent.futures
from tqdm import tqdm

pdf_dir = Path("/data/pdfs")
output_dir = Path("/data/chunks")
output_dir.mkdir(exist_ok=True)

# Обрабатываем по 100 файлов за раз
batch_size = 100
pdf_files = list(pdf_dir.glob("*.pdf"))

for i in tqdm(range(0, len(pdf_files), batch_size)):
    batch = pdf_files[i:i + batch_size]
    with concurrent.futures.ThreadPoolExecutor(max_workers=4) as executor:
        futures = [executor.submit(process_pdf_sync, pdf) for pdf in batch]
        results = [f.result() for f in concurrent.futures.as_completed(futures)]
    
    # Сохраняем чанки
    for pdf_path, chunks in zip(batch, results):
        chunk_file = output_dir / f"{pdf_path.stem}.json"
        with open(chunk_file, 'w', encoding='utf-8') as f:
            json.dump({"chunks": chunks, "source": pdf_path.name}, f)

💡

Для действительно больших объемов в миллионы PDF нужна другая архитектура. Я писал об этом в статье про индексацию 4 миллионов PDF. Там используются распределенные очереди и checkpoint'ы.

4 Векторная база: не ChromaDB, а Qdrant

Все используют ChromaDB потому что она простая. А потом плачут когда индекс на 50 ГБ перестает открываться. Для 10k PDF (около 2 миллионов чанков) нужна персистентная и быстрая база.

Qdrant 2.8.0 (актуальная на 07.03.2026) работает в полностью локальном режиме, поддерживает скалярное квантование векторов и потребляет в 3 раза меньше памяти.

docker run -p 6333:6333 -v ./qdrant_storage:/qdrant/storage qdrant/qdrant:latest

Но мы не будем использовать Docker для векторизации. Лучше встраиваемую версию:

from qdrant_client import QdrantClient
from sentence_transformers import SentenceTransformer
import numpy as np

# Модель для эмбеддингов - новая на 2026 год, размер вектора 384 (вместо 1536 у OpenAI)
model = SentenceTransformer('intfloat/multilingual-e5-large-2026', device='cuda')

client = QdrantClient(":memory:")  # или path="./qdrant_data" для персистентности

# Создаем коллекцию
client.create_collection(
    collection_name="pdf_docs",
    vectors_config=VectorParams(size=384, distance=Distance.COSINE),
    optimizers_config=OptimizersConfigDiff(memmap_threshold=20000)  # Храним на диске при большом объеме
)

Векторизация 2 миллионов чанков займет время. Но делаем это один раз. Ключевой трюк - использование GPU для эмбеддингов:

# Векторизуем батчами по 1000
batch_size = 1000
for i in range(0, len(all_chunks), batch_size):
    batch = all_chunks[i:i + batch_size]
    embeddings = model.encode(batch, show_progress_bar=True, batch_size=64, convert_to_numpy=True)
    
    # Qdrant принимает до 100к точек за раз
    client.upsert(
        collection_name="pdf_docs",
        points=[
            PointStruct(
                id=j + i,
                vector=embeddings[j].tolist(),
                payload={"text": batch[j], "source": sources[j]}
            )
            for j in range(len(batch))
        ]
    )

Не используйте OpenAI-совместимые эмбеддинги с размером 1536! Они съедят всю память. Multilingual E5 Large на 07.03.2026 дает лучшее качество для русского и английского при размере вектора 384.

5 Сборка RAG-конвейера: где магия превращается в код

Теперь соединяем все части. Нам нужно:

Принять вопрос пользователя
Найти релевантные чанки в Qdrant
Сформировать промпт с контекстом
Отправить в Ollama
Вернуть ответ

import requests
import json

class LocalRAG:
    def __init__(self):
        self.embedder = SentenceTransformer('intfloat/multilingual-e5-large-2026', device='cuda')
        self.qdrant = QdrantClient("localhost", port=6333)
        self.ollama_url = "http://localhost:11434/api/generate"
    
    def search(self, query: str, top_k: int = 5):
        # Векторизуем вопрос
        query_vec = self.embedder.encode([query])[0]
        
        # Ищем в Qdrant
        hits = self.qdrant.search(
            collection_name="pdf_docs",
            query_vector=query_vec.tolist(),
            limit=top_k,
            score_threshold=0.3  # Отсекаем мусор
        )
        
        context = "\n---\n".join([hit.payload["text"] for hit in hits])
        return context, hits
    
    def ask(self, question: str):
        context, hits = self.search(question)
        
        # Промпт для Command R+ 2026 (поддерживает русский)
        prompt = f"""Ты - ассистент, который отвечает на вопросы на основе предоставленных документов.

Контекст из документов:
{context}

Вопрос: {question}

Ответь только на основе контекста. Если в контексте нет информации, скажи "Не могу найти ответ в документах".

Ответ:"""
        
        # Отправляем в Ollama
        response = requests.post(
            self.ollama_url,
            json={
                "model": "command-r-plus:8b-q4_0",
                "prompt": prompt,
                "stream": False,
                "options": {
                    "temperature": 0.1,  # Низкая для точности
                    "num_predict": 512,  # Максимальная длина ответа
                    "top_k": 20
                }
            }
        )
        
        return response.json()["response"]

Ошибки, которые сломают вашу систему

Я перепробовал все грабли. Вот топ-5:

Ошибка	Что происходит	Как исправить
Чанки по 5000 символов	Контекст переполняется, модель теряет середину	400-800 символов с перекрытием 50
Один поток индексации	10k PDF обрабатываются 5 дней	4-8 воркеров с лимитом памяти
Хранение векторов в ОЗУ	Система падает после 500к чанков	Использовать memmap в Qdrant
Температура 0.7	Модель галлюцинирует даже с контекстом	0.1-0.3 для фактов, 0.7 для творчества
Нет порога релевантности	В контекст попадает мусор	score_threshold=0.3 в Qdrant

А что со скоростью?

На RTX 5060 система выдает:

Индексация: 100-150 PDF в час (с OCR)
Поиск по индексу: 50-100 мс
Генерация ответа: 2-4 секунды
Потребление памяти: 6-7 ГБ VRAM (модель + эмбеддер), 12-16 ГБ ОЗУ (Qdrant + ОС)

Это не молниеносно, но для 10 тысяч документов и полной приватности - более чем достаточно. Если нужна скорость 40 токенов в секунду, смотрите мой гайд по выбору железа для локального RAG.

Частые вопросы (которые мне задают в телеграме)

Это работает на MacBook M3?

Да, но через mlx. Производительность будет в 1.5-2 раза ниже, чем на RTX 5060. Для серьезных объемов PDF лучше PC. Я подробно сравнивал в статье про выбор железа для конфиденциальных документов.

Можно ли заменить Ollama на Llama.cpp?

Можно, но Ollama на 07.03.2026 дает более стабильную работу с большими контекстами и проще в настройке. Для продвинутой оптимизации действительно стоит смотреть на llama.cpp с CUDA.

Как обновлять индекс при добавлении новых PDF?

Не переиндексировать все! Создайте отдельную коллекцию в Qdrant для новых документов и ищите по обеим. Раз в месяц делайте реиндекс. Иначе забьете SSD запросами.

Система отвечает "Не знаю" на очевидные вопросы

Проблема в чанках. Если ответ размазан по 3 страницам, модель не соберет его. Используйте семантическое разделение (по абзацам или разделам), а не просто по количеству символов. И проверьте, что OCR распознал текст правильно.

💡

Самый неочевидный совет: не используйте эту систему как замену Google. Это инструмент для работы с вашими документами. Если вам нужен поиск по открытым данным, смотрите в сторону локальных альтернатив NotebookLM - я писал о них отдельно.

Что дальше?

Эта система - база. Ее можно расширять:

Добавить агентов для анализа таблиц и графиков из PDF
Настроить гибридный поиск (векторный + ключевые слова)
Подключить семантический кэш для частых вопросов
Сделать веб-интерфейс на Gradio или Streamlit

Но главное - вы теперь контролируете свои данные. Никаких внезапных изменений в политике конфиденциальности OpenAI. Никаких счетов за 100к токенов. Просто ваш ноутбук, ваши документы и ваши ответы.

Начните с 100 PDF. Проверьте, что все работает. Потом масштабируйте до 1000. К тому моменту, как дойдете до 10 тысяч, вы будете знать каждую косточку системы лучше, чем свои пять пальцев.

И последнее: если вы работаете с действительно чувствительными данными, одной локальности мало. Нужно шифрование диска, защита от эксфильтрации и регулярный аудит. Об этом я рассказывал в гайде про безопасность локальных LLM.

Подписаться на канал

Как настроить локальную RAG-систему на ноутбуке: индексация 10 тысяч PDF-файлов с Ollama