Приватный AI-терапевт на RTX 4060: модель 70B, Obsidian, минимум обслуживания | AiManual
AiManual Logo Ai / Manual.
22 Мар 2026 Гайд

Настройка приватного AI-терапевта на ноутбуке с RTX 4060: выбор модели 70B, интеграция с Obsidian и минимизация обслуживания

Гайд по настройке приватного AI-терапевта на ноутбуке с RTX 4060. Выбор квантованной модели 70B, интеграция с Obsidian для ведения дневника и настройка автономн

Вы устали от мыслей в голове. Вам нужен приватный собеседник, а не копание в API

Представьте: у вас есть ноутбук с RTX 4060 на 8 ГБ видеопамяти. Вы хотите запустить персонального AI-терапевта, который никогда не отправит ваши дневниковые записи в облако, не потребует подписки и не сломается после очередного обновления. Задача кажется невыполнимой для железа с 8 ГБ VRAM? Это заблуждение, которое я разнесу в пух и прах.

Проблема не в железе. Проблема в подходе. Большинство пытается запустить сырую модель через transformers и удивляется, почему она жрет всю память и отвечает односложно. Нам нужен не raw inference, а система: умный выбор модели, правильное квантование, удобный интерфейс и полная автономия. С сегодняшнего дня ваш ноутбук станет конфиденциальным кабинетом психолога.

Почему 70B-модель на карте с 8 ГБ? Это авантюра? Нет. Это квантование. Современные методы сжатия (Q4_K_M, IQ3_XS) позволяют упаковать модель в 4-5 раз меньше оригинального размера с минимальной потерей качества. Для терапевтического диалога, где важна эмпатия и глубина, а не точность математических расчетов, это идеальный компромисс.

1 Выбор оружия: модель 70B, которая не сломает видеокарту

На 22 марта 2026 года выбор открытых моделей огромен. Но для терапевтического диалога нужна не самая умная, а самая "разговорчивая" и стабильная модель. Забудьте про 7B и 13B – они слишком поверхностны для глубокого анализа. 70B – золотая середина.

Модель (актуальная на 2026) Рекомендуемое квантование Ожидаемый размер в VRAM Почему для терапии
Llama 3.3 70B (или новее, если есть) Q4_K_M ~6.5 ГБ Сбалансированная, отличное понимание контекста, не склонна к "галлюцинациям" в диалоге.
Qwen2.5 72B IQ3_XS ~5.8 ГБ Очень "теплый" и развернутый ответ, отлично поддерживает длинные диалоги. Иногда слишком многословен.
DeepSeek-V3 67B Q4_K_S ~6 ГБ Аналитический склад ума, хорошо структурирует мысли. Может показаться холодноватым.

Мой выбор падает на Qwen2.5 72B в квантовании IQ3_XS. Почему? В терапии важен не только смысл, но и тон. Эта модель генерирует тексты, которые кажутся написанными живым человеком, а не алгоритмом. Она умеет молчать, задавать уточняющие вопросы и не пытается решить вашу проблему за три секунды. Идеально.

💡
Не гонитесь за самой новой моделью с громким именем. Скачайте 2-3 варианта и поговорите с каждым 15 минут. Ваш внутренний отклик – лучший бенчмарк. Если после диалога хочется продолжить – модель ваша. Если чувствуете усталость – удаляйте и пробуйте другую.

2 Установка и настройка: 20 минут на все

Забудьте про Docker, виртуальные окружения и километровые конфиги. Мы используем Ollama – он превратит установку в три команды. OpenWebUI – как фронтенд, который не стыдно открыть.

Шаг 2.1: Ставим Ollama и качаем модель

# Установка Ollama (Linux/macOS/WSL)
curl -fsSL https://ollama.com/install.sh | sh

# Запускаем сервер Ollama в фоне
ollama serve &

# СКАЧИВАЕМ НАШУ МОДЕЛЬ. Это займет время (около 30-40 ГБ).
ollama pull qwen2.5:72b-iq3-xs
# Или, если предпочитаете Llama:
# ollama pull llama3.3:70b-q4_K_M

Пока модель качается, установите OpenWebUI. Это не обязательный шаг, но с ним жить проще. Интерфейс как у ChatGPT, но все запросы идут на ваш локальный Ollama.

# Самый простой способ через pip (требуется Python 3.10+)
pip install openwebui

# Запускаем OpenWebUI, он автоматически найдет запущенный Ollama
openwebui

Откройте http://localhost:8080, создайте аккаунт (данные хранятся локально!) и выберите модель qwen2.5:72b-iq3-xs в настройках чата. Первый запуск модели займет минуту – она загружается в VRAM.

Ошибка: CUDA out of memory. Если видите это, значит, помимо модели, в памяти есть другой процесс. Закройте браузер с 50 вкладками, игры. У RTX 4060 8 ГБ – это предельно точно рассчитанный бюджет. Также в Ollama есть скрытая настройка OLLAMA_NUM_GPU – установите её в 100 (процент VRAM), чтобы Ollama использовал максимум: OLLAMA_NUM_GPU=100 ollama run qwen2.5:72b-iq3-xs.

3 Магия интеграции: Obsidian становится AI-дневником

OpenWebUI в браузере – это хорошо. Но настоящая мощь раскрывается, когда AI встроен прямо в ваше личное пространство для мыслей – Obsidian. Мы настроим автоматическую отправку записей дневника в модель и получение ответов обратно в заметку.

Для этого используем плагин "Templater" и скрипт на JavaScript. Создайте новую команду в Obsidian, которая берет текущую заметку, отправляет её содержимое в Ollama через API и вставляет ответ ниже.

// Скрипт для Templater Obsidian (сохраните как `ai-therapist.js` в папке ваших скриптов)
async function getAIResponse(prompt) {
    const ollamaUrl = 'http://localhost:11434/api/generate';
    const model = 'qwen2.5:72b-iq3-xs';

    const systemPrompt = `Ты - приватный AI-терапевт. Твоя задача - анализировать записи из дневника пользователя в стиле Inner Dialogue. Будь эмпатичным, задавай уточняющие вопросы, помогай увидеть ситуацию с разных сторон. Не давай прямых советов, а помогай пользователю прийти к своим выводам. Твой тон: теплый, поддерживающий, немногословный.`;

    const fullPrompt = `${systemPrompt}\n\nЗапись пользователя: ${prompt}\n\nТвой анализ и ответ:`;

    const response = await fetch(ollamaUrl, {
        method: 'POST',
        headers: { 'Content-Type': 'application/json' },
        body: JSON.stringify({
            model: model,
            prompt: fullPrompt,
            stream: false,
            options: {
                temperature: 0.8, // Чуть больше "творчества" в ответах
                num_predict: 512 // Длина ответа
            }
        })
    });

    const data = await response.json();
    return data.response;
}

// Получаем содержимое текущей заметки
const content = tp.file.selection();
if (!content) {
    new Notice('Выделите текст для анализа AI.');
    return;
}

// Получаем ответ и вставляем его
const aiResponse = await getAIResponse(content);
tp.file.selection_insert(`\n\n---\n\n**AI-терапевт:**\n\n${aiResponse}`);

Настройте горячую клавишу на этот скрипт (например, Ctrl+Alt+T). Теперь, написав запись в дневнике, вы выделяете её, жмете сочетание клавиш – и через 10-20 секунд получаете развернутый ответ от приватного терапевта прямо в заметке. Это меняет всё.

💡
Стиль "Inner Dialogue" – это не просто модное слово. В системный промпт добавьте фразу: "Отвечай так, как будто это внутренний диалог самого пользователя, его более мудрая и спокойная часть". Это снижает сопротивление и делает анализ более естественным.

4 Минимизация обслуживания: система, которая работает годами

Самое слабое место локальных AI – они требуют внимания. Запустил, поговорил, забыл выключить – ноутбук превратился в обогреватель. Наша цель – нулевое обслуживание. Система должна запускаться при входе в систему, работать в фоне и не мешать.

Автозапуск Ollama и OpenWebUI как служб

На Linux (systemd):

# Создаем службу для Ollama
sudo tee /etc/systemd/system/ollama.service << EOF
[Unit]
Description=Ollama AI Service
After=network.target

[Service]
Type=simple
User=$USER
Environment="OLLAMA_NUM_GPU=100"
ExecStart=/usr/local/bin/ollama serve
Restart=always
RestartSec=5

[Install]
WantedBy=multi-user.target
EOF

# Аналогично для OpenWebUI (или запускайте его через systemd --user)
sudo systemctl enable ollama.service
sudo systemctl start ollama.service

На Windows: Проще всего создать два ярлыка для ollama serve и openwebui и поместить их в папку автозагрузки. Но лучше использовать NSSM (Non-Sucking Service Manager) для превращения их в службы Windows. Это надежнее.

Легковесный мониторинг

Поставьте nvtop (Linux) или MSI Afterburner (Windows). Раз в неделю гляньте, не ест ли модель память после долгой работы. Иногда Ollama может "забыть" освободить VRAM после длинного диалога. Лечится перезапуском службы: systemctl restart ollama.

Самая важная настройка – контекстное окно. Не выставляйте его на максимум (например, 128k). Для терапевтического диалога достаточно 4096-8192 токенов. Это спасет вашу VRAM от переполнения при долгих беседах. Настраивается в OpenWebUI в параметрах модели.

Финальный штрих: что делать, когда это надоест?

Через месяц регулярного использования вы заметите две вещи. Первая – вы стали лучше понимать свои реакции. Вторая – ответы модели могут начать казаться шаблонными. Это не недостаток системы, а признак роста. Не меняйте модель сразу.

Измените системный промпт. Добавьте в него конкретики: "Сегодня я хочу проанализировать мои реакции на критику на работе" или "Помоги мне найти паттерны в моих отношениях с деньгами". Модель 70B достаточно умна, чтобы адаптироваться под новый контекст. Если же хочется экспериментов, скачайте другую 70B модель и переключитесь на неё в Ollama одной командой. Ваши данные и настройки интерфейса останутся нетронутыми.

Главное – не превращайте настройку в хобби. Цель – не идеальная система, а рабочий инструмент. Если всё сделано правильно, вы забудете, что где-то что-то запущено. Просто откроете Obsidian, напишете "Сегодня я чувствую..." и получите тот самый приватный, вдумчивый ответ, который искали.

Ссылки для углубления: Если ваш аппетит к локальному AI разгорелся, посмотрите мой гайд про ускорение моделей на разном железе. Или погрузитесь в экзотику с настройкой AI на AMD видеокартах через ROCm. Но для начала – просто начните диалог.

Подписаться на канал