Вы устали от мыслей в голове. Вам нужен приватный собеседник, а не копание в API
Представьте: у вас есть ноутбук с RTX 4060 на 8 ГБ видеопамяти. Вы хотите запустить персонального AI-терапевта, который никогда не отправит ваши дневниковые записи в облако, не потребует подписки и не сломается после очередного обновления. Задача кажется невыполнимой для железа с 8 ГБ VRAM? Это заблуждение, которое я разнесу в пух и прах.
Проблема не в железе. Проблема в подходе. Большинство пытается запустить сырую модель через transformers и удивляется, почему она жрет всю память и отвечает односложно. Нам нужен не raw inference, а система: умный выбор модели, правильное квантование, удобный интерфейс и полная автономия. С сегодняшнего дня ваш ноутбук станет конфиденциальным кабинетом психолога.
Почему 70B-модель на карте с 8 ГБ? Это авантюра? Нет. Это квантование. Современные методы сжатия (Q4_K_M, IQ3_XS) позволяют упаковать модель в 4-5 раз меньше оригинального размера с минимальной потерей качества. Для терапевтического диалога, где важна эмпатия и глубина, а не точность математических расчетов, это идеальный компромисс.
1 Выбор оружия: модель 70B, которая не сломает видеокарту
На 22 марта 2026 года выбор открытых моделей огромен. Но для терапевтического диалога нужна не самая умная, а самая "разговорчивая" и стабильная модель. Забудьте про 7B и 13B – они слишком поверхностны для глубокого анализа. 70B – золотая середина.
| Модель (актуальная на 2026) | Рекомендуемое квантование | Ожидаемый размер в VRAM | Почему для терапии |
|---|---|---|---|
| Llama 3.3 70B (или новее, если есть) | Q4_K_M | ~6.5 ГБ | Сбалансированная, отличное понимание контекста, не склонна к "галлюцинациям" в диалоге. |
| Qwen2.5 72B | IQ3_XS | ~5.8 ГБ | Очень "теплый" и развернутый ответ, отлично поддерживает длинные диалоги. Иногда слишком многословен. |
| DeepSeek-V3 67B | Q4_K_S | ~6 ГБ | Аналитический склад ума, хорошо структурирует мысли. Может показаться холодноватым. |
Мой выбор падает на Qwen2.5 72B в квантовании IQ3_XS. Почему? В терапии важен не только смысл, но и тон. Эта модель генерирует тексты, которые кажутся написанными живым человеком, а не алгоритмом. Она умеет молчать, задавать уточняющие вопросы и не пытается решить вашу проблему за три секунды. Идеально.
2 Установка и настройка: 20 минут на все
Забудьте про Docker, виртуальные окружения и километровые конфиги. Мы используем Ollama – он превратит установку в три команды. OpenWebUI – как фронтенд, который не стыдно открыть.
Шаг 2.1: Ставим Ollama и качаем модель
# Установка Ollama (Linux/macOS/WSL)
curl -fsSL https://ollama.com/install.sh | sh
# Запускаем сервер Ollama в фоне
ollama serve &
# СКАЧИВАЕМ НАШУ МОДЕЛЬ. Это займет время (около 30-40 ГБ).
ollama pull qwen2.5:72b-iq3-xs
# Или, если предпочитаете Llama:
# ollama pull llama3.3:70b-q4_K_M
Пока модель качается, установите OpenWebUI. Это не обязательный шаг, но с ним жить проще. Интерфейс как у ChatGPT, но все запросы идут на ваш локальный Ollama.
# Самый простой способ через pip (требуется Python 3.10+)
pip install openwebui
# Запускаем OpenWebUI, он автоматически найдет запущенный Ollama
openwebui
Откройте http://localhost:8080, создайте аккаунт (данные хранятся локально!) и выберите модель qwen2.5:72b-iq3-xs в настройках чата. Первый запуск модели займет минуту – она загружается в VRAM.
Ошибка: CUDA out of memory. Если видите это, значит, помимо модели, в памяти есть другой процесс. Закройте браузер с 50 вкладками, игры. У RTX 4060 8 ГБ – это предельно точно рассчитанный бюджет. Также в Ollama есть скрытая настройка OLLAMA_NUM_GPU – установите её в 100 (процент VRAM), чтобы Ollama использовал максимум: OLLAMA_NUM_GPU=100 ollama run qwen2.5:72b-iq3-xs.
3 Магия интеграции: Obsidian становится AI-дневником
OpenWebUI в браузере – это хорошо. Но настоящая мощь раскрывается, когда AI встроен прямо в ваше личное пространство для мыслей – Obsidian. Мы настроим автоматическую отправку записей дневника в модель и получение ответов обратно в заметку.
Для этого используем плагин "Templater" и скрипт на JavaScript. Создайте новую команду в Obsidian, которая берет текущую заметку, отправляет её содержимое в Ollama через API и вставляет ответ ниже.
// Скрипт для Templater Obsidian (сохраните как `ai-therapist.js` в папке ваших скриптов)
async function getAIResponse(prompt) {
const ollamaUrl = 'http://localhost:11434/api/generate';
const model = 'qwen2.5:72b-iq3-xs';
const systemPrompt = `Ты - приватный AI-терапевт. Твоя задача - анализировать записи из дневника пользователя в стиле Inner Dialogue. Будь эмпатичным, задавай уточняющие вопросы, помогай увидеть ситуацию с разных сторон. Не давай прямых советов, а помогай пользователю прийти к своим выводам. Твой тон: теплый, поддерживающий, немногословный.`;
const fullPrompt = `${systemPrompt}\n\nЗапись пользователя: ${prompt}\n\nТвой анализ и ответ:`;
const response = await fetch(ollamaUrl, {
method: 'POST',
headers: { 'Content-Type': 'application/json' },
body: JSON.stringify({
model: model,
prompt: fullPrompt,
stream: false,
options: {
temperature: 0.8, // Чуть больше "творчества" в ответах
num_predict: 512 // Длина ответа
}
})
});
const data = await response.json();
return data.response;
}
// Получаем содержимое текущей заметки
const content = tp.file.selection();
if (!content) {
new Notice('Выделите текст для анализа AI.');
return;
}
// Получаем ответ и вставляем его
const aiResponse = await getAIResponse(content);
tp.file.selection_insert(`\n\n---\n\n**AI-терапевт:**\n\n${aiResponse}`);
Настройте горячую клавишу на этот скрипт (например, Ctrl+Alt+T). Теперь, написав запись в дневнике, вы выделяете её, жмете сочетание клавиш – и через 10-20 секунд получаете развернутый ответ от приватного терапевта прямо в заметке. Это меняет всё.
4 Минимизация обслуживания: система, которая работает годами
Самое слабое место локальных AI – они требуют внимания. Запустил, поговорил, забыл выключить – ноутбук превратился в обогреватель. Наша цель – нулевое обслуживание. Система должна запускаться при входе в систему, работать в фоне и не мешать.
Автозапуск Ollama и OpenWebUI как служб
На Linux (systemd):
# Создаем службу для Ollama
sudo tee /etc/systemd/system/ollama.service << EOF
[Unit]
Description=Ollama AI Service
After=network.target
[Service]
Type=simple
User=$USER
Environment="OLLAMA_NUM_GPU=100"
ExecStart=/usr/local/bin/ollama serve
Restart=always
RestartSec=5
[Install]
WantedBy=multi-user.target
EOF
# Аналогично для OpenWebUI (или запускайте его через systemd --user)
sudo systemctl enable ollama.service
sudo systemctl start ollama.service
На Windows: Проще всего создать два ярлыка для ollama serve и openwebui и поместить их в папку автозагрузки. Но лучше использовать NSSM (Non-Sucking Service Manager) для превращения их в службы Windows. Это надежнее.
Легковесный мониторинг
Поставьте nvtop (Linux) или MSI Afterburner (Windows). Раз в неделю гляньте, не ест ли модель память после долгой работы. Иногда Ollama может "забыть" освободить VRAM после длинного диалога. Лечится перезапуском службы: systemctl restart ollama.
Самая важная настройка – контекстное окно. Не выставляйте его на максимум (например, 128k). Для терапевтического диалога достаточно 4096-8192 токенов. Это спасет вашу VRAM от переполнения при долгих беседах. Настраивается в OpenWebUI в параметрах модели.
Финальный штрих: что делать, когда это надоест?
Через месяц регулярного использования вы заметите две вещи. Первая – вы стали лучше понимать свои реакции. Вторая – ответы модели могут начать казаться шаблонными. Это не недостаток системы, а признак роста. Не меняйте модель сразу.
Измените системный промпт. Добавьте в него конкретики: "Сегодня я хочу проанализировать мои реакции на критику на работе" или "Помоги мне найти паттерны в моих отношениях с деньгами". Модель 70B достаточно умна, чтобы адаптироваться под новый контекст. Если же хочется экспериментов, скачайте другую 70B модель и переключитесь на неё в Ollama одной командой. Ваши данные и настройки интерфейса останутся нетронутыми.
Главное – не превращайте настройку в хобби. Цель – не идеальная система, а рабочий инструмент. Если всё сделано правильно, вы забудете, что где-то что-то запущено. Просто откроете Obsidian, напишете "Сегодня я чувствую..." и получите тот самый приватный, вдумчивый ответ, который искали.
Ссылки для углубления: Если ваш аппетит к локальному AI разгорелся, посмотрите мой гайд про ускорение моделей на разном железе. Или погрузитесь в экзотику с настройкой AI на AMD видеокартах через ROCm. Но для начала – просто начните диалог.