Учебные материалы
Function Calling в Open WebUI: какие модели на самом деле работают с llama.cpp
Полное руководство по настройке Native Function Calling в Open WebUI v0.7. Список моделей, которые работают и не работают с llama.cpp, пошаговая настройка Chat
Как создать локальный RAG-пайплайн для аудио на RTX 2060: Whisper + Ollama + ChromaDB
Полный гайд по созданию автономного RAG-пайплайна для обработки аудио на слабой видеокарте. Faster-whisper, Ollama, ChromaDB и Streamlit локально.
Создаем AI-компаньона с памятью, который учится сам и видит сны
Пошаговое руководство по созданию AI-компаньона для рабочего стола с долговременной памятью, автономным обучением и интеграцией Grok API.
Цитируй или умри: как выбрать локальную LLM для советов по здоровью и карьере
Практическое сравнение локальных LLM с цитированием для медицинских и карьерных советов. Qwen3, GPT OSS, DeepSeek - что выбрать для интеграции с Weaviate и вект
Multi-Joint RAG: как Hermit-AI ищет в 100+ ГБ данных без интернета и не врёт
Глубокий разбор Hermit-AI: трёхэтапный конвейер Multi-Joint RAG для точного оффлайн-поиска в 100+ ГБ данных без галлюцинаций. JIT-индексирование, верификация фа
Локальный AI-агент на стероидах: как заставить Kilo Code и Devstral-Small-2 работать на трёх 3090
Полный гайд по настройке Kilo Code и Devstral-Small-2 для агентного кодирования на локальном железе: выбор квантования Q8, контекст 120k+, оптимизация VRAM 72GB
Гибридный кластер для LLM: разгрузка prefill на eGPU и декодирование на Strix Halo
Практическое руководство по созданию гибридного кластера для LLM. Разгружаем prefill на eGPU, декодируем на AMD Strix Halo. Архитектура, настройка, ошибки.
Локальный AI против облака: почему эксперты по инфраструктуре делают ставку на свои серверы
Почти 70% инфраструктурных инженеров выбирают локальные AI-серверы. Разбираем реальные цифры, скрытые расходы облачных API и план перехода на свои сервера.
Когда Granite 4.0 H 1B сжирает всю память A100: ломаем PYTORCH_CUDA_ALLOC_CONF
Пошаговое решение OOM ошибок при финтюнинге Granite 4.0 H 1B на Tesla A100 40GB. Настройка PYTORCH_CUDA_ALLOC_CONF, оптимизация Unsloth и работа с памятью CUDA.
Почему AI-поиск с SearXNG перестал работать: диагностика блокировок и альтернативы для OpenWebUI
Пошаговый гайд по диагностике блокировок SearXNG в OpenWebUI. Альтернативы AI-поиску: локальные решения, прокси, другие метапоисковые системы.
Практический гайд: Как настроить Gemma-3-4b-it для вызова процедур с помощью QLoRA
Пошаговое руководство по адаптации Gemma-3-4b-it для вызова API и процедур с помощью QLoRA. Требования к железу, подготовка датасета, обучение на 24 ГБ VRAM.
Где арендовать GPU дешевле DeepInfra: сравнение цен и условий на A100, H100, B200
Сравнение провайдеров аренды GPU: где найти A100, H100, B200 по лучшим ценам. Альтернативы DeepInfра для AI-инференса.