Учебные материалы
Управление слотами в llama.cpp: как принудительно остановить inference в Open WebUI и не убить сервер
Пошаговое руководство по принудительной остановке inference в llama.cpp через управление слотами. Как остановить генерацию в Open WebUI, не убивая весь сервер.
Qwen 3.5 сошел с ума: как обуздать бесконечные вызовы инструментов и заставить слушаться системный промпт
Подробный гайд по решению главных проблем Qwen 3.5: игнорирование системных промптов и бесконечные циклы вызовов инструментов. Рабочие стратегии на 2026 год.
AI-агенты работают как попало? Автоматические бенчмарки на Langfuse поставят их на место
Пошаговая система автоматической оценки качества AI-агентов с метриками, трейсингом и алерт-правилами. Практический гайд на Langfuse для продакшн-команд.
Обзор лучших LLM-моделей для программирования на Macbook M5 Pro: тесты производительности и квантования
Практический гайд по выбору и запуску локальных LLM для программирования на Macbook Pro M5. Сравнение DeepSeek-Coder, Qwen2.5-Coder, GPT-OSS-20B, настройка LM S
Context Engineering для coding-агентов: как управлять памятью Claude Code на длинных задачах (на примере CLAUDE.md и Plan Mode)
Как избежать деградации coding-агентов на длинных задачах. Методики context engineering, CLAUDE.md, Plan Mode. Пошаговый гайд на 2026 год с актуальными данными.
Настройка Qwen 3.5 в llama.cpp: почему bf16 KV cache критически важен для точности
Пошаговое руководство по настройке Qwen 3.5 в llama.cpp с bf16 KV cache. Замеры perplexity, ошибки и оптимизация памяти. Актуально на 2026 год.
Полное руководство по AI Red Teaming: как взломали инфраструктуру Grok от xAI
Глубокий разбор атаки на инфраструктуру Grok. Методология AI Red Teaming, извлечение системного промпта, jailbreaks, CSRF, WAF bypass и пошаговый план защиты LL
Как обучить 3B LLM на специфичном датасете (патристическая теология) на одной RTX 3090 за 22 часа: полный разбор
Пошаговый гайд по fine-tuning 3-миллиардной модели на нишевом датасете патристики. Конкретные параметры, код и оптимизации для RTX 3090. Работает за 22 часа.
Как настроить Qwen3.5 27B для рекордной скорости: vLLM, MTP и компиляция под железо
Подробный гайд по ускорению Qwen3.5 27B на двух RTX 3090: tensor parallelism в vLLM, Multi-Token Prediction и компиляция. Достигаем 100+ t/s генерации.
Значительный прирост скорости Vulkan в llama.cpp после обновления прошивки AMD: тесты на Strix Halo и Qwen 3.5 35B
Обновление прошивки AMD и ROCm 7.12 дало +40% скорости Vulkan в llama.cpp для Qwen 3.5 35B на Strix Halo. Детальный разбор и инструкция.
Мышь, которая видит: автоматизация GUI на локальных мультимодальных моделях
Пошаговый гайд по созданию пайплайна для автоматизации графического интерфейса с помощью PyAutoGUI и локальных мультимодальных моделей. Сравнение Ollama и llama
Как запустить AI-агента на старом Android-телефоне: разбор 18 ошибок и финальная конфигурация
Практический гайд по запуску AI-агента на Android-телефоне 2016 года. Разбор 18 фатальных ошибок, настройка Termux, Gemini Flash 2.0 API и готовый рабочий код д