Учебные материалы
GGUF-формат: что внутри помимо весов и чего ещё не хватает? Полный разбор структуры
Глубокий технический разбор GGUF: структура файла, метаданные, токенизатор, квантизация. Что не хватает формату для идеального деплоя LLM.
Что такое harness в LLM и почему обвязка важнее модели: опыт полутора лет работы
Senior DevOps объясняет, что такое harness в LLM, почему обвязка (инструменты, промпты, агенты) критичнее выбора модели. Личный опыт и советы.
Типичные ошибки LLM при генерации Rust-кода: полугодовой эксперимент с Claude, GPT и Cursor
Разбор слепых зон Claude 4.5, GPT-5.2 и Cursor в Rust: от borrow checker до unsafe. Реальные примеры, статистика, советы.
Динамический вычислительный бюджет для LLM: как Qwen-35B-A3B дышит в спину GPT-5.4 на HLE
Разбор эвристики динамического выделения ресурсов в Qwen-35B-A3B: результаты, сравнение с GPT-5.4 на бенчмарке HLE, практические нюансы и грабли оптимизации инф
MCP протокол: как работает USB-порт для ИИ и как его использовать в своих проектах
Узнайте, как Model Context Protocol превращает LLM в агентов с внешними инструментами. Архитектура, пошаговая настройка, безопасность и реальные кейсы.
Проблема повторной обработки больших промптов в llama.cpp: причины и решения для llama-swap
Глубокий разбор причин репроцессинга промптов в llama.cpp и пошаговое руководство по настройке кэширования KV-кэша через llama-swap для ускорения TTFT на больши
Создание LLM с нуля: опыт pretrain и RLHF 7B модели с архитектурой DeepSeek и оптимизацией VRAM
Пошаговый гайд по созданию 7B MoE модели DeepSeek с нуля: pretrain, RLHF (PPO/GRPO), оптимизация VRAM, muon-оптимизатор. Реальный опыт двух GPU.
Почему плохой ответ модели — это не проблема модели: разбор типичных ошибок в inference-системах
Разбираем скрытые причины плохих ответов LLM: проблемы retrieval, контекста и маршрутизации. Диагностика, примеры и пошаговый план для инженеров RAG и fine-tuni
Qwen на M4 Max: как я выключил интернет и заставил Mac стенографировать встречи быстрее облака
Пошаговый гайд по созданию полностью локального AI-секретаря для саммари встреч на Mac с Qwen 3.5/3.6 и оптимизацией под M4 Max. Без утечек данных, без задержек
Как отключить сжатие памяти в Windows 11 для ускорения LLM: решение проблемы с AMD GPU
Сжатие памяти в Windows 11 (Memory Compression) может резать скорость LLM на AMD GPU до 50%. Команда Disable-MMAgent -mc за секунду отключает этот тормоз. Полны
ARMageddon: Как скрестить четыре Raspberry Pi в кластер для нейросетей и не сойти с ума
Пошаговое руководство по созданию кластера из Raspberry Pi 5 для распределенного инференса и федеративного обучения LLM. Реальные тесты, подводные камни, актуал
Как использовать Cursor для быстрого прототипирования корпоративных модулей: режимы Agent, Plan, Debug, Ask
Пошаговое руководство по режимам Cursor для быстрого прототипирования модулей в enterprise-проектах. Настройка .cursor/rules, комбинирование режимов, ошибки и л