Учебные материалы
5 техник оптимизации vLLM: бенчмарки Qwen3-32B и практическое руководство
Практическое руководство по оптимизации vLLM для Qwen3-32B. Prefix Caching, FP8 KV-Cache, CPU Offloading - реальные бенчмарки и пошаговые инструкции.
Как ускорить Mixtral-подобные MoE-модели в 3 раза: практическое сравнение качества 8 vs 4 экспертов
Практическое руководство по ускорению MoE-моделей в 3 раза. Сравнение качества 8 vs 4 экспертов, VRAM оптимизация, квантование Q3_K_XL. Тесты на Mixtral 8x7B, Q
Почему сборка ПК для локальных LLM может быть ошибкой: разбор неудачного билда и расчёт ROI против API
Разбор реального неудачного билда ПК для локальных LLM. Считаем ROI против облачных API. Почему железо часто проигрывает и когда оно всё же выгодно.
Тренировка нейросетей на 40% дешевле: как Karpathy ломает экономику AI с помощью Flash Attention 3, Muon и Sliding Window
Разбираем техники от Karpathy для снижения стоимости тренировки моделей на 40% в год: Flash Attention 3 (9% ускорение), Muon optimizer, Sliding window attention
Полное руководство по сэндбоксингу AI-агентов: методы изоляции и безопасности
Пошаговое руководство по изоляции AI-агентов. Docker, gVisor, Firecracker, AppArmor, SELinux. Защита от prompt injection и jailbreak. Актуально на февраль 2026.
Генетическая эволюция машинного кода: как запустить 80B модель на RTX 4090 и не сжечь карту
Принципы работы системы AbeBot для генетической оптимизации машинного кода. Как запустить 80B модели на RTX 4090 через прямое исполнение и сокращение абстракций
Микро-LLM за 5 часов: Библия + C++ = странные галлюцинации
Пошаговый гайд по созданию микро-LLM с нуля за 5 часов. Код на Python, BPE токенизатор, эксперимент со смешанными датасетами (Библия + C++).
Copilot устал. Cursor дорогой. Как поставить локального китайского гения в VS Code
Полный гайд по замене Copilot/Cursor на локальные модели DeepSeek V3 или Qwen Coder. Настройка в VS Code, экономия денег, полная приватность.
Визуализация внимания GPT-2: как заставить модель «видеть» Bad Apple через оптимизацию эмбеддингов
Эксперимент по оптимизации эмбеддингов в GPT-2 для генерации карт внимания, соответствующих кадрам из Bad Apple. Подробное руководство с кодом.
Mac vs ПК с GPU для локальных LLM: детальный разбор стоимости, скорости и удобства в 2026
Подробное сравнение Apple Silicon M4 и ПК с NVIDIA/AMD для локальных LLM. Бенчмарки, стоимость владения, настройка Ollama и llama.cpp. Что выбрать в 2026?
Локальные LLM в 2025: с чего начать, если у вас есть компьютер и много вопросов
Полный гайд по запуску LLM на своем ПК в 2025: выбор видеокарты, инференс-стека, моделей. Разбор ошибок новичков и реальные цифры производительности.
Как собрать локальную рабочую станцию для обучения и дообучения LLM с нуля: железо, ПО и гранты
Полное руководство по сборке локальной станции для обучения LLM с нуля. Выбор железа, настройка ПО, поиск грантов и альтернативы облаку.