Учебные материалы
Когда токены вздуваются: как бороться с раздуванием в неанглийских языках
Практическое руководство по оптимизации локальных LLM для русского и других языков. Сравнение моделей, токенизаторов и промптов для ускорения работы.
AI coding в 2026: 6 правил, которые спасут ваш код от ИИ-хаоса
Тимур Хахалев и Денис Киселев о том, как работать с AI-ассистентами в 2026 без потери контроля над кодом. Практические правила для код-ревью и автоматизации.
Как выжать +50% скорости из vLLM на 4x RTX 3090: патч драйвера, BIOS и проверка PCIe
Полное руководство по ускорению vLLM на 4 картах RTX 3090. Патч P2P драйвера, настройка Resizable BAR, проверка PCIe lanes. +50% скорости инференса.
Архитектура базовой модели Netflix: как перестать плодить ML-монстров и начать жить
Глубокий разбор архитектуры единой базовой модели Netflix. Как централизованное обучение, извлечение признаков и ML-платформа ускоряют разработку в 5 раз.
397 миллиардов параметров на вашем ПК: запускаем Qwen3.5-397B локально через Unsloth и GGUF
Полное руководство по запуску гигантской MoE-модели Qwen3.5-397B на домашнем ПК. Квантование 4-bit, Unsloth, требования к RAM и GPU, сравнение с GPT-5.2
LeetCode Assembly Dataset: когда компилятор говорит с ИИ на ассемблере
Полный гайд по LeetCode Assembly Dataset: как обучать LLM на 400+ решениях x86-64/ARM64/MIPS64/RISC-V с GCC/Clang оптимизациями для низкоуровневого программиров
OpenClaw на российских стероидах: подключаем GigaChat, YandexGPT и Yandex 360 за 30 минут
Пошаговый гайд по подключению GigaChat Pro, YandexGPT 3.0 и Yandex 360 к OpenClaw. Создаем мультиагентного ассистента с российскими AI-сервисами.
Глубокий разбор DGX Spark (GB10) для локального LLM: когда 128 ГБ памяти не спасают, а когда — лучший выбор
Экспертный анализ NVIDIA DGX Spark GB10 для локальных LLM. Сравнение с RTX 4090, тесты памяти, квантование моделей и когда 128 ГБ unified memory действительно н
AMD vs NVIDIA для обучения LLM: Зачем я продал RX 7900 XTX и купил RTX 3090
Почему ROCm для обучения LLM — это боль в 2026 году. Реальный опыт миграции с RX 7900 XTX на RTX 3090, сравнение производительности и сборка мульти-GPU системы.
5 техник оптимизации vLLM: бенчмарки Qwen3-32B и практическое руководство
Практическое руководство по оптимизации vLLM для Qwen3-32B. Prefix Caching, FP8 KV-Cache, CPU Offloading - реальные бенчмарки и пошаговые инструкции.
Как ускорить Mixtral-подобные MoE-модели в 3 раза: практическое сравнение качества 8 vs 4 экспертов
Практическое руководство по ускорению MoE-моделей в 3 раза. Сравнение качества 8 vs 4 экспертов, VRAM оптимизация, квантование Q3_K_XL. Тесты на Mixtral 8x7B, Q
Почему сборка ПК для локальных LLM может быть ошибкой: разбор неудачного билда и расчёт ROI против API
Разбор реального неудачного билда ПК для локальных LLM. Считаем ROI против облачных API. Почему железо часто проигрывает и когда оно всё же выгодно.