Учебные материалы
Оптимизация Kimi 2.5 на vLLM: как выжать 1500 TPS из кластера на 8xRTX 6000 Blackwell
Пошаговый гайд по настройке tensor-parallel для Kimi 2.5 на vLLM. Увеличиваем TPS до 1500 на кластере из 8 RTX 6000 Blackwell.
GPT-OSS 120B: старый добрый монстр, который до сих пор рвет всех в локальном запуске
Архитектура A3B, нативное 4-битное обучение и 120 млрд параметров. Почему GPT-OSS 120B до сих пор быстрее и качественнее новых моделей на домашнем железе.
Kimi K2.5: бенчмарк производительности на железе энтузиастов — Epyc, RTX PRO 6000, SGLang
Подробный бенчмарк Kimi K2.5 на Epyc 9374F и RTX PRO 6000: 497 t/s prefill, сравнение SGLang и vLLM, настройка llmperf-rs. Актуально на январь 2026.
GGUF-файлы Kimi-K2.5 весят больше INT4: парадокс или техническая необходимость?
Глубокий анализ форматов квантования Kimi-K2.5. Почему GGUF весит больше INT4, как получить полную точность при размере <600 ГБ. Решение проблемы.
Когда SQL и векторный поиск дерутся за ваши данные: архитектура локального RAG-пайплайна
Пошаговый гайд по созданию локального RAG-пайплайна, объединяющего текстовый SQL и векторный поиск. Архитектура, инструменты, код на 2026 год.
Что такое n-gram mod в llama.cpp и как он ускоряет вывод моделей (анализ PR от ggerganov)
Разбираем pull request ggerganov в llama.cpp: как n-gram мод ускоряет генерацию текста. Объяснение работы, настройка и сравнение с другими оптимизациями.
Как на самом деле работают чат-боты: разоблачение мифа о диалоге и почему каждый запрос — это новая генерация
Техническое объяснение работы нейросетей: почему каждый запрос к чат-боту — это новая генерация, а не продолжение диалога. Архитектура LLM, перегенерация контек
Как избежать ошибок в мульти-агентных системах: баланс количества, топологии и сложности задач
Практическое руководство по проектированию эффективных мульти-агентных систем. Разбираем типичные ошибки в количестве агентов, топологии взаимодействия и подбор
Внутренний диалог: как грамматики ускоряют LLM в 3 раза и оживляют RPG-персонажей
Технический кейс: ускорение инференса LLM на 300% через грамматики, управление состоянием и внутренние голоса персонажей в RPG. Примеры кода, сравнение методов.
QLoRA на RX 6600: как заставить RDNA2 работать там, где AMD сказала «нет»
Пошаговый гайд по запуску QLoRA на неподдерживаемых AMD GPU (RX 6600, RDNA2). Взлом ROCm, патчи ядра, работающие решения на 30.01.2026.
Архитектура локальных агентов: как создать десктоп-агента с доступом к файлам и программам
Глубокий разбор архитектуры локальных AI-агентов. Как дать агенту доступ к файлам и программам на вашем компьютере без облака, сохранив контроль и приватность.
Оптимальные локальные LLM для Mac M4/M5: сравнение GPT-OSS 20B и Gemma 4B для кодирования, администрирования и тегирования
Практическое сравнение GPT-OSS 20B и Gemma 4B для кодирования, администрирования и тегирования на Mac M4/M5. Гайд по выбору, настройке и оптимизации под Apple S