Гайды по AI и нейросетям - AiManual
AiManual Logo Ai / Manual.
Документация

Учебные материалы

Manual #2534 8 min

Оптимизация Kimi 2.5 на vLLM: как выжать 1500 TPS из кластера на 8xRTX 6000 Blackwell

Пошаговый гайд по настройке tensor-parallel для Kimi 2.5 на vLLM. Увеличиваем TPS до 1500 на кластере из 8 RTX 6000 Blackwell.

Открыть документ
Manual #2532 6 min

GPT-OSS 120B: старый добрый монстр, который до сих пор рвет всех в локальном запуске

Архитектура A3B, нативное 4-битное обучение и 120 млрд параметров. Почему GPT-OSS 120B до сих пор быстрее и качественнее новых моделей на домашнем железе.

Открыть документ
Manual #2531 9 min

Kimi K2.5: бенчмарк производительности на железе энтузиастов — Epyc, RTX PRO 6000, SGLang

Подробный бенчмарк Kimi K2.5 на Epyc 9374F и RTX PRO 6000: 497 t/s prefill, сравнение SGLang и vLLM, настройка llmperf-rs. Актуально на январь 2026.

Открыть документ
Manual #2530 7 min

GGUF-файлы Kimi-K2.5 весят больше INT4: парадокс или техническая необходимость?

Глубокий анализ форматов квантования Kimi-K2.5. Почему GGUF весит больше INT4, как получить полную точность при размере <600 ГБ. Решение проблемы.

Открыть документ
Manual #2526 9 min

Когда SQL и векторный поиск дерутся за ваши данные: архитектура локального RAG-пайплайна

Пошаговый гайд по созданию локального RAG-пайплайна, объединяющего текстовый SQL и векторный поиск. Архитектура, инструменты, код на 2026 год.

Открыть документ
Manual #2519 4 min

Что такое n-gram mod в llama.cpp и как он ускоряет вывод моделей (анализ PR от ggerganov)

Разбираем pull request ggerganov в llama.cpp: как n-gram мод ускоряет генерацию текста. Объяснение работы, настройка и сравнение с другими оптимизациями.

Открыть документ
Manual #2512 6 min

Как на самом деле работают чат-боты: разоблачение мифа о диалоге и почему каждый запрос — это новая генерация

Техническое объяснение работы нейросетей: почему каждый запрос к чат-боту — это новая генерация, а не продолжение диалога. Архитектура LLM, перегенерация контек

Открыть документ
Manual #2509 8 min

Как избежать ошибок в мульти-агентных системах: баланс количества, топологии и сложности задач

Практическое руководство по проектированию эффективных мульти-агентных систем. Разбираем типичные ошибки в количестве агентов, топологии взаимодействия и подбор

Открыть документ
Manual #2507 9 min

Внутренний диалог: как грамматики ускоряют LLM в 3 раза и оживляют RPG-персонажей

Технический кейс: ускорение инференса LLM на 300% через грамматики, управление состоянием и внутренние голоса персонажей в RPG. Примеры кода, сравнение методов.

Открыть документ
Manual #2506 7 min

QLoRA на RX 6600: как заставить RDNA2 работать там, где AMD сказала «нет»

Пошаговый гайд по запуску QLoRA на неподдерживаемых AMD GPU (RX 6600, RDNA2). Взлом ROCm, патчи ядра, работающие решения на 30.01.2026.

Открыть документ
Manual #2505 8 min

Архитектура локальных агентов: как создать десктоп-агента с доступом к файлам и программам

Глубокий разбор архитектуры локальных AI-агентов. Как дать агенту доступ к файлам и программам на вашем компьютере без облака, сохранив контроль и приватность.

Открыть документ
Manual #2504 7 min

Оптимальные локальные LLM для Mac M4/M5: сравнение GPT-OSS 20B и Gemma 4B для кодирования, администрирования и тегирования

Практическое сравнение GPT-OSS 20B и Gemma 4B для кодирования, администрирования и тегирования на Mac M4/M5. Гайд по выбору, настройке и оптимизации под Apple S

Открыть документ