Гайды по AI и нейросетям

Manual #4685 7 min

Как собрать бюджетный 6-GPU мультиплексор на K80: 72 GB VRAM за $200 для мгновенного переключения моделей

Пошаговый гайд по сборке бюджетного 6-GPU мультиплексора на NVIDIA K80 с 72 GB VRAM за $200. Кастомный kernel модуль, pure C инференс, переключение моделей за 0

Открыть документ

Manual #4683 7 min

Как удвоить скорость Multi-GPU в llama.cpp: диагностика асимметричных PCI-E lanes и настройка CUDA_VISIBLE_DEVICES

Узнайте, как диагностировать асимметричные PCI-E lanes и настроить CUDA_VISIBLE_DEVICES для удвоения скорости multi-GPU в llama.cpp. Готовые команды и пошаговое

Открыть документ

Manual #4680 9 min

LLM-as-a-judge: как оценивать RAG-системы и находить слабые места

Глубокий разбор методов оценки RAG с помощью LLM-судьи. Пошаговый план, метрики, поиск слабых мест. Актуально на 2026 год.

Открыть документ

Manual #4679 8 min

Self-Hosting LLM в 2026: кончились деньги на OpenAI, пора собирать свой инференс-сервер

Пошаговое руководство по запуску своей LLM в продакшене. Выбор модели, квантование, подбор GPU и облачного инстанса, деплой. Экономия на API и полный контроль.

Открыть документ

Manual #4668 8 min

mlx-tune на MacBook: Бесплатный прототипинг Llama и Qwen вместо облачных GPU

Полный гайд по mlx-tune. Настройка Llama 3.3, Qwen2.5 и Vision-моделей на MacBook с помощью SFT, DPO, LoRA. Экспорт в GGUF, интеграция с Unsloth API. Экономия н

Открыть документ

Manual #4667 11 min

Нейро-символьный ИИ на PyTorch: как нейросеть сама научилась выявлять мошенничество и генерировать правила

Практический гайд по созданию нейро-символьной модели на PyTorch 2.5. Нейросеть сама генерирует IF-THEN правила для обнаружения мошенничества с ROC-AUC 0.933. П

Открыть документ

Manual #4664 6 min

Сжатие MLP-слоёв в LLM: почему модели деградируют по-разному и как найти оптимальную точку

Исследуем, почему Gemma 2B и Llama 3.1 8B по-разному теряют качество при сжатии MLP-слоев. Практический гайд по поиску оптимальной точки сжатия для экономии рес

Открыть документ

Manual #4663 9 min

Архитектура AAF: как GraphRAG и EventBus решают проблемы памяти и безопасности в автономных ИИ-агентах

Подробный разбор архитектуры AAF для автономных ИИ-агентов. Решаем проблемы памяти, зацикливания и безопасности с GraphRAG и EventBus. Актуально на 2026 год.

Открыть документ

Manual #4659 10 min

Layer Surgery: практическое руководство по дублированию трансформерных слоев для улучшения локальных LLM и опасная зона на 50% глубины

Практическое руководство по улучшению локальных LLM через дублирование трансформерных слоев. Обнаружена опасная зона на 50% глубины модели. Работа с Qwen2.5-Cod

Открыть документ

Manual #4658 8 min

Автоматизация браузера на локальных LLM: как stepwise planning и компактный DOM экономят 80% токенов (на примере Qwen 8B+4B)

Пошаговый гайд по браузерной автоматизации на Qwen 8B+4B. Используем stepwise planning и компактный DOM для работы на локальных моделях и экономии токенов.

Открыть документ

Manual #4643 9 min

Какая модель лучше для тонкой настройки? Бенчмарк 15 SLM по 9 задачам с рейтингами

Полное сравнение 15 маленьких языковых моделей для тонкой настройки по 9 задачам. Актуальные рейтинги на март 2026, методология LoRA, выбор лучшей базовой модел

Открыть документ

Manual #4642 6 min

Как устроены галлюцинации в LLM: исследуем геометрию residual stream

Разбираем, как residual stream в трансформерах приводит к галлюцинациям. Методы анализа траекторий представлений по слоям для отладки LLM на 2026 год.

Открыть документ

Учебные материалы

Как собрать бюджетный 6-GPU мультиплексор на K80: 72 GB VRAM за $200 для мгновенного переключения моделей

Как удвоить скорость Multi-GPU в llama.cpp: диагностика асимметричных PCI-E lanes и настройка CUDA_VISIBLE_DEVICES

LLM-as-a-judge: как оценивать RAG-системы и находить слабые места

Self-Hosting LLM в 2026: кончились деньги на OpenAI, пора собирать свой инференс-сервер

mlx-tune на MacBook: Бесплатный прототипинг Llama и Qwen вместо облачных GPU

Нейро-символьный ИИ на PyTorch: как нейросеть сама научилась выявлять мошенничество и генерировать правила

Сжатие MLP-слоёв в LLM: почему модели деградируют по-разному и как найти оптимальную точку

Архитектура AAF: как GraphRAG и EventBus решают проблемы памяти и безопасности в автономных ИИ-агентах

Layer Surgery: практическое руководство по дублированию трансформерных слоев для улучшения локальных LLM и опасная зона на 50% глубины

Автоматизация браузера на локальных LLM: как stepwise planning и компактный DOM экономят 80% токенов (на примере Qwen 8B+4B)

Какая модель лучше для тонкой настройки? Бенчмарк 15 SLM по 9 задачам с рейтингами

Как устроены галлюцинации в LLM: исследуем геометрию residual stream