Гайды по AI и нейросетям

Manual #6142 1 min

GGUF-формат: что внутри помимо весов и чего ещё не хватает? Полный разбор структуры

Глубокий технический разбор GGUF: структура файла, метаданные, токенизатор, квантизация. Что не хватает формату для идеального деплоя LLM.

Открыть документ

Manual #6139 8 min

Что такое harness в LLM и почему обвязка важнее модели: опыт полутора лет работы

Senior DevOps объясняет, что такое harness в LLM, почему обвязка (инструменты, промпты, агенты) критичнее выбора модели. Личный опыт и советы.

Открыть документ

Manual #6138 7 min

Типичные ошибки LLM при генерации Rust-кода: полугодовой эксперимент с Claude, GPT и Cursor

Разбор слепых зон Claude 4.5, GPT-5.2 и Cursor в Rust: от borrow checker до unsafe. Реальные примеры, статистика, советы.

Открыть документ

Manual #6137 5 min

Динамический вычислительный бюджет для LLM: как Qwen-35B-A3B дышит в спину GPT-5.4 на HLE

Разбор эвристики динамического выделения ресурсов в Qwen-35B-A3B: результаты, сравнение с GPT-5.4 на бенчмарке HLE, практические нюансы и грабли оптимизации инф

Открыть документ

Manual #6129 8 min

MCP протокол: как работает USB-порт для ИИ и как его использовать в своих проектах

Узнайте, как Model Context Protocol превращает LLM в агентов с внешними инструментами. Архитектура, пошаговая настройка, безопасность и реальные кейсы.

Открыть документ

Manual #6124 11 min

Проблема повторной обработки больших промптов в llama.cpp: причины и решения для llama-swap

Глубокий разбор причин репроцессинга промптов в llama.cpp и пошаговое руководство по настройке кэширования KV-кэша через llama-swap для ускорения TTFT на больши

Открыть документ

Manual #6122 9 min

Создание LLM с нуля: опыт pretrain и RLHF 7B модели с архитектурой DeepSeek и оптимизацией VRAM

Пошаговый гайд по созданию 7B MoE модели DeepSeek с нуля: pretrain, RLHF (PPO/GRPO), оптимизация VRAM, muon-оптимизатор. Реальный опыт двух GPU.

Открыть документ

Manual #6117 7 min

Почему плохой ответ модели — это не проблема модели: разбор типичных ошибок в inference-системах

Разбираем скрытые причины плохих ответов LLM: проблемы retrieval, контекста и маршрутизации. Диагностика, примеры и пошаговый план для инженеров RAG и fine-tuni

Открыть документ

Manual #6108 1 min

Qwen на M4 Max: как я выключил интернет и заставил Mac стенографировать встречи быстрее облака

Пошаговый гайд по созданию полностью локального AI-секретаря для саммари встреч на Mac с Qwen 3.5/3.6 и оптимизацией под M4 Max. Без утечек данных, без задержек

Открыть документ

Manual #6104 7 min

Как отключить сжатие памяти в Windows 11 для ускорения LLM: решение проблемы с AMD GPU

Сжатие памяти в Windows 11 (Memory Compression) может резать скорость LLM на AMD GPU до 50%. Команда Disable-MMAgent -mc за секунду отключает этот тормоз. Полны

Открыть документ

Manual #6103 9 min

ARMageddon: Как скрестить четыре Raspberry Pi в кластер для нейросетей и не сойти с ума

Пошаговое руководство по созданию кластера из Raspberry Pi 5 для распределенного инференса и федеративного обучения LLM. Реальные тесты, подводные камни, актуал

Открыть документ

Manual #6102 9 min

Как использовать Cursor для быстрого прототипирования корпоративных модулей: режимы Agent, Plan, Debug, Ask

Пошаговое руководство по режимам Cursor для быстрого прототипирования модулей в enterprise-проектах. Настройка .cursor/rules, комбинирование режимов, ошибки и л

Открыть документ

Учебные материалы

GGUF-формат: что внутри помимо весов и чего ещё не хватает? Полный разбор структуры

Что такое harness в LLM и почему обвязка важнее модели: опыт полутора лет работы

Типичные ошибки LLM при генерации Rust-кода: полугодовой эксперимент с Claude, GPT и Cursor

Динамический вычислительный бюджет для LLM: как Qwen-35B-A3B дышит в спину GPT-5.4 на HLE

MCP протокол: как работает USB-порт для ИИ и как его использовать в своих проектах

Проблема повторной обработки больших промптов в llama.cpp: причины и решения для llama-swap

Создание LLM с нуля: опыт pretrain и RLHF 7B модели с архитектурой DeepSeek и оптимизацией VRAM

Почему плохой ответ модели — это не проблема модели: разбор типичных ошибок в inference-системах

Qwen на M4 Max: как я выключил интернет и заставил Mac стенографировать встречи быстрее облака

Как отключить сжатие памяти в Windows 11 для ускорения LLM: решение проблемы с AMD GPU

ARMageddon: Как скрестить четыре Raspberry Pi в кластер для нейросетей и не сойти с ума

Как использовать Cursor для быстрого прототипирования корпоративных модулей: режимы Agent, Plan, Debug, Ask