Гайды по AI и нейросетям

Manual #1031 8 min

Mac Studio M3 Ultra для локальных LLM: реальные тесты GLM-4.7 Q4 и оптимизация под 1-2 запроса

Практический гайд по выбору Mac Studio M3 Ultra для локальных LLM. Тесты производительности GLM-4.7 Q4, оптимизация под 1-2 concurrent requests, сравнение конфи

Открыть документ

Manual #1029 8 min

Аргументы llama.cpp: от слепого копирования команд к осознанной настройке под любое железо

Исчерпывающее руководство по аргументам командной строки llama.cpp. Настройка производительности под разное железо, примеры команд для CPU, NVIDIA, AMD, разбор

Открыть документ

Manual #1028 8 min

Когда AI становится системным администратором: настраиваем Linux-сервер через Qwen и Cursor

Полное руководство по настройке Linux-сервера с помощью Qwen и Cursor AI. Обход блокировок, автоматизация администрирования, Infrastructure as Code через нейрос

Открыть документ

Manual #1027 8 min

Когда vLLM ломается на двух RTX 6000: полное расследование сбоев и пошаговое лечение

Подробное руководство по диагностике и решению проблем vLLM на сервере с двумя RTX 6000. Настройка питания GPU, PCIe ASPM, NVIDIA persistent mode и другие фиксы

Открыть документ

Manual #1026 8 min

480 миллиардов против здравого смысла: какой open-source кодогенератор реально работает в 2026

Реальный тест больших open-source моделей для кодинга: Qwen Coder 480B, Kimi K2, GLM 4.7. Железо, качество кода, мусор в ответах — что выбрать?

Открыть документ

Manual #1025 8 min

Почему ИИ-ассистенты ломаются в бизнес-среде: анализ проблемы контекста и инженерные решения

Разбор реальных причин провала ИИ-ассистентов в бизнесе. Инженерные подходы: RAG для корпоративных данных, fine-tuning моделей, онтологии. Практические решения

Открыть документ

Manual #1023 8 min

Полный гайд по квантованию в vLLM: сравниваем AWQ, GPTQ, Marlin, GGUF и BitsandBytes на Qwen2.5-32B

Технический разбор пяти методов 4-битного квантования в vLLM: производительность, качество и практический выбор для Qwen2.5-32B.

Открыть документ

Manual #1022 9 min

RTX 5090 под прессом: как разогнать новую сборку до предела на LoRA и ComfyUI

Пошаговый гайд по нагрузочному тестированию новой сборки с RTX 5090 и 128 ГБ RAM. Проверяем пределы системы на реальных задачах: обучение LoRA и сложные workflo

Открыть документ

Manual #1021 9 min

От теории к практике: пошаговый план для AI-инженера после книги Чипа Хуена

Конкретный пошаговый план от теории к практике: проекты на LangGraph и CrewAI, оценка RAG пайплайнов, создание портфолио и поиск работы в AI Engineering.

Открыть документ

Manual #1020 7 min

Ollama vs llama.cpp: как заставить работать несовместимые видеокарты вместе (3060 и P102-100)

Пошаговое руководство по настройке llama.cpp и Ollama для работы с разными видеокартами. Оптимизация VRAM, команды tensor-split, сравнение производительности.

Открыть документ

Manual #1018 8 min

Скупой платит дважды: почему PCIe 5.0 для MoE-инференса — это ловушка, а не панацея

Собираем сервер для Mixtral, DeepSeek MoE на RTX 5090. Сравнение PCIe 4.0 и 5.0, DDR4/DDR5 для vLLM. Экономия $5K с потерей всего 35% в prefill.

Открыть документ

Manual #1017 8 min

GLM-4.7 на четырех RTX 3090: выжимаем последние токены с ik_llama.cpp

Подробный разбор настройки GLM-4.7 на 4x RTX 3090 для максимальной производительности. Таблицы бенчмарков, конфигурации Docker и ошибки.

Открыть документ

Учебные материалы

Mac Studio M3 Ultra для локальных LLM: реальные тесты GLM-4.7 Q4 и оптимизация под 1-2 запроса

Аргументы llama.cpp: от слепого копирования команд к осознанной настройке под любое железо

Когда AI становится системным администратором: настраиваем Linux-сервер через Qwen и Cursor

Когда vLLM ломается на двух RTX 6000: полное расследование сбоев и пошаговое лечение

480 миллиардов против здравого смысла: какой open-source кодогенератор реально работает в 2026

Почему ИИ-ассистенты ломаются в бизнес-среде: анализ проблемы контекста и инженерные решения

Полный гайд по квантованию в vLLM: сравниваем AWQ, GPTQ, Marlin, GGUF и BitsandBytes на Qwen2.5-32B

RTX 5090 под прессом: как разогнать новую сборку до предела на LoRA и ComfyUI

От теории к практике: пошаговый план для AI-инженера после книги Чипа Хуена

Ollama vs llama.cpp: как заставить работать несовместимые видеокарты вместе (3060 и P102-100)

Скупой платит дважды: почему PCIe 5.0 для MoE-инференса — это ловушка, а не панацея

GLM-4.7 на четырех RTX 3090: выжимаем последние токены с ik_llama.cpp