Учебные материалы
Mac Studio M3 Ultra для локальных LLM: реальные тесты GLM-4.7 Q4 и оптимизация под 1-2 запроса
Практический гайд по выбору Mac Studio M3 Ultra для локальных LLM. Тесты производительности GLM-4.7 Q4, оптимизация под 1-2 concurrent requests, сравнение конфи
Аргументы llama.cpp: от слепого копирования команд к осознанной настройке под любое железо
Исчерпывающее руководство по аргументам командной строки llama.cpp. Настройка производительности под разное железо, примеры команд для CPU, NVIDIA, AMD, разбор
Когда AI становится системным администратором: настраиваем Linux-сервер через Qwen и Cursor
Полное руководство по настройке Linux-сервера с помощью Qwen и Cursor AI. Обход блокировок, автоматизация администрирования, Infrastructure as Code через нейрос
Когда vLLM ломается на двух RTX 6000: полное расследование сбоев и пошаговое лечение
Подробное руководство по диагностике и решению проблем vLLM на сервере с двумя RTX 6000. Настройка питания GPU, PCIe ASPM, NVIDIA persistent mode и другие фиксы
480 миллиардов против здравого смысла: какой open-source кодогенератор реально работает в 2026
Реальный тест больших open-source моделей для кодинга: Qwen Coder 480B, Kimi K2, GLM 4.7. Железо, качество кода, мусор в ответах — что выбрать?
Почему ИИ-ассистенты ломаются в бизнес-среде: анализ проблемы контекста и инженерные решения
Разбор реальных причин провала ИИ-ассистентов в бизнесе. Инженерные подходы: RAG для корпоративных данных, fine-tuning моделей, онтологии. Практические решения
Полный гайд по квантованию в vLLM: сравниваем AWQ, GPTQ, Marlin, GGUF и BitsandBytes на Qwen2.5-32B
Технический разбор пяти методов 4-битного квантования в vLLM: производительность, качество и практический выбор для Qwen2.5-32B.
RTX 5090 под прессом: как разогнать новую сборку до предела на LoRA и ComfyUI
Пошаговый гайд по нагрузочному тестированию новой сборки с RTX 5090 и 128 ГБ RAM. Проверяем пределы системы на реальных задачах: обучение LoRA и сложные workflo
От теории к практике: пошаговый план для AI-инженера после книги Чипа Хуена
Конкретный пошаговый план от теории к практике: проекты на LangGraph и CrewAI, оценка RAG пайплайнов, создание портфолио и поиск работы в AI Engineering.
Ollama vs llama.cpp: как заставить работать несовместимые видеокарты вместе (3060 и P102-100)
Пошаговое руководство по настройке llama.cpp и Ollama для работы с разными видеокартами. Оптимизация VRAM, команды tensor-split, сравнение производительности.
Скупой платит дважды: почему PCIe 5.0 для MoE-инференса — это ловушка, а не панацея
Собираем сервер для Mixtral, DeepSeek MoE на RTX 5090. Сравнение PCIe 4.0 и 5.0, DDR4/DDR5 для vLLM. Экономия $5K с потерей всего 35% в prefill.
GLM-4.7 на четырех RTX 3090: выжимаем последние токены с ik_llama.cpp
Подробный разбор настройки GLM-4.7 на 4x RTX 3090 для максимальной производительности. Таблицы бенчмарков, конфигурации Docker и ошибки.