Учебные материалы
vLLM против llama.cpp: 5x скорость есть, квантизаций нет. Рабочие обходные пути
vLLM даёт 5x прирост скорости, но не поддерживает GGUF. Разбираем обходные пути: конвертация, AWQ, Unsloth, динамический батчинг. Практические шаги и подводные
Как собрать распределенное хранилище чекпоинтов ML на 4 Raspberry Pi 4B: пошаговое руководство
Пошаговый гайд по сборке отказоустойчивого S3-хранилища для чекпоинтов нейросетей из четырех Raspberry Pi 4B. Все детали, код и типичные ошибки.
Cross-review планов разработки между Claude Code и Codex: методика Plan-tango
Узнайте, как заставить Claude Code и Codex ревьюить друг друга, чтобы избежать галлюцинаций в планах разработки. Пошаговое руководство Plan-tango с примерами и
10 t/s на Qwen 3.5 35B на ноутбуке за $300: рецепт без видеокарты
Запускаем Qwen 3.5 35B MoE на старом ноутбуке за $300 со скоростью 10 токенов/сек. Квантование, Vulkan, пошаговая настройка llama.cpp и секретные флаги.
Автоматическая миграция 200K строк JS на TypeScript с помощью Claude Code: опыт, цифры, ошибки
Реальный кейс миграции 200 000 строк JavaScript на TypeScript с помощью Claude Code. Цифры, скорость, ошибки и сравнение с ручной работой. Читайте!
Три неудачных попытки дообучения Gemma 4: разбор ошибок и практические уроки
Разбираем три реальных кейса неудачного fine-tuning Gemma 4: ошибки датасета, RAG, синтетики. Уроки для тех, кто не хочет сжечь GPU зря.
Codex CLI — полный гид: установка, AGENTS.md, MCP-серверы и продакшн
Полный гид по Codex CLI от OpenAI: установка, конфигурация AGENTS.md, подключение MCP-серверов, боевое использование в CI/CD и продакшне. Команды, примеры, ошиб
Q4_K_M против Q6: как квантование убивает ваших агентов — математика ошибок и что с этим делать
Глубокий анализ влияния квантования Q4_K_M и Q6 на tool calling в агентах. Математика ошибок, практические тесты и советы по выбору беквота для локальных LLM в
8 open-weight моделей в роли агентов в MMO: 10-дневный эксперимент, 93k событий и выводы для разработчиков
Проверили 8 open-weight моделей (Llama 4, Qwen3.5, DeepSeek-V3.5) в MMO-симуляции. Долгосрочное планирование, ресурсная конкуренция, 93k событий. Выводы для про
Как превратить неправильные ответы чата в обучающие данные для LoRA: пошаговое руководство
Научитесь превращать неверные ответы модели в качественный датасет для дообучения LoRA. Пошаговая инструкция с примерами кода и типичными ошибками.
Почему контекст падает до 14K при включении MTP на Qwen 27B с одной 3090: разбор проблемы и возможные решения
Почему включение MTP в llama.cpp режет контекст Qwen3.6-27B до 14K на одной RTX 3090? Диагностика, расчет памяти и способы исправить.
Бюджетный инференс Qwen 3.6-27B: сборка на двух RTX 3060 за $400
Как запустить Qwen 3.6-27B с производительностью 30-50 t/s на двух б/у RTX 3060. Конфигурация за $400, настройка vLLM, подводные камни и альтернативы.