Инструменты
Подборка AI-инструментов. Только то, что работает.
Multi-LoRA serving в vLLM 0.15.0: как обслуживать десятки MoE-моделей на одном GPU
Как vLLM 0.15.0 с multi-LoRA serving экономит GPU при запуске десятков fine-tuned MoE-моделей. Сравнение с альтернативами, примеры и настройка.
Как обновить llama.cpp для Qwen 3.5: исправление multi-GPU crash и настройка prompt caching
Пошаговый гайд по обновлению llama.cpp, применению патча для исправления краша на нескольких GPU и настройке prompt caching под Qwen 3.5. Актуально на февраль 2
CodeWiki Skill: Документация, которая пишет сама себя. Или как настроить мультиагентную систему за 15 минут
Как настроить мультиагентную систему CodeWiki Skill для автоматического создания структурированной документации к любому коду. Работа с Claude Code и семантичес
FlashLM v6 SUPERNOVA: революционная архитектура P-RCSM без внимания и свёрток, 3500 токенов/с на CPU
Обзор FlashLM v6 SUPERNOVA: архитектура P-RCSM без внимания и сверток, тернарные веса, 4.1M параметров, 3500 токенов/с на CPU. Сравнение с альтернативами.
Qwen3.5-27B на RTX A6000: как получить 19.7 токенов в секунду с качеством GPT-4?
Пошаговая инструкция по запуску Qwen3.5-27B с квантованием Q8_0 через llama.cpp и CUDA на RTX A6000. Сравнение с Llama 3.1 и Mixtral.
SWE-bench Multilingual Leaderboard: какой ИИ лучше всего пишет код на 9 языках и сколько это стоит
Сравнение GPT-5.2, GLM-4.7, DeepSeek v3.2 и MiniMax 2.5 на SWE-bench Multilingual Leaderboard. Какая модель лучше пишет код на 9 языках и сколько стоит inferenc
Liquid AI LFM2-24B-A2B: руководство по запуску MoE-модели на локальном железе с 32 ГБ ОЗУ
Пошаговое руководство по запуску модели Liquid AI LFM2-24B-A2B на локальном компьютере с 32 ГБ ОЗУ. Используем llama.cpp, vLLM, SGLang для эффективной работы sp
Как настроить 4B-агент для навигации по коду: GGUF, Qwen и 100% валидность tool-calling
Пошаговая настройка 4B-агента для навигации по коду. GGUF модель, 100% валидность tool-calling, экономия токенов. Сравнение с Claude и GPT.
LLM Simulator: браузерный симулятор железа для обучения и инференса моделей (GPTQ, AWQ)
Браузерный симулятор для расчета памяти, стоимости и throughput LLM. Поддержка GPTQ, AWQ, 70+ моделей и 25 GPU. Актуальный обзор на февраль 2026.
Рекурсивные языковые модели (RLM): как обрабатывать миллионы токенов с помощью fast-rlm
Обзор fast-rlm 0.1.4 — минималистичного инструмента для экспериментов с RLM. Установка, возможности, сравнение с альтернативами и кому подойдет.
llm-checker: Железный детектив для моделей Ollama
Обзор llm-checker — CLI-инструмента для оценки вашего железа и подбора совместимых моделей Ollama. Установка, возможности, сравнение. Актуально на 24.02.2026.
RWKV-7: когда память перестала быть проблемой для локальных LLM на ARM
Практический гайд по архитектуре RWKV-7. Запускаем локальную LLM на Raspberry Pi и Snapdragon, сравниваем память и скорость с Transformer. Веса на HuggingFace.