Инструменты
Подборка AI-инструментов. Только то, что работает.
Memory MCP для LLM: гибридный поиск BM25+вектора+RRF на Qwen3.5-4B — установка и настройка
Пошаговая установка и настройка Memory MCP сервера для долговременной памяти LLM. Гибридный поиск BM25 + векторные эмбеддинги + RRF ранжирование на Qwen3.5-4B.
Запуск Qwen3.6-27B с agentic search на одной 3090: достижение 95.7% SimpleQA локально
Как запустить Qwen3.6-27B с агентическим поиском на одной RTX 3090 и обогнать GPT-4o в фактологической точности. Инструкция и тесты.
Гибридный инференс LLM на Android: llama.cpp + LiteRT + NPU/GPU — первый опыт
Разбираем первый опыт гибридного инференса LLM на Android: llama.cpp + LiteRT с задействованием NPU/GPU. Сравнение с альтернативами, примеры настройки и практич
Объединяем GPU в домашний кластер: mDNS и ZeroConf для распределенного обучения LLM без боли
Как настроить автоматическое обнаружение узлов через mDNS для распределенного обучения LLM на домашнем кластере. Пошаговый гайд с Avahi и PyTorch Distributed.
OBLITERATUS: новый уровень red-teaming для MoE моделей — почему Heretic уже не тянет
Разбираем инструмент elder_plinus для red-teaming MoE моделей. Сравнение с Heretic, примеры атак и выводы для пентестеров. Актуально на май 2026.
PFlash: ускорение prefill в 10 раз на RTX 3090 при длине контекста 128K — разбор технологии и бенчмарков
Разбор PFlash — новой техники, ускоряющей prefill в 10 раз на RTX 3090 с контекстом 128K. Сравнение с llama.cpp, бенчмарки, примеры использования и подводные ка
Intel AutoRound: Intel внезапно выстрелила. Почему SOTA-квантование теперь не про GPU?
Разбор Intel AutoRound — нового алгоритма квантования LLM, который бьёт GPTQ и AWQ. Поддержка CPU/XPU/CUDA, интеграция с vLLM, SGLang и Transformers. Реальные т
8.7k диалогов Claude Opus 4.7: датасет для fine-tuning, от которого у вас потекут слюнки
Новый синтетический датасет на HuggingFace: 8700 диалогов Claude Opus 4.6/4.7 с цепочками рассуждений. Очистка от отказов, сравнение с аналогами, примеры примен
Обзор лучших открытых LLM апреля 2026: что запустить локально?
Актуальный обзор открытых LLM: Qwen3, Llama 4, Gemma 4 и другие. Сравнение по качеству и требованиям к железу. Тесты, советы, квантование.
DeepSeek Thinking-with-Visual-Primitives: фреймворк, который заставит ИИ думать картинками
Разбираем новый фреймворк DeepSeek для визуального мышления: что такое Visual Primitives, как это работает и кому пригодится. Сравнение с аналогами, примеры код
Agent-browser от Vercel: бунт AI-агентов против Playwright? Обзор нового инструмента
Разбираем agent-browser от Vercel: зачем AI-агентам отдельный браузер, чем он лучше Playwright и Puppeteer, и как его использовать с MCP. Актуально на апрель 20
Запуск llama.cpp с поддержкой NVFP4 на Blackwell: что это даёт и как настроить
Полный гайд по сборке llama.cpp с NVFP4 для GPU Blackwell. Как ускорить LLM в 2 раза, сохранив качество. Тесты, бенчмарки и примеры настройки.