Инструменты для работы с AI

M

Memory MCP для LLM: гибридный поиск BM25+вектора+RRF на Qwen3.5-4B — установка и настройка

Пошаговая установка и настройка Memory MCP сервера для долговременной памяти LLM. Гибридный поиск BM25 + векторные эмбеддинги + RRF ранжирование на Qwen3.5-4B.

Обзор

З

Запуск Qwen3.6-27B с agentic search на одной 3090: достижение 95.7% SimpleQA локально

Как запустить Qwen3.6-27B с агентическим поиском на одной RTX 3090 и обогнать GPT-4o в фактологической точности. Инструкция и тесты.

Обзор

Г

Гибридный инференс LLM на Android: llama.cpp + LiteRT + NPU/GPU — первый опыт

Разбираем первый опыт гибридного инференса LLM на Android: llama.cpp + LiteRT с задействованием NPU/GPU. Сравнение с альтернативами, примеры настройки и практич

Обзор

О

Объединяем GPU в домашний кластер: mDNS и ZeroConf для распределенного обучения LLM без боли

Как настроить автоматическое обнаружение узлов через mDNS для распределенного обучения LLM на домашнем кластере. Пошаговый гайд с Avahi и PyTorch Distributed.

Обзор

O

OBLITERATUS: новый уровень red-teaming для MoE моделей — почему Heretic уже не тянет

Разбираем инструмент elder_plinus для red-teaming MoE моделей. Сравнение с Heretic, примеры атак и выводы для пентестеров. Актуально на май 2026.

Обзор

P

PFlash: ускорение prefill в 10 раз на RTX 3090 при длине контекста 128K — разбор технологии и бенчмарков

Разбор PFlash — новой техники, ускоряющей prefill в 10 раз на RTX 3090 с контекстом 128K. Сравнение с llama.cpp, бенчмарки, примеры использования и подводные ка

Обзор

I

Intel AutoRound: Intel внезапно выстрелила. Почему SOTA-квантование теперь не про GPU?

Разбор Intel AutoRound — нового алгоритма квантования LLM, который бьёт GPTQ и AWQ. Поддержка CPU/XPU/CUDA, интеграция с vLLM, SGLang и Transformers. Реальные т

Обзор

8

8.7k диалогов Claude Opus 4.7: датасет для fine-tuning, от которого у вас потекут слюнки

Новый синтетический датасет на HuggingFace: 8700 диалогов Claude Opus 4.6/4.7 с цепочками рассуждений. Очистка от отказов, сравнение с аналогами, примеры примен

Обзор

О

Обзор лучших открытых LLM апреля 2026: что запустить локально?

Актуальный обзор открытых LLM: Qwen3, Llama 4, Gemma 4 и другие. Сравнение по качеству и требованиям к железу. Тесты, советы, квантование.

Обзор

D

DeepSeek Thinking-with-Visual-Primitives: фреймворк, который заставит ИИ думать картинками

Разбираем новый фреймворк DeepSeek для визуального мышления: что такое Visual Primitives, как это работает и кому пригодится. Сравнение с аналогами, примеры код

Обзор

A

Agent-browser от Vercel: бунт AI-агентов против Playwright? Обзор нового инструмента

Разбираем agent-browser от Vercel: зачем AI-агентам отдельный браузер, чем он лучше Playwright и Puppeteer, и как его использовать с MCP. Актуально на апрель 20

Обзор

З

Запуск llama.cpp с поддержкой NVFP4 на Blackwell: что это даёт и как настроить

Полный гайд по сборке llama.cpp с NVFP4 для GPU Blackwell. Как ускорить LLM в 2 раза, сохранив качество. Тесты, бенчмарки и примеры настройки.

Обзор