Инструменты
Подборка AI-инструментов. Только то, что работает.
Fulloch V2: 100% локальный голосовой ассистент для Home Assistant и Obsidian на 16GB VRAM
Обзор полностью локального голосового ассистента Fulloch V2 с открытым кодом. Работает на 16GB VRAM, интегрируется с Home Assistant и Obsidian. Примеры, сравнен
Vidai Community: один Rust-бинар для контроля затрат, guardrails и multi-provider роутинга LLM-запросов
Обзор Vidai Community — open-source Rust-инструмента, который объединяет multi-provider роутинг, guardrails и учёт затрат в одном бинарнике. Сравнение с LiteLLM
Как превратить Gemma 4 31B Dense в MoE: дообучение роутера и экспертов на Hugging Face
Научитесь мутировать плотную Gemma 4 31B в Mixture of Experts с включением enable_moe_block. Дообучение роутера и экспертов на Hugging Face без обучения с нуля.
Unified llama binary: новый стандарт запуска LLM на любом устройстве
Unified binary от llama.cpp — один файл для запуска LLM на любом железе. Сравнение с Ollama и LM Studio, примеры использования на Raspberry Pi и ПК.
AMD наконец-то получила свой W4A16: vLLM запускает нативный HIP kernel
vLLM добавил поддержку нативного W4A16 квантования для AMD GPU через HIP. Ускорение до 2-3x по сравнению с fallback. Бенчмарки, примеры, сравнение с llama.cpp.
Obsidian Hybrid Search: когда ваша база знаний говорит на одном языке с AI-агентами
Обзор Obsidian Hybrid Search — MCP-сервера и CLI, объединяющего лексический и семантический поиск по заметкам. Примеры, сравнение с аналогами, настройка для Cla
Step 3.7 Flash: подробный бенчмарк на M5 Max и RTX 6000 с конфигами и скоростью
Сравнение Step 3.7 Flash на Mac M5 Max (llama.cpp) и RTX 6000 (NVFP4). Реальные цифры токен/с, настройки, GitHub. Кому подойдет и как запустить.
llama.cpp B9387: AMD ROCm получает долгожданное ускорение prefill — бенчмарки и сравнение
Свежий релиз llama.cpp B9387 приносит до 2.5x ускорение обработки промптов на AMD GPU под ROCm. Бенчмарки, сравнение с vLLM, советы по настройке.
Патч для Claude CLI 2.1.154+: чиним совместимость с vLLM новыми ролями сообщений
Решение проблемы совместимости Claude CLI 2.1.154+ с vLLM из-за новых ролей сообщений. Подробный гайд с кодом патча для локальных LLM.
Запуск Mimo 2.5 Pro на 8x Nvidia GB10: производительность и параллельные запросы
Тесты Mimo 2.5 Pro на кластере из 8 Nvidia GB10: токены в секунду при разных контекстах, параллельные запросы, сравнение с H20 и RTX 4090. Данные для энтузиасто
Enforcement layer для AI-кодинг-агентов: когда модель говорит 'я не знаю', а код молчит
Как построить enforcement layer для AI-кодинг-агента с Neo4j, ONNX и BM25. Полный гайд с примерами кода. Всё локально — без API.
How to Add a Custom Model to llama.cpp: Implementing Laguna XS.2 with GitHub Code
Полное руководство по портированию нестандартной модели в llama.cpp на примере Laguna XS.2. Исходный код на GitHub, конвертация в GGUF, инференс и грабли.