Инструменты для работы с AI

F

Fulloch V2: 100% локальный голосовой ассистент для Home Assistant и Obsidian на 16GB VRAM

Обзор полностью локального голосового ассистента Fulloch V2 с открытым кодом. Работает на 16GB VRAM, интегрируется с Home Assistant и Obsidian. Примеры, сравнен

Обзор

V

Vidai Community: один Rust-бинар для контроля затрат, guardrails и multi-provider роутинга LLM-запросов

Обзор Vidai Community — open-source Rust-инструмента, который объединяет multi-provider роутинг, guardrails и учёт затрат в одном бинарнике. Сравнение с LiteLLM

Обзор

К

Как превратить Gemma 4 31B Dense в MoE: дообучение роутера и экспертов на Hugging Face

Научитесь мутировать плотную Gemma 4 31B в Mixture of Experts с включением enable_moe_block. Дообучение роутера и экспертов на Hugging Face без обучения с нуля.

Обзор

U

Unified llama binary: новый стандарт запуска LLM на любом устройстве

Unified binary от llama.cpp — один файл для запуска LLM на любом железе. Сравнение с Ollama и LM Studio, примеры использования на Raspberry Pi и ПК.

Обзор

A

AMD наконец-то получила свой W4A16: vLLM запускает нативный HIP kernel

vLLM добавил поддержку нативного W4A16 квантования для AMD GPU через HIP. Ускорение до 2-3x по сравнению с fallback. Бенчмарки, примеры, сравнение с llama.cpp.

Обзор

O

Obsidian Hybrid Search: когда ваша база знаний говорит на одном языке с AI-агентами

Обзор Obsidian Hybrid Search — MCP-сервера и CLI, объединяющего лексический и семантический поиск по заметкам. Примеры, сравнение с аналогами, настройка для Cla

Обзор

S

Step 3.7 Flash: подробный бенчмарк на M5 Max и RTX 6000 с конфигами и скоростью

Сравнение Step 3.7 Flash на Mac M5 Max (llama.cpp) и RTX 6000 (NVFP4). Реальные цифры токен/с, настройки, GitHub. Кому подойдет и как запустить.

Обзор

l

llama.cpp B9387: AMD ROCm получает долгожданное ускорение prefill — бенчмарки и сравнение

Свежий релиз llama.cpp B9387 приносит до 2.5x ускорение обработки промптов на AMD GPU под ROCm. Бенчмарки, сравнение с vLLM, советы по настройке.

Обзор

П

Патч для Claude CLI 2.1.154+: чиним совместимость с vLLM новыми ролями сообщений

Решение проблемы совместимости Claude CLI 2.1.154+ с vLLM из-за новых ролей сообщений. Подробный гайд с кодом патча для локальных LLM.

Обзор

З

Запуск Mimo 2.5 Pro на 8x Nvidia GB10: производительность и параллельные запросы

Тесты Mimo 2.5 Pro на кластере из 8 Nvidia GB10: токены в секунду при разных контекстах, параллельные запросы, сравнение с H20 и RTX 4090. Данные для энтузиасто

Обзор

E

Enforcement layer для AI-кодинг-агентов: когда модель говорит 'я не знаю', а код молчит

Как построить enforcement layer для AI-кодинг-агента с Neo4j, ONNX и BM25. Полный гайд с примерами кода. Всё локально — без API.

Обзор

H

How to Add a Custom Model to llama.cpp: Implementing Laguna XS.2 with GitHub Code

Полное руководство по портированию нестандартной модели в llama.cpp на примере Laguna XS.2. Исходный код на GitHub, конвертация в GGUF, инференс и грабли.

Обзор