Инструменты для работы с AI

С

Сжатие вывода инструментов для AI-агентов: как сократить контекст на 70% и снизить стоимость

Открытая библиотека ToolTrim сжимает вывод инструментов AI-агентов на 60-70%, снижая стоимость inference. Статистическая фильтрация и удаление избыточных данных

Обзор

M

MCP Hangar: как настроить единую систему управления серверами MCP для локальных LLM

Настройка MCP Hangar - единой системы управления серверами MCP для локальных языковых моделей. Ленивая загрузка, мониторинг, Docker

Обзор

G

GitNexus: браузерный графовый движок, который заставит Cursor и Claude Code понимать ваш код

Настройте GitNexus - opensource графовый движок анализа зависимостей кода в браузере. Работает с MCP, предотвращает breaking changes для AI-ассистентов.

Обзор

О

Обзор мультимодальных моделей для локального запуска: LTX-2, Music Flamingo, Qwen3-VL и другие

Полный обзор мультимодальных моделей для запуска на своём ПК: видео с аудио, анализ музыки, понимание изображений. Сравнение, требования к железу и практическое

Обзор

C

CausaNova: Заставьте LLM врать с доказательствами, а не галлюцинировать

Как нейро-символический ИИ CausaNova связывает Qwen с SMT-солвером для формальной верификации документов. Код, подход, убийство галлюцинаций.

Обзор

П

Пишем свой vLLM на коленке: как заставить LFM-модели летать в батче

Разбор архитектуры Liquid Foundational Models, реализация гибридного кэширования KV-cache и ragged prefill. Ускоряем inference в 50 раз на RTX 3090.

Обзор

Ф

Файл в 152KB заставит вашу локальную LLM работать как научный ассистент

Превратите любую локальную модель в интерактивный исследовательский инструмент с помощью одного JSON-файла на 152KB. Секрет сжатия знаний.

Обзор

C

Claude Cowork: ваш новый коллега, который умеет всё с файлами

Как использовать Claude Cowork для обработки чеков, управления медиа и создания отчётов. Сравнение с альтернативами и практические примеры.

Обзор

H

HyperNova-60B: тестирование новой квантованной модели для генерации кода на AMD GPU

Обзор и тестирование HyperNova-60B в формате GGUF IQ4_XS. Проверяем генерацию кода C++ на AMD Radeon 7900 XTX, сравниваем с альтернативами и оцениваем практичес

Обзор

E

Engram от DeepSeek: Как новая архитектура разреженности ускоряет LLM через условную память

Разбираем Engram от DeepSeek — архитектуру условной памяти для LLM. Как scalable lookup и разреженность ускоряют инференс в 2-3 раза на GitHub.

Обзор

C

Cerebras GLM4.7 REAP: как использовать обрезанные модели для экономии памяти и ускорения

Как использовать Cerebras GLM4.7 REAP с 25% и 40% pruning, FP8 и BF16 квантованиями для экономии памяти и ускорения инференса. Практическое руководство.

Обзор

К

Как настроить 4B Text2SQL модель для запросов к CSV: локальный аналог DeepSeek-V3 с Ollama

Пошаговый гайд по fine-tuning 4B модели для Text2SQL запросов к CSV файлам. Локальный запуск через Ollama, сравнение с DeepSeek-V3 по скорости и приватности.

Обзор