Инструменты для работы с AI - AiManual
AiManual Logo Ai / Manual.

Инструменты

Подборка AI-инструментов. Только то, что работает.

d

dlmserve: Первый открытый движок для инференса диффузионных языковых моделей – установка и тест на RTX 5070

Установка и тест dlmserve — первого открытого сервинг-движка для диффузионных языковых моделей (LLaDA) на RTX 5070. Результаты, сравнение с PyTorch, инструкция

Обзор
O

OSCAR KV Quant: как Together AI ужал KV-кэш до 2 бит без потери качества

Разбор OSCAR KV Quant — новой open-source техники квантования KV-кэша. Сравнение с TurboQuant, Attn-rot, Subquadratic Attention. Бенчмарки и примеры.

Обзор
S

SkillOpt: как превратить ваши .md файлы в обучаемые параметры для LLM

SkillOpt — open-source инструмент для оптимизации markdown-навыков под LLM. Разбираем, как он работает, с чем его едят, и кому он реально сэкономит нервы.

Обзор
S

Shard: 10× сжатие KV-кэша для Llama 3.1 8B без потери качества — обзор метода и применения

Разбираем метод Shard: сжатие KV-кэша в 10 раз с PCA и int4 для Llama 3.1 8B. Сравнение с Delta-KV, TurboQuant, Binary KV cache. Примеры использования в Hugging

Обзор
K

KV Cache Calculator: считаем память для LLM и не даем GPU захлебнуться

Онлайн-инструмент для расчета памяти KV cache под любую LLM. Сравнение с аналогами, примеры для Llama 3, Qwen, Mistral. Узнайте, сколько VRAM нужно для вашего к

Обзор
H

Heretic: инструмент для снятия guardrails с Llama 3.3 – как это работает и чем грозит

Инструмент Heretic вырезает цензуру из Llama 3.3 за минуты. Разбираем механизм, опасность и позицию Financial Times. Что будет с безопасностью ИИ?

Обзор
M

MCP from Scratch: пишем локального агента на node-llama-cpp и GGUF моделях за вечер

Полный гайд по созданию MCP-сервера на Node.js с локальной LLM через node-llama-cpp. Научу писать агентный цикл, JSON-RPC и stdio transport без готовых решений.

Обзор
С

Сравнение OCR-моделей: granite-docling-258m vs granite-docling-2stage-258m — кто точнее?

Тесты granite-docling-258m и granite-docling-2stage-258m от IBM: какой OCR точнее? Примеры, производительность, кому подходит. Обзор 2026.

Обзор
С

Сравнение всех TTS моделей до 2026: бенчмарк и результаты для локального использования

Первый открытый бенчмарк TTS моделей для Windows, Mac и Linux. Результаты тестов, неожиданные лидеры и практические советы по выбору синтезатора речи.

Обзор
Н

Новые MLLM-as-a-Judge evaluator в Strands Evals: автоматическая оценка image-to-text задач

Разбираем четыре новых мультимодальных оценщика в Strands Evals SDK. Как автоматизировать проверку captioning, OCR и VQA с помощью MLLM-судей.

Обзор
G

G4-MeroMero-26B-A4B-it-uncensored-heretic: когда модель говорит всё, а отказывается только в 12% случаев

Uncensored версия Gemma-4 26B с низким KLD и 12% отказов. Сравнение с Qwen3.5, MiniMax, GLM-4.7. Кому нужен такой инструмент и почему 12% — это много.

Обзор
O

OpenAI Voice Intelligence API: GPT Realtime 2, задержка, контекст и защита — что нужно знать разработчикам

Новый голосовой API от OpenAI: GPT Realtime 2, компромиссы задержки, контекст и защита от инъекций. Сравнение с альтернативами и примеры для разработчиков.

Обзор