Инструменты
Подборка AI-инструментов. Только то, что работает.
dlmserve: Первый открытый движок для инференса диффузионных языковых моделей – установка и тест на RTX 5070
Установка и тест dlmserve — первого открытого сервинг-движка для диффузионных языковых моделей (LLaDA) на RTX 5070. Результаты, сравнение с PyTorch, инструкция
OSCAR KV Quant: как Together AI ужал KV-кэш до 2 бит без потери качества
Разбор OSCAR KV Quant — новой open-source техники квантования KV-кэша. Сравнение с TurboQuant, Attn-rot, Subquadratic Attention. Бенчмарки и примеры.
SkillOpt: как превратить ваши .md файлы в обучаемые параметры для LLM
SkillOpt — open-source инструмент для оптимизации markdown-навыков под LLM. Разбираем, как он работает, с чем его едят, и кому он реально сэкономит нервы.
Shard: 10× сжатие KV-кэша для Llama 3.1 8B без потери качества — обзор метода и применения
Разбираем метод Shard: сжатие KV-кэша в 10 раз с PCA и int4 для Llama 3.1 8B. Сравнение с Delta-KV, TurboQuant, Binary KV cache. Примеры использования в Hugging
KV Cache Calculator: считаем память для LLM и не даем GPU захлебнуться
Онлайн-инструмент для расчета памяти KV cache под любую LLM. Сравнение с аналогами, примеры для Llama 3, Qwen, Mistral. Узнайте, сколько VRAM нужно для вашего к
Heretic: инструмент для снятия guardrails с Llama 3.3 – как это работает и чем грозит
Инструмент Heretic вырезает цензуру из Llama 3.3 за минуты. Разбираем механизм, опасность и позицию Financial Times. Что будет с безопасностью ИИ?
MCP from Scratch: пишем локального агента на node-llama-cpp и GGUF моделях за вечер
Полный гайд по созданию MCP-сервера на Node.js с локальной LLM через node-llama-cpp. Научу писать агентный цикл, JSON-RPC и stdio transport без готовых решений.
Сравнение OCR-моделей: granite-docling-258m vs granite-docling-2stage-258m — кто точнее?
Тесты granite-docling-258m и granite-docling-2stage-258m от IBM: какой OCR точнее? Примеры, производительность, кому подходит. Обзор 2026.
Сравнение всех TTS моделей до 2026: бенчмарк и результаты для локального использования
Первый открытый бенчмарк TTS моделей для Windows, Mac и Linux. Результаты тестов, неожиданные лидеры и практические советы по выбору синтезатора речи.
Новые MLLM-as-a-Judge evaluator в Strands Evals: автоматическая оценка image-to-text задач
Разбираем четыре новых мультимодальных оценщика в Strands Evals SDK. Как автоматизировать проверку captioning, OCR и VQA с помощью MLLM-судей.
G4-MeroMero-26B-A4B-it-uncensored-heretic: когда модель говорит всё, а отказывается только в 12% случаев
Uncensored версия Gemma-4 26B с низким KLD и 12% отказов. Сравнение с Qwen3.5, MiniMax, GLM-4.7. Кому нужен такой инструмент и почему 12% — это много.
OpenAI Voice Intelligence API: GPT Realtime 2, задержка, контекст и защита — что нужно знать разработчикам
Новый голосовой API от OpenAI: GPT Realtime 2, компромиссы задержки, контекст и защита от инъекций. Сравнение с альтернативами и примеры для разработчиков.