Инструменты для работы с AI

d

dlmserve: Первый открытый движок для инференса диффузионных языковых моделей – установка и тест на RTX 5070

Установка и тест dlmserve — первого открытого сервинг-движка для диффузионных языковых моделей (LLaDA) на RTX 5070. Результаты, сравнение с PyTorch, инструкция

Обзор

O

OSCAR KV Quant: как Together AI ужал KV-кэш до 2 бит без потери качества

Разбор OSCAR KV Quant — новой open-source техники квантования KV-кэша. Сравнение с TurboQuant, Attn-rot, Subquadratic Attention. Бенчмарки и примеры.

Обзор

S

SkillOpt: как превратить ваши .md файлы в обучаемые параметры для LLM

SkillOpt — open-source инструмент для оптимизации markdown-навыков под LLM. Разбираем, как он работает, с чем его едят, и кому он реально сэкономит нервы.

Обзор

S

Shard: 10× сжатие KV-кэша для Llama 3.1 8B без потери качества — обзор метода и применения

Разбираем метод Shard: сжатие KV-кэша в 10 раз с PCA и int4 для Llama 3.1 8B. Сравнение с Delta-KV, TurboQuant, Binary KV cache. Примеры использования в Hugging

Обзор

K

KV Cache Calculator: считаем память для LLM и не даем GPU захлебнуться

Онлайн-инструмент для расчета памяти KV cache под любую LLM. Сравнение с аналогами, примеры для Llama 3, Qwen, Mistral. Узнайте, сколько VRAM нужно для вашего к

Обзор

H

Heretic: инструмент для снятия guardrails с Llama 3.3 – как это работает и чем грозит

Инструмент Heretic вырезает цензуру из Llama 3.3 за минуты. Разбираем механизм, опасность и позицию Financial Times. Что будет с безопасностью ИИ?

Обзор

M

MCP from Scratch: пишем локального агента на node-llama-cpp и GGUF моделях за вечер

Полный гайд по созданию MCP-сервера на Node.js с локальной LLM через node-llama-cpp. Научу писать агентный цикл, JSON-RPC и stdio transport без готовых решений.

Обзор

С

Сравнение OCR-моделей: granite-docling-258m vs granite-docling-2stage-258m — кто точнее?

Тесты granite-docling-258m и granite-docling-2stage-258m от IBM: какой OCR точнее? Примеры, производительность, кому подходит. Обзор 2026.

Обзор

С

Сравнение всех TTS моделей до 2026: бенчмарк и результаты для локального использования

Первый открытый бенчмарк TTS моделей для Windows, Mac и Linux. Результаты тестов, неожиданные лидеры и практические советы по выбору синтезатора речи.

Обзор

Н

Новые MLLM-as-a-Judge evaluator в Strands Evals: автоматическая оценка image-to-text задач

Разбираем четыре новых мультимодальных оценщика в Strands Evals SDK. Как автоматизировать проверку captioning, OCR и VQA с помощью MLLM-судей.

Обзор

G

G4-MeroMero-26B-A4B-it-uncensored-heretic: когда модель говорит всё, а отказывается только в 12% случаев

Uncensored версия Gemma-4 26B с низким KLD и 12% отказов. Сравнение с Qwen3.5, MiniMax, GLM-4.7. Кому нужен такой инструмент и почему 12% — это много.

Обзор

O

OpenAI Voice Intelligence API: GPT Realtime 2, задержка, контекст и защита — что нужно знать разработчикам

Новый голосовой API от OpenAI: GPT Realtime 2, компромиссы задержки, контекст и защита от инъекций. Сравнение с альтернативами и примеры для разработчиков.

Обзор