Инструменты для работы с AI

M

Multi-Agent AI для CNC-мастерских: разбор системы MachinaCheck на AMD MI300X

Разбираем MachinaCheck — multi-agent систему для анализа STEP-файлов на AMD MI300X. Сравнение с альтернативами, реальные кейсы, кому подойдёт.

Обзор

К

Как разогнать DeepSeek-V4-Flash до 85 токенов в секунду: MTP, W4A16 и RTX PRO 6000

Гайд по настройке DeepSeek-V4-Flash с MTP-спекуляцией и квантованием W4A16+FP8: 85 tok/s на двух RTX PRO 6000. Конфиг llama.cpp, профилирование GPU, сравнение с

Обзор

1

16 гигов для OCR в 2026: что реально влезет и как не нарваться на тормоза

Сравнение PaddleOCR, GLM-OCR, Nemotron OCR v2 и других моделей для видеокарт с 16 ГБ VRAM. Тесты на печатном тексте, рукописях и формулах. Рекомендации по выбор

Обзор

К

Как субъективно оценить скорость генерации LLM: скрипт для визуализации tokens/s

Узнайте, как скрипт визуализации токенов в секунду помогает реально ощутить скорость генерации LLM, сравнить квантования и избежать иллюзий бенчмарков.

Обзор

N

NCCL-Free Tensor Parallelism в llama.cpp: две Blackwell GPU работают без лишних танцев с бубном

Разбираем новую фичу llama.cpp b9095 — тензорный параллелизм без NCCL на двух Blackwell. Как это работает, кому нужно и почему проще, чем кажется.

Обзор

B

BarkingDog: как я гонял Telegram-бота на LLM через адский редтиминг

Разбираем BarkingDog — open-source утилиту для автоматического тестирования безопасности Telegram-ботов на базе LLM. Примеры атак, сравнение с аналогами и практ

Обзор

E

EMO: эмерджентная модульность в MoE — новая парадигма обучения языковых моделей

Разбираем EMO — новый подход к Mixture of Experts, который включает только 12.5% экспертов без балансировки нагрузки. Сравнение с DeepSeek, Qwen, анализ архитек

Обзор

d

ds4 WebUI: минимализм, который не бесит, или как antirez подарил нам UI для сервера из одного файла

Обзор ds4-webui — минималистичного веб-интерфейса для сервера ds4 от antirez. Сравнение с Oobabooga, Jan AI, LM Studio и Open WebUI, примеры использования, для

Обзор

Т

Три в одном: Nvidia Star Elastic — как 12B, 23B и 30B живут в одном файле, и зачем тебе Zero-Shot Slicing

Nvidia Star Elastic хранит три модели в одном чекпоинте. Узнайте, как работает Zero-Shot Slicing, и получите пошаговое руководство по запуску на своем железе.

Обзор

O

OncoAgent: open-source мультиагентная система для онкологии на LangGraph и QLoRA

Обзор OncoAgent — мультиагентной системы на LangGraph и QLoRA для анализа рака. Приватное развертывание на AMD MI300X. Сравнение с Med-PaLM, примеры.

Обзор

L

LazyWeb: бесплатный MCP-сервер для AI-дизайна интерфейсов с пулом из 257 000 экранов реальных приложений

Бесплатный MCP-сервер LazyWeb с пулом из 257 000 реальных скриншотов приложений. Решает проблему AI-look, помогает генерировать уникальные интерфейсы через Clau

Обзор

B

BeeLlama.cpp: форк llama.cpp с TurboQuant и DFlash – ускорение Qwen 27B до 135 tps на 3090

Обзор форка llama.cpp с TurboQuant и DFlash: как выжать 135 tps из Qwen 27B на RTX 3090. Детали квантования Q5, контекст 200k, сравнение с альтернативами.

Обзор