Инструменты
Подборка AI-инструментов. Только то, что работает.
Multi-Agent AI для CNC-мастерских: разбор системы MachinaCheck на AMD MI300X
Разбираем MachinaCheck — multi-agent систему для анализа STEP-файлов на AMD MI300X. Сравнение с альтернативами, реальные кейсы, кому подойдёт.
Как разогнать DeepSeek-V4-Flash до 85 токенов в секунду: MTP, W4A16 и RTX PRO 6000
Гайд по настройке DeepSeek-V4-Flash с MTP-спекуляцией и квантованием W4A16+FP8: 85 tok/s на двух RTX PRO 6000. Конфиг llama.cpp, профилирование GPU, сравнение с
16 гигов для OCR в 2026: что реально влезет и как не нарваться на тормоза
Сравнение PaddleOCR, GLM-OCR, Nemotron OCR v2 и других моделей для видеокарт с 16 ГБ VRAM. Тесты на печатном тексте, рукописях и формулах. Рекомендации по выбор
Как субъективно оценить скорость генерации LLM: скрипт для визуализации tokens/s
Узнайте, как скрипт визуализации токенов в секунду помогает реально ощутить скорость генерации LLM, сравнить квантования и избежать иллюзий бенчмарков.
NCCL-Free Tensor Parallelism в llama.cpp: две Blackwell GPU работают без лишних танцев с бубном
Разбираем новую фичу llama.cpp b9095 — тензорный параллелизм без NCCL на двух Blackwell. Как это работает, кому нужно и почему проще, чем кажется.
BarkingDog: как я гонял Telegram-бота на LLM через адский редтиминг
Разбираем BarkingDog — open-source утилиту для автоматического тестирования безопасности Telegram-ботов на базе LLM. Примеры атак, сравнение с аналогами и практ
EMO: эмерджентная модульность в MoE — новая парадигма обучения языковых моделей
Разбираем EMO — новый подход к Mixture of Experts, который включает только 12.5% экспертов без балансировки нагрузки. Сравнение с DeepSeek, Qwen, анализ архитек
ds4 WebUI: минимализм, который не бесит, или как antirez подарил нам UI для сервера из одного файла
Обзор ds4-webui — минималистичного веб-интерфейса для сервера ds4 от antirez. Сравнение с Oobabooga, Jan AI, LM Studio и Open WebUI, примеры использования, для
Три в одном: Nvidia Star Elastic — как 12B, 23B и 30B живут в одном файле, и зачем тебе Zero-Shot Slicing
Nvidia Star Elastic хранит три модели в одном чекпоинте. Узнайте, как работает Zero-Shot Slicing, и получите пошаговое руководство по запуску на своем железе.
OncoAgent: open-source мультиагентная система для онкологии на LangGraph и QLoRA
Обзор OncoAgent — мультиагентной системы на LangGraph и QLoRA для анализа рака. Приватное развертывание на AMD MI300X. Сравнение с Med-PaLM, примеры.
LazyWeb: бесплатный MCP-сервер для AI-дизайна интерфейсов с пулом из 257 000 экранов реальных приложений
Бесплатный MCP-сервер LazyWeb с пулом из 257 000 реальных скриншотов приложений. Решает проблему AI-look, помогает генерировать уникальные интерфейсы через Clau
BeeLlama.cpp: форк llama.cpp с TurboQuant и DFlash – ускорение Qwen 27B до 135 tps на 3090
Обзор форка llama.cpp с TurboQuant и DFlash: как выжать 135 tps из Qwen 27B на RTX 3090. Детали квантования Q5, контекст 200k, сравнение с альтернативами.