Инструменты
Подборка AI-инструментов. Только то, что работает.
Q4_K_M опережает Q8_0 на 230ms TTFT на Qwen2.5-7B: как config sweep CLI для llama.cpp и vLLM переворачивает бенчмарки
Почему Q4_K_M оказался быстрее Q8_0 на 230ms TTFT в Qwen2.5-7B? Обзор нового CLI для перебора конфигураций llama.cpp и vLLM, находки и практические рекомендации
Zvec: почему Alibaba построила самую быструю open-source векторную БД и кто уже использует её в проде
Zvec обгоняет Qdrant, LanceDB и Zilliz Cloud в 2-10 раз. Бенчмарки, архитектура, примеры индексации 10M векторов за 0.8 мс. Кому реально нужна эта БД.
LLaVA-OV-2: мультимодальная модель, которая смотрит видео через кодек вместо кадров — открытая реализация и датасеты
Разбираем LLaVA-OV-2 - модель, анализирующую видео через H.264 вместо кадров. Открытые веса, датасеты, код. Сравнение с NVILA, Video-LLaVA. Кому подойдет и как
Nvidia LocateAnything: ускорение vision-language grounding в 10 раз — обзор модели и как запустить локально
Разбор Nvidia LocateAnything — открытой модели для vision-language grounding с 10-кратным ускорением. Сравнение с Qwen3-VL и Youtu-VL, архитектура Eagle, гайд п
Склейка монстра: как я упаковал 1000 файлов Java в один, чтобы DeepSeek понял проект целиком
Java-скрипт, который собирает весь проект в один файл для DeepSeek, Claude и GPT. Ускорьте код-ревью и рефакторинг — примеры и сравнение с альтернативами.
Корпус Usenet 1980–2013: 103B токенов без AI-загрязнения для точной настройки моделей
Обзор датасета Usenet 1980-2013: 103B токенов без следов LLM. Идеален для чистого fine-tuning малых моделей. Сравнение с альтернативами и примеры использования.
Delta Weight Sync в TRL: как сократить передачу данных при async RL обучении с 1 ТБ до 35 МБ
Как новая техника в TRL от Hugging Face позволяет синхронизировать веса в распределенном RL с минимальными затратами трафика. Детальный разбор и пример настройк
RAG-Anything: мультимодальный RAG фреймворк для обработки PDF, изображений и таблиц без лишних парсеров
Обзор RAG-Anything – нового мультимодального RAG-фреймворка, который сам обрабатывает PDF, таблицы и изображения, избавляя от геморроя с парсерами. Примеры, сра
vtcode: Rust TUI coding agent с AST-разбиением контекста — как сэкономить кучу токенов на DeepSeek V4 Flash
Разбираем vtcode — open-source терминальный агент для кода на Rust. AST-level chunking, ripgrep, ast-grep и экономия токенов. Сравнение с альтернативами.
Cactus Hybrid Router: как заставить Gemma4-2B работать как Gemini-3.1-Flash-Lite, не разорившись на API
Гибридный роутер Cactus: Gemma4-2B локально + Gemini для сложных задач. Экономия API, производительность уровня Gemini-3.1-Flash-Lite. Примеры кода и настройка.
Quale — инструмент для предотвращения глупых ошибок LLM: обзор и установка
Quale — opensource-библиотека для валидации вывода LLM. Установка, примеры, сравнение с Guardrails и NeMo. Избавьтесь от фактологических ошибок.
Bonsai Image 4B: первый 1-битный diffusion transformer, который запускает генерацию картинок прямо в браузере (и это работает)
Обзор Bonsai Image 4B — первого ternary-квантованного diffusion transformer (0VQ-VAE + 1-bit DiT), который генерирует 512×512 фото в браузере через WebGPU. Срав