Инструменты для работы с AI

Q

Q4_K_M опережает Q8_0 на 230ms TTFT на Qwen2.5-7B: как config sweep CLI для llama.cpp и vLLM переворачивает бенчмарки

Почему Q4_K_M оказался быстрее Q8_0 на 230ms TTFT в Qwen2.5-7B? Обзор нового CLI для перебора конфигураций llama.cpp и vLLM, находки и практические рекомендации

Обзор

Z

Zvec: почему Alibaba построила самую быструю open-source векторную БД и кто уже использует её в проде

Zvec обгоняет Qdrant, LanceDB и Zilliz Cloud в 2-10 раз. Бенчмарки, архитектура, примеры индексации 10M векторов за 0.8 мс. Кому реально нужна эта БД.

Обзор

L

LLaVA-OV-2: мультимодальная модель, которая смотрит видео через кодек вместо кадров — открытая реализация и датасеты

Разбираем LLaVA-OV-2 - модель, анализирующую видео через H.264 вместо кадров. Открытые веса, датасеты, код. Сравнение с NVILA, Video-LLaVA. Кому подойдет и как

Обзор

N

Nvidia LocateAnything: ускорение vision-language grounding в 10 раз — обзор модели и как запустить локально

Разбор Nvidia LocateAnything — открытой модели для vision-language grounding с 10-кратным ускорением. Сравнение с Qwen3-VL и Youtu-VL, архитектура Eagle, гайд п

Обзор

С

Склейка монстра: как я упаковал 1000 файлов Java в один, чтобы DeepSeek понял проект целиком

Java-скрипт, который собирает весь проект в один файл для DeepSeek, Claude и GPT. Ускорьте код-ревью и рефакторинг — примеры и сравнение с альтернативами.

Обзор

К

Корпус Usenet 1980–2013: 103B токенов без AI-загрязнения для точной настройки моделей

Обзор датасета Usenet 1980-2013: 103B токенов без следов LLM. Идеален для чистого fine-tuning малых моделей. Сравнение с альтернативами и примеры использования.

Обзор

D

Delta Weight Sync в TRL: как сократить передачу данных при async RL обучении с 1 ТБ до 35 МБ

Как новая техника в TRL от Hugging Face позволяет синхронизировать веса в распределенном RL с минимальными затратами трафика. Детальный разбор и пример настройк

Обзор

R

RAG-Anything: мультимодальный RAG фреймворк для обработки PDF, изображений и таблиц без лишних парсеров

Обзор RAG-Anything – нового мультимодального RAG-фреймворка, который сам обрабатывает PDF, таблицы и изображения, избавляя от геморроя с парсерами. Примеры, сра

Обзор

v

vtcode: Rust TUI coding agent с AST-разбиением контекста — как сэкономить кучу токенов на DeepSeek V4 Flash

Разбираем vtcode — open-source терминальный агент для кода на Rust. AST-level chunking, ripgrep, ast-grep и экономия токенов. Сравнение с альтернативами.

Обзор

C

Cactus Hybrid Router: как заставить Gemma4-2B работать как Gemini-3.1-Flash-Lite, не разорившись на API

Гибридный роутер Cactus: Gemma4-2B локально + Gemini для сложных задач. Экономия API, производительность уровня Gemini-3.1-Flash-Lite. Примеры кода и настройка.

Обзор

Q

Quale — инструмент для предотвращения глупых ошибок LLM: обзор и установка

Quale — opensource-библиотека для валидации вывода LLM. Установка, примеры, сравнение с Guardrails и NeMo. Избавьтесь от фактологических ошибок.

Обзор

B

Bonsai Image 4B: первый 1-битный diffusion transformer, который запускает генерацию картинок прямо в браузере (и это работает)

Обзор Bonsai Image 4B — первого ternary-квантованного diffusion transformer (0VQ-VAE + 1-bit DiT), который генерирует 512×512 фото в браузере через WebGPU. Срав

Обзор