Инструменты
Подборка AI-инструментов. Только то, что работает.
Mellum2: открытая быстрая модель от JetBrains для AI-воркфлоу - обзор и запуск
Обзор Mellum2 - новой открытой модели JetBrains с высокой скоростью инференса. Технические детали, сравнение с аналогами, примеры запуска локально.
Как встроить MCP-сервер ритейлера в ИИ-агента: кейс бота «Су-Шеф» от семиклассников
Семиклассники создали бота, который покупает продукты через MCP. Разбираем, как встроить MCP-сервер ритейлера в агента, код и архитектура.
Odysseus от PewDiePie: обзор self-hosted AI workspace для приватной работы с LLM и агентами
Разбираем Odysseus — open-source AI-хаб от PewDiePie. Чат, агенты, своя память и полный контроль над данными. Сравнение с альтернативами, примеры и вердикт.
VibeETL: быстрая визуальная альтернатива Alteryx на Polars и React Flow — обзор и возможности
Обзор VibeETL — open-source визуального ETL на Polars и React Flow. Сравнение с Alteryx, примеры, кому подойдет. Бесплатный drag-and-drop конструктор пайплайнов
Добавляем MoE-руки к замороженному Mamba: создание 2.54B модели на одной RTX 3060 с разбором ошибок
Собираем гибрид Mamba и MoE на 12GB VRAM: от архитектуры до дистилляции DeepSeek CoT. Разбираем взрыв PreNorm, SSM-повторения и учим модель рассуждать.
Как запустить NVIDIA Parakeet локально с GGUF‑квантованием: порт на ggml и сравнение с NeMo
Как запустить ASR модель NVIDIA Parakeet без Python на CPU/GPU с GGUF квантованием. Сравнение с NeMo, примеры команд, кому подойдет.
mlx-Chronos: мерило правды среди MLX-движков — открытый бенчмарк и лидерборд для Mac
Как объективно сравнить MLX, llama.cpp, RunAnywhere.ai на Mac? mlx-Chronos — стандартизированные тесты и лидерборд. Инструкция по запуску и примеры.
APEX-MTP-GGUF для Qwen3.6-35B-A3B-Claude-4.7: квантование, которое ест только H100 и не подавится
Новое APEX-квантование для MoE-модели Qwen3.6-35B с дистилляцией Claude Opus. Требования к железу, сравнение с Q4_K_M и TurboQuant, примеры запуска на DGX Spark
DeepSeek-V4: Architecture Deep Dive for Long-Context Agentic Workloads (1M Token Context)
Разбираем архитектуру DeepSeek-V4 с контекстом 1 млн токенов: как 27% FLOPs reduction и оптимизация KV cache меняют правила для агентов. Сравнение с GPT-4, Gemi
Ettin Reranker Family: шесть гильотин для посредственного поиска. И да, код обучения открыт
Разбор Ettin Reranker от Sentence Transformers: ModernBERT, дистилляция, сравнение с Cohere и BGE, примеры использования. Кому подойдут и как кастомизировать.
DiffuJudge-AV: калиброванная оценка видеомоделей через Tweedie-денойзинг
Обзор DiffuJudge-AV — фреймворка для калибровки LLM-судей при оценке видео. Методология Tweedie posterior mean, сравнение с LingoQA, примеры использования.
Qdrant TurboQuant: сжимаем векторную память без потерь для production-поиска
Разбор Qdrant TurboQuant — онлайн-квантование эмбеддингов без калибровки. Сравнение со скалярным и бинарным квантованием, примеры кода и эксперименты.