Инструменты для работы с AI

M

Mellum2: открытая быстрая модель от JetBrains для AI-воркфлоу - обзор и запуск

Обзор Mellum2 - новой открытой модели JetBrains с высокой скоростью инференса. Технические детали, сравнение с аналогами, примеры запуска локально.

Обзор

К

Как встроить MCP-сервер ритейлера в ИИ-агента: кейс бота «Су-Шеф» от семиклассников

Семиклассники создали бота, который покупает продукты через MCP. Разбираем, как встроить MCP-сервер ритейлера в агента, код и архитектура.

Обзор

O

Odysseus от PewDiePie: обзор self-hosted AI workspace для приватной работы с LLM и агентами

Разбираем Odysseus — open-source AI-хаб от PewDiePie. Чат, агенты, своя память и полный контроль над данными. Сравнение с альтернативами, примеры и вердикт.

Обзор

V

VibeETL: быстрая визуальная альтернатива Alteryx на Polars и React Flow — обзор и возможности

Обзор VibeETL — open-source визуального ETL на Polars и React Flow. Сравнение с Alteryx, примеры, кому подойдет. Бесплатный drag-and-drop конструктор пайплайнов

Обзор

Д

Добавляем MoE-руки к замороженному Mamba: создание 2.54B модели на одной RTX 3060 с разбором ошибок

Собираем гибрид Mamba и MoE на 12GB VRAM: от архитектуры до дистилляции DeepSeek CoT. Разбираем взрыв PreNorm, SSM-повторения и учим модель рассуждать.

Обзор

К

Как запустить NVIDIA Parakeet локально с GGUF‑квантованием: порт на ggml и сравнение с NeMo

Как запустить ASR модель NVIDIA Parakeet без Python на CPU/GPU с GGUF квантованием. Сравнение с NeMo, примеры команд, кому подойдет.

Обзор

m

mlx-Chronos: мерило правды среди MLX-движков — открытый бенчмарк и лидерборд для Mac

Как объективно сравнить MLX, llama.cpp, RunAnywhere.ai на Mac? mlx-Chronos — стандартизированные тесты и лидерборд. Инструкция по запуску и примеры.

Обзор

A

APEX-MTP-GGUF для Qwen3.6-35B-A3B-Claude-4.7: квантование, которое ест только H100 и не подавится

Новое APEX-квантование для MoE-модели Qwen3.6-35B с дистилляцией Claude Opus. Требования к железу, сравнение с Q4_K_M и TurboQuant, примеры запуска на DGX Spark

Обзор

D

DeepSeek-V4: Architecture Deep Dive for Long-Context Agentic Workloads (1M Token Context)

Разбираем архитектуру DeepSeek-V4 с контекстом 1 млн токенов: как 27% FLOPs reduction и оптимизация KV cache меняют правила для агентов. Сравнение с GPT-4, Gemi

Обзор

E

Ettin Reranker Family: шесть гильотин для посредственного поиска. И да, код обучения открыт

Разбор Ettin Reranker от Sentence Transformers: ModernBERT, дистилляция, сравнение с Cohere и BGE, примеры использования. Кому подойдут и как кастомизировать.

Обзор

D

DiffuJudge-AV: калиброванная оценка видеомоделей через Tweedie-денойзинг

Обзор DiffuJudge-AV — фреймворка для калибровки LLM-судей при оценке видео. Методология Tweedie posterior mean, сравнение с LingoQA, примеры использования.

Обзор

Q

Qdrant TurboQuant: сжимаем векторную память без потерь для production-поиска

Разбор Qdrant TurboQuant — онлайн-квантование эмбеддингов без калибровки. Сравнение со скалярным и бинарным квантованием, примеры кода и эксперименты.

Обзор