Инструменты для работы с AI

О

Обзор Ollie: локальный AI-редактор кода с прозрачностью и без подписки

Ollie - локальный AI-редактор кода с интеграцией Ollama, одноразовой покупкой и полной прозрачностью токенов. Обзор возможностей, сравнение и примеры использова

Обзор

M

MRI-GPT: Собираем локальный ИИ-ассистент для анализа МРТ позвоночника

Пошаговый гайд по сборке MRI-GPT — локального инструмента для сегментации и анализа МРТ позвоночника с помощью Qwen3-VL:8b и nnU-Net. Работает без интернета.

Обзор

К

Как я взломал ограничения NVIDIA: написал плагин на 1500 строк C для кластеризации 3 DGX Sparks

Реальный кейс: как я написал RDMA-плагин на чистом C для объединения 3 DGX Sparks в кластер, преодолев официальные ограничения NVIDIA. Подробности реализации, с

Обзор

К

Как ускорить инференс LLM на 20% с помощью Cerebellum: архитектура Early Exit, SLERP и Dynamic RoPE

Обзор Cerebellum — инструмента для ускорения инференса LLM. Разбираем архитектуру Early Exit, SLERP интерполяцию и Dynamic RoPE. Примеры, сравнение с альтернати

Обзор

M

Ministral-3-14B-Reasoning: как маленькая модель бьёт гигантов в бенчмарках — разбор результатов

Разбор результатов Ministral-3-14B-Reasoning в бенчмарках LiveCodeBench, GPQA, AIME. Почему 14B модель обходит конкурентов с 70B+ параметрами.

Обзор

G

GLM 4.7 против MiniMax M2.1: ломаем код на реальной задаче по CLI

Детальный тест двух моделей на создании CLI-утилиты. Сравнение архитектурных решений, качества кода и практической применимости.

Обзор

C

Chief CLI: как автоматизировать кодирование с Claude и git worktrees по методу Ralph Wiggum

Автоматизируйте программирование с Claude Code через git worktrees. Структурированный подход к верификации кода и планированию задач.

Обзор

B

Bare-metal инференс Llama 2 на C++20: когда память становится стеной

Разбираем inference engine без зависимостей, написанный на C++20. Анализ кода, оптимизация памяти и борьба с Memory Wall на ARM-архитектуре.

Обзор

n

nanoRLHF: Когда образовательный проект бьет по зубам промышленные фреймворки

Разбираем nanoRLHF — минималистичную реализацию RLHF с Flash Attention и Triton. Образовательный проект, который обучил Qwen3 и показал, как работают большие фр

Обзор

S

SimpleLLM vs vLLM: когда скорость важнее латентности

Сравнение SimpleLLM и vLLM, тесты на GPU, как запустить минимальный движок для GPT-OSS-120B с максимальной пропускной способностью.

Обзор

G

GLM-4.6v 108B в 4-битном квантовании IQuant: тест на реальном железе, скорость и качество генерации

Практический тест GLM-4.6v 108B модели в 4-битном IQuant квантовании на Threadripper 1920x и RTX 5060Ti. Скорость 4-11 токенов/сек, сравнение с Nous Hermes, реа

Обзор

L

LFM2.5 1.2B Instruct: когда маленький размер - большое преимущество

Обзор и практическое тестирование LFM2.5 1.2B Instruct. Почему эта модель обходит конкурентов в задачах извлечения данных и агентских сценариях на слабом железе

Обзор