Инструменты
Подборка AI-инструментов. Только то, что работает.
LLaDA2.1: токен-эдит взрывает локальные LLM — 1500+ TPS на слабом железе
Как токен-эдит в LLaDA2.1 дает 1500+ TPS на локальных моделях. Технология параллельного декодирования против классического инференса.
MiniMax-M2.5 230B MoE в GGUF: как заставить гиганта работать на Mac M3 Max 128GB
Подробный гайд по запуску 230B MoE модели MiniMax-M2.5 в формате GGUF на Mac M3 Max 128GB. Квантизация Q3_K_L, оптимизация памяти, реальные тесты производительн
Как запустить GPT-OSS (20B) в браузере на WebGPU: туториал по Transformers.js и ONNX Runtime Web
Практический гайд по запуску 20-миллиардной модели GPT-OSS локально в браузере с WebGPU ускорением через Transformers.js и ONNX Runtime Web
MiniMax-M2.5 на MLX: стоит ли игра свеч с 3-bit квантованием?
Бенчмарк производительности и качества MiniMax-M2.5 с разным квантованием на MLX. Сравнение 3-bit и 4-bit версий на Mac с 96GB+ памяти. Реальные цифры и практич
Minimax M2.5: китайский снайпер, который бьет Claude и GPT-4o по коду
Обзор Minimax M2.5 — новой модели для программирования, которая обходит Claude 4.5 и GPT-5.3 Codex в тестах. Открытые веса, самохостинг, дешевый API.
oMLX: когда ваш Mac превращается в сервер с SSD-кешем для LLM
Полное руководство по установке и использованию oMLX - локального inference-сервера с paged SSD caching для Apple Silicon. Ускоряет coding agents и работу с LLM
MumbleFlow: Голосовой блокнот, который исправляет ваше бормотание
Сборка локального голосового ассистента для очистки текста из речи. Whisper.cpp + Llama.cpp + Tauri. Полный контроль, 50 МБ ОЗУ, задержка <1с.
Protenix-v1 от ByteDance: как запустить модель для предсказания биомолекулярных структур
Пошаговая инструкция по запуску open-source модели Protenix-v1 от ByteDance для предсказания биомолекулярных структур. Сравнение с AlphaFold 3.
Conductor: Google наконец-то сделала CLI для оркестрации агентов Gemini, который не сжигает все токены
Обзор Google Conductor — CLI для оркестрации агентных workflow с Gemini. Хранение знаний в Markdown, сравнение с альтернативами, примеры использования.
Как студент создал мультимодальную модель Dhi-5B за $1200: архитектура, обучение с нуля и кейс для стартапов
Студент создал 5-миллиардную мультимодальную модель Dhi-5B за $1200. SwiGLU, FlashAttention-3, Muon optimizer - технические детали и кейс для AI-стартапов.
ZwZ-8B: как китайцы научили модель видеть детали без тормозного увеличения картинок
Обзор архитектуры ZwZ-8B: как работает мультимодальная модель с детальным восприятием изображений без увеличения во время инференса. Сравнение с Qwen3-VL и друг
Step 3.5 Flash под капотом: как модель работает локально и что о ней говорят создатели
Разбираем Step 3.5 Flash: технические детали локального запуска, требования к железу, сравнение производительности и эксклюзивные ответы от разработчиков.