Инструменты для работы с AI

G

Ghost Engine: как запустить Llama-3-8B на 3 ГБ VRAM и не сойти с ума

Революционный метод сжатия LLM через архитектуру Predator-Prey. Запускаем Llama-3-8B на 3 ГБ видеопамяти — полный обзор технологии.

Обзор

C

Claude Cowork: полный обзор агентского режима Anthropic на macOS — возможности, интеграции и реальные недостатки

Разбираем Claude Cowork — агентский режим Anthropic для macOS. Как работает изолированная Linux VM, интеграции MCP, подписка Claude Max. Реальные проблемы с про

Обзор

O

On-device браузерный агент на Qwen: локальный Chrome без облаков

Как установить и использовать браузерный AI-агент на Qwen для автоматизации задач прямо в Chrome без интернета. On-device решение для приватности.

Обзор

О

Оптимизированный Top-K для LLM: ускорение инференса в 20 раз на CPU с AVX2

Как оптимизированный Top-K с AVX2 ускоряет выборку токенов в llama.cpp до 20 раз на обычных процессорах. Бенчмарки, интеграция, сравнение с альтернативами.

Обзор

W

WallPlan: как нейросети генерируют планировки через графы стен, а не пиксели

Технический разбор WallPlan - нейросети, которая генерирует архитектурные планировки через графы стен, а не пиксели. Три CNN: WinNet, GraphNet, LabelNet.

Обзор

I

Iris Agent: фреймворк, где вы видите каждую шестерёнку

Обзор минималистичного Iris Agent - open-source фреймворка для создания и обучения AI-агентов с полной прозрачностью архитектуры.

Обзор

F

FLUX.2 Klein на стероидах: заставляем 9B-модель летать быстрее мысли на A100

Готовые скрипты Gradio и FastAPI для FLUX.2 Klein с оптимизациями torch.compile и fused QKV. Запуск за 0.9 секунды на A100.

Обзор

S

SEDAC v5: обзор фреймворка динамического ускорения LLM на основе семантической энтропии - применение для edge-устройств

Обзор фреймворка SEDAC v5 для динамического ускорения инференса языковых моделей на edge-устройствах с помощью семантической энтропии. Сравнение, примеры, реком

Обзор

c

cuda-nn: как запустить MoE-модель на 6.9B параметров без PyTorch на Rust, Go и CUDA

Обзор cuda-nn — inference движка на Rust, Go и CUDA для запуска MoE моделей на 6.9B параметров без PyTorch. Сравнение с альтернативами, оптимизация ядер.

Обзор

G

GFN v2.5.0: архитектура, которая забывает о памяти и вспоминает в 500 раз дальше

Как GFN решает проблему квадратичной сложности памяти трансформеров. Сравнение с альтернативами, примеры использования и кому подойдет эта архитектура.

Обзор

К

Книги на слух, без облаков: строим локальную фабрику аудиокниг с XTTS и GPT-SoVITS

Пошаговый обзор open-source проекта для полной автономной конвертации книг в аудио. Локально, без подписок, с модульными движками синтеза речи.

Обзор

G

GPU Rental Price Tracker: как следить за ценами на облачные GPU и экономить на аренде

Обзор GPU Rental Price Tracker — инструмента для отслеживания цен на облачные GPU. Сравнение провайдеров, настройка алертов, реальная экономия на аренде A100, H

Обзор