Инструменты для работы с AI

A

APEX MoE квантизация: 30+ моделей с ускорением до 33% и новый ультра-сжатый I-Nano уровень

Обзор APEX — MoE-aware mixed-precision квантизация. Ускорение до 33%, поддержка 30+ моделей, ультра-сжатый уровень I-Nano. Сравнение с аналогами, тесты скорости

Обзор

D

DGX Spark + M3 Ultra: собираем распределённый инференс с разделением prefill/decode на llama.cpp

Эксперимент: разъединяем prefill и decode между DGX Spark и M3 Ultra на llama.cpp. Результаты, команды, узкие места — для тех, кто хочет выжать максимум из гете

Обзор

L

LLMSearchIndex: 200 миллионов страниц для локального RAG — Tavily и Perplexity больше не нужны?

LLMSearchIndex — open-source библиотека с 200 млн проиндексированных страниц для локального веб-поиска в RAG-пайплайнах. Сравнение с альтернативами, примеры код

Обзор

L

Llama.cpp MTP: как включить Multi-Token Prediction в бета-версии для ускорения инференса

Как активировать MTP в бета-сборке llama.cpp? Инструкция, тесты скорости на Qwen и Llama, сравнение с mlx-lm и vLLM. Ускорение до 2x на слабом железе.

Обзор

С

Создаём AI-репетитора по английскому на Go с Clean Architecture и четырьмя LLM: полный разбор кода

Подробный гайд по созданию AI-репетитора английского языка на Go: Clean Architecture, интеграция GPT-4o, Claude, Mistral, Gemini. Архитектура, примеры кода, сра

Обзор

H

Hummingbird+: FPGA-ускоритель для LLM за $150 – обзор производительности Qwen3-30B-A3B Q4 на 24GB

FPGA-ускоритель Hummingbird+ запускает Qwen3-30B-A3B Q4 со скоростью 18 токенов/с на 24GB. Стоит $150 - реальная альтернатива GPU. Подробные тесты и сравнения.

Обзор

D

Daggr: цепляй AI-приложения кодом, а отлаживай глазами — стартуем

Знакомство с библиотекой Daggr: пишем AI-пайплайны на Python, визуализируем граф, отлаживаем каждый узел. Сравнение с LangChain, примеры кода.

Обзор

G

Granite 4.1: IBM сделала маленькие модели, которые бьют гигантов — архитектура, RL и секрет DAPO

Разбор IBM Granite 4.1: архитектура 3B/8B/30B, претрейнинг на 15 трлн токенов, RL с GRPO и DAPO. 8B модель уделывает 32B MoE. Кому подходит, бенчмарки, сравнени

Обзор

A

AI-агент спроектировал RISC-V процессор: как Verkor.io создал VerCore с помощью Design Conductor

Первый в мире случай полного проектирования CPU AI-агентом. Обзор платформы Design Conductor, создавшей RISC-V процессор VerCore. Как это изменит chip-дизайн?

Обзор

К

Как заблокировать нежелательные фразы в llama.cpp: готовый скрипт и инструкция по настройке

Готовый скрипт на Python для фильтрации вывода llama.cpp. Установка, примеры, сравнение с альтернативами. Блокируйте конкретные слова и фразы в генерации.

Обзор

M

Memory MCP для LLM: гибридный поиск BM25+вектора+RRF на Qwen3.5-4B — установка и настройка

Пошаговая установка и настройка Memory MCP сервера для долговременной памяти LLM. Гибридный поиск BM25 + векторные эмбеддинги + RRF ранжирование на Qwen3.5-4B.

Обзор

З

Запуск Qwen3.6-27B с agentic search на одной 3090: достижение 95.7% SimpleQA локально

Как запустить Qwen3.6-27B с агентическим поиском на одной RTX 3090 и обогнать GPT-4o в фактологической точности. Инструкция и тесты.

Обзор