Инструменты
Подборка AI-инструментов. Только то, что работает.
APEX MoE квантизация: 30+ моделей с ускорением до 33% и новый ультра-сжатый I-Nano уровень
Обзор APEX — MoE-aware mixed-precision квантизация. Ускорение до 33%, поддержка 30+ моделей, ультра-сжатый уровень I-Nano. Сравнение с аналогами, тесты скорости
DGX Spark + M3 Ultra: собираем распределённый инференс с разделением prefill/decode на llama.cpp
Эксперимент: разъединяем prefill и decode между DGX Spark и M3 Ultra на llama.cpp. Результаты, команды, узкие места — для тех, кто хочет выжать максимум из гете
LLMSearchIndex: 200 миллионов страниц для локального RAG — Tavily и Perplexity больше не нужны?
LLMSearchIndex — open-source библиотека с 200 млн проиндексированных страниц для локального веб-поиска в RAG-пайплайнах. Сравнение с альтернативами, примеры код
Llama.cpp MTP: как включить Multi-Token Prediction в бета-версии для ускорения инференса
Как активировать MTP в бета-сборке llama.cpp? Инструкция, тесты скорости на Qwen и Llama, сравнение с mlx-lm и vLLM. Ускорение до 2x на слабом железе.
Создаём AI-репетитора по английскому на Go с Clean Architecture и четырьмя LLM: полный разбор кода
Подробный гайд по созданию AI-репетитора английского языка на Go: Clean Architecture, интеграция GPT-4o, Claude, Mistral, Gemini. Архитектура, примеры кода, сра
Hummingbird+: FPGA-ускоритель для LLM за $150 – обзор производительности Qwen3-30B-A3B Q4 на 24GB
FPGA-ускоритель Hummingbird+ запускает Qwen3-30B-A3B Q4 со скоростью 18 токенов/с на 24GB. Стоит $150 - реальная альтернатива GPU. Подробные тесты и сравнения.
Daggr: цепляй AI-приложения кодом, а отлаживай глазами — стартуем
Знакомство с библиотекой Daggr: пишем AI-пайплайны на Python, визуализируем граф, отлаживаем каждый узел. Сравнение с LangChain, примеры кода.
Granite 4.1: IBM сделала маленькие модели, которые бьют гигантов — архитектура, RL и секрет DAPO
Разбор IBM Granite 4.1: архитектура 3B/8B/30B, претрейнинг на 15 трлн токенов, RL с GRPO и DAPO. 8B модель уделывает 32B MoE. Кому подходит, бенчмарки, сравнени
AI-агент спроектировал RISC-V процессор: как Verkor.io создал VerCore с помощью Design Conductor
Первый в мире случай полного проектирования CPU AI-агентом. Обзор платформы Design Conductor, создавшей RISC-V процессор VerCore. Как это изменит chip-дизайн?
Как заблокировать нежелательные фразы в llama.cpp: готовый скрипт и инструкция по настройке
Готовый скрипт на Python для фильтрации вывода llama.cpp. Установка, примеры, сравнение с альтернативами. Блокируйте конкретные слова и фразы в генерации.
Memory MCP для LLM: гибридный поиск BM25+вектора+RRF на Qwen3.5-4B — установка и настройка
Пошаговая установка и настройка Memory MCP сервера для долговременной памяти LLM. Гибридный поиск BM25 + векторные эмбеддинги + RRF ранжирование на Qwen3.5-4B.
Запуск Qwen3.6-27B с agentic search на одной 3090: достижение 95.7% SimpleQA локально
Как запустить Qwen3.6-27B с агентическим поиском на одной RTX 3090 и обогнать GPT-4o в фактологической точности. Инструкция и тесты.