Учебные материалы
Как устроены галлюцинации в LLM: исследуем геометрию residual stream
Разбираем, как residual stream в трансформерах приводит к галлюцинациям. Методы анализа траекторий представлений по слоям для отладки LLM на 2026 год.
Архитектура deep research агентов: сравнение подходов к веб-поиску и скрапингу (Exa, Tavily, Playwright)
Полное сравнение Exa, Tavily и Playwright для сбора данных в deep research агентах. Как выбрать подход и построить архитектуру, которая не сломается.
Квантование Qwen3.5-27B до 8 бит: практика, которая меняет правила игры
Полное сравнение fp8 и bf16 квантования для Qwen3.5-27B. Тесты на памяти контекста, пошаговое руководство для vLLM, результаты на RTX 6000 Pro.
Как создать ИИ-трейдера OpenClaw без кода: пошаговая настройка и примеры стратегий для Finam Trade API
Пошаговая инструкция по созданию ИИ-трейдера в OpenClaw для автоматической торговли через Finam Trade API. Стратегии, настройка MCP-сервера, примеры.
Опыт квантования Qwen3.5-122B: почему модели >100B параметров не стоит квантить ниже Q4
Почему модели более 100B параметров не стоит квантить ниже Q4: опыт, тесты и альтернативы для экономии VRAM без потери качества.
Собираем локальный ассистент для заметок с транскрипцией и суммаризацией на базе open-source LLM
Полный гайд по сборке приватного ассистента для заметок на базе Whisper 3.1 и Llama 4. Установка, код, оптимизация. Работает оффлайн.
Google AI Ultra для мульти-агентных систем: параллельные воркеры и кросс-модельный консенсус
Полный гайд по использованию Google AI Ultra в мульти-агентных системах. Параллельные воркеры, кросс-модельный консенсус, оптимизация затрат. Инструменты Antigr
Локальные LLM для продакшена: Qwen 3.5 122B vs GPT-oss-120B и Mac M5 128GB для кодинга в 2025
Практическое сравнение локальных LLM Qwen 3.5 122B и GPT-oss-120B для продакшен-кодинга. Разбираем выбор Mac M5 128GB, квантование, скорость и настройку для раб
Как поднять успешность function calling с 6.75% до 100%: методология для qwen3-coder-next (разбор презентации)
Разбор презентации Qwen Korea Meetup: как поднять успешность вызова функций с 6.75% до 100% для qwen3-coder-next. Пошаговая методология.
Рейтинг 14 embedding-моделей для тайского языка: результаты MTEB-тестов и выбор оптимальной
Актуальный рейтинг 14 embedding-моделей для тайского на основе MTEB. Сравнение Qwen3-Embedding, E5, BGE. Выбор по качеству, размеру и скорости.
Сборка Physical AI-конвейера на ROS2 и LeRobot за 30 тыс. рублей: end-to-end imitation learning на манипуляторе SO-101
Практический гайд по сборке end-to-end конвейера imitation learning на манипуляторе SO-101 с ROS2 и LeRobot v0.7.2. Бюджетное решение для реальной робототехники
Как исправить 'overthinking' в Qwen3.5: настройка reasoning-budget в llama.cpp и других движках
Гайд по борьбе с бесконечными размышлениями Qwen3.5. Настройка reasoning-budget в llama.cpp, vLLM и LM Studio для оптимизации токенов и скорости без потери каче