Учебные материалы
Как исправить бесконечное мышление Qwen 3.5 9B на Mac: пошаговое руководство с Hugind
Полное руководство по фиксу бесконечной генерации Qwen 3.5 9B на Apple Silicon. Настройка YAML, metal_unified preset, работа с GGUF.
Как остановить галлюцинации Whisper в тишине: блоклист из 135 фраз и решение проблемы
Whisper генерирует текст в тишине? Решение: блоклист из 135 фраз, работа с no_speech_prob и исправление декодера. Практический гайд на 2026 год.
Как эффективно квантовать MoE-модели: разбор новой методики Unsloth для Qwen 3.5 с KLD-метриками
Пошаговое руководство по квантованию MoE-моделей Qwen 3.5 с использованием новой методики Unsloth и калибровки KL-дивергенцией. Оптимизация размера и качества.
Автоматизация аналитики: готовый Python-скрипт на 75 строк для замены аналитика с помощью Claude API и pandas
Готовый скрипт на Python для автоматического анализа финансовых отчетов с помощью Claude API и pandas. Экономит часы работы аналитика.
Dr. Zero: как заставить AI-агентов учиться самостоятельно, без датасетов и людей
Полное руководство по фреймворку Dr. Zero от Hugging Face. Узнайте, как два AI-агента (Solver и Proposer) учат друг друга без человеческих данных. Установка, на
Какая модель лучше для NER на русском: практическое сравнение RuModernBERT и multilingual-e5-base на реальных данных
Практический эксперимент по извлечению именованных сущностей на русском языке. Сравниваем две современные модели на реальных данных, смотрим на метрики F1-score
Исправление ошибки: Qwen 3.5 выводит бессмыслицу после 2-3 ответов в Llama.cpp (глубокий разбор и решения)
Глубокий разбор ошибки Qwen 3.5 в Llama.cpp, когда модель выводит бессмыслицу после 2-3 ответов. Пошаговые решения, настройки квантования и параметров на 05.03.
Тестирование Qwen3.5 на NVIDIA V100 с NVLink: скорость inference, настройка и оптимизация
Полный гайд по запуску Qwen3.5 на NVIDIA V100 с NVLink. Актуальные цифры скорости (до 80 t/s), пошаговая настройка multi-GPU, квантование и тонкая оптимизация i
Как добиться 85% на SimpleQA с Llama-3.2 3B и Keiro API: локальный запуск за $0.005 за запрос
Практический гайд по достижению 85% точности на SimpleQA с локальной Llama-3.2 3B и Keiro API. Стоимость запроса всего $0.005. Пошаговая инструкция.
Математическая революция: почему механизм внимания — это проблема d², а не n²
Разбор анонимного доказательства, показывающего, что истинная сложность механизма внимания — O(d²), а не O(n²). Как это изменит архитектуру трансформеров и эффе
Сравнительный тест Qwen3.5: 4B, 9B и 27B модели в Ollama на Radeon 7900XTX
Практический бенчмарк Qwen3.5 моделей на Radeon 7900XTX. Сравнение скорости и качества ответов. Код для повторения тестов.
Почему LM Studio медленнее llama.cpp для MoE-моделей: разбор и настройка для максимальной скорости
Разбираем, почему LM Studio в 2.5 раза медленнее llama.cpp для MoE-моделей и даем пошаговую настройку для максимальной скорости.