Вы скачали Qwen3.5 35B в EXL3 квантовании, запускаете text-generation-webui, а он плюется ошибками. Знакомо? Модель либо не видит, либо падает с OutOfMemory, либо загружается, но генерирует абракадабру. В теории, exllamav3 должен работать. На практике - целый ад из несовместимых версий, кривых конфигов и скрытых зависимостей.
Проблема в том, что EXL3 (ExLlamaV3) - это относительно новый формат квантования, который постоянно эволюционирует. За последний год он пережил несколько крупных обновлений, которые ломали обратную совместимость. Text-generation-webui (oobabooga) тоже не стоит на месте. В итоге получается классическая ситуация: вы читаете гайд полугодовой давности, следуете ему, а ничего не работает.
Важно на 15.03.2026: EXL3 кванты для Qwen3.5 от разных авторов (например, от AesSedai) могут использовать разные версии библиотеки exllamav3. Устаревшая версия text-generation-webui просто не сможет их прочитать.
Почему это происходит? Корень зла
Здесь не одна проблема, а целый букет. Основные причины:
- Версионный ад: ExLlamaV3 0.0.10 требует один подход, а 0.0.12 - уже другой. Text-generation-webui 1.7.0 и 1.8.0 - это почти разные программы.
- Конфликт квантований: EXL3 - не единственный формат. Есть еще GGUF, AWQ, GPTQ. Библиотеки для их загрузки иногда конфликтуют между собой в одной среде.
- Нехватка памяти: 35B модель в EXL3 все равно жрет много VRAM. Если не настроить параметры загрузки правильно, она либо не влезет, либо будет работать черепашьими темпами.
- Кривые веса: Некоторые квантованные версии модели, скачанные с Hugging Face, могут быть повреждены или созданы с ошибками.
Решение - не магическая команда, а системный подход. Нужно синхронизировать версии всего стека, правильно подготовить модель и запустить ее с нужными ключами.
1 Полная пересборка окружения (да, с нуля)
Не пытайтесь патчить или обновлять что-то поверх старой установки. Это главная ошибка. Создаем чистое окружение.
# Удаляем старый репозиторий, если был (предварительно сохранив свои модели!)
cd ~
rm -rf text-generation-webui
# Клонируем САМУЮ СВЕЖУЮ версию на 15.03.2026
git clone https://github.com/oobabooga/text-generation-webui
cd text-generation-webui
# Проверяем актуальный тег или ветку. На март 2026 это может быть v1.9.0 или ветка main.
git checkout main # или конкретный тег, например, git checkout v1.9.0
Теперь устанавливаем зависимости. Обратите внимание на ключевой флаг для установки exllamav3.
# Запускаем установщик. На вопрос про ExLlamaV2 и ExLlamaV3 выбираем ТОЛЬКО V3.
./start_linux.sh --verbose # или start_windows.bat, start_macos.sh
# В интерактивном меню:
# 1. Выберите "Install/Update dependencies"
# 2. На вопрос "Do you want to install ExLlamaV2?" отвечайте NO (если не нужен V2).
# 3. На вопрос "Do you want to install ExLlamaV3?" отвечайте YES.
# 4. Остальное - по умолчанию.
2 Скачиваем ПРАВИЛЬНУЮ модель EXL3
Не все EXL3 кванты созданы равными. Идем на Hugging Face и ищем модель с пометкой exl3 или EXL3 в названии. Например, Qwen2.5-35B-Instruct-1M-EXL3-8_0 (на март 2026 актуальна уже версия Qwen2.5).
Проверьте дату загрузки модели. Берите ту, что обновлена в последние 1-2 месяца. Старые кванты могут не работать с новой библиотекой.
Внимание! Модель должна содержать в папке все необходимые файлы: config.json, tokenizer.json, model.safetensors и папку с квантованными весами (например, exl3_8.0bpw/). Если есть только файлы .safetensors без конфигурации - это неполная модель.
Скачиваем модель в папку text-generation-webui/models/. Удобнее всего использовать встроенный загрузчик.
# Запускаем webui в режиме командной строки для скачивания
python download-model.py Qwen/Qwen2.5-35B-Instruct-1M-EXL3-8_0
# Или, если модель от другого автора (например, от AesSedai):
python download-model.py AesSedai/Qwen2.5-35B-EXL3-8.0bpw
Хотите узнать больше о лучших квантованиях? Посмотрите обзор Скрытые жемчужины Qwen 3.5, где мы разбираем плюсы и минусы каждого формата.
3 Критическая настройка перед запуском
Теперь самая важная часть. Запускаем text-generation-webui с ПРАВИЛЬНЫМИ аргументами.
Как НЕ надо делать:
# Это устаревший вызов, который почти гарантированно не сработает
python server.py --model Qwen2.5-35B-EXL3 --loader exllamav3
Правильный способ на март 2026:
cd text-generation-webui
python server.py \
--model AesSedai_Qwen2.5-35B-EXL3-8.0bpw \
--loader exllamav3 \
--api \
--listen \
--extensions openai \
--model-dir models/ \
--gpu-split auto \
--max-seq-len 16384 # Для моделей с 1M контекста может быть 131072
--loader exllamav3 явно указывает загрузчик. --gpu-split auto позволяет автоматически распределить слои модели между GPU, если их несколько. Для одной карты можно указать --gpu-split 24 (сколько VRAM выделить в ГБ).Что делать, если модель все равно не загружается? Диагностика
Смотрим в логи. Они обычно выводятся в консоль или в файл logs/app.log. Ищем ключевые слова: Error, Failed, Unable.
| Ошибка | Причина | Решение |
|---|---|---|
KeyError: 'q_proj' или подобное |
Несовместимость версий exllamav3 и модели. Модель создана для старой версии библиотеки. | Найдите более свежий квант модели или попробуйте откатить exllamav3 на версию, указанную автором модели (редко помогает). |
Out of Memory |
Не хватает VRAM даже для квантованной модели. | Используйте --gpu-split для разделения между GPU, или --cpu для частичной загрузки на CPU (сильно медленнее), или выберите квант с меньшим битрейтом (например, 6.0 bpw вместо 8.0). |
| Модель загружается, но выдает бессмыслицу | Проблема с токенизатором или параметрами генерации. Иногда это связано с бесконечным мышлением, как в этой статье про Qwen 3.5 на Mac. | Проверьте, скачался ли токенизатор. Убедитесь, что в UI выбран правильный шаблон чата (например, "Qwen"). |
4 Альтернатива: запуск через OpenAI-совместимый API
Если webui все еще капризничает, можно запустить модель как чистый ExLlamaV3 сервер и подключиться к нему через API. Это часто стабильнее.
# В папке text-generation-webui, используем встроенный скрипт для ExLlamaV3
python gen.py \
--model models/AesSedai_Qwen2.5-35B-EXL3-8.0bpw \
--loader exllamav3 \
--api \
--port 5000
Затем в настройках text-generation-webui в разделе "Connections" укажите адрес http://127.0.0.1:5000 и выберите "OpenAI". Модель будет работать как отдельный сервис.
Последний рубеж: если ничего не помогло
Бывает и такое. Тогда ваши действия:
- Проверьте железо. 35B модель в EXL3 8.0 bpw требует минимум 20-22 ГБ VRAM для комфортной работы. На 16 ГБ будет тесно, нужны оптимизации (
--gpu-split 14 --cache-8bit). - Попробуйте другую модель. Возможно, конкретно этот квант битый. Найдите другого автора. Или временно перейдите на GGUF формат через llama.cpp - он стабильнее, хоть и медленнее. Вот гайд по запуску Qwen в llama.cpp.
- Спросите у сообщества. На GitHub Issues проекта text-generation-webui или в дискорд-чате ExLlamaV3 часто отвечают авторы библиотек. Приготовьте полный лог ошибок.
Не игнорируйте предупреждения при запуске. Если видите "WARNING: ExLlamaV3 version 0.0.12, expected 0.0.10+", это прямой сигнал о возможной несовместимости. Обновите или откатите библиотеку.
Вместо заключения: парадокс актуальности
Чем новее и эффективнее технология (как EXL3), тем чаще она ломается. Потому что развивается быстрее, чем успевают адаптироваться фронтенды вроде text-generation-webui. Ваша лучшая стратегия - не искать "серебряную пулю", а научиться читать логи и понимать, какая часть стека отстала.
Через полгода этот гайд может устареть. Но принцип останется: свежий репозиторий, свежая модель, явное указание загрузчика и готовность к ручной диагностике. Если EXL3 будет слишком нестабильным, всегда можно откатиться к проверенному годами GGUF - медленнее, но работает почти всегда. Как, например, в случае с гигантской 397B моделью, где без квантования GGUF вообще не обойтись.