Вы скачали Qwen3.5 35B в EXL3 квантовании, запускаете text-generation-webui, а он плюется ошибками. Знакомо? Модель либо не видит, либо падает с OutOfMemory, либо загружается, но генерирует абракадабру. В теории, exllamav3 должен работать. На практике - целый ад из несовместимых версий, кривых конфигов и скрытых зависимостей.

Проблема в том, что EXL3 (ExLlamaV3) - это относительно новый формат квантования, который постоянно эволюционирует. За последний год он пережил несколько крупных обновлений, которые ломали обратную совместимость. Text-generation-webui (oobabooga) тоже не стоит на месте. В итоге получается классическая ситуация: вы читаете гайд полугодовой давности, следуете ему, а ничего не работает.

Важно на 15.03.2026: EXL3 кванты для Qwen3.5 от разных авторов (например, от AesSedai) могут использовать разные версии библиотеки exllamav3. Устаревшая версия text-generation-webui просто не сможет их прочитать.

Почему это происходит? Корень зла

Здесь не одна проблема, а целый букет. Основные причины:

Версионный ад: ExLlamaV3 0.0.10 требует один подход, а 0.0.12 - уже другой. Text-generation-webui 1.7.0 и 1.8.0 - это почти разные программы.
Конфликт квантований: EXL3 - не единственный формат. Есть еще GGUF, AWQ, GPTQ. Библиотеки для их загрузки иногда конфликтуют между собой в одной среде.
Нехватка памяти: 35B модель в EXL3 все равно жрет много VRAM. Если не настроить параметры загрузки правильно, она либо не влезет, либо будет работать черепашьими темпами.
Кривые веса: Некоторые квантованные версии модели, скачанные с Hugging Face, могут быть повреждены или созданы с ошибками.

Решение - не магическая команда, а системный подход. Нужно синхронизировать версии всего стека, правильно подготовить модель и запустить ее с нужными ключами.

1 Полная пересборка окружения (да, с нуля)

Не пытайтесь патчить или обновлять что-то поверх старой установки. Это главная ошибка. Создаем чистое окружение.

# Удаляем старый репозиторий, если был (предварительно сохранив свои модели!)
cd ~
rm -rf text-generation-webui

# Клонируем САМУЮ СВЕЖУЮ версию на 15.03.2026
git clone https://github.com/oobabooga/text-generation-webui
cd text-generation-webui

# Проверяем актуальный тег или ветку. На март 2026 это может быть v1.9.0 или ветка main.
git checkout main  # или конкретный тег, например, git checkout v1.9.0

💡

Если вы ранее использовали одну-click установщики для Windows, проблема может быть в них. Они часто отстают от репозитория на месяцы. Ручная установка через git - единственный надежный способ на 2026 год.

Теперь устанавливаем зависимости. Обратите внимание на ключевой флаг для установки exllamav3.

# Запускаем установщик. На вопрос про ExLlamaV2 и ExLlamaV3 выбираем ТОЛЬКО V3.
./start_linux.sh --verbose  # или start_windows.bat, start_macos.sh

# В интерактивном меню:
# 1. Выберите "Install/Update dependencies"
# 2. На вопрос "Do you want to install ExLlamaV2?" отвечайте NO (если не нужен V2).
# 3. На вопрос "Do you want to install ExLlamaV3?" отвечайте YES.
# 4. Остальное - по умолчанию.

2 Скачиваем ПРАВИЛЬНУЮ модель EXL3

Не все EXL3 кванты созданы равными. Идем на Hugging Face и ищем модель с пометкой exl3 или EXL3 в названии. Например, Qwen2.5-35B-Instruct-1M-EXL3-8_0 (на март 2026 актуальна уже версия Qwen2.5).

Проверьте дату загрузки модели. Берите ту, что обновлена в последние 1-2 месяца. Старые кванты могут не работать с новой библиотекой.

Внимание! Модель должна содержать в папке все необходимые файлы: config.json, tokenizer.json, model.safetensors и папку с квантованными весами (например, exl3_8.0bpw/). Если есть только файлы .safetensors без конфигурации - это неполная модель.

Скачиваем модель в папку text-generation-webui/models/. Удобнее всего использовать встроенный загрузчик.

# Запускаем webui в режиме командной строки для скачивания
python download-model.py Qwen/Qwen2.5-35B-Instruct-1M-EXL3-8_0

# Или, если модель от другого автора (например, от AesSedai):
python download-model.py AesSedai/Qwen2.5-35B-EXL3-8.0bpw

Хотите узнать больше о лучших квантованиях? Посмотрите обзор Скрытые жемчужины Qwen 3.5, где мы разбираем плюсы и минусы каждого формата.

3 Критическая настройка перед запуском

Теперь самая важная часть. Запускаем text-generation-webui с ПРАВИЛЬНЫМИ аргументами.

Как НЕ надо делать:

# Это устаревший вызов, который почти гарантированно не сработает
python server.py --model Qwen2.5-35B-EXL3 --loader exllamav3

Правильный способ на март 2026:

cd text-generation-webui
python server.py \
  --model AesSedai_Qwen2.5-35B-EXL3-8.0bpw \
  --loader exllamav3 \
  --api \
  --listen \
  --extensions openai \
  --model-dir models/ \
  --gpu-split auto \
  --max-seq-len 16384  # Для моделей с 1M контекста может быть 131072

💡

Ключевые аргументы: --loader exllamav3 явно указывает загрузчик. --gpu-split auto позволяет автоматически распределить слои модели между GPU, если их несколько. Для одной карты можно указать --gpu-split 24 (сколько VRAM выделить в ГБ).

Что делать, если модель все равно не загружается? Диагностика

Смотрим в логи. Они обычно выводятся в консоль или в файл logs/app.log. Ищем ключевые слова: Error, Failed, Unable.

Ошибка	Причина	Решение
`KeyError: 'q_proj'` или подобное	Несовместимость версий exllamav3 и модели. Модель создана для старой версии библиотеки.	Найдите более свежий квант модели или попробуйте откатить exllamav3 на версию, указанную автором модели (редко помогает).
`Out of Memory`	Не хватает VRAM даже для квантованной модели.	Используйте `--gpu-split` для разделения между GPU, или `--cpu` для частичной загрузки на CPU (сильно медленнее), или выберите квант с меньшим битрейтом (например, 6.0 bpw вместо 8.0).
Модель загружается, но выдает бессмыслицу	Проблема с токенизатором или параметрами генерации. Иногда это связано с бесконечным мышлением, как в этой статье про Qwen 3.5 на Mac.	Проверьте, скачался ли токенизатор. Убедитесь, что в UI выбран правильный шаблон чата (например, "Qwen").

4 Альтернатива: запуск через OpenAI-совместимый API

Если webui все еще капризничает, можно запустить модель как чистый ExLlamaV3 сервер и подключиться к нему через API. Это часто стабильнее.

# В папке text-generation-webui, используем встроенный скрипт для ExLlamaV3
python gen.py \
  --model models/AesSedai_Qwen2.5-35B-EXL3-8.0bpw \
  --loader exllamav3 \
  --api \
  --port 5000

Затем в настройках text-generation-webui в разделе "Connections" укажите адрес http://127.0.0.1:5000 и выберите "OpenAI". Модель будет работать как отдельный сервис.

Последний рубеж: если ничего не помогло

Бывает и такое. Тогда ваши действия:

Проверьте железо. 35B модель в EXL3 8.0 bpw требует минимум 20-22 ГБ VRAM для комфортной работы. На 16 ГБ будет тесно, нужны оптимизации (--gpu-split 14 --cache-8bit).
Попробуйте другую модель. Возможно, конкретно этот квант битый. Найдите другого автора. Или временно перейдите на GGUF формат через llama.cpp - он стабильнее, хоть и медленнее. Вот гайд по запуску Qwen в llama.cpp.
Спросите у сообщества. На GitHub Issues проекта text-generation-webui или в дискорд-чате ExLlamaV3 часто отвечают авторы библиотек. Приготовьте полный лог ошибок.

Не игнорируйте предупреждения при запуске. Если видите "WARNING: ExLlamaV3 version 0.0.12, expected 0.0.10+", это прямой сигнал о возможной несовместимости. Обновите или откатите библиотеку.

Вместо заключения: парадокс актуальности

Чем новее и эффективнее технология (как EXL3), тем чаще она ломается. Потому что развивается быстрее, чем успевают адаптироваться фронтенды вроде text-generation-webui. Ваша лучшая стратегия - не искать "серебряную пулю", а научиться читать логи и понимать, какая часть стека отстала.

Через полгода этот гайд может устареть. Но принцип останется: свежий репозиторий, свежая модель, явное указание загрузчика и готовность к ручной диагностике. Если EXL3 будет слишком нестабильным, всегда можно откатиться к проверенному годами GGUF - медленнее, но работает почти всегда. Как, например, в случае с гигантской 397B моделью, где без квантования GGUF вообще не обойтись.

Подписаться на канал

Как решить проблему загрузки Qwen3.5 35B EXL3 квантов в text-generation-webui: пошаговое руководство