Qwen3.5 35B EXL3 в text-generation-webui: решение проблем загрузки | AiManual
AiManual Logo Ai / Manual.
15 Мар 2026 Гайд

Как решить проблему загрузки Qwen3.5 35B EXL3 квантов в text-generation-webui: пошаговое руководство

Пошаговое руководство по решению проблем с загрузкой Qwen3.5 35B EXL3 квантов в text-generation-webui. Обновления на 2026 год, настройка exllamav3, исправление

Вы скачали Qwen3.5 35B в EXL3 квантовании, запускаете text-generation-webui, а он плюется ошибками. Знакомо? Модель либо не видит, либо падает с OutOfMemory, либо загружается, но генерирует абракадабру. В теории, exllamav3 должен работать. На практике - целый ад из несовместимых версий, кривых конфигов и скрытых зависимостей.

Проблема в том, что EXL3 (ExLlamaV3) - это относительно новый формат квантования, который постоянно эволюционирует. За последний год он пережил несколько крупных обновлений, которые ломали обратную совместимость. Text-generation-webui (oobabooga) тоже не стоит на месте. В итоге получается классическая ситуация: вы читаете гайд полугодовой давности, следуете ему, а ничего не работает.

Важно на 15.03.2026: EXL3 кванты для Qwen3.5 от разных авторов (например, от AesSedai) могут использовать разные версии библиотеки exllamav3. Устаревшая версия text-generation-webui просто не сможет их прочитать.

Почему это происходит? Корень зла

Здесь не одна проблема, а целый букет. Основные причины:

  • Версионный ад: ExLlamaV3 0.0.10 требует один подход, а 0.0.12 - уже другой. Text-generation-webui 1.7.0 и 1.8.0 - это почти разные программы.
  • Конфликт квантований: EXL3 - не единственный формат. Есть еще GGUF, AWQ, GPTQ. Библиотеки для их загрузки иногда конфликтуют между собой в одной среде.
  • Нехватка памяти: 35B модель в EXL3 все равно жрет много VRAM. Если не настроить параметры загрузки правильно, она либо не влезет, либо будет работать черепашьими темпами.
  • Кривые веса: Некоторые квантованные версии модели, скачанные с Hugging Face, могут быть повреждены или созданы с ошибками.

Решение - не магическая команда, а системный подход. Нужно синхронизировать версии всего стека, правильно подготовить модель и запустить ее с нужными ключами.

1 Полная пересборка окружения (да, с нуля)

Не пытайтесь патчить или обновлять что-то поверх старой установки. Это главная ошибка. Создаем чистое окружение.

# Удаляем старый репозиторий, если был (предварительно сохранив свои модели!)
cd ~
rm -rf text-generation-webui

# Клонируем САМУЮ СВЕЖУЮ версию на 15.03.2026
git clone https://github.com/oobabooga/text-generation-webui
cd text-generation-webui

# Проверяем актуальный тег или ветку. На март 2026 это может быть v1.9.0 или ветка main.
git checkout main  # или конкретный тег, например, git checkout v1.9.0
💡
Если вы ранее использовали одну-click установщики для Windows, проблема может быть в них. Они часто отстают от репозитория на месяцы. Ручная установка через git - единственный надежный способ на 2026 год.

Теперь устанавливаем зависимости. Обратите внимание на ключевой флаг для установки exllamav3.

# Запускаем установщик. На вопрос про ExLlamaV2 и ExLlamaV3 выбираем ТОЛЬКО V3.
./start_linux.sh --verbose  # или start_windows.bat, start_macos.sh

# В интерактивном меню:
# 1. Выберите "Install/Update dependencies"
# 2. На вопрос "Do you want to install ExLlamaV2?" отвечайте NO (если не нужен V2).
# 3. На вопрос "Do you want to install ExLlamaV3?" отвечайте YES.
# 4. Остальное - по умолчанию.

2 Скачиваем ПРАВИЛЬНУЮ модель EXL3

Не все EXL3 кванты созданы равными. Идем на Hugging Face и ищем модель с пометкой exl3 или EXL3 в названии. Например, Qwen2.5-35B-Instruct-1M-EXL3-8_0 (на март 2026 актуальна уже версия Qwen2.5).

Проверьте дату загрузки модели. Берите ту, что обновлена в последние 1-2 месяца. Старые кванты могут не работать с новой библиотекой.

Внимание! Модель должна содержать в папке все необходимые файлы: config.json, tokenizer.json, model.safetensors и папку с квантованными весами (например, exl3_8.0bpw/). Если есть только файлы .safetensors без конфигурации - это неполная модель.

Скачиваем модель в папку text-generation-webui/models/. Удобнее всего использовать встроенный загрузчик.

# Запускаем webui в режиме командной строки для скачивания
python download-model.py Qwen/Qwen2.5-35B-Instruct-1M-EXL3-8_0

# Или, если модель от другого автора (например, от AesSedai):
python download-model.py AesSedai/Qwen2.5-35B-EXL3-8.0bpw

Хотите узнать больше о лучших квантованиях? Посмотрите обзор Скрытые жемчужины Qwen 3.5, где мы разбираем плюсы и минусы каждого формата.

3 Критическая настройка перед запуском

Теперь самая важная часть. Запускаем text-generation-webui с ПРАВИЛЬНЫМИ аргументами.

Как НЕ надо делать:

# Это устаревший вызов, который почти гарантированно не сработает
python server.py --model Qwen2.5-35B-EXL3 --loader exllamav3

Правильный способ на март 2026:

cd text-generation-webui
python server.py \
  --model AesSedai_Qwen2.5-35B-EXL3-8.0bpw \
  --loader exllamav3 \
  --api \
  --listen \
  --extensions openai \
  --model-dir models/ \
  --gpu-split auto \
  --max-seq-len 16384  # Для моделей с 1M контекста может быть 131072
💡
Ключевые аргументы: --loader exllamav3 явно указывает загрузчик. --gpu-split auto позволяет автоматически распределить слои модели между GPU, если их несколько. Для одной карты можно указать --gpu-split 24 (сколько VRAM выделить в ГБ).

Что делать, если модель все равно не загружается? Диагностика

Смотрим в логи. Они обычно выводятся в консоль или в файл logs/app.log. Ищем ключевые слова: Error, Failed, Unable.

Ошибка Причина Решение
KeyError: 'q_proj' или подобное Несовместимость версий exllamav3 и модели. Модель создана для старой версии библиотеки. Найдите более свежий квант модели или попробуйте откатить exllamav3 на версию, указанную автором модели (редко помогает).
Out of Memory Не хватает VRAM даже для квантованной модели. Используйте --gpu-split для разделения между GPU, или --cpu для частичной загрузки на CPU (сильно медленнее), или выберите квант с меньшим битрейтом (например, 6.0 bpw вместо 8.0).
Модель загружается, но выдает бессмыслицу Проблема с токенизатором или параметрами генерации. Иногда это связано с бесконечным мышлением, как в этой статье про Qwen 3.5 на Mac. Проверьте, скачался ли токенизатор. Убедитесь, что в UI выбран правильный шаблон чата (например, "Qwen").

4 Альтернатива: запуск через OpenAI-совместимый API

Если webui все еще капризничает, можно запустить модель как чистый ExLlamaV3 сервер и подключиться к нему через API. Это часто стабильнее.

# В папке text-generation-webui, используем встроенный скрипт для ExLlamaV3
python gen.py \
  --model models/AesSedai_Qwen2.5-35B-EXL3-8.0bpw \
  --loader exllamav3 \
  --api \
  --port 5000

Затем в настройках text-generation-webui в разделе "Connections" укажите адрес http://127.0.0.1:5000 и выберите "OpenAI". Модель будет работать как отдельный сервис.

Последний рубеж: если ничего не помогло

Бывает и такое. Тогда ваши действия:

  1. Проверьте железо. 35B модель в EXL3 8.0 bpw требует минимум 20-22 ГБ VRAM для комфортной работы. На 16 ГБ будет тесно, нужны оптимизации (--gpu-split 14 --cache-8bit).
  2. Попробуйте другую модель. Возможно, конкретно этот квант битый. Найдите другого автора. Или временно перейдите на GGUF формат через llama.cpp - он стабильнее, хоть и медленнее. Вот гайд по запуску Qwen в llama.cpp.
  3. Спросите у сообщества. На GitHub Issues проекта text-generation-webui или в дискорд-чате ExLlamaV3 часто отвечают авторы библиотек. Приготовьте полный лог ошибок.

Не игнорируйте предупреждения при запуске. Если видите "WARNING: ExLlamaV3 version 0.0.12, expected 0.0.10+", это прямой сигнал о возможной несовместимости. Обновите или откатите библиотеку.

Вместо заключения: парадокс актуальности

Чем новее и эффективнее технология (как EXL3), тем чаще она ломается. Потому что развивается быстрее, чем успевают адаптироваться фронтенды вроде text-generation-webui. Ваша лучшая стратегия - не искать "серебряную пулю", а научиться читать логи и понимать, какая часть стека отстала.

Через полгода этот гайд может устареть. Но принцип останется: свежий репозиторий, свежая модель, явное указание загрузчика и готовность к ручной диагностике. Если EXL3 будет слишком нестабильным, всегда можно откатиться к проверенному годами GGUF - медленнее, но работает почти всегда. Как, например, в случае с гигантской 397B моделью, где без квантования GGUF вообще не обойтись.

Подписаться на канал