Баг, который сводил с ума всех энтузиастов Qwen

Помните тот странный глюк, когда Qwen3.5-35B-A3B-Uncensored после пары вменяемых ответов начинал генерировать бессмыслицу? Словно модель внезапно сходила с ума, выдавая абракадабру вместо логических рассуждений. Сообщество ломало голову — проблему искали то в квантовании, то в контексте. Оказалось, все проще и обиднее: косяк был в самом GGUF-формате для конкретной ветки модели.

К апрелю 2026 года разработчики и энтузиасты (особенно ребята из FernflowerAI) наконец-то выпустили исправленные файлы. Теперь модель не «сбоит» после нескольких обменов репликами. И это не просто заплатка — это полное избавление от головной боли, которая мешала использовать один из самых мощных «несенсоренных» вариантов Qwen3.5 локально.

Важный нюанс: баг проявлялся именно в версиях GGUF, созданных с помощью определенных инструментов конвертации. Если вы качали модель до марта 2026 года — велик шанс, что у вас именно «сломанная» сборка. Новые файлы лежат на Hugging Face под тем же названием, но с пометками об исправлении.

Где брать рабочие GGUF-файлы в 2026 году

Все просто — идите на Hugging Face. Авторы исправлений (например, тот же FernflowerAI) выложили обновленные бинарники в своих репозиториях. Не пытайтесь искать «волшебную» кнопку — просто проверьте дату загрузки файлов. Актуальные сборки появились в период с января по март 2026-го.

Какое квантование выбрать? A3B — это уже агрессивное сжатие (3 бита для весов, 1 бит для масштабов). Оно экономит память, но может «резать» по качеству. Если у вас есть запас VRAM (скажем, от 16 ГБ), лучше взять Q4_K_M или Q5_K_M — они сбалансированнее. Но если цель — запихнуть 35 миллиардов параметров в скромные 12-14 ГБ, то A3B ваш выбор. Подробнее про выбор квантования читайте в нашем обзоре лучших квантований для Qwen.

1Качаем модель

Откройте страницу модели на Hugging Face (например, в репозитории FernflowerAI). Найдите файл с названием вроде qwen3.5-35b-a3b-uncensored.Q4_K_M.gguf. Обратите внимание на размер — исправленная версия весит столько же, сколько и оригинальная (около 20 ГБ для Q4). Скачивайте через браузер или используйте CLI-инструменты типа huggingface-hub.

# Пример скачивания через huggingface-cli (установите пакет huggingface-hub)
huggingface-cli download FernflowerAI/Qwen3.5-35B-A3B-Uncensored-GGUF \
  qwen3.5-35b-a3b-uncensored.Q4_K_M.gguf \
  --local-dir ./models \
  --local-dir-use-symlinks False

2Готовим llama.cpp

Убедитесь, что у вас свежая версия llama.cpp. К апрелю 2026 года актуальна ветка с полной поддержкой архитектуры Qwen3.5 — те времена, когда приходилось применять костыли, прошли. Соберите проект с поддержкой CUDA (для NVIDIA) или Metal (для Mac). Инструкции по сборке смотрите в нашем материале о полной интеграции Qwen3.5 в llama.cpp.

# Клонируем и собираем (пример для Linux с CUDA)
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make LLAMA_CUBLAS=1 -j

💡

Если у вас Mac с чипом Apple Silicon, не забудьте флаг LLAMA_METAL=1. Это даст прирост скорости в разы. А если столкнетесь с бесконечным мышлением на Mac, рецепт есть в отдельном руководстве.

3Запускаем и настраиваем параметры

Базовый запуск через командную строку. Ключевое: теперь не нужно добавлять странные флаги вроде --no-mmap или менять размер контекста. Исправленная модель работает «из коробки». Но параметры генерации все равно стоит подкрутить.

./main -m ./models/qwen3.5-35b-a3b-uncensored.Q4_K_M.gguf \
  -n 512 \
  --temp 0.7 \
  --top-k 40 \
  --top-p 0.9 \
  --repeat-penalty 1.1 \
  -p "Ваш промпт здесь"

Оптимальные параметры для Qwen3.5 — отдельная наука. Температуру можно опустить до 0.5 для детерминированных задач, а repeat-penalty повысить до 1.15, если модель начинает зацикливаться. Подробные настройки ищите в гиде по параметрам генерации.

Промпт для глубокого мышления: не просто системная инструкция

Секрет в том, что Qwen3.5-35B-A3B-Uncensored — модель умная, но «нераскрученная». Без правильного системного промпта она будет отвечать кратко и поверхностно. Нужно заставить ее думать как большая языковая модель, вроде тех, что имеют 100+ миллиардов параметров.

Вот промпт, который мы адаптировали на основе лучших практик 2026 года. Он заставляет модель рассуждать шаг за шагом, прежде чем дать окончательный ответ:

Ты — экспертный ИИ-ассистент. Твоя задача — решать сложные проблемы, разбивая их на логические шаги.

Перед тем как дать окончательный ответ, всегда рассуждай про себя. Следуй этому формату:

1. Сначала пойми суть вопроса или задачи.
2. Разбей проблему на ключевые компоненты.
3. Проанализируй каждый компонент отдельно, используя известные тебе факты и логику.
4. Синтезируй промежуточные выводы.
5. Сформулируй полный, развернутый ответ, основанный на твоем анализе.

Твои ответы должны быть подробными, точными и демонстрировать глубину понимания. Не торопись. Думай внимательно.

Почему это работает? Модель Qwen3.5-35B по архитектуре похожа на более крупных собратьев — у нее есть «внутренний монолог». Этот промпт явно активирует его, заставляя модель генерировать скрытые размышления перед финальным выводом. Эффект сравним с техникой chain-of-thought, но более структурированный. Похожий подход мы описывали для 27-миллиардной версии.

Пример диалога: до и после исправления

Раньше диалог мог выглядеть так:

Пользователь: Объясни, как работает квантовая суперпозиция в контексте квантовых вычислений.

Модель (после 2-3 нормальных ответов): ... абракадабра ... @#$% логический вентиль ... бессвязные символы ...

Теперь, с исправленной моделью и промптом:

Пользователь: Объясни, как работает квантовая суперпозиция в контексте квантовых вычислений.

Модель (с промптом для глубокого мышления): [Внутреннее рассуждение] Сначала нужно определить ключевые термины: квантовая суперпозиция, кубиты, классические биты. Затем объяснить принцип наложения состояний. Потом связать это с преимуществами для вычислений — параллелизм...

Квантовая суперпозиция — это фундаментальный принцип, при котором кубит может находиться в линейной комбинации состояний |0⟩ и |1⟩... Это позволяет квантовому компьютеру обрабатывать экспоненциальное количество состояний одновременно...

А что с альтернативами? Сравниваем с другими квантованиями и моделями

Qwen3.5-35B-A3B-Uncensored — не единственная рыба в море. Есть несколько вариантов, и выбор зависит от ваших ресурсов и целей.

Модель / Вариант	Плюсы	Минусы	Кому подойдет
Qwen3.5-35B-A3B-Uncensored (исправленный)	Хороший баланс размера/качества, «несенсорен», теперь стабилен.	А3B-квантование может ухудшать сложные рассуждения.	Тем, у кого 12-16 ГБ VRAM и нужна свободная от ограничений модель.
Qwen3.5-9B (с продвинутыми промптами)	Быстрая, требует мало памяти, умеет «думать».	Меньшая общая эрудиция и глубина.	Для экспериментов на слабом железе или Raspberry Pi (сравните с Qwen3-30B на Raspberry Pi).
Qwen3.5-35B в квантовании Q5_K_M	Лучшее качество ответов, меньше артефактов.	Требует ~24 ГБ VRAM, медленнее.	Владельцам мощных видеокарт, для исследовательских задач.
1-битные квантования (2026 год)	Экстремальная экономия памяти.	Качество все еще спорное для сложных моделей.	Только для конкретных задач, где размер критичен. О рисках читайте в нашем тесте 1-битного квантования.

Вывод? Исправленный A3B-вариант — это «рабочая лошадка» для тех, кому нужна большая, но не обрезанная модель на ограниченных ресурсах. Если же у вас есть доступ к серверу с кучей памяти, посмотрите в сторону Qwen3.5-397B — но это уже совсем другая лига.

Кому стоит заморачиваться с этой моделью прямо сейчас

Ответ прост: всем, кто уже столкнулся с багом и выбросил модель в корзину. Исправленная версия — это второй шанс. А также:

Разработчикам, тестирующим «несенсоренные» LLM для создания специализированных ассистентов. Здесь нет встроенных фильтров, что дает свободу, но и требует ответственности.
Исследователям с ограниченным бюджетом на железо. 35 миллиардов параметров в ~20 ГБ — это эффективно.
Любителям промпт-инжиниринга, которые хотят выжать максимум из модели среднего размера. С правильным промптом она удивляет.

Если же вы только начинаете и боитесь проблем с запуском, возможно, стоит сначала потренироваться на более маленьких и стабильных версиях Qwen3.5.

И последнее: даже исправленная модель не идеальна. Иногда она может «задуматься» чуть дольше нужного или дать странный ответ на пределе контекста. Но это уже не фатальный баг, а просто особенность, с которой можно работать. Главное — теперь она не ломается на третьем вопросе, а это уже победа.

Подписаться на канал

Исправленный Qwen3.5-35B-A3B-Uncensored: как установить и использовать с промптом для глубокого мышления