Баг, который сводил с ума всех энтузиастов Qwen
Помните тот странный глюк, когда Qwen3.5-35B-A3B-Uncensored после пары вменяемых ответов начинал генерировать бессмыслицу? Словно модель внезапно сходила с ума, выдавая абракадабру вместо логических рассуждений. Сообщество ломало голову — проблему искали то в квантовании, то в контексте. Оказалось, все проще и обиднее: косяк был в самом GGUF-формате для конкретной ветки модели.
К апрелю 2026 года разработчики и энтузиасты (особенно ребята из FernflowerAI) наконец-то выпустили исправленные файлы. Теперь модель не «сбоит» после нескольких обменов репликами. И это не просто заплатка — это полное избавление от головной боли, которая мешала использовать один из самых мощных «несенсоренных» вариантов Qwen3.5 локально.
Важный нюанс: баг проявлялся именно в версиях GGUF, созданных с помощью определенных инструментов конвертации. Если вы качали модель до марта 2026 года — велик шанс, что у вас именно «сломанная» сборка. Новые файлы лежат на Hugging Face под тем же названием, но с пометками об исправлении.
Где брать рабочие GGUF-файлы в 2026 году
Все просто — идите на Hugging Face. Авторы исправлений (например, тот же FernflowerAI) выложили обновленные бинарники в своих репозиториях. Не пытайтесь искать «волшебную» кнопку — просто проверьте дату загрузки файлов. Актуальные сборки появились в период с января по март 2026-го.
Какое квантование выбрать? A3B — это уже агрессивное сжатие (3 бита для весов, 1 бит для масштабов). Оно экономит память, но может «резать» по качеству. Если у вас есть запас VRAM (скажем, от 16 ГБ), лучше взять Q4_K_M или Q5_K_M — они сбалансированнее. Но если цель — запихнуть 35 миллиардов параметров в скромные 12-14 ГБ, то A3B ваш выбор. Подробнее про выбор квантования читайте в нашем обзоре лучших квантований для Qwen.
1Качаем модель
Откройте страницу модели на Hugging Face (например, в репозитории FernflowerAI). Найдите файл с названием вроде qwen3.5-35b-a3b-uncensored.Q4_K_M.gguf. Обратите внимание на размер — исправленная версия весит столько же, сколько и оригинальная (около 20 ГБ для Q4). Скачивайте через браузер или используйте CLI-инструменты типа huggingface-hub.
# Пример скачивания через huggingface-cli (установите пакет huggingface-hub)
huggingface-cli download FernflowerAI/Qwen3.5-35B-A3B-Uncensored-GGUF \
qwen3.5-35b-a3b-uncensored.Q4_K_M.gguf \
--local-dir ./models \
--local-dir-use-symlinks False
2Готовим llama.cpp
Убедитесь, что у вас свежая версия llama.cpp. К апрелю 2026 года актуальна ветка с полной поддержкой архитектуры Qwen3.5 — те времена, когда приходилось применять костыли, прошли. Соберите проект с поддержкой CUDA (для NVIDIA) или Metal (для Mac). Инструкции по сборке смотрите в нашем материале о полной интеграции Qwen3.5 в llama.cpp.
# Клонируем и собираем (пример для Linux с CUDA)
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make LLAMA_CUBLAS=1 -j
LLAMA_METAL=1. Это даст прирост скорости в разы. А если столкнетесь с бесконечным мышлением на Mac, рецепт есть в отдельном руководстве.3Запускаем и настраиваем параметры
Базовый запуск через командную строку. Ключевое: теперь не нужно добавлять странные флаги вроде --no-mmap или менять размер контекста. Исправленная модель работает «из коробки». Но параметры генерации все равно стоит подкрутить.
./main -m ./models/qwen3.5-35b-a3b-uncensored.Q4_K_M.gguf \
-n 512 \
--temp 0.7 \
--top-k 40 \
--top-p 0.9 \
--repeat-penalty 1.1 \
-p "Ваш промпт здесь"
Оптимальные параметры для Qwen3.5 — отдельная наука. Температуру можно опустить до 0.5 для детерминированных задач, а repeat-penalty повысить до 1.15, если модель начинает зацикливаться. Подробные настройки ищите в гиде по параметрам генерации.
Промпт для глубокого мышления: не просто системная инструкция
Секрет в том, что Qwen3.5-35B-A3B-Uncensored — модель умная, но «нераскрученная». Без правильного системного промпта она будет отвечать кратко и поверхностно. Нужно заставить ее думать как большая языковая модель, вроде тех, что имеют 100+ миллиардов параметров.
Вот промпт, который мы адаптировали на основе лучших практик 2026 года. Он заставляет модель рассуждать шаг за шагом, прежде чем дать окончательный ответ:
Ты — экспертный ИИ-ассистент. Твоя задача — решать сложные проблемы, разбивая их на логические шаги.
Перед тем как дать окончательный ответ, всегда рассуждай про себя. Следуй этому формату:
1. Сначала пойми суть вопроса или задачи.
2. Разбей проблему на ключевые компоненты.
3. Проанализируй каждый компонент отдельно, используя известные тебе факты и логику.
4. Синтезируй промежуточные выводы.
5. Сформулируй полный, развернутый ответ, основанный на твоем анализе.
Твои ответы должны быть подробными, точными и демонстрировать глубину понимания. Не торопись. Думай внимательно.
Почему это работает? Модель Qwen3.5-35B по архитектуре похожа на более крупных собратьев — у нее есть «внутренний монолог». Этот промпт явно активирует его, заставляя модель генерировать скрытые размышления перед финальным выводом. Эффект сравним с техникой chain-of-thought, но более структурированный. Похожий подход мы описывали для 27-миллиардной версии.
Пример диалога: до и после исправления
Раньше диалог мог выглядеть так:
Пользователь: Объясни, как работает квантовая суперпозиция в контексте квантовых вычислений.
Модель (после 2-3 нормальных ответов): ... абракадабра ... @#$% логический вентиль ... бессвязные символы ...
Теперь, с исправленной моделью и промптом:
Пользователь: Объясни, как работает квантовая суперпозиция в контексте квантовых вычислений.
Модель (с промптом для глубокого мышления): [Внутреннее рассуждение] Сначала нужно определить ключевые термины: квантовая суперпозиция, кубиты, классические биты. Затем объяснить принцип наложения состояний. Потом связать это с преимуществами для вычислений — параллелизм...
Квантовая суперпозиция — это фундаментальный принцип, при котором кубит может находиться в линейной комбинации состояний |0⟩ и |1⟩... Это позволяет квантовому компьютеру обрабатывать экспоненциальное количество состояний одновременно...
А что с альтернативами? Сравниваем с другими квантованиями и моделями
Qwen3.5-35B-A3B-Uncensored — не единственная рыба в море. Есть несколько вариантов, и выбор зависит от ваших ресурсов и целей.
| Модель / Вариант | Плюсы | Минусы | Кому подойдет |
|---|---|---|---|
| Qwen3.5-35B-A3B-Uncensored (исправленный) | Хороший баланс размера/качества, «несенсорен», теперь стабилен. | А3B-квантование может ухудшать сложные рассуждения. | Тем, у кого 12-16 ГБ VRAM и нужна свободная от ограничений модель. |
| Qwen3.5-9B (с продвинутыми промптами) | Быстрая, требует мало памяти, умеет «думать». | Меньшая общая эрудиция и глубина. | Для экспериментов на слабом железе или Raspberry Pi (сравните с Qwen3-30B на Raspberry Pi). |
| Qwen3.5-35B в квантовании Q5_K_M | Лучшее качество ответов, меньше артефактов. | Требует ~24 ГБ VRAM, медленнее. | Владельцам мощных видеокарт, для исследовательских задач. |
| 1-битные квантования (2026 год) | Экстремальная экономия памяти. | Качество все еще спорное для сложных моделей. | Только для конкретных задач, где размер критичен. О рисках читайте в нашем тесте 1-битного квантования. |
Вывод? Исправленный A3B-вариант — это «рабочая лошадка» для тех, кому нужна большая, но не обрезанная модель на ограниченных ресурсах. Если же у вас есть доступ к серверу с кучей памяти, посмотрите в сторону Qwen3.5-397B — но это уже совсем другая лига.
Кому стоит заморачиваться с этой моделью прямо сейчас
Ответ прост: всем, кто уже столкнулся с багом и выбросил модель в корзину. Исправленная версия — это второй шанс. А также:
- Разработчикам, тестирующим «несенсоренные» LLM для создания специализированных ассистентов. Здесь нет встроенных фильтров, что дает свободу, но и требует ответственности.
- Исследователям с ограниченным бюджетом на железо. 35 миллиардов параметров в ~20 ГБ — это эффективно.
- Любителям промпт-инжиниринга, которые хотят выжать максимум из модели среднего размера. С правильным промптом она удивляет.
Если же вы только начинаете и боитесь проблем с запуском, возможно, стоит сначала потренироваться на более маленьких и стабильных версиях Qwen3.5.
И последнее: даже исправленная модель не идеальна. Иногда она может «задуматься» чуть дольше нужного или дать странный ответ на пределе контекста. Но это уже не фатальный баг, а просто особенность, с которой можно работать. Главное — теперь она не ломается на третьем вопросе, а это уже победа.