Настройка Qwen3.5: параметры генерации для быстрого чата в 2026

Почему Qwen3.5 думает так медленно? (И как это исправить)

Вы запустили Qwen3.5. Задаете простой вопрос: "Какая погода в Москве?". А в ответ получаете не просто прогноз, а целую диссертацию об истории метеорологии, физике атмосферных фронтов и философских размышлениях о восприятии холода. Модель "думает" явно дольше, чем нужно. Знакомо?

Это не баг, а фича — вернее, побочный эффект архитектуры. Qwen3.5, особенно в больших размерах (14B, 32B), склонна к overthinking — излишней детализации, многословности и зацикливанию на внутреннем монологе. На сервере это съедает вычислительные ресурсы, на вашем ПК — заставляет пить кофе, ожидая ответа. Хорошая новость: это лечится. Плохая: стандартные настройки из коробки почти всегда неоптимальны.

💡

Проблема overthinking в Qwen3.5 особенно заметна в интерактивных чатах. Если вы сталкивались с бесконечным "мышлением" на Mac, у нас есть отдельный разбор для Qwen 3.5 9B на Mac.

Температура, top-p и штрафы: что на что влияет (и почему нельзя просто выкрутить все на максимум)

Параметры генерации — это не абстрактные слайдеры. Это прямое управление вероятностным распределением следующего токена. Представьте, что модель выбирает слова из мешка. Эти настройки решают, насколько широко она засовывает руку в этот мешок и как строго фильтрует содержимое.

Temperature (температура, 0.1 - 2.0): Управляет "случайностью". Низкая температура (0.1-0.3) делает модель консервативной, она выбирает самые вероятные токены. Высокая (0.8-1.2) — добавляет креатива (и ахинеи). Для Qwen3.5 в чате высокая температура — прямой путь к потоковому сознанию и тарабарщине.
Top-p (ядерная выборка, 0.1 - 1.0): Динамический словарь. Значение 0.9 означает "рассматривай только 90% самых вероятных токенов на каждом шаге". Это работает в паре с температурой. Top-p=1.0 отключает фильтрацию — модель может внезапно начать генерировать редкие архаизмы.
Repetition penalty (штраф повторения, 1.0 - 1.5): Самый недооцененный параметр. Значение 1.1 мягко наказывает повторяющиеся токены. 1.3 — агрессивно борется с зацикливанием. Выше 1.4 модель может начать избегать любых повторов, даже грамматически необходимых, что ломает структуру предложений.
Frequency penalty & Presence penalty: Более тонкие варианты штрафа. Frequency penalty наказывает токены, которые уже часто встречались в тексте. Presence penalty наказывает сам факт появления токена, независимо от частоты. В Qwen3.5 настройка presence penalty выше 0.1 часто приводит к неестественно "разнообразному", но бессвязному тексту.

Важно: Эти параметры взаимозависимы. Крутить temperature, не трогая top-p — все равно что регулировать газ, забыв про тормоза. Результат предсказуемо плохой.

Золотые числа для Qwen3.5: параметры, которые работают на 2026 год

После тестов на десятках промптов (от технических вопросов до креативного письма) и с разными размерами модели (7B, 14B, 32B) выкристаллизовались оптимальные настройки. Они балансируют скорость, качество и стабильность.

Параметр	Оптимальное значение (чат)	Экстремальное (макс. скорость)	Что происходит при отклонении
Temperature	`0.7`	`0.5`	>0.9: креатив превращается в бред. <0.3: ответы становятся шаблонными, роботизированными.
Top-p	`0.9`	`0.85`	=1.0: возможны неожиданные "сюрреалистичные" токены. <0.8: ответы слишком узкие, модель пропускает хорошие варианты.
Repetition penalty	`1.15`	`1.25`	>1.3: модель начинает "бояться" повторов, ломается синтаксис. =1.0: гарантированные циклы, особенно в описаниях.
Max new tokens	`512`	`256` (для чата)	Установите лимит! Без него Qwen3.5 может генерировать тексты на тысячи токенов в ответ на "привет".

Почему именно такие цифры? Temperature 0.7 дает достаточно вариативности, чтобы ответы не выглядели скопированными из учебника, но не настолько, чтобы модель уходила в дебри. Top-p 0.9 отсекает явный мусор, но оставляет простор для маневра. Штраф 1.15 — это слабый, но постоянный сигнал "не повторяйся", который эффективно борется с зацикливанием без побочек. Для сравнения, в ChatGPT используются схожие механизмы, но реализованы иначе.

1 Где крутить ручки: llama.cpp, LM Studio и другие (конкретные команды)

Теория — это хорошо, но параметры нужно где-то выставлять. Рассмотрим три основных сценария.

llama.cpp (командная строка, самая гибкая настройка)

Здесь все через флаги. Пример запуска с оптимальными параметрами для квантованной модели GGUF (актуально на март 2026).

./main -m ./models/qwen3.5-14b-instruct-q4_k_m.gguf \
 -p "Пользователь: Какая погода в Моске?\nАссистент:" \
 --temp 0.7 \
 --top-p 0.9 \
 --repeat-penalty 1.15 \
 --repeat-last-n 64 \
 --ctx-size 4096 \
 -n 256 \
 -gqa 8

--repeat-last-n 64: Штраф применяется к последним 64 токенам. Не трогайте, если не понимаете, как работает скользящее окно контекста.
-gqa 8: Количество групп для GQA (Grouped Query Attention). Должно соответствовать архитектуре конкретной модели. Для Qwen3.5 14B это обычно 8.
-n 256: Лимит новых токенов. Жестко ограничивает многословность.

Если после 2-3 ответов модель начинает выдавать бессмыслицу, это известная проблема с кэшированием K/V в некоторых сборках llama.cpp. Глубокий разбор и патчи ищите в статье про исправление ошибки Qwen 3.5 в llama.cpp.

LM Studio / SillyTavern (GUI, для обычных пользователей)

В LM Studio параметры находятся во вкладке "Generation Parameters". Просто введите значения из таблицы выше. Особенно важно выставить "Context Overflow Policy" на "Shift" или "Stop", иначе при длинном контексте производительность рухнет. Для ускорения можно использовать кванты от Unsloth — они часто оптимизированы под конкретные железяки. Платформа Unsloth предоставляет готовые квантованные модели, но проверяйте совместимость версий. Аналогичные проблемы с зацикливанием решаются и для других моделей, например, GLM-4.7-Flash в LM Studio.

Прямой вызов через Transformers (Python, для разработчиков)

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

model_id = "Qwen/Qwen3.5-14B-Instruct"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
 model_id,
 torch_dtype=torch.float16,
 device_map="auto"
)

inputs = tokenizer("Пользователь: Какая погода?\nАссистент:", return_tensors="pt").to("cuda")

# Ключевые параметры генерации
generation_config = {
 "max_new_tokens": 256,
 "temperature": 0.7,
 "top_p": 0.9,
 "repetition_penalty": 1.15,
 "do_sample": True, # Обязательно True для использования temperature и top_p
 "pad_token_id": tokenizer.pad_token_id,
}

with torch.no_grad():
 outputs = model.generate(**inputs, **generation_config)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

Внимание: Установка `do_sample=False` приведет к игнорированию temperature и top_p, и модель будет работать в жадном режиме (greedy decoding). Ответы будут максимально вероятными, но скучными и шаблонными. Для чата это почти всегда плохо.

Что сломается, если переборщить (типичные ошибки и как их не повторить)

Ошибка 1: Temperature=0.1, Top-p=0.3. Результат: модель превращается в занудного бюрократа. Ответы будут грамматически идеальными, семантически пустыми и удивительно похожими друг на друга. Это полезно только для генерации формальных документов.
Ошибка 2: Repetition penalty=1.5. Результат: "Я... не... могу... повторять... слова... потому что... меня... наказывают". Модель начинает избегать даже артиклей и предлогов, текст рассыпается. Значение выше 1.3 — опасная зона.
Ошибка 3: Игнорирование связки параметров. Настроили temperature=0.8, но оставили top-p=1.0? Модель получит карт-бланш на случайность в рамках всего словаря. Ожидайте неожиданных слов на древнегреческом в середине ответа про погоду.
Ошибка 4: Не тот квант для железа. Качество квантования сильно влияет на стабильность генерации. Q4_K_M — хороший баланс. Q2_K — может вызвать артефакты и неадекватное поведение. Подборку проверенных квантов смотрите в обзоре скрытых жемчужин Qwen 3.5.

Вопросы, которые вы хотели задать (но боялись, что ответ займет 1000 токенов)

Параметры нужно менять для каждого промпта?

Нет. Оптимальные значения из таблицы — это "универсальный солдат" для диалога. Для творческих задач (написание стихов, генерация идей) можно поднять temperature до 0.85-0.9. Для точных ответов (код, факты) — опустить до 0.5. Но базовый профиль остается стабильным.

Настройки одинаковы для Qwen3.5 7B и 72B?

В основном да. Но чем больше модель, тем она "умнее" и тем сильнее склонна к overthinking. Для гигантов вроде 72B можно слегка увеличить repetition penalty (до 1.2) и уменьшить max new tokens, чтобы диалог не уходил в бесконечные рассуждения. Запустить такого гиганта на домашнем железе — отдельная история, но если у вас есть RTX PRO 6000, смотрите руководство по Qwen3.5 397B на FP4.

Почему иногда помогает только перезагрузка модели?

Потому что состояние (K/V кэш) накапливается в памяти. Если в диалоге накопилось много токенов и модель "устаканилась" в каком-то шаблонном поведении, сброс контекста — быстрое решение. В llama.cpp используйте флаг --interactive и команду /reset. В LM Studio — кнопку "Reset Context".

Есть ли готовые профили настроек для Oobabooga или TextGen WebUI?

Да. Ищите в сообществе presets с названиями вроде "Qwen-Quick-Chat" или "Balanced-Qwen3.5". Обычно они содержат схожие значения: temp 0.72, top-p 0.9, rep pen 1.1-1.18. Но всегда проверяйте их на паре промптов — многие пресеты устарели.

Что будет дальше? (Спойлер: параметры умрут)

Тренд 2025-2026 годов — отказ от ручной настройки temperature и top-p в пользу предсказания оптимальных параметров самой моделью. Исследования показывают, что LLM могут сами оценивать сложность промпта и необходимый уровень креатива. В будущих версиях Qwen (или ее преемниках) мы, возможно, увидим просто ползунок "скорость/качество", а модель будет внутренне подбирать нужные значения. Пока же приходится крутить ручки вручную. Но теперь вы знаете, какие именно.

Пока крупные облачные модели вроде ChatGPT Pro берут $20 в месяц, грамотно настроенный локальный Qwen3.5 14B на хороших квантах дает сравнимый опыт для большинства задач. Зачем платить, если можно не платить? Сравнение Qwen3-235B и ChatGPT Pro показывает, что разрыв сокращается. А с правильными параметрами ваш локальный ассистент станет не только умным, но и быстрым. Главное — не дайте ему слишком много думать.

Подписаться на канал

Оптимальные параметры генерации для Qwen3.5: как настроить температуру и штрафы для быстрого и эффективного чата