Тихий убийца производительности: что не так с Qwen 3.5?
Вы загружаете документ на 20 тысяч токенов в Qwen 3.5, задаёте вопрос, ждёте ответа. И ждёте. И снова ждёте. Потому что модель только что переобработала весь ваш промпт с самого начала, словно не помнит, что только что его прочла. Звучит знакомо? Это не баг, а архитектурная особенность, которая съедает ваше время и деньги.
На 2 марта 2026 года проблема остаётся актуальной для базовой архитектуры Qwen 3.5. Если вы используете её для длинных чатов или анализа документов, вы платите производительностью за каждый токен контекста дважды.
Зачем каждый раз изобретать велосипед? Архитектурный глюк
Большинство современных трансформеров, включая тот же LLaMA 3 или свежий Claude 3.7, используют умное кеширование ключей-значений (KV-cache). Оно позволяет не пересчитывать эмбеддинги для уже обработанных частей промпта. Qwen 3.5, на удивление, этого не делает в полной мере. Вернее, делает, но с оговорками, которые сводят преимущество на нет.
В её архитектуре зашита RNN-подобная логика для некоторых компонентов внимания (особенно в более ранних версиях 3.5, до патчей 2025 года). Это значит, что при генерации каждого нового токена модель вынуждена заново «проглядывать» весь предыдущий контекст, чтобы обновить внутренние состояния. Не полностью, но достаточно, чтобы время инференса росло квадратично с длиной контекста, а не линейно, как должно быть.
Цена вопроса: ваше время, ваши видеокарты, ваши счета
На бумаге контекстное окно в 32K токенов выглядит круто. На практике, если вы запускаете модель локально через llama.cpp, вы упираетесь не в память, а в вычисления. Каждый новый запрос в длинной сессии будет выполняться медленнее предыдущего. В облаке, где тарификация идёт за время использования GPU, это просто выливается в лишние деньги.
| Модель (версия на 02.2026) | Относительная скорость генерации (после 10K токенов контекста) | Эффективность KV-cache |
|---|---|---|
| Qwen 3.5 14B | 1x (база) | Низкая, переобработка до 40% контекста |
| Llama 3.1 70B | ~3x быстрее | Высокая, статическое кеширование |
| Qwen 3.5 Plus (397B) | 0.5x (медленнее из-за масштаба) | Та же проблема, но умноженная на параметры |
| Qwen3 Next (последний коммит в llama.cpp) | ~1.8x быстрее базового 3.5 | Частично исправлено, оптимизированный attention |
Цифры условны, но тенденция ясна. Пока вы читаете этот абзац, кто-то где-то платит за пустые вычисления Qwen 3.5. (И нет, это не фича для увеличения доходов Alibaba Cloud).
Как выжить с Qwen 3.5 сегодня? Три неочевидных хак
Полностью исправить архитектуру вы не можете. Но можно смягчить удар.
1 Дробите контекст как сумасшедший
Не загружайте весь 30-страничный PDF одним промптом. Разбивайте на chunks по 2-4K токенов, обрабатывайте отдельно, а результаты агрегируйте. Да, это требует дополнительного кода, но экономит часы инференса. Инструменты для долгой памяти здесь ваш лучший друг.
2 Используйте правильный бэкенд и флаги
В llama.cpp с лета 2025 года для Qwen 3.5 появился экспериментальный флаг -cb (context busting), который пытается минимизировать пересчёт. Не слепо копируйте команды из старых гайдов — изучайте аргументы llama.cpp под своё железо. На Mac Studio M4 Max, например, это может дать прирост в 15-20%.
3 Смотрите на альтернативы внутри семейства
Qwen3 Next (доступен через пулл-реквест в llama.cpp) частично исправляет проблему за счёт переработки механизма внимания. Если задача критична к скорости, возможно, стоит присмотреться к нему или к более лёгким квантованным версиям Qwen3-14B, где overhead менее заметен.
А что в будущем? Будет ли Qwen 4.0 идеальным?
К марту 2026 года ходят слухи о Qwen 4.0, но официального релиза пока нет. Внутренние утечки из Alibaba Cloud говорят, что архитекторы полностью переработали механизм кеширования, вдохновляясь решениями из MoE-моделей вроде Granite. Ожидается, что проблема переобработки будет устранена. Но пока что, если вы застряли на 3.5, ваш лучший прогноз — это не ждать апдейта, а адаптировать workflow под её причуды.
И последний совет, который вы не найдёте в документации: иногда проще сделать fine-tuning модели под вашу конкретную задачу на коротких контекстах, чем бороться с длинными. Обучение Qwen на специализированных данных может сократить необходимый контекст в разы. И тогда архитектурный глюк станет просто фоном, а не фатальной ошибкой.