Маленький, но дерзкий: Qwen3.5-27B показывает зубы
Когда слышишь "32 миллиарда параметров", ждешь монстра. Слышишь "27 миллиардов" - что-то поменьше. Но на бенчмарке AA-II, который тестирует чистый интеллект в STEM-задачах, разница стирается. Результаты на 26 февраля 2026 года показывают: Qwen3.5-27B-Instruct от Alibaba Group держит удар против DeepSeek-V3.2-32B-Instruct. И делает это с меньшими аппетитами к памяти.
Результаты бенчмарков могут варьироваться в зависимости от конкретных задач и условий тестирования. Все данные актуальны на 26 февраля 2026 года.
Цифры не врут: таблица результатов AA-II
| Модель | Размер параметров | AA-II Score (STEM) | Требования VRAM (FP16) | Эффективность на токен |
|---|---|---|---|---|
| Qwen3.5-27B-Instruct | 27B (плотная) | 78.3 | 54 GB | Высокая |
| DeepSeek-V3.2-32B-Instruct | 32B (8B активных на токен) | 79.1 | 64 GB | Очень высокая |
Разница в 0.8 балла - это погрешность или тенденция? Заглянем под капот.
Почему Qwen3.5-27B не сдается
DeepSeek-V3.2, как мы уже писали, использует архитектуру MoE (Mixture of Experts), где на каждом токене активируются только 8 миллиардов параметров из 32. Это гениальный ход для экономии ресурсов. Но Qwen3.5-27B - плотная модель. Все 27 миллиардов работают всегда.
Парадокс в том, что для STEM-задач иногда лучше иметь меньше, но более качественных параметров. Qwen3.5-27B оптимизирована именно для рассуждений (reasoning), а не для генерации красивых текстов. Ее тренировали на специфических наборах данных по математике и коду - и это видно по результатам.
Эффективность на токен? DeepSeek-V3.2 здесь чемпион - его MoE-архитектура потребляет меньше вычислений на ответ. Но если у вас есть лишние 10 гигабайт VRAM, Qwen3.5-27B покажет почти тот же интеллект за те же деньги. (Точнее, за те же ватты).
Контекст гонки: что уже было
В обзоре open-source моделей за 2026 год мы уже видели, что Qwen3.5 в целом сильна в точных науках. DeepSeek-V3.2 же изначально заточен под эффективность - как в анализе стоимости и производительности.
Гонка за качеством, как мы отмечали раньше, закончилась. Теперь считают секунды и доллары. И вот появляется AA-II - бенчмарк, который игнорирует креативность и оценивает только "мозги". И оказывается, что 27 миллиардов параметров могут быть так же хороши для интеллектуальной работы, как и 32 миллиарда с хитрой архитектурой.
Что это значит для вас
Выбираете модель для локального запуска? Смотрите на свои ресурсы и задачи.
- Если у вас RTX 4090 (24GB VRAM) и вы готовы к квантованию - DeepSeek-V3.2 в 4-битном формате поместится и будет летать.
- Если у вас две RTX 3090 (48GB в сумме) и вы не хотите возиться с MoE - берите Qwen3.5-27B в FP16. Она проще в развертывании.
- Если задачи - чистая математика, физика или программирование, Qwen3.5-27B может даже выиграть за счет специализации.
- Если нужен баланс между разными типами задач и максимальная эффективность - DeepSeek-V3.2.
И да, забыли сказать про цену. Обе модели open-source и бесплатны для коммерческого использования (с некоторыми ограничениями для больших компаний). Платить придется только за электричество.
Грядет ли эра компактных reasoning-моделей?
Результаты AA-II намекают: да. Если 27-миллиардная модель почти догоняет 32-миллиардную по "сырому интеллекту", то что будет с 40-миллиардными? Или с теми же 27 миллиардами, но на новой архитектуре?
В 2026 году фокус смещается с "больше параметров" на "умнее параметры". Тренд на reasoning-модели, которые мы видели в DeepSeek-V3.2-Speciale, только усиливается. Скоро появятся модели размером с Qwen3.5-27B, но специально обученные для решения задач шаг за шагом - как человек с черновиком.
Мой совет? Не гонитесь за гигапараметрами. Смотрите на бенчмарки типа AA-II, если вам нужен интеллект, а не болтовня. И держите руку на пульсе - в ближайшие месяцы нас ждут еще более интересные сравнения.