Qwen3.5-27B vs DeepSeek-V3.2: результаты бенчмарка AA-II

Маленький, но дерзкий: Qwen3.5-27B показывает зубы

Когда слышишь "32 миллиарда параметров", ждешь монстра. Слышишь "27 миллиардов" - что-то поменьше. Но на бенчмарке AA-II, который тестирует чистый интеллект в STEM-задачах, разница стирается. Результаты на 26 февраля 2026 года показывают: Qwen3.5-27B-Instruct от Alibaba Group держит удар против DeepSeek-V3.2-32B-Instruct. И делает это с меньшими аппетитами к памяти.

Результаты бенчмарков могут варьироваться в зависимости от конкретных задач и условий тестирования. Все данные актуальны на 26 февраля 2026 года.

Цифры не врут: таблица результатов AA-II

Модель	Размер параметров	AA-II Score (STEM)	Требования VRAM (FP16)	Эффективность на токен
Qwen3.5-27B-Instruct	27B (плотная)	78.3	54 GB	Высокая
DeepSeek-V3.2-32B-Instruct	32B (8B активных на токен)	79.1	64 GB	Очень высокая

💡

Бенчмарк AA-II (Artificial Analysis II) фокусируется на "сыром интеллекте" - способности решать сложные STEM-задачи без дополнительного обучения. Это тест на фундаментальные способности модели в математике, физике, программировании и логике, а не на запоминание данных или креативность.

Разница в 0.8 балла - это погрешность или тенденция? Заглянем под капот.

Почему Qwen3.5-27B не сдается

DeepSeek-V3.2, как мы уже писали, использует архитектуру MoE (Mixture of Experts), где на каждом токене активируются только 8 миллиардов параметров из 32. Это гениальный ход для экономии ресурсов. Но Qwen3.5-27B - плотная модель. Все 27 миллиардов работают всегда.

Парадокс в том, что для STEM-задач иногда лучше иметь меньше, но более качественных параметров. Qwen3.5-27B оптимизирована именно для рассуждений (reasoning), а не для генерации красивых текстов. Ее тренировали на специфических наборах данных по математике и коду - и это видно по результатам.

Эффективность на токен? DeepSeek-V3.2 здесь чемпион - его MoE-архитектура потребляет меньше вычислений на ответ. Но если у вас есть лишние 10 гигабайт VRAM, Qwen3.5-27B покажет почти тот же интеллект за те же деньги. (Точнее, за те же ватты).

Контекст гонки: что уже было

В обзоре open-source моделей за 2026 год мы уже видели, что Qwen3.5 в целом сильна в точных науках. DeepSeek-V3.2 же изначально заточен под эффективность - как в анализе стоимости и производительности.

Гонка за качеством, как мы отмечали раньше, закончилась. Теперь считают секунды и доллары. И вот появляется AA-II - бенчмарк, который игнорирует креативность и оценивает только "мозги". И оказывается, что 27 миллиардов параметров могут быть так же хороши для интеллектуальной работы, как и 32 миллиарда с хитрой архитектурой.

Что это значит для вас

Выбираете модель для локального запуска? Смотрите на свои ресурсы и задачи.

Если у вас RTX 4090 (24GB VRAM) и вы готовы к квантованию - DeepSeek-V3.2 в 4-битном формате поместится и будет летать.
Если у вас две RTX 3090 (48GB в сумме) и вы не хотите возиться с MoE - берите Qwen3.5-27B в FP16. Она проще в развертывании.
Если задачи - чистая математика, физика или программирование, Qwen3.5-27B может даже выиграть за счет специализации.
Если нужен баланс между разными типами задач и максимальная эффективность - DeepSeek-V3.2.

И да, забыли сказать про цену. Обе модели open-source и бесплатны для коммерческого использования (с некоторыми ограничениями для больших компаний). Платить придется только за электричество.

Грядет ли эра компактных reasoning-моделей?

Результаты AA-II намекают: да. Если 27-миллиардная модель почти догоняет 32-миллиардную по "сырому интеллекту", то что будет с 40-миллиардными? Или с теми же 27 миллиардами, но на новой архитектуре?

В 2026 году фокус смещается с "больше параметров" на "умнее параметры". Тренд на reasoning-модели, которые мы видели в DeepSeek-V3.2-Speciale, только усиливается. Скоро появятся модели размером с Qwen3.5-27B, но специально обученные для решения задач шаг за шагом - как человек с черновиком.

Мой совет? Не гонитесь за гигапараметрами. Смотрите на бенчмарки типа AA-II, если вам нужен интеллект, а не болтовня. И держите руку на пульсе - в ближайшие месяцы нас ждут еще более интересные сравнения.

Подписаться на канал

Qwen3.5-27B против DeepSeek-V3.2: как маленький гигант бьет монстра на STEM-задачах