Qwen3.5 27B: рекорд 42 балла в Intelligence Index | Обзор компактной LLM

Маленький гигант бьет все рекорды

42 балла. Всего 27 миллиардов параметров. И результат, который заставляет пересмотреть все, что мы знали о компактных моделях. Qwen3.5 27B только что установила новый рекорд в Intelligence Index, и это не просто цифра - это сигнал всей индустрии.

Intelligence Index - это новый стандарт оценки, который вытесняет старые бенчмарки вроде MMLU. Он измеряет не просто знания, а способность модели к рассуждению, пониманию контекста и решению сложных задач. 42 балла для модели такого размера - это как если бы компактный седан обогнал на трассе гиперкар.

Цифры, которые не врут

Давайте посмотрим правде в глаза. До этого момента считалось, что для высокого интеллекта нужны сотни миллиардов параметров. GLM-4.7-Flash с его 47B показывал 39 баллов. Модели размером 70B-130B едва дотягивали до 40. А тут - 27B и 42 балла. Это не эволюция, это технологический скачок.

Модель	Параметры	Intelligence Index	Примечание
Qwen3.5 27B	27 млрд	42	Новый рекорд
GLM-4.7-Flash	47 млрд	39	Предыдущий лидер
Typical 70B Model	70 млрд	38-40	Средний показатель
DeepSeek-V3.2 (Base)	231 млрд	41	В 8.5 раз больше параметров

Самое смешное? DeepSeek-V3.2 с его 231 миллиардом параметров показывает всего 41 балл. Да, вы не ослышались. Модель в восемь с половиной раз меньше обходит монстра по интеллекту. (Если интересно, как это происходит в деталях, у нас есть разбор в статье Qwen3.5-27B против DeepSeek-V3.2).

Почему это важно для вас

Забудьте про абстрактные бенчмарки. Вот что это значит на практике:

Локальное развертывание на потребительском железе. 27B параметров - это примерно 16-20 ГБ VRAM в FP16. Влезает в RTX 4090. Даже в 3060 с 12 ГБ после квантования. Больше не нужны серверные стойки.
Скорость. Меньше параметров - больше токенов в секунду. На той же RTX A6000 Qwen3.5 27B выдает 19.7 токенов/с. Для сравнения, 70B модели едва вытягивают 5-7.
Стоимость. Дешевле в эксплуатации. Дешевле в инференсе. Дешевле вообще все.

💡

Если вы думаете о tool-calling для локальных задач, посмотрите наш тест 11 маленьких LLM на CPU. Qwen3.5 27B, судя по всему, переписывает и эти правила тоже.

Что под капотом? (Без технического жаргона)

Alibaba Research не раскрывает всех карт. Но из того, что известно: архитектурные улучшения в механизме внимания, лучшее предобучение на многоязычных данных и какая-то магия с дистилляцией знаний. Они явно научились упаковывать интеллект плотнее.

Это не просто "еще одна модель". Это доказательство того, что размер - не главное. Эффективность архитектуры и качество данных теперь важнее грубой силы. Вспомните ZwZ-8B, которая видела детали без увеличения картинок. Тот же принцип: умнее, а не больше.

А что же гиганты?

Крупные модели вроде Qwen3.5-122B-A10B или монстра Qwen 3.5 Plus на 397B не исчезнут. Они нужны для других задач - для самых сложных запросов, где важен каждый процент качества. Но для 95% практических применений? 27B с интеллектом 42 балла - это новый золотой стандарт.

Внимание, спойлер: гонка за качеством в бенчмарках официально закончилась. Как мы предсказывали ранее, теперь считают секунды и доллары. И Qwen3.5 27B выигрывает по обоим показателям.

Что делать прямо сейчас

Если вы выбираете модель для своего проекта в 2026 году, вот мой совет (неочевидный): не гонитесь за самой большой. Скачайте Qwen3.5 27B, попробуйте на своих данных. Скорее всего, ее будет достаточно.

А потом заквантуйте ее с помощью IQ2 или подобных методов (как в этой безумной истории про 100 токенов в секунду). И наслаждайтесь скоростью и качеством, которых хватит для большинства задач.

Прогноз на оставшийся 2026 год? Мы увидим волну ultra-efficient моделей в диапазоне 20-30B параметров. Все остальное - для очень специфичных кейсов. Интеллект, наконец, стал компактным. И это прекрасно.

Подписаться на канал

Qwen3.5 27B: обзор самой умной компактной модели по Intelligence Index