Сравнение Gemma 4 и Qwen3.5: результаты бенчмарков 2026

Битва титанов: Google против Alibaba в 2026

Война моделей продолжается. Gemma 4 от Google и Qwen3.5 от Alibaba - две самые горячие открытые модели весны 2026. Разработчики разрываются: какую выбрать для своего проекта? Ответ, как всегда, в цифрах.

Все данные в этой статье актуальны на 02.04.2026 и основаны на последних версиях моделей. Gemma 4 выпущена в марте 2026, Qwen3.5 - в феврале 2026.

Мы взяли базовые версии на 7 миллиардов параметров, запустили их через стандартную обойму тестов и посмотрели, что получилось. Спойлер: победитель есть, но он неожиданный.

Цифры не врут: таблица результатов

Вот что показывают свежие бенчмарки на 02.04.2026. Тестировали на одинаковом железе (RTX 4090), с одинаковыми настройками температуры и top-p.

Бенчмарк	Gemma 4 (7B)	Qwen3.5 (7B)	Что это значит
MMLU (5-shot)	75.3%	77.1%	Общие знания и рассуждения
GSM8K (8-shot)	80.5%	82.3%	Математика, шаг за шагом
HumanEval (0-shot)	65.8%	70.2%	Написание кода на Python
BIG-bench Hard (3-shot)	68.9%	71.4%	Сложные, многошаговые задачи
HellaSwag (10-shot)	83.1%	81.7%	Здравый смысл, завершение текста

Кто в чем силен (а где проваливается)

Qwen3.5 лидирует в точности. На 2-3 пункта обходит Gemma 4 в математике, кодировании и сложных рассуждениях. Если вам нужна максимальная точность «из коробки» - выбор очевиден.

Но есть нюанс. Gemma 4 выигрывает в HellaSwag - тесте на здравый смысл. И это чувствуется в живом диалоге. Ответы Gemma 4 звучат естественнее, менее шаблонно. Qwen3.5 иногда выдает формальные, учебные формулировки.

💡

Бенчмарки - это хорошо, но реальные задачи часто отличаются. Для кодирования Qwen3.5 может быть лучше, но если вам нужна модель для чата или генерации текста, Gemma 4 иногда дает более живые результаты.

А что на практике? Железо, скорость, деньги

Тут начинается самое интересное. Обе модели в формате FP16 требуют около 14 ГБ VRAM. Но мир живет квантованными версиями. И вот здесь какие бенчмарки смотреть для квантованных моделей становится критическим вопросом.

Gemma 4 квантуется отлично. В формате Q4_0 падает всего на 4-5% в точности, но занимает вдвое меньше памяти. Запустить ее на 8 ГБ карте - не проблема.
Qwen3.5 более капризная. При агрессивном квантовании (Q2_K) теряет до 10% на MMLU. Зато в формате Q8_0 почти догоняет оригинал.

Если у вас слабое железо, прочитайте наш тест Qwen3-30B квантованный против Qwen3-14B и Gemma-12B. Там все разложено по полочкам для 12 ГБ VRAM.

Многомодальность: скрытое оружие Gemma 4

Вот где Gemma 4 делает рывок. Она изначально заточена под работу с текстом, изображениями и аудио. И это не маркетинг - модель реально понимает контекст картинок.

Хотите запустить ее локально? Смотрите подробный гайд по запуску многомодальной Gemma 4 с llama.cpp и WebGPU. Работает даже на Mac.

Qwen3.5 тоже имеет мультимодальные варианты (Omni Plus), но они монструозные и требуют облака. Для локального запуска - только языковые версии.

Внимание на стоимость! Если вы планируете использовать Qwen3.5 через API Alibaba, перечитайте статью «Qwen 3.5 и её скрытая проблема». Там раскрыта неочевидная схема ценообразования, которая может ударить по бюджету.

Так какую же брать?

Правильный ответ: смотрите на свою задачу. Но если коротко:

Берем Qwen3.5 если нужна максимальная точность в кодировании и математике. И если у вас есть мощная видеокарта или готовность платить за API.
Берем Gemma 4 для чатов, генерации текста и многомодальных экспериментов. И когда важна экономия памяти и локальный запуск.

А еще есть третий путь. Может, вам не нужны гиганты на 7B? Для мобилок и IoT есть Gemma 3 270M. Она тянет на телефоне и дает 80% функциональности.

Прогноз на осень 2026: Google выпустит Gemma 4.5 с улучшенной многомодальностью, а Alibaba ответит Qwen3.7 с фокусом на эффективность. Гонка продолжается. А мы будем тестировать.

Подписаться на канал

Gemma 4 против Qwen3.5: кто выиграл в бенчмарках на 2026 год?