Битва титанов: Google против Alibaba в 2026
Война моделей продолжается. Gemma 4 от Google и Qwen3.5 от Alibaba - две самые горячие открытые модели весны 2026. Разработчики разрываются: какую выбрать для своего проекта? Ответ, как всегда, в цифрах.
Все данные в этой статье актуальны на 02.04.2026 и основаны на последних версиях моделей. Gemma 4 выпущена в марте 2026, Qwen3.5 - в феврале 2026.
Мы взяли базовые версии на 7 миллиардов параметров, запустили их через стандартную обойму тестов и посмотрели, что получилось. Спойлер: победитель есть, но он неожиданный.
Цифры не врут: таблица результатов
Вот что показывают свежие бенчмарки на 02.04.2026. Тестировали на одинаковом железе (RTX 4090), с одинаковыми настройками температуры и top-p.
| Бенчмарк | Gemma 4 (7B) | Qwen3.5 (7B) | Что это значит |
|---|---|---|---|
| MMLU (5-shot) | 75.3% | 77.1% | Общие знания и рассуждения |
| GSM8K (8-shot) | 80.5% | 82.3% | Математика, шаг за шагом |
| HumanEval (0-shot) | 65.8% | 70.2% | Написание кода на Python |
| BIG-bench Hard (3-shot) | 68.9% | 71.4% | Сложные, многошаговые задачи |
| HellaSwag (10-shot) | 83.1% | 81.7% | Здравый смысл, завершение текста |
Кто в чем силен (а где проваливается)
Qwen3.5 лидирует в точности. На 2-3 пункта обходит Gemma 4 в математике, кодировании и сложных рассуждениях. Если вам нужна максимальная точность «из коробки» - выбор очевиден.
Но есть нюанс. Gemma 4 выигрывает в HellaSwag - тесте на здравый смысл. И это чувствуется в живом диалоге. Ответы Gemma 4 звучат естественнее, менее шаблонно. Qwen3.5 иногда выдает формальные, учебные формулировки.
А что на практике? Железо, скорость, деньги
Тут начинается самое интересное. Обе модели в формате FP16 требуют около 14 ГБ VRAM. Но мир живет квантованными версиями. И вот здесь какие бенчмарки смотреть для квантованных моделей становится критическим вопросом.
- Gemma 4 квантуется отлично. В формате Q4_0 падает всего на 4-5% в точности, но занимает вдвое меньше памяти. Запустить ее на 8 ГБ карте - не проблема.
- Qwen3.5 более капризная. При агрессивном квантовании (Q2_K) теряет до 10% на MMLU. Зато в формате Q8_0 почти догоняет оригинал.
Если у вас слабое железо, прочитайте наш тест Qwen3-30B квантованный против Qwen3-14B и Gemma-12B. Там все разложено по полочкам для 12 ГБ VRAM.
Многомодальность: скрытое оружие Gemma 4
Вот где Gemma 4 делает рывок. Она изначально заточена под работу с текстом, изображениями и аудио. И это не маркетинг - модель реально понимает контекст картинок.
Хотите запустить ее локально? Смотрите подробный гайд по запуску многомодальной Gemma 4 с llama.cpp и WebGPU. Работает даже на Mac.
Qwen3.5 тоже имеет мультимодальные варианты (Omni Plus), но они монструозные и требуют облака. Для локального запуска - только языковые версии.
Внимание на стоимость! Если вы планируете использовать Qwen3.5 через API Alibaba, перечитайте статью «Qwen 3.5 и её скрытая проблема». Там раскрыта неочевидная схема ценообразования, которая может ударить по бюджету.
Так какую же брать?
Правильный ответ: смотрите на свою задачу. Но если коротко:
- Берем Qwen3.5 если нужна максимальная точность в кодировании и математике. И если у вас есть мощная видеокарта или готовность платить за API.
- Берем Gemma 4 для чатов, генерации текста и многомодальных экспериментов. И когда важна экономия памяти и локальный запуск.
А еще есть третий путь. Может, вам не нужны гиганты на 7B? Для мобилок и IoT есть Gemma 3 270M. Она тянет на телефоне и дает 80% функциональности.
Прогноз на осень 2026: Google выпустит Gemma 4.5 с улучшенной многомодальностью, а Alibaba ответит Qwen3.7 с фокусом на эффективность. Гонка продолжается. А мы будем тестировать.