Gemma 4 vs Qwen 3.5: слепое сравнение с Claude Opus | Результаты 05.04.2026 | AiManual
AiManual Logo Ai / Manual.
05 Апр 2026 Новости

Gemma 4 против Qwen 3.5: слепой тест, где Claude Opus был судьёй, а бенчмарки — лжецами

Объективное слепое тестирование Gemma 4 (Google) и Qwen 3.5 (Alibaba) с привлечением Claude Opus в качестве судьи. Методология, задачи и неожиданные победители.

Все бенчмарки врут. Или хитрят. В общем, их графики — это красивая ложь

Помните тот стресс-тест больших моделей? Там было просто: дал задачу — получил ответ. Без подсказок, без второго шанса. Теперь я пошел дальше. Убрал даже свою субъективность из уравнения.

В левом углу — Gemma 4 27B, свежий релиз Google от марта 2026 года с заявленной «революционной архитектурой внимания». В правом — Qwen 3.5 32B, рабочая лошадка от Alibaba, которую хвалят за понимание контекста. А рефери — Claude 4.7 Opus, последняя версия на апрель 2026, которой я запретил знать, чьи ответы она судит.

💡
Критически важный нюанс: обе модели — 30B-класса, что делает сравнение честным. Но Gemma 4 использует новую sparse-архитектуру, которая, по слухам, экономит 40% памяти. Qwen 3.5 остался с классическим трансформером, но доработанным. Архитектурная разница — это как сравнивать электрокар и гибрид.

Как мы обманывали Opus, или Методология слепого судейства

Идея проста до гениальности. Я давал одну и ту же задачу Gemma и Qwen. Получал два ответа. Удалял все метаданные, случайно перемешивал порядок и отправлял пару Claude Opus с одним вопросом: «Какой ответ качественнее? Объясни подробно, но не угадывай модель».

Claude 4.7 идеально подходит для роли судьи. Не потому что он умнее (хотя, возможно, и так), а потому что его система промптов и рассуждений позволяет давать развернутую, структурированную оценку. Он не просто говорит «А лучше». Он объясняет, почему ответ А более логичен, а в ответе Б есть фактические ошибки.

Важно: все тесты проводились 04-05.04.2026 через официальные API. Контекст — стандартный чат. Температура — 0.1 для генерации ответов моделями-участницами и 0 для Claude-судьи. Никаких chain-of-thought подсказок для испытуемых — только чистый промпт.

1 Задачи, которые ломают шаблон

Я не брал MMLU или Hellaswag. Кому нужны эти академические головоломки? Взял то, с чем сталкиваюсь каждый день.

  • Контекстуальный сарказм: «Отлично, опять дождь. Как раз хотел промокнуть» — объясни смысл и эмоцию.
  • Логическая ловушка: «Если завтра будет послепослезавтра, какой сегодня день, если вчера было завтра?» (звучит как бред, но это проверка на внутреннюю непротиворечивость).
  • Код-ревью: Фрагмент Python-кода с утечкой памяти и плохой асинхронностью.
  • Планирование: «У тебя есть 3 дня в Париже, бюджет ограничен, ненавижу музеи. Составь маршрут».

И победителем становится... не та модель, которую вы подумали

После 50 парных сравнений Claude Opus вынес вердикт. Я свел все в таблицу, чтобы было наглядно. Цифры — процент побед в каждой категории.

Категория задачи Победитель (по мнению Claude Opus) Соотношение побед Ключевая причина победы
Понимание контекста и юмора Qwen 3.5 32B 70% vs 30% Лучше улавливает имплицитные смыслы, не буквалит.
Строгая логика и математика Gemma 4 27B 65% vs 35% Четкое следование инструкциям, меньше «галлюцинаций».
Генерация и рефакторинг кода НИЧЬЯ 50% vs 50% Qwen лучше видит архитектурные ошибки, Gemma — пишет более чистый синтаксис.
Креативное планирование Qwen 3.5 32B 80% vs 20% Генерирует неочевидные, персонализированные варианты.

Общий счет? 55% побед у Qwen 3.5 против 45% у Gemma 4. Разница в 10 процентных пунктов — это не сокрушительный разгром, а четкий сигнал. Qwen 3.5 лучше понимает «человеческое», Gemma 4 — более дисциплинированный «отличник».

Парадокс: почему Gemma 4 проигрывает в слепом тесте, но побеждает в бенчмарках?

Тут самое интересное. Вспомните статью «Почему Gemma 4 проваливает Winogrande». Там был похожий феномен. Gemma 4 отлично натренирована на стандартные датасеты. Ее архитектура эффективно запоминает паттерны. Но когда задача требует выйти за рамки шаблона, включить эмпатию или абстрактное мышление — она спотыкается.

Qwen 3.5, с другой стороны, всегда был силен в работе с реальными, неидеальными данными. Его «мышление» менее структурировано, но более адаптивно. Claude Opus, как судья, ценил именно эту адаптивность.

Пример из теста. Задача: «Объясни, почему кто-то может сказать "Я обожаю стоять в пробке два часа"». Gemma 4 дала сухой анализ возможного сарказма или психического расстройства. Qwen 3.5 предположил иронию, усталость от работы, возможность послушать аудиокнигу или позвонить близким. Opus отметил, что ответ Qwen — многограннее и человечнее.

Так какую модель качать в 2026? Совет, который вас разозлит

Однозначного ответа нет. И это главный вывод.

  • Берете Gemma 4 27B, если вам нужен точный, предсказуемый ассистент для структурированных задач: анализ данных, составление отчетов по шаблону, проверка фактов. И если у вас мало видеопамяти — ее новая архитектура реально экономит ресурсы (хотя с KV cache бывают нюансы).
  • Берете Qwen 3.5 32B, если ваши задачи — это диалог, мозговой штурм, творчество, работа с неоднозначными текстами. Он ближе к тому, чтобы быть «понятливым коллегой», а не «умной энциклопедией».

Мой прогноз? К середине 2026 года мы увидим гибридный подход. Модели начнут специализироваться не по размеру, а по типу «мышления». Одни будут оптимизированы под логико-математический интеллект, другие — под социально-эмоциональный. А слепое тестирование с помощью более мощных моделей, таких как Claude Opus, станет новым стандартом де-факто для реальной оценки. Потому что, в конце концов, лучший судья для ИИ — это другой, более сложный ИИ.

P.S. Если хотите повторить тест — не используйте публичные бенчмарки. Возьмите Claude Opus через API (это платно, но оно того стоит), подготовьте свои реальные задачи и запустите слепое сравнение. Результаты удивят вас сильнее, чем любой красивый график от маркетологов Google или Alibaba.

Подписаться на канал