Gemma 4 vs Qwen 3.5: тест скорости и качества на Mac Studio с llama.cpp | AiManual
AiManual Logo Ai / Manual.
03 Апр 2026 Новости

Gemma 4 против Qwen 3.5: кто быстрее и умнее на Mac Studio?

Прямое сравнение производительности Gemma 4 и Qwen 3.5 на Mac Studio M3 Ultra. Цифры скорости, анализ качества ответов и практические выводы для локального запу

Выбрать модель для локального запуска на Mac — это как выбрать кофе: все хотят и крепкий, и быстрый, и чтобы не горчил. Особенно когда на кону две тяжеловеса: свежайшая Gemma 4 от Google (релиз начала 2026) и обновленная Qwen 3.5 от Alibaba. Мы загнали их обе на Mac Studio M3 Ultra с последней версией llama.cpp и устроили драку без правил. Результаты удивили даже нас.

Полигон: Mac Studio, который не должен был «задыхаться»

Железо — Mac Studio M3 Ultra (24-ядерный CPU, 76-ядерный GPU, 192 GB Unified Memory). Софт — llama.cpp версии b5203 (актуальная сборка на 03.04.2026) с поддержкой всех новых фич Apple Silicon. Мы тестировали модели в формате Q4_K_M GGUF — золотой стандарт для баланса размера и качества в 2026 году. Контекст — 4096 токенов, температура — 0.7. Никаких скидок.

Важный контекст: Gemma 4 — многомодальная модель, но в этом тесте мы использовали её текстовые возможности. Для полного обзора её мультимодальности смотрите нашу предыдущую статью про запуск Gemma 4 локально.

Цифры, которые решают всё

Забудьте про теоретические TFLOPS. Нас интересовало только одно: сколько полезных токенов в секунду выдает каждая модель, когда вы задаете реальный вопрос.

Модель (размер) Формат Скорость (токенов/сек) Пик памяти (RAM)
Gemma 4 (7B) Q4_K_M GGUF 48 - 52 ~8.1 GB
Qwen 3.5 (7B) Q4_K_M GGUF 42 - 46 ~7.8 GB
Gemma 4 (14B) Q4_K_M GGUF 31 - 35 ~13.5 GB
Qwen 3.5 (14B) Q4_K_M GGUF 27 - 30 ~14.0 GB

Разница в 10-15% в пользу Gemma 4 на аналогичных размерах — это не погрешность. Это архитектурная оптимизация Google под Apple Silicon, о которой они скромно умалчивают. На практике это значит, что Gemma 4 закончит свой ответ, пока Qwen 3.5 еще будет думать над серединой предложения.

Качество: где цепочка мыслей превращается в лапшу

Скорость — это хорошо, но если модель генерирует красивый бред, то зачем она нужна? Мы задали серию промптов, требующих логических рассуждений (chain-of-thought).

  • Задача на логику: «У Марии было три яблока. Она отдала два и купила пять. Сколько у неё яблок? Объясни шаги».
  • Код-ревью: «Найди ошибку в этой функции Python, которая должна вычислять факториал».
  • Анализ текста: «Резюмируй основные тезисы из этого отрывка о квантовых вычислениях».

Gemma 4 (14B) показала себя как спокойный отличник. Рассуждения последовательные, выводы точные. Но иногда слишком краткие — будто торопится сдать работу и убежать.

Qwen 3.5 (14B) — это византийский философ. Она может расписать решение на три абзаца, ввести дополнительные переменные, сделать лирическое отступление… и в итоге прийти к тому же выводу. Это впечатляет, но съедает время и контекстные токены. Для творческих задач — отлично. Для быстрых ответов — мучительно.

💡
Это подтверждает наши старые опасения о «скрытой стоимости» Qwen: её склонность к многословию буквально сжирает ваши вычислительные ресурсы. С Gemma 4 такого нет — она более дисциплинирована.

Итог: кому что ставить на Mac?

Выбор оказался проще, чем мы думали.

Берите Gemma 4, если: вам нужна максимальная скорость отклика для чата, coding assistant или быстрого анализа данных. Она эффективно использует ресурсы M3 Ultra и не заставляет вас ждать. Особенно это чувствуется в 7B-версии — эта штука просто летает, выдавая адекватные ответы для своего размера.

Выбирайте Qwen 3.5, если: качество и глубина ответа для вас абсолютный приоритет, а время генерации не так важно. Её рассуждения более развернутые и иногда более точные в сложных логических цепочках. Но готовьтесь к тому, что ваш Mac Studio будет работать на пределе дольше. Для серьезной работы с большим контекстом изучите наш гайд по оптимизации Qwen для архитектуры как код.

Неочевидный совет: Если вы работаете в LM Studio или другой обертке над llama.cpp, попробуйте ограничить максимальное количество выходных токенов для Qwen 3.5. Это заставит её быть лаконичнее и ускорит работу без значительной потери качества. С Gemma 4 такой трюк почти не нужен — она и так сжатая.

Прогноз на 2026 год прост: Google сделал ставку на эффективность для локального запуска, и Gemma 4 — её прямое воплощение. Alibaba продолжает толкать границы качества, но за счет ресурсов. Ваш Mac, ваши правила. Главное — теперь вы знаете цифры.

Подписаться на канал