Выбрать модель для локального запуска на Mac — это как выбрать кофе: все хотят и крепкий, и быстрый, и чтобы не горчил. Особенно когда на кону две тяжеловеса: свежайшая Gemma 4 от Google (релиз начала 2026) и обновленная Qwen 3.5 от Alibaba. Мы загнали их обе на Mac Studio M3 Ultra с последней версией llama.cpp и устроили драку без правил. Результаты удивили даже нас.
Полигон: Mac Studio, который не должен был «задыхаться»
Железо — Mac Studio M3 Ultra (24-ядерный CPU, 76-ядерный GPU, 192 GB Unified Memory). Софт — llama.cpp версии b5203 (актуальная сборка на 03.04.2026) с поддержкой всех новых фич Apple Silicon. Мы тестировали модели в формате Q4_K_M GGUF — золотой стандарт для баланса размера и качества в 2026 году. Контекст — 4096 токенов, температура — 0.7. Никаких скидок.
Важный контекст: Gemma 4 — многомодальная модель, но в этом тесте мы использовали её текстовые возможности. Для полного обзора её мультимодальности смотрите нашу предыдущую статью про запуск Gemma 4 локально.
Цифры, которые решают всё
Забудьте про теоретические TFLOPS. Нас интересовало только одно: сколько полезных токенов в секунду выдает каждая модель, когда вы задаете реальный вопрос.
| Модель (размер) | Формат | Скорость (токенов/сек) | Пик памяти (RAM) |
|---|---|---|---|
| Gemma 4 (7B) | Q4_K_M GGUF | 48 - 52 | ~8.1 GB |
| Qwen 3.5 (7B) | Q4_K_M GGUF | 42 - 46 | ~7.8 GB |
| Gemma 4 (14B) | Q4_K_M GGUF | 31 - 35 | ~13.5 GB |
| Qwen 3.5 (14B) | Q4_K_M GGUF | 27 - 30 | ~14.0 GB |
Разница в 10-15% в пользу Gemma 4 на аналогичных размерах — это не погрешность. Это архитектурная оптимизация Google под Apple Silicon, о которой они скромно умалчивают. На практике это значит, что Gemma 4 закончит свой ответ, пока Qwen 3.5 еще будет думать над серединой предложения.
Качество: где цепочка мыслей превращается в лапшу
Скорость — это хорошо, но если модель генерирует красивый бред, то зачем она нужна? Мы задали серию промптов, требующих логических рассуждений (chain-of-thought).
- Задача на логику: «У Марии было три яблока. Она отдала два и купила пять. Сколько у неё яблок? Объясни шаги».
- Код-ревью: «Найди ошибку в этой функции Python, которая должна вычислять факториал».
- Анализ текста: «Резюмируй основные тезисы из этого отрывка о квантовых вычислениях».
Gemma 4 (14B) показала себя как спокойный отличник. Рассуждения последовательные, выводы точные. Но иногда слишком краткие — будто торопится сдать работу и убежать.
Qwen 3.5 (14B) — это византийский философ. Она может расписать решение на три абзаца, ввести дополнительные переменные, сделать лирическое отступление… и в итоге прийти к тому же выводу. Это впечатляет, но съедает время и контекстные токены. Для творческих задач — отлично. Для быстрых ответов — мучительно.
Итог: кому что ставить на Mac?
Выбор оказался проще, чем мы думали.
Берите Gemma 4, если: вам нужна максимальная скорость отклика для чата, coding assistant или быстрого анализа данных. Она эффективно использует ресурсы M3 Ultra и не заставляет вас ждать. Особенно это чувствуется в 7B-версии — эта штука просто летает, выдавая адекватные ответы для своего размера.
Выбирайте Qwen 3.5, если: качество и глубина ответа для вас абсолютный приоритет, а время генерации не так важно. Её рассуждения более развернутые и иногда более точные в сложных логических цепочках. Но готовьтесь к тому, что ваш Mac Studio будет работать на пределе дольше. Для серьезной работы с большим контекстом изучите наш гайд по оптимизации Qwen для архитектуры как код.
Неочевидный совет: Если вы работаете в LM Studio или другой обертке над llama.cpp, попробуйте ограничить максимальное количество выходных токенов для Qwen 3.5. Это заставит её быть лаконичнее и ускорит работу без значительной потери качества. С Gemma 4 такой трюк почти не нужен — она и так сжатая.
Прогноз на 2026 год прост: Google сделал ставку на эффективность для локального запуска, и Gemma 4 — её прямое воплощение. Alibaba продолжает толкать границы качества, но за счет ресурсов. Ваш Mac, ваши правила. Главное — теперь вы знаете цифры.