Qwen 3.5 397B на Mac: рекорд MMLU и квантование MLX для Apple Silicon | AiManual
AiManual Logo Ai / Manual.
20 Мар 2026 Инструмент

Qwen 3.5 397B на Mac: рекорд 93% на MMLU и квантование для MLX

Анонс Qwen 3.5 397B с рекордом 93% на MMLU. Квантование для MLX позволяет запустить гигантскую модель на Mac с Apple Silicon. Обзор, сравнение и примеры использ

397 миллиардов параметров на вашем MacBook. Серьезно?

Кажется, я слышал этот вопрос раньше. В 2024 году смеялись над запуском 7B модели на ноутбуке. В 2025 – над 72B. Сегодня, 20 марта 2026 года, кто-то в Alibaba Cloud взял и выложил в открытый доступ Qwen 3.5 397B. Не просто выложил. Специально подготовил для MLX. И да, это работает на Mac. Но не на любом.

💡
Актуально на 20.03.2026: Qwen 3.5-397B-Instruct – последняя и самая крупная модель в линейке 3.5. Для MLX доступны квантованные версии 4-bit и 3-bit, созданные с помощью инструмента mlx-lm v0.5.1. Оригинальная FP16 модель занимает ~790 GB, что делает ее бесполезной для локального запуска без сжатия.

Рекорд MMLU – не маркетинг, а факт

93.1% на Massive Multitask Language Understanding. Цифра, которая в марте 2026 года ставит модель в топ-3 открытых LLM по этому бенчмарку. Для сравнения: GPT-4o 2025 года показывает около 92.8%, а Claude 3.5 Opus – 92.5%. Разрыв минимальный, но он есть. И главное – эту интеллектуальную мощь теперь можно приручить.

МодельMMLU Score (2026)Размер (4-bit MLX)Минимальная память Mac
Qwen 3.5 397B93.1%~93 GB128 GB Unified
Llama 4 405B (Q4)91.5%~102 GB144 GB+
Minimax M2.5 230B90.8%~52 GB96 GB
Qwen 3.5 122B (для сравнения)87.2%~31 GB64 GB

Зачем тащить 400-миллиардного монстра на локальную машину? Ответ прост: приватность, полный контроль, отсутствие лимитов и API-тарифов. И да, это вызов. Если год назад мы ломали голову над запуском 122B, то теперь масштаб другой.

Квантование для MLX – не магия, а математика

MLX-native квантование, доступное в репозитории, использует групповое 4-bit сжатие с адаптивным выбором масштаба для разных слоев. В отличие от простого INT4, этот метод, похожий на тот, что применялся в Minimax m2.1 DWQ, меньше бьет по точности в слоях внимания.

Что это дает на практике? Модель размером в ~93 GB загружается в unified memory Mac Studio M3 Max (128 GB) и отвечает со скоростью 3-5 токенов в секунду. Звучит медленно? Для 397B – это космический результат. На MacBook Pro M4 с 96 GB памяти модель тоже запустится, но будет активно использовать своп, что урежет скорость до 1-2 токенов/сек.

Не обманывайте себя. Для комфортной работы с 397B в 4-bit нужен Mac как минимум с 128 GB unified memory (M3 Max/M4 Max в топовой конфигурации, Mac Studio). На 96 GB вы войдете в тяжелый своппинг, который съест не только скорость, но и SSD.

С чем сравнивать? Альтернатив почти нет

Llama 4 405B? Есть GGUF, но для MLX квантованных сборок пока нет. Да и весит она больше. Nemotron-3-Super-120B? Это уже прошлый сезон по параметрам и качеству. Ситуация парадоксальная: Qwen 3.5 397B в MLX-формате сегодня – единственный вариант получить модель такого калибра, оптимизированную именно под Apple Silicon. Не конвертированную, а собранную с нуля.

Помните нашу битву MLX против GGUF? Здесь GGUF отпадает сразу. Файл Q4_K_M для 397B весил бы около 200 GB, и llama.cpp просто не справился бы с управлением такой памятью на Mac. MLX выигрывает за счет глубокой интеграции с Unified Memory Architecture.

Кому и зачем это нужно?

  • Исследователи AI: Эксперименты с prompt engineering, оценка поведения гигантских моделок без облачных счетов. Идеально для тех, кто читал про Layer Surgery и хочет копать глубже.
  • Разработчики нишевых продуктов: Создание экспертных систем в медицине, юриспруденции, где данные нельзя отправлять в облако.
  • Компании с парком Mac Studio: Вместо аренды кластера GPU – развернуть приватный инференс на своих железяках. Окупаемость? Вопрос шести месяцев.
  • Энтузиасты, которым мало 122B: Да, есть и такие. После Nemotron-3-Super-120B хочется больше.

Что будет дальше? Мой прогноз

К концу 2026 года 400B-модели станут стандартом для high-end локального запуска на специализированных рабочих станциях. Но главный прорыв будет не в параметрах, а в методах сжатия. Ожидайте появление стабильных 2-bit квантований для MLX, которые урежут размер 397B до 50 GB, сохранив 90% качества. Apple анонсирует чипы M5 с архитектурой, заточенной под sparse модели, что изменит правила игры. А пока – качайте модель, проверяйте объем памяти и готовьтесь к долгой загрузке. Оно того стоит.

Подписаться на канал