397 миллиардов параметров на вашем MacBook. Серьезно?
Кажется, я слышал этот вопрос раньше. В 2024 году смеялись над запуском 7B модели на ноутбуке. В 2025 – над 72B. Сегодня, 20 марта 2026 года, кто-то в Alibaba Cloud взял и выложил в открытый доступ Qwen 3.5 397B. Не просто выложил. Специально подготовил для MLX. И да, это работает на Mac. Но не на любом.
Рекорд MMLU – не маркетинг, а факт
93.1% на Massive Multitask Language Understanding. Цифра, которая в марте 2026 года ставит модель в топ-3 открытых LLM по этому бенчмарку. Для сравнения: GPT-4o 2025 года показывает около 92.8%, а Claude 3.5 Opus – 92.5%. Разрыв минимальный, но он есть. И главное – эту интеллектуальную мощь теперь можно приручить.
| Модель | MMLU Score (2026) | Размер (4-bit MLX) | Минимальная память Mac |
|---|---|---|---|
| Qwen 3.5 397B | 93.1% | ~93 GB | 128 GB Unified |
| Llama 4 405B (Q4) | 91.5% | ~102 GB | 144 GB+ |
| Minimax M2.5 230B | 90.8% | ~52 GB | 96 GB |
| Qwen 3.5 122B (для сравнения) | 87.2% | ~31 GB | 64 GB |
Зачем тащить 400-миллиардного монстра на локальную машину? Ответ прост: приватность, полный контроль, отсутствие лимитов и API-тарифов. И да, это вызов. Если год назад мы ломали голову над запуском 122B, то теперь масштаб другой.
Квантование для MLX – не магия, а математика
MLX-native квантование, доступное в репозитории, использует групповое 4-bit сжатие с адаптивным выбором масштаба для разных слоев. В отличие от простого INT4, этот метод, похожий на тот, что применялся в Minimax m2.1 DWQ, меньше бьет по точности в слоях внимания.
Что это дает на практике? Модель размером в ~93 GB загружается в unified memory Mac Studio M3 Max (128 GB) и отвечает со скоростью 3-5 токенов в секунду. Звучит медленно? Для 397B – это космический результат. На MacBook Pro M4 с 96 GB памяти модель тоже запустится, но будет активно использовать своп, что урежет скорость до 1-2 токенов/сек.
Не обманывайте себя. Для комфортной работы с 397B в 4-bit нужен Mac как минимум с 128 GB unified memory (M3 Max/M4 Max в топовой конфигурации, Mac Studio). На 96 GB вы войдете в тяжелый своппинг, который съест не только скорость, но и SSD.
С чем сравнивать? Альтернатив почти нет
Llama 4 405B? Есть GGUF, но для MLX квантованных сборок пока нет. Да и весит она больше. Nemotron-3-Super-120B? Это уже прошлый сезон по параметрам и качеству. Ситуация парадоксальная: Qwen 3.5 397B в MLX-формате сегодня – единственный вариант получить модель такого калибра, оптимизированную именно под Apple Silicon. Не конвертированную, а собранную с нуля.
Помните нашу битву MLX против GGUF? Здесь GGUF отпадает сразу. Файл Q4_K_M для 397B весил бы около 200 GB, и llama.cpp просто не справился бы с управлением такой памятью на Mac. MLX выигрывает за счет глубокой интеграции с Unified Memory Architecture.
Кому и зачем это нужно?
- Исследователи AI: Эксперименты с prompt engineering, оценка поведения гигантских моделок без облачных счетов. Идеально для тех, кто читал про Layer Surgery и хочет копать глубже.
- Разработчики нишевых продуктов: Создание экспертных систем в медицине, юриспруденции, где данные нельзя отправлять в облако.
- Компании с парком Mac Studio: Вместо аренды кластера GPU – развернуть приватный инференс на своих железяках. Окупаемость? Вопрос шести месяцев.
- Энтузиасты, которым мало 122B: Да, есть и такие. После Nemotron-3-Super-120B хочется больше.
Что будет дальше? Мой прогноз
К концу 2026 года 400B-модели станут стандартом для high-end локального запуска на специализированных рабочих станциях. Но главный прорыв будет не в параметрах, а в методах сжатия. Ожидайте появление стабильных 2-bit квантований для MLX, которые урежут размер 397B до 50 GB, сохранив 90% качества. Apple анонсирует чипы M5 с архитектурой, заточенной под sparse модели, что изменит правила игры. А пока – качайте модель, проверяйте объем памяти и готовьтесь к долгой загрузке. Оно того стоит.