EXL3 на Mac: обход CUDA-зависимости через Apple Silicon

В сообществе локальных LLM произошел сдвиг тектонических масштабов. EXL3 — формат квантизации, который долгое время был эксклюзивом для владельцев NVIDIA из-за жесткой привязки к CUDA, — наконец-то перестал быть «игрушкой для избранных». Ребята из ExLlama портировали рантайм и утилиты конвертации на Apple Silicon. Теперь любой Mac с 64 ГБ RAM (и выше) может запускать модели в 6- и 8-битной точности, не теряя в скорости инференса. В теории, конечно.

Новость пришла из закрытого чата разработчиков ExLlama. Официальный пост в блоге обещают в ближайшие дни, но бинарные сборки и исходники уже доступны на GitHub.

Что такое EXL3 и почему он был недоступен на Mac?

EXL3 — это эволюция известного формата ExLlamaV2. Главная фишка — группа методов квантизации, которые позволяют ужать модель до 4-8 бит с минимальной потерей качества. В отличие от GGUF (который дружит с CPU), EXL3 всегда рассчитывал на наличие CUDA-ядер для оптимизированных матричных операций и кэширования KV. Mac с их M-чипами и Metal Performance Shaders оставались за бортом — никто не хотел писать бэкенд под нейронный движок Apple.

Долгое время единственным способом запустить высокоточную квантизацию на Mac была эмуляция через CUDA-абстракции вроде PCI Passthrough или сборка гибридного кластера с eGPU — но это был ад для обычного пользователя. Как писали в нашем эксперименте с Exo, единственный рабочий способ — это родная поддержка, а не костыли.

Как обошли CUDA-зависимость?

Разработчики пошли по пути, который уже протестирован в проекте vLLM-MLX: они переписали критичные ядра на shader-инструкции Metal, а для операций, которые невозможно портировать напрямую, использовали MLX — фреймворк для машинного обучения от Apple, который работает поверх MPS. В результате EXL3-рантайм теперь умеет загружать тензоры непосредственно в unified memory и выполнять квантизованные линейные слои без единого вызова CUDA.

Важный нюанс: конвертация существующих моделей из EXL3-формата в новый «mac-совместимый» требует переквантизации. Старые чекпоинты, собранные под CUDA, не запустятся напрямую — нужно прогнать через конвертер, который появится в той же сборке.

Кому это нужно и что по производительности?

Владельцы Mac Studio и MacBook Pro с 64-128 ГБ RAM получают доступ к моделям вроде Qwen-2.5-72B или Mixtral 8x22B в 6-битной точности. Раньше такие модели приходилось жать до 4 бит (со значительной потерей адекватности) либо гонять через облачные инстансы. Теперь, по первым тестам, скорость инференса на M3 Ultra (80 GPU core) достигает 35-45 токенов/с для 34B модели в 8 бит — это в два раза быстрее, чем та же модель в GGUF Q4_K_M на CPU.

Но не обольщайтесь: на MacBook Air с 16 ГБ памяти запустить EXL3 по-прежнему не выйдет. Минимальный порог — 48 ГБ, комфортный — 64 ГБ. Как и в случае с Qwen-Image-2512, для генерации изображений на Mac требуется unified memory, и EXL3 здесь не исключение.

А что насчёт распределённых вычислений?

Разработчики обещают поддержку multi-GPU через Thunderbolt 5 в следующих версиях. Если удастся реализовать — это будет прямой удар по сборкам кластеров из Mac Mini. Пока же EXL3 работает только в пределах одного чипа. Но учитывая темпы развития MLX и RDMA (о которых мы писали в обзоре MLX 26.2), масштабирование — вопрос ближайших месяцев.

💡

Если у вас Mac с 96 ГБ RAM — вы почти на равных с RTX 3090 в сценариях инференса, только без шума и нагрева. Подробное сравнение железа для LLM — в нашем полном гайде.

А что с экосистемой?

Появление EXL3 на Mac — ещё один шаг к унификации локального AI. Раньше выбор «железо под модель» был жёстким: NVIDIA даёт скорость, Apple даёт память. Теперь границы стираются. Уже сейчас на GitHub есть форки, которые позволяют запускать EXL3 через Multi Token Prediction от Gemma 4 — Google обещала двукратный прирост, и первые тесты на Mac это подтверждают.

Для магазинов моделей (Hugging Face) — это повод пересмотреть графы зависимостей. Если раньше EXL3-метка означала «только CUDA», то теперь разработчики могут спокойно публиковать единый чекпоинт — рантайм сам выберет бэкенд. Мир становится проще, и это отличная новость для тех, кто не хочет возиться с драйверами.

Прогноз: Через полгода EXL3-формат полностью вытеснит GGUF на Mac, если команда MLX не выпустит свой высокоточный формат раньше. А пока — берите Mac с 64 ГБ, ставьте свежий билд ExLlama и наслаждайтесь 8-битной квантизацией. Только не забудьте предварительно конвертнуть модель — иначе получите ошибку сегментации и полчаса мата.

Подписаться на канал

EXL3 теперь на Mac: Apple Silicon снимает проклятие CUDA для высокоточных LLM

Что такое EXL3 и почему он был недоступен на Mac?

Как обошли CUDA-зависимость?

Кому это нужно и что по производительности?

А что насчёт распределённых вычислений?

А что с экосистемой?

Подписывайтесь на наш канал!