Почему ваш Mac все еще тормозит с локальными LLM?
Вы скачали свежую Llama 3.3 70B, запустили через привычный интерфейс, и... ждете по 20 секунд на ответ. Знакомо? Apple Silicon мог бы работать быстрее, но стандартные обертки часто не используют его потенциал. Вот здесь появляется AFM MLX.
AFM MLX: не просто обертка, а турбонаддув для моделей
В отличие от многих Python-решений, AFM MLX написан на Swift и использует MLX framework от Apple напрямую. Это значит нулевые накладные расходы на межъязыковое взаимодействие и полный доступ к Neural Engine.
На 19 марта 2026 года последняя версия AFM MLX - 2.1.0. Она добавила поддержку динамического квантования на лету и грамматического декодирования для JSON-ответов. Если вы все еще используете версии 0.9.x, вы теряете до 40% скорости.
Что умеет AFM MLX:
- Batch mode: обработка нескольких запросов одновременно, что увеличивает пропускную способность до 3 раз на многопоточных задачах.
- Prefix cache: кэширование начальных токенов промпта - если вы используете одинаковые системные инструкции, они не пересчитываются каждый раз.
- Нативная интеграция с Metal: автоматическое использование GPU и CPU без ручной настройки.
- Поддержка всех популярных форматов моделей: GGUF, MLX, SafeTensors.
- Telegram-бот из коробки: да, вы можете развернуть своего LLM-ассистента за 5 минут.
Важно: AFM MLX не совместим с NVIDIA GPU. Это исключительно для Apple Silicon (M1, M2, M3, M4) и Intel Mac с Metal. Если у вас Windows или Linux, смотрите в сторону vLLM-MLX.
Битва оптимизаторов: AFM MLX против vLLM-MLX
Когда речь заходит об ускорении LLM на Mac, часто всплывает vLLM-MLX. Оба инструмента используют MLX, но подход разный.
| Характеристика | AFM MLX | vLLM-MLX |
|---|---|---|
| Язык | Swift (нативный) | Python + C++ |
| Запуск | Через Homebrew или Swift Package | Через pip install |
| Batch mode | Да, с динамическим планированием | Да, но статический |
| Prefix cache | Включен флагом --enable-prefix-cache | Нет (на март 2026) |
| Производительность | До 520 ток/с на M4 Max | До 464 ток/с на M3 Max |
AFM MLX выигрывает в нативности и глубине интеграции с macOS. vLLM-MLX - это порт популярного vLLM, который может быть знаком тем, кто работал с Linux. Выбор зависит от вашего стека: если вы Swift-разработчик, AFM MLX естественен; если вы переходите с Python, vLLM-MLX проще.
Как заставить Llama 3.3 летать на M3 Max
Установка AFM MLX занимает минуту. Откройте терминал и введите:
brew install afm-mlx
Или, если вы предпочитаете pip (да, есть и Python-биндинг):
pip install afm-mlx
Запустите модель с оптимизациями:
afm-mlx run --model llama-3.3-70b --enable-prefix-cache --batch-size 4
Флаг --enable-prefix-cache кэширует системный промпт, что ускоряет диалоги. --batch-size 4 позволяет обрабатывать до 4 запросов параллельно. На M3 Max с 128 ГБ RAM это дает устойчивые 180 токенов в секунду для 70B-модели.
afm-mlx convert --input llama-3.3-70b.gguf --output mlxИнтеграция в Swift-приложения
Если вы разрабатываете macOS или iOS приложение, AFM MLX предоставляет Swift API. Вот пример из Swift Transformers 1.0:
import AFM_MLX
let model = try AFMMLXModel.load("llama-3.3-70b")
let response = try model.generate("Что такое квантовая запутанность?", maxTokens: 100)
print(response)
Это намного проще, чем возиться с Python-биндингами через PyTorch.
Кому действительно нужен AFM MLX (спойлер: не всем)
AFM MLX - инструмент для конкретных сценариев:
- Разработчики macOS/iOS приложений, которые хотят встроить локальные LLM без головной боли с Python.
- Исследователи, которым нужна максимальная скорость на Apple Silicon для экспериментов с промптами.
- Корпоративные пользователи, развертывающие приватные ассистенты на Mac-серверах. Batch mode позволяет обслуживать десятки сотрудников на одном Mac Studio.
Если же вы только начинаете с локальных LLM, возможно, стоит начать с Unsloth-MLX для прототипирования или с vLLM-MLX для простоты.
Неочевидный трюк: используйте AFM MLX с Longcat-Flash-Lite
Самое интересное происходит, когда вы комбинируете инструменты. Например, можно использовать Longcat-Flash-Lite для быстрого n-gram поиска, а AFM MLX - для глубокого понимания контекста. Такая гибридная система работает в 5 раз быстрее, чем чистая LLM, и почти не теряет в качестве.
Прогноз на 2027 год: AFM MLX может стать стандартом для локальных LLM на Mac, особенно с ростом моделей с 1 триллионом параметров. Apple явно делает ставку на MLX, и инструменты вроде AFM MLX - это первый шаг к тому, чтобы Mac стал лучшей платформой для ИИ-разработки.
Хотите глубже? Посмотрите полный обзор AFM MLX 0.9.7 для деталей о грамматическом декодировании и Telegram-боте.