Какая реальная скорость у vLLM-MLX на MacBook Pro M3 Max?

На модели Mistral 7B с квантованием Q4_K_M и контекстом 2048 токенов реальная скорость генерации составляет 180-220 токенов в секунду. При обработке нескольких запросов параллельно (батчинг) суммарная скорость может достигать 400+ ток/с.

Чем vLLM-MLX лучше Ollama?

vLLM-MLX предлагает полную совместимость с OpenAI API, продвинутый батчинг для одновременной обработки нескольких запросов и технологию PagedAttention для эффективного использования памяти. Это делает его более подходящим для продакшен-сценариев и разработки.

Какие модели поддерживает vLLM-MLX?

Инструмент поддерживает модели в формате GGUF (Llama, Mistral и другие архитектуры). Оригинальные веса PyTorch или Safetensors необходимо предварительно конвертировать в GGUF.

Нужно ли много оперативной памяти для работы vLLM-MLX?

Требования к памяти зависят от размера модели и степени квантования. 7B-модель в Q8 может занимать более 10 ГБ. Рекомендуется Mac с 32 ГБ+ оперативной памяти для комфортной работы, особенно при использовании батчинга.

vLLM-MLX: ускорение LLM на Mac до 464 ток/с | Настройка Apple Silicon

Зачем еще один сервер для LLM на Mac?

Владельцы Mac с Apple Silicon знают эту боль. Хочется запустить локальную модель, а llama.cpp хоть и работает, но с API как у самодельного велосипеда. Ollama удобна, но не всегда быстра. А если нужен полноценный сервер с батчингом, кэшированием промптов и совместимостью с OpenAI? До недавнего времени ответ был «купи NVIDIA». Теперь есть vLLM-MLX.

💡

vLLM-MLX — это порт знаменитого vLLM (того самого, что разгоняет инференс на серверных GPU) под фреймворк MLX от Apple. Получаем высокооптимизированный сервер с OpenAI-совместимым API, но работающий нативно на M1, M2, M3, M4.

Что умеет эта штука?

Не просто «запускает модели». Это промышленное решение для локального использования.

OpenAI-совместимый API. Меняете base_url в клиенте OpenAI Python — и все ваши скрипты работают. Chat completions, embeddings, streaming.
Продвинутый батчинг. Может обрабатывать несколько промптов параллельно, эффективно используя память Unified Memory.
PagedAttention. Технология из оригинального vLLM, которая радикально снижает потребление памяти при генерации длинных текстов.
Поддержка GGUF. Загружает популярные квантованные форматы. Не нужно конвертировать веса.
Производительность. Авторы заявляют до 464 токенов/с на Mistral 7B (4-битная квантовка) на MacBook Pro M4 Max. Даже если реальные цифры ниже, это на порядок быстрее многих наивных реализаций.

Установка: проще, чем кажется

Репозиторий на GitHub. Клонируем, ставим зависимости. Главное требование — macOS 13.5+ и Python 3.9+.

Перед установкой проверьте, что у вас нет конфликтующих версий PyTorch или других ML-библиотек. Лучше использовать свежее виртуальное окружение.

1Клонируем и устанавливаем

Никаких танцев с бубном вокруг компиляции C++ кода. Все на Python и MLX.

2Запускаем сервер с моделью

Указываем путь к GGUF-файлу. Модель автоматически определит параметры из имени файла.

3Тестируем API

Отправляем запрос через curl или Python-клиент. Видим поток токенов в реальном времени.

Сравнение с альтернативами: где vLLM-MLX выигрывает и проигрывает

Инструмент	Плюсы	Минусы	Кому подойдет
vLLM-MLX	Максимальная производительность на Apple Silicon, OpenAI API, батчинг	Молодой проект, меньше моделей «из коробки»	Разработчикам, которым нужен продакшен-сервер на Mac
Ollama	Невероятно простая установка, огромная библиотека моделей	API неполный, производительность ниже на сложных задачах	Быстрое прототипирование, не-разработчикам
llama.cpp (сервер)	Поддержка почти всех форматов, зрелый проект	API базовый, нет продвинутого батчинга	Энтузиастам, которым важна максимальная совместимость
MLX LM (примеры)	Прямая работа с фреймворком Apple, полный контроль	Нет готового сервера, нужно писать код	Исследователям, которые экспериментируют с архитектурами

Если вы уже используете NVIDIA для локальных LLM, vLLM-MLX не заменит RTX 4090. Но он делает Mac Studio полноценной рабочей станцией для инференса.

Реальные цифры производительности: что ждать от M3 Max?

Цифра в 464 ток/с — это идеальные условия. На практике все зависит от:

Размера контекста. Чем длиннее промпт, тем ниже скорость генерации.
Квантования. Q4_K_M даст баланс скорости и качества. Q8 — больше точность, но жрет память.
Параллельных запросов. Батчинг ускоряет обработку, но требует оперативки. На Mac с 64 ГБ можно держать несколько сессий.

На Mistral 7B Q4_K_M с контекстом 2048 токенов реальная скорость на M3 Max — около 180-220 ток/с. Это все равно в 2-3 раза быстрее, чем у многих других решений. Для сравнения, серверный CPU Epyc будет плакать в углу.

Самый большой прирост скорости заметен при обработке нескольких запросов одновременно. Один промпт может идти на 150 ток/с, а три промпта в батче — на 400+ ток/с суммарно. vLLM-MLX использует архитектуру Apple Silicon именно так, как задумано.

Примеры использования: от RAG до чат-ботов

Вы запустили сервер. Что дальше?

Локальный RAG-ассистент. Подключаете систему для работы с документами, указываете endpoint vLLM-MLX. Получаете приватного помощника, который не отправляет данные в облако. Скорость в 30-40 ток/с для RAG более чем достаточна.

Тестирование промптов. Пишете скрипт, который отправляет десятки вариаций промпта на локальный сервер. Благодаря батчингу получаете результаты в разы быстрее, чем при последовательных запросах к Ollama.

Прототип SaaS. Делаете MVP сервиса на основе LLM. Клиентская часть думает, что вы используете OpenAI, а у вас работает кластер из Mac Studio. Нулевые затраты на облачный инференс на старте.

Подводные камни и ограничения

Идеальных инструментов не бывает.

Только GGUF. Не загрузите Safetensors или оригинные веса PyTorch. Конвертируйте в GGUF сначала.
Память. PagedAttention помогает, но 7B модель в Q8 может занять 10+ ГБ. Следите за свопом.
Поддержка моделей. Не все архитектуры одинаково хорошо оптимизированы. Mistral, Llama — отлично. С экзотическими китайскими моделями, вроде тех, что игнорируют NVIDIA, могут быть проблемы.
Тепловыделение. Максимальная производительность = максимальный нагрев. MacBook Pro превратится в плиту. Для длительных нагрузок лучше распределить нагрузку или использовать Mac Studio.

Кому стоит попробовать vLLM-MLX прямо сейчас?

Это не инструмент для всех. Но если вы попадаете в одну из категорий, установите его сегодня.

Разработчики, которые пилят приложения на OpenAI API и хотят перенести логику на локальный железо без переписывания кода.

Исследователи, которым нужна максимальная скорость инференса на Apple Silicon для A/B тестов моделей.

Компании с парком Mac, которые разворачивают внутренние LLM-сервисы с требованием приватности. Запустите vLLM-MLX на Mac Studio M3 Ultra — получите корпоративный чат-бот без облачных счетов.

Энтузиасты, уставшие ждать по 10 секунд на ответ от локальной модели. Разница в скорости ощущается сразу.

А тем, кто все еще пытается выжать производительность из eGPU на Mac, стоит прочитать почему Thunderbolt 4 убивает скорость. Иногда лучшее железо уже внутри вашего Mac.

Прогноз? vLLM-MLX — первый признак того, что экосистема LLM на Apple Silicon взрослеет. Скоро появятся аналоги для мультимедийных моделей и агентов. А пока — настраивайте сервер и наслаждайтесь скоростью, которую вы не думали возможной на Mac.

vLLM-MLX: настройка нативного LLM-инференса на Apple Silicon с производительностью до 464 ток/с