vLLM-MLX: ускорение LLM на Mac до 464 ток/с | Настройка Apple Silicon | AiManual
AiManual Logo Ai / Manual.
16 Янв 2026 Инструмент

vLLM-MLX: настройка нативного LLM-инференса на Apple Silicon с производительностью до 464 ток/с

Полный обзор vLLM-MLX: настройка локального LLM-сервера на Apple Silicon с OpenAI API. Сравнение производительности, установка, примеры использования.

Зачем еще один сервер для LLM на Mac?

Владельцы Mac с Apple Silicon знают эту боль. Хочется запустить локальную модель, а llama.cpp хоть и работает, но с API как у самодельного велосипеда. Ollama удобна, но не всегда быстра. А если нужен полноценный сервер с батчингом, кэшированием промптов и совместимостью с OpenAI? До недавнего времени ответ был «купи NVIDIA». Теперь есть vLLM-MLX.

💡
vLLM-MLX — это порт знаменитого vLLM (того самого, что разгоняет инференс на серверных GPU) под фреймворк MLX от Apple. Получаем высокооптимизированный сервер с OpenAI-совместимым API, но работающий нативно на M1, M2, M3, M4.

Что умеет эта штука?

Не просто «запускает модели». Это промышленное решение для локального использования.

  • OpenAI-совместимый API. Меняете base_url в клиенте OpenAI Python — и все ваши скрипты работают. Chat completions, embeddings, streaming.
  • Продвинутый батчинг. Может обрабатывать несколько промптов параллельно, эффективно используя память Unified Memory.
  • PagedAttention. Технология из оригинального vLLM, которая радикально снижает потребление памяти при генерации длинных текстов.
  • Поддержка GGUF. Загружает популярные квантованные форматы. Не нужно конвертировать веса.
  • Производительность. Авторы заявляют до 464 токенов/с на Mistral 7B (4-битная квантовка) на MacBook Pro M4 Max. Даже если реальные цифры ниже, это на порядок быстрее многих наивных реализаций.

Установка: проще, чем кажется

Репозиторий на GitHub. Клонируем, ставим зависимости. Главное требование — macOS 13.5+ и Python 3.9+.

Перед установкой проверьте, что у вас нет конфликтующих версий PyTorch или других ML-библиотек. Лучше использовать свежее виртуальное окружение.

1Клонируем и устанавливаем

Никаких танцев с бубном вокруг компиляции C++ кода. Все на Python и MLX.

2Запускаем сервер с моделью

Указываем путь к GGUF-файлу. Модель автоматически определит параметры из имени файла.

3Тестируем API

Отправляем запрос через curl или Python-клиент. Видим поток токенов в реальном времени.

Сравнение с альтернативами: где vLLM-MLX выигрывает и проигрывает

ИнструментПлюсыМинусыКому подойдет
vLLM-MLXМаксимальная производительность на Apple Silicon, OpenAI API, батчингМолодой проект, меньше моделей «из коробки»Разработчикам, которым нужен продакшен-сервер на Mac
OllamaНевероятно простая установка, огромная библиотека моделейAPI неполный, производительность ниже на сложных задачахБыстрое прототипирование, не-разработчикам
llama.cpp (сервер)Поддержка почти всех форматов, зрелый проектAPI базовый, нет продвинутого батчингаЭнтузиастам, которым важна максимальная совместимость
MLX LM (примеры)Прямая работа с фреймворком Apple, полный контрольНет готового сервера, нужно писать кодИсследователям, которые экспериментируют с архитектурами

Если вы уже используете NVIDIA для локальных LLM, vLLM-MLX не заменит RTX 4090. Но он делает Mac Studio полноценной рабочей станцией для инференса.

Реальные цифры производительности: что ждать от M3 Max?

Цифра в 464 ток/с — это идеальные условия. На практике все зависит от:

  • Размера контекста. Чем длиннее промпт, тем ниже скорость генерации.
  • Квантования. Q4_K_M даст баланс скорости и качества. Q8 — больше точность, но жрет память.
  • Параллельных запросов. Батчинг ускоряет обработку, но требует оперативки. На Mac с 64 ГБ можно держать несколько сессий.

На Mistral 7B Q4_K_M с контекстом 2048 токенов реальная скорость на M3 Max — около 180-220 ток/с. Это все равно в 2-3 раза быстрее, чем у многих других решений. Для сравнения, серверный CPU Epyc будет плакать в углу.

Самый большой прирост скорости заметен при обработке нескольких запросов одновременно. Один промпт может идти на 150 ток/с, а три промпта в батче — на 400+ ток/с суммарно. vLLM-MLX использует архитектуру Apple Silicon именно так, как задумано.

Примеры использования: от RAG до чат-ботов

Вы запустили сервер. Что дальше?

Локальный RAG-ассистент. Подключаете систему для работы с документами, указываете endpoint vLLM-MLX. Получаете приватного помощника, который не отправляет данные в облако. Скорость в 30-40 ток/с для RAG более чем достаточна.

Тестирование промптов. Пишете скрипт, который отправляет десятки вариаций промпта на локальный сервер. Благодаря батчингу получаете результаты в разы быстрее, чем при последовательных запросах к Ollama.

Прототип SaaS. Делаете MVP сервиса на основе LLM. Клиентская часть думает, что вы используете OpenAI, а у вас работает кластер из Mac Studio. Нулевые затраты на облачный инференс на старте.

Подводные камни и ограничения

Идеальных инструментов не бывает.

  • Только GGUF. Не загрузите Safetensors или оригинные веса PyTorch. Конвертируйте в GGUF сначала.
  • Память. PagedAttention помогает, но 7B модель в Q8 может занять 10+ ГБ. Следите за свопом.
  • Поддержка моделей. Не все архитектуры одинаково хорошо оптимизированы. Mistral, Llama — отлично. С экзотическими китайскими моделями, вроде тех, что игнорируют NVIDIA, могут быть проблемы.
  • Тепловыделение. Максимальная производительность = максимальный нагрев. MacBook Pro превратится в плиту. Для длительных нагрузок лучше распределить нагрузку или использовать Mac Studio.

Кому стоит попробовать vLLM-MLX прямо сейчас?

Это не инструмент для всех. Но если вы попадаете в одну из категорий, установите его сегодня.

Разработчики, которые пилят приложения на OpenAI API и хотят перенести логику на локальный железо без переписывания кода.

Исследователи, которым нужна максимальная скорость инференса на Apple Silicon для A/B тестов моделей.

Компании с парком Mac, которые разворачивают внутренние LLM-сервисы с требованием приватности. Запустите vLLM-MLX на Mac Studio M3 Ultra — получите корпоративный чат-бот без облачных счетов.

Энтузиасты, уставшие ждать по 10 секунд на ответ от локальной модели. Разница в скорости ощущается сразу.

А тем, кто все еще пытается выжать производительность из eGPU на Mac, стоит прочитать почему Thunderbolt 4 убивает скорость. Иногда лучшее железо уже внутри вашего Mac.

Прогноз? vLLM-MLX — первый признак того, что экосистема LLM на Apple Silicon взрослеет. Скоро появятся аналоги для мультимедийных моделей и агентов. А пока — настраивайте сервер и наслаждайтесь скоростью, которую вы не думали возможной на Mac.