Цифры, которые обманывают: почему интерфейсы показывают нереальную скорость

Открываете Ollama или LM Studio, видите 150 токенов в секунду для MLX-модели на M3 Max и думаете: "Вау, теперь все будет летать!" А потом начинаете писать код с помощью агента и ждете ответа по 10 секунд на каждом шаге. Знакомо? Это не вы сходите с ума, это бенчмарки в UI врут. Причем врут систематически и красиво.

Если вы видите в интерфейсе "150 tokens/s", знайте: это почти наверняка пиковая скорость генерации на коротком контексте. В реальной работе с большими промптами и стримингом она упадет в 2-5 раз.

Проблема в том, что большинство UI-инструментов измеряют скорость в идеальных условиях: короткий промпт, теплый кеш, отсутствие посторонних процессов. Но когда вы работаете с LLM для кодирования, анализа данных или длинных диалогов, условия далеки от идеальных.

Prefill vs Generation: две скорости одной модели

Когда вы отправляете запрос модели, происходит две фазы:

Prefill (или encoding): модель обрабатывает весь ваш промпт (включая системные инструкции и историю диалога) и готовится к генерации. Это время зависит от длины контекста и вычислительно интенсивно.
Generation (или decoding): модель генерирует ответ токен за токеном. Это то, что обычно измеряют в tokens/s.

UI-бенчмарки часто показывают только скорость генерации, игнорируя prefill. Но в реальности вы ждете обе фазы. Представьте: вы даете модельке 10 тысяч токенов кода для анализа. Prefill займет несколько секунд, а то и десятков секунд. И только потом пойдет быстрая генерация.

💡

Эффективные токены в секунду (effective tokens/s) - это общее количество сгенерированных токенов, поделенное на общее время запроса (prefill + generation). Вот эта метрика и важна для реальной работы.

Например, если prefill занял 2 секунды на 5000 токенов контекста, а затем модель сгенерировала 100 токенов за 0.5 секунды, то эффективная скорость - 100 токенов / (2 + 0.5) секунды = 40 tokens/s. А UI покажет 200 tokens/s (100/0.5). Разница в 5 раз!

Реальные тесты на M1 Max: что показывают инструменты, а что - ваша работа

Я взял M1 Max с 64 ГБ памяти (да, уже старичок, но многие до сих пор на нем) и прогнал несколько тестов с MLX 26.2 и моделью Qwen3.5-7B-Chat в формате MLX. Для сравнения, также запустил ту же модель в GGUF через llama.cpp.

Условия: промпт из 4000 токенов (символичный кусок кода), генерация 256 токенов. Измерял общее время от отправки запроса до получения последнего токена.

Инструмент	Заявленная скорость (UI)	Эффективные tokens/s	Prefill time	Generation time
MLX (через mlx-lm)	~180 tokens/s	62 tokens/s	1.8 сек	2.3 сек
llama.cpp (GGUF Q4_K_M)	~120 tokens/s	58 tokens/s	2.1 сек	2.2 сек

Видите? MLX в UI обещает 180 tokens/s, но реальная эффективная скорость - 62. А llama.cpp показывает более честные цифры. Разница в prefill времени не так велика, но в поколении MLX действительно быстрее. Однако общее время выполнения запроса почти одинаковое.

Для более новых чипов, таких как M5 Pro и M5 Max, ситуация аналогична, хотя абсолютные цифры выше. В нашей статье Apple M5 Pro и M5 Max: Насколько быстрее стали работать локальные LLM мы подробно разбирали прирост производительности.

Пошаговый план: как измерить реальную производительность MLX

Хватит верить красивым цифрам. Давайте измерим все сами. Вам понадобится терминал, Python и немного терпения.

1 Установка и настройка окружения

Сначала установите MLX и mlx-lm. Актуальная версия на март 2026 - MLX 26.2. Если у вас уже стоит, обновите.

# Клонируем примеры (если еще нет)
git clone https://github.com/ml-explore/mlx-examples.git
cd mlx-examples

# Создаем виртуальное окружение
python -m venv venv
source venv/bin/activate  # для Windows: venv\Scripts\activate

# Устанавливаем зависимости
pip install -r requirements.txt
pip install mlx-lm

Если возникают конфликты версий, попробуйте Python 3.10 или 3.11. MLX иногда капризничает с новыми версиями Python.

2 Запуск бенчмарка с правильными параметрами

MLX-LM имеет встроенную функцию бенчмарка, но она измеряет только скорость генерации. Нам нужно измерить общее время. Я написал простой скрипт, который учитывает prefill.

import time
import mlx_lm
import numpy as np

# Загружаем модель (замените на свою)
model, tokenizer = mlx_lm.load("mlx-community/Qwen2.5-7B-Chat-4bit")

# Подготавливаем промпт длиной ~4000 токенов
prompt = "Вы - опытный программист. Проанализируйте следующий код:\n\n"
# Добавляем какой-то код, чтобы набрать токены
prompt += "def example():\n    pass\n" * 1000

# Токенизируем
tokens = tokenizer.encode(prompt)

# Измеряем время prefill
start_prefill = time.time()
# Здесь мы вызываем модель для получения logits, но не генерируем
# В MLX-LM для этого нужно использовать generate с max_tokens=0 или отдельный метод
# К сожалению, в mlx-lm нет отдельного метода prefill, поэтому мы измерим общее время
# Но мы можем измерить время первого токена
print("Starting generation...")
start_total = time.time()
generated = mlx_lm.generate(
    model, 
    tokenizer, 
    prompt, 
    max_tokens=256, 
    verbose=False
)
end_total = time.time()

# Время до первого токена можно приблизительно оценить, но в generate это скрыто
# Поэтому мы измерим общее время и затем вычтем время генерации, измерив скорость генерации отдельно

# Измеряем скорость генерации отдельно: генерируем 256 токенов с пустым промптом
start_gen = time.time()
_ = mlx_lm.generate(
    model, 
    tokenizer, 
    "", 
    max_tokens=256, 
    verbose=False
)
end_gen = time.time()

generation_time = end_gen - start_gen
total_time = end_total - start_total
prefill_time = total_time - generation_time

print(f"Total time: {total_time:.2f} s")
print(f"Prefill time (estimated): {prefill_time:.2f} s")
print(f"Generation time: {generation_time:.2f} s")
print(f"Generated tokens: 256")
print(f"Effective tokens/s: {256 / total_time:.2f}")
print(f"Generation tokens/s: {256 / generation_time:.2f}")

Этот скрипт дает приблизительную оценку. Для точного измерения prefill времени нужно лезть глубже в код MLX, но для сравнения моделей и форматов этого достаточно.

3 Интерпретация результатов

Смотрите на effective tokens/s. Это главная метрика. Также обратите внимание на prefill time - если он большой, то для задач с длинным контекстом (например, агентское кодирование) модель будет тормозить на каждом запросе.

Сравнивайте разные форматы: MLX, GGUF, может быть, vLLM-MLX (см. vLLM-MLX: настройка нативного LLM-инференса).

Ошибки, которые портят все метрики

Тестирование на коротком промпте. Если ваш промпт 10 токенов, prefill время ничтожно, и вы получите завышенные effective tokens/s. Тестируйте на длине промпта, близкой к вашей реальной задаче.
Игнорирование температуры и других параметров генерации. Температура, top-p, penalty - все это влияет на скорость. Тестируйте с теми параметрами, которые используете в работе.
Фоновая нагрузка. Закройте все приложения, особенно те, что жрут память. Unified Memory - общий ресурс.
Неочищенный кеш. При повторных запусках модель может закешировать часть вычислений. Для чистоты тестов перезагружайте модель каждый раз или делайте холодные запуски.

FAQ: ответы на острые вопросы

Вопрос: MLX быстрее GGUF на Apple Silicon?

Ответ: В генерации - да, часто быстрее. Но в эффективной скорости (с учетом prefill) разница может быть меньше, а иногда GGUF даже выигрывает за счет оптимизаций llama.cpp. Смотрите наши тесты в статье MLX vs GGUF на Mac M4.

Вопрос: Какую метрику считать важной для агентской работы?

Ответ: Effective tokens/s на длинных промптах (8000+ токенов). Агенты часто работают с большим контекстом, и prefill время съедает львиную долю.

Вопрос: Стоит ли переходить на MLX с GGUF?

Ответ: Если у вас Mac с Apple Silicon и вы готовы мириться с меньшим выбором моделей (MLX-формат пока не так распространен, как GGUF) - попробуйте. Для некоторых моделей, таких как GLM-5 или Minimax, MLX может дать выигрыш. Но всегда тестируйте на своих задачах.

И последний совет: не гонитесь за максимальными tokens/s. Иногда стабильность и качество ответов важнее. Модель с 40 effective tokens/s, но умная, лучше, чем быстрая, но тупая.

Теперь вы знаете правду. Берите терминал, запускайте тесты и делитесь результатами в комментариях. Интересно, кто что получит на M5 Max.

Подписаться на канал

Правда о скорости MLX на Mac: почему бенчмарки в UI врут и как измерить реальную производительность