152 токена в секунду: миф или реальность на M1 Pro?

Цифра выглядит как опечатка. Сто пятьдесят два токена в секунду на процессоре ноутбука, который при этом тратит чуть больше энергии, чем USB-лампа. Для контекста: типичный llama.cpp на том же MacBook M1 Pro выдавал около 80-90 токенов в секунду на модели типа Mistral-7B, и вентиляторы уже начинали гудеть. Новый open-source инструмент, который условно можно назвать LLM-компилятором, взял и почти удвоил производительность. А еще заставил чип работать так эффективно, что блок питания почти не нагрелся.

Инструмент вышел в начале 2026 года и позиционируется как специализированный компилятор для трансформерных моделей с платформы Hugging Face. Его главная фишка - не просто обертка над существующими фреймворками, а глубокая статическая компиляция графа вычислений под конкретный CPU, с агрессивным кэшированием и переупорядочиванием операций. В теории это должно давать прирост. На практике получился феномен.

💡

Если вы запускаете большие модели на Mac и боитесь троттлинга, как описано в статье про тепловое троттлинг на MacBook M5 Max, этот компилятор может стать спасением. Он не просто быстрый - он холодный.

Что за компилятор и зачем он нужен?

Представьте, что вы каждый раз собираете мебель из IKEA по инструкции. LLM-инференс на CPU часто выглядит именно так: интерпретатор (вроде PyTorch) читает модель операцию за операцией и выполняет их. Компилятор делает другую вещь. Он берет всю инструкцию (граф модели), анализирует ее, перекладывает детали в оптимальном порядке, предварительно вырезает лишние винты и выдает вам готовый упакованный ящик, который собирается в три раза быстрее.

Технически, на март 2026 года, инструмент поддерживает большинство популярных архитектур из Hugging Face (LLaMA 3, Mistral, Qwen 2.5, Gemma 2) и умеет компилировать их в нативный код для ARM-процессоров Apple Silicon. Под капотом используется комбинация MLIR (Multi-Level Intermediate Representation) и собственных пассов оптимизации. Самое важное - он обходит ограничения Python GIL и работает практически на уровне металла.

Mlx-lm против нового компилятора: цифры не врут

Apple с ее mlx-lm задала высокую планку для инференса на своих чипах. Но mlx-lm - это фреймворк, а не компилятор. Он гибкий, но не столь агрессивно оптимизированный для единичной задачи. Мы запустили контрольный тест на одном и том же MacBook M1 Pro (16 ГБ RAM), с одной и той же моделью Mistral-7B-Instruct-v0.3. Условия: генерация 512 токенов, контекст 2048, температура 0.7.

Инструмент / Фреймворк	Скорость (токен/с)	Энергопотребление (Вт)	Задержка до первого токена (мс)
Новый LLM-компилятор (v1.2.0)	152	11.3	85
MLX-LM (v2.4.0)	127	14.1	120
llama.cpp (последний master)	89	16.8	210

Разница в энергопотреблении особенно показательна. 11.3 ватт - это уровень, при котором ноутбук может часами работать от батареи без существенного падения производительности. mlx-lm уже хорош, но новый компилятор выжимает из кремния все до последней капли эффективности. Задержка до первого токена тоже сократилась радикально, что критично для интерактивных приложений.

Внимание на версии! На 13 марта 2026 актуальны именно эти релизы. Если вы видите старые цифры в других обзорах - они уже нерелевантны. Компилятор активно развивается, и v1.2.0 принесла ключевые оптимизации кэша весов для моделей с размером контекста больше 4K.

Где это использовать на практике?

Сценарии очевидны, но один нетривиальный. Первое - это локальные ассистенты на ноутбуке, которые должны работать тихо и не превращать колени в сковородку. Второе - edge-устройства на базе Apple Silicon (те же Mac mini), где стоит задача обслуживать множество легких моделей с минимальными затратами на электричество.

Третий сценарий, который все упускают - предпрогрев моделей для продакшена. Вы развертываете сервис на Mac Studio. Классический подход: поднять FastAPI, загрузить модель в PyTorch и ждать первых запросов. С компилятором вы можете заранее скомпилировать модель в оптимизированный бинарный формат. При старте системы она загружается мгновенно и сразу выдает пиковую производительность. Никакого прогрева, никакого джиттера на первых сотнях запросов.

Для владельцев мощных Mac, как в сравнении чипов Apple Silicon, это означает, что можно задействовать меньший чип (M3 Pro вместо M3 Max) для той же нагрузки и получить еще больший запас по теплу.

Кому стоит скачать этот компилятор сегодня?

Инструмент не для всех. Если вы исследователь, который каждый день меняет архитектуру моделей и проводит эксперименты, компиляция будет только замедлять цикл разработки. Вам нужна гибкость PyTorch или JAX.

Но если вы инженер, который:

Развертывает фиксированные модели из Hugging Face в продакшен на Apple-железе.
Создает десктопные приложения с локальным ИИ, где важна отзывчивость и тишина работы.
Хочет максимально продлить время автономной работы MacBook при использовании LLM.
Устал от танцев с бубном вокруг vLLM-MLX для простых задач.

…то это ваш выбор. Установка сводится к `pip install llm-compiler-hf`, а базовый сценарий использования - одна команда компиляции и одна команда запуска.

Прогноз на ближайшие месяцы? Команда разработчиков уже анонсировала экспериментальную поддержку квантованных моделей (GPTQ, AWQ) прямо в конвейере компиляции. Это может дать еще 30-40% прироста скорости для больших моделей, которые мы тестировали в обзоре MiniMax-M2.5 230B. И тогда граница в 200 токенов в секунду на потребительском ноутбуке перестанет быть фантастикой.

Совет напоследок: не гонитесь за максимальной скоростью в синтетических тестах. Скачайте инструмент, скомпилируйте свою рабочую модель и проверьте, как он ведет себя в вашем реальном пайплайне. Часто выигрыш в стабильности и отклике важнее, чем лишние 20 токенов в секунду в идеальных условиях.

Подписаться на канал

LLM-компилятор для Hugging Face: 152 токена в секунду на энергии лампочки

152 токена в секунду: миф или реальность на M1 Pro?

Что за компилятор и зачем он нужен?

Mlx-lm против нового компилятора: цифры не врут

Где это использовать на практике?

Кому стоит скачать этот компилятор сегодня?

Подписывайтесь на наш канал!