Революция или эволюция? M5 Pro и Max вышли на сцену
Пару месяцев тишины после анонса, пара нервных утечек - и вот он, релиз. Apple представила чипы M5 Pro и M5 Max в феврале 2026. Спецификации впечатляют: до 48 ядер Neural Engine против 38 у M4 Max, пропускная способность памяти заявлена на уровне до 500 ГБ/с. Но всех волнует один вопрос: насколько быстрее они гоняют локальные большие языковые модели? Я взял MacBook Pro на M5 Max 48 ГБ, поставил рядом такой же ноут на M4 Max 36 ГБ и устроил адский тест-драйв. Обещания про 4-кратное ускорение промптов оказались... частично правдой.
Все тесты проводились 1-2 марта 2026 года. Использовались llama.cpp версии b3932 (актуальный билд с полной поддержкой архитектуры M5), MLX 27.1 и vLLM-MLX версии 1.3. Модели скачаны в актуальных на эту дату квантованиях Q4_K_M и Q5_K_S.
Цифры, которые заставят вас задуматься
Я не буду грузить вас графиками. Вот голая статистика токенов в секунду на инференсе. Условия одинаковые: температура 0.7, контекст 4096 токенов, генерация 512 токенов, батч 1.
| Модель (Квантование) | M4 Max (38 ядер NE) | M5 Max (48 ядер NE) | Прирост |
|---|---|---|---|
| Mistral 8x22B Instruct (Q4_K_M) | 14.5 ток/с | 31.2 ток/с | 115% |
| Qwen2.5-Coder-14B (Q5_K_S) | 42.1 ток/с | 78.8 ток/с | 87% |
| DeepSeek-Coder-V3-7B (Q5_K_M) | 89.3 ток/с | 127.4 ток/с | 43% |
| GPT-OSS-20B (актуальная на 03.2026, Q4_K_M) | 22.7 ток/с | 41.5 ток/с | 83% |
Видите закономерность? Чем больше модель, тем выше прирост. Для тяжелой Mistral 8x22B разница более чем двукратная. Для легких 7B моделей - скромнее. Это не просто тактовая частота. Это новая архитектура кэшей Neural Engine и оптимизация работы с Unified Memory. (Кстати, о памяти: если вы думаете об апгрейде, наш гайд по выбору Mac для LLM до сих пор актуален).
Где обещанное 4-кратное ускорение? Разбираем маркетинг
Apple в пресс-релизах говорила про "до 4x faster prompt processing". Ключевое слово - "prompt processing". Это не про генерацию текста. Это про кодирование промпта (phase encoding). M5 получил отдельные аппаратные блоки для предварительной обработки последовательностей. В реальных задачах, где промпт длинный, а ответ короткий (классификация, извлечение сущностей), разница действительно может достигать 300-350%. Но в диалогах или генерации кода, где вы генерируете сотни токенов, общий выигрыш скромнее - 40-120%, как видно из таблицы.
Еще один нюанс: тепло. M4 Max в нагрузке грелся так, что тачпад становился теплой грелкой. M5 Max в тех же тестах оставался едва теплым. Новая система охлаждения и 3-нм техпроцесс делают свое дело. Это значит, что вы можете часами гонять инференс без троттлинга. Попробуйте это на старом Intel Mac - услышите, как взлетает вертолет.
А что с M5 Pro? Золотая середина или компромисс?
M5 Pro - это не урезанный Max. Это другой чип. У него 32 ядра Neural Engine и немного урезанная пропускная способность памяти. Мои тесты на MacBook Pro 14 с M5 Pro 24 ГБ показали интересную картину. Для моделей до 14B он почти не отстает от M5 Max. Разница в 5-10%. Но как только вы загружаете что-то вроде Codestral-22B, отставание достигает 25-30%. Память. Всегда упирается в память. (Если у вас уже есть M5 Pro и вы ищете, что на нем запустить, смотрите наш обзор лучших LLM для программирования на M5 Pro).
Стоит ли менять M4 Max на M5 Max только для LLM? Если вы зарабатываете этим - да. 80-100% прирост для больших моделей окупит апгрейд за несколько месяцев. Если вы энтузиаст, который запускает 7B модели для развлечения - нет, не стоит. Ваш M4 Max еще несколько лет будет актуальным. К тому же, сейчас можно найти отличные предложения на MacBook Pro 16" на M4 Max. Это все еще мощнейшая машина.
Программная экосистема догоняет железо
Самое слабое место сейчас - софт. Llama.cpp только в последних ночных билдах начал полноценно использовать новые инструкции M5. MLX 27.1 стабильно работает, но vLLM-MLX, о котором мы писали ранее, пока показывает на M5 прирост всего 15-20% против оптимизированного llama.cpp. Разработчики в чате говорят: "ждем следующего релиза через пару недель". Типичная история. Железо обгоняет софт.
Внимание: если вы обновились до macOS 15.4 (выпущен в конце февраля 2026), убедитесь, что у вас установлены актуальные версии всех ML-библиотек. Старые версии PyTorch или tensorflow-macos могут работать нестабильно или не использовать Neural Engine.
Итог: M5 - это шаг вперед, но не прыжок через пропасть
Apple не совершила революцию. Она сделала ожидаемый эволюционный шаг. M5 Pro и Max быстрее M4, особенно в тяжелых задачах. Но это не тот скачок, который был между M1 и M2. Если вы сидите на M3 Max - обновляться нет смысла. Если на M2 или M1 - да, разница будет колоссальной. И да, 14-дюймовый MacBook Pro на M4 Max сейчас - это идеальный баланс цены и производительности для большинства.
Мой прогноз? К концу 2026 года, когда выйдут оптимизированные версии llama.cpp, MLX и популярных оберток, разница между M4 и M5 в реальных задачах вырастет еще на 10-15%. Но главный бой будет не здесь. Слухи про M5 Ultra с 96 ядрами Neural Engine уже ходят. Вот это будет взрыв. А пока - M5 Max это топ, но не обязательный апгрейд для всех.