Что такое Orion?

Orion - это инструмент для прямого низкоуровневого доступа к Apple Neural Engine (ANE), позволяющий запускать и обучать LLM в обход официального CoreML стека.

Какая скорость инференса у Orion?

На устройствах с чипом M4 Ultra Orion достигает скорости до 170 токенов в секунду для моделей размером 3-7 миллиардов параметров.

Можно ли использовать Orion для продакшена?

Нет, Orion - исследовательский инструмент. Он нестабилен, требует глубоких технических знаний и может перестать работать после обновлений iOS/macOS.

Какие модели поддерживает Orion?

Orion поддерживает современные компактные LLM, включая Llama 3.2 3B, Phi-3.5-mini, Qwen2.5-Coder, Gemini 2.0 Nano и Mistral Next 2B (на 2026 год).

Orion: прямой доступ к Apple Neural Engine для LLM. Обзор 2026

Грубая сила против садовой ограды Apple

Orion - это тот самый случай, когда разработчикам надоело вежливо стучаться в дверь, и они просто вышибли ее ногой. Инструмент, появившийся в конце 2025 года, дает прямой низкоуровневый доступ к Apple Neural Engine, минуя все официальные API. Если раньше для работы с ANE нужно было продираться через джунгли CoreML с его ограничениями, то теперь можно говорить с железом на его языке.

Работа с Orion требует понимания обратной инженерии и может привести к нестабильности системы. Это инструмент для исследователей, а не для продакшена.

Что умеет Orion в 2026 году

Текущая версия 1.2.1 (актуальна на март 2026) ломает сразу несколько барьеров:

Нативный инференс LLM на ANE: запускает модели типа Llama 3.2 3B, Phi-3.5-mini и Qwen2.5-Coder прямо на Neural Engine без эмуляции. Скорость - до 170 токенов в секунду на M4 Ultra.
Обучение на ANE: полный цикл fine-tuning, включая LoRA и QLoRA. Да, вы можете дообучить модель на своем iPhone, хотя батарея скажет вам спасибо (нет).
Прямой доступ к регистрам ANE: общение с железом через патчинг драйверов. Звучит как хакерская фантастика, но это работает.
Поддержка новых архитектур: Gemini 2.0 Nano, Mistral Next 2B и другие компактные модели 2025-2026 годов.

💡

Orion использует технику, похожую на ту, что описана в нашей статье "Обратная инженерия Apple Neural Engine", но идет дальше - полностью минует CoreML стек.

Когда официальные пути слишком медленные

Давайте назовем вещи своими именами: CoreML часто проигрывает по скорости. Особенно когда дело доходит до новых архитектур LLM, которые Apple не успевает оптимизировать.

Инструмент	Скорость (токен/с)	Прямой доступ к ANE	Обучение
Orion (2026)	140-170	Да	Полное
CoreML + PyTorch	60-90	Нет	Ограниченное
vLLM-MLX	300-464	Через MLX	Только инференс
Unsloth-MLX	80-120	Частично	Да, но не на ANE

Видите разрыв? Orion в 2-2.5 раза быстрее стандартного CoreML подхода, описанного в "PyTorch в Core ML за 30 минут". Цена - стабильность и поддержка. Apple может в любой момент закрыть лазейку в следующем обновлении iOS/macOS.

Как это работает на практике

Установка Orion напоминает сборку ядра Linux в 2000-х. Нужно клонировать репозиторий, скомпилировать несколько нативных библиотек на Objective-C++ и пропатчить системные драйверы. Звучит страшно? Это потому, что так и есть.

1 Подготовка модели

Orion не принимает стандартные GGUF или Safetensors. Модель нужно конвертировать в его внутренний формат ANE-графа. Для популярных архитектур есть скрипты, но для новой модели Mistral Next 2B (релиз январь 2026) придется писать адаптер.

2 Запуск инференса

После конвертации модель загружается напрямую в память ANE. Ключевая фишка - управление кэшем ядер. Orion сам решает, какие операции выполнять на ANE, а какие на CPU/GPU, основываясь на паттернах доступа к памяти.

3 Обучение на устройстве

Здесь начинается настоящая магия. Вы можете дообучить Llama 3.2 3B на своем MacBook Air M3, используя только ANE. Память ограничена 12-16 ГБ, но для LoRA этого достаточно. Температура процессора остается низкой - вся нагрузка на Neural Engine.

Для сложных задач обучения с большими датасетами все же лучше использовать Unsloth-MLX или облачные решения. Orion хорош для быстрой адаптации под конкретную задачу.

Кому Orion покажет средний палец

Это не инструмент для всех. Совсем. Если вы ищете готовое решение для бизнеса - идите в локальные LLM на iPhone через CoreML.

Orion создан для трех типов людей:

Исследователи железа: тем, кого бесит, что Apple скрывает возможности ANE. Хотите выжать из M4 Ultra все 36 TOPS? Добро пожаловать.
Разработчики edge-решений: когда нужна максимальная энергоэффективность на iPhone. Представьте LLM, которая работает 8 часов на одной зарядке, потому что использует только Neural Engine.
Энтузиасты обратной инженерии: если вы читали про соединение iPhone и Mac в суперкомпьютер и подумали "можно лучше" - это ваш инструмент.

Что сломается первым

Orion существует в серой зоне. Apple пока не комментирует проект, но в следующих версиях macOS Sequoia или iOS 20 могут закрыть уязвимости, которые он использует. Это временное решение, но какое мощное!

Если вы все же решитесь - начинайте с моделей малого размера. Llama 3.2 3B или Phi-3.5-mini. Не лезьте сразу с тяжелыми архитектурами. И да, делайте бэкапы системы. Серьезно.

Orion доказывает одну простую вещь: железо Apple способно на большее, чем разрешает софт. И иногда, чтобы раскрыть этот потенциал, нужно просто проигнорировать все инструкции.

Подписаться на канал

Orion: как запустить и обучать LLM на Apple Neural Engine в обход CoreML (до 170 токенов/с)