Orion: прямой доступ к Apple Neural Engine для LLM. Обзор 2026 | AiManual
AiManual Logo Ai / Manual.
05 Мар 2026 Инструмент

Orion: как запустить и обучать LLM на Apple Neural Engine в обход CoreML (до 170 токенов/с)

Обзор Orion - инструмента для запуска и обучения LLM на Apple Neural Engine в обход CoreML. Скорость до 170 токен/с, сравнение с альтернативами и примеры исполь

Грубая сила против садовой ограды Apple

Orion - это тот самый случай, когда разработчикам надоело вежливо стучаться в дверь, и они просто вышибли ее ногой. Инструмент, появившийся в конце 2025 года, дает прямой низкоуровневый доступ к Apple Neural Engine, минуя все официальные API. Если раньше для работы с ANE нужно было продираться через джунгли CoreML с его ограничениями, то теперь можно говорить с железом на его языке.

Работа с Orion требует понимания обратной инженерии и может привести к нестабильности системы. Это инструмент для исследователей, а не для продакшена.

Что умеет Orion в 2026 году

Текущая версия 1.2.1 (актуальна на март 2026) ломает сразу несколько барьеров:

  • Нативный инференс LLM на ANE: запускает модели типа Llama 3.2 3B, Phi-3.5-mini и Qwen2.5-Coder прямо на Neural Engine без эмуляции. Скорость - до 170 токенов в секунду на M4 Ultra.
  • Обучение на ANE: полный цикл fine-tuning, включая LoRA и QLoRA. Да, вы можете дообучить модель на своем iPhone, хотя батарея скажет вам спасибо (нет).
  • Прямой доступ к регистрам ANE: общение с железом через патчинг драйверов. Звучит как хакерская фантастика, но это работает.
  • Поддержка новых архитектур: Gemini 2.0 Nano, Mistral Next 2B и другие компактные модели 2025-2026 годов.
💡
Orion использует технику, похожую на ту, что описана в нашей статье "Обратная инженерия Apple Neural Engine", но идет дальше - полностью минует CoreML стек.

Когда официальные пути слишком медленные

Давайте назовем вещи своими именами: CoreML часто проигрывает по скорости. Особенно когда дело доходит до новых архитектур LLM, которые Apple не успевает оптимизировать.

Инструмент Скорость (токен/с) Прямой доступ к ANE Обучение
Orion (2026) 140-170 Да Полное
CoreML + PyTorch 60-90 Нет Ограниченное
vLLM-MLX 300-464 Через MLX Только инференс
Unsloth-MLX 80-120 Частично Да, но не на ANE

Видите разрыв? Orion в 2-2.5 раза быстрее стандартного CoreML подхода, описанного в "PyTorch в Core ML за 30 минут". Цена - стабильность и поддержка. Apple может в любой момент закрыть лазейку в следующем обновлении iOS/macOS.

Как это работает на практике

Установка Orion напоминает сборку ядра Linux в 2000-х. Нужно клонировать репозиторий, скомпилировать несколько нативных библиотек на Objective-C++ и пропатчить системные драйверы. Звучит страшно? Это потому, что так и есть.

1 Подготовка модели

Orion не принимает стандартные GGUF или Safetensors. Модель нужно конвертировать в его внутренний формат ANE-графа. Для популярных архитектур есть скрипты, но для новой модели Mistral Next 2B (релиз январь 2026) придется писать адаптер.

2 Запуск инференса

После конвертации модель загружается напрямую в память ANE. Ключевая фишка - управление кэшем ядер. Orion сам решает, какие операции выполнять на ANE, а какие на CPU/GPU, основываясь на паттернах доступа к памяти.

3 Обучение на устройстве

Здесь начинается настоящая магия. Вы можете дообучить Llama 3.2 3B на своем MacBook Air M3, используя только ANE. Память ограничена 12-16 ГБ, но для LoRA этого достаточно. Температура процессора остается низкой - вся нагрузка на Neural Engine.

Для сложных задач обучения с большими датасетами все же лучше использовать Unsloth-MLX или облачные решения. Orion хорош для быстрой адаптации под конкретную задачу.

Кому Orion покажет средний палец

Это не инструмент для всех. Совсем. Если вы ищете готовое решение для бизнеса - идите в локальные LLM на iPhone через CoreML.

Orion создан для трех типов людей:

  1. Исследователи железа: тем, кого бесит, что Apple скрывает возможности ANE. Хотите выжать из M4 Ultra все 36 TOPS? Добро пожаловать.
  2. Разработчики edge-решений: когда нужна максимальная энергоэффективность на iPhone. Представьте LLM, которая работает 8 часов на одной зарядке, потому что использует только Neural Engine.
  3. Энтузиасты обратной инженерии: если вы читали про соединение iPhone и Mac в суперкомпьютер и подумали "можно лучше" - это ваш инструмент.

Что сломается первым

Orion существует в серой зоне. Apple пока не комментирует проект, но в следующих версиях macOS Sequoia или iOS 20 могут закрыть уязвимости, которые он использует. Это временное решение, но какое мощное!

Если вы все же решитесь - начинайте с моделей малого размера. Llama 3.2 3B или Phi-3.5-mini. Не лезьте сразу с тяжелыми архитектурами. И да, делайте бэкапы системы. Серьезно.

Orion доказывает одну простую вещь: железо Apple способно на большее, чем разрешает софт. И иногда, чтобы раскрыть этот потенциал, нужно просто проигнорировать все инструкции.

Подписаться на канал