397 миллиардов на MacBook Air: безумие или прорыв?
Представьте, что открываете терминал на своем MacBook и запускаете модель размером с Qwen 397B. Не через облако, а локально. Звучит как шутка для инженеров с кластерами GPU. Но именно это обещает авто-исследование Apple под названием LLM in a Flash, которое взорвало сабреддиты в начале марта 2026 года.
Суть в следующем: метод агрессивно использует флэш-память (SSD) как расширение оперативной, динамически подгружая в RAM только критически важные фрагменты модели. Это не просто старый добрый swapping. Здесь интеллектуальное предсказание того, какие веса понадобятся нейросети в следующий момент. В теории это позволяет «размазать» модель в 200+ ГБ по скромным 16-32 ГБ RAM.
Qwen 397B — монстр, который не помещается
Qwen 397B — это не просто цифры. Это примерно 740 ГБ весов в формате FP16. Даже с квантованием до 4 бит (что само по себе искусство, как в GLM-4.5-Air) модель занимает под 200 ГБ. Ни один потребительский компьютер не имеет столько оперативки. Даже топовый Mac Studio M5 Ultra максимум на 256 ГБ.
Поэтому все разговоры о запуске таких моделей на «обычном железе» всегда упирались в два пути: либо использовать экзотические техники вроде Layer Surgery, либо смириться с скоростью в 0.1 токена в секунду из-за постоянного своппинга. Apple LLM in a Flash пытается найти третий путь.
Важный нюанс: само исследование Apple фокусировалось на моделях масштаба 7-13B параметров. Экстраполяция на 397B — это чистая спекуляция сообщества. Авторы оригинала скромно умолчали о таких подвигах.
Как это работает? Принцип похож на кэш L3 у процессора
Если отбросить академический жаргон, метод предсказывает, какие слои или даже группы параметров трансформера будут задействованы в следующих шагах генерации. Эти «горячие» куски загружаются в быструю память заранее. Остальное мирно лежит на SSD.
Проблема в том, что паттерны доступа у LLM не так предсказуемы, как в видеоиграх. Особенно при длинных контекстах. Попытки ускорять подобное уже были — вспомните Autoresearch на Apple Neural Engine. Но там речь шла об ускорении уже загруженной модели. Здесь же стоит задача радикально сократить объем «живой» памяти.
На бумаге формула выглядит убедительно. На практике, как показали первые тесты энтузиастов на Reddit, даже для Qwen 32B метод дает просадку в скорости на 300-500% по сравнению с работой полностью в RAM. Для 397B это будет выглядеть как слайд-шоу. (Забавно, что GLM-4.7 Flash в это же время бьет рекорды скорости, но он и близко не такого размера).
А что с железом? Mac M4/M5 и их ограничения
Даже если метод идеально оптимизируют, железо накладывает жесткие рамки. Пропускная способность PCIe 4.0 (а в большинстве Mac до сих пор она) — это около 7.8 ГБ/с. Модель в 200 ГБ, которая постоянно подгружается с SSD, будет упираться в эту шину. Для сравнения: скорость HBM памяти у специализированных ускорителей — под 1000 ГБ/с.
| Сценарий | Оценка скорости генерации (токенов/с) | Практичность |
|---|---|---|
| Qwen 397B в RAM (теоретически) | 0.5-2 | Невозможно без серверного железа |
| LLM in a Flash + NVMe SSD | ~0.05-0.1 | Только для пакетных задач |
| Обычный swapping (базовый) | <0.01 | Бессмысленно |
И это не учитывая ресурсы для самого контекста. Если вы думаете о 80k токенах, как в случае с Macbook M4 Max, то оперативка закончится еще до загрузки весов модели.
Тогда зачем весь этот хайп?
Потому что это Apple. И потому что их Neural Engine и единая память архитектуры Apple Silicon — идеальный полигон для таких экспериментов. Если они смогут заставить метод работать с их скоростными SSD (которые уже сейчас в Mac Pro штурмуют 12 ГБ/с), то для моделей размером до 100B параметров это станет реальностью. Но для 397B? Вряд ли.
Более вероятный сценарий — метод станет спасательным кругом для тех, кто хочет запускать большие, но не гигантские модели вроде Qwen 122B на Mac с 128 ГБ памяти, как в продакшен-сценариях. Это уже звучит правдоподобно.
Итог: ждать ли чуда?
Авто-исследование Apple LLM in a Flash — это интересный академический прорыв, который в будущем может изменить правила игры для инференса на устройстве. Но сегодня, 19 марта 2026 года, запуск Qwen 397B на обычном MacBook с помощью этого метода — это фантастика.
Скорость будет катастрофической, а стабильность — под вопросом. Технология нуждается в годах доработки и, что важнее, в специализированном железе, где флэш-память интегрирована в единую архитектуру еще теснее.
Поэтому, если вы увидите заголовок «Qwen 397B на вашем ноутбуке!», помните — это либо обман, либо демо, работающее со скоростью один токен в минуту. Настоящая битва за гигантские модели локально будет выиграна не одним, а комбинацией методов: квантования, MoE-архитектур (как в Qwen3 Next) и, возможно, того самого LLM in a Flash. Но не раньше 2027 года.
А пока что самый практичный способ потешить свое эго — это запустить Step-3.5-Flash-int4 и наслаждаться скоростью. 397 миллиардов параметров подождут.