Сумасшествие, которое работает: ИИ на 20-летнем ноутбуке
В 2026 году гнаться за последним M4 Ultra - скучно. Настоящий вызов - заставить работать современные языковые модели на железе, которое считалось современным, когда только вышла Windows XP. PowerBook G4 2002 года с процессором на 1 ГГц и, в лучшем случае, гигабайтом RAM. Кажется, это железо годится только для ретро-гейминга или коллекции. А что если сказать, что на нем можно запустить TinyLlama 1.5B и получать вменяемые ответы? Не верите? Я тоже сначала не поверил.
Важно: все данные актуальны на 20 марта 2026 года. MacinAI Local версии 2.8, TinyLlama 1.5B с последними патчами, поддержка квантования Q8. Если вы читаете это позже - проверяйте обновления, потому что в этой области всё меняется каждый месяц.
MacinAI Local: не просто порт, а полная переработка
Когда говорят о запуске LLM на старом железе, обычно вспоминают llama.cpp или его аналоги. Забудьте. Для архитектуры PowerPC G4 с её уникальным набором инструкций AltiVec нужен особый подход. MacinAI Local - это кастомный inference engine, написанный практически с нуля на C89 (да, на том самом стандарте 1989 года) с одной целью: выжать из этого железа всё.
Что умеет эта штука
- Нативная поддержка AltiVec SIMD инструкций - ускорение матричных операций до 7.3x против скалярного кода
- Агрессивное квантование моделей до Q8 (8-бит) и даже Q6 для экономии памяти
- Динамический disk paging - когда модель не помещается в RAM, она частично живёт на SSD (вернее, на старом IDE-диске)
- Поддержка нескольких архитектур моделей: не только LLaMA, но и Phi-3 Mini, и даже Qwen2.5-0.5B в экспериментальном режиме
- Работа под Mac OS 9.2.2 и Mac OS X Tiger 10.4 - выбирайте вашу ярость
Подготовка поля боя: что делать с PowerBook перед стартом
Ваш PowerBook G4 скорее всего пылится на полке. Достаньте его, продуйте от пыли (серьёзно, за 20 лет там могла образоваться целая экосистема). Первое - максимум RAM. Ищите планки на 1 ГБ PC-2700 SODIMM. Второе - замените IDE диск на компакт-флэш или SD-карту через переходник. Скорость не сильно вырастет, но надёжность - да.
1 Ставим систему и компилятор
Mac OS X Tiger 10.4.11 - оптимальный выбор. На неё ещё можно найти относительно современные инструменты. Установите Xcode 2.5 (да, тот самый 2005 года) и gcc 4.0.1. Да, это древние версии, но они последние, которые официально поддерживают PowerPC.
# После установки Xcode проверяем компилятор
gcc --version
# Должно быть что-то вроде: powerpc-apple-darwin8-gcc-4.0.1
2 Качаем и собираем MacinAI Local
Репозиторий проекта живёт на GitHub, но скачивать лучше через curl - Git на Tiger работает, но медленно.
curl -LO https://github.com/retro-ai/macinai-local/releases/download/v2.8/macinai-src-v2.8.tar.gz
tar xzf macinai-src-v2.8.tar.gz
cd macinai-src
make POWERPC_G4=1 ALTIVEC=1
Если сборка прошла успешно, вы получите бинарник macinai-local размером около 2.5 МБ. Компактно? Ещё бы. Это не llama.cpp с его мегабайтами, а минималистичный движок, где каждая строка кода на счету.
Алхимия квантования: как впихнуть 1.5 миллиарда параметров в 1 ГБ RAM
TinyLlama 1.5B в формате FP16 занимает около 3 ГБ. Это в три раза больше, чем вся оперативная память вашего PowerBook. Поэтому без квантования - никак. MacinAI Local использует Q8 квантование - каждый вес хранится как 8-битное целое число вместо 32-битного float. Это сразу экономит 75% памяти.
| Формат модели | Размер на диске | Потребление RAM | Качество (ppl) |
|---|---|---|---|
| FP16 (оригинал) | 2.9 ГБ | 3.2 ГБ | 8.92 |
| Q8 (максимальное) | 1.5 ГБ | 1.7 ГБ | 9.15 |
| Q6 (эксперимент) | 1.1 ГБ | 1.3 ГБ | 9.87 |
Разница в качестве почти незаметна для простых задач, но Q8 модель уже помещается в память с учётом disk paging. Конвертировать модель нужно на современном компьютере:
# На вашем основном компьютере с Python 3.12+
python convert_tinyllama.py \
--model tinyllama-1.5b \
--quantize q8 \
--output tinyllama-1.5b-q8.bin
Полученный файл перекиньте на PowerBook через сеть или флешку. Да, 1.5 ГБ будет копироваться минут 20 по USB 1.1. Наслаждайтесь ретро-атмосферой.
Магия AltiVec: почему 1 ГГц в 2026 году ещё что-то может
Современные процессоры выполняют десятки операций за такт благодаря SIMD. PowerPC G4 с AltiVec не исключение - его 128-битные векторные регистры могут обрабатывать 4 числа с плавающей точкой одновременно. Проблема в том, что большинство inference engines просто не используют этот потенциал.
Разработчики MacinAI Local переписали ключевые ядра матричного умножения на интринсиках AltiVec. Результат: операция, которая в скалярном коде занимала 100 тактов, теперь выполняется за 14. Это даёт общее ускорение инференса в 7.3 раза. Неплохо для технологии 1999 года?
Цифры на практике: генерация одного токена TinyLlama 1.5B-Q8 на PowerBook G4 1 ГГц занимает около 850 мс. Это примерно 1.2 токена в секунду. Медленно? Безусловно. Но это работает! Для сравнения: на современном M4 Max та же модель выдает 150 токенов в секунду. Разница в 125 раз, но цена железа - в тысячу раз.
А что с альтернативами? Их просто нет
Попробуйте запустить стандартный llama.cpp на PowerPC. Он соберётся (возможно), но будет использовать только скалярные инструкции. Никакого AltiVec, никакой оптимизации под специфику архитектуры. Результат - 0.15 токена в секунду, то есть в 8 раз медленнее.
Есть ещё вариант с n-gram моделями типа Longcat-Flash-Lite - они летают даже на таком железе. Но это уже не настоящие LLM, а статистические приближения. MacinAI Local остаётся единственным инструментом, который позволяет запускать полноценные трансформерные модели с хоть какой-то приемлемой скоростью.
Кому это вообще нужно? (Спойлер: не только энтузиастам)
Кажется, это чисто академическое упражнение. Но нет. Есть как минимум три реальных сценария:
- Образовательный: Хотите понять, как работают LLM на самом низком уровне? Нет лучшего способа, чем разбирать код, написанный для ограниченных ресурсов. Каждая оптимизация здесь видна как на ладони.
- Ретро-вычисления: Сообщество любителей старых Mac активно ищет способы оживить своё железо. Запуск ИИ на PowerBook G4 - это новый уровень бравады.
- Экстремальная оптимизация: Приёмы, разработанные для MacinAI Local, уже начали просачиваться в mainstream. Например, агрессивное кэширование disk paging сейчас тестируют в llama.cpp для Linux на слабых серверах.
Так что следующий раз, когда кто-то скажет, что для локального ИИ нужна как минимум видеокарта за тысячу долларов, покажите им PowerBook G4 за 50 баксов на eBay. Он думает медленно, но думает. А в эпоху, когда роутеры агентов управляют кластерами GPU, это кажется особенно ироничным.
Что дальше? PowerPC G5 и мечты о 64-битах
Сообщество уже экспериментирует с портированием MacinAI Local на PowerPC G5 - те самые процессоры, которые Apple использовала перед переходом на Intel. У них уже 64-битная архитектура и более продвинутый AltiVec 2.0. Теоретически, на G5 можно запустить модели побольше, может быть, даже 3B параметров. Но это уже история для следующего года.
А пока - наслаждайтесь тем, что старые технологии получают вторую жизнь в самой неожиданной области. И помните: если что-то работает на PowerBook G4, оно будет летать на чём угодно.