Можно ли запустить TinyLlama на PowerBook G4 2002 года?

Да, с помощью инструмента MacinAI Local, оптимизации AltiVec и квантования Q8 модели.

Какая скорость генерации текста на PowerBook G4?

Около 1.2 токена в секунду для модели TinyLlama 1.5B в формате Q8.

Что такое AltiVec и зачем он нужен?

AltiVec - это SIMD-расширение архитектуры PowerPC G4, позволяющее обрабатывать несколько операций одновременно. Оптимизация под него ускоряет инференс в 7.3 раза.

Запуск TinyLlama на PowerBook G4: MacinAI Local, AltiVec, квантование

Сумасшествие, которое работает: ИИ на 20-летнем ноутбуке

В 2026 году гнаться за последним M4 Ultra - скучно. Настоящий вызов - заставить работать современные языковые модели на железе, которое считалось современным, когда только вышла Windows XP. PowerBook G4 2002 года с процессором на 1 ГГц и, в лучшем случае, гигабайтом RAM. Кажется, это железо годится только для ретро-гейминга или коллекции. А что если сказать, что на нем можно запустить TinyLlama 1.5B и получать вменяемые ответы? Не верите? Я тоже сначала не поверил.

Важно: все данные актуальны на 20 марта 2026 года. MacinAI Local версии 2.8, TinyLlama 1.5B с последними патчами, поддержка квантования Q8. Если вы читаете это позже - проверяйте обновления, потому что в этой области всё меняется каждый месяц.

MacinAI Local: не просто порт, а полная переработка

Когда говорят о запуске LLM на старом железе, обычно вспоминают llama.cpp или его аналоги. Забудьте. Для архитектуры PowerPC G4 с её уникальным набором инструкций AltiVec нужен особый подход. MacinAI Local - это кастомный inference engine, написанный практически с нуля на C89 (да, на том самом стандарте 1989 года) с одной целью: выжать из этого железа всё.

Что умеет эта штука

Нативная поддержка AltiVec SIMD инструкций - ускорение матричных операций до 7.3x против скалярного кода
Агрессивное квантование моделей до Q8 (8-бит) и даже Q6 для экономии памяти
Динамический disk paging - когда модель не помещается в RAM, она частично живёт на SSD (вернее, на старом IDE-диске)
Поддержка нескольких архитектур моделей: не только LLaMA, но и Phi-3 Mini, и даже Qwen2.5-0.5B в экспериментальном режиме
Работа под Mac OS 9.2.2 и Mac OS X Tiger 10.4 - выбирайте вашу ярость

💡

AltiVec - это SIMD-расширение PowerPC, аналог SSE у Intel. Оно оперирует 128-битными векторами, что идеально для операций с матрицами в трансформерах. Но современные компиляторы давно забыли про эту архитектуру - поэтому всё приходится писать вручную, с интринсиками.

Подготовка поля боя: что делать с PowerBook перед стартом

Ваш PowerBook G4 скорее всего пылится на полке. Достаньте его, продуйте от пыли (серьёзно, за 20 лет там могла образоваться целая экосистема). Первое - максимум RAM. Ищите планки на 1 ГБ PC-2700 SODIMM. Второе - замените IDE диск на компакт-флэш или SD-карту через переходник. Скорость не сильно вырастет, но надёжность - да.

1 Ставим систему и компилятор

Mac OS X Tiger 10.4.11 - оптимальный выбор. На неё ещё можно найти относительно современные инструменты. Установите Xcode 2.5 (да, тот самый 2005 года) и gcc 4.0.1. Да, это древние версии, но они последние, которые официально поддерживают PowerPC.

# После установки Xcode проверяем компилятор
gcc --version
# Должно быть что-то вроде: powerpc-apple-darwin8-gcc-4.0.1

2 Качаем и собираем MacinAI Local

Репозиторий проекта живёт на GitHub, но скачивать лучше через curl - Git на Tiger работает, но медленно.

curl -LO https://github.com/retro-ai/macinai-local/releases/download/v2.8/macinai-src-v2.8.tar.gz
tar xzf macinai-src-v2.8.tar.gz
cd macinai-src
make POWERPC_G4=1 ALTIVEC=1

Если сборка прошла успешно, вы получите бинарник macinai-local размером около 2.5 МБ. Компактно? Ещё бы. Это не llama.cpp с его мегабайтами, а минималистичный движок, где каждая строка кода на счету.

Алхимия квантования: как впихнуть 1.5 миллиарда параметров в 1 ГБ RAM

TinyLlama 1.5B в формате FP16 занимает около 3 ГБ. Это в три раза больше, чем вся оперативная память вашего PowerBook. Поэтому без квантования - никак. MacinAI Local использует Q8 квантование - каждый вес хранится как 8-битное целое число вместо 32-битного float. Это сразу экономит 75% памяти.

Формат модели	Размер на диске	Потребление RAM	Качество (ppl)
FP16 (оригинал)	2.9 ГБ	3.2 ГБ	8.92
Q8 (максимальное)	1.5 ГБ	1.7 ГБ	9.15
Q6 (эксперимент)	1.1 ГБ	1.3 ГБ	9.87

Разница в качестве почти незаметна для простых задач, но Q8 модель уже помещается в память с учётом disk paging. Конвертировать модель нужно на современном компьютере:

# На вашем основном компьютере с Python 3.12+
python convert_tinyllama.py \
--model tinyllama-1.5b \
--quantize q8 \
--output tinyllama-1.5b-q8.bin

Полученный файл перекиньте на PowerBook через сеть или флешку. Да, 1.5 ГБ будет копироваться минут 20 по USB 1.1. Наслаждайтесь ретро-атмосферой.

Магия AltiVec: почему 1 ГГц в 2026 году ещё что-то может

Современные процессоры выполняют десятки операций за такт благодаря SIMD. PowerPC G4 с AltiVec не исключение - его 128-битные векторные регистры могут обрабатывать 4 числа с плавающей точкой одновременно. Проблема в том, что большинство inference engines просто не используют этот потенциал.

Разработчики MacinAI Local переписали ключевые ядра матричного умножения на интринсиках AltiVec. Результат: операция, которая в скалярном коде занимала 100 тактов, теперь выполняется за 14. Это даёт общее ускорение инференса в 7.3 раза. Неплохо для технологии 1999 года?

Цифры на практике: генерация одного токена TinyLlama 1.5B-Q8 на PowerBook G4 1 ГГц занимает около 850 мс. Это примерно 1.2 токена в секунду. Медленно? Безусловно. Но это работает! Для сравнения: на современном M4 Max та же модель выдает 150 токенов в секунду. Разница в 125 раз, но цена железа - в тысячу раз.

А что с альтернативами? Их просто нет

Попробуйте запустить стандартный llama.cpp на PowerPC. Он соберётся (возможно), но будет использовать только скалярные инструкции. Никакого AltiVec, никакой оптимизации под специфику архитектуры. Результат - 0.15 токена в секунду, то есть в 8 раз медленнее.

Есть ещё вариант с n-gram моделями типа Longcat-Flash-Lite - они летают даже на таком железе. Но это уже не настоящие LLM, а статистические приближения. MacinAI Local остаётся единственным инструментом, который позволяет запускать полноценные трансформерные модели с хоть какой-то приемлемой скоростью.

Кому это вообще нужно? (Спойлер: не только энтузиастам)

Кажется, это чисто академическое упражнение. Но нет. Есть как минимум три реальных сценария:

Образовательный: Хотите понять, как работают LLM на самом низком уровне? Нет лучшего способа, чем разбирать код, написанный для ограниченных ресурсов. Каждая оптимизация здесь видна как на ладони.
Ретро-вычисления: Сообщество любителей старых Mac активно ищет способы оживить своё железо. Запуск ИИ на PowerBook G4 - это новый уровень бравады.
Экстремальная оптимизация: Приёмы, разработанные для MacinAI Local, уже начали просачиваться в mainstream. Например, агрессивное кэширование disk paging сейчас тестируют в llama.cpp для Linux на слабых серверах.

Так что следующий раз, когда кто-то скажет, что для локального ИИ нужна как минимум видеокарта за тысячу долларов, покажите им PowerBook G4 за 50 баксов на eBay. Он думает медленно, но думает. А в эпоху, когда роутеры агентов управляют кластерами GPU, это кажется особенно ироничным.

Что дальше? PowerPC G5 и мечты о 64-битах

Сообщество уже экспериментирует с портированием MacinAI Local на PowerPC G5 - те самые процессоры, которые Apple использовала перед переходом на Intel. У них уже 64-битная архитектура и более продвинутый AltiVec 2.0. Теоретически, на G5 можно запустить модели побольше, может быть, даже 3B параметров. Но это уже история для следующего года.

А пока - наслаждайтесь тем, что старые технологии получают вторую жизнь в самой неожиданной области. И помните: если что-то работает на PowerBook G4, оно будет летать на чём угодно.

Подписаться на канал

Как запустить TinyLlama на PowerBook G4 2002 года: разбор платформы MacinAI Local, оптимизация AltiVec и квантование