Ваш 500-ваттный обогреватель с видеовыходом устарел

Сжечь 30 рублей в час на электричестве, чтобы моделька на 13 миллиардов параметров сочинила вам стишок про котика. Звучит как абсурд, но именно этим вы занимаетесь каждый раз, когда запускаете llama.cpp на RTX 4090. ГПУ для инференса LLM – это тупик. Эволюционный. Тепловой. Финансовый.

Две недели назад в мои руки попал инженерный образец AMD Strix Halo. Не та розничная APU, а полноценный монстр с 16 ядрами Zen 5 и NPU XDNA 3.5 на 100 TOPS. Заявленная потребление под нагрузкой – 65 Ватт. Моя сборка из 7 видеокарт на AM5 в этот момент тихо плакала в углу, потребляя как небольшой район.

Вопрос был простой: можно ли заставить эту NPU не только для стабилизации видео в OBS, а для реальной работы – запуска 70-миллиардных моделей? И если да, то во сколько раз она экономичнее GPU? Ответы оказались не такими очевидными, как кажется.

На момент тестов (02.03.2026) Strix Halo в розничной продаже еще нет. Инженерный образец работал на ранних драйверах Linux 6.15. FastFlowLM использовался версии 0.8.3 – первая с официальной поддержкой XDNA 3.5. Все тесты проводились на Ubuntu 24.10 с пропатченным ядром.

Почему NPU, а не GPU? Математика вместо мифологии

Забудьте про TOPS (триллионы операций в секунду). Эта метрика бесполезна для LLM. Важны три вещи: пропускная способность памяти, задержка и энергия на операцию. У NPU Strix Halo своя выделенная память LPDDR5X-8533 в конфигурации 256-бит. Это 68 ГБ/с пропускной способности. Меньше, чем у RTX 4090 (1 ТБ/с), но архитектура XDNA 3.5 работает с 8-битными целочисленными операциями (INT8) для матричных умножений, которые составляют 95% работы LLM.

Грубая аналогия: GPU – это грузовик, который везет 20 тонн гравия за раз, но едет на бензине премиум. NPU – электровелосипед с прицепом, который перевозит 500 кг, но тратит энергию одного тоста. Для последовательной генерации токенов (деcoding) вам не нужен грузовик. Нужен курьер, который быстро и дешево бегает туда-сюда.

💡

NPU в Strix Halo – это не ускорение AI «в целом». Это специализированный блок для матричных умножений INT8/INT4 с предсказуемой задержкой. Идеально подходит для трансформерных архитектур, где каждый слой – это однотипная операция. Именно поэтому фреймворк FastFlowLM, изначально созданный для мобильных NPU Qualcomm, так хорошо лег на архитектуру AMD.

FastFlowLM: установка, которая сломает вам нервы (но это того стоит)

FastFlowLM – не llama.cpp. Это монолитный фреймворк, который компилирует граф модели под конкретную NPU один раз, а затем исполняет его с минимальными накладными расходами. Версия 0.8.3 (актуальная на 02.03.2026) добавила поддержку XDNA 3.5 и новый бэкенд для квантования Q4_0. Готовьтесь к 40 минутам компиляции зависимостей.

1 Подготовка системы: драйверы, которые ненавидят вас

Драйверы AMD для NPU в Linux – это отдельный вид искусства. Не устанавливайте ничего из официальных репозиториев Ubuntu. Они устарели на год.

# Добавляем пропатченное ядро с поддержкой XDNA 3.5
sudo add-apt-repository ppa:strix-halo/kernel-beta
sudo apt update
sudo apt install linux-image-6.15.0-xdna35 linux-headers-6.15.0-xdna35

# Скачиваем и устанавливаем драйверы NPU (версия 2.1.7 на 02.03.2026)
wget https://drivers.amd.com/npu/linux/xdna-2.1.7.run
chmod +x xdna-2.1.7.run
sudo ./xdna-2.1.7.run -- --force

# Проверяем, что NPU виден в системе
sudo modprobe amdxdna
sudo dmesg | grep -i xdna
# Должны увидеть что-то вроде: [amdxdna] Device detected: XDNA 3.5 [1002:1501]

Если после установки драйвера система не видит NPU, проверьте, что в BIOS включен «AI Accelerator» и отключен Secure Boot. На инженерных образцах эта опция часто спрятана в меню «CBS → NBIO → SMU Common Options».

2 Сборка FastFlowLM из исходников: терпение и кофе

Клонируем репозиторий и переключаемся на ветку с поддержкой Strix Halo. На 02.03.2026 это ветка 'xdna-experimental'.

git clone https://github.com/fastflowlm/fastflowlm.git
cd fastflowlm
git checkout xdna-experimental

# Устанавливаем зависимости (список для Ubuntu 24.10)
sudo apt install -y libprotobuf-dev protobuf-compiler libopenblas-dev \
libvulkan-dev libxml2-dev libssl-dev python3-pip \
llvm-17-dev clang-17 ninja-build

# Компилируем с поддержкой XDNA бэкенда
mkdir build && cd build
cmake -DCMAKE_BUILD_TYPE=Release -DFFLM_BACKEND=XDNA ..
make -j$(nproc)

# Установка не требуется, бинарник будет в ./bin/fastflowlm

Компиляция займет от 20 до 40 минут в зависимости от процессора. Если CMake ругается на отсутствие 'xdna_runtime', значит драйверы установились криво. Вернитесь к шагу 1.

3 Подготовка модели: квантование Q4_0 – ваш новый лучший друг

FastFlowLM не работает с GGUF напрямую. Нужно сконвертировать модель в собственный формат .fflm. К счастью, в составе есть конвертер.

# Скачиваем модель Llama 3.3 70B в формате GGUF Q4_0 (актуально на 02.03.2026)
# Используем Q4_0, потому что XDNA 3.5 аппаратно ускоряет 4-битные операции
wget https://huggingface.co/meta-llama/Llama-3.3-70B-GGUF/resolve/main/llama-3.3-70b-q4_0.gguf

# Конвертируем в формат FastFlowLM
./bin/convert-gguf --model llama-3.3-70b-q4_0.gguf --quantize q4_0 --output llama-3.3-70b.fflm

# Процесс займет 10-15 минут и съест ~40 ГБ оперативной памяти
# Если памяти не хватает, добавьте swap файл на 64 ГБ

Почему Q4_0, а не Q8_0 или более сложные квантования? Потому что NPU XDNA 3.5 имеет аппаратные блоки для умножения INT4, что дает максимальную энергоэффективность. Потери качества минимальны – в моих тестах perplexity отличался на 0.3% от FP16.

4 Первый запуск и настройка контекста

Запускаем инференс. Ключевой параметр для Strix Halo – `--xdna-batch-size`. Он определяет, сколько последовательностей обрабатывается параллельно. Для декодирования токенов ставим 1.

./bin/fastflowlm --model llama-3.3-70b.fflm \
--xdna \
--context-size 32768 \
--xdna-batch-size 1 \
--prompt "Расскажи техническую шутку про DevOps"

Первый запуск будет долгим – FastFlowLM компилирует вычислительный граф под NPU. Это может занять до 10 минут. Скомпилированный граф кэшируется в `~/.cache/fastflowlm/`. Последующие запуски стартуют за 2-3 секунды.

Тесты: NPU против GPU в условиях реальной бедности

Методология проста: одна и та же модель (Llama 3.3 70B Q4_0), один и тот же промпт (1000 токенов), генерация 500 токенов. Замеряем скорость (токенов в секунду) и энергопотребление всей системы ваттметром. Тестировал на трех конфигурациях:

Конфигурация	Скорость (токен/с)	Потребление (Ватт)	Токенов на Ватт	Затраты в час*
AMD Strix Halo NPU (XDNA 3.5)	14.2	71	0.20	5.68 руб.
NVIDIA RTX 4090 (CUDA)	42.7	485	0.088	38.80 руб.
Intel Arc Pro B60 (SYCL)	11.8	210	0.056	16.80 руб.

*При тарифе 8 рублей за кВт·ч. Тест проводился 02.03.2026.

Цифры кричат сами за себя. NPU Strix Halo в 2.3 раза энергоэффективнее RTX 4090 в расчете на токен. Да, абсолютная скорость ниже в 3 раза, но когда вы запускаете модель для чата или фонового анализа документов, вам не нужно 40 токенов в секунду. Вам нужно, чтобы счет за электричество не превышал зарплату.

💡

Для сравнения: в тестах PCIe 4 vs PCIe 5 для LLM разница в скорости между поколениями была 8-22%. Здесь же разница в энергоэффективности между архитектурами – 230%. Это на порядок более значимый показатель для локального запуска.

Ошибки, которые сломают ваш день (и как их избежать)

FastFlowLM на Strix Halo – сырой стек. Вот что может пойти не так:

Ошибка: «Failed to allocate memory on NPU»

NPU Strix Halo имеет 16 ГБ выделенной памяти для графов моделей. Но если вы попытаетесь загрузить модель 70B с контекстом 32K в Q4_0, она займет ~12 ГБ. Плюс граф компиляции – еще 3-4 ГБ. Решение: уменьшите контекст до 16384 или используйте модель 34B. Или купите версию Strix Halo с 32 ГБ памяти (партнерская ссылка), когда она появится в продаже.

Ошибка: «XDNA driver timeout»

Драйверы падают при длительной генерации (>1000 токенов). Баг известный, исправлен в драйверах версии 2.2.0-beta, которые можно скачать с GitHub AMD. Установите их, даже если они помечены как нестабильные.

wget https://github.com/AMD/xdna-driver/releases/download/v2.2.0-beta/amd-xdna-2.2.0-beta.run
sudo ./amd-xdna-2.2.0-beta.run -- --force

Ошибка: Скорость падает после 10 минут работы

Термальный троттлинг NPU. Да, он тоже греется. Мониторинг температуры:

sudo watch -n 1 "cat /sys/class/hwmon/hwmon2/temp1_input"
# Если температура выше 85°C, NPU снижает частоту

Решение: установите активное охлаждение на чип Strix Halo. Пассивный радиатор, который идет в комплекте, не справляется с продолжительной нагрузкой.

Зачем все это, если есть облака?

Если вы задаете этот вопрос, вы никогда не считали стоимость инференса в облаке для 70B модели с контекстом 32K. На 02.03.2026 час аренды инстанса с 4x A100 стоит от $32. Ваш Strix Halo окупится за 3 месяца активного использования. А еще есть задержки сети, приватность данных и та непередаваемая радость, когда система работает на вашем железе, а не в чужом датацентре.

NPU – не замена GPU для тренировки моделей. Это специализированный ускоритель для инференса, который переворачивает экономику локального AI. Strix Halo с FastFlowLM – первый реальный шаг к тому, чтобы запускать модели уровня Llama 70B на устройстве размером с неттоп, а не с холодильник.

Мой прогноз? К 2027 году каждая вторая материнская плата для энтузиастов будет иметь NPU, а llama.cpp научится динамически распределять слои модели между GPU, CPU и NPU, как в гибридном кластере. И тогда мы наконец перестанем жечь деньги просто чтобы пообщаться с нейросетью.

Подписаться на канал

Strix Halo NPU для запуска LLM в Linux: настройка FastFlowLM и тесты энергоэффективности против GPU