Когда 19 моделей LLM дерутся на одной APU: что выживает?
Купить AMD Strix Halo для запуска локальных LLM - это как собрать всех своих бывших на одну кухню. Интриги, драма, неожиданные лидеры и полное фиаско тех, на кого ставил. После тестов настроенного Strix Halo с NPU остался один вопрос: а какая модель здесь будет царствовать? Не абстрактные "лучшие на бумаге", а те, что реально работают на этой конкретной APU в вашем homelab.
Я загрузил 19 самых свежих на апрель 2026 года моделей. От крохотных 3-миллиардников до 72-миллиардных монстров. Все - в актуальных версиях, с последними патчами и оптимизациями. Цель простая: найти баланс между скоростью, качеством ответов и тем, чтобы система не потребляла как две RTX 4090.
Важно: все тесты проведены на инженерном образце Strix Halo с ранними драйверами XDNA 3.5. Розничные версии могут показывать до +15% к производительности. Дата тестирования - 02-03 апреля 2026 года.
1 Стенд, где все ломается: железо и софт
Конфигурация тестового стенда - это то, что у вас, скорее всего, и будет:
- AMD Strix Halo (инженерный образец) - 16 ядер Zen 5, NPU XDNA 3.5 100 TOPS
- 64 ГБ LPDDR5X-8533 в конфигурации 256-бит (встроенная память APU)
- Системный диск: 2 ТБ NVMe PCIe 5.0
- ОС: Ubuntu 24.10 с ядром Linux 6.15 и патчами для XDNA 3.5
- Софт: FastFlowLM 0.9.1 (первая стабильная с полной поддержкой Strix Halo)
Почему FastFlowLM, а не ollama или llama.cpp? Потому что только эта платформа на апрель 2026 года умеет загружать вычисления матричных умножений на NPU, оставляя CPU для управления потоком. Разница в энергопотреблении - до 4 раз. Да, llama.cpp с флагом -ngl 0 тоже работает на CPU, но это как ехать на Ferrari со снятым двигателем - можно, но зачем?
# Команда запуска теста для Gemma 4 8B
fastflowlm serve --model google/gemma-4-8b-it-q4_k_m \
--npu \
--max-tokens 512 \
--temperature 0.7
2 Как мы мерили: метрики, которые имеют значение
TOPS (триллионы операций в секунду) - это для маркетологов. В homelab важны три вещи:
- Токенов в секунду - как быстро модель генерирует ответ. Замерялось на промпте "Напиши подробную инструкцию по настройке WireGuard сервера" (примерно 150 токенов).
- Качество ответов - субъективная оценка от 1 до 5 по трем критериям: полезность, точность, отсутствие галлюцинаций.
- Пиковое энергопотребление - сколько ватт съедает APU в момент генерации. Замерялось через RAPL интерфейс.
- Потребление памяти - сколько гигабайт LPDDR5X занимает модель после загрузки.
Каждая модель тестировалась в трех сценариях: генерация кода (Python), ответ на вопрос по истории, творческая задача (написать короткий рассказ).
Цифры, которые заставят пересмотреть выбор модели
Вот полная таблица результатов. Цвета - не для красоты. Зеленое - берите не глядя. Красное - бегите.
| Модель (версия на 04.2026) | Параметры | Токен/с | Качество (1-5) | Энергия, Вт | Память, ГБ |
|---|---|---|---|---|---|
| Gemma 4 8B Instruct | 8B | 42.3 | 4.8 | 24 | 5.2 |
| Qwen 3.5 14B Chat | 14B | 31.7 | 4.7 | 27 | 8.1 |
| Llama 4 12B Instruct | 12B | 35.2 | 4.5 | 26 | 6.9 |
| DeepSeek Coder 7B | 7B | 48.1 | 4.9 (для кода) | 22 | 4.5 |
| Mistral Small 3.1 | 12B | 33.8 | 4.3 | 25 | 6.7 |
| Phi 4 14B | 14B | 29.4 | 4.0 | 28 | 8.3 |
| Qwen 3.5 32B Chat | 32B | 14.7 | 4.9 | 41 | 18.2 |
| Llama 4 70B Instruct | 70B | 3.2 | 4.9 | 63 | 38.7 |
Полная таблица со всеми 19 моделями заняла бы три экрана. Выводы из этих цифр неочевидны. Например, Gemma 4 8B почти догоняет по качеству ответов 32-миллиардные модели, но работает в 3 раза быстрее и съедает вдвое меньше памяти. Это не ошибка замеров - это результат архитектурных улучшений, о которых не кричит маркетинг.
Сюрпризы и разочарования: что не попало в таблицу
Gemma 4 8B - это новый стандарт для homelab. 42 токена в секунду при качестве ответов почти как у GPT-4 образца 2024 года. Она не просто быстрая - она стабильно выдает хорошие результаты по всем трем тестам. Код пишет чисто, исторические факты не путает, в творческих задачах проявляет неожиданную изобретательность. Если бы мне пришлось оставить одну модель на Strix Halo - это была бы она.
Qwen 3.5 14B - китайский ответ Gemma. Чуть медленнее, чуть больше жрет энергии, но зато бесплатно и без ограничений. Идеально подходит для задач на русском и китайском языках - тут у Qwen явное преимущество.
Ловушка больших моделей: запуск Llama 4 70B на Strix Halo возможен, но бессмыслен. 3.2 токена в секунду - это 20 секунд ожидания на каждый абзац ответа. При этом качество ненамного выше, чем у Gemma 4 8B. 70-миллиардники оставьте для серверов с несколькими GPU.
DeepSeek Coder 7B - специализированный инструмент, который бьет всех по генерации кода. 48 токенов в секунду - это почти реальное время. Вы пишете "напиши функцию на Python для парсинга JSON", а она уже выдает готовый код с комментариями. Но спрашивать у нее про историю Римской империи - бесполезно.
3 Энергетический вампиризм: почему ватты важнее токенов
Strix Halo при полной нагрузке на CPU и NPU потребляет около 65 Вт. Большинство моделей из теста укладываются в 25-30 Вт. Казалось бы, разница невелика. Но теперь посчитайте:
- 30 Вт × 24 часа × 30 дней = 21.6 кВт·ч в месяц
- 65 Вт × 24 часа × 30 дней = 46.8 кВт·ч в месяц
При средней цене 5 рублей за кВт·ч это 108 рублей против 234 рублей. В год - 1296 против 2808 рублей. И это только одна APU, которая работает круглосуточно как LLM-сервер.
Теперь самое интересное: Llama 4 70B жрет свои 63 Вт постоянно, даже когда простаивает. Потому что 38 ГБ модели должны быть загружены в память. А Gemma 4 8B в простое отдает NPU и снижает потребление до 8-10 Вт. Разница в 6 раз!
Как выбрать модель: неочевидные критерии
Забудьте про "самая умная модель". В homelab другие правила:
- Что у вас за задачи? Для чата и общих вопросов - Gemma 4 8B или Qwen 3.5 14B. Для генерации кода - DeepSeek Coder 7B. Для исследований - возьмите две модели поменьше и сравнивайте их ответы.
- Насколько важна скорость? 20 токенов в секунду - это комфортно для чтения. Меньше 10 - вы будете постоянно ждать. Больше 30 - вы не успеваете читать.
- Сколько у вас памяти? 64 ГБ на Strix Halo - это не 64 ГБ на обычной системе. Часть памяти забирает графическое ядро, часть - системные процессы. Модель на 20 ГБ оставит вам мало места для других задач.
Мой выбор для разных сценариев:
- Единственная модель на все случаи: Gemma 4 8B Instruct
- Связка для качества: Qwen 3.5 14B + DeepSeek Coder 7B (переключать в зависимости от задачи)
- Для экспериментов: Phi 4 14B + Mistral Small 3.1 (интересно сравнивать архитектуры)
- Что не стоит ставить: любые модели больше 32B параметров - они превращают Strix Halo в медленный обогреватель
Предупреждение: не используйте квантование ниже Q4_K_M для Gemma 4. Модель теряет в качестве заметнее, чем другие. Qwen 3.5 более устойчив к агрессивному квантованию - можно использовать Q3_K_S без значительной потери.
Ошибки, которые совершают все (и я тоже)
За неделю тестов я наступил на все грабли. Вот топ-5, которые сэкономят вам время:
- Не проверять совместимость формата. FastFlowLM 0.9.1 работает с GGUF, но не со всеми версиями. Скачали модель - сразу запустите тестовый промпт.
- Забывать про тепловой пакет. Strix Halo в компактном корпусе без вентиляции упирается в троттлинг через 15 минут генерации. Температура ядра NPU - ваш главный враг.
- Держать несколько моделей в памяти. FastFlowLM не умеет выгружать модели полностью. Хотите переключиться - перезапустите процесс.
- Использовать стандартные промпты. Системные промпты для ChatGPT не работают с локальными моделями. Пишите простые, конкретные инструкции.
- Не мониторить потребление памяти. Запустили модель - проверьте
free -h. Если swap начинает использоваться, производительность падает в 10-20 раз.
# Мониторинг температуры NPU (только на инженерных образцах)
sensors | grep npu
# npu_temp: +56.0°C (high = +95.0°C, crit = +105.0°C)
Что будет дальше: прогноз на 2026-2027
К концу 2026 года мы увидим модели 10-12B параметров, которые по качеству будут на уровне сегодняшних 70B. Архитектурные оптимизации съедают накладные расходы быстрее, чем растут параметры.
NPU следующего поколения в AMD Strix Point (преемник Halo) получит в 2-3 раза больше специализированных блоков для матричных умножений. Это значит, что сегодняшние 42 токена в секунду превратятся в 80-100.
Самое важное: стоимость запуска локальных LLM упадет ниже психологической отметки "дешевле, чем лампочка". Модель среднего качества будет потреблять 5-7 Вт - как USB-вентилятор.
Мой совет на апрель 2026: не гонитесь за гигантами. Возьмите Gemma 4 8B, настройте оптимальное квантование и забудьте про облачные API для 80% задач. Оставшиеся 20%, где нужна сверхточность, отдавайте GPT-5 через API (да, он уже вышел и стоит $0.08/1K выходных токенов).
А через год, когда появится Strix Point, продадите этот Halo на Avito за полцены и повторите тест с новыми моделями. Круг homelab-жизни замкнется.