Почему LXC и Proxmox для локальных LLM?

Если вы энтузиаст homelab'ов или просто хотите запустить локальную языковую модель у себя на сервере, вы наверняка сталкивались с дилеммой: виртуальная машина или контейнер? Виртуальные машины дают полную изоляцию, но за это приходится платить накладными расходами на виртуализацию. Контейнеры LXC (Linux Containers) в Proxmox предлагают золотую середину: почти нативную производительность при сохранении хорошего уровня изоляции и управления.

💡

Этот подход особенно актуален для владельцев систем на AMD, где поддержка GPU в виртуальных средах может быть нетривиальной. LXC позволяет «пробросить» GPU напрямую в контейнер, минуя сложные слои виртуализации.

В сочетании с Llama.cpp — высокооптимизированной C++ реализацией для инференса моделей семейства LLaMA — мы получаем мощный стек для запуска LLM на собственном железе. Это идеальная песочница для ML-моделей, которую можно быстро развернуть, изолировать и масштабировать.

Проблема: запуск LLM на AMD в виртуальной среде

Основная сложность при запуске LLM на оборудовании AMD в виртуальных средах заключается в доступе к вычислительным ресурсам GPU для ускорения инференса. В то время как для NVIDIA существуют готовые решения вроде vGPU или PCIe passthrough, с AMD ROCm стек может вести себя капризно внутри полной виртуальной машины.

Ключевые вызовы: Драйверы ROCm могут не загрузиться в гостевой ОС, непрямой доступ к памяти (IOMMU) требует тонкой настройки, а накладные расходы виртуализации съедают драгоценную производительность, критичную для генерации текста.

Решение? Использовать LXC-контейнеры. Они работают в пространстве ядра хоста, что означает прямой доступ к аппаратным устройствам через привилегированный режим и cgroups. Для Llama.cpp, который может использовать как GPU через ROCm/Vulkan, так и CPU, это наиболее эффективный путь.

Подготовка Proxmox хоста и создание LXC-контейнера

Перед созданием контейнера убедитесь, что ваш Proxmox хост обновлен и на нем установлены необходимые инструменты для работы с LXC и, потенциально, драйверы ROCm, если планируете использовать GPU AMD.

1Обновление хоста и установка драйверов (опционально)

apt update && apt dist-upgrade -y
# Если используете GPU AMD с ROCm (например, Radeon VII, RX 6800+)
# Добавьте репозиторий ROCm и установите драйверы согласно официальной документации AMD.
# Для CPU-only режима этот шаг можно пропустить.

2Создание привилегированного LXC-контейнера

В веб-интерфейсе Proxmox перейдите в "Создать CT". Выберите:

Шаблон: Ubuntu 22.04 или Debian 12 (для лучшей совместимости с ROCm).
Ресурсы: Выделите достаточное количество ядер CPU и оперативной памяти. Для 7B-модели минимум 4 ядра и 16 ГБ ОЗУ. Для 13B+ — от 8 ядер и 32 ГБ ОЗУ.
Хранилище: Убедитесь, что места достаточно для модели (7B ~ 4-8 ГБ, 70B может занимать 40+ ГБ).
Сеть: Статический IP или DHCP.
Важно: В настройках контейнера после создания установите флажок "Привилегированный контейнер" и включите опции: nesting=1, features: keyctl=1. Это необходимо для работы с устройствами и сборки ПО.

Привилегированный контейнер имеет доступ к устройствам хоста (например, /dev/dri для GPU). Если безопасность — приоритет, рассмотрите дополнительные меры защиты и настройте права cgroups вручную.

3Проброс устройств GPU в контейнер

Отредактируйте конфигурационный файл контейнера (находится в /etc/pve/lxc/<CTID>.conf на хосте) и добавьте строки для доступа к GPU:

# Для проброса GPU AMD (адаптируйте номер карты)
lxc.cgroup2.devices.allow: c 226:* rwm
lxc.mount.entry: /dev/dri/card0 dev/dri/card0 none bind,optional,create=file
lxc.mount.entry: /dev/dri/renderD128 dev/dri/renderD128 none bind,optional,create=file
# Для доступа к утилитам ROCm (если установлены на хосте)
lxc.mount.entry: /dev/kfd dev/kfd none bind,optional,create=file

Перезапустите контейнер: pct restart <CTID>.

Установка и компиляция Llama.cpp внутри контейнера

Подключитесь к контейнеру через pct enter <CTID> или SSH. Внутри выполните следующие шаги.

1Установка зависимостей

apt update && apt upgrade -y
apt install -y build-essential cmake git python3-pip wget curl
# Для поддержки GPU через Vulkan (альтернатива ROCm)
apt install -y vulkan-tools libvulkan-dev
# Для поддержки GPU через ROCm (если проброшены устройства)
# Следуйте инструкциям установки ROCm внутри контейнера (может быть сложно).
# Часто проще использовать CPU или Vulkan.

2Клонирование и компиляция Llama.cpp

git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp
mkdir build && cd build
# Базовая компиляция для CPU (использует AVX2/AVX512)
cmake .. -DLLAMA_BLAS=ON -DLLAMA_BLAS_VENDOR=OpenBLAS
# ИЛИ для Vulkan (если есть GPU AMD с поддержкой Vulkan)
# cmake .. -DLLAMA_VULKAN=ON
make -j$(nproc)

💡

Флаг -DLLAMA_BLAS=ON значительно ускоряет вычисления на CPU за счет использования оптимизированных библиотек линейной алгебры. Для максимальной производительности на AMD CPU (Ryzen/EPYC) также можно поэкспериментировать с -DLLAMA_BLAS_VENDOR=ARM (для OpenBLAS) или сборкой с поддержкой ROCm BLAS, если она доступна.

3Загрузка модели и конвертация в формат GGUF

Llama.cpp работает с моделями в собственном формате GGUF. Скачайте нужную модель (например, Mistral 7B, Llama 3 8B) с Hugging Face или другого источника и конвертируйте.

# Установите Python зависимости для конвертации
pip install torch numpy sentencepiece
# Перейдите в директорию llama.cpp
cd ~/llama.cpp
# Скачайте скрипт конвертации (если его нет)
# Конвертируйте модель (пример для Hugging Face)
python3 convert-hf-to-gguf.py /путь/к/скачанной/модели --outtype q8_0
# Будет создан файл модели.gguf

Или скачайте уже готовые GGUF-файлы с репозиториев, таких как TheBloke на Hugging Face.

Запуск и тестирование модели

1Базовый запуск инференса

cd ~/llama.cpp/build
# Запуск в интерактивном режиме
./bin/main -m /путь/к/модели.gguf -n 512 --interactive-first
# Для использования нескольких потоков CPU (укажите количество ядер)
./bin/main -m /путь/к/модели.gguf -n 512 -t 8 --interactive-first
# Для использования GPU Vulkan (если скомпилировано с поддержкой)
./bin/main -m /путь/к/модели.gguf -n 512 -t 8 --ngl 32 # --ngl - слои на GPU

2Запуск сервера API

Для интеграции с внешними приложениями, например, с ИИ-компаньоном Vite Vere, запустите встроенный сервер:

./bin/server -m /путь/к/модели.gguf -c 2048 --host 0.0.0.0 --port 8080
# Теперь API доступно по http://<IP_контейнера>:8080

Это открывает возможность строить сложные агентные workflow, где локальная LLM выступает в роли одного из звеньев цепи.

Оптимизация производительности и мониторинг

Параметр	Рекомендация для AMD	Эффект
Количество потоков (`-t`)	Физические ядра (или ядра*2 для SMT)	Максимальная загрузка CPU
Размер контекста (`-c`)	2048 (по умолчанию), увеличивать осторожно	Влияет на потребление ОЗУ
Квантование модели	Q4_K_M или Q5_K_M	Баланс качества/скорости/памяти
Слои на GPU (`--ngl`)	Экспериментально, до 100 (если хватает VRAM)	Разгрузка CPU, ускорение

Мониторить ресурсы контейнера можно прямо из интерфейса Proxmox или с помощью утилит внутри контейнера (htop, nvidia-smi / rocm-smi).

Распространенные ошибки и их решение

1. "Permission denied" при доступе к /dev/dri/**
Убедитесь, что контейнер привилегированный и строки проброса устройств в конфиге верны. Проверьте права на файлы устройств на хосте: ls -la /dev/dri/.

2. Низкая скорость генерации (токенов в секунду)
- Проверьте, что Llama.cpp скомпилирован с -DLLAMA_BLAS=ON.
- Убедитесь, что используется достаточное количество потоков (-t).
- Для CPU: проверьте частоту процессора и отсутление троттлинга (команда cpupower frequency-info).
- Рассмотрите использование более агрессивного квантования модели (например, Q4_K_S вместо Q8_0).

3. Нехватка оперативной памяти (OOM Killer)
LXC-контейнеры используют память хоста. Увеличьте лимит памяти в настройках контейнера в Proxmox и добавьте swap-файл внутри контейнера, если модель очень большая. Для гигантских моделей может потребоваться распределение по нескольким GPU, но в среде LXC это сложная задача.

4. ROCm внутри контейнера не видит GPU
Это самая сложная проблема. Часто проще отказаться от ROCm в пользу Vulkan-бэкенда Llama.cpp или использовать CPU-режим. Убедитесь, что на хосте установлена совместимая версия ROCm, а в контейнер проброшены все необходимые устройства (/dev/kfd, /dev/dri). Проверьте логи ядра хоста (dmesg | grep -i amdgpu).

Заключение: гибкость и контроль

Запуск Llama.cpp в LXC-контейнере на Proxmox — это мощный метод для создания изолированных, высокопроизводительных сред для локальных LLM. Он особенно выгоден для платформ AMD, где прямая работа с железом минимизирует сложности. Вы получаете все преимущества контейнеризации (легковесность, быстрое развертывание, снимки) и почти нативную производительность.

Такой стек идеально подходит для homelab'ов, разработки и тестирования ИИ-приложений, или даже для запуска приватных агентных систем в условиях ограниченного бюджета. Начните с CPU-режима, а затем, по мере необходимости, подключайте GPU через Vulkan для дополнительного ускорения.

Llama.cpp в LXC-контейнере на Proxmox: полный гайд по запуску LLM на AMD