Миф или реальность: почему на Ubuntu всё летает?

Вы видели эти бенчмарки на Phoronix. Взрывные 120 токенов в секунду на Llama 3.1 8B на Ubuntu против 65 на Windows с тем же железом. Разница почти в два раза — это не погрешность измерений. Это системная оптимизация на уровне, о котором большинство пользователей даже не догадывается.

Когда я впервые увидел эти цифры, подумал: "Очередной маркетинг Linux-энтузиастов". Пока не запустил тесты на своём i9-13900K с RTX 4090. Ubuntu 24.04 LTS — 108 токенов/сек. Windows 11 Pro — 57. Почти идентичное железо, двойная разница в производительности.

Важно: разница в производительности между ОС неодинакова для всех конфигураций. На старом железе с ограничениями памяти она может быть минимальной. На современном многоядерном процессоре с быстрой памятью — максимальной.

Не просто ОС: почему Ubuntu стал фаворитом для llama.cpp

Ответ лежит не в магических свойствах Linux, а в трёх ключевых слоях оптимизации:

1 Низкоуровневый доступ к железу (без драматизма)

Windows любит абстракции. Многослойные драйверы, виртуализация, защита от всего на свете. Ubuntu с ядром 6.8 даёт llama.cpp почти прямой доступ к:

AVX-512 инструкциям без эмуляции через Windows Hypervisor
Памяти GPU без лишних копий через DMA
Ядрам процессора без вмешательства планировщика задач Windows

Звучит технически сложно? На практике это означает, что когда llama.cpp просит "дай мне эти 100 МБ памяти", ядро Linux отвечает "держи" за 2 микросекунды. Windows в это время проверяет права, выделяет виртуальную память, синхронизирует с драйвером GPU — 15-20 микросекунд.

💡

Именно доступ к AVX-512 без эмуляции даёт самый большой прирост на современных Intel процессорах. На AMD с AVX-512 ситуация сложнее — там Windows иногда показывает сравнимые результаты.

2 Компилятор GCC vs MSVC: битва оптимизаций

llama.cpp на Ubuntu компилируется GCC 13.2 с флагами, которые разработчики тестировали годами. На Windows — MSVC с настройками "по умолчанию" у большинства пользователей.

Разница в подходах:

Оптимизация	GCC (Ubuntu)	MSVC (Windows)
Автовекторизация матричных операций	Агрессивная, с учётом AVX-512	Консервативная
Выравнивание памяти	64-байтное для кеша L1	16-байтное
Инлайн функций	Агрессивный, даже больших	Осторожный

Попробуйте скомпилировать llama.cpp на Windows с clang-cl и теми же флагами, что на Linux — разница сократится на 30-40%. Но кто это делает? Правильно, почти никто.

3 Системные настройки: то, что упускают 95% пользователей

Свежая установка Ubuntu — это не оптимизированная система для llama.cpp. Это база. Настройка, которая даёт дополнительные 15-25% производительности:

# 1. Настройка управления питанием CPU (вместо powersave)
echo performance | sudo tee /sys/devices/system/cpu/cpu*/cpufreq/scaling_governor

# 2. Выключение Spectre/Meltdown mitigations (ТОЛЬКО если система изолирована!)
sudo kernelstub -a mitigations=off

# 3. Настройка huge pages для llama.cpp
sudo sysctl -w vm.nr_hugepages=1024
sudo sysctl -w vm.hugetlb_shm_group=$(id -g)

# 4. Приоритет ввода-вывода для процесса
ionice -c 1 -n 0 -p $(pgrep llama)

Внимание: отключение mitigations=off снижает безопасность системы. Делайте это только на изолированных машинах, не имеющих доступа к интернету или ненадёжным сетям.

Практика: настройка Ubuntu под llama.cpp за 15 минут

Не нужно переустанавливать систему. Эти настройки работают на любой Ubuntu 22.04+.

Шаг 1: Анализ текущих ограничений

Сначала узнаем, что тормозит:

# Проверка частоты CPU в реальном времени
watch -n 1 "cat /proc/cpuinfo | grep 'MHz'"

# Проверка thermal throttling
cat /sys/class/thermal/thermal_zone*/temp

# Память и своп
free -h
vmstat 1 5

Шаг 2: Установка оптимизированного ядра

Официальное ядро Ubuntu — компромисс между стабильностью и производительностью. Для llama.cpp нужен второй вариант:

# Установка ядра Liquorix (оптимизировано для low-latency)
sudo add-apt-repository ppa:damentz/liquorix
sudo apt update
sudo apt install linux-image-liquorix-amd64 linux-headers-liquorix-amd64

Шаг 3: Настройка NUMA (для многосокетных систем)

Если у вас два процессора или Threadripper с несколькими CCD:

# Привязка llama.cpp к конкретным ядрам и памяти
numactl --cpunodebind=0 --membind=0 ./main -m model.gguf

# Или для автоматического определения оптимальной конфигурации
lstopo --no-io --no-bridge -f > system_topology.txt

Бенчмарки, которые не врут: как правильно измерять

"У меня 100 токенов в секунду" — бесполезная метрика без контекста. Правильный бенчмарк:

# 1. Прогрев системы (3 прогона на игнор)
for i in {1..3}; do
  ./main -m model.gguf -p "test" -n 128 --temp 0 -t 16 > /dev/null
done

# 2. Основной тест с очисткой кеша страниц
sync; echo 3 | sudo tee /proc/sys/vm/drop_caches
./main -m model.gguf -p "Repeat after me: benchmark" -n 512 --temp 0 -t $(nproc) --verbose 2>&1 | grep "tokens per second"

# 3. Тест под нагрузкой (имитация реального использования)
stress-ng --cpu 4 --io 2 --vm 1 --vm-bytes 1G --timeout 30s &
./main -m model.gguf -p "Long context test" -n 1024 -c 4096 -t $(($(nproc)-2))

Мой результат на i9-13900K, RTX 4090, Ubuntu 24.04 с оптимизациями:

Llama 3.1 8B: 112 токенов/сек
Llama 3.2 3B: 187 токенов/сек
Qwen 2.5 7B: 98 токенов/сек

Ошибки, которые съедают 50% производительности

Видел эти сценарии десятки раз:

Ошибка 1: Запуск с -t $(nproc) на системе с SMT/Hyper-Threading. Физических ядер 16, логических 32. Если дать 32 потока — производительность падает на 20% из-за contention на execution units.

Ошибка 2: Неверная настройка GPU offload. --gpu-layers 99 звучит круто, но если у вас 8 ГБ VRAM, а модель требует 12 ГБ — начинается swapping между GPU и CPU памятью. Результат: 5 токенов/сек вместо 50.

Ошибка 3: Запуск в Docker без настройки cgroups. Контейнер получает доступ ко всем ядрам, но ограничен в памяти или I/O priority. Особенно критично для запуска в LXC-контейнерах Proxmox.

Почему это важно за пределами бенчмарков

Разница в 1.5-2 раза — это не просто цифры. Это:

Возможность запускать модели на 30% больше при том же железе
Снижение времени ответа с 3 секунд до 1.5 в RAG-системах
Реальная экономия на GPU для продакшена (одна 4090 вместо двух)

Если вы разрабатываете интерфейсы типа AnythingLLM или CLINE, эта разница определяет user experience. 1.5 секунды ожидания против 3 — это граница между "удобно" и "тормозит".

Что будет дальше: прогноз на 2025-2026

Windows не сдаётся. В Windows 12 Microsoft активно работает над:

Прямым доступом к AVX-512 без гипервизора
Оптимизированными драйверами CUDA для WSL2
Собственной реализацией llama.cpp в DirectML

Но Ubuntu и Linux-экосистема не стоят на месте. Уже сейчас в тестировании:

Ядро 6.11 с улучшенными huge pages для больших моделей
Mesa 24.2 с Vulkan 1.3.280 — критично для AMD видеокарт через Vulkan бэкенд
Системные вызовы io_uring для асинхронного I/O в llama.cpp

Мой прогноз: к середине 2025 разница сократится до 20-30%, но Ubuntu сохранит лидерство для high-performance сценариев. Потому что open-source ecosystem движется быстрее, чем корпоративные релиз-циклы.

💡

Самый недооценённый тренд: оптимизация под ARM. Apple Silicon уже показывает сравнимую с x86 производительность на llama.cpp. В 2025 ожидайте прорыва на серверных ARM от Ampere и NVIDIA Grace. Ubuntu здесь уже готов — Windows только начинает.

Чеклист: что проверить прямо сейчас

Если вы запускаете llama.cpp на Ubuntu и хотите максимума:

Проверьте scaling_governor — должно быть "performance"
Убедитесь, что ядро ≥6.8 (uname -r)
Настройте huge pages под размер модели
Используйте numactl для многосокетных систем
Компилируйте llama.cpp с AVX-512, FMA, не забудьте про правильные флаги под ваше железо

И последнее: не гонитесь за абсолютными цифрами. 120 токенов/сек на бенчмарке и 80 в реальной работе с RAG — это нормально. Разница между системами сохранится в любом случае. Ubuntu даёт вам контроль над этой разницей. Windows — надежду, что "автооптимизация" сработает.

Ubuntu и llama.cpp: почему Linux бьёт все рекорды производительности (и как сделать это на своём железе)