Почему в Европе GPU стоят как квартира в провинции

Открою страшную тайну: если вы живёте в Германии, Франции или Польше и хотите купить RTX 4090, вам придётся либо продать почку, либо ждать полгода поставок. Цены взлетели на 40-60% за последний год. Спрос на карты для машинного обучения обогнал игровой рынок, поставщики не справляются, а таможенные пошлины добивают остатки доступности.

Реальность: Новая RTX 4090 в Берлине стоит 2200-2500 евро. Б/у RTX 3090 — 1200-1500 евро. Для полноценной LLM-станции нужно минимум две такие карты. Итог — 3000-5000 евро только на видеокарты. Безумие.

Но вот что интересно: большинство людей, которые хотят запустить локальную LLM, на самом деле не нуждаются в 100 токенах в секунду. Им нужно:

Поэкспериментировать с моделями 7B-13B параметров
Настроить приватного ассистента для документов
Разработать прототип AI-агента
Просто понять, как это всё работает

Для этих задач не нужна ферма из четырёх RTX 4090. Нужен правильный подход к оптимизации. Помните мою статью про сборку ПК за копейки с 3× RTX 3090? Сегодня пойдём ещё дальше — научимся обходиться вообще без дорогих GPU.

Миф о «необходимости» 24 ГБ VRAM

Вся индустрия зациклилась на VRAM. Кажется, что без 24 ГБ на карте запустить современную LLM невозможно. Это ложь. Модели стали умнее не только за счёт размера, но и за счёт архитектурных улучшений.

💡

Квантование — это не компромисс, а инструмент. Современные методы 4-битного квантования теряют менее 5% качества при сокращении размера модели в 4 раза. Q4_K_M — ваш новый лучший друг.

Проблема в другом: люди пытаются запустить Llama 3 70B на GTX 1660 и удивляются, почему ничего не работает. Нужно не хакать железо, а выбирать подходящие модели.

Три реальных сценария для Европы

Сценарий 1: Старый компьютер + CPU-инференс

У вас есть Dell OptiPlex 2018 года с i7-8700 и 32 ГБ ОЗУ. Кажется, это мусор. Но именно на таком железе я запускаю Qwen2.5-Coder-7B-Instruct с вполне приемлемой скоростью — 5-7 токенов в секунду.

Почему это работает? Llama.cpp с поддержкой AVX2 использует все ядра CPU. 32 ГБ ОЗУ хватает для 7B-модели даже без сильного квантования. Главное — настроить правильно.

1 Установка llama.cpp на Ubuntu/Debian

# Клонируем репозиторий с поддержкой AVX2
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make -j$(nproc) CC=gcc CXX=g++

# Собираем с поддержкой всех инструкций процессора
# (если ваш CPU старее 2013 года, уберите AVX512)
make clean && \
make -j$(nproc) \
    CC=gcc CXX=g++ \
    LLAMA_AVX2=1 LLAMA_AVX512=1 LLAMA_F16C=1

2 Конвертация модели в GGUF формат

Скачиваем готовую квантованную модель или конвертируем сами. Для CPU лучше всего подходят Q4_K_M или IQ4_XS — оптимальное соотношение качества и скорости.

# Скачиваем модель (пример с Hugging Face)
python3 -m pip install huggingface-hub
huggingface-cli download Qwen/Qwen2.5-Coder-7B-Instruct-GGUF --local-dir ./models --include "*Q4_K_M.gguf"

# Или конвертируем сами
python3 convert-hf-to-gguf.py \
    ~/models/Qwen2.5-Coder-7B-Instruct \
    --outtype q4_k_m \
    --outfile ./models/qwen2.5-coder-7b-q4_k_m.gguf

Внимание: Не пытайтесь конвертировать 70B-модели на слабом железе. Для этого нужны минимум 64 ГБ ОЗУ и терпение. Лучше скачивайте готовые GGUF файлы.

3 Запуск с оптимизацией под CPU

# Запускаем с использованием всех ядер и 28 ГБ ОЗУ
./main -m ./models/qwen2.5-coder-7b-q4_k_m.gguf \
  -n 2048 \
  -t 12 \
  -c 28000 \
  -ngl 0 \
  --temp 0.7 \
  --repeat-penalty 1.1

Ключевые параметры:

-t 12 — используем 12 потоков (для 6-ядерного CPU с Hyper-Threading)
-c 28000 — контекст в 28 тысяч токенов (оставляем 4 ГБ для системы)
-ngl 0 — НЕ используем GPU вообще, только CPU

Сценарий 2: Недорогая видеокарта + гибридный режим

Если у вас есть GTX 1660 Ti (6 ГБ) или RTX 3060 (12 ГБ) — вы уже в выигрышной позиции. Эти карты стоят 200-400 евро на вторичном рынке.

Трюк в том, чтобы использовать слойный перенос на GPU. Llama.cpp позволяет загружать часть слоёв модели на видеокарту, а остальное оставлять в ОЗУ.

Карта	VRAM	Стоимость (б/у)	Слоёв для 7B Q4
GTX 1660 Ti	6 ГБ	180-220 €	20-25 слоёв
RTX 3060	12 ГБ	280-350 €	Все слои (32)
RTX 4060 Ti 16GB	16 ГБ	450-500 €	13B полностью

# Запускаем Mistral 7B с 20 слоями на GPU
./main -m ./models/mistral-7b-instruct-v0.3-Q4_K_M.gguf \
  -n 2048 \
  -t 8 \
  -c 32000 \
  -ngl 20 \
  -b 512 \
  --mlock

Параметр -ngl 20 означает, что первые 20 слоёв модели будут на GPU, остальные — на CPU. Это ускоряет инференс в 3-5 раз по сравнению с чистым CPU.

Сценарий 3: Серверное железо за копейки

В Европе есть секретный источник дешёвого железа — списанные серверы. Компании обновляют оборудование каждые 3-5 лет, а старые Dell PowerEdge R720/R730 идут на eBay за 300-500 евро.

Что вы получаете за эти деньги:

2× Xeon E5-2690 v2 (20 ядер, 40 потоков)
128-256 ГБ DDR3 ECC RAM
RAID-контроллер
Дублирование блоков питания

Да, DDR3 медленная. Да, Xeon v2 старые. Но 256 ГБ ОЗУ за 500 евро — это уникальное предложение. Вы можете запускать 70B-модели в 4-битном квантовании, просто потому что памяти хватает.

💡

Серверное железо шумное и прожорливое (400-600 Вт). Но если поставить его в гараже или подвале, вы получаете LLM-станцию за копейки. Подробнее в моём гайде про запуск LLM на старом железе.

Какие модели действительно работают на слабом железе

Не все модели одинаково полезны. Некоторые оптимизированы для инференса, другие — нет.

Топ-5 моделей для CPU и слабых GPU

Модель	Размер	Качество	Требования RAM	Скорость (CPU)
Phi-3-mini-4k-instruct	3.8B	Отличное для размера	4 ГБ (Q4)	25-40 токенов/с
Qwen2.5-Coder-7B	7B	Лучший кодёр	6 ГБ (Q4)	8-12 токенов/с
Mistral-7B-Instruct	7B	Сбалансированная	6 ГБ (Q4)	8-12 токенов/с
Llama-3.2-3B-Instruct	3B	Быстрая, умная	3 ГБ (Q4)	30-50 токенов/с
DeepSeek-Coder-1.3B	1.3B	Сверхбыстрая	2 ГБ (Q4)	60-80 токенов/с

Забудьте про запуск Llama 3 70B на слабом железе. Это как пытаться запустить Cyberpunk 2077 на Intel HD Graphics. Бессмысленно.

Оптимизация памяти: как не утонуть в свопе

Самая частая ошибка — неправильная настройка памяти. Когда модель не помещается в RAM, система начинает свопить на SSD, и скорость падает до 0.1 токена в секунду.

1 Рассчитываем требования памяти

Формула простая:

# Для GGUF моделей в Q4_K_M
память_нужна = параметры * 0.5 байта + контекст * 0.1 байта

# Пример для Mistral 7B с контекстом 32k:
# 7 * 0.5 + 32 * 0.1 = 3.5 + 3.2 = 6.7 ГБ

Всегда добавляйте 2-3 ГБ для системы. Если у вас 16 ГБ ОЗУ, максимальная модель — 13B с контекстом 8k.

2 Настройка swappiness в Linux

# Проверяем текущее значение
cat /proc/sys/vm/swappiness
# Обычно 60 — слишком много для LLM

# Меняем на время сессии
sudo sysctl vm.swappiness=10

# Или навсегда
echo "vm.swappiness=10" | sudo tee -a /etc/sysctl.conf
sudo sysctl -p

Важно: swappiness=10 не отключает своп полностью, но делает систему менее агрессивной. Если у вас мало RAM, лучше купить ещё память, чем надеяться на настройки.

3 Использование mlock()

Флаг --mlock в llama.cpp запрещает системе выгружать память модели в своп. Но для этого нужны права root или CAP_IPC_LOCK.

# Запуск с mlock (требует sudo)
sudo ./main -m ./model.gguf --mlock -t 8

# Или даём процессу права
sudo setcap cap_ipc_lock=+ep ./main
./main -m ./model.gguf --mlock -t 8

Энергоэффективность: считаем ватты и евро

В Европе электричество стоит 0.25-0.40 €/кВт·ч. Сервер на Xeon, потребляющий 500 Вт, за месяц наматывает:

# 500 Вт * 24 часа * 30 дней = 360 кВт·ч
# 360 кВт·ч * 0.30 € = 108 € в месяц

Современный Ryzen 7 7700 с 65 Вт TDP потребляет в 8 раз меньше. ARM-процессоры (Apple M2/M3) — ещё экономичнее.

Платформа	Потребление (LLM)	Стоимость/месяц	Производительность
Xeon E5-2690 v2 ×2	350-450 Вт	85-110 €	7B @ 5 токенов/с
Ryzen 7 7700	65-90 Вт	15-25 €	7B @ 12 токенов/с
Apple M2 Max	45-60 Вт	10-18 €	7B @ 25 токенов/с
Jetson Orin Nano	15-25 Вт	3-8 €	3B @ 15 токенов/с

Вывод: старые серверы выгодны только если у вас бесплатное электричество (солнечные панели) или нужно запускать огромные модели.

Почему облако иногда дешевле

Да, это ересь в статье про локальные LLM. Но посчитаем:

RunPod: RTX 4090 — 0.79 $/час
За месяц (24/7): 0.79 * 24 * 30 = 569 $
Покупка RTX 4090: 2200 € (2400 $)

Облако окупается через 4 месяца. И не требует места, охлаждения, ремонта. Для экспериментов и непостоянной работы — облако разумно.

Но если вам нужна приватность, полный контроль или вы запускаете LLM постоянно — локальное решение всё равно выигрывает.

Что делать прямо сейчас

Проверьте, что у вас уже есть. Старый компьютер с 16 ГБ ОЗУ? Начните с Phi-3-mini.
Не покупайте GPU сразу. Сначала попробуйте CPU-режим. Удивитесь, как много можно сделать.
Смотрите на вторичный рынок. RTX 3060 12GB за 300 евро — отличный вариант.
Рассмотрите ARM. Mac Mini M2 с 16 ГБ — тихая, экономичная LLM-станция.
Для серьёзных задач — серверное железо. Но считайте электричество.

💡

Самая большая ошибка — пытаться воспроизвести инфраструктуру из YouTube-роликов, где у людей 4×RTX 4090. Ваши задачи другие, бюджет другой, электричество дороже. Создавайте свою конфигурацию, а не копируйте чужую.

GPU-дефицит в Европе — это не приговор, а возможность проявить изобретательность. Пока одни ждут поставок RTX 5090 за 3000 евро, другие уже запускают AI-агентов на Ryzen 5 5600G. Разница только в подходе.

P.S. Если у вас действительно нет денег даже на б/у видеокарту, посмотрите мой гайд про запуск LLM на 10 ГБ VRAM. Там есть варианты ещё бюджетнее.

Европейский GPU-дефицит: как запускать локальные LLM на доступном железе