Почему в Европе GPU стоят как квартира в провинции
Открою страшную тайну: если вы живёте в Германии, Франции или Польше и хотите купить RTX 4090, вам придётся либо продать почку, либо ждать полгода поставок. Цены взлетели на 40-60% за последний год. Спрос на карты для машинного обучения обогнал игровой рынок, поставщики не справляются, а таможенные пошлины добивают остатки доступности.
Реальность: Новая RTX 4090 в Берлине стоит 2200-2500 евро. Б/у RTX 3090 — 1200-1500 евро. Для полноценной LLM-станции нужно минимум две такие карты. Итог — 3000-5000 евро только на видеокарты. Безумие.
Но вот что интересно: большинство людей, которые хотят запустить локальную LLM, на самом деле не нуждаются в 100 токенах в секунду. Им нужно:
- Поэкспериментировать с моделями 7B-13B параметров
- Настроить приватного ассистента для документов
- Разработать прототип AI-агента
- Просто понять, как это всё работает
Для этих задач не нужна ферма из четырёх RTX 4090. Нужен правильный подход к оптимизации. Помните мою статью про сборку ПК за копейки с 3× RTX 3090? Сегодня пойдём ещё дальше — научимся обходиться вообще без дорогих GPU.
Миф о «необходимости» 24 ГБ VRAM
Вся индустрия зациклилась на VRAM. Кажется, что без 24 ГБ на карте запустить современную LLM невозможно. Это ложь. Модели стали умнее не только за счёт размера, но и за счёт архитектурных улучшений.
Проблема в другом: люди пытаются запустить Llama 3 70B на GTX 1660 и удивляются, почему ничего не работает. Нужно не хакать железо, а выбирать подходящие модели.
Три реальных сценария для Европы
Сценарий 1: Старый компьютер + CPU-инференс
У вас есть Dell OptiPlex 2018 года с i7-8700 и 32 ГБ ОЗУ. Кажется, это мусор. Но именно на таком железе я запускаю Qwen2.5-Coder-7B-Instruct с вполне приемлемой скоростью — 5-7 токенов в секунду.
Почему это работает? Llama.cpp с поддержкой AVX2 использует все ядра CPU. 32 ГБ ОЗУ хватает для 7B-модели даже без сильного квантования. Главное — настроить правильно.
1 Установка llama.cpp на Ubuntu/Debian
# Клонируем репозиторий с поддержкой AVX2
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make -j$(nproc) CC=gcc CXX=g++
# Собираем с поддержкой всех инструкций процессора
# (если ваш CPU старее 2013 года, уберите AVX512)
make clean && \
make -j$(nproc) \
CC=gcc CXX=g++ \
LLAMA_AVX2=1 LLAMA_AVX512=1 LLAMA_F16C=1
2 Конвертация модели в GGUF формат
Скачиваем готовую квантованную модель или конвертируем сами. Для CPU лучше всего подходят Q4_K_M или IQ4_XS — оптимальное соотношение качества и скорости.
# Скачиваем модель (пример с Hugging Face)
python3 -m pip install huggingface-hub
huggingface-cli download Qwen/Qwen2.5-Coder-7B-Instruct-GGUF --local-dir ./models --include "*Q4_K_M.gguf"
# Или конвертируем сами
python3 convert-hf-to-gguf.py \
~/models/Qwen2.5-Coder-7B-Instruct \
--outtype q4_k_m \
--outfile ./models/qwen2.5-coder-7b-q4_k_m.gguf
Внимание: Не пытайтесь конвертировать 70B-модели на слабом железе. Для этого нужны минимум 64 ГБ ОЗУ и терпение. Лучше скачивайте готовые GGUF файлы.
3 Запуск с оптимизацией под CPU
# Запускаем с использованием всех ядер и 28 ГБ ОЗУ
./main -m ./models/qwen2.5-coder-7b-q4_k_m.gguf \
-n 2048 \
-t 12 \
-c 28000 \
-ngl 0 \
--temp 0.7 \
--repeat-penalty 1.1
Ключевые параметры:
-t 12— используем 12 потоков (для 6-ядерного CPU с Hyper-Threading)-c 28000— контекст в 28 тысяч токенов (оставляем 4 ГБ для системы)-ngl 0— НЕ используем GPU вообще, только CPU
Сценарий 2: Недорогая видеокарта + гибридный режим
Если у вас есть GTX 1660 Ti (6 ГБ) или RTX 3060 (12 ГБ) — вы уже в выигрышной позиции. Эти карты стоят 200-400 евро на вторичном рынке.
Трюк в том, чтобы использовать слойный перенос на GPU. Llama.cpp позволяет загружать часть слоёв модели на видеокарту, а остальное оставлять в ОЗУ.
| Карта | VRAM | Стоимость (б/у) | Слоёв для 7B Q4 |
|---|---|---|---|
| GTX 1660 Ti | 6 ГБ | 180-220 € | 20-25 слоёв |
| RTX 3060 | 12 ГБ | 280-350 € | Все слои (32) |
| RTX 4060 Ti 16GB | 16 ГБ | 450-500 € | 13B полностью |
# Запускаем Mistral 7B с 20 слоями на GPU
./main -m ./models/mistral-7b-instruct-v0.3-Q4_K_M.gguf \
-n 2048 \
-t 8 \
-c 32000 \
-ngl 20 \
-b 512 \
--mlock
Параметр -ngl 20 означает, что первые 20 слоёв модели будут на GPU, остальные — на CPU. Это ускоряет инференс в 3-5 раз по сравнению с чистым CPU.
Сценарий 3: Серверное железо за копейки
В Европе есть секретный источник дешёвого железа — списанные серверы. Компании обновляют оборудование каждые 3-5 лет, а старые Dell PowerEdge R720/R730 идут на eBay за 300-500 евро.
Что вы получаете за эти деньги:
- 2× Xeon E5-2690 v2 (20 ядер, 40 потоков)
- 128-256 ГБ DDR3 ECC RAM
- RAID-контроллер
- Дублирование блоков питания
Да, DDR3 медленная. Да, Xeon v2 старые. Но 256 ГБ ОЗУ за 500 евро — это уникальное предложение. Вы можете запускать 70B-модели в 4-битном квантовании, просто потому что памяти хватает.
Какие модели действительно работают на слабом железе
Не все модели одинаково полезны. Некоторые оптимизированы для инференса, другие — нет.
Топ-5 моделей для CPU и слабых GPU
| Модель | Размер | Качество | Требования RAM | Скорость (CPU) |
|---|---|---|---|---|
| Phi-3-mini-4k-instruct | 3.8B | Отличное для размера | 4 ГБ (Q4) | 25-40 токенов/с |
| Qwen2.5-Coder-7B | 7B | Лучший кодёр | 6 ГБ (Q4) | 8-12 токенов/с |
| Mistral-7B-Instruct | 7B | Сбалансированная | 6 ГБ (Q4) | 8-12 токенов/с |
| Llama-3.2-3B-Instruct | 3B | Быстрая, умная | 3 ГБ (Q4) | 30-50 токенов/с |
| DeepSeek-Coder-1.3B | 1.3B | Сверхбыстрая | 2 ГБ (Q4) | 60-80 токенов/с |
Забудьте про запуск Llama 3 70B на слабом железе. Это как пытаться запустить Cyberpunk 2077 на Intel HD Graphics. Бессмысленно.
Оптимизация памяти: как не утонуть в свопе
Самая частая ошибка — неправильная настройка памяти. Когда модель не помещается в RAM, система начинает свопить на SSD, и скорость падает до 0.1 токена в секунду.
1 Рассчитываем требования памяти
Формула простая:
# Для GGUF моделей в Q4_K_M
память_нужна = параметры * 0.5 байта + контекст * 0.1 байта
# Пример для Mistral 7B с контекстом 32k:
# 7 * 0.5 + 32 * 0.1 = 3.5 + 3.2 = 6.7 ГБ
Всегда добавляйте 2-3 ГБ для системы. Если у вас 16 ГБ ОЗУ, максимальная модель — 13B с контекстом 8k.
2 Настройка swappiness в Linux
# Проверяем текущее значение
cat /proc/sys/vm/swappiness
# Обычно 60 — слишком много для LLM
# Меняем на время сессии
sudo sysctl vm.swappiness=10
# Или навсегда
echo "vm.swappiness=10" | sudo tee -a /etc/sysctl.conf
sudo sysctl -p
Важно: swappiness=10 не отключает своп полностью, но делает систему менее агрессивной. Если у вас мало RAM, лучше купить ещё память, чем надеяться на настройки.
3 Использование mlock()
Флаг --mlock в llama.cpp запрещает системе выгружать память модели в своп. Но для этого нужны права root или CAP_IPC_LOCK.
# Запуск с mlock (требует sudo)
sudo ./main -m ./model.gguf --mlock -t 8
# Или даём процессу права
sudo setcap cap_ipc_lock=+ep ./main
./main -m ./model.gguf --mlock -t 8
Энергоэффективность: считаем ватты и евро
В Европе электричество стоит 0.25-0.40 €/кВт·ч. Сервер на Xeon, потребляющий 500 Вт, за месяц наматывает:
# 500 Вт * 24 часа * 30 дней = 360 кВт·ч
# 360 кВт·ч * 0.30 € = 108 € в месяц
Современный Ryzen 7 7700 с 65 Вт TDP потребляет в 8 раз меньше. ARM-процессоры (Apple M2/M3) — ещё экономичнее.
| Платформа | Потребление (LLM) | Стоимость/месяц | Производительность |
|---|---|---|---|
| Xeon E5-2690 v2 ×2 | 350-450 Вт | 85-110 € | 7B @ 5 токенов/с |
| Ryzen 7 7700 | 65-90 Вт | 15-25 € | 7B @ 12 токенов/с |
| Apple M2 Max | 45-60 Вт | 10-18 € | 7B @ 25 токенов/с |
| Jetson Orin Nano | 15-25 Вт | 3-8 € | 3B @ 15 токенов/с |
Вывод: старые серверы выгодны только если у вас бесплатное электричество (солнечные панели) или нужно запускать огромные модели.
Почему облако иногда дешевле
Да, это ересь в статье про локальные LLM. Но посчитаем:
- RunPod: RTX 4090 — 0.79 $/час
- За месяц (24/7): 0.79 * 24 * 30 = 569 $
- Покупка RTX 4090: 2200 € (2400 $)
Облако окупается через 4 месяца. И не требует места, охлаждения, ремонта. Для экспериментов и непостоянной работы — облако разумно.
Но если вам нужна приватность, полный контроль или вы запускаете LLM постоянно — локальное решение всё равно выигрывает.
Что делать прямо сейчас
- Проверьте, что у вас уже есть. Старый компьютер с 16 ГБ ОЗУ? Начните с Phi-3-mini.
- Не покупайте GPU сразу. Сначала попробуйте CPU-режим. Удивитесь, как много можно сделать.
- Смотрите на вторичный рынок. RTX 3060 12GB за 300 евро — отличный вариант.
- Рассмотрите ARM. Mac Mini M2 с 16 ГБ — тихая, экономичная LLM-станция.
- Для серьёзных задач — серверное железо. Но считайте электричество.
GPU-дефицит в Европе — это не приговор, а возможность проявить изобретательность. Пока одни ждут поставок RTX 5090 за 3000 евро, другие уже запускают AI-агентов на Ryzen 5 5600G. Разница только в подходе.
P.S. Если у вас действительно нет денег даже на б/у видеокарту, посмотрите мой гайд про запуск LLM на 10 ГБ VRAM. Там есть варианты ещё бюджетнее.