Проблема: 30B модель не влезает в память, а денег на RTX 4090 нет

Вы скачали Qwen2.5-32B-Instruct-GGUF. Запускаете через llama.cpp. И получаете ошибку "out of memory". Ваша GTX 1660 Super с 6 ГБ VRAM просто не может проглотить даже квантованную версию модели. А CPU-инференс на старом i7 тянет 0.5 токена в секунду. Знакомая ситуация?

Проблема в том, что для 30B моделей нужно минимум 20-24 ГБ памяти. И не просто памяти, а быстрой. DDR4 на 2400 МГц не подойдет — будет бутылочное горло. Нужно либо много оперативки с высокой пропускной способностью, либо VRAM, либо их комбинация.

Важный нюанс: 30B модель в формате Q4_K_M занимает около 19-20 ГБ. Плюс контекст, плюс overhead системы. Фактически нужно 24+ ГБ доступной памяти для стабильной работы.

Решение: три пути к бюджетному инференсу

Есть три принципиально разных подхода, каждый со своими плюсами и минусами. Я разобрал их до винтика.

1. Apple Silicon: тихая революция

Mac Mini M2 Pro — это черный ящик. Нельзя апгрейдить, нельзя добавить видеокарту. Но у него есть Unified Memory. И это меняет правила игры.

Для LLM важна не только емкость памяти, но и скорость доступа к ней. В традиционных системах данные между CPU и GPU копируются через PCIe шину. Это создает задержки. В архитектуре Apple Silicon CPU и GPU работают с одной и той же памятью. Нет копирования. Нет бутылочных горлышек.

M2 Pro с 32 ГБ Unified Memory — это идеальный кандидат для 30B моделей. Память быстрая (200+ ГБ/с пропускной способности), ее много, и она доступна всем вычислительным блокам одновременно.

💡

Для работы с моделями на Apple Silicon используйте llama.cpp с поддержкой MLX или специальные сборки вроде vLLM-MLX. Нативные инструменты дают прирост в 2-3 раза по сравнению с эмуляцией через Rosetta.

2. Серверные Xeon: максимальная оперативка за минимальные деньги

Пока все гонятся за видеокартами, серверное железо прошлых поколений дешевеет с пугающей скоростью. Xeon E5 v3/v4 с поддержкой DDR4 можно купить за копейки.

Секрет в том, что эти процессоры поддерживают регистровую память (RDIMM/LRDIMM). Она дешевле обычной DDR4, и ее можно поставить очень много. 128 ГБ — это стандартный конфиг для такого железа.

Но есть подвох. Пропускная способность памяти у Xeon ниже, чем у современных десктопных процессоров. И латентность выше. Для LLM это критично — модель будет работать, но медленнее.

3. Гибридные сборки: CPU + старый GPU

Третий путь — комбинированный. Берем недорогой современный CPU (AMD Ryzen 5, Intel Core i5) с поддержкой быстрой DDR5, и добавляем к нему старую видеокарту с большим объемом VRAM.

Кандидаты на роль бюджетного GPU:

NVIDIA Tesla P40 — 24 ГБ GDDR5, стоит около $150-200
AMD Radeon VII — 16 ГБ HBM2, можно найти за $250-300
NVIDIA RTX 2080 Ti — 11 ГБ GDDR6, но этого мало для 30B моделей

Идея в том, чтобы часть слоев модели загрузить в VRAM, а часть оставить в оперативной памяти. llama.cpp отлично работает в таком гибридном режиме.

Пошаговый план: три конфигурации за $600

Я собрал три реальные конфигурации. Цены взяты с eBay и Avito (на момент написания).

1 Конфигурация Apple: Mac Mini M2 Pro

Компонент	Спецификация	Цена
Mac Mini M2 Pro	10-core CPU, 16-core GPU, 32 ГБ Unified Memory	$1100 (но можно найти б/у за $800-900)
Итого	Готовое решение	~$900

Да, это превышает бюджет. Но если поискать восстановленные модели или акционные предложения, можно уложиться в $800. Плюс не нужно ничего докупать — работает из коробки.

Производительность: 15-25 токенов/сек на Qwen2.5-32B-Q4_K_M через llama.cpp с MLX-бэкендом.

2 Конфигурация Xeon: сервер за $550

Компонент	Спецификация	Цена
Материнская плата	X99 (китайский клон)	$80
Процессор	Xeon E5-2690 v4 (14 ядер, 28 потоков)	$50
Оперативная память	4x32 ГБ DDR4-2400 RDIMM	$180
Блок питания	600W б/у	$40
Корпус	Простейший ATX	$30
SSD	512 ГБ NVMe	$35
Видеокарта	Любая для вывода изображения	$30
Кулер	Бюджетный для LGA2011-3	$25
Итого	128 ГБ ОЗУ, 14 ядер	$470

Оставшиеся $130 можно потратить на более быструю память (DDR4-3200) или второй процессор, если материнская плата поддерживает.

Производительность: 3-8 токенов/сек. Медленно, но стабильно. И главное — влезают даже 70B модели при желании.

Кризис с материнскими платами для серверного железа — реальность. Производители вроде Supermicro сворачивают производство старых линеек. Об этом я писал в статье про кризис железа для локального AI. Покупайте сейчас, пока китайские клоны еще доступны.

3 Конфигурация гибридная: Ryzen 5 + Tesla P40

Компонент	Спецификация	Цена
Процессор	AMD Ryzen 5 7600	$200
Материнская плата	AM5 с DDR5	$120
Оперативная память	2x16 ГБ DDR5-6000	$100
Видеокарта	NVIDIA Tesla P40 24 ГБ	$180
БП, корпус, SSD	Бюджетные компоненты	$150
Итого	24 ГБ VRAM + 32 ГБ быстрой ОЗУ	$750

Опять превышение бюджета. Но можно сэкономить на процессоре (взять Ryzen 5 7500F) и материнской плате (чипсет A620). Тогда уложимся в $600.

Производительность: 10-20 токенов/сек, в зависимости от того, сколько слоев загружено в VRAM. Tesla P40 не поддерживает FP16 на аппаратном уровне, что замедляет вычисления.

Нюансы, которые все портят

Теория — это одно. Практика — другое. Вот что не пишут в красивых таблицах сравнения.

Проблема с Tesla P40

У этой карты нет видеовыходов. Нужна вторая карта для вывода изображения. Или специальный драйвер, который позволяет использовать встроенную графику Ryzen вместе с Tesla P40 для вычислений. Настраивать это — тот еще квест.

Плюс Tesla P40 — это старый архитектура Pascal. Поддержка в llama.cpp есть, но оптимизаций меньше, чем для современных карт.

Шум и энергопотребление

Серверный Xeon с пассивным кулером? Забудьте. Он будет греться как печка. Нужны мощные вентиляторы, которые создают шум на уровне пылесоса.

Mac Mini в этом плане идеален — работает практически бесшумно даже под нагрузкой.

Совместимость ПО

Не все фреймворки одинаково хорошо работают на всех архитектурах. Например, Newelle 1.2 изначально заточен под Linux и llama.cpp. На Mac он тоже работает, но могут быть нюансы.

А некоторые инструменты для ускорения вроде Speculative Decoding требуют специфической поддержки железа.

Что выбрать? Мое субъективное мнение

Если бы мне нужно было прямо сегодня запускать 30B модели за $600, я бы пошел по пути гибридной сборки, но с заменой Tesla P40 на что-то более современное.

Вот реальный рецепт:

Ищем б/у RTX 3060 12 ГБ за $200
Берем AMD Ryzen 5 5600G (со встроенной графикой) за $120
Материнская плата B550 — $80
2x16 ГБ DDR4-3600 — $70
БП, корпус, SSD — $130

Итого: $600. 12 ГБ VRAM + 32 ГБ ОЗУ. В VRAM поместится примерно половина модели Q4_K_M. Остальное — в оперативку. Производительность будет 8-15 токенов/сек.

Почему не Mac Mini? Потому что за те же $900 можно собрать систему с RTX 4060 Ti 16 ГБ, которая будет быстрее. Но Mac Mini — это готовое, тихое, энергоэффективное решение. Для офиса или квартиры — идеально.

Серверный Xeon — вариант для энтузиастов, которые готовы мириться с шумом и высоким энергопотреблением. Зато можно запускать хоть 120B модели, если найти 256 ГБ памяти.

Не гонитесь за PCIe 5.0 и другими «футуристичными» технологиями для LLM. Как я писал в статье про PCIe 5.0 для MoE-инференса, разница между PCIe 4.0 и 5.0 для инференса практически незаметна. Деньги лучше вложить в больший объем памяти.

А что насчет будущего?

Железо устаревает. Сегодня 30B модель — это круто. Завтра — стандарт. Уже сейчас появляются 70B и 120B модели, которые требуют совершенно других ресурсов.

Инвестируйте в систему с запасом по памяти. 32 ГБ — это минимум на 2024 год. В 2025 понадобится 64+ ГБ.

И следите за развитием квантования. Новые методы позволяют сжимать модели сильнее без потери качества. Возможно, через год 30B модель будет занимать не 20 ГБ, а 12. И тогда ее можно будет запускать на RTX 4060 Ti.

Мой прогноз: Apple продолжит доминировать в бюджетном сегменте за счет Unified Memory. NVIDIA будет удерживать high-end за счет CUDA и оптимизированных библиотек. А AMD... Ну, AMD попытается что-то сделать с ROCm.

Главное — не покупайте железо «впрок». Технологии меняются слишком быстро. Собирайте систему под конкретные задачи здесь и сейчас. А через пару лет — продавайте и собирайте новую.

Апгрейд железа для 30B моделей: сравниваем Mac Mini M2 Pro, серверные Xeon и гибридные сборки в бюджете $600