Проблема: 30B модель не влезает в память, а денег на RTX 4090 нет
Вы скачали Qwen2.5-32B-Instruct-GGUF. Запускаете через llama.cpp. И получаете ошибку "out of memory". Ваша GTX 1660 Super с 6 ГБ VRAM просто не может проглотить даже квантованную версию модели. А CPU-инференс на старом i7 тянет 0.5 токена в секунду. Знакомая ситуация?
Проблема в том, что для 30B моделей нужно минимум 20-24 ГБ памяти. И не просто памяти, а быстрой. DDR4 на 2400 МГц не подойдет — будет бутылочное горло. Нужно либо много оперативки с высокой пропускной способностью, либо VRAM, либо их комбинация.
Важный нюанс: 30B модель в формате Q4_K_M занимает около 19-20 ГБ. Плюс контекст, плюс overhead системы. Фактически нужно 24+ ГБ доступной памяти для стабильной работы.
Решение: три пути к бюджетному инференсу
Есть три принципиально разных подхода, каждый со своими плюсами и минусами. Я разобрал их до винтика.
1. Apple Silicon: тихая революция
Mac Mini M2 Pro — это черный ящик. Нельзя апгрейдить, нельзя добавить видеокарту. Но у него есть Unified Memory. И это меняет правила игры.
Для LLM важна не только емкость памяти, но и скорость доступа к ней. В традиционных системах данные между CPU и GPU копируются через PCIe шину. Это создает задержки. В архитектуре Apple Silicon CPU и GPU работают с одной и той же памятью. Нет копирования. Нет бутылочных горлышек.
M2 Pro с 32 ГБ Unified Memory — это идеальный кандидат для 30B моделей. Память быстрая (200+ ГБ/с пропускной способности), ее много, и она доступна всем вычислительным блокам одновременно.
2. Серверные Xeon: максимальная оперативка за минимальные деньги
Пока все гонятся за видеокартами, серверное железо прошлых поколений дешевеет с пугающей скоростью. Xeon E5 v3/v4 с поддержкой DDR4 можно купить за копейки.
Секрет в том, что эти процессоры поддерживают регистровую память (RDIMM/LRDIMM). Она дешевле обычной DDR4, и ее можно поставить очень много. 128 ГБ — это стандартный конфиг для такого железа.
Но есть подвох. Пропускная способность памяти у Xeon ниже, чем у современных десктопных процессоров. И латентность выше. Для LLM это критично — модель будет работать, но медленнее.
3. Гибридные сборки: CPU + старый GPU
Третий путь — комбинированный. Берем недорогой современный CPU (AMD Ryzen 5, Intel Core i5) с поддержкой быстрой DDR5, и добавляем к нему старую видеокарту с большим объемом VRAM.
Кандидаты на роль бюджетного GPU:
- NVIDIA Tesla P40 — 24 ГБ GDDR5, стоит около $150-200
- AMD Radeon VII — 16 ГБ HBM2, можно найти за $250-300
- NVIDIA RTX 2080 Ti — 11 ГБ GDDR6, но этого мало для 30B моделей
Идея в том, чтобы часть слоев модели загрузить в VRAM, а часть оставить в оперативной памяти. llama.cpp отлично работает в таком гибридном режиме.
Пошаговый план: три конфигурации за $600
Я собрал три реальные конфигурации. Цены взяты с eBay и Avito (на момент написания).
1 Конфигурация Apple: Mac Mini M2 Pro
| Компонент | Спецификация | Цена |
|---|---|---|
| Mac Mini M2 Pro | 10-core CPU, 16-core GPU, 32 ГБ Unified Memory | $1100 (но можно найти б/у за $800-900) |
| Итого | Готовое решение | ~$900 |
Да, это превышает бюджет. Но если поискать восстановленные модели или акционные предложения, можно уложиться в $800. Плюс не нужно ничего докупать — работает из коробки.
Производительность: 15-25 токенов/сек на Qwen2.5-32B-Q4_K_M через llama.cpp с MLX-бэкендом.
2 Конфигурация Xeon: сервер за $550
| Компонент | Спецификация | Цена |
|---|---|---|
| Материнская плата | X99 (китайский клон) | $80 |
| Процессор | Xeon E5-2690 v4 (14 ядер, 28 потоков) | $50 |
| Оперативная память | 4x32 ГБ DDR4-2400 RDIMM | $180 |
| Блок питания | 600W б/у | $40 |
| Корпус | Простейший ATX | $30 |
| SSD | 512 ГБ NVMe | $35 |
| Видеокарта | Любая для вывода изображения | $30 |
| Кулер | Бюджетный для LGA2011-3 | $25 |
| Итого | 128 ГБ ОЗУ, 14 ядер | $470 |
Оставшиеся $130 можно потратить на более быструю память (DDR4-3200) или второй процессор, если материнская плата поддерживает.
Производительность: 3-8 токенов/сек. Медленно, но стабильно. И главное — влезают даже 70B модели при желании.
Кризис с материнскими платами для серверного железа — реальность. Производители вроде Supermicro сворачивают производство старых линеек. Об этом я писал в статье про кризис железа для локального AI. Покупайте сейчас, пока китайские клоны еще доступны.
3 Конфигурация гибридная: Ryzen 5 + Tesla P40
| Компонент | Спецификация | Цена |
|---|---|---|
| Процессор | AMD Ryzen 5 7600 | $200 |
| Материнская плата | AM5 с DDR5 | $120 |
| Оперативная память | 2x16 ГБ DDR5-6000 | $100 |
| Видеокарта | NVIDIA Tesla P40 24 ГБ | $180 |
| БП, корпус, SSD | Бюджетные компоненты | $150 |
| Итого | 24 ГБ VRAM + 32 ГБ быстрой ОЗУ | $750 |
Опять превышение бюджета. Но можно сэкономить на процессоре (взять Ryzen 5 7500F) и материнской плате (чипсет A620). Тогда уложимся в $600.
Производительность: 10-20 токенов/сек, в зависимости от того, сколько слоев загружено в VRAM. Tesla P40 не поддерживает FP16 на аппаратном уровне, что замедляет вычисления.
Нюансы, которые все портят
Теория — это одно. Практика — другое. Вот что не пишут в красивых таблицах сравнения.
Проблема с Tesla P40
У этой карты нет видеовыходов. Нужна вторая карта для вывода изображения. Или специальный драйвер, который позволяет использовать встроенную графику Ryzen вместе с Tesla P40 для вычислений. Настраивать это — тот еще квест.
Плюс Tesla P40 — это старый архитектура Pascal. Поддержка в llama.cpp есть, но оптимизаций меньше, чем для современных карт.
Шум и энергопотребление
Серверный Xeon с пассивным кулером? Забудьте. Он будет греться как печка. Нужны мощные вентиляторы, которые создают шум на уровне пылесоса.
Mac Mini в этом плане идеален — работает практически бесшумно даже под нагрузкой.
Совместимость ПО
Не все фреймворки одинаково хорошо работают на всех архитектурах. Например, Newelle 1.2 изначально заточен под Linux и llama.cpp. На Mac он тоже работает, но могут быть нюансы.
А некоторые инструменты для ускорения вроде Speculative Decoding требуют специфической поддержки железа.
Что выбрать? Мое субъективное мнение
Если бы мне нужно было прямо сегодня запускать 30B модели за $600, я бы пошел по пути гибридной сборки, но с заменой Tesla P40 на что-то более современное.
Вот реальный рецепт:
- Ищем б/у RTX 3060 12 ГБ за $200
- Берем AMD Ryzen 5 5600G (со встроенной графикой) за $120
- Материнская плата B550 — $80
- 2x16 ГБ DDR4-3600 — $70
- БП, корпус, SSD — $130
Итого: $600. 12 ГБ VRAM + 32 ГБ ОЗУ. В VRAM поместится примерно половина модели Q4_K_M. Остальное — в оперативку. Производительность будет 8-15 токенов/сек.
Почему не Mac Mini? Потому что за те же $900 можно собрать систему с RTX 4060 Ti 16 ГБ, которая будет быстрее. Но Mac Mini — это готовое, тихое, энергоэффективное решение. Для офиса или квартиры — идеально.
Серверный Xeon — вариант для энтузиастов, которые готовы мириться с шумом и высоким энергопотреблением. Зато можно запускать хоть 120B модели, если найти 256 ГБ памяти.
Не гонитесь за PCIe 5.0 и другими «футуристичными» технологиями для LLM. Как я писал в статье про PCIe 5.0 для MoE-инференса, разница между PCIe 4.0 и 5.0 для инференса практически незаметна. Деньги лучше вложить в больший объем памяти.
А что насчет будущего?
Железо устаревает. Сегодня 30B модель — это круто. Завтра — стандарт. Уже сейчас появляются 70B и 120B модели, которые требуют совершенно других ресурсов.
Инвестируйте в систему с запасом по памяти. 32 ГБ — это минимум на 2024 год. В 2025 понадобится 64+ ГБ.
И следите за развитием квантования. Новые методы позволяют сжимать модели сильнее без потери качества. Возможно, через год 30B модель будет занимать не 20 ГБ, а 12. И тогда ее можно будет запускать на RTX 4060 Ti.
Мой прогноз: Apple продолжит доминировать в бюджетном сегменте за счет Unified Memory. NVIDIA будет удерживать high-end за счет CUDA и оптимизированных библиотек. А AMD... Ну, AMD попытается что-то сделать с ROCm.
Главное — не покупайте железо «впрок». Технологии меняются слишком быстро. Собирайте систему под конкретные задачи здесь и сейчас. А через пару лет — продавайте и собирайте новую.