Проблема: Хочу запускать Llama 3 8B сегодня, а завтра — 70B. Бюджет ограничен
Вы открываете Ollama WebUI, выбираете модель — и упираетесь в ошибку CUDA out of memory. Знакомо? Проблема не в ваших навыках, а в железе. Локальный ИИ превратился из хобби в рабочий инструмент, но цены на видеокарты кусаются. RTX 4090 стоит как хороший ноутбук, а RTX 5090 — как мотоцикл.
Новички ищут компромисс. И находят два пути:
- Купить одну новую карту среднего класса (RTX 5060 Ti 16GB)
- Найти две б/у RTX 3060 12GB и запустить их в паре
Звучит логично. Но здесь начинаются нюансы, о которых молчат в обзорах на YouTube.
Забудьте про SLI для игр — он мертв. Но для ИИ две карты работают иначе. Они не сливаются в одну монолитную систему. Модель делится между ними, а обмен данными идет через PCIe. Это медленнее, чем одна карта с тем же объемом VRAM.
RTX 5060 Ti 16GB: Одинокий рейнджер с большим арсеналом
Новая архитектура, 16 ГБ GDDR6, поддержка PCIe 5.0. На бумаге — идеальный кандидат. Но давайте копнем глубже.
1 Что вы реально получите
16 ГБ VRAM — это комфортная работа с моделями до 34B параметров в 4-битном квантовании. Llama 3.1 8B? Легко. Qwen2.5 32B? Влезет. Для сравнения, в нашей статье про RTX Pro 6000 vs RTX 4090 мы разбирали, как 24 ГБ против 48 ГБ меняют правила игры.
Но есть нюанс: пропускная способность памяти. У RTX 5060 Ti она около 288 ГБ/с. У RTX 4090 — 1008 ГБ/с. Разница в 3.5 раза. Что это значит на практике?
| Задача | RTX 5060 Ti 16GB | 2× RTX 3060 12GB |
|---|---|---|
| Запуск Llama 3 8B (Q4_K_M) | ~45 токенов/сек | ~60 токенов/сек (суммарно) |
| Запуск Mixtral 8x7B (Q4_K_M) | Не влезет в 16 ГБ | Влезет в 24 ГБ, ~25 токенов/сек |
| Обучение LoRA на SDXL | Будет медленно, но возможно | Быстрее, но сложнее настроить |
Две RTX 3060 12GB: Волки в овечьей шкуре
24 ГБ суммарной видеопамяти за те же деньги. Звучит как кража. Но так ли все просто?
2 Скрытые расходы, которые съедят вашу экономию
- Материнская плата: Нужны два полноценных PCIe x16 слота. Не x8/x8, а именно x16/x16 или x16/x8. Дешевые материнки дают второй слот x4 через чипсет — это убийство производительности.
- Блок питания: Две карты по 170 Вт = 340 Вт только на GPU. Плюс процессор, память. Итог: нужен БП на 850-1000 Вт с качественными кабелями. Добавляем 10-15 тысяч рублей.
- Охлаждение: Две карты нагревают корпус как печка. Нужна продуманная вентиляция: минимум 4 корпусных вентилятора. Иначе thermal throttling гарантирован.
- Настройка ПО: В llama.cpp или text-generation-webui придется танцевать с бубном. Флаги типа
-ngl 99распределят слои, но не автоматически.
Системная память: Тихий убийца производительности
Все смотрят на VRAM, но забывают про RAM. А зря. Когда модель не помещается в видеопамять, часть уходит в оперативку. И здесь начинается ад.
Представьте: вы запускаете Qwen2.5 32B. 20 ГБ ушло в VRAM, 12 ГБ — в RAM. Ваша DDR5-4800 с задержками CL40 начинает захлебываться. Скорость падает в 10-20 раз. Токен в секунду превращается в токен в 10 секунд.
Дефицит оперативной памяти — не абстракция. Как мы писали в статье про дефицит RAM, цены на память взлетели до $14 за ГБ. Покупать 64 ГБ DDR5 сейчас — это инвестиция.
3 Как выбрать RAM для ИИ-ПК
- Объем важнее скорости: 64 ГБ DDR5-4800 лучше, чем 32 ГБ DDR5-7200. Модели будут выгружаться в RAM — им нужен простор.
- Двухканальный режим — обязательно: Покупайте комплект из двух планок (2×32 ГБ). Одноканальный режим режет пропускную способность вдвое.
- Задержки (тайминги): CL30 лучше CL40. Разница в 5-7% производительности при работе с большими моделями.
- Проверьте совместимость: Некоторые материнки капризничают с памятью выше 6000 МГц. Смотрите QVL список на сайте производителя.
Пошаговый план сборки: От корзины в DNS до первого запуска модели
4 Вариант А: Одна RTX 5060 Ti 16GB (бюджет ~120 000 руб.)
- Процессор: Ryzen 5 7600. 6 ядер, низкое тепловыделение, встроенная графика на случай проблем с драйверами.
- Материнская плата: B650 с PCIe 5.0 x16. Не экономьте — возьмите с хорошим VRM для будущего апгрейда.
- Память: 2×32 ГБ DDR5-5600 CL36. 64 ГБ хватит для большинства задач.
- Блок питания: 750 Вт 80+ Gold. Оставьте запас на будущую вторую карту (если решите добавить).
- Корпус: С mesh-передней панелью. RTX 5060 Ti будет греться — нужен хороший обдув.
- SSD: NVMe 2 ТБ. Модели весят по 4-20 ГБ каждая. 500 ГБ заполнятся за неделю.
5 Вариант Б: Две RTX 3060 12GB (бюджет ~100 000 руб., но с подвохом)
- Процессор: Ryzen 7 7700. 8 ядер помогут распределять задачи между картами.
- Материнская плата: X670E с двумя PCIe 4.0 x16 слотами. Это критично. Дешевые B650 не подойдут.
- Память: 2×32 ГБ DDR5-6000 CL30. Две карты создают больше нагрузки на систему.
- Блок питания: 1000 Вт 80+ Platinum. Экономить на БП с двумя картами — преступление.
- Корпус: Full-tower с 6-7 вентиляторами. Температура — ваш главный враг.
- Важно: Ищите карты с референсным дизайном охлаждения (выдув горячего воздуха наружу). Карты с аксиальными кулерами будут греть друг друга.
Ошибки, которые совершают 90% новичков (и как их избежать)
| Ошибка | Последствия | Решение |
|---|---|---|
| Экономия на блоке питания | Скачки напряжения убивают видеокарты. Дешевый БП под нагрузкой может сжечь всю систему. | Берем на 150-200 Вт больше расчетного. Только проверенные бренды: Seasonic, Corsair, be quiet! |
| Игнорирование охлаждения | Thermal throttling снижает производительность на 30-40%. Карты работают на 85°C вместо 65°C. | Минимум 3 intake вентилятора спереди, 2 exhaust сзади и сверху. Noctua или Arctic — ваш выбор. |
| Покупка одной планки RAM | Одноканальный режим. Пропускная способность падает вдвое. Модели тормозят даже при достаточном объеме. | Всегда 2 или 4 планки. Проверяйте, что они работают в dual-channel (смотрите в CPU-Z). |
| Установка карт в соседние слоты | Верхняя карта задыхается от недостатка воздуха. Разница в температуре до 15°C. | Если возможно, оставляйте один слот пустым между картами. Или используйте вертикальные крепления. |
Что запускать на этой сборке? Конкретные модели и настройки
Собрали ПК — теперь нужны модели. Не все LLM созданы равными. Некоторые оптимизированы под ограниченные ресурсы.
Для RTX 5060 Ti 16GB:
- Llama 3.1 8B Instruct (Q8_0): ~14 ГБ VRAM, 40-50 токенов/сек. Идеально для кодинга и анализа.
- Qwen2.5 14B (Q4_K_M): ~10 ГБ VRAM, отличное качество за свои размеры.
- Для генерации изображений: Stable Diffusion XL с контрольнетом. Влезет с трудом, но будет работать.
Для 2× RTX 3060 12GB:
- Mixtral 8x7B (Q4_K_M): Распределится между картами. ~22 ГБ VRAM, 20-30 токенов/сек.
- Llama 3 70B (Q3_K_M): Часть уйдет в RAM, но запустится. Ожидайте 2-5 токенов/сек.
- Для обучения: LoRA на основе SD 1.5. Две карты ускорят процесс в 1.5-1.8 раза.
-ngl 99 для автоматического распределения слоев между картами. Для двух карт добавьте --tensor-split 12,12 (если у каждой по 12 ГБ). Но помните: обмен между картами через PCIe — это bottleneck. Чем меньше слоев нужно синхронизировать, тем лучше.Апгрейд-путь: Что делать через год?
ИИ развивается быстрее железа. Сегодняшняя сборка через год может не тянуть новые модели. Планируйте заранее.
Если взяли RTX 5060 Ti:
- Добавить вторую такую же карту (если материнка и БП позволяют)
- Увеличить RAM до 128 ГБ (4×32 ГБ)
- Заменить на RTX 6070 Ti 20GB (когда выйдет)
Если взяли 2× RTX 3060:
- Продать обе и купить одну RTX 5070 16GB
- Добавить третью RTX 3060 (если есть слоты и БП тянет)
- Перейти на серверное железо: бывшие в употреблении Tesla P40 (24 ГБ) дешевы, но требуют отдельного охлаждения
Не гонитесь за максимальным VRAM любой ценой. Две старые карты с большим объемом могут оказаться медленнее одной новой с меньшим объемом, но более быстрой памятью и архитектурой. Как мы видели в сравнении M2 Ultra vs 2× RTX 3090, иногда монолитная система бьет распределенную.
Итог: Мой вердикт после 15 собранных ИИ-ПК
Для большинства новичков RTX 5060 Ti 16GB — более разумный выбор. Меньше головной боли с настройкой, тише, меньше тепла, есть гарантия. Вы получаете готовую систему, которая просто работает.
Две RTX 3060 — вариант для энтузиастов, которые любят ковыряться в настройках, не боятся драйверных проблем и готовы мириться с шумом. Вы получаете больше VRAM за те же деньги, но платите временем и нервами.
Системную память берите 64 ГБ минимум. DDR5-5600 CL36 — оптимальный баланс цены и производительности. И не забудьте про SSD на 2 ТБ — модели растут как на дрожжах.
Самый неочевидный совет? Купите ИБП. Да, бесперебойник. Когда вы обучаете модель 8 часов, а потом отключают свет — вы поймете, почему это была лучшая инвестиция в 5000 рублей.
Цены на железо будут только расти. Как мы писали в статье про рост цен на GPU, дефицит памяти и спрос на ИИ-серверы толкают цены вверх. Если собираетесь — собирайте сейчас. Через полгода та же конфигурация будет стоить на 20-30% дороже.
И последнее: не зацикливайтесь на железе. Лучше средний ПК с хорошо настроенным ПО, чем топовая сборка с кривыми драйверами. Ваша цель — запускать модели, а не любоваться на бенчмарки.