Проблема: Хочу запускать Llama 3 8B сегодня, а завтра — 70B. Бюджет ограничен

Вы открываете Ollama WebUI, выбираете модель — и упираетесь в ошибку CUDA out of memory. Знакомо? Проблема не в ваших навыках, а в железе. Локальный ИИ превратился из хобби в рабочий инструмент, но цены на видеокарты кусаются. RTX 4090 стоит как хороший ноутбук, а RTX 5090 — как мотоцикл.

Новички ищут компромисс. И находят два пути:

Купить одну новую карту среднего класса (RTX 5060 Ti 16GB)
Найти две б/у RTX 3060 12GB и запустить их в паре

Звучит логично. Но здесь начинаются нюансы, о которых молчат в обзорах на YouTube.

Забудьте про SLI для игр — он мертв. Но для ИИ две карты работают иначе. Они не сливаются в одну монолитную систему. Модель делится между ними, а обмен данными идет через PCIe. Это медленнее, чем одна карта с тем же объемом VRAM.

RTX 5060 Ti 16GB: Одинокий рейнджер с большим арсеналом

Новая архитектура, 16 ГБ GDDR6, поддержка PCIe 5.0. На бумаге — идеальный кандидат. Но давайте копнем глубже.

1 Что вы реально получите

16 ГБ VRAM — это комфортная работа с моделями до 34B параметров в 4-битном квантовании. Llama 3.1 8B? Легко. Qwen2.5 32B? Влезет. Для сравнения, в нашей статье про RTX Pro 6000 vs RTX 4090 мы разбирали, как 24 ГБ против 48 ГБ меняют правила игры.

Но есть нюанс: пропускная способность памяти. У RTX 5060 Ti она около 288 ГБ/с. У RTX 4090 — 1008 ГБ/с. Разница в 3.5 раза. Что это значит на практике?

Задача	RTX 5060 Ti 16GB	2× RTX 3060 12GB
Запуск Llama 3 8B (Q4_K_M)	~45 токенов/сек	~60 токенов/сек (суммарно)
Запуск Mixtral 8x7B (Q4_K_M)	Не влезет в 16 ГБ	Влезет в 24 ГБ, ~25 токенов/сек
Обучение LoRA на SDXL	Будет медленно, но возможно	Быстрее, но сложнее настроить

Две RTX 3060 12GB: Волки в овечьей шкуре

24 ГБ суммарной видеопамяти за те же деньги. Звучит как кража. Но так ли все просто?

2 Скрытые расходы, которые съедят вашу экономию

Материнская плата: Нужны два полноценных PCIe x16 слота. Не x8/x8, а именно x16/x16 или x16/x8. Дешевые материнки дают второй слот x4 через чипсет — это убийство производительности.
Блок питания: Две карты по 170 Вт = 340 Вт только на GPU. Плюс процессор, память. Итог: нужен БП на 850-1000 Вт с качественными кабелями. Добавляем 10-15 тысяч рублей.
Охлаждение: Две карты нагревают корпус как печка. Нужна продуманная вентиляция: минимум 4 корпусных вентилятора. Иначе thermal throttling гарантирован.
Настройка ПО: В llama.cpp или text-generation-webui придется танцевать с бубном. Флаги типа -ngl 99 распределят слои, но не автоматически.

💡

Проверьте ширину PCIe линий на материнской плате. Если второй слот работает через чипсет (DMI), пропускная способность упадет до 4 ГБ/с вместо 16. Это как переливать воду через соломинку.

Системная память: Тихий убийца производительности

Все смотрят на VRAM, но забывают про RAM. А зря. Когда модель не помещается в видеопамять, часть уходит в оперативку. И здесь начинается ад.

Представьте: вы запускаете Qwen2.5 32B. 20 ГБ ушло в VRAM, 12 ГБ — в RAM. Ваша DDR5-4800 с задержками CL40 начинает захлебываться. Скорость падает в 10-20 раз. Токен в секунду превращается в токен в 10 секунд.

Дефицит оперативной памяти — не абстракция. Как мы писали в статье про дефицит RAM, цены на память взлетели до $14 за ГБ. Покупать 64 ГБ DDR5 сейчас — это инвестиция.

3 Как выбрать RAM для ИИ-ПК

Объем важнее скорости: 64 ГБ DDR5-4800 лучше, чем 32 ГБ DDR5-7200. Модели будут выгружаться в RAM — им нужен простор.
Двухканальный режим — обязательно: Покупайте комплект из двух планок (2×32 ГБ). Одноканальный режим режет пропускную способность вдвое.
Задержки (тайминги): CL30 лучше CL40. Разница в 5-7% производительности при работе с большими моделями.
Проверьте совместимость: Некоторые материнки капризничают с памятью выше 6000 МГц. Смотрите QVL список на сайте производителя.

Пошаговый план сборки: От корзины в DNS до первого запуска модели

4 Вариант А: Одна RTX 5060 Ti 16GB (бюджет ~120 000 руб.)

Процессор: Ryzen 5 7600. 6 ядер, низкое тепловыделение, встроенная графика на случай проблем с драйверами.
Материнская плата: B650 с PCIe 5.0 x16. Не экономьте — возьмите с хорошим VRM для будущего апгрейда.
Память: 2×32 ГБ DDR5-5600 CL36. 64 ГБ хватит для большинства задач.
Блок питания: 750 Вт 80+ Gold. Оставьте запас на будущую вторую карту (если решите добавить).
Корпус: С mesh-передней панелью. RTX 5060 Ti будет греться — нужен хороший обдув.
SSD: NVMe 2 ТБ. Модели весят по 4-20 ГБ каждая. 500 ГБ заполнятся за неделю.

5 Вариант Б: Две RTX 3060 12GB (бюджет ~100 000 руб., но с подвохом)

Процессор: Ryzen 7 7700. 8 ядер помогут распределять задачи между картами.
Материнская плата: X670E с двумя PCIe 4.0 x16 слотами. Это критично. Дешевые B650 не подойдут.
Память: 2×32 ГБ DDR5-6000 CL30. Две карты создают больше нагрузки на систему.
Блок питания: 1000 Вт 80+ Platinum. Экономить на БП с двумя картами — преступление.
Корпус: Full-tower с 6-7 вентиляторами. Температура — ваш главный враг.
Важно: Ищите карты с референсным дизайном охлаждения (выдув горячего воздуха наружу). Карты с аксиальными кулерами будут греть друг друга.

Ошибки, которые совершают 90% новичков (и как их избежать)

Ошибка	Последствия	Решение
Экономия на блоке питания	Скачки напряжения убивают видеокарты. Дешевый БП под нагрузкой может сжечь всю систему.	Берем на 150-200 Вт больше расчетного. Только проверенные бренды: Seasonic, Corsair, be quiet!
Игнорирование охлаждения	Thermal throttling снижает производительность на 30-40%. Карты работают на 85°C вместо 65°C.	Минимум 3 intake вентилятора спереди, 2 exhaust сзади и сверху. Noctua или Arctic — ваш выбор.
Покупка одной планки RAM	Одноканальный режим. Пропускная способность падает вдвое. Модели тормозят даже при достаточном объеме.	Всегда 2 или 4 планки. Проверяйте, что они работают в dual-channel (смотрите в CPU-Z).
Установка карт в соседние слоты	Верхняя карта задыхается от недостатка воздуха. Разница в температуре до 15°C.	Если возможно, оставляйте один слот пустым между картами. Или используйте вертикальные крепления.

Что запускать на этой сборке? Конкретные модели и настройки

Собрали ПК — теперь нужны модели. Не все LLM созданы равными. Некоторые оптимизированы под ограниченные ресурсы.

Для RTX 5060 Ti 16GB:

Llama 3.1 8B Instruct (Q8_0): ~14 ГБ VRAM, 40-50 токенов/сек. Идеально для кодинга и анализа.
Qwen2.5 14B (Q4_K_M): ~10 ГБ VRAM, отличное качество за свои размеры.
Для генерации изображений: Stable Diffusion XL с контрольнетом. Влезет с трудом, но будет работать.

Для 2× RTX 3060 12GB:

Mixtral 8x7B (Q4_K_M): Распределится между картами. ~22 ГБ VRAM, 20-30 токенов/сек.
Llama 3 70B (Q3_K_M): Часть уйдет в RAM, но запустится. Ожидайте 2-5 токенов/сек.
Для обучения: LoRA на основе SD 1.5. Две карты ускорят процесс в 1.5-1.8 раза.

💡

Используйте llama.cpp с флагом -ngl 99 для автоматического распределения слоев между картами. Для двух карт добавьте --tensor-split 12,12 (если у каждой по 12 ГБ). Но помните: обмен между картами через PCIe — это bottleneck. Чем меньше слоев нужно синхронизировать, тем лучше.

Апгрейд-путь: Что делать через год?

ИИ развивается быстрее железа. Сегодняшняя сборка через год может не тянуть новые модели. Планируйте заранее.

Если взяли RTX 5060 Ti:

Добавить вторую такую же карту (если материнка и БП позволяют)
Увеличить RAM до 128 ГБ (4×32 ГБ)
Заменить на RTX 6070 Ti 20GB (когда выйдет)

Если взяли 2× RTX 3060:

Продать обе и купить одну RTX 5070 16GB
Добавить третью RTX 3060 (если есть слоты и БП тянет)
Перейти на серверное железо: бывшие в употреблении Tesla P40 (24 ГБ) дешевы, но требуют отдельного охлаждения

Не гонитесь за максимальным VRAM любой ценой. Две старые карты с большим объемом могут оказаться медленнее одной новой с меньшим объемом, но более быстрой памятью и архитектурой. Как мы видели в сравнении M2 Ultra vs 2× RTX 3090, иногда монолитная система бьет распределенную.

Итог: Мой вердикт после 15 собранных ИИ-ПК

Для большинства новичков RTX 5060 Ti 16GB — более разумный выбор. Меньше головной боли с настройкой, тише, меньше тепла, есть гарантия. Вы получаете готовую систему, которая просто работает.

Две RTX 3060 — вариант для энтузиастов, которые любят ковыряться в настройках, не боятся драйверных проблем и готовы мириться с шумом. Вы получаете больше VRAM за те же деньги, но платите временем и нервами.

Системную память берите 64 ГБ минимум. DDR5-5600 CL36 — оптимальный баланс цены и производительности. И не забудьте про SSD на 2 ТБ — модели растут как на дрожжах.

Самый неочевидный совет? Купите ИБП. Да, бесперебойник. Когда вы обучаете модель 8 часов, а потом отключают свет — вы поймете, почему это была лучшая инвестиция в 5000 рублей.

Цены на железо будут только расти. Как мы писали в статье про рост цен на GPU, дефицит памяти и спрос на ИИ-серверы толкают цены вверх. Если собираетесь — собирайте сейчас. Через полгода та же конфигурация будет стоить на 20-30% дороже.

И последнее: не зацикливайтесь на железе. Лучше средний ПК с хорошо настроенным ПО, чем топовая сборка с кривыми драйверами. Ваша цель — запускать модели, а не любоваться на бенчмарки.

Бюджетный ИИ-ПК: RTX 5060 Ti 16GB против двух RTX 3060. Где спрятаны подводные камни?