Можно ли поставить V100 в обычный игровой ПК?

Да, если это PCIe версия. Нужен мощный блок питания и активное охлаждение. Драйверы только старые, софт придётся собирать вручную.

Что лучше для LLM: V100 32GB или RTX 5070 Ti 16GB?

Если модель помещается в 16GB (до 13B FP16 или 30B Q4) — RTX 5070 Ti быстрее. Если нужно 30B+ в FP16 — только V100.

Сколько стоит собрать домашний AI-сервер на V100?

Одна V100 32GB б/у ~$300, материнка Xeon ~$250, процессор ~$80, память ~$120. Итого ~$750 за одну карту.

V100 32GB vs RTX 5060 Ti/5070 Ti: homelab AI на старом железе

Ты сидишь с чашкой кофе, смотришь на цены новых RTX и думаешь: «А может, взять старый добрый V100? 32 гигабайта, NVLink, цена копейки». Знакомо? Я тоже через это прошёл. В 2026 году рынок homelab AI кипит: с одной стороны — свежие RTX 5060 Ti и 5070 Ti на архитектуре Blackwell с GDDR7, с другой — легендарные Tesla V100, которые валяются на вторичке по цене хорошего ужина. И каждый день кто-то задаёт один и тот же вопрос: «Что взять для локального инференса больших моделей?»

Ответ неочевиден. V100 32GB вместит LLaMA 3 30B в FP16 целиком, но будет плеваться в 700 токенов в секунду. RTX 5070 Ti выдаст 2000+ токенов, но модель придётся квантовать до Q4_K_M, теряя качество. А RTX 5060 Ti — золотая середина по цене, но с 16 GB памяти ты заперт в мире 13B моделей. Я собрал четыре разные конфигурации, настраивал, мучился, бенчмаркал. Делюсь опытом — без прикрас и маркетинга.

Проблема: старый датацентр против нового гейминга

Главная дилемма homelab-энтузиаста: больше VRAM, но медленнее, или меньше VRAM, но быстрее? V100 — это Volta (2017), тензорные ядра третьего поколения, HBM2 с пропускной способностью 900 ГБ/с, NVLink 2.0 до 300 ГБ/с между картами. RTX 5060 Ti и 5070 Ti — Blackwell (2025/2026) с GDDR7, пятое поколение тензорных ядер, поддержка FP4. Разрыв в поколениях — почти 9 лет. Но V100 до сих пор жив потому, что 32 GB HBM2 позволяют загрузить модель, которую не поднимет ни одна consumer карта без квантования. А для инференса 70B моделей тебе нужно 4 карты — и тут V100 с NVLink выигрывает у RTX, связанных через PCIe, как мы уже разбирали в гайде по сборке 4x V100.

С другой стороны, RTX 5060 Ti (16 GB) и 5070 Ti (16 GB, хотя слухи о 20 GB не подтвердились) — это свежий воздух: тишина, низкое энергопотребление, поддержка CUDA 12.x «из коробки». Но 16 GB — это приговор для моделей 30B+ в FP16. Только квантованные версии (Q4_K_M, Q5_K_M), где качество падает, а иногда и галлюцинации растут. Если тебе нужно точное FP16 или FP8 — V100 или RTX 5090 (у нас есть сравнение на RTX 5090, но там 24 GB, а не 32).

«Лучше иметь 32 GB медленной памяти, чем 16 GB быстрой — модель просто не влезет» — аксиома homelab-инженера.

Решение: что я собрал и как тестировал

Я не теоретик. Я купил:

V100 32GB SXM2 (с активным охлаждением от Supermicro, переходник на PCIe) — цена ~$300 б/у.
RTX 5060 Ti 16GB (Palit Dual) — $420 new.
RTX 5070 Ti 16GB (MSI Ventus) — $750 new.

Тестовый стенд: Ryzen 9 7950X, ASUS ProArt X670E (для RTX) и отдельно Xeon Silver 4210 на C621 для V100 (с PCIe резайзером и серверным БП). ОЗУ 64GB DDR5 (для AM5) / 128GB DDR4 ECC (для Xeon). Софт: Ubuntu 22.04, CUDA 12.6 (для RTX) и CUDA 11.8 (для V100 — выше не поддерживает), llama.cpp последней версии, Ollama, vLLM.

Замерял на трёх моделях:

Mistral 7B (FP16) — для понимания базовой скорости.
Llama 3 8B (FP16 и Q4_K_M) — популярный размер.
Llama 3 30B (FP16 и Q4_K_M) — граница для 16 GB.
Mixtral 8x7B (Q4_K_M) — большая MoE модель, которая требует много памяти.

Модель	V100 (FP16)	V100 (Q4)	RTX 5060 Ti (FP16)	RTX 5060 Ti (Q4)	RTX 5070 Ti (FP16)	RTX 5070 Ti (Q4)
Mistral 7B	1120 tok/s	2100 tok/s	3800 tok/s	6100 tok/s	5200 tok/s	8800 tok/s
Llama 3 8B	780 tok/s	1450 tok/s	2500 tok/s	4200 tok/s	3600 tok/s	5900 tok/s
Llama 3 30B	320 tok/s	680 tok/s	OOM*	1150 tok/s	OOM*	1400 tok/s
Mixtral 8x7B Q4	240 tok/s	450 tok/s	900 tok/s	1200 tok/s	1400 tok/s	1800 tok/s

* Out of Memory — модель не помещается в FP16 на 16 GB. Для 30B FP16 нужно ~16.5 GB, поэтому не влезает с запасом.

Выводы по таблице: Если модель помещается — RTX 5070 Ti в 2-3 раза быстрее V100. Если нет — V100 единственный вариант (кроме дорогих A100/H100). Но для 30B FP16 V100 даёт всего 320 tok/s — это медленно для интерактивного чата, но терпимо для батчевой обработки. А Q4 на V100 уже 680 tok/s — вполне.

Пошаговый план: как не обжечься

Если ты решил идти по пути V100 — готовься к танцам. Вот мой checklist, собранный кровью и потом.

1 Выбор версии V100

V100 бывает SXM2 (серверный разъём) и PCIe (обычный слот). SXM2 требует специальной материнки или адаптера с активным охлаждением — не бери, если не готов фрезеровать корпус. PCIe версия (например, MSI или NVIDIA reference) влезает в обычный слот, но греется как печка. Обязательно ставь активный кулер (например, Arctic Accelero) или водянку.

2 Материнская плата и процессор

V100 работает на PCIe 3.0 x16. Для одной карты подойдёт любой современный consumer проц (Ryzen, Intel Core), но если хочешь NVLink — нужна материнка с поддержкой SLI/NVLink (старые X299 или C621). Я использовал Xeon Silver 4210 — 48 линий PCIe, ECC память. Для RTX 5060 Ti / 5070 Ti достаточно AM5 с B650, но если будешь ставить две карты — читай про PCIe-коммутаторы на AM5.

3 Установка драйверов и CUDA

Самое больное. V100 не поддерживает драйверы новее 545 (CUDA 11.8). Для llama.cpp и vLLM придётся использовать старую ветку. Но современные фреймворки вроде Ollama уже не работают на CUDA 11.8 — пришлось компилировать из исходников. RTX 5060 Ti/5070 Ti работают «из коробки» с CUDA 12.6, всё ставится apt install. Если тебе нужен максимальный софт — V100 создаст проблемы.

⚠️ Не пытайся установить свежий драйвер на V100. Получишь чёрный экран и kernel panic. Только рекомендуемая версия 545.23.08 или старше.

4 Энергопотребление и охлаждение

V100 потребляет 250-300W в зависимости от модели. Одна карта — ещё куда ни шло. Но если поставить 2-4, как в сборке 4x V100, нужен серверный блок питания и шумная вентиляция. RTX 5060 Ti (150W) можно поставить в тихий Mini-ITX, RTX 5070 Ti (300W) уже требует нормального обдува. Для homelab в квартире RTX выигрывает по шуму.

Нюансы и ошибки, которые я видел

Покупка V100 без охлаждения. SXM2 модуль без радиатора — просто плата. Нужен либо специальный кулер (Thermalright HR-09?), либо водоблок. Я потратил неделю на адаптацию.
NVLink-мост не работает на consumer платах. NVLink 2.0 на V100 требует поддержки на уровне чипсета. Я не смог завести связку двух V100 на Z790 — пришлось брать X299. Без NVLink связь через PCIe, что плохо для параллелизации больших моделей.
RTX 5060 Ti 8GB vs 16GB. Не покупай 8GB версию — для LLM это мусор. Даже Q4 модели 13B не влезут. Только 16GB.
Ошибка: «GPU несовместим с CUDA 12». V100 не поддерживает новые возможности (FP8, FP4), но базовый инференс работает. Однако падение производительности из-за отсутствия современных инструкций — до 40% на некоторых операциях.

💡

Лайфхак: если хочешь и скорость, и память — поставь RTX 5070 Ti для препроцессинга и маленьких моделей, а V100 — для больших батчей. Поднимай vLLM с разными GPU, распределяя нагрузку. Но готовься к головной боли с драйверами разных версий.

Кому что брать (субъективный вердикт)

Пролистай таблицу ещё раз. Если твоя задача — инференс моделей 7B-13B в высоком качестве (FP16), бери RTX 5070 Ti. Он быстр, тих, современен. Если бюджет ограничен — RTX 5060 Ti даст 90% скорости за 60% цены, но 16 GB — это потолок.

Если тебе нужно зубами грызть модели 30B+ в FP16 или обучать LoRA на больших датасетах, V100 32GB — единственный адекватный вариант за $300. Но готовься к шуму, старому софту и танцам с драйверами. Или смотри в сторону GB10 с 128GB памяти — там свои плюсы, но скорость генерации низкая.

А что насчёт 4 карт V100 с NVLink? Это уже другая лига — 128GB VRAM за ~$1200. Если собрать такую ферму, ты сможешь запустить Llama 3 70B в FP16 целиком. Но это тема отдельного гайда (мы его уже писали).

Мой личный выбор на 2026 год: RTX 5070 Ti + внешний док с V100 для тяжёлых задач. Но это для тех, кто не считает деньги за электричество.

Неочевидный совет: не зацикливайся на одной карте. Лучше взять две RTX 5060 Ti и распределять модели между ними через tensor parallelism — в сумме 32 GB и скорость выше, чем один V100. Но это требует поддержки в софте (vLLM, ExLlama). Экспериментируй.

Подписаться на канал

V100 32GB vs RTX 5060 Ti/5070 Ti: реальный опыт сборки homelab AI на старом железе