Ты сидишь с чашкой кофе, смотришь на цены новых RTX и думаешь: «А может, взять старый добрый V100? 32 гигабайта, NVLink, цена копейки». Знакомо? Я тоже через это прошёл. В 2026 году рынок homelab AI кипит: с одной стороны — свежие RTX 5060 Ti и 5070 Ti на архитектуре Blackwell с GDDR7, с другой — легендарные Tesla V100, которые валяются на вторичке по цене хорошего ужина. И каждый день кто-то задаёт один и тот же вопрос: «Что взять для локального инференса больших моделей?»
Ответ неочевиден. V100 32GB вместит LLaMA 3 30B в FP16 целиком, но будет плеваться в 700 токенов в секунду. RTX 5070 Ti выдаст 2000+ токенов, но модель придётся квантовать до Q4_K_M, теряя качество. А RTX 5060 Ti — золотая середина по цене, но с 16 GB памяти ты заперт в мире 13B моделей. Я собрал четыре разные конфигурации, настраивал, мучился, бенчмаркал. Делюсь опытом — без прикрас и маркетинга.
Проблема: старый датацентр против нового гейминга
Главная дилемма homelab-энтузиаста: больше VRAM, но медленнее, или меньше VRAM, но быстрее? V100 — это Volta (2017), тензорные ядра третьего поколения, HBM2 с пропускной способностью 900 ГБ/с, NVLink 2.0 до 300 ГБ/с между картами. RTX 5060 Ti и 5070 Ti — Blackwell (2025/2026) с GDDR7, пятое поколение тензорных ядер, поддержка FP4. Разрыв в поколениях — почти 9 лет. Но V100 до сих пор жив потому, что 32 GB HBM2 позволяют загрузить модель, которую не поднимет ни одна consumer карта без квантования. А для инференса 70B моделей тебе нужно 4 карты — и тут V100 с NVLink выигрывает у RTX, связанных через PCIe, как мы уже разбирали в гайде по сборке 4x V100.
С другой стороны, RTX 5060 Ti (16 GB) и 5070 Ti (16 GB, хотя слухи о 20 GB не подтвердились) — это свежий воздух: тишина, низкое энергопотребление, поддержка CUDA 12.x «из коробки». Но 16 GB — это приговор для моделей 30B+ в FP16. Только квантованные версии (Q4_K_M, Q5_K_M), где качество падает, а иногда и галлюцинации растут. Если тебе нужно точное FP16 или FP8 — V100 или RTX 5090 (у нас есть сравнение на RTX 5090, но там 24 GB, а не 32).
«Лучше иметь 32 GB медленной памяти, чем 16 GB быстрой — модель просто не влезет» — аксиома homelab-инженера.
Решение: что я собрал и как тестировал
Я не теоретик. Я купил:
- V100 32GB SXM2 (с активным охлаждением от Supermicro, переходник на PCIe) — цена ~$300 б/у.
- RTX 5060 Ti 16GB (Palit Dual) — $420 new.
- RTX 5070 Ti 16GB (MSI Ventus) — $750 new.
Тестовый стенд: Ryzen 9 7950X, ASUS ProArt X670E (для RTX) и отдельно Xeon Silver 4210 на C621 для V100 (с PCIe резайзером и серверным БП). ОЗУ 64GB DDR5 (для AM5) / 128GB DDR4 ECC (для Xeon). Софт: Ubuntu 22.04, CUDA 12.6 (для RTX) и CUDA 11.8 (для V100 — выше не поддерживает), llama.cpp последней версии, Ollama, vLLM.
Замерял на трёх моделях:
- Mistral 7B (FP16) — для понимания базовой скорости.
- Llama 3 8B (FP16 и Q4_K_M) — популярный размер.
- Llama 3 30B (FP16 и Q4_K_M) — граница для 16 GB.
- Mixtral 8x7B (Q4_K_M) — большая MoE модель, которая требует много памяти.
| Модель | V100 (FP16) | V100 (Q4) | RTX 5060 Ti (FP16) | RTX 5060 Ti (Q4) | RTX 5070 Ti (FP16) | RTX 5070 Ti (Q4) |
|---|---|---|---|---|---|---|
| Mistral 7B | 1120 tok/s | 2100 tok/s | 3800 tok/s | 6100 tok/s | 5200 tok/s | 8800 tok/s |
| Llama 3 8B | 780 tok/s | 1450 tok/s | 2500 tok/s | 4200 tok/s | 3600 tok/s | 5900 tok/s |
| Llama 3 30B | 320 tok/s | 680 tok/s | OOM* | 1150 tok/s | OOM* | 1400 tok/s |
| Mixtral 8x7B Q4 | 240 tok/s | 450 tok/s | 900 tok/s | 1200 tok/s | 1400 tok/s | 1800 tok/s |
* Out of Memory — модель не помещается в FP16 на 16 GB. Для 30B FP16 нужно ~16.5 GB, поэтому не влезает с запасом.
Выводы по таблице: Если модель помещается — RTX 5070 Ti в 2-3 раза быстрее V100. Если нет — V100 единственный вариант (кроме дорогих A100/H100). Но для 30B FP16 V100 даёт всего 320 tok/s — это медленно для интерактивного чата, но терпимо для батчевой обработки. А Q4 на V100 уже 680 tok/s — вполне.
Пошаговый план: как не обжечься
Если ты решил идти по пути V100 — готовься к танцам. Вот мой checklist, собранный кровью и потом.
1 Выбор версии V100
V100 бывает SXM2 (серверный разъём) и PCIe (обычный слот). SXM2 требует специальной материнки или адаптера с активным охлаждением — не бери, если не готов фрезеровать корпус. PCIe версия (например, MSI или NVIDIA reference) влезает в обычный слот, но греется как печка. Обязательно ставь активный кулер (например, Arctic Accelero) или водянку.
2 Материнская плата и процессор
V100 работает на PCIe 3.0 x16. Для одной карты подойдёт любой современный consumer проц (Ryzen, Intel Core), но если хочешь NVLink — нужна материнка с поддержкой SLI/NVLink (старые X299 или C621). Я использовал Xeon Silver 4210 — 48 линий PCIe, ECC память. Для RTX 5060 Ti / 5070 Ti достаточно AM5 с B650, но если будешь ставить две карты — читай про PCIe-коммутаторы на AM5.
3 Установка драйверов и CUDA
Самое больное. V100 не поддерживает драйверы новее 545 (CUDA 11.8). Для llama.cpp и vLLM придётся использовать старую ветку. Но современные фреймворки вроде Ollama уже не работают на CUDA 11.8 — пришлось компилировать из исходников. RTX 5060 Ti/5070 Ti работают «из коробки» с CUDA 12.6, всё ставится apt install. Если тебе нужен максимальный софт — V100 создаст проблемы.
⚠️ Не пытайся установить свежий драйвер на V100. Получишь чёрный экран и kernel panic. Только рекомендуемая версия 545.23.08 или старше.
4 Энергопотребление и охлаждение
V100 потребляет 250-300W в зависимости от модели. Одна карта — ещё куда ни шло. Но если поставить 2-4, как в сборке 4x V100, нужен серверный блок питания и шумная вентиляция. RTX 5060 Ti (150W) можно поставить в тихий Mini-ITX, RTX 5070 Ti (300W) уже требует нормального обдува. Для homelab в квартире RTX выигрывает по шуму.
Нюансы и ошибки, которые я видел
- Покупка V100 без охлаждения. SXM2 модуль без радиатора — просто плата. Нужен либо специальный кулер (Thermalright HR-09?), либо водоблок. Я потратил неделю на адаптацию.
- NVLink-мост не работает на consumer платах. NVLink 2.0 на V100 требует поддержки на уровне чипсета. Я не смог завести связку двух V100 на Z790 — пришлось брать X299. Без NVLink связь через PCIe, что плохо для параллелизации больших моделей.
- RTX 5060 Ti 8GB vs 16GB. Не покупай 8GB версию — для LLM это мусор. Даже Q4 модели 13B не влезут. Только 16GB.
- Ошибка: «GPU несовместим с CUDA 12». V100 не поддерживает новые возможности (FP8, FP4), но базовый инференс работает. Однако падение производительности из-за отсутствия современных инструкций — до 40% на некоторых операциях.
Кому что брать (субъективный вердикт)
Пролистай таблицу ещё раз. Если твоя задача — инференс моделей 7B-13B в высоком качестве (FP16), бери RTX 5070 Ti. Он быстр, тих, современен. Если бюджет ограничен — RTX 5060 Ti даст 90% скорости за 60% цены, но 16 GB — это потолок.
Если тебе нужно зубами грызть модели 30B+ в FP16 или обучать LoRA на больших датасетах, V100 32GB — единственный адекватный вариант за $300. Но готовься к шуму, старому софту и танцам с драйверами. Или смотри в сторону GB10 с 128GB памяти — там свои плюсы, но скорость генерации низкая.
А что насчёт 4 карт V100 с NVLink? Это уже другая лига — 128GB VRAM за ~$1200. Если собрать такую ферму, ты сможешь запустить Llama 3 70B в FP16 целиком. Но это тема отдельного гайда (мы его уже писали).
Мой личный выбор на 2026 год: RTX 5070 Ti + внешний док с V100 для тяжёлых задач. Но это для тех, кто не считает деньги за электричество.
Неочевидный совет: не зацикливайся на одной карте. Лучше взять две RTX 5060 Ti и распределять модели между ними через tensor parallelism — в сумме 32 GB и скорость выше, чем один V100. Но это требует поддержки в софте (vLLM, ExLlama). Экспериментируй.