4× мод. 4090 с 48 ГБ: реальность или безумие?

Четыре модифицированных RTX 4090 с 48 ГБ каждая. 192 ГБ VRAM в одной системе. Звучит как разгонный стенд для GPT-4, да? Китайские моддеры уже делают это. Но что стоит за этой историей — инженерный подвиг или маркетинговый трюк, который сожжет ваш дом?

Когда я прочитал первый отчет о перепайке памяти на RTX 4090 до 48 ГБ, подумал: "Ну, очередной развод для ютуб-хроников". Но потом наткнулся на ветку на Chiphell — там парень заменил 16 чипов GDDR6X 2 ГБ на 2 ГБ (оригинал) на 3 ГБ-модули Samsung. Результат: 48 ГБ на одной карте. Дальше — больше. Он собрал 4 таких карты в одну материнку.

Техническая авантюра: как из 4090 делают монстра

Главная проблема — совместимость. RTX 4090 изначально спроектирована под 24 ГБ (схема 32-bit на чип, 16 чипов). Замена на 3 ГБ-чипы (Samsung K4ZAF325BC-SC14) теоретически даёт 48 ГБ, но контроллер памяти AD102 поддерживает 12 чипов по 2 ГБ? Нет, он может адресовать и 3 ГБ, если биос переписан. Моддеры прошивают изменённый биос от RTX 6000 Ada — там 48 ГБ штатно. Но RTX 6000 стоит $6800, а 4090 — $1600. Разница мотивирует.

Параметр	Стоковая RTX 4090	Модифицированная 4090	RTX 6000 Ada
VRAM	24 ГБ	48 ГБ	48 ГБ
Шина памяти	384-bit	384-bit	384-bit
Пропускная способность	1008 ГБ/с	~1008 ГБ/с (те же частоты)	960 ГБ/с
TDP	450 Вт	450-500 Вт (мод биоса)	300 Вт
Цена (б/у)	$1400-1600	$1700-2000 (с модом)	$6000-7500

Сборка из 4 таких карт даёт 192 ГБ VRAM. Стоимость видеочасти: 4 × $1800 = $7200. Против одной RTX 6000 Ada за $6800 — разница копеечная, но производительность в 4 раза выше! (Если правильно развести по PCIe).

Подводные камни: охлаждение, биос, матплата

Первое. Охлаждение. 4 карты по 500 Вт — это 2 кВт тепла в комнате. Без кондиционера кожаный офис превращается в сауну. Моддеры ставят водоблоки (например, от Alphacool или Bykski) и собирают внешний контур с морозильником. Да, буквально: погружной насос, радиатор от автомобиля, антифриз.

Второе. Биос. Модифицированный биос RTX 6000 Ada неофициальный, его могут не принять новые драйверы. Каждое обновление — риск. Китайские магазины на Taobao уже продают "готовые" 4090 48 ГБ с гарантией 3 месяца. Но кто знает, что там внутри? (Спойлер: часто просто перемаркированные чипы с дефектами.)

Третье. PCIe-линки. На чипсетах Z790 или X670 при 4 картах получаем x8/x8/x4/x4 — узкое место для обмена данными. Альтернатива — платформа X299 с 44 линиями (процессоры Intel Core i9-10xxx). Это проверенный путь: о нём мы писали в статье "Собираем бюджетную 4-GPU ферму для LLM: материнская плата за 300 евро и 64GB RAM". Однако X299 не поддерживает PCIe 4.0 — только 3.0. Для инференса LLM это не критично, но снижает пропускную способность межкарточного обмена (NVLink отсутствует на 4090, так что всё через PCIe).

Важно: RTX 4090 не поддерживает NVLink в принципе. Для распределённого инференса через Tensor Parallel потребуется фреймворк вроде vLLM, который умеет общаться по PCIe напрямую. Но задержки выше, чем у NVLink на 3090. Возможно, 4 модифицированные 3090 с NVLink (48 ГБ каждая) — более умное решение. Об этом у нас есть материал "Собираем ПК для локальных LLM за копейки: 3× RTX 3090 и eGPU на 96 ГБ VRAM".

128 ГБ DDR5 — зачем?

В спецификации сборки фигурируют 128 ГБ DDR5. Звучит как оверкилл для LLM-инференса, ведь модель живёт в VRAM. Но есть нюанс: когда строишь 4-карточную систему, оперативка нужна для OS, системных процессов и буферизации данных (датасеты, кэш). Плюс некоторые фреймворки (ExLlamaV2, llama.cpp) умеют делать CPU offloading — если VRAM не хватило на полный контекст, часть слоёв падает в RAM. При 192 ГБ VRAM offloading вряд ли потребуется, но 128 ГБ — это разумный запас для будущих моделей.

Выбор платформы: Z790 или X299? Если брать современный процессор (Core i9-13900K / 14900K), то 128 ГБ DDR5 на двухканале — норма. Но для 4 GPU потребуется райзер-карта с PLX-чипом или матплата с 4 x16 слотами по 8 линий. ASUS ProArt Z790-CREATOR WIFI имеет 3 слота x16 (x8/x8/x4) — четвёртую карту уже не вставить нормально. Приходится идти на компромиссы.

Альтернатива для разумных

Пока энтузиасты паяют 48-гигабайтные 4090, остальные могут получить 192 ГБ VRAM гораздо проще — через унифицированную память Apple Silicon. MacBook Pro 16" на M4 Max с 64 ГБ единой памяти позволяет запускать 70B-модели в Q4 без модов и водянки. Да, TFLOPs ниже, но зато не надо перепаивать чипы.

Для тех, кто предпочитает проверенные железные решения: Apple MacBook Pro 16 2024 M4 Max — это "рабочая лошадка" для инференса LLM, которая не требует сварки и огнетушителя рядом.

Ещё один путь — четыре RTX 3090 с модификацией до 48 ГБ (есть моды на 3090 тоже, хотя сложнее). Они поддерживают NVLink, что даёт честную параллелизацию. Итог: 192 ГБ с NVLink — это уже серьёзная конкуренция H100 за $3000 на всю связку. Как мы обсуждали в реалити-чеке GPU, пропускная способность памяти важнее TFLOPS, а GDDR6X в 3090 — 936 ГБ/с — практически не уступает 4090.

Реальность: кто уже это сделал?

На Reddit (r/LocalLLaMA) есть пользователь u/llm_hardware_psycho, который выложил фото своей сборки 4× мод.4090 на китайской плате X99 с райзерами. Он утверждает, что запускает Qwen2.5-72B в Q4 (около 45 ГБ веса) и получает ~25 токенов/с. Модель живёт в VRAM двух карт, остальные две используются для параллельного батча. Утверждает, что всё работает стабильно при условии активного водяного охлаждения и дросселя на GPU core power limit 80%.

💡

Самый частый просчет новичков: они считают VRAM только для весов модели, забывая про кэш ключей-значений (KV cache). При длинном контексте эта память может превысить объем самих весов. Но есть хак: использовать сжатый кэш или flash attention. Подробнее — в статье "Сколько VRAM реально нужно для локальных LLM".

Итоговая картина: безумие или рациональный выбор?

Модификация 4090 до 48 ГБ — это хардкорный DIY для тех, кто не боится потерять карту и потратить месяц на отладку. Если бюджет позволяет купить 4 готовые 48-гигабайтные карты (например, от китайских сборщиков) — это может быть дешевле, чем одна A100 80 ГБ. Но риски пожара, гарантийный ад и проблемы с драйверами делают эту сборку экзотикой.

Прогноз: Через год появятся официальные карты с 48 ГБ в сегменте "prosumer" (RTX 5090? Слухи о 48 ГБ на 512-битной шине). Но пока — это удел смельчаков. Если вы хотите просто запускать LLM много памяти, смотрите в сторону MacBook Pro M4 Max или сборки на 4× RTX 3090 с NVLink. А если душа просит эксперимента — дерзайте. Только купите огнетушитель заранее.

Подписаться на канал

Экстремальная LLM-сборка: 4 модифицированных 4090 с 48 ГБ и 128 ГБ DDR5 — реальность или безумие?