Почему мы вообще заговорили о паяльнике и видеокартах?

Помните тот момент, когда вы впервые попробовали запустить Llama 3 70B на своей RTX 4090? Сначала оптимизм — «24 гига должно хватить». Потом недоумение — «почему вылетает?» И наконец, ярость — когда понимаешь, что даже с Q4_K_M модель требует больше, чем есть.

Профессиональная карта с 48GB стоит как хороший подержанный автомобиль. Покупать две RTX 4090 — это отдельная история с энергопотреблением, тепловыделением и драйверными танцами. А сообщество тем временем открыло для себя китайских умельцев, которые за умеренные деньги превращают 24GB в 48GB.

Самый болезненный парадокс: на плате RTX 4090 физически есть места под 24 чипа памяти. NVIDIA установила только 12. Остальные позиции просто пустуют — как заблокированные функции в софте за дополнительную плату.

Что на самом деле продают на Alibaba и eBay

Заходите на Alibaba, вводите «RTX 4090 48GB». Вам покажут десятки предложений от $1200 до $2500. Разброс цен не случайный — он отражает разную степень «кошерности» модификации.

Тип модификации	Что делают	Риски	Ценовой диапазон
Полный ребаллинг	Снимают старые чипы, ставят новые 2GB модули вместо 1GB	Высокие — могут повредить плату при демонтаже	$1800-2500
Добавление чипов	Припаивают чипы на пустые места, не трогая существующие	Средние — проблемы с BIOS и питанием	$1400-1900
«Программный» апгрейд	Просто перепрошивают BIOS, обещая больше памяти	Максимальные — чистый развод	$800-1200

На eBay ситуация интереснее. Там появляются карты, которые уже прошли обкатку у первых покупателей. Цены выше, но зато можно найти отзывы реальных пользователей. Особенно ценятся модификации от известных китайских мастерских — у них есть свои нишевые «бренды» вроде «MLLM-Tech» или «AI-Modder».

Самая частая афера: продают обычную RTX 4090 с перепрошитым BIOS, который показывает 48GB в системе. Память при этом физически остаётся 24GB. При нагрузке система либо вылетает, либо использует медленную системную память через PCIe. Проверить просто — запустите тест на полную загрузку VRAM.

Техническая кухня: что ломается первым

Допустим, вы купили настоящую модифицированную карту с физически добавленной памятью. Что может пойти не так? Практически всё.

Контроллер памяти — узкое горлышко

Чип AD102 в RTX 4090 имеет 384-битный контроллер памяти. В стоке используются 12 каналов по 32 бита. При добавлении ещё 12 чипов активируются все 24 канала. В теории контроллер рассчитан на это. На практике — никто не проверял, как он поведёт себя после 1000 часов работы под нагрузкой LLM.

Питание — тихий убийца

Каждый чип памяти GDDR6X потребляет около 1.5-2W под нагрузкой. Добавляем 12 чипов — получаем +18-24W дополнительной нагрузки на цепи питания. Проектировщики платы не рассчитывали её на такую нагрузку. Результат — перегрев MOSFET, деградация, внезапная смерть через 3-6 месяцев.

Система охлаждения — второстепенная проблема

Большинство модификаторов просто ставят дополнительные термопрокладки на новые чипы. Но штатная задняя пластина не рассчитана на отвод тепла от 24 чипов вместо 12. Температура памяти в нагрузке может быть на 15-20°C выше, чем у стоковой карты.

💡

Проверяйте температуру памяти в HWiNFO64. Если в простое она выше 60°C, а под нагрузкой за 90°C — готовьтесь к скорому ремонту. Нормальные значения: 40-50°C в простое, 70-80°C под полной нагрузкой.

Производительность: ожидание vs реальность

Вот что все хотят знать: «Насколько быстрее будут работать мои LLM?» Ответ разочарует тех, кто ждёт чуда.

Дополнительная память не ускоряет вычисления. Она просто позволяет загружать более крупные модели или работать с бо́льшим контекстом. Если вы раньше запускали Llama 3 70B в Q4, а теперь можете запустить в Q8 — да, качество ответов улучшится. Но tokens/second останутся примерно теми же.

Есть один интересный эффект: при использовании CPU offloading с модифицированной картой вы можете загружать на GPU больше слоёв модели. Это даёт реальный прирост скорости — иногда в 2-3 раза, если раньше у вас было 20 слоёв на GPU, а теперь помещаются все 80.

Реальные цифры из тестов

Llama 3 70B Q4_K_M: было 24 слоя на GPU + остальное на CPU = 4.5 t/s. Стало все слои на GPU = 18-22 t/s
Контекст 32K токенов: раньше вылетало при 24K, теперь работает стабильно
Две модели одновременно: эмбеддер + LLM для RAG — теперь помещаются без компромиссов

Где искать и как проверять

Если вы всё ещё хотите рискнуть, вот пошаговая инструкция по покупке.

1 Выбор площадки

Alibaba.com — основной источник. Ищите продавцов с историей от 2 лет, проверенными транзакциями. Обращайте внимание на тех, кто специализируется именно на модификации GPU, а не продаёт всё подряд.

2 Вопросы продавцу

Какие именно чипы памяти используются? (Micron D8BWW или аналоги)
Проводился ли стресс-тест памяти на 48GB в течение 24 часов?
Есть ли модификации в системе охлаждения?
Предоставляется ли какая-либо гарантия?
Можно ли увидеть фото платы до и после модификации?

3 Тестирование при получении

Не подписывайте акт приёмки, пока не проверите:

# Проверка объёма памяти
nvidia-smi

# Стресс-тест памяти
sudo apt install stress-ng
stress-ng --vm 48 --vm-bytes 1G --timeout 300

# Проверка на артефакты в графике
glmark2

Никогда не оплачивайте карту до получения! Используйте систему гарантий Alibaba или eBay. Если продавец настаивает на предоплате через Western Union — это 100% мошенник.

А что с RTX 5090 и 96GB?

Слухи о модифицированных RTX 5090 с 96GB уже ходят по китайским форумам. Технически это возможно — на плате Blackwell тоже есть резервные места под память. Но здесь риски ещё выше:

Стоимость карты $2500-3000 + модификация $800-1200
Нет никаких гарантий, что контроллер памяти GB202 рассчитан на такую нагрузку
Проблемы с драйверами — NVIDIA может заблокировать нестандартные конфигурации
Полное отсутствие гарантии от производителя

Если очень хочется 96GB VRAM, посмотрите в сторону связки из нескольких RTX 3090. Да, это сложнее в настройке, но хотя бы предсказуемо.

Стоит ли оно того? Мой вердикт

После тестирования трёх разных модифицированных карт от разных продавцов я составил чеклист «когда стоит рискнуть»:

Вы профессионально работаете с LLM и 48GB даст вам реальное конкурентное преимущество
У вас есть запасная карта на случай, если модифицированная умрёт через полгода
Вы готовы потратить $1500-2000 с пониманием, что это может быть выброшенными деньгами
Вам действительно нужны большие модели или длинный контекст, а не просто «хочу больше цифр»

Для 90% пользователей локальных LLM модификация не нужна. Современные оптимизации и квантование позволяют запускать 70B модели на 16-20GB VRAM с приемлемой скоростью. Прежде чем лезть в паяльные дела, попробуйте выжать максимум из того, что есть.

Самый неочевидный совет: вместо модификации RTX 4090 подумайте о покупке двух бывших в употреблении RTX 3090. 48GB VRAM, разделённые между двумя картами, часто оказываются полезнее, чем 48GB на одной. Да, нужно разбираться с multi-GPU, но зато есть резервирование — если одна карта умрёт, вторая продолжит работать.

Что будет дальше с этим рынком

Китайские модификаторы не стоят на месте. Уже появляются услуги по замене чипов памяти на более быстрые (с 21 Gbps на 24 Gbps), добавлению дополнительных фаз питания, кастомным системам охлаждения.

Но главный тренд — появление специализированных карт для AI от самих модификаторов. Не RTX 4090 с допилкой, а полностью свои разработки на чипах NVIDIA с максимальным количеством памяти и упрощённой графической обвязкой. Цена будет сопоставима с профессиональными решениями, но производительность для LLM — выше.

Мой прогноз: через год-два мы увидим полноценный чёрный рынок GPU, оптимизированных исключительно для машинного обучения. NVIDIA будет бороться с этим через драйверы и прошивки, сообщество — находить обходные пути. А обычные пользователи будут мучительно выбирать между надёжностью и объёмом памяти.

Пока что — если решились на модификацию, делайте полный бэкап системы перед установкой карты. И держите под рукой огнетушитель. Шучу. Но не совсем.

Модифицированные GPU под локальные LLM: когда апгрейд памяти становится экстремальным спортом