Проблема, которая сводит с ума: 24GB — это смешно
Вы покупаете RTX 4090 за две тысячи долларов. Мощнейший потребительский GPU на планете. Запускаете Llama 3 70B и... упс. Вам предлагают выбрать между 4-битным квантованием (прощай, качество) и облачным инференсом (прощай, приватность). 24 гигабайта VRAM в 2025 году — это как суперкар с бензобаком от мопеда. Вы можете разогнаться до 300 км/ч, но через 50 километров будете стоять у обочины.
Профессиональная RTX Pro 6000 с её 48GB стоит как подержанная Toyota. Две RTX 3090 с NVLink — это отдельная история с драмой совместимости, энергопотреблением и драйверами. Сообщество локальных LLM застряло в ловушке: либо безумные деньги, либо компромиссы, которые сводят на нет смысл локального запуска.
Вот что бесит больше всего: на плате RTX 4090 физически есть места для 24 чипов памяти GDDR6X. NVIDIA установила только 12. Остальные 12 позиций пустуют. Это как купить телефон с двумя слотами для SIM, но один из них заблокирован производителем.
Решение GamersNexus: когда журналисты становятся инженерами
Команда GamersNexus — те самые парни, которые обычно разбирают видеокарты, чтобы показать плохой термоинтерфейс. На этот раз они пошли дальше. Их гипотеза была проста: если на плате есть места под память, почему бы не припаять недостающие чипы?
Технически это выглядело так:
- Купить 12 чипов памяти Micron GDDR6X с той же спецификацией (24 Gbps)
- Аккуратно демонтировать систему охлаждения и заднюю пластину
- Используя профессиональный паяльный станок BGA, установить чипы на пустые позиции
- Перепрошить BIOS видеокарты, чтобы она увидела всю память
- Молиться, чтобы контроллер памяти и шина питания справились с нагрузкой
Что это даёт на практике? Цифры, а не маркетинг
После успешной модификации (да, у них получилось с первого раза) карта определилась как RTX 4090 с 48GB GDDR6X. Но интереснее не факт, а последствия.
| Сценарий | RTX 4090 24GB | RTX 4090 48GB (мод) | Что это значит |
|---|---|---|---|
| Llama 3 70B (FP16) | Не запускается (требуется ~40GB) | Запускается, ~12 токенов/с | Полноценная модель без квантования |
| Mixtral 8x22B (4-бит) | ~18 токенов/с, контекст 8K | ~22 токенов/с, контекст 32K+ | Больший контекст = более связные ответы |
| Обучение LoRA 13B | Batch size 2, частые OOM | Batch size 8, стабильно | Ускорение обучения в 3-4 раза |
| Запуск двух моделей | Невозможно | Llama 3 13B + CodeLlama 34B одновременно | Мультизадачность без перезагрузки |
Самое важное — пропускная способность. 24 чипа памяти работают на той же частоте 21 Gbps, но через 384-битную шину вместо 192-битной. Теоретическая пропускная способность вырастает с 1 TB/s до 2 TB/s. На практике для LLM это означает, что веса модели загружаются быстрее, а обмен данными между слоями идёт без задержек.
Почему NVIDIA не сделала этого сразу? Неочевидные причины
Все кричат о сегментации рынка. Мол, NVIDIA искусственно ограничивает потребительские карты, чтобы продавать профессиональные. Это правда, но не вся.
- Потребление энергии: 24 чипа GDDR6X потребляют на 40-60W больше. Система питания на стоковой карте не рассчитана на такую нагрузку. GamersNexus пришлось модифицировать и её.
- Тепловыделение: Память греется. 12 дополнительных чипов — это +30°C к температуре памяти. Без доработки системы охлаждения карта бы троттлила через 5 минут.
- Выход годных: Не каждый чип AD102 может стабильно работать с 24 каналами памяти. NVIDIA отбирает лучшие кристаллы для профессиональных карт, остальные идут в 4090.
- Стоимость: 12 чипов памяти + дополнительные компоненты питания = +$200-300 к себестоимости. При цене $1599 это было бы слишком даже для NVIDIA.
Инсайдерский момент: в NVIDIA знали, что энтузиасты попробуют этот мод. Контроллер памяти в AD102 имеет фьюзы, которые теоретически могут блокировать дополнительные каналы. В картах GamersNexus эти фьюзы оказались не запрограммированы. В следующих ревизиях чипа это могут исправить.
Стоит ли повторять? Жёсткая правда
Если вы думаете: «Куплю паяльную станцию за $500 и сделаю как они», остановитесь. Сейчас объясню почему.
1Это не для новичков
BGA-пайка 12 чипов с шагом 0.8 мм — это уровень микрохирургии. Один перегрев — и вы плавите припой под соседним чипом. Одно смещение на миллиметр — и вы замыкаете десятки контактов. GamersNexus делали это на оборудовании стоимостью $15,000 с 10-летним опытом.
2Проблема с BIOS
Стоковый BIOS не видит больше 24GB. Вам нужен модифицированный BIOS, который:
- Активирует все 24 канала памяти
- Настраивает тайминги для 24 чипов (это не просто ×2)
- Корректирует управление питанием
- Не ломает проверку подписи при загрузке
Готовых прошивок в открытом доступе нет. GamersNexus не выложили свою.
3Гарантия? Какая гарантия?
Вы физически вскрываете карту, паяете на неё компоненты, меняете систему питания. NVIDIA аннулирует гарантию даже за замену термопасты. Здесь речь идёт о полном лишении гарантии и возможности продать карту в будущем.
4Альтернативы дешевле и безопаснее
Вместо того чтобы рисковать $1600 картой, рассмотрите:
- Две RTX 3090 с NVLink — 48GB за $1800-2000 на вторичном рынке
- Три RTX 3090 без NVLink — 72GB за $2700, но с головной болью распределения
- Ожидание RTX 5090 — слухи обедают 32GB GDDR7, что решит большинство проблем
Что это значит для рынка? Последствия хака
GamersNexus не просто припаяли память. Они показали, что аппаратные ограничения часто — маркетинг, а не техническая необходимость.
1. Сообщество локальных LLM получило proof of concept. Теперь мы точно знаем: 48GB на потребительской карте возможны. Это аргумент в спорах с NVIDIA.
2. Появится подпольный рынок модификаций. В Китае уже есть сервисы, которые предлагают апгрейд 4090 до 48GB за $500-700. Качество — лотерея.
3. NVIDIA ответит. Либо выпуском 4090 Ti с большей памятью (маловероятно), либо аппаратной блокировкой в следующих чипах. Или поднимут цены на профессиональные карты.
4. AMD и Intel присмотрятся. Если потребители готовы платить за больше VRAM, конкуренты могут сделать это своей фичей. RX 8900 XTX с 32GB? Вполне.
Самый интересный эффект: этот хак ускорит переход на новые форматы памяти. GDDR7 и HBM4 предлагают большую плотность. NVIDIA теперь знает — 24GB для флагмана 2025 года недостаточно. Ждите 32-48GB в RTX 5090.
Финальный вердикт: кому это нужно на самом деле?
Если вы исследователь, который неделями ждёт очереди на кластере — возможно, стоит рискнуть. 48GB позволяют работать с моделями 70B+ в FP16, что критично для точных научных расчётов.
Если вы разработчик, который тестирует разные архитектуры — две RTX 3090 будут надёжнее. Даже если одна сломается, у вас останется рабочая карта.
Если вы просто хотите запускать локальные LLM для дома — подождите. 4-битные квантованные версии 70B моделей работают на 24GB и дают 90% качества. Разница не стоит $1600 карты + $500 мода + риска.
Главный урок от GamersNexus: аппаратные ограничения часто мягче, чем кажется. Но ломать их должны те, кто понимает, во что ввязывается. Остальным стоит посмотреть сравнение с профессиональными картами и подождать следующего поколения железа.
Потому что иногда лучшее решение — не паять, а подождать, пока производители сами решат проблему, которую только что публично доказали решаемой.