Meta использует DDR4 через CXL 2.0 в серверах с DDR5: экономия на AI

Старая память зазвучала по-новому

Гиганты вроде Meta ежегодно тратят миллиарды на оперативную память для AI-кластеров. DDR5 дорожает (особенно модули большой ёмкости), а HBM вообще золотая. Параллельно на складах и в старых серверах пылятся тонны DDR4 — дешёвой, медленной, но вполне рабочей. Идея «скрестить» ужа с ежом витала в воздухе годами — но только сейчас Meta довела её до продакшена. И скрестили её через CXL 2.0.

Суть решения

В серверы с современными процессорами (Intel Xeon 6-го поколения «Granite Rapids» или AMD EPYC 9005), которые работают на быстрой DDR5, через слоты CXL 2.0 подключаются контроллеры памяти с DDR4. ОС видит гетерогенное пространство: горячие данные — на DDR5, холодные — на DDR4. Для AI-нагрузок это кэш, prefetch-буферы и редко используемые веса моделей.

Звучит как стопка книг на стуле, чтобы дотянуться до верхней полки. Но инженеры Meta утверждают: при правильном распределении страниц памяти падение производительности для инференса LLM составляет менее 5% — а экономия по TCO достигает 30-40%. Как они это провернули и стоит ли повторять остальным?

Гетерогенная память: не каша, а слоёный пирог

Ключевой трюк — использование CXL (Compute Express Link) версии 2.0. Это протокол, который позволяет процессору видеть память, подключённую через PCIe 5.0, как локальную. Раньше CXL использовался в основном для расширения памяти с помощью специальных модулей (типа Samsung CMM-D). Но Meta пошла дальше: они взяли старые серверные платы с DDR4, извлекли из них контроллеры памяти и превратили их в CXL-устройства.

⚠️

Осторожно: латентность DDR4 через CXL выше, чем у локальной DDR5 — ~150 нс против 80 нс. Для обучения модели с нуля это убийственно. Но для инференса и тонкой настройки (fine-tuning) разница незаметна, если CPU не в CPU-bound режиме.

Meta уже развернула тысяч таких серверов в своих дата-центрах. По данным внутреннего доклада на OCP Summit 2026, пилот на кластере из 1024 узлов показал, что для задач batch inference с size=8 разница в latency не превышает 3%. А стоимость памяти на узел упала с $12 000 до $7 200.

Что это значит для обычных AI-инженеров и энтузиастов?

Хотя технология пока нишевая (нужны поддерживающие CXL процессоры и специальные PCIe-карты), она задаёт тренд. Уже сейчас материнские платы для рабочих станций на базе Intel W790 и AMD WRX90 получают поддержку CXL 2.0. А значит, скоро можно будет докупить CXL-карту с DDR4 за $200 и добавить 256 ГБ дешёвой памяти к своему серверу для локальных LLM.

Сравните с другими способами экономии:

Метод	Экономия	Сложность	Применимость для локального AI
CXL + DDR4 (Meta)	30-40%	Высокая (нужен CXL)	Средняя (ждём consumer-карт)
Китайская DRAM от CXMT	20-30%	Низкая (готовые модули)	Высокая (уже на рынке)
SOCAMM2 (LPDDR5X)	Плотность выше, цена — ниже DDR5 RDIMM	Средняя (новый стандарт)	Пока только OEM
Использование CPU-only инференса (как в гайде по Minimax)	Бесплатно (если есть CPU)	Низкая	Высокая (но медленно)

Как видите, решение Meta — не единственное, но оно утилизирует то, что уже есть. А это огромные объёмы старых DDR4-модулей, которые иначе пошли бы на переработку.

Технические детали: как Meta это реализовала

В основе — собственная разработка Meta под названием «DDR4-in-CXL Bridge» (название неофициальное). Это PCIe-карта форм-фактора FHHL, на которой распаяны 8 слотов DDR4 RDIMM и контроллер, конвертирующий протокол DDR4 в CXL.mem. Карта использует четыре линии PCIe 5.0 (x4), что даёт теоретическую пропускную способность ~8 GB/s — достаточно, чтобы кормить CPU данными для инференса.

Карта управляется через стандартный драйвер CXL в Linux (начиная с ядра 6.8). Meta использует свою модифицированную версию cxl-cli для тонкой настройки приоритетов доступа. DDR4-память маркируется как «ZONE_MOVABLE», и ядро сначала пытается разместить страницы на DDR5, а при переполнении сбрасывает холодные данные на DDR4.

В сервере Prometheus с 128 ТБ памяти похожий принцип — смесь быстрой и медленной памяти. Только там используется HBM2e как L1, DDR5 как L2 и Intel Optane как L3. У Meta — DDR4 выступает в роли Optane, но без дорогих 3D XPoint.

Экономика: считаем деньги

Цены на DDR5 RDIMM 64 ГБ модули к середине 2026 года колеблются около $250-300. DDR4 RDIMM 64 ГБ b-ранга (использованные, refurbished) можно купить за $60-80. Даже с учётом стоимости CXL-контроллера (~$150 на карту на 256 ГБ) экономия на каждый гигабайт составляет примерно 2,5-3 раза.

Для кластера из 1000 серверов, каждый с 512 ГБ DDR5 + 512 ГБ DDR4 через CXL, экономия памяти составляет 50% от стоимости DDR5-части, то есть около $75 000 на узел. В масштабе Meta — сотни миллионов долларов в год.

💡

Одно из главных ноу-хау Meta — использование специального алгоритма анализа страниц памяти, который предсказывает, какие данные будут востребованы в ближайшее время. Он основан на профилировании вызовов Transformer layer. Это позволило снизить количество страниц, случайно попавших на медленную DDR4, с 12% до 1,5%.

Не всё так гладко: подводные камни

Энергопотребление: CXL-контроллер и DDR4 RDIMM потребляют больше энергии на гигабайт, чем один большой модуль DDR5 (DDR4 — ~5 Вт на 64 ГБ против 3,5 Вт у DDR5). В масштабе кластера это даёт +5% к охлаждению.
Ограничение по максимальному объёму: из-за лимитов адресации CXL 2.0 на один корень можно подключить не более 2 ТБ памяти. Для особо жирных узлов (как в Prometheus) придётся использовать несколько CXL-мостов.
Совместимость ПО: не все AI-фреймворки корректно работают с виртуальной памятью. Например, старые версии PyTorch (до 2.4) при нехватке памяти падают, а не отгружают страницы на DDR4. Meta форкнула PyTorch и добавила поддержку гетерогенного аллокатора.

Несмотря на эти минусы, подход Meta доказывает: AI-инфраструктура может быть не «самой быстрой», а «самой дешёвой на терабайт». И это меняет правила игры.

Что дальше? Прогноз на полгода

Если Meta откроет спецификацию своей CXL-карты (а это вероятно, учитывая их политику Open Compute Project), в 2026-2027 годах появится вторая волна стартапов, штампующих CXL-контроллеры для DDR4. Мы уже писали, что бум цен на RAM заканчивается — и CXL с реюзами ускорит этот процесс.

Для домашних AI-энтузиастов советую приглядеться к поддержке CLL на материнских платах Asus Pro WS WRX90 и Supermicro H13SSW. Если вы собирали сервер по гайду на Dell T7910 со старыми модулями — возможно, скоро появится возможность докупить PCIe-карту и добавить ещё 256 ГБ DDR4. Это даст шанс запускать современные LLM на старом железе с минимальными затратами.

Но помните: CXL — не панацея. Для обучения с нуля или работы с очень чувствительными к задержкам приложениями (реал-тайм генерация, стриминг токенов) лучше не экономить. А вот для пакетного инференса, RAG-систем и кэшей — самое то. Не выбрасывайте старые регистровые модули. Meta уже показала, что DDR4 может быть полезна даже в мире DDR5.

Подписаться на канал

Meta реанимирует DDR4: как CXL 2.0 превращает старую память в золото для AI-инфраструктуры