Старая память зазвучала по-новому
Гиганты вроде Meta ежегодно тратят миллиарды на оперативную память для AI-кластеров. DDR5 дорожает (особенно модули большой ёмкости), а HBM вообще золотая. Параллельно на складах и в старых серверах пылятся тонны DDR4 — дешёвой, медленной, но вполне рабочей. Идея «скрестить» ужа с ежом витала в воздухе годами — но только сейчас Meta довела её до продакшена. И скрестили её через CXL 2.0.
Суть решения
В серверы с современными процессорами (Intel Xeon 6-го поколения «Granite Rapids» или AMD EPYC 9005), которые работают на быстрой DDR5, через слоты CXL 2.0 подключаются контроллеры памяти с DDR4. ОС видит гетерогенное пространство: горячие данные — на DDR5, холодные — на DDR4. Для AI-нагрузок это кэш, prefetch-буферы и редко используемые веса моделей.
Звучит как стопка книг на стуле, чтобы дотянуться до верхней полки. Но инженеры Meta утверждают: при правильном распределении страниц памяти падение производительности для инференса LLM составляет менее 5% — а экономия по TCO достигает 30-40%. Как они это провернули и стоит ли повторять остальным?
Гетерогенная память: не каша, а слоёный пирог
Ключевой трюк — использование CXL (Compute Express Link) версии 2.0. Это протокол, который позволяет процессору видеть память, подключённую через PCIe 5.0, как локальную. Раньше CXL использовался в основном для расширения памяти с помощью специальных модулей (типа Samsung CMM-D). Но Meta пошла дальше: они взяли старые серверные платы с DDR4, извлекли из них контроллеры памяти и превратили их в CXL-устройства.
Meta уже развернула тысяч таких серверов в своих дата-центрах. По данным внутреннего доклада на OCP Summit 2026, пилот на кластере из 1024 узлов показал, что для задач batch inference с size=8 разница в latency не превышает 3%. А стоимость памяти на узел упала с $12 000 до $7 200.
Что это значит для обычных AI-инженеров и энтузиастов?
Хотя технология пока нишевая (нужны поддерживающие CXL процессоры и специальные PCIe-карты), она задаёт тренд. Уже сейчас материнские платы для рабочих станций на базе Intel W790 и AMD WRX90 получают поддержку CXL 2.0. А значит, скоро можно будет докупить CXL-карту с DDR4 за $200 и добавить 256 ГБ дешёвой памяти к своему серверу для локальных LLM.
Сравните с другими способами экономии:
| Метод | Экономия | Сложность | Применимость для локального AI |
|---|---|---|---|
| CXL + DDR4 (Meta) | 30-40% | Высокая (нужен CXL) | Средняя (ждём consumer-карт) |
| Китайская DRAM от CXMT | 20-30% | Низкая (готовые модули) | Высокая (уже на рынке) |
| SOCAMM2 (LPDDR5X) | Плотность выше, цена — ниже DDR5 RDIMM | Средняя (новый стандарт) | Пока только OEM |
| Использование CPU-only инференса (как в гайде по Minimax) | Бесплатно (если есть CPU) | Низкая | Высокая (но медленно) |
Как видите, решение Meta — не единственное, но оно утилизирует то, что уже есть. А это огромные объёмы старых DDR4-модулей, которые иначе пошли бы на переработку.
Технические детали: как Meta это реализовала
В основе — собственная разработка Meta под названием «DDR4-in-CXL Bridge» (название неофициальное). Это PCIe-карта форм-фактора FHHL, на которой распаяны 8 слотов DDR4 RDIMM и контроллер, конвертирующий протокол DDR4 в CXL.mem. Карта использует четыре линии PCIe 5.0 (x4), что даёт теоретическую пропускную способность ~8 GB/s — достаточно, чтобы кормить CPU данными для инференса.
Карта управляется через стандартный драйвер CXL в Linux (начиная с ядра 6.8). Meta использует свою модифицированную версию cxl-cli для тонкой настройки приоритетов доступа. DDR4-память маркируется как «ZONE_MOVABLE», и ядро сначала пытается разместить страницы на DDR5, а при переполнении сбрасывает холодные данные на DDR4.
В сервере Prometheus с 128 ТБ памяти похожий принцип — смесь быстрой и медленной памяти. Только там используется HBM2e как L1, DDR5 как L2 и Intel Optane как L3. У Meta — DDR4 выступает в роли Optane, но без дорогих 3D XPoint.
Экономика: считаем деньги
Цены на DDR5 RDIMM 64 ГБ модули к середине 2026 года колеблются около $250-300. DDR4 RDIMM 64 ГБ b-ранга (использованные, refurbished) можно купить за $60-80. Даже с учётом стоимости CXL-контроллера (~$150 на карту на 256 ГБ) экономия на каждый гигабайт составляет примерно 2,5-3 раза.
Для кластера из 1000 серверов, каждый с 512 ГБ DDR5 + 512 ГБ DDR4 через CXL, экономия памяти составляет 50% от стоимости DDR5-части, то есть около $75 000 на узел. В масштабе Meta — сотни миллионов долларов в год.
Не всё так гладко: подводные камни
- Энергопотребление: CXL-контроллер и DDR4 RDIMM потребляют больше энергии на гигабайт, чем один большой модуль DDR5 (DDR4 — ~5 Вт на 64 ГБ против 3,5 Вт у DDR5). В масштабе кластера это даёт +5% к охлаждению.
- Ограничение по максимальному объёму: из-за лимитов адресации CXL 2.0 на один корень можно подключить не более 2 ТБ памяти. Для особо жирных узлов (как в Prometheus) придётся использовать несколько CXL-мостов.
- Совместимость ПО: не все AI-фреймворки корректно работают с виртуальной памятью. Например, старые версии PyTorch (до 2.4) при нехватке памяти падают, а не отгружают страницы на DDR4. Meta форкнула PyTorch и добавила поддержку гетерогенного аллокатора.
Несмотря на эти минусы, подход Meta доказывает: AI-инфраструктура может быть не «самой быстрой», а «самой дешёвой на терабайт». И это меняет правила игры.
Что дальше? Прогноз на полгода
Если Meta откроет спецификацию своей CXL-карты (а это вероятно, учитывая их политику Open Compute Project), в 2026-2027 годах появится вторая волна стартапов, штампующих CXL-контроллеры для DDR4. Мы уже писали, что бум цен на RAM заканчивается — и CXL с реюзами ускорит этот процесс.
Для домашних AI-энтузиастов советую приглядеться к поддержке CLL на материнских платах Asus Pro WS WRX90 и Supermicro H13SSW. Если вы собирали сервер по гайду на Dell T7910 со старыми модулями — возможно, скоро появится возможность докупить PCIe-карту и добавить ещё 256 ГБ DDR4. Это даст шанс запускать современные LLM на старом железе с минимальными затратами.
Но помните: CXL — не панацея. Для обучения с нуля или работы с очень чувствительными к задержкам приложениями (реал-тайм генерация, стриминг токенов) лучше не экономить. А вот для пакетного инференса, RAG-систем и кэшей — самое то. Не выбрасывайте старые регистровые модули. Meta уже показала, что DDR4 может быть полезна даже в мире DDR5.