128 ТБ памяти для LLM: Prometheus против NVIDIA DGX

Пока все боролись с «тихой смертью» KV-кэша, Majestic Labs зашла с другого фланга

Вы замечали, что большие языковые модели тормозят не из-за нехватки FLOPS? На практике узким горлом давно стала память. Даже самые навороченные ускорители вроде NVIDIA DGX упираются в объем и пропускную способность HBM, а попытки выкрутиться вроде SyDecode лишь отодвигают проблему, но не решают её в корне. И вот на сцену выходит Prometheus — сервер, который в лоб заявляет: 128 терабайт DRAM, и плевать на HBM.

💡

Prometheus от Majestic Labs — не просто очередной сервер. Это первая коммерческая машина, способная загрузить в оперативную память весь Llama 4 (1.2T) без шардинга. Только представьте: ни одного разбиения на GPU, никаких хитростей с KV-кэшем, вся модель целиком доступна в едином адресном пространстве.

Как проклятие HBM обернули в 128 ТБ дешёвой DRAM

Секрет Prometheus — гигантское количество слотов под DDR5, соединённых через стеклянную подложку и межсоединения на базе CXL 3.2. Вместо того чтобы бороться за каждую единицу HBM (дефицит которого мы описывали в «AI задыхается: HBM-память на грани»), инженеры Majestic Labs взяли обычные 32-гигабайтные модули — 4000 штук. Да, частота ниже (~4.8 ГТ/с вместо 9+ ГТ/с у HBM3e), но объём перекрывает всё. Полоса пропускания по CXL достигает 2.3 ТБ/с — это не чета HBM-стекам, но достаточно для инференса в реальном времени.

Сравните с NVIDIA DGX Station 2026, где максимальная память — 2 ТБ HBM3e. Prometheus даёт в 64 раза больше — и это не опечатка.

Сравнение: Prometheus против DGX — бой с тенью?

Параметр	NVIDIA DGX (B300, 2026)	Majestic Prometheus
Объём памяти	2 ТБ HBM3e (8x GPU)	128 ТБ DDR5
Пропускная способность	~24 ТБ/с (суммарная)	~2.3 ТБ/с
Цена на 1 ГБ	~$15 (HBM)	~$2 (DRAM)
Типичное use-case	Тренировка + инференс	Инференс гигантских моделей

Важный нюанс: для тренировки модели Prometheus бесполезен — у него нет мощных GPU-ядер. Но для инференса, особенно batch size = 1 (чат, ассистенты), он может оказаться быстрее, чем любой DGX, потому что вся модель уже в памяти — никаких перекачек через PCIe.

Кому это нужно и почему не замена DGX?

Возможно, вы помните историю DGX Spark, который оказался «перекрашенным игровым чипом». С Prometheus обратная ситуация — честный сервер, который не пытается быть универсальным. Его задача — держать в памяти 128 ТБ и отдавать их с задержкой ~100 нс. Это идеально подходит для задач, где модель огромна, а инференс идёт последовательно:

Полноценные диалоговые ассистенты на моделях 1T+ параметров;
Кодогенерация с контекстом 1 млн токенов;
Ранжирование и ретрив-архитектуры вроде RAG на базе всей энциклопедии человечества.

Но подождите — а не изобрёл ли Intel колесо?

Ранее мы писали про Intel Crescent Island, которая обходила дефицит HBM через 160 ГБ LPDDR5X. Prometheus идёт тем же путём, но в масштабе, близком к абсолютному. Однако возникает вопрос: как быстро работает инференс при пропускной способности ~2.3 ТБ/с? Для Llama 4 (1.2T параметров) в FP8 потребуется ~300 ГБ памяти (с моделью и KV-кэшем). Пропускная способность 2.3 ТБ/с даёт максимальную скорость ~7-8 токенов в секунду — и это без учёта накладных расходов на внимание. Неплохо для чата, но для пакетной обработки данных — медленно. Но Majestic Labs обещают апгрейд до DDR5-9600 и CXL 4.0 к концу 2026 года, что поднимет пропускную способность до ~4.6 ТБ/с.

Что это значит для энтузиастов и дата-центров?

Прямо сейчас выбор между Prometheus и DGX — это выбор между объёмом и скоростью. Если вам нужно запихнуть модель целиком и не ждать несколько часов загрузки с NVMe — Prometheus ваш союзник. Если вы гонитесь за низкой задержкой (менее 50 мс на токен) — берите DGX или связку из 8 H200. Но есть и третий путь: комбинация Prometheus с быстрым ускорителем. Например, с ядром SyDecode, которое уже показало 40-кратное ускорение внимания и снижение потребления VRAM на 90%. На Prometheus такое ядро будет работать ещё эффективнее, потому что пропускная способность не будет узким местом (да, ирония: на медленной DRAM SyDecode вытаскивает ещё больше преимущества за счёт уменьшения объёмов пересылок).

Кстати, на фоне китайской DRAM от CXMT, которая появляется в модулях Corsair, цена на память падает — и Prometheus может стать не дороже, а доступнее DGX.

Прогноз: будет ли бенчмарк, который поставит точку?

Majestic Labs обещает поставки первых экземпляров в июле 2026 года. Пока это только тизеры и «дорожная карта». NVIDIA молчит — им нечего противопоставить по объёму, но есть многолетний софтовый стек и CUDA. Как поведёт себя Prometheus с неоптимизированными фреймворками, мы узнаем из первых обзоров. Не спешите заказывать сервер, пока не выйдут тесты в реальных сценариях. А пока — присмотритесь к оптимизациям вроде SyDecode: они работают уже сегодня и дают прирост без покупки новых железок.

Лично я поставлю на то, что через год все будут говорить не «DGX vs Prometheus», а «как связка Prometheus + SyDecode изменила инференс LLM». Стену памяти пробивают не молотком, а набором отмычек. Похоже, одна из отмычек уже готова.

Подписаться на канал

128 ТБ памяти для LLM: новый AI-сервер Prometheus обещает прорвать «стену памяти» и превзойти NVIDIA DGX