Пока все боролись с «тихой смертью» KV-кэша, Majestic Labs зашла с другого фланга
Вы замечали, что большие языковые модели тормозят не из-за нехватки FLOPS? На практике узким горлом давно стала память. Даже самые навороченные ускорители вроде NVIDIA DGX упираются в объем и пропускную способность HBM, а попытки выкрутиться вроде SyDecode лишь отодвигают проблему, но не решают её в корне. И вот на сцену выходит Prometheus — сервер, который в лоб заявляет: 128 терабайт DRAM, и плевать на HBM.
Как проклятие HBM обернули в 128 ТБ дешёвой DRAM
Секрет Prometheus — гигантское количество слотов под DDR5, соединённых через стеклянную подложку и межсоединения на базе CXL 3.2. Вместо того чтобы бороться за каждую единицу HBM (дефицит которого мы описывали в «AI задыхается: HBM-память на грани»), инженеры Majestic Labs взяли обычные 32-гигабайтные модули — 4000 штук. Да, частота ниже (~4.8 ГТ/с вместо 9+ ГТ/с у HBM3e), но объём перекрывает всё. Полоса пропускания по CXL достигает 2.3 ТБ/с — это не чета HBM-стекам, но достаточно для инференса в реальном времени.
Сравните с NVIDIA DGX Station 2026, где максимальная память — 2 ТБ HBM3e. Prometheus даёт в 64 раза больше — и это не опечатка.
Сравнение: Prometheus против DGX — бой с тенью?
| Параметр | NVIDIA DGX (B300, 2026) | Majestic Prometheus |
|---|---|---|
| Объём памяти | 2 ТБ HBM3e (8x GPU) | 128 ТБ DDR5 |
| Пропускная способность | ~24 ТБ/с (суммарная) | ~2.3 ТБ/с |
| Цена на 1 ГБ | ~$15 (HBM) | ~$2 (DRAM) |
| Типичное use-case | Тренировка + инференс | Инференс гигантских моделей |
Важный нюанс: для тренировки модели Prometheus бесполезен — у него нет мощных GPU-ядер. Но для инференса, особенно batch size = 1 (чат, ассистенты), он может оказаться быстрее, чем любой DGX, потому что вся модель уже в памяти — никаких перекачек через PCIe.
Кому это нужно и почему не замена DGX?
Возможно, вы помните историю DGX Spark, который оказался «перекрашенным игровым чипом». С Prometheus обратная ситуация — честный сервер, который не пытается быть универсальным. Его задача — держать в памяти 128 ТБ и отдавать их с задержкой ~100 нс. Это идеально подходит для задач, где модель огромна, а инференс идёт последовательно:
- Полноценные диалоговые ассистенты на моделях 1T+ параметров;
- Кодогенерация с контекстом 1 млн токенов;
- Ранжирование и ретрив-архитектуры вроде RAG на базе всей энциклопедии человечества.
Но подождите — а не изобрёл ли Intel колесо?
Ранее мы писали про Intel Crescent Island, которая обходила дефицит HBM через 160 ГБ LPDDR5X. Prometheus идёт тем же путём, но в масштабе, близком к абсолютному. Однако возникает вопрос: как быстро работает инференс при пропускной способности ~2.3 ТБ/с? Для Llama 4 (1.2T параметров) в FP8 потребуется ~300 ГБ памяти (с моделью и KV-кэшем). Пропускная способность 2.3 ТБ/с даёт максимальную скорость ~7-8 токенов в секунду — и это без учёта накладных расходов на внимание. Неплохо для чата, но для пакетной обработки данных — медленно. Но Majestic Labs обещают апгрейд до DDR5-9600 и CXL 4.0 к концу 2026 года, что поднимет пропускную способность до ~4.6 ТБ/с.
Что это значит для энтузиастов и дата-центров?
Прямо сейчас выбор между Prometheus и DGX — это выбор между объёмом и скоростью. Если вам нужно запихнуть модель целиком и не ждать несколько часов загрузки с NVMe — Prometheus ваш союзник. Если вы гонитесь за низкой задержкой (менее 50 мс на токен) — берите DGX или связку из 8 H200. Но есть и третий путь: комбинация Prometheus с быстрым ускорителем. Например, с ядром SyDecode, которое уже показало 40-кратное ускорение внимания и снижение потребления VRAM на 90%. На Prometheus такое ядро будет работать ещё эффективнее, потому что пропускная способность не будет узким местом (да, ирония: на медленной DRAM SyDecode вытаскивает ещё больше преимущества за счёт уменьшения объёмов пересылок).
Кстати, на фоне китайской DRAM от CXMT, которая появляется в модулях Corsair, цена на память падает — и Prometheus может стать не дороже, а доступнее DGX.
Прогноз: будет ли бенчмарк, который поставит точку?
Majestic Labs обещает поставки первых экземпляров в июле 2026 года. Пока это только тизеры и «дорожная карта». NVIDIA молчит — им нечего противопоставить по объёму, но есть многолетний софтовый стек и CUDA. Как поведёт себя Prometheus с неоптимизированными фреймворками, мы узнаем из первых обзоров. Не спешите заказывать сервер, пока не выйдут тесты в реальных сценариях. А пока — присмотритесь к оптимизациям вроде SyDecode: они работают уже сегодня и дают прирост без покупки новых железок.
Лично я поставлю на то, что через год все будут говорить не «DGX vs Prometheus», а «как связка Prometheus + SyDecode изменила инференс LLM». Стену памяти пробивают не молотком, а набором отмычек. Похоже, одна из отмычек уже готова.