Skymizer HTX301: PCIe карта 384 ГБ для LLM — обзор и перспективы

Когда я впервые увидел цифру 384 ГБ в контексте одной PCIe-карты, первая мысль была: «Они что, четыре H100 склеили скотчем?» Нет. Тайваньская компания Skymizer официально анонсировала HTX301 — специализированный ускоритель для инференса, который втискивает в один слот объём памяти, недоступный даже топовым серверным решениям. И да, это вам не очередная V100 с перемаркировкой.

Что это за зверь и почему о нём заговорили?

HTX301 — это не видеокарта. Это PCIe Gen5 x16-карта со своим NPU (нейронным процессором), разработанная исключительно для вывода (инференса) больших языковых моделей. Главная фишка — 384 ГБ HBM3 с пропускной способностью 3.9 ТБ/с. Для сравнения: чтобы получить столько же видеопамяти на «обычных» GPU, вам понадобится 8 штук RTX 5090 (по 48 ГБ каждая, если верить слухам) или 4 инстанса B200. Skymizer упаковал это в один слот.

Важный нюанс: HTX301 позиционируется как чисто инференсное решение. Никакого training — только forward pass. Зато с поддержкой FP8/INT8 и Sparsity, что даёт прирост скорости до 2.5x на разреженных моделях.

Энергопотребление заявлено на уровне 350 Вт (TDP). Это выше, чем у одной RTX 4090 (450 Вт? нет, 450 у 4090, а тут 350 — странно, но цифра от Skymizer). Фактически, карта греется меньше, чем топовый потребительский GPU. Но есть подвох: охлаждение активное, двухслотовое, а цена... о ней позже.

Сравнение с тем, что мы имеем сегодня

Энтузиасты уже давно собирают «фермы» из RTX 3090 с NVLink, чтобы запихнуть 96 ГБ или даже 192 ГБ в один логический пул. Наш гайд по сборке ПК для LLM за копейки на 3× RTX 3090 показывает, что 96 ГБ стоят примерно 1500-2000$ (с учётом eGPU и блока питания). HTX301 обещает 384 ГБ из коробки. Вопрос цены остаётся открытым, но по слухам — около 12000-15000$. Дорого? Да. Но подумайте: чтобы получить 384 ГБ на GPU, вам потребуется 8 RTX 5090 (с неизвестной ценой, но явно >20000$), материнка с 8 слотами, 2-3 блока питания и беруши от шума вентиляторов.

Есть и другой путь — серверные решения вроде SXM с NVLink. Мы разбирали сравнение NVLink vs PCIe для гигантских моделей и выяснили, что связка из 8 H100 даст ~640 ГБ VRAM, но стоить это будет как небольшой дом. HTX301 выглядит компромиссом: гораздо дешевле, чем H100-кластер, но дороже, чем потребительский GPU-зоопарк.

Что можно запустить на 384 ГБ? Спойлер: почти всё, кроме совсем уж гигантов

Возьмём модель LLaMA-3 120B (если к тому моменту выйдет). В FP16 она весит ~240 ГБ. Остаётся ещё 144 ГБ на кэш ключей прошлых токенов — контекст в 128К токенов влезет без проблем. Модели семейства Mixtral 8x22B (140B параметров) — помещаются целиком с запасом. А если вы решитесь на Qwen2.5 72B в 8-битной версии — это около 72 ГБ. Чувствуете? Можно запустить несколько моделей одновременно или одну большую с гигантским контекстом.

Для тех, кто хочет попробовать современные архитектуры, вот вам пример: недавно мы писали гайд по запуску MiniMax-M2.1 на двух видеокартах — там 456B параметров, но в MoE-архитектуре активных только ~45B. HTX301 легко справится с таким «слоёным пирогом», причём с одним инференс-ускорителем.

Кстати, SK Hynix выпустила модель на 519B параметров — HTX301, скорее всего, сможет её запустить в 4-битном квантовании (около 260 ГБ). И это уже не фантастика, а реальность одного слота PCIe.

Подводные камни: прошивка, экосистема и софт

Skymizer — не Nvidia и не AMD. Их SDK поддерживает ONNX Runtime, TensorFlow, PyTorch через собственный плагин. Но насколько оно стабильно? Первые инженерные семплы в руках блогеров показали, что с llama.cpp и vLLM есть проблемы с оптимизацией. Компания обещает «полную поддержку до конца 2026 года». Оптимистично, но пока — будьте готовы к танцам с бубном.

Звучит логично, но есть нюанс: карта не поддерживает CUDA. Совсем. Только собственный NPU-инструкции. Если ваша любимая библиотека форкается под CUDA — забудьте. Придётся переписывать код или ждать адаптации.

С другой стороны, если вы энтузиаст, который уже научился запускать модели на AMD ROCm или Intel Arc, — HTX301 не покажется чем-то сверхъестественным. Тот же Ollama, вероятно, получит поддержку через OpenVINO или DirectML. Но когда — вопрос.

Кому это нужно?

Исследователи, которые хотят запускать 180B+ модели локально, не арендуя облачные GPU.
Энтузиасты RAG — с 384 ГБ можно держать в памяти гигантские базы эмбеддингов (до 100 млн векторов) и не думать о шардинге.
Компании, которым нужен приватный AI — медицинские данные, финансовая аналитика. Один сервер с HTX301 заменит целую стойку GPU, экономя место и электроэнергию.

Но есть и очевидный минус: за эти деньги можно собрать кластер из RTX 5090, который будет быстрее на некоторых задачах (особенно с низкой загрузкой модели). HTX301 — это про ёмкость, а не про «сыпет токенами как пулемёт». Для инференса с малым batch size разница не так заметна, но на тяжёлых запросах с большим контекстом карта раскрывается.

Итог: железный кирпич или джокер?

HTX301 — определённо нишевый продукт. Он не для геймеров, не для дата-сайентистов, которые дообучают LoRA на коленке. Это инструмент для тех, кто упёрся в потолок видеопамяти и готов за это платить. Если Skymizer выполнит обещания по софту и снизит цену до 10000-12000$ — у карты есть все шансы стать стандартом для локального инференса больших LLM.

Пока же я бы советовал присмотреться к альтернативам: возможно, проще собрать систему из 4× RTX 4090 (96 ГБ, но дешевле) или дождаться новых моделей с тул-коллингом для RTX 5080. А если хочется экстремальной памяти и не страшны эксперименты — HTX301 определённо заслуживает внимания.

Подписаться на канал

Skymizer HTX301: 384 ГБ памяти на одной PCIe-карте для локального LLM — прорыв или ниша?