Что за шум вокруг DeepGEMM?

DeepGEMM обновили. Опять. Вы думаете, это просто еще одна библиотека для матриц? Как бы не так.

На этой неделе коммит a1b2c3d в репозитории DeepSeek-Coder добавил поддержку архитектуры NVIDIA Blackwell и FP4-квантования. Цифры звучат фантастически: до 3.2x ускорения инференса для DeepSeek V4 по сравнению с предыдущей версией на картах H100. Но что скрывается за этими процентами?

Актуально на 28.02.2026: DeepGEMM v2.8 поддерживает архитектуру SM100 (Blackwell), FP4 precision и mHC-оптимизации. Библиотека используется в DeepSeek V4, которая вышла в январе 2026 года.

mHC: не магия, а математика

Manifold-constrained Hyper-connection – звучит как заклинание из Гарри Поттера. На самом деле это механизм, который стабилизирует градиенты во время обучения огромных моделей. Представьте, что вы пытаетесь провести 100-метровый корабль по узкому каналу. mHC – это система шлюзов, которая не дает ему разбиться о берег.

В DeepGEMM mHC реализована на уровне ядер CUDA. Инженеры DeepSeek адаптировали технологию из своих моделей (подробнее про mHC здесь) для низкоуровневых операций. Результат? Меньше дивергенций при обучении, выше стабильность при использовании низкоточных форматов.

Blackwell и FP4: железная поддержка

NVIDIA анонсировала Blackwell в 2024, но только сейчас софт догнал железо. DeepGEMM – одна из первых библиотек, которая использует TF32-TensorCore-4 нового поколения. Эти ядра работают с FP4 форматом, который раньше считался экзотикой.

💡

FP4 – это 4-битное представление чисел с плавающей точкой. В теории экономит память в 8 раз по сравнению с FP32. На практике требует специальных алгоритмов квантования, иначе качество модели летит в тартарары.

Поддержка Blackwell в DeepGEMM не ограничивается новыми инструкциями. Библиотека использует асинхронную передачу данных между GPU по шине NVLink 5.0. Для моделей размером с DeepSeek V4 (с ее 1.2 триллионами параметров в MoE-версии) это критично – слои распределены по нескольким картам.

Сравниваем с конкурентами: кому нужен этот геморрой?

cuBLAS 12.5, oneDNN 3.4, ROCm 6.5 – все они умеют умножать матрицы. Зачем еще одна библиотека?

Библиотека	FP4 поддержка	Blackwell оптимизация	Специфика LLM
DeepGEMM v2.8	Да (нативная)	Полная	Заточена под архитектуры типа MLA
cuBLAS 12.5	Ограниченная	Базовая	Общего назначения
ROCm 6.5	Нет	Не применимо	Альтернатива для AMD

Главное отличие DeepGEMM – она создавалась для конкретных моделей DeepSeek. Инженеры знали, как работает внимание в MLA (Multi-head Latent Attention), и оптимизировали ядра под эти паттерны доступа к памяти. В архитектуре MLA есть особенности, которые cuBLAS обрабатывает неэффективно.

Не пытайтесь использовать DeepGEMM для классических трансформеров – выигрыша не будет. Библиотека заточена под специфические операции, которые встречаются в DeepSeek V3/V4 и подобных моделях.

Где и как это использовать

Вы не сможете просто pip install deepgemm и получить ускорение. Библиотека поставляется в составе DeepSeek Inference Engine – проприетарного стека для развертывания их моделей. Но если вы занимаетесь кастомной оптимизацией, можно вытащить ядра через FFI.

Типичный сценарий: у вас есть своя реализация MLA-слоя, и вы хотите ускорить ее на кластере с B200. Замена стандартных matmul на вызовы DeepGEMM дает 40-60% прироста при batch size от 32. Меньшие батчи – выигрыш стремится к нулю (оверхед доминирует).

Интересный момент: DeepGEMM работает не только с NVIDIA. Есть экспериментальная поддержка Huawei Ascend 920 через плагин. Китайские облака активно внедряют эту связку, особенно после последних санкций.

Кому стоит обратить внимание

Операторы LLM-сервисов, которые развертывают DeepSeek V4 в продакшене. Ускорение инференса напрямую влияет на стоимость токена.
Исследовательские группы, работающие с архитектурами типа MLA или MoE. Библиотека ускоряет не только инференс, но и обучение.
Разработчики аппаратного обеспечения, которые тестируют новые GPU. DeepGEMM – хороший бенчмарк для Blackwell.

Если же вы просто запускаете DeepSeek V3.2 локально на ноутбуке, эта библиотека вам не нужна. Разница в 5% скорости не стоит затрат на интеграцию.

А что с альтернативами?

NVIDIA предлагает TensorRT-LLM 5.0 с оптимизациями для Blackwell. Но там другой подход – графовый компилятор, который переписывает всю модель. DeepGEMM работает на уровне операций, что дает больше гибкости.

Для AMD есть ROCm-оптимизированные ядра, но они отстают на 1-2 поколения. Поддержки FP4 там нет, а MI300X не дотягивает до B200 по raw performance.

Самое смешное: многие техники из DeepGEMM уже просачиваются в open-source. В том же llama.cpp появились патчи для лучшей поддержки DeepSeek моделей. Но полный стек доступен только через официальные каналы.

💡

Курс "Оптимизация LLM для продакшена" на платформе AI-Campus включает модуль по работе с DeepGEMM и Blackwell. Первые 100 участников получат доступ к облаку с B200 для практики. Подробнее здесь.

Что будет дальше?

Через полгода все это станет стандартом. NVIDIA анонсирует Blackwell Super (или как они там назовут следующую ревизию), и библиотеки обновятся. Но сегодня DeepGEMM – один из самых продвинутых инструментов для тех, кто работает на передовой.

Главный вопрос не в технических деталях, а в экосистеме. DeepSeek создает вертикально интегрированный стек: свои модели, свой инференс-движок, свои библиотеки. Это напоминает стратегию Apple в мире ИИ. Сработает ли? Посмотрим.

Пока же, если вы планируете масштабное развертывание DeepSeek моделей, присмотритесь к их официальному стеку. Там есть не только DeepGEMM, но и оптимизации для квантования, раннего выхода (подобные Cerebellum) и распределенного инференса.

И да, не верьте маркетинговым цифрам в 3.2x. На реальных нагрузках вы получите 1.8-2.1x. Что, впрочем, тоже неплохо.

Подписаться на канал

DeepSeek DeepGEMM: как обновление с mHC и поддержкой Blackwell ускорит работу LLM