Когда NVIDIA стала роскошью
Попробуйте сейчас купить партию H100. Или даже A100. Цены кусаются, сроки поставок измеряются кварталами, а политические ограничения превращают простую закупку оборудования в детектив с элементами триллера. Именно в этой реальности китайские AI-чипы из категории "интересных экспериментов" перешли в разряд "рабочих инструментов". Huawei Ascend и Cambricon больше не просто демонстрация технологического суверенитета. Это железо, на котором уже запускают модели.
Важно: речь не о том, что эти чипы "лучше" флагманов NVIDIA. Речь о том, что они стали достаточно хороши, чтобы на них можно было работать. А в условиях дефицита и санкций "достаточно хорош" часто значит "единственный доступный".
Huawei Ascend: неожиданно зрелая экосистема
Ascend 910B — это ответ Huawei на A100. На бумаге цифры впечатляют: 640 TOPS INT8, 320 TFLOPS FP16, HBM2e память. Но разработчикам плевать на бумагу. Им нужны драйверы, фреймворки и документация, которая не вызывает желание разбить монитор.
И вот сюрприз: экосистема Ascend MindSpore работает. Не идеально, но работает. Вы можете взять PyTorch-модель, конвертировать её с помощью MindConverter (да, процесс болезненный, но возможный) и запустить на кластере Atlas 900. Китайские коллеги так и делают — тренируют гигантские MoE-модели на собственных дата-центрах.
Cambricon: игра в другую лигу
Если Huawei пытается играть по правилам NVIDIA, то Cambricon эти правила игнорирует. Их архитектура MLU (Machine Learning Unit) изначально заточена под матричные операции. Это как сравнивать швейцарский нож и специализированный хирургический скальпель.
Cambricon-1M, их флагман, показывает безумные цифры в специфичных задачах типа трансформеров. Но попробуйте запустить на нём что-то за пределами идеально оптимизированного пайплайна. Сложность возрастает на порядок. Их компилятор CNCC требует такого уровня детализации, что иногда кажется, проще написать ядро с нуля.
| Параметр | NVIDIA A100 | Huawei Ascend 910B | Cambricon MLU-370 |
|---|---|---|---|
| Пиковая производительность (FP16) | 312 TFLOPS | 320 TFLOPS | ~256 TFLOPS* |
| Энергопотребление | 400W | 450W | 350W |
| Сложность портирования кода | Низкая (CUDA) | Средняя (CANN/MindSpore) | Высокая (CNCC/Bang) |
| Доступность на рынке | Ограниченная | В основном в Китае | Нишевая |
*Замеры Cambricon часто используют свою метрику, прямое сравнение некорректно.
Что запускают на этом прямо сейчас?
Абстрактные тесты LINPACK никого не интересуют. Разработчики хотят знать: запустится ли моя компактная Gemma 3? Сработает ли ReAP-квантование?
Практические кейсы:
- Baidu использует Ascend для инференса Ernie 4.0 в своих облачных сервисах. Задержки сравнимы с NVIDIA, стоимость владения ниже на 30% (но считают без учета разработки).
- Alibaba Cloud предлагает инстансы на Cambricon MLU для инференса трансформеров. Поддерживают TensorFlow и PyTorch через прослойку — работает, но с оговорками.
- Стартапы в Шэньчжэне тренируют модели перевода на кластерах из десятков Ascend 910B. Жалуются на отладку, но альтернатив нет.
Локальный AI: где китайские чипы выигрывают
Пока все смотрят на дата-центры, настоящая битва происходит на периферии. Kirin 9010 от Huawei со встроенным NPU Ascend — это попытка захватить рынок локального AI на смартфонах. Производительность в 4 TOPS — смешно для сервера, но достаточно для запуска 3B-модели на устройстве.
Платы вроде Orange Pi AI Station с чипами Cambricon — это прямой вызов NVIDIA Jetson. Цена ниже, производительность сравнима, документация... ну, она существует. Для хобби-проектов и прототипирования уже хватает.
Совет: если вы разрабатываете под Android и хотите аппаратное ускорение ИИ, присмотритесь к Huawei устройствам. Их NPU уже сейчас лучше интегрированы в экосистему, чем разрозненные решения Qualcomm или MediaTek.
Миграция с CUDA: боль, страдание и несколько работающих рецептов
Переносить проект с CUDA на Ascend или Cambricon — это не апгрейд. Это рефакторинг ядра системы. Вот что работает (иногда):
1Используйте абстракции высокого уровня
Забудьте о прямых вызовах __global__. Оборачивайте вычисления в операторы MindSpore или TensorFlow. Да, потеряете 5-15% производительности, но сэкономите недели на портировании.
2Готовьтесь к особенностям памяти
Модель памяти у китайских чипов часто отличается. Ascend любит непрерывные тензоры, Cambricon требует специального выравнивания. Копирование туда-сюда убивает производительность быстрее, чем плохой алгоритм.
3Тестируйте на реальных данных сразу
Не доверяйте unit-тестам. Запускайте инференс на реальной нагрузке. Различия в порядке вычислений с плавающей точкой могут накапливаться и давать расхождения в 4-м знаке. Для большинства задач некритично, но если вы делаете что-то вроде обработки научных данных, это важно.
Что будет через два года?
Экспортный контроль США не ослабнет. Цены на NVIDIA GPU продолжат расти — мы уже видели прогнозы о 60% росте. Китайские чипы займут свою нишу не потому, что они лучше, а потому, что они есть.
Huawei анонсировала Ascend 920 — обещают двукратный прирост и лучшую совместимость с PyTorch. Cambricon работает над компилятором, который будет понимать CUDA-код (верим, когда увидим).
Совет разработчикам: выделите 10% времени на эксперименты с альтернативными платформами. Соберите простой пайплайн инференса на Ascend через MindSpore. Попробуйте запустить компактную 15B-модель на эмуляторе Cambricon. Это страховка. Когда ваш облачный провайдер внезапно поднимет цены на GPU-инстансы на 70%, у вас уже будет план Б.
И помните: пять лет назад китайские процессоры для ПК были шуткой. Сегодня Huawei Kunpeng серверы работают в десятках дата-центров. С AI-чипами история повторится быстрее. Готовы ли вы к этому?