Помните те статьи, где мы выжимали последние капли производительности из llama.cpp на AMD или разгоняли 6700XT под ROCm? Это было про использование готового. Сегодня - про создание своего. Если вы хоть раз думали, что ваш код на AMD GPU мог бы работать быстрее, но мысль о написании ядер на HIP вызывала легкую панику, этот материал для вас.

Kernel-builder: мост между Python и железом

Hugging Face kernel-builder - это не магия, а очень умная абстракция. Инструмент, который позволяет описывать вычислительные ядра для GPU на чем-то, напоминающем Python, а получать на выходе оптимизированный код для ROCm, CUDA или Metal. Звучит слишком хорошо, чтобы быть правдой? Отчасти так и есть.

💡

По сути, kernel-builder - это компилятор специфического доменного языка (DSL). Вы пишете, что нужно вычислить, а он решает, как это сделать эффективно на конкретном железе. Не без вашей помощи, конечно.

Зачем это нужно? Представьте, что вы реализуете новую операцию для своей модели PyTorch. На CPU она работает, но медленно. Писать ядро с нуля - месяцы изучения архитектуры GPU, тонны boilerplate-кода и отладки. Kernel-builder обещает сократить этот путь до дней или даже часов.

Что умеет этот инструмент (и чего не умеет)

Возможность	Как это работает	Подвох
Автоматическая оптимизация доступа к памяти	Анализирует шаблоны доступа к данным и переупорядочивает операции	Иногда слишком умничает и делает хуже
Поддержка нескольких бэкендов	Один код - для ROCm, CUDA и Metal	Наиболее зрелая поддержка у CUDA, с ROCm бывают сюрпризы
Интеграция с PyTorch	Генерация готовых C++ расширений	Требует правильной настройки toolchain
Векторизация инструкций	Использует SIMD-инструкции конкретной архитектуры	Не всегда угадывает оптимальный размер вектора

Альтернативы? Их почти нет (и это проблема)

Если отбросить вариант «писать всё вручную на HIP», что сравнимо с строительством дома без инструментов, альтернатив действительно мало. Triton от OpenAI - вероятно, самый близкий аналог. Но у Triton своя философия и свой синтаксис. Kernel-builder заточен под экосистему Hugging Face и чувствует себя естественнее в контексте трансформеров и смежных задач.

Главное отличие: kernel-builder пытается скрыть от вас архитектурные особенности, в то время как Triton требует их понимания. Это как автоматическая коробка передач против механической. Первая проще, вторая даёт больше контроля.

Есть ещё компиляторы типа TVM или MLIR - но это уже уровень PhD, а не практического разработчика. Kernel-builder позиционируется как инструмент для смертных.

GEMM из RadeonFlow_Kernels: живой пример

Возьмём для примера GEMM (General Matrix Multiply) - операцию умножения матриц, фундамент всех нейросетей. В репозитории RadeonFlow_Kernels есть реализация именно через kernel-builder. Что там происходит?

1 Определение параметров ядра

Сначала описываете, какие данные поступают на вход: матрицы A и B определённых размеров, возможно, с определённым шагом (stride). Указываете типы данных - float16, bfloat16, float32. Kernel-builder не читает мысли, ему нужно явно сказать, с чем он работает.

2 Описание вычислений

Пишете вложенные циклы для умножения матриц. Но не на Python - на специальном DSL, который выглядит как Python, но с аннотациями. Например, указываете, какие циклы параллелить, какие данные кэшировать в разделяемой памяти. Это самая творческая часть.

3 Настройка оптимизаций

Здесь вы становитесь садовником, который подрезает ветки. Указываете размеры блоков потоков (thread blocks), сколько потоков выделить на каждое измерение, как организовать доступ к глобальной памяти. В примере с GEMM часто используют тайлинг - разбиение матриц на блоки, которые помещаются в быструю память.

4 Генерация и компиляция

Kernel-builder преобразует ваше описание в код на C++/HIP, добавляет все необходимые обёртки и вызывает компилятор ROCm. Если вы всё сделали правильно, получаете файл с расширением .so, который можно загрузить в PyTorch.

5 Тестирование и профилирование

Запускаете ядро на реальных данных, сравниваете с реализацией из библиотек (например, rocBLAS). Смотрите на occupancy, использование памяти, задержки. Возвращаетесь к шагу 2 или 3. Повторяете, пока не надоест или не достигнете целевой производительности.

Секрет в том, что первые три шага часто занимают 20% времени, а последние два - 80%. Отладка GPU-ядер - это особый вид медитации, где вы часами смотрите на числа, пытаясь понять, почему производительность в два раза ниже ожидаемой.

Кому подойдёт этот инструмент (а кому нет)

Kernel-builder - не серебряная пуля. Он для конкретной аудитории.

Исследователи, которые хотят прототипировать новые операции быстро. Не нужно изучать все тонкости ROCm, можно сосредоточиться на математике.
Разработчики, оптимизирующие существующие модели под AMD железо. Особенно если вы столкнулись с тем, что какая-то операция стала бутылочным горлышком, как в случаях с загрузкой больших LLM на AMD Strix Halo.
Те, кто уже устал бороться с настройкой ROCm стека и хочет хоть какого-то прогресса. Знакомое чувство?

Не подойдёт:

Перфекционистам, которым нужен контроль над каждым clock cycle. Здесь вы доверяете компилятору много решений.
Тем, кто работает с экзотическими архитектурами или нестандартными типами данных. Поддержка ограничена популярными случаями.
Новичкам в GPU-программировании, которые ещё не понимают, что такое warp или shared memory. Абстракция leaky, и рано или поздно низкоуровневые детали вылезут наружу.

Прогноз: станет ли это стандартом?

Сложный вопрос. Сообщество AMD энтузиастов (тех самых, кто запускает llama.cpp в LXC-контейнере или экспериментирует с eGPU через Thunderbolt) очень практично. Если инструмент экономит время и даёт прирост - его примут. Но есть нюанс.

Kernel-builder - продукт Hugging Face, компании, которая живёт в мире трансформеров. Если ваша задача далека от этого (скажем, вы занимаетесь управлением роботами или анализом птичьих трелей), инструмент может оказаться не самым гибким.

Мой совет - попробуйте на небольшой задаче. Возьмите простую операцию, которую вы сейчас выполняете на CPU, и реализуйте её через kernel-builder для ROCm. Не стремитесь сразу побить рекорды производительности. Цель - понять, насколько этот способ мышления вам подходит. Иногда проще допилить существующее решение, чем строить новое с нуля. Но если не пробовать, вы никогда не узнаете, на что способна ваша AMD карта, когда её не ограничивают чужие ядра.

Создание и оптимизация ROCm-ядер для AMD GPU с помощью Hugging Face kernel-builder: пошаговое руководство