60 миллиардов, но по карману

HyperNova-60B - это урезанная версия GPT OSS 120B. 60 миллиардов параметров вместо 120. Звучит как компромисс? Так и есть. Но компромисс, который работает. Особенно когда у вас AMD видеокарта и вы хотите генерировать код, а не смотреть на прогресс-бар.

💡

Модель доступна на Hugging Face в нескольких квантованных форматах. Мы тестировали версию HyperNova-60B-IQ4_XS - самая агрессивная квантовка из доступных. Файл весит ~31 ГБ вместо оригинальных ~120 ГБ.

Зачем вообще нужна эта модель?

Если вы читали наш обзор локальных LLM для C++ и CUDA, то знаете - большинство моделей либо генерируют мусор, либо требуют космических ресурсов. HyperNova-60B пытается решить эту проблему.

Она позиционируется как модель специально для генерации кода. Не общего назначения, не для чата, а именно для кода. И 60 миллиардов параметров - это тот самый sweet spot, где модель уже достаточно умная, но еще не требует кластера для запуска.

Важный нюанс: HyperNova-60B - это НЕ та же самая модель, что и в нашей предыдущей статье про HyperNova-60B. Тот обзор был про оригинальную версию, а здесь мы тестируем специально квантованную для AMD GPU.

Железо и софт: что нужно для запуска

Тестовая конфигурация:

AMD Radeon RX 7900 XTX (24 ГБ VRAM)
llama.cpp с поддержкой Vulkan (не ROCm!)
32 ГБ оперативной памяти (DDR5)
Процессор Ryzen 9 7950X

Почему Vulkan, а не ROCm? Потому что с Vulkan в llama.cpp все просто работает. С ROCm - вечная боль настройки драйверов. Если у вас тоже AMD карта, но не хочется тратить неделю на настройку окружения - используйте Vulkan бэкенд. Он стабильнее.

Производительность: цифры, которые имеют значение

Скорость генерации: 25-28 токенов в секунду. Это при контексте 4096 токенов и полной загрузке модели в VRAM.

Модель	Формат	Скорость (токенов/с)	Потребление VRAM
HyperNova-60B	GGUF IQ4_XS	25-28	~18 ГБ
IQuestCoder-40B	GGUF Q5_K_M	35-40	~26 ГБ
GPT OSS 120B	GGUF Q4_K_M	8-12	Не влезает

25 токенов в секунду - это много или мало? Для сравнения: IQuestCoder-40B дает 35-40 токенов/с, но он на 20 миллиардов параметров меньше. А оригинальный GPT OSS 120B на 7900 XTX просто не запустится - не хватит VRAM даже с самой агрессивной квантовкой.

Что умеет генерировать эта модель?

Мы тестировали на трех типах задач:

Генерация функций на C++ (сложные алгоритмы, работа с памятью)
Исправление багов в существующем коде
Написание тестов для готовых функций

Результаты? Неоднозначные. С простыми задачами модель справляется отлично. Просишь написать функцию для поиска максимума в массиве - получаешь работающий код с комментариями. Но стоит дать сложную задачу (например, реализовать lock-free очередь), и модель начинает генерировать код, который выглядит правдоподобно, но содержит тонкие ошибки.

HyperNova-60B отлично справляется с boilerplate кодом - те самые скучные, повторяющиеся части, которые приходится писать вручную. Генерация классов-оберток, простых CRUD операций, сериализации - здесь модель экономит реальное время.

Сравнение с альтернативами: кому что подойдет

Если у вас AMD карта с 16+ ГБ VRAM, выбор примерно такой:

1 HyperNova-60B (GGUF IQ4_XS)

Подходит если: нужна максимально умная модель, которая помещается в VRAM. Готовы мириться со скоростью 25 токенов/с ради качества генерации.

2 IQuestCoder-40B

Подходит если: скорость важнее размера модели. 40 миллиардов параметров против 60, но на 30-40% быстрее. Качество генерации кода сопоставимое.

3 Меньшие модели (7B-34B)

Подходит если: VRAM меньше 16 ГБ или нужна максимальная скорость. Но готовьтесь к тому, что качество генерации сложного кода будет заметно хуже.

Проблемы и подводные камни

Первая проблема - квантование IQ4_XS. Это самая агрессивная квантовка в GGUF. Модель теряет в качестве. Насколько сильно? Заметно. Особенно страдают задачи, требующие точного следования спецификации.

Вторая проблема - поддержка Vulkan в llama.cpp. Она работает, но не идеально. Иногда возникают артефакты в генерации (повторяющиеся фрагменты кода). Перезапуск llama.cpp обычно помогает.

Третья проблема - нагрев. 7900 XTX при полной загрузке выдает 400+ Вт. Без хорошего охлаждения карта быстро упрется в thermal limit и начнет троттлить.

Кому подойдет HyperNova-60B?

Разработчикам на AMD железе, которые устали от того, что все крутые модели заточены под NVIDIA. Наконец-то есть что-то работающее.
Тем, кому нужна генерация кода среднего качества без аренды облачных инстансов. 25 токенов/с - это достаточно для интерактивной работы.
Энтузиастам, которые хотят поэкспериментировать с большими моделями на потребительском железе. 60 миллиардов параметров на одной видеокарте - это впечатляет.

А вот кому не подойдет: тем, кто ждет качества GPT-4. HyperNova-60B - хорошая модель, но не волшебная. Она ошибается. Иногда глупо. И если вы планируете использовать ее генерацию без проверки - готовьтесь к багам в продакшене.

Что будет дальше?

Формат GGUF развивается. Появилась поддержка MXFP4 в llama.cpp - новые типы квантования дают лучшее качество при том же размере. Возможно, скоро появится версия HyperNova-60B в MXFP4, и тогда мы получим лучшее качество генерации без потери скорости.

Также стоит следить за развитием Vulkan бэкенда. Судя по нашему тесту Vulkan против CUDA, производительность на AMD продолжает расти.

И последний совет: если у вас есть доступ к системе с большим объемом оперативной памяти, попробуйте запустить модель не в VRAM, а в RAM. Скорость будет ниже, но зато можно использовать менее агрессивное квантование (например, Q5_K_M вместо IQ4_XS) и получить лучшее качество генерации.

HyperNova-60B: тестирование новой квантованной модели для генерации кода на AMD GPU