60 миллиардов, но по карману
HyperNova-60B - это урезанная версия GPT OSS 120B. 60 миллиардов параметров вместо 120. Звучит как компромисс? Так и есть. Но компромисс, который работает. Особенно когда у вас AMD видеокарта и вы хотите генерировать код, а не смотреть на прогресс-бар.
Зачем вообще нужна эта модель?
Если вы читали наш обзор локальных LLM для C++ и CUDA, то знаете - большинство моделей либо генерируют мусор, либо требуют космических ресурсов. HyperNova-60B пытается решить эту проблему.
Она позиционируется как модель специально для генерации кода. Не общего назначения, не для чата, а именно для кода. И 60 миллиардов параметров - это тот самый sweet spot, где модель уже достаточно умная, но еще не требует кластера для запуска.
Важный нюанс: HyperNova-60B - это НЕ та же самая модель, что и в нашей предыдущей статье про HyperNova-60B. Тот обзор был про оригинальную версию, а здесь мы тестируем специально квантованную для AMD GPU.
Железо и софт: что нужно для запуска
Тестовая конфигурация:
- AMD Radeon RX 7900 XTX (24 ГБ VRAM)
- llama.cpp с поддержкой Vulkan (не ROCm!)
- 32 ГБ оперативной памяти (DDR5)
- Процессор Ryzen 9 7950X
Почему Vulkan, а не ROCm? Потому что с Vulkan в llama.cpp все просто работает. С ROCm - вечная боль настройки драйверов. Если у вас тоже AMD карта, но не хочется тратить неделю на настройку окружения - используйте Vulkan бэкенд. Он стабильнее.
Производительность: цифры, которые имеют значение
Скорость генерации: 25-28 токенов в секунду. Это при контексте 4096 токенов и полной загрузке модели в VRAM.
| Модель | Формат | Скорость (токенов/с) | Потребление VRAM |
|---|---|---|---|
| HyperNova-60B | GGUF IQ4_XS | 25-28 | ~18 ГБ |
| IQuestCoder-40B | GGUF Q5_K_M | 35-40 | ~26 ГБ |
| GPT OSS 120B | GGUF Q4_K_M | 8-12 | Не влезает |
25 токенов в секунду - это много или мало? Для сравнения: IQuestCoder-40B дает 35-40 токенов/с, но он на 20 миллиардов параметров меньше. А оригинальный GPT OSS 120B на 7900 XTX просто не запустится - не хватит VRAM даже с самой агрессивной квантовкой.
Что умеет генерировать эта модель?
Мы тестировали на трех типах задач:
- Генерация функций на C++ (сложные алгоритмы, работа с памятью)
- Исправление багов в существующем коде
- Написание тестов для готовых функций
Результаты? Неоднозначные. С простыми задачами модель справляется отлично. Просишь написать функцию для поиска максимума в массиве - получаешь работающий код с комментариями. Но стоит дать сложную задачу (например, реализовать lock-free очередь), и модель начинает генерировать код, который выглядит правдоподобно, но содержит тонкие ошибки.
HyperNova-60B отлично справляется с boilerplate кодом - те самые скучные, повторяющиеся части, которые приходится писать вручную. Генерация классов-оберток, простых CRUD операций, сериализации - здесь модель экономит реальное время.
Сравнение с альтернативами: кому что подойдет
Если у вас AMD карта с 16+ ГБ VRAM, выбор примерно такой:
1 HyperNova-60B (GGUF IQ4_XS)
Подходит если: нужна максимально умная модель, которая помещается в VRAM. Готовы мириться со скоростью 25 токенов/с ради качества генерации.
2 IQuestCoder-40B
Подходит если: скорость важнее размера модели. 40 миллиардов параметров против 60, но на 30-40% быстрее. Качество генерации кода сопоставимое.
3 Меньшие модели (7B-34B)
Подходит если: VRAM меньше 16 ГБ или нужна максимальная скорость. Но готовьтесь к тому, что качество генерации сложного кода будет заметно хуже.
Проблемы и подводные камни
Первая проблема - квантование IQ4_XS. Это самая агрессивная квантовка в GGUF. Модель теряет в качестве. Насколько сильно? Заметно. Особенно страдают задачи, требующие точного следования спецификации.
Вторая проблема - поддержка Vulkan в llama.cpp. Она работает, но не идеально. Иногда возникают артефакты в генерации (повторяющиеся фрагменты кода). Перезапуск llama.cpp обычно помогает.
Третья проблема - нагрев. 7900 XTX при полной загрузке выдает 400+ Вт. Без хорошего охлаждения карта быстро упрется в thermal limit и начнет троттлить.
Кому подойдет HyperNova-60B?
- Разработчикам на AMD железе, которые устали от того, что все крутые модели заточены под NVIDIA. Наконец-то есть что-то работающее.
- Тем, кому нужна генерация кода среднего качества без аренды облачных инстансов. 25 токенов/с - это достаточно для интерактивной работы.
- Энтузиастам, которые хотят поэкспериментировать с большими моделями на потребительском железе. 60 миллиардов параметров на одной видеокарте - это впечатляет.
А вот кому не подойдет: тем, кто ждет качества GPT-4. HyperNova-60B - хорошая модель, но не волшебная. Она ошибается. Иногда глупо. И если вы планируете использовать ее генерацию без проверки - готовьтесь к багам в продакшене.
Что будет дальше?
Формат GGUF развивается. Появилась поддержка MXFP4 в llama.cpp - новые типы квантования дают лучшее качество при том же размере. Возможно, скоро появится версия HyperNova-60B в MXFP4, и тогда мы получим лучшее качество генерации без потери скорости.
Также стоит следить за развитием Vulkan бэкенда. Судя по нашему тесту Vulkan против CUDA, производительность на AMD продолжает расти.
И последний совет: если у вас есть доступ к системе с большим объемом оперативной памяти, попробуйте запустить модель не в VRAM, а в RAM. Скорость будет ниже, но зато можно использовать менее агрессивное квантование (например, Q5_K_M вместо IQ4_XS) и получить лучшее качество генерации.