Когда 21 гигабайт видеопамяти — это не шутка
Новость появилась тихо: HeartMula 3B выложили в открытый доступ. Модель для генерации музыки, которая работает локально. Без подписок, без лимитов, без отправки данных на чужие сервера. Звучит как мечта, пока не видишь системные требования.
Минимум 21.7 ГБ VRAM. Это не опечатка. Двадцать один гигабайт видеопамяти. Для сравнения — RTX 4090 имеет 24 ГБ. RTX 4080 Super — 16 ГБ. Большинство геймерских карт просто не потянут.
Что умеет HeartMula на самом деле
Модель генерирует музыку из текстового описания. Попросите "электронная музыка в стиле 80-х с синтезаторами" — получите 30-секундный трек. Технически это diffusion-модель, похожая на те, что используются в генерации изображений, но адаптированная для аудио.
Качество? На удивление приличное. Не идеально, но для локальной модели — впечатляюще. Вокал иногда плавает по тональности, барабаны звучат механически, но общая структура узнаваема как музыка.
Сравнение: локальный против облачных монстров
| Параметр | HeartMula 3B | Suno v3 | Udio |
|---|---|---|---|
| Работает офлайн | Да | Нет | Нет |
| Требования VRAM | 21.7 ГБ | 0 ГБ | 0 ГБ |
| Качество вокала | Среднее | Отличное | Хорошее |
| Стоимость в месяц | 0$ (разово за железо) | 10-30$ | Бесплатно/подписка |
| Время генерации | 2-3 минуты | 30-60 секунд | 20-40 секунд |
Suno все еще вне конкуренции по качеству. Их вокал звучит почти как живой, аранжировки сложные, структура песен продумана. Udio держится где-то посередине — быстрее Suno, но с более простыми аранжировками.
HeartMula? Это как Gemma 3 270M в мире музыки. Работает, делает свое дело, но не ждите шедевров. Зато полностью локально.
Кому это вообще нужно?
Трем категориям людей:
- Параноики, которые не хотят загружать свои музыкальные идеи в облако (да, такие есть)
- Студии, которые генерируют фоновую музыку для проектов и хотят полного контроля
- Разработчики, которые экспериментируют с локальными моделями просто потому что могут
Если вы из последней категории — вам понравится. Установка стандартная для Hugging Face моделей: клонировать репозиторий, установить зависимости, запустить. Если уже работали с FLUX.2 в Diffusers, разберетесь за 15 минут.
Практический совет: если у вас карта с 24 ГБ VRAM, выделите модели 22 ГБ и оставьте 2 ГБ системе. Попытки "впихнуть невпихуемое" через --low-vram-mode заканчиваются ошибками памяти или бесконечной генерацией.
Железные реалии
Давайте посчитаем. RTX 4090 — от 2000$. Mac Studio M4 Max с 128 ГБ общей памяти теоретически потянет, но скорость будет в 3-4 раза медленнее, чем на видеокарте. О выборе железа для LLM мы подробно писали в статье про выбор LLM для Mac Studio M4 Max.
Альтернатива? Арендовать облачный инстанс с A100 (40 ГБ). Стоимость — около 2$ в час. Сгенерировать 100 треков за вечер — 10-15$. За эти деньги можно купить месячную подписку на Suno и генерировать в 10 раз больше.
Математика не в пользу HeartMula. Пока что.
Что будет дальше?
Тренд очевиден: все движется к локальности. Год назад локальные LLM были игрушкой для энтузиастов. Сегодня GLM4.7 + CC экономит 100$ в месяц против Claude. Завтра то же произойдет с генерацией музыки.
HeartMula 3B — первый шаг. Неуклюжий, требовательный к ресурсам, но шаг. Через полгода выйдет HeartMula 1.5B, которая будет работать на картах с 12 ГБ VRAM. Еще через полгода — 700M версия для 8 ГБ.
Пока что совет простой: если у вас нет лишней RTX 4090 и вы не параноик — используйте Suno или Udio. HeartMula оставьте энтузиастам и тем, кто как в статье про пять AI в подвале, готов собрать локальную ферму из моделей просто потому, что это возможно.
Но запомните это имя. Через год вы будете генерировать музыку локально с качеством Suno. И это будет стоить дешевле подписки на Netflix.