Купил RTX 5090. 24 ГБ GDDR7. Теоретически - монстр для локального AI. Практически - нужно выбрать, что на ней запускать. Потому что каждая модель тянет память по-своему, каждая требует своих танцев с бубном. И если для локальных LLM выбор более-менее понятен, то с генерацией изображений и видео - настоящий дикий запад.

Зачем вообще локально? Облачные сервисы вроде Midjourney или RunwayML удобны, но: лимиты, подписки, ваши данные у них на серверах. А с RTX 5090 можно генерировать что угодно, сколько угодно, без интернета. И сохранять полный контроль над пайплайном.

Важный нюанс: RTX 5090 - не RTX Pro 6000. 24 ГБ против 48 ГБ. Это значит, что некоторые модели в полном весе не влезут. Придется искать компромиссы.

Кто есть кто на арене локальной генерации

Три главных игрока 2025 года, которые реально работают на десктопном железе.

Модель	Тип	Минимум VRAM	Качество текста	Скорость на RTX 5090	Готовность к работе
Stable Diffusion 3 Medium	Изображения (текст-в-изображение)	~12 ГБ (FP16)	Отличное	5-7 сек на 1024x1024	Высокая (ComfyUI, A1111)
Flux.1 Dev	Изображения (новая архитектура)	~8 ГБ (FP16)	Очень хорошее	3-5 сек на 1024x1024	Средняя (требует настройки)
Stable Video Diffusion	Видео (изображение-в-видео)	~20 ГБ (FP16)	Умеренное (14 кадров)	45-60 сек на 14 кадров	Низкая (экспериментальная)
Kling (локальный порт)	Видео (текст-в-видео)	~18 ГБ (квантованная)	Хорошее (короткие клипы)	2-3 минуты на 5 сек	Очень низкая (хаки)

Stable Diffusion 3: слон, который научился писать

SD3 Medium - это 2 миллиарда параметров против 1 миллиарда у SD 1.5. Разница не только в цифрах. Модель наконец-то правильно понимает сложные промпты с множеством объектов и их отношений. "Рыжая кошка в шляпе, сидящая на красном диване, на фоне окна с дождем" - и она генерирует именно это, а не случайный набор элементов.

💡

На RTX 5090 SD3 Medium работает в FP16 (половинной точности) без проблем. Полная версия SD3 Large (8B параметров) требует больше памяти, но на 24 ГБ можно запустить с квантованием - ценой небольшой потери качества.

Почему выбирают SD3:

Лучшая в отрасли работа с текстом в изображениях (вывески, надписи на футболках)
Огромная экосистема: тысячи LoRA, контролнетов, плагинов для ComfyUI
Стабильная работа - модель уже обкатана сообществом
Поддерживает все современные форматы: LCM (ускоренная генерация), T5-текстовый энкодер

Минусы: сравнительно медленная по сравнению с Flux, требует больше памяти для высоких разрешений.

Flux.1 Dev: новый игрок, который бьет по скорости

Flux - это не эволюция Stable Diffusion, а принципиально другая архитектура. Вместо классического U-Net с денойзером - каскадные трансформеры. На практике это значит: быстрее генерация, лучше композиция, но... странные артефакты на ранних этапах обучения модели.

На RTX 5090 Flux летает. 3 секунды на изображение 1024x1024 против 5-7 у SD3. Разница ощутима, когда нужно сгенерировать десятки вариантов.

Flux.1 Dev - все еще "dev". Модель сырая. Нет нормальной поддержки в ComfyUI, только через костыльные ноды. LoRA и контролнеты практически отсутствуют. Если нужна стабильность - это не ваш выбор.

Почему Flux может быть интересен:

Скорость - в 1.5-2 раза быстрее SD3 при сравнимом качестве
Лучшая детализация на высоких разрешениях (масштабирование работает иначе)
Меньшие требования к памяти - можно генерировать параллельно несколько изображений
Потенциал - архитектура перспективнее, чем у SD

Stable Video Diffusion: когда нужно движение

SVD - это отдельная боль. Модель для генерации видео из изображений. Дает 14 кадров по 576x1024 из исходного изображения. Качество? Ну... лучше, чем ничего. Консистентность между кадрами страдает, движения часто неестественные.

На RTX 5090 SVD работает, но ест почти всю память. 20 ГБ в FP16 - это значит, что параллельно ничего другого не запустишь. И генерация одной 4-секундной последовательности занимает минуту.

Альтернатива - квантованная версия SVD в 8-битном формате. Занимает ~12 ГБ, работает быстрее, но качество падает заметно. Особенно страдает плавность движений.

💡

Для видео есть более интересные варианты: локальные порты Kling или Luma Dream Machine. Но они требуют серьезных хаков для запуска, а их вес под 100 ГБ. На RTX 5090 они идут только в сильно квантованном виде, что убивает качество.

Практика: как заставить это все работать на RTX 5090

1 Выбираем фронтенд: ComfyUI против Automatic1111

Automatic1111 - классика. Простой интерфейс, много готовых скриптов. Но для RTX 5090 и современных моделей он уже тесен. ComfyUI - визуальное программирование пайплайнов. Сложнее на старте, но:

Позволяет строить сложные пайплайны с контролом памяти
Лучшая поддержка новых моделей (SD3, Flux)
Можно визуально отслеживать, сколько VRAM куда уходит
Легко переиспользовать части пайплайна

Для RTX 5090 однозначно выбираем ComfyUI. Потому что 24 ГБ - не бесконечность, и нужно управлять памятью осознанно.

2 Настройка памяти: игра в тетрис с весами моделей

RTX 5090 имеет 24 ГБ GDDR7. Быстрая память, но ее все равно мало для одновременной работы нескольких больших моделей. План действий:

Устанавливаем ComfyUI с поддержкой TensorRT (ускоритель от NVIDIA)
Для каждой модели создаем отдельный пайплайн с контролем памяти
Используем функцию очистки VRAM между запусками
Для видео-моделей выделяем отдельный профиль с максимальным приоритетом памяти

Ключевой момент: не пытайтесь запускать SD3 и SVD одновременно. Даже на 24 ГБ это вызовет переполнение и креш.

3 Оптимизация скорости: TensorRT и квантование

NVIDIA дает инструменты для ускорения. TensorRT компилирует модель под конкретную видеокарту, давая прирост 30-50% в скорости. Но есть нюанс: компиляция занимает время (иногда часы), и скомпилированная модель привязана к конкретному разрешению и настройкам.

Что делаем:

Компилируем SD3 Medium под 1024x1024 - основной рабочий формат
Для Flux пока TensorRT не работает стабильно - ждем обновлений
SVD компилируем только если планируем много работать с видео

Квантование: переход с FP16 на INT8. Экономит память, немного ускоряет работу, немного снижает качество. Для RTX 5090 с ее 24 ГБ в квантовании нет острой необходимости, кроме случаев работы с огромными разрешениями (2048x2048 и выше).

Ошибки, которые сломают ваш пайплайн

Ошибка 1: Загрузка всех моделей в память одновременно. ComfyUI по умолчанию выгружает неиспользуемые модели, но некоторые ноды этого не делают. Результат - Out of Memory через 10 минут работы.

Ошибка 2: Использование xFormers для SD3. xFormers оптимизирован для старых архитектур. Для SD3 и Flux он может замедлять работу или вызывать артефакты. Отключаем.

Ошибка 3: Генерация видео без предварительного рендеринга в низком качестве. SVD может сгенерировать 14 кадров, из которых только 5 будут пригодны. Всегда делаем тест на 256x256 перед полноценным рендером.

Что в итоге запускать на RTX 5090?

Если вам нужно качество и стабильность - SD3 Medium. Лучший баланс между возможностями и потреблением ресурсов. Дополняем LoRA для конкретных стилей, используем контролнеты для точного позиционирования.

Если скорость и эксперименты - Flux.1 Dev. Но готовьтесь к самостоятельной настройке и поиску работающих нодов для ComfyUI.

Для видео - SVD только для коротких клипов и только после тщательной подготовки исходного изображения. Альтернативы пока слишком сырые для локального запуска.

И главное: RTX 5090 - мощная карта, но не безграничная. Управление памятью становится ключевым навыком. В отличие от RTX Pro 6000 с ее 48 ГБ, здесь нельзя просто загрузить все что хочется и забыть.

Прогноз на 2025: Flux догонит по экосистеме SD3, появятся локальные порты текст-в-видео моделей, которые будут работать на 24 ГБ. И RTX 5090 станет идеальной картой для этого. Но сегодня - выбирайте SD3 для работы, Flux для экспериментов.

Сравнение локальных AI-моделей для генерации изображений и видео на RTX 5090: SD3, Flux, SVD и другие