15x ускорение диффузионных моделей Nvidia: локальный запуск | AiManual
AiManual Logo Ai / Manual.
23 Июн 2026 Новости

Nvidia обещает 15x ускорение диффузионных моделей: что это значит для локального запуска?

Nvidia анонсировала 15-кратное ускорение диффузионных моделей на новых чипах. Рассказываем, как это повлияет на генерацию изображений на домашних ПК.

Реклама
cliv1

Nvidia любит громкие цифры. 15x? Звучит как фантастика или очередной маркетинговый трюк. Но если копнуть глубже, за этим обещанием стоит не просто разгон частот, а фундаментальные изменения в том, как GPU обрабатывают диффузионные модели. И это может перевернуть рынок локальной генерации изображений.

Суть анонса: на новом поколении тензорных ядер (архитектура Blackwell Ultra) и с использованием программного стека TensorRT 11.0 Nvidia демонстрирует генерацию изображений модели Stable Diffusion 3.5 со скоростью 60+ it/s на одной RTX 5090. Это в 15 раз быстрее, чем на RTX 4090 с предыдущими драйверами.

Как они это сделали? (спойлер: не магией)

Секрет — в связке трех технологий. Первая: MXFP4 — новый формат квантования, который уже показал 25% ускорение в llama.cpp. Для диффузионных моделей он позволяет хранить веса в 4 бита без заметной потери качества.

Вторая: гибридный сэмплинг. Вместо того чтобы прогонять все 50 шагов через полную сеть, Nvidia использует предсказание траектории: первые 10 шагов — тяжелый U-Net, остальные — легкий аппроксиматор. Это дает 3-4x без потери FID.

Третья: специализированные тензорные ядра для операций cross-attention. В диффузионных моделях именно attention — бутылочное горлышко. Новые ядра работают с FP8 и имеют в два раза больше пропускной способности по сравнению с предыдущим поколением.

Что это значит для владельца RTX 5060 Ti или RX 9060 XT?

Прямо сейчас — почти ничего. Обещанное ускорение в 15x достигается на флагманской RTX 5090 с новым драйвером и специальным плагином для ComfyUI. Но, как показывает практика, технологии просачиваются вниз по линейке. Для выбора GPU для первого AI-PC это означает, что даже бюджетные карты следующего поколения (RTX 5060 Ti, RTX 5070) получат прирост в 5-8x благодаря оптимизациям — этого хватит для комфортной генерации 1024x1024 за 2-3 секунды.

Внимание: ускорение не коснется старых карт (RTX 40-й серии и ниже) на аппаратном уровне — там нет поддержки MXFP4 и новых тензорных ядер. Программные оптимизации дадут максимум 2-3x.

Параллели с AETHER-X и война форматов

Ранее Nvidia анонсировала AETHER-X для LLM, дав ускорение в 4.9 раза. Теперь — диффузионные модели. Логика понятна: компания хочет, чтобы весь AI-инференс работал исключительно на её железе. AMD пытается ответить собственными оптимизациями через ROCm, но пока без значимых анонсов. В сравнении AMD vs NVIDIA этот разрыв может стать решающим для тех, кто выбирает видеокарту для AI.

Практическая польза: от иллюстратора до геймера

Представьте: вы работаете в Photoshop с плагином на базе Stable Diffusion. Раньше генерация фона занимала 10-15 секунд, теперь — меньше секунды. Это превращает AI из инструмента для «подождать» в инструмент реального времени. Или возьмите игры с процедурной генерацией текстур: движок может создавать 4K-текстуры на лету, подгружая только что сгенерированные тайлы.

Но есть и подводные камни. Во-первых, качество: при 4-битном квантовании и гибридном сэмплинге артефакты могут быть заметны в сложных сценах (лица, текст). Nvidia утверждает, что FID не растет, но независимые тесты покажут. Во-вторых, монополизация: чтобы получить 15x, нужно использовать фирменный стек TensorRT, который привязывает к CUDA и экосистеме Nvidia.

Что дальше?

В Nvidia заявили, что технология станет частью драйвера Game Ready к концу 2026 года. Если это случится, локальная генерация изображений перестанет быть уделом энтузиастов. Обычные пользователи смогут запускать диффузионные модели на своих игровых ПК без глубоких знаний. А с учётом замедления релизов игровых карт это может стать ключевым аргументом для апгрейда именно сейчас.

💡
Совет: не спешите продавать RTX 4090. Дождитесь независимых бенчмарков. Первые тесты в сообществе ComfyUI показывают, что реальный прирост на 4090 с новым TensorRT — около 4-5x, а не 15x. Обещанные 15x — только на новых картах с поддержкой MXFP4 на аппаратном уровне.

Подписаться на канал