Новость пришла тихо, без фанфар: FLUX.2 Klein, та самая 9B-модель, которая уже уничтожала конкурентов на RTX 4090, теперь научилась генерировать изображения за 0.9 секунды на A100. Не «около секунды», не «примерно», а стабильно меньше одной секунды от промпта до картинки. И это не магия – это конкретные оптимизации, которые можно повторить.
Что сломали и как починили
Стандартная загрузка FLUX.2 через Diffusers – это как ехать на Ferrari с ручным тормозом. Модель работает, но потенциал остаётся запертым. Основные узкие места были в двух местах: компиляция графа вычислений и внимание внутри трансформеров.
Без оптимизаций та же самая генерация на A100 занимала 1.8-2.2 секунды. То есть мы ускорили процесс более чем в два раза, не меняя ни одного параметра модели.
1 torch.compile: когда PyTorch перестаёт думать
PyTorch по умолчанию – интерпретатор. Каждая операция вычисляется динамически, с проверками, выделением памяти и прочими накладными расходами. torch.compile берёт ваш код, анализирует граф вычислений и компилирует его в оптимизированный низкоуровневый код. Результат? Первый запуск будет медленным (компиляция), зато все последующие – в 1.5-2 раза быстрее.
mode="reduce-overhead". Для инференса изображений он работает лучше всего, минимизируя накладные расходы на управление памятью.2 Fused QKV: три в одном флаконе
Внимание (attention) в трансформерах вычисляет Query, Key и Value – три отдельных тензора. Три отдельных прохода по памяти, три отдельных вызова ядра CUDA. Fused QKV объединяет эти вычисления в одну операцию. Меньше обращений к памяти, больше параллелизма на уровне GPU.
В Diffusers это включается одной строчкой: pipe.enable_xformers_memory_efficient_attention() или через флаг use_fused_qkv в настройках пайплайна. Разница особенно заметна на больших разрешениях (1024x1024 и выше).
А что там с альтернативами?
Пока все обсуждают архитектурные преимущества FLUX.2 или ждут следующую революцию в январе 2026, практический вопрос остаётся: что быстрее запустить сегодня?
| Модель | Параметры | Время на A100 (1024x1024) | Качество |
|---|---|---|---|
| FLUX.2 Klein (оптимизированный) | 9B | 0.9 сек | Отличное |
| FLUX.2-dev-Turbo | ~12B | 1.4 сек | Сверхбыстрый, но менее детальный |
| SDXL Turbo | 6.6B | 1.1 сек | Хуже на сложных промптах |
| PixArt-Σ | 6B | 1.8 сек | Лучше в типографике |
FLUX.2 Klein выигрывает не только в скорости, но и в качестве деталей. Особенно заметно на сценах с текстом и мелкими объектами – там, где FLUX.2-dev-Turbo уже начинает сдавать.
Готовое решение: Gradio за 5 минут
Всё это звучит сложно, пока не увидишь готовый скрипт. Вот минимальный вариант веб-интерфейса на Gradio, который работает с полной оптимизацией:
Важно: этот код предполагает, что у вас уже установлены torch 2.4+, diffusers и transformers. И да, A100 с 40+ ГБ VRAM или эквивалент.
Скрипт делает три вещи: загружает модель с оптимизациями, компилирует пайплайн и запускает Gradio-интерфейс. Всё остальное – уже детали.
Для продакшена: FastAPI + асинхронность
Gradio хорош для демо, но в продакшене нужен контроль. FastAPI позволяет обрабатывать несколько запросов одновременно, добавлять авторизацию, логирование и метрики.
Здесь есть тонкость: torch.compile не дружит с асинхронностью по умолчанию. Решение – запускать инференс в отдельном потоке через asyncio.to_thread или использовать фоновые worker'ы. Иначе получите deadlock или падение производительности.
Кому это нужно прямо сейчас?
- Стартапы в компьютерном зрении: демо, которые работают в реальном времени, а не «подождите 5 секунд».
- Стримеры и создатели контента: генерация фонов, иллюстраций и мемов на лету.
- Исследователи: быстрая итерация при тестировании новых промптов или техник.
- Облачные провайдеры: кто хочет предложить самый быстрый инференс изображений на рынке.
И нет, это не замена для кастомных vLLM решений или оптимизаций уровня CUDA на Rust. Это практический, работающий сегодня способ выжать из железа максимум.
Предупреждение: torch.compile жрёт дополнительную память при первом запуске (до 20% от размера модели). На GPU с 24 ГБ может не влезть. Проверяйте перед деплоем.
Что дальше? Пределы оптимизации
0.9 секунды – не предел. Эксперименты с FP8-квантованием (поддержка уже есть в новейших драйверах NVIDIA) обещают ещё 30-40% ускорения. Плюс оптимизации уровня ядра CUDA – но это уже для тех, кто готов копаться в низкоуровневых настройках как в DGX Spark.
Главный вывод прост: следующее поколение моделей будет измеряться не в параметрах, а в миллисекундах. И FLUX.2 Klein – первый залп в этой войне скоростей.
P.S. Если вы считаете, что субсекундная генерация – это уже предел, посмотрите на GFN v2.5.0. Там обещают генерацию видео в реальном времени. Ждите следующего квартала.