Что случилось с FLUX.1? Его съели
Black Forest Labs выпустили FLUX.2 — и это не просто обновление. Это полный пересмотр того, как должна работать диффузионная модель. Если FLUX.1 был хорош, то FLUX.2 заставляет его выглядеть как студенческий проект.
Архитектура MM-DiT (Multimodal Diffusion Transformer) — главная фишка. Вместо трёх отдельных энкодеров для текста, изображений и маски теперь работает один. Звучит как упрощение? Это не упрощение. Это переосмысление.
MM-DiT обрабатывает текст, изображения и маски в едином пространстве. Нет больше танцев с конкатенацией эмбеддингов — всё в одном трансформере.
Mistral Small 3.1 вместо трёх энкодеров
Вот где начинается магия. Black Forest Labs взяли Mistral Small 3.1 — да, ту самую языковую модель — и заставили её работать как универсальный энкодер. Текст? Пожалуйста. Изображение? Конвертируем в патчи. Маска? Тоже патчи.
Один энкодер вместо трёх. Меньше параметров. Лучшее понимание контекста. И главное — нет разрыва между модальностями. Модель видит текст и изображение как части одной задачи, а не как два отдельных входа, которые нужно как-то склеить.
| Компонент | FLUX.1 | FLUX.2 | Что изменилось |
|---|---|---|---|
| Текстовый энкодер | CLIP L/14 | Mistral Small 3.1 | Переход с контрастного обучения на языковую модель |
| Энкодер изображений | Отдельный ViT | Тот же Mistral | Унификация — один энкодер для всего |
| Архитектура | DiT | MM-DiT | Мультимодальный трансформер вместо чистого DiT |
| Параметры | 12B | 12B (эффективно меньше) | Та же сложность, но умнее архитектура |
Запускаем в Diffusers — это проще, чем кажется
Hugging Face уже интегрировал FLUX.2 в Diffusers. Хорошие новости: API почти не изменился. Плохие новости: нужно 24 ГБ VRAM для fp16. Очень плохие новости: без квантования на потребительских картах не запустится.
1 Устанавливаем зависимости
Diffusers 0.28.0 или новее. Transformers 4.44.0 или новее. Accelerate — обязательно. Без него даже не пытайтесь.
2 Базовый инференс
Создаём пайплайн — стандартный подход. Но есть нюанс: FLUX.2 поддерживает image-guided generation из коробки. Загружаете референсное изображение, задаёте промпт — модель генерирует что-то в том же стиле.
Не нужно отдельно настраивать ControlNet или Adapters. Всё работает через единый интерфейс. Передаёте PIL Image в параметр image — и модель понимает, что это guidance.
Внимание: image-guided generation работает только с определёнными весами. Проверяйте, что скачиваете — не все чекпоинты на Hugging Face поддерживают эту функцию.
3 Квантование для слабого железа
24 ГБ VRAM — это много. Слишком много для большинства. Решение: 8-битное квантование через bitsandbytes. Снижает требования до 12-14 ГБ. Ещё вариант — FlaxeoUI, который умеет работать с квантованными моделями из коробки.
Но помните: квантование снижает качество. Незначительно, но снижает. Особенно страдает детализация в сложных сценах.
LoRA-обучение — где собака зарыта
Хотите дообучить FLUX.2 на своих данных? Теоретически — да. Практически — готовьтесь к боли.
Проблема в MM-DiT архитектуре. LoRA обычно применяется к attention слоям. Но в MM-DiT attention работает и с текстом, и с изображениями одновременно. Добавляете LoRA — меняете поведение для всех модальностей. Это может сломать то, что уже работало.
Рекомендую посмотреть практическое руководство по LoRA для VibeVoice. Там разбираются похожие проблемы с мультимодальными моделями.
Ещё один совет: замораживайте веса энкодера (Mistral Small 3.1). Он и так хорош. Ваша задача — адаптировать диффузионную часть, а не переучивать языковую модель с нуля.
FLUX.2 против всех: кто кого?
Stable Diffusion 3? Устарел. DALL-E 3? Закрытый API. Midjourney? Дорого и без контроля. FLUX.2 занимает уникальную позицию: открытая модель с качеством уровня коммерческих решений.
- Против Stable Diffusion 3: FLUX.2 быстрее понимает сложные промпты. SD3 иногда тупит на составных запросах.
- Против DALL-E 3: Локальный запуск. Нет лимитов. Нет цензуры (хотя это палка о двух концах).
- Против Midjourney: Полный контроль над процессом. Можете менять сиды, количество шагов, guidance scale.
- Против Liquid AI LFM2-2.6B: FLUX.2 качественнее, но требует в 5 раз больше памяти. Выбор между качеством и доступностью.
Если сравнивать с другими компактными моделями вроде тех, что описаны в обзоре MiniMax M2, FLUX.2 явно выигрывает в качестве, но проигрывает в эффективности.
Кому подходит FLUX.2? Не всем
Идеальный пользователь FLUX.2:
- Исследователь, которому нужна state-of-the-art архитектура для экспериментов
- Студия с несколькими RTX 4090 или A100
- Разработчик, строящий коммерческий продукт на генерации изображений
- Энтузиаст, готовый потратить неделю на настройку и квантование
НЕ подходит:
- Владельцам GPU с 8 ГБ VRAM (без серьёзных компромиссов)
- Тем, кому нужно генерировать 100 изображений в минуту
- Новичкам, которые только начали разбираться с Stable Diffusion
Что дальше? Турбо-версия уже в пути
Black Forest Labs уже анонсировали FLUX.2-dev-Turbo. Если обычный FLUX.2 требует 50 шагов для хорошего результата, то турбо-версия обещает то же качество за 8 шагов. По сути, это ответ на статью про FLUX.2-dev-Turbo, которая уже появилась.
Архитектурно это будет та же MM-DiT, но с изменённым процессом диффузии. Меньше шагов — выше скорость. Идеально для интерактивных приложений.
Не ждите, что турбо-версия решит проблему с памятью. Она будет быстрее, но не легче. 24 ГБ VRAM останутся требованием по умолчанию.
Пока FLUX.2 не стал мейнстримом (из-за требований к железу), он задаёт направление. Унификация энкодеров, один трансформер для всех модальностей, использование языковых моделей вместо специализированных энкодеров — это тренд.
Через год такие архитектуры станут стандартом. А пока — наслаждайтесь ранним доступом к технологии, которая опережает время. И готовьте апгрейд видеокарты.