Что случилось с FLUX.1? Его съели

Black Forest Labs выпустили FLUX.2 — и это не просто обновление. Это полный пересмотр того, как должна работать диффузионная модель. Если FLUX.1 был хорош, то FLUX.2 заставляет его выглядеть как студенческий проект.

Архитектура MM-DiT (Multimodal Diffusion Transformer) — главная фишка. Вместо трёх отдельных энкодеров для текста, изображений и маски теперь работает один. Звучит как упрощение? Это не упрощение. Это переосмысление.

MM-DiT обрабатывает текст, изображения и маски в едином пространстве. Нет больше танцев с конкатенацией эмбеддингов — всё в одном трансформере.

Mistral Small 3.1 вместо трёх энкодеров

Вот где начинается магия. Black Forest Labs взяли Mistral Small 3.1 — да, ту самую языковую модель — и заставили её работать как универсальный энкодер. Текст? Пожалуйста. Изображение? Конвертируем в патчи. Маска? Тоже патчи.

Один энкодер вместо трёх. Меньше параметров. Лучшее понимание контекста. И главное — нет разрыва между модальностями. Модель видит текст и изображение как части одной задачи, а не как два отдельных входа, которые нужно как-то склеить.

Компонент	FLUX.1	FLUX.2	Что изменилось
Текстовый энкодер	CLIP L/14	Mistral Small 3.1	Переход с контрастного обучения на языковую модель
Энкодер изображений	Отдельный ViT	Тот же Mistral	Унификация — один энкодер для всего
Архитектура	DiT	MM-DiT	Мультимодальный трансформер вместо чистого DiT
Параметры	12B	12B (эффективно меньше)	Та же сложность, но умнее архитектура

Запускаем в Diffusers — это проще, чем кажется

Hugging Face уже интегрировал FLUX.2 в Diffusers. Хорошие новости: API почти не изменился. Плохие новости: нужно 24 ГБ VRAM для fp16. Очень плохие новости: без квантования на потребительских картах не запустится.

1 Устанавливаем зависимости

Diffusers 0.28.0 или новее. Transformers 4.44.0 или новее. Accelerate — обязательно. Без него даже не пытайтесь.

2 Базовый инференс

Создаём пайплайн — стандартный подход. Но есть нюанс: FLUX.2 поддерживает image-guided generation из коробки. Загружаете референсное изображение, задаёте промпт — модель генерирует что-то в том же стиле.

Не нужно отдельно настраивать ControlNet или Adapters. Всё работает через единый интерфейс. Передаёте PIL Image в параметр image — и модель понимает, что это guidance.

Внимание: image-guided generation работает только с определёнными весами. Проверяйте, что скачиваете — не все чекпоинты на Hugging Face поддерживают эту функцию.

3 Квантование для слабого железа

24 ГБ VRAM — это много. Слишком много для большинства. Решение: 8-битное квантование через bitsandbytes. Снижает требования до 12-14 ГБ. Ещё вариант — FlaxeoUI, который умеет работать с квантованными моделями из коробки.

Но помните: квантование снижает качество. Незначительно, но снижает. Особенно страдает детализация в сложных сценах.

LoRA-обучение — где собака зарыта

Хотите дообучить FLUX.2 на своих данных? Теоретически — да. Практически — готовьтесь к боли.

Проблема в MM-DiT архитектуре. LoRA обычно применяется к attention слоям. Но в MM-DiT attention работает и с текстом, и с изображениями одновременно. Добавляете LoRA — меняете поведение для всех модальностей. Это может сломать то, что уже работало.

💡

Начинайте с низкого rank (8 или 16). Высокий rank в MM-DiT приводит к переобучению быстрее, чем в обычных DiT моделях.

Рекомендую посмотреть практическое руководство по LoRA для VibeVoice. Там разбираются похожие проблемы с мультимодальными моделями.

Ещё один совет: замораживайте веса энкодера (Mistral Small 3.1). Он и так хорош. Ваша задача — адаптировать диффузионную часть, а не переучивать языковую модель с нуля.

FLUX.2 против всех: кто кого?

Stable Diffusion 3? Устарел. DALL-E 3? Закрытый API. Midjourney? Дорого и без контроля. FLUX.2 занимает уникальную позицию: открытая модель с качеством уровня коммерческих решений.

Против Stable Diffusion 3: FLUX.2 быстрее понимает сложные промпты. SD3 иногда тупит на составных запросах.
Против DALL-E 3: Локальный запуск. Нет лимитов. Нет цензуры (хотя это палка о двух концах).
Против Midjourney: Полный контроль над процессом. Можете менять сиды, количество шагов, guidance scale.
Против Liquid AI LFM2-2.6B: FLUX.2 качественнее, но требует в 5 раз больше памяти. Выбор между качеством и доступностью.

Если сравнивать с другими компактными моделями вроде тех, что описаны в обзоре MiniMax M2, FLUX.2 явно выигрывает в качестве, но проигрывает в эффективности.

Кому подходит FLUX.2? Не всем

Идеальный пользователь FLUX.2:

Исследователь, которому нужна state-of-the-art архитектура для экспериментов
Студия с несколькими RTX 4090 или A100
Разработчик, строящий коммерческий продукт на генерации изображений
Энтузиаст, готовый потратить неделю на настройку и квантование

НЕ подходит:

Владельцам GPU с 8 ГБ VRAM (без серьёзных компромиссов)
Тем, кому нужно генерировать 100 изображений в минуту
Новичкам, которые только начали разбираться с Stable Diffusion

Что дальше? Турбо-версия уже в пути

Black Forest Labs уже анонсировали FLUX.2-dev-Turbo. Если обычный FLUX.2 требует 50 шагов для хорошего результата, то турбо-версия обещает то же качество за 8 шагов. По сути, это ответ на статью про FLUX.2-dev-Turbo, которая уже появилась.

Архитектурно это будет та же MM-DiT, но с изменённым процессом диффузии. Меньше шагов — выше скорость. Идеально для интерактивных приложений.

Не ждите, что турбо-версия решит проблему с памятью. Она будет быстрее, но не легче. 24 ГБ VRAM останутся требованием по умолчанию.

Пока FLUX.2 не стал мейнстримом (из-за требований к железу), он задаёт направление. Унификация энкодеров, один трансформер для всех модальностей, использование языковых моделей вместо специализированных энкодеров — это тренд.

Через год такие архитектуры станут стандартом. А пока — наслаждайтесь ранним доступом к технологии, которая опережает время. И готовьте апгрейд видеокарты.

FLUX.2 в Diffusers: новая архитектура, которая заставит забыть про Stable Diffusion