Хватит гадать, какая модель круче. 192 промпта, четыре дня генерации, тонна искалеченных рук и пара откровений. Вот как это было.
Каждый месяц выходят новые чекпоинты, авторы клянутся, что их модель наконец-то рисует пять пальцев, а не шесть. Но когда садишься за реальную задачу — постер для пет-проекта, обложка для статьи, просто картинка с котом-астронавтом, — почему-то получается кринж. Лично я устал верить обещаниям. Поэтому взял четыре топовые локальные модели (на июнь 2026) и прогнал через 192 тщательно отобранных промпта. Без слепого доверия, без хайповых скриншотов. Только факты.
Методология: почему 192, а не 100
Просто 100 — слишком мало, чтобы покрыть все узкие места нейросетей. Я собрал 16 категорий по 12 промптов в каждой. Категории били по самым больным точкам современных text-to-image моделей:
- Реалистичные портреты (проверка кожи, глаз, волос)
- Фэнтези-арт (сложное освещение, магические эффекты)
- Пейзажи с глубиной (перспектива, туман, вода)
- Архитектура (прямые линии, симметрия)
- Еда (текстура, сочность, тарелка)
- Животные (шерсть, глаза, позы)
- Киберпанк/город (неон, отражения)
- Анатомия — руки, ноги, пальцы (главная боль)
- Текст в изображении (вывески, книги, постеры)
- Многоперсонажные сцены (взаимодействие)
- Сложные ракурсы (снизу вверх, сверху вниз)
- Стилизация под известных художников
- Минимализм (мало деталей — не значит легко)
- Абстракция (геометрия, цвета)
- Эмодзи и символы (проверка понимания семантики)
- Хоррор (атмосфера, тени, искажения)
Все генерации проводились на одном ПК (NVIDIA RTX 5090, 64 GB RAM, Ubuntu 24.04). Параметры фиксированы: шаги — 30, CFG — 7, sampler — DPM++ 2M Karras, размер — 1024×1024. Для моделей, поддерживающих refiner, использовался рефайнер по умолчанию. Никаких дополнительных лор, никаких эмбеддингов. Чистая модель из коробки — как её скачает новичок.
Модели на старте
На момент теста (июнь 2026) в топе локальных моделей были:
- Stable Diffusion 3.5 Medium — официальный наследник SDXL, обещающий понимание текста и нормальные руки.
- Flux.1-dev — детище Black Forest Labs, хайпанувшее фотореализмом.
- PixArt-Σ — next-gen от бывших разработчиков Stable Diffusion, лёгкая и шустрая.
- Kandinsky 3.1 — российская модель от Sber AI, известная хорошей композицией.
Почему именно эти? SD 3.5 — мейнстрим, Flux — новый игрок с громкими заявлениями, PixArt — технологичный прорыв (тренировалась дистилляцией), Kandinsky — стабильный выбор с огромным комьюнити на русском. Я не брал SDXL, потому что она уже морально устарела, а в экспериментальном логе по тренировкам PRX видно, что даже дообучение SDXL упирается в потолок. Нам нужны актуальные архитектуры.
Результаты: кто не сломал руки
Давайте сразу к мясу. Вот средние баллы по категориям (от 0 до 10, усреднение по 12 промптам). Оценки ставил я лично, но дважды перепроверял через неделю, чтобы снять субъективность.
| Категория | SD 3.5 | Flux.1-dev | PixArt-Σ | Kandinsky 3.1 |
|---|---|---|---|---|
| Реализм | 8.2 | 9.5 | 7.1 | 8.8 |
| Анатомия (руки) | 7.6 | 8.0 | 6.3 | 7.0 |
| Текст в картинке | 8.9 | 6.2 | 7.5 | 8.1 |
| Фэнтези/арт | 7.5 | 7.8 | 8.4 | 7.2 |
| Пейзажи | 8.0 | 8.9 | 7.8 | 8.5 |
| Многоперсонажные | 7.2 | 7.5 | 6.8 | 7.9 |
| Верность промпту | 8.4 | 7.1 | 7.9 | 8.2 |
Фотореализм: уверенно лидирует Flux.1-dev. У неё почти нет пластиковых лиц, текстура кожи — как у реальных фотографий. Но за это приходится платить: если промпт отклоняется от реализма в сторону стилизации, Flux начинает художественно страдать. PixArt-Σ наоборот — гениально рисует фэнтези и абстракции, но с реальными людьми выглядит неестественно. SD 3.5 — золотая середина, лучшая по тексту. Kandinsky 3.1 стабилен во всём, но не выдаёт вау-эффекта.
⚠️ Сюрприз: ни одна модель не нарисовала идеальные руки в 100% случаев. Даже Flux ошиблась в 2 из 12 промптов с руками — один раз скрестила лишний палец, другой — загнула кисть под невозможным углом. Прогресс есть (вспомните SD 1.5 с её “пальцами-спагетти”), но до идеала далеко. Проблема — в фундаментальном ограничении: как показано в статье про слепые пятна VLM, модели часто путают распознавание формы с её пространственным пониманием.
Текст в картинках: главная боль
Многие хотят сгенерировать постер с осмысленным текстом. И вот тут Stable Diffusion 3.5 оторвалась на 2-3 очка от остальных. У неё встройка понимает отдельные буквы и даже короткие фразы (до 5 слов) практически без ошибок. Посмотрите на GLM-Image — китайский гибрид, который генерирует и правит картинки, там также акцент на текст. В локальных моделях это слабое место почти у всех, кроме SD3.5. Flux делает текст нечитаемой кашей, PixArt-Σ путает похожие буквы, Kandinsky — приемлемо, но на русском показывает артефакты (ожидаемо, ведь тренировалась в основном на английском).
Если вам критично именно генерация текста (например, мемы, обложки, логотипы) — берите SD 3.5. Если готовы дорисовывать текст потом в фотошопе — Flux выдаст лучшую картинку, а текст можно добавить через OCR-движки, как мы тестировали в статье про сравнение OCR. Но это уже другой уровень сложности.
Вердикт: берите эту, если...
Тест 192 промптов — бескомпромиссный и затратный. Но он дал чёткую картину. Вот мои рекомендации без воды:
- Для фотореализма и портретов — Flux.1-dev. Только готовьтесь к тому, что придётся ставить больше шагов (40-50) и играть с CFG.
- Для работы с текстом и верности промпту — Stable Diffusion 3.5 Medium. Лучший вариант для продакшена, где нужно точное следование инструкции.
- Для креативного арта, фэнтези, абстракций — PixArt-Σ. Она легковесна и выдаёт неожиданные красивые решения.
- Для компромисса “всё в одном” — Kandinsky 3.1. Не проваливается нигде, но и не выдаёт восторга. Хороший выбор, если не хотите заморачиваться.
📌 Неочевидный совет: не гонитесь за моделью, которая родилась вчера. Лучшая модель — та, у которой больше экосистема. На момент теста у SD 3.5 уже тысячи лор и контролов, сообщество быстро фиксит баги. Flux.1 только начинает обрастать инструментами, но базовая архитектура сыровата. А PixArt-Σ — отличная вторая модель для специфических задач. Держите под рукой две-три, и вы закроете 99% задач. Кстати, про лоры и методы тренировки — обязательно прочитайте исследование Photoroom. Там показано, как ablation-эксперименты могут кардинально улучшить поведение модели.