Лучшие локальные text-to-image модели 2026: тест 192 промптов | Обзор | AiManual
AiManual Logo Ai / Manual.
21 Июн 2026 Гайд

Лучшие локальные модели text-to-image: тест 192 промптов и методология сравнения

Сравнение локальных моделей генерации изображений: Stable Diffusion 3.5, Flux.1, PixArt-Σ, Kandinsky 3.1. Результаты тестирования 192 промптов, методология, плю

Реклама
cliv2

Хватит гадать, какая модель круче. 192 промпта, четыре дня генерации, тонна искалеченных рук и пара откровений. Вот как это было.

Каждый месяц выходят новые чекпоинты, авторы клянутся, что их модель наконец-то рисует пять пальцев, а не шесть. Но когда садишься за реальную задачу — постер для пет-проекта, обложка для статьи, просто картинка с котом-астронавтом, — почему-то получается кринж. Лично я устал верить обещаниям. Поэтому взял четыре топовые локальные модели (на июнь 2026) и прогнал через 192 тщательно отобранных промпта. Без слепого доверия, без хайповых скриншотов. Только факты.

Методология: почему 192, а не 100

Просто 100 — слишком мало, чтобы покрыть все узкие места нейросетей. Я собрал 16 категорий по 12 промптов в каждой. Категории били по самым больным точкам современных text-to-image моделей:

  • Реалистичные портреты (проверка кожи, глаз, волос)
  • Фэнтези-арт (сложное освещение, магические эффекты)
  • Пейзажи с глубиной (перспектива, туман, вода)
  • Архитектура (прямые линии, симметрия)
  • Еда (текстура, сочность, тарелка)
  • Животные (шерсть, глаза, позы)
  • Киберпанк/город (неон, отражения)
  • Анатомия — руки, ноги, пальцы (главная боль)
  • Текст в изображении (вывески, книги, постеры)
  • Многоперсонажные сцены (взаимодействие)
  • Сложные ракурсы (снизу вверх, сверху вниз)
  • Стилизация под известных художников
  • Минимализм (мало деталей — не значит легко)
  • Абстракция (геометрия, цвета)
  • Эмодзи и символы (проверка понимания семантики)
  • Хоррор (атмосфера, тени, искажения)
💡
Промпты составлялись так, чтобы проверить не только качество, но и верность промпту. Например, если написано "красный шарф на белом фоне", а модель рисует синий — это провал.

Все генерации проводились на одном ПК (NVIDIA RTX 5090, 64 GB RAM, Ubuntu 24.04). Параметры фиксированы: шаги — 30, CFG — 7, sampler — DPM++ 2M Karras, размер — 1024×1024. Для моделей, поддерживающих refiner, использовался рефайнер по умолчанию. Никаких дополнительных лор, никаких эмбеддингов. Чистая модель из коробки — как её скачает новичок.

Модели на старте

На момент теста (июнь 2026) в топе локальных моделей были:

  • Stable Diffusion 3.5 Medium — официальный наследник SDXL, обещающий понимание текста и нормальные руки.
  • Flux.1-dev — детище Black Forest Labs, хайпанувшее фотореализмом.
  • PixArt-Σ — next-gen от бывших разработчиков Stable Diffusion, лёгкая и шустрая.
  • Kandinsky 3.1 — российская модель от Sber AI, известная хорошей композицией.

Почему именно эти? SD 3.5 — мейнстрим, Flux — новый игрок с громкими заявлениями, PixArt — технологичный прорыв (тренировалась дистилляцией), Kandinsky — стабильный выбор с огромным комьюнити на русском. Я не брал SDXL, потому что она уже морально устарела, а в экспериментальном логе по тренировкам PRX видно, что даже дообучение SDXL упирается в потолок. Нам нужны актуальные архитектуры.

Результаты: кто не сломал руки

Давайте сразу к мясу. Вот средние баллы по категориям (от 0 до 10, усреднение по 12 промптам). Оценки ставил я лично, но дважды перепроверял через неделю, чтобы снять субъективность.

Категория SD 3.5 Flux.1-dev PixArt-Σ Kandinsky 3.1
Реализм8.29.57.18.8
Анатомия (руки)7.68.06.37.0
Текст в картинке8.96.27.58.1
Фэнтези/арт7.57.88.47.2
Пейзажи8.08.97.88.5
Многоперсонажные7.27.56.87.9
Верность промпту8.47.17.98.2

Фотореализм: уверенно лидирует Flux.1-dev. У неё почти нет пластиковых лиц, текстура кожи — как у реальных фотографий. Но за это приходится платить: если промпт отклоняется от реализма в сторону стилизации, Flux начинает художественно страдать. PixArt-Σ наоборот — гениально рисует фэнтези и абстракции, но с реальными людьми выглядит неестественно. SD 3.5 — золотая середина, лучшая по тексту. Kandinsky 3.1 стабилен во всём, но не выдаёт вау-эффекта.

⚠️ Сюрприз: ни одна модель не нарисовала идеальные руки в 100% случаев. Даже Flux ошиблась в 2 из 12 промптов с руками — один раз скрестила лишний палец, другой — загнула кисть под невозможным углом. Прогресс есть (вспомните SD 1.5 с её “пальцами-спагетти”), но до идеала далеко. Проблема — в фундаментальном ограничении: как показано в статье про слепые пятна VLM, модели часто путают распознавание формы с её пространственным пониманием.

Текст в картинках: главная боль

Многие хотят сгенерировать постер с осмысленным текстом. И вот тут Stable Diffusion 3.5 оторвалась на 2-3 очка от остальных. У неё встройка понимает отдельные буквы и даже короткие фразы (до 5 слов) практически без ошибок. Посмотрите на GLM-Image — китайский гибрид, который генерирует и правит картинки, там также акцент на текст. В локальных моделях это слабое место почти у всех, кроме SD3.5. Flux делает текст нечитаемой кашей, PixArt-Σ путает похожие буквы, Kandinsky — приемлемо, но на русском показывает артефакты (ожидаемо, ведь тренировалась в основном на английском).

Если вам критично именно генерация текста (например, мемы, обложки, логотипы) — берите SD 3.5. Если готовы дорисовывать текст потом в фотошопе — Flux выдаст лучшую картинку, а текст можно добавить через OCR-движки, как мы тестировали в статье про сравнение OCR. Но это уже другой уровень сложности.

Вердикт: берите эту, если...

Тест 192 промптов — бескомпромиссный и затратный. Но он дал чёткую картину. Вот мои рекомендации без воды:

  • Для фотореализма и портретов — Flux.1-dev. Только готовьтесь к тому, что придётся ставить больше шагов (40-50) и играть с CFG.
  • Для работы с текстом и верности промпту — Stable Diffusion 3.5 Medium. Лучший вариант для продакшена, где нужно точное следование инструкции.
  • Для креативного арта, фэнтези, абстракций — PixArt-Σ. Она легковесна и выдаёт неожиданные красивые решения.
  • Для компромисса “всё в одном” — Kandinsky 3.1. Не проваливается нигде, но и не выдаёт восторга. Хороший выбор, если не хотите заморачиваться.

📌 Неочевидный совет: не гонитесь за моделью, которая родилась вчера. Лучшая модель — та, у которой больше экосистема. На момент теста у SD 3.5 уже тысячи лор и контролов, сообщество быстро фиксит баги. Flux.1 только начинает обрастать инструментами, но базовая архитектура сыровата. А PixArt-Σ — отличная вторая модель для специфических задач. Держите под рукой две-три, и вы закроете 99% задач. Кстати, про лоры и методы тренировки — обязательно прочитайте исследование Photoroom. Там показано, как ablation-эксперименты могут кардинально улучшить поведение модели.

Подписаться на канал