Какая локальная модель text-to-image лучше всего рисует руки?

Flux.1-dev показал лучшие результаты в категории анатомии (8.0 из 10), но ни одна модель не рисует руки идеально в 100% случаев. Стабильно хороший результат у Stable Diffusion 3.5 (7.6). PixArt-Σ и Kandinsky 3.1 чаще ошибаются с количеством пальцев.

Какая модель лучше всего генерирует текст на картинке?

Stable Diffusion 3.5 Medium уверенно лидирует по качеству текста (8.9). Kandinsky 3.1 на втором месте (8.1), но на русском языке возможны артефакты. Flux.1-dev текст практически не читается (6.2).

Сколько промптов использовалось в тесте?

Ровно 192 промпта, разбитых на 16 категорий по 12 промптов в каждой. Категории покрывают реализм, фэнтези, текст, анатомию, сложные сцены и другие узкие места моделей.

На каком оборудовании проводилось тестирование?

NVIDIA RTX 5090, 64 GB RAM, Ubuntu 24.04. Параметры генерации фиксированы: 30 шагов, CFG 7, семплер DPM++ 2M Karras, размер 1024x1024. Никаких дополнительных лор или эмбеддингов.

Лучшие локальные text-to-image модели 2026: тест 192 промптов | Обзор

Хватит гадать, какая модель круче. 192 промпта, четыре дня генерации, тонна искалеченных рук и пара откровений. Вот как это было.

Каждый месяц выходят новые чекпоинты, авторы клянутся, что их модель наконец-то рисует пять пальцев, а не шесть. Но когда садишься за реальную задачу — постер для пет-проекта, обложка для статьи, просто картинка с котом-астронавтом, — почему-то получается кринж. Лично я устал верить обещаниям. Поэтому взял четыре топовые локальные модели (на июнь 2026) и прогнал через 192 тщательно отобранных промпта. Без слепого доверия, без хайповых скриншотов. Только факты.

Методология: почему 192, а не 100

Просто 100 — слишком мало, чтобы покрыть все узкие места нейросетей. Я собрал 16 категорий по 12 промптов в каждой. Категории били по самым больным точкам современных text-to-image моделей:

Реалистичные портреты (проверка кожи, глаз, волос)
Фэнтези-арт (сложное освещение, магические эффекты)
Пейзажи с глубиной (перспектива, туман, вода)
Архитектура (прямые линии, симметрия)
Еда (текстура, сочность, тарелка)
Животные (шерсть, глаза, позы)
Киберпанк/город (неон, отражения)
Анатомия — руки, ноги, пальцы (главная боль)
Текст в изображении (вывески, книги, постеры)
Многоперсонажные сцены (взаимодействие)
Сложные ракурсы (снизу вверх, сверху вниз)
Стилизация под известных художников
Минимализм (мало деталей — не значит легко)
Абстракция (геометрия, цвета)
Эмодзи и символы (проверка понимания семантики)
Хоррор (атмосфера, тени, искажения)

💡

Промпты составлялись так, чтобы проверить не только качество, но и верность промпту. Например, если написано "красный шарф на белом фоне", а модель рисует синий — это провал.

Все генерации проводились на одном ПК (NVIDIA RTX 5090, 64 GB RAM, Ubuntu 24.04). Параметры фиксированы: шаги — 30, CFG — 7, sampler — DPM++ 2M Karras, размер — 1024×1024. Для моделей, поддерживающих refiner, использовался рефайнер по умолчанию. Никаких дополнительных лор, никаких эмбеддингов. Чистая модель из коробки — как её скачает новичок.

Модели на старте

На момент теста (июнь 2026) в топе локальных моделей были:

Stable Diffusion 3.5 Medium — официальный наследник SDXL, обещающий понимание текста и нормальные руки.
Flux.1-dev — детище Black Forest Labs, хайпанувшее фотореализмом.
PixArt-Σ — next-gen от бывших разработчиков Stable Diffusion, лёгкая и шустрая.
Kandinsky 3.1 — российская модель от Sber AI, известная хорошей композицией.

Почему именно эти? SD 3.5 — мейнстрим, Flux — новый игрок с громкими заявлениями, PixArt — технологичный прорыв (тренировалась дистилляцией), Kandinsky — стабильный выбор с огромным комьюнити на русском. Я не брал SDXL, потому что она уже морально устарела, а в экспериментальном логе по тренировкам PRX видно, что даже дообучение SDXL упирается в потолок. Нам нужны актуальные архитектуры.

Результаты: кто не сломал руки

Давайте сразу к мясу. Вот средние баллы по категориям (от 0 до 10, усреднение по 12 промптам). Оценки ставил я лично, но дважды перепроверял через неделю, чтобы снять субъективность.

Категория	SD 3.5	Flux.1-dev	PixArt-Σ	Kandinsky 3.1
Реализм	8.2	9.5	7.1	8.8
Анатомия (руки)	7.6	8.0	6.3	7.0
Текст в картинке	8.9	6.2	7.5	8.1
Фэнтези/арт	7.5	7.8	8.4	7.2
Пейзажи	8.0	8.9	7.8	8.5
Многоперсонажные	7.2	7.5	6.8	7.9
Верность промпту	8.4	7.1	7.9	8.2

Фотореализм: уверенно лидирует Flux.1-dev. У неё почти нет пластиковых лиц, текстура кожи — как у реальных фотографий. Но за это приходится платить: если промпт отклоняется от реализма в сторону стилизации, Flux начинает художественно страдать. PixArt-Σ наоборот — гениально рисует фэнтези и абстракции, но с реальными людьми выглядит неестественно. SD 3.5 — золотая середина, лучшая по тексту. Kandinsky 3.1 стабилен во всём, но не выдаёт вау-эффекта.

⚠️ Сюрприз: ни одна модель не нарисовала идеальные руки в 100% случаев. Даже Flux ошиблась в 2 из 12 промптов с руками — один раз скрестила лишний палец, другой — загнула кисть под невозможным углом. Прогресс есть (вспомните SD 1.5 с её “пальцами-спагетти”), но до идеала далеко. Проблема — в фундаментальном ограничении: как показано в статье про слепые пятна VLM, модели часто путают распознавание формы с её пространственным пониманием.

Текст в картинках: главная боль

Многие хотят сгенерировать постер с осмысленным текстом. И вот тут Stable Diffusion 3.5 оторвалась на 2-3 очка от остальных. У неё встройка понимает отдельные буквы и даже короткие фразы (до 5 слов) практически без ошибок. Посмотрите на GLM-Image — китайский гибрид, который генерирует и правит картинки, там также акцент на текст. В локальных моделях это слабое место почти у всех, кроме SD3.5. Flux делает текст нечитаемой кашей, PixArt-Σ путает похожие буквы, Kandinsky — приемлемо, но на русском показывает артефакты (ожидаемо, ведь тренировалась в основном на английском).

Если вам критично именно генерация текста (например, мемы, обложки, логотипы) — берите SD 3.5. Если готовы дорисовывать текст потом в фотошопе — Flux выдаст лучшую картинку, а текст можно добавить через OCR-движки, как мы тестировали в статье про сравнение OCR. Но это уже другой уровень сложности.

Вердикт: берите эту, если...

Тест 192 промптов — бескомпромиссный и затратный. Но он дал чёткую картину. Вот мои рекомендации без воды:

Для фотореализма и портретов — Flux.1-dev. Только готовьтесь к тому, что придётся ставить больше шагов (40-50) и играть с CFG.
Для работы с текстом и верности промпту — Stable Diffusion 3.5 Medium. Лучший вариант для продакшена, где нужно точное следование инструкции.
Для креативного арта, фэнтези, абстракций — PixArt-Σ. Она легковесна и выдаёт неожиданные красивые решения.
Для компромисса “всё в одном” — Kandinsky 3.1. Не проваливается нигде, но и не выдаёт восторга. Хороший выбор, если не хотите заморачиваться.

📌 Неочевидный совет: не гонитесь за моделью, которая родилась вчера. Лучшая модель — та, у которой больше экосистема. На момент теста у SD 3.5 уже тысячи лор и контролов, сообщество быстро фиксит баги. Flux.1 только начинает обрастать инструментами, но базовая архитектура сыровата. А PixArt-Σ — отличная вторая модель для специфических задач. Держите под рукой две-три, и вы закроете 99% задач. Кстати, про лоры и методы тренировки — обязательно прочитайте исследование Photoroom. Там показано, как ablation-эксперименты могут кардинально улучшить поведение модели.

Подписаться на канал

Лучшие локальные модели text-to-image: тест 192 промптов и методология сравнения

Методология: почему 192, а не 100

Модели на старте

Результаты: кто не сломал руки

Текст в картинках: главная боль

Вердикт: берите эту, если...

Подписывайтесь на наш канал!