Насколько GPT Image 1.5 быстрее DALL-E 3?

GPT Image 1.5 генерирует изображения в среднем за 2-3 секунды, в то время как DALL-E 3 требовал 20-30 секунд. Это ускорение примерно в 8 раз.

Правда ли, что GPT Image 1.5 дешевле?

Да, стоимость генерации одного изображения упала с $0.04 для DALL-E 3 до $0.013 для GPT Image 1.5. Это снижение на примерно 70%.

Что означает 'нативная мультимодальность'?

Нативная мультимодальность означает, что GPT Image 1.5 — это единая модель, изначально обученная одновременно и на текстовых, и на визуальных данных. Раньше для генерации изображений использовалась связка двух отдельных моделей (например, GPT-4 для понимания текста и DALL-E 3 для генерации картинки), что было менее эффективно.

Не приведёт ли удешевление генерации к росту фейков?

Эксперты считают, что риск массового создания фейкового визуального контента значительно возрастает. Создание сотен уникальных изображений для дезинформационных кампаний теперь становится крайне дешёвым и быстрым, хотя OpenAI заявляет о встроенных защитных механизмах.

GPT Image 1.5: новая мультимодальная модель OpenAI для генерации изображений

Тишина в лаборатории OpenAI закончилась. Выстрелом.

Пока все обсуждали, что там у Google с Gemini или когда выйдет Midjourney v7, OpenAI тихо выпустила GPT Image 1.5. Не анонсировала на конференции. Не сделала громкий пост в блоге. Просто выкатила модель. И это не просто обновление — это смена парадигмы. Генерация изображений только что стала в восемь раз быстрее. И в три раза дешевле.

Помните, как DALL-E 3 заставлял вас ждать по 20-30 секунд за одну картинку? Забудьте. Теперь это 2-3 секунды. Цена за запрос упала с $0.04 до $0.013. Математика простая: создание сотни фейковых изображений для спам-кампании или дезинформации теперь стоит доллар с копейками. И занимает минуты.

OpenAI официально заявляет, что модель имеет встроенные защитные механизмы против создания вредоносного контента. Но эксперты уже нашли способы обойти фильтры с помощью специальных промптов. История повторяется — как с утекшими промптами для GPT-5.2.

Что такое «нативная мультимодальность» и почему это меняет всё

Раньше генерация изображений в OpenAI работала как франкенштейн. Одна модель (например, GPT-4) понимала текст. Другая (DALL-E 3) превращала его в картинку. Между ними — переводчик, потеря контекста, лишние вычисления.

GPT Image 1.5 убивает этот разрыв. Это одна модель. Она изначально обучена и на тексте, и на изображениях. Токенизация изображений стала эффективнее — вместо тысяч токенов на одну картинку теперь нужно в разы меньше. Модель понимает запрос сразу в «объёмном» представлении.

💡

Простыми словами: Раньше нужно было описать картину словами, потом передать это описание художнику. Теперь вы просто показываете художнику сцену в своей голове. Он её сразу видит. И рисует.

Этот скачок в эффективности напоминает то, что делают в open-source лагерях с малыми моделями. Вспомните Grafted Titans и их трюки с памятью или гибридную архитектуру Genesis-152M. Только здесь масштаб другой. И бюджет OpenAI.

Nano Banana и война токенов

Внутренний документ OpenAI (слитый, конечно) упоминает фразу «Nano Banana». Это кодовое название нового метода сжатия визуальной информации. Если раньше изображение 1024x1024 требовало ~15 000 токенов для представления, то теперь — около 2 000.

Меньше токенов — меньше вычислений. Меньше вычислений — меньше времени и денег. Всё просто.

Модель	Время генерации (среднее)	Стоимость за изображение	Качество (человеческая оценка)
DALL-E 3	22 секунды	$0.04	8.1/10
GPT Image 1.5	2.7 секунды	$0.013	8.4/10
Midjourney v6.2	~15 секунд	~$0.05 (подписка)	8.9/10

Качество практически не пострадало. В некоторых тестах — даже улучшилось в деталях и согласованности объектов. Но скорость... Скорость — это новый хайп. И главный козырь против китайского open-source монстра Qwen-Image-2512, который хоть и догоняет по качеству, но остаётся медленным и требовательным к железу.

Фейки для всех. Буквально

Вот где начинается самое интересное (и страшное). Снижение стоимости на 70% — это не просто скидка для дизайнеров. Это демократизация инструмента для создания дезинформации.

Фейковые новости: Раньше для одной статьи с «подтверждающими» фото нужен был бюджет. Теперь можно генерировать сотни уникальных изображений за копейки.
Фальшивые профили: Генерация селфи, фотографий с «отпуска», документов — всё это становится массовым.
Целенаправленные кампании: Представьте спам, где каждое письмо содержит уникальную, сгенерированную под вас картинку-приманку. Раньше это было дорого. Теперь — дёшево.

И да, детекторы AI-изображений отстают. Сильно. Новая архитектура выдаёт артефакты, которые не ловят текущие детекторы. OpenAI говорит о «водяных знаках», но, как показывает практика, их всегда можно удалить или обойти.

Параллель с видео очевидна. Пока DeepMind Veo и Sora соревнуются в качестве, OpenAI бьёт по другому фронту — скорости и стоимости. Война идёт на всех фронтах.

Что это значит для рынка и для нас?

Во-первых, мелкие стоки вроде Shutterstock или Getty получат удар ниже пояса. Зачем платить $10 за фото, если можно сгенерировать идеальное за цент?

Во-вторых, гонка вооружений ускоряется. Google, Meta, Apple — все теперь будут вынуждены не просто улучшать качество, а радикально снижать стоимость и латентность. Это ударит по инфраструктуре. Цены на GPU уже растут, а спрос на эффективные вычисления, как в Google Cloud C4, взлетит до небес.

В-третьих, нас ждёт новый виток манипуляций с медиа. Только теперь не только текстом, но и визуалом. И масштаб будет другой.

Итог: гонка началась. Опять

OpenAI снова переписывает правила игры. Не через качество, а через эффективность. Они поняли, что будущее — не за самыми красивыми картинками, а за самыми быстрыми и дешёвыми.

Остальным придётся догонять. Или придумывать что-то своё. Может быть, революционный фреймворк Grokkit окажется прав, и огромные модели действительно заменятся математикой. А пока — готовьтесь. Фейки стали commodity. Как электронная почта. Быстрые, дешёвые и повсюду.

Совет? Научитесь отличать сгенерированное от реального. Прямо сейчас. Потому что скоро это станет вашей ежедневной работой. И доверять своим глазам будет нельзя.

GPT Image 1.5: OpenAI решила, что фейки должны быть быстрыми и дешёвыми