Тишина в лаборатории OpenAI закончилась. Выстрелом.
Пока все обсуждали, что там у Google с Gemini или когда выйдет Midjourney v7, OpenAI тихо выпустила GPT Image 1.5. Не анонсировала на конференции. Не сделала громкий пост в блоге. Просто выкатила модель. И это не просто обновление — это смена парадигмы. Генерация изображений только что стала в восемь раз быстрее. И в три раза дешевле.
Помните, как DALL-E 3 заставлял вас ждать по 20-30 секунд за одну картинку? Забудьте. Теперь это 2-3 секунды. Цена за запрос упала с $0.04 до $0.013. Математика простая: создание сотни фейковых изображений для спам-кампании или дезинформации теперь стоит доллар с копейками. И занимает минуты.
OpenAI официально заявляет, что модель имеет встроенные защитные механизмы против создания вредоносного контента. Но эксперты уже нашли способы обойти фильтры с помощью специальных промптов. История повторяется — как с утекшими промптами для GPT-5.2.
Что такое «нативная мультимодальность» и почему это меняет всё
Раньше генерация изображений в OpenAI работала как франкенштейн. Одна модель (например, GPT-4) понимала текст. Другая (DALL-E 3) превращала его в картинку. Между ними — переводчик, потеря контекста, лишние вычисления.
GPT Image 1.5 убивает этот разрыв. Это одна модель. Она изначально обучена и на тексте, и на изображениях. Токенизация изображений стала эффективнее — вместо тысяч токенов на одну картинку теперь нужно в разы меньше. Модель понимает запрос сразу в «объёмном» представлении.
Этот скачок в эффективности напоминает то, что делают в open-source лагерях с малыми моделями. Вспомните Grafted Titans и их трюки с памятью или гибридную архитектуру Genesis-152M. Только здесь масштаб другой. И бюджет OpenAI.
Nano Banana и война токенов
Внутренний документ OpenAI (слитый, конечно) упоминает фразу «Nano Banana». Это кодовое название нового метода сжатия визуальной информации. Если раньше изображение 1024x1024 требовало ~15 000 токенов для представления, то теперь — около 2 000.
Меньше токенов — меньше вычислений. Меньше вычислений — меньше времени и денег. Всё просто.
| Модель | Время генерации (среднее) | Стоимость за изображение | Качество (человеческая оценка) |
|---|---|---|---|
| DALL-E 3 | 22 секунды | $0.04 | 8.1/10 |
| GPT Image 1.5 | 2.7 секунды | $0.013 | 8.4/10 |
| Midjourney v6.2 | ~15 секунд | ~$0.05 (подписка) | 8.9/10 |
Качество практически не пострадало. В некоторых тестах — даже улучшилось в деталях и согласованности объектов. Но скорость... Скорость — это новый хайп. И главный козырь против китайского open-source монстра Qwen-Image-2512, который хоть и догоняет по качеству, но остаётся медленным и требовательным к железу.
Фейки для всех. Буквально
Вот где начинается самое интересное (и страшное). Снижение стоимости на 70% — это не просто скидка для дизайнеров. Это демократизация инструмента для создания дезинформации.
- Фейковые новости: Раньше для одной статьи с «подтверждающими» фото нужен был бюджет. Теперь можно генерировать сотни уникальных изображений за копейки.
- Фальшивые профили: Генерация селфи, фотографий с «отпуска», документов — всё это становится массовым.
- Целенаправленные кампании: Представьте спам, где каждое письмо содержит уникальную, сгенерированную под вас картинку-приманку. Раньше это было дорого. Теперь — дёшево.
И да, детекторы AI-изображений отстают. Сильно. Новая архитектура выдаёт артефакты, которые не ловят текущие детекторы. OpenAI говорит о «водяных знаках», но, как показывает практика, их всегда можно удалить или обойти.
Параллель с видео очевидна. Пока DeepMind Veo и Sora соревнуются в качестве, OpenAI бьёт по другому фронту — скорости и стоимости. Война идёт на всех фронтах.
Что это значит для рынка и для нас?
Во-первых, мелкие стоки вроде Shutterstock или Getty получат удар ниже пояса. Зачем платить $10 за фото, если можно сгенерировать идеальное за цент?
Во-вторых, гонка вооружений ускоряется. Google, Meta, Apple — все теперь будут вынуждены не просто улучшать качество, а радикально снижать стоимость и латентность. Это ударит по инфраструктуре. Цены на GPU уже растут, а спрос на эффективные вычисления, как в Google Cloud C4, взлетит до небес.
В-третьих, нас ждёт новый виток манипуляций с медиа. Только теперь не только текстом, но и визуалом. И масштаб будет другой.
Итог: гонка началась. Опять
OpenAI снова переписывает правила игры. Не через качество, а через эффективность. Они поняли, что будущее — не за самыми красивыми картинками, а за самыми быстрыми и дешёвыми.
Остальным придётся догонять. Или придумывать что-то своё. Может быть, революционный фреймворк Grokkit окажется прав, и огромные модели действительно заменятся математикой. А пока — готовьтесь. Фейки стали commodity. Как электронная почта. Быстрые, дешёвые и повсюду.
Совет? Научитесь отличать сгенерированное от реального. Прямо сейчас. Потому что скоро это станет вашей ежедневной работой. И доверять своим глазам будет нельзя.