Забудьте про COCO: детектируйте что угодно, просто назвав это

Традиционные модели для компьютерного зрения требуют тысяч размеченных изображений и месяцев тренировок, чтобы научиться находить собак или чашки. В 2026 году это выглядит так же архаично, как заводить машину с ручки. Open-vocabulary детекция ломает эти рамки. Вы говорите модели на человеческом языке, что найти, и она находит. Хотите обнаружить "странную тень под диваном" или "самое яркое пятно на закате"? Пожалуйста.

Но Google пошел дальше. Их модель Gemini 3 Nano Banana не только находит объекты по описанию, но и понимает их пространственное положение в кадре. Это ключ. Потому что дальше можно взять и сказать: "Удали этот объект" или "Покрась его в синий". Без масок, без фотошопа. Чистая магия, которая работает из коробки.

Как Gemini Nano Banana видит мир? (И почему это не DALL-E)

Под капотом у Gemini 3 Nano Banana — мультимодальный трансформер, который учился на гигатоннах пар "изображение-текст". Он не запоминает классы вроде 'person' или 'car'. Вместо этого он строит общее представление о том, как слова соотносятся с визуальными паттернами. Когда вы просите найти "красную машину", модель ищет области, которые лучше всего соответствуют семантическому смыслу этого запроса, а не заранее заданному шаблону.

Важный нюанс на 2026 год: Gemini Nano Banana — это специальная оптимизированная версия для задач edge-вычислений и API. Она быстрее и дешевле в использовании, чем Gemini 3 Pro, но сохраняет всю мощь open-vocabulary понимания. Не путайте ее с большими моделями для генерации изображений.

1Готовим поле боя: установка и ключ API

Вам не нужен суперкомпьютер. Хватит Python 3.10+ и ключа от Google AI Studio (он все еще бесплатен в пределах квот). Первое, что бесит многих — это разборся с аутентификацией. Не повторяйте чужих ошибок, не храните ключ в коде.

# Не делайте так! Ключ утечет в git историю.
API_KEY = "AIzaSyB..."

Вместо этого используйте переменные окружения. Установите библиотеку:

pip install google-generativeai pillow requests numpy --upgrade

А ключ задайте в терминале: export GEMINI_API_KEY='ваш_ключ'. В коде получите его так:

import os
import google.generativeai as genai

api_key = os.environ.get("GEMINI_API_KEY")
if not api_key:
    raise ValueError("Установите переменную окружения GEMINI_API_KEY")
genai.configure(api_key=api_key)

# Используем самую свежую модель на февраль 2026
model = genai.GenerativeModel('gemini-3.0-nano-banana-vision')

2Загружаем картинку и спрашиваем "что тут есть?"

Допустим, у вас есть фото захламленного гаража. Вы хотите найти все инструменты. Раньше пришлось бы тренировать YOLO на датасете гаражного хлама. Теперь — один запрос.

from PIL import Image
import io
import requests

# Загружаем изображение
img_url = "https://example.com/garage.jpg"
response = requests.get(img_url)
image = Image.open(io.BytesIO(response.content))

# Конвертируем в формат, понятный Gemini
import google.generativeai.types as types
image_part = types.Part.from_image(image)

# Формируем промпт с инструкцией для детекции
prompt = """Найди все объекты на этом изображении, которые можно отнести к инструментам или оборудованию для ремонта. 
Верни ответ в формате JSON со списком объектов, где для каждого указаны:
- 'description': текстовое описание объекта
- 'bbox': bounding box в формате [x_min, y_min, x_max, y_max] (нормализованные координаты от 0 до 1)
"""

response = model.generate_content([image_part, prompt])
print(response.text)

Модель вернет структурированный JSON с координатами. Это не просто классификация — она описывает объекты своими словами: "ржавый разводной ключ на полке", "дрель с красным корпусом".

💡

Используйте конкретные описания. Запрос "инструменты" сработает, но "отвертки, гаечные ключи и пассатижи" даст более точные результаты. Gemini понимает контекст и синонимы.

3Магия редактирования: "Убери этот мусор!"

А вот где начинается самое интересное. Получив координаты объекта, вы можете отправить их обратно в Gemini вместе с командой на редактирование. Для этого используем новый метод edit_image, который появился в API в конце 2025 года.

# Предположим, мы получили bbox для объекта 'старая банка с краской'
bbox = [0.25, 0.4, 0.35, 0.5]  # пример координат

edit_prompt = f"""Удали объект в bounding box {bbox} с изображения. 
Заполни область, учитывая окружающий фон (бетонный пол).
"""

# Используем специализированную модель для редактирования
edit_model = genai.GenerativeModel('gemini-3.0-nano-banana-editor')
edit_response = edit_model.generate_content([
    types.Part.from_image(image),
    types.Part.from_text(edit_prompt)
], generation_config={"temperature": 0.1})

# Результат - редактированное изображение в формате base64 или сырых байтах
edited_image_data = edit_response.candidates[0].content.parts[0].inline_data.data
with open("garage_cleaned.jpg", "wb") as f:
    f.write(edited_image_data)
print("Изображение сохранено!")

В теории это звучит просто. На практике, если объект сложный (например, человек, частично закрытый деревом), результат может потребовать доработки. Но для 80% бытовых задач — вырезка ненужных предметов, изменение цвета конкретной машины — этого хватает.

С чем сравнивать? SAM, Grounding DINO и другие динозавры

Когда в 2023 году Meta выпустила Segment Anything Model (SAM), это был взрыв. Но SAM требует точек или bbox для сегментации. Он не понимает текст. Grounding DINO добавил текстовое понимание, но его точность на редких объектах оставляла желать лучшего.

Инструмент	Текст как запрос?	Редактирование?	Сложность интеграции
Gemini 3 Nano Banana (2026)	Да, с семантическим пониманием	Встроенное, инпейнтинг	Низкая (API)
Meta SAM 2 (2025)	Нет, только точки/маска	Только сегментация	Средняя (тяжелая модель)
Grounding DINO 2	Да, но словарный запас ограничен	Нет	Высокая (нужен PyTorch, CUDA)

Главный козырь Gemini — это единый пайплайн: от описания к детекции и сразу к редактированию. Не нужно стыковать три разные нейросети. Кстати, о безопасности таких моделей — если интересно, как их можно обмануть, почитайте про adversarial-атаки на Gemini и Grok.

Кому и зачем это нужно прямо сейчас?

Дизайнеры и фотографы: Быстрое удаление мусора с фото, замена фона конкретного объекта без кропотливого выделения. Экономия часов работы в Photoshop.
Разработчики мобильных приложений: Создание прототипов с AR-фильтрами, где нужно динамически манипулировать объектами в кадре. Интеграция через API занимает день.
Контент-менеджеры и маркетологи: Адаптация одних и тех же изображений для разных регионов (например, замена вывески на магазине).
Исследователи: Автоматическая разметка датасетов для обучения других моделей. Просто опишите классы — получите bbox.

Если вы разработчик и хотите глубже понять, как работать с Gemini не только для зрения, посмотрите гайд по Gemini Pro для разработчиков. Там многое про архитектуру и тонкости API.

Что может пойти не так? Ловушки на практике

В ходе тестов вылезают типичные грабли:

Слишком абстрактные запросы. "Найди что-то интересное" — Gemini может вернуть вам философский трактат вместо координат. Будьте конкретны.
Мелкие или перекрытые объекты. Модель не всесильна. Если объект занимает меньше 1% кадра или наполовину спрятан, детекция будет неточной.
Редактирование сложных текстур. Удаление объекта с градиентным фоном (небо, трава) часто оставляет артефакты. Для профессионального использования все равно нужна ручная проверка.
Лимиты API. Google AI Studio на февраль 2026 года дает 60 запросов в минуту по бесплатному тарифу. Для пакетной обработки сотен изображений этого мало.

И последнее: не пытайтесь использовать эту технологию для автоматической модерации контента без человеческого надзора. Модель может ошибиться, и последствия будут дорогими. Всегда проверяйте результат.

Что дальше? К 2027 году open-vocabulary детекция станет стандартной фичей в каждом фоторедакторе и камере смартфона. А инструменты вроде Gemini Nano Banana окончательно сотрут грань между "найти" и "изменить". Начните экспериментировать сейчас, чтобы не играть в догонялки завтра. Просто не забудьте про переменные окружения.

Подписаться на канал

Open-vocabulary детекция объектов и их редактирование с Gemini: полный туториал с кодом