Gemini Robotics 1.5: обзор AI-агентов для управления роботами | AiManual
AiManual Logo Ai / Manual.
11 Янв 2026 Инструмент

Gemini Robotics 1.5: как AI-агенты начинают управлять роботами в реальном мире

Как Gemini Robotics 1.5 через API заставляет роботов искать в интернете, сортировать предметы и выполнять многошаговые задачи. Сравнение с Nvidia Isaac и Physic

Робот, который гуглит. Серьезно

Представьте робота. Он видит на столе странный предмет. Вместо того чтобы тупо поднять его и случайно сломать, он... останавливается. Делает фото. Ищет в интернете "как определить съедобный это гриб или поганка". Читает статью на Википедии. И только потом решает - брать или не брать.

Это не сценарий из черной зеркальной серии. Это Gemini Robotics 1.5 - новая модель от Google, которая через API дает роботам то, чего им не хватало все эти годы: здравый смысл и способность импровизировать.

Чем этот робот отличается от других умных роботов?

Все просто. Обычные роботы - это запрограммированные идиоты. Красивые, точные, но идиоты. Их мир - это жесткие инструкции: "если увидишь красный кубик, положи его в коробку А". Сломается кубик, поменяется освещение, появится кошка - робот впадает в ступор.

💡
Gemini Robotics 1.5 работает иначе. Она не программирует поведение - она понимает задачу на человеческом языке и сама придумывает, как ее выполнить. "Прибери на кухне" вместо "возьми тряпку, протри стол, открой шкаф..."

Модель мультимодальна с рождения. Она одновременно обрабатывает:

  • Видеопоток с камер робота
  • Данные с датчиков (расстояние, сила нажатия, температура)
  • Текстовые инструкции ("найди пульт от телевизора")
  • Информацию из интернета (да, робот может гуглить)

Что он умеет делать на самом деле?

Не будем говорить абстрактно. Вот конкретные примеры из демо Google:

Сортировка мусора с поиском в интернете

Робот видит упаковку от сока. Не знает, куда ее бросить - в пластик или бумагу? Делает фото, ищет в сети "как определить тип упаковки тетрапак", находит ответ и правильно сортирует. Никакой предварительной тренировки на тысячах образцов упаковок - просто здравый смысл через поиск.

Сборка мебели по инструкции

Дают IKEA-подобную инструкцию (бумажную или PDF) и кучу деталей. Робот читает инструкцию, сопоставляет с реальными деталями на столе, определяет, что куда вкручивать, и начинает сборку. Если не хватает винта - сообщает об этом. Если деталь перевернута - понимает это и переворачивает.

Чем не похож на конкурентов?

Посмотрите вокруг. Nvidia Isaac Lab-Arena создает симуляции для обучения роботов. Круто, но нужно обучать с нуля под каждую задачу. PhysicalAgent пытается заставить VLA-модели управлять роботами без обучения, но там все еще много костылей.

Подход Нужно обучение? Понимает язык? Ищет в интернете?
Традиционная робототехника Да, много Нет Нет
Nvidia Isaac Да, в симуляции Ограниченно Нет
PhysicalAgent Минимальное Да Нет
Gemini Robotics 1.5 Нет (zero-shot) Да, свободно Да

Главный трюк Gemini Robotics - она построена на том же движке, что и Gemini 2.5 Computer Use. Той самой модели, которая управляет компьютером через скриншоты. Только вместо кликов мышкой - движения манипулятора. Вместо нажатия клавиш - захват предметов.

Как это работает изнутри? (Без кода, обещаю)

Вы даете роботу API-ключ от Gemini Robotics 1.5. Подключаете камеры и датчики. Пишете промпт: "Когда я скажу 'найди мне что-нибудь сладкое', осмотри комнату, найди что-то похожее на еду, проверь в интернете, сладкое ли это, и если да - принеси мне".

Вот здесь начинается магия. Модель не получает готовый алгоритм. Она сама разбивает задачу на шаги: 1) осмотреть комнату, 2) выделить объекты, 3) определить съедобные, 4) для каждого съедобного запросить в сети "[название] это сладкое?". 5) выбрать подходящий. 6) спланировать траекторию захвата. 7) выполнить.

И да, это тот же принцип, что в агентных workflow Gemini 3 Flash, только в физическом мире. Модель постоянно оценивает результат: "захватил я предмет или промахнулся?", "та это конфета или просто фантик?", "достал я до полки или нет?". И корректирует действия.

Где это взломается сразу же?

Не обольщайтесь. Технология сырая. Вот что бесит уже сейчас:

  • Скорость. Робот думает. Иногда долго. "Осмотреть-распознать-погуглить-спланировать" занимает секунды. В производстве это неприемлемо.
  • Дорого. API-вызовы к Gemini Pro стоят денег. Каждый анализ сцены, каждый поиск в сети - это центы. Робот-уборщик разорит вас за месяц.
  • Безопасность. "Прибери на кухне". Робот видит нож. Решает, что нож - это мусор. И выбрасывает его в мусорку вместе с банановой кожурой. Поздравляю.
  • Интернет-зависимость. Нет сети - нет поиска. Робот превращается в беспомощного идиота.

И сравните с роботом Грин от Сбера. Тот хотя бы работает офлайн, хоть и делает при этом дикие вещи.

Кому это нужно прямо сейчас?

Не фабрикам. Не больницам. Не вашему домашнему роботу-пылесосу.

А вот кому:

  1. Исследователям. Чтобы быстро прототипировать поведение роботов без месяцев обучения. Дать новую задачу - получить работающее поведение через час.
  2. Образовательным проектам. Студенты смогут экспериментировать с ИИ-роботами, не имея суперкомпьютеров для обучения моделей.
  3. Стартапам в нишевых задачах. Создать робота для сортировки странного специфического мусора (электронные платы, медицинские отходы). Обучать с нуля дорого. А тут - дал описание, что куда сортировать, и работает.
  4. Компаниям вроде Waymo. Кстати, о них. Waymo уже встраивает Gemini в роботакси. Представьте: беспилотник видит нестандартную ситуацию на дороге, ищет в сети прецеденты, принимает решение. Страшно? Еще бы.

Что будет дальше? (Спойлер: локальные модели)

Текущая схема "робот-интернет-облако-ответ" слишком медленная и дорогая для массового применения. Но тренд ясен: большие мультимодальные модели научились понимать физический мир.

Следующий шаг - локальные оптимизированные модели. Представьте Gemma 3 270M, но доработанную для робототехники. Или специальные чипы, как в Jetson AGX Thor, которые будут запускать эти модели в реальном времени.

Мой прогноз: через год-два появятся open-source аналоги Gemini Robotics, которые можно будет запустить на роботе без облака. И тогда начнется настоящая революция. Роботы перестанут быть запрограммированными автоматами и станут... ну, не полноценными ИИ, но хотя бы сообразительными помощниками.

А пока что - следите за обновлениями Gemini API. И не удивляйтесь, если ваш следующих робот-пылесос вдруг спросит: "А можно я сначала погуглю, как лучше проехать вокруг этого стула?"