Робот, который гуглит. Серьезно
Представьте робота. Он видит на столе странный предмет. Вместо того чтобы тупо поднять его и случайно сломать, он... останавливается. Делает фото. Ищет в интернете "как определить съедобный это гриб или поганка". Читает статью на Википедии. И только потом решает - брать или не брать.
Это не сценарий из черной зеркальной серии. Это Gemini Robotics 1.5 - новая модель от Google, которая через API дает роботам то, чего им не хватало все эти годы: здравый смысл и способность импровизировать.
Чем этот робот отличается от других умных роботов?
Все просто. Обычные роботы - это запрограммированные идиоты. Красивые, точные, но идиоты. Их мир - это жесткие инструкции: "если увидишь красный кубик, положи его в коробку А". Сломается кубик, поменяется освещение, появится кошка - робот впадает в ступор.
Модель мультимодальна с рождения. Она одновременно обрабатывает:
- Видеопоток с камер робота
- Данные с датчиков (расстояние, сила нажатия, температура)
- Текстовые инструкции ("найди пульт от телевизора")
- Информацию из интернета (да, робот может гуглить)
Что он умеет делать на самом деле?
Не будем говорить абстрактно. Вот конкретные примеры из демо Google:
Сортировка мусора с поиском в интернете
Робот видит упаковку от сока. Не знает, куда ее бросить - в пластик или бумагу? Делает фото, ищет в сети "как определить тип упаковки тетрапак", находит ответ и правильно сортирует. Никакой предварительной тренировки на тысячах образцов упаковок - просто здравый смысл через поиск.
Сборка мебели по инструкции
Дают IKEA-подобную инструкцию (бумажную или PDF) и кучу деталей. Робот читает инструкцию, сопоставляет с реальными деталями на столе, определяет, что куда вкручивать, и начинает сборку. Если не хватает винта - сообщает об этом. Если деталь перевернута - понимает это и переворачивает.
Чем не похож на конкурентов?
Посмотрите вокруг. Nvidia Isaac Lab-Arena создает симуляции для обучения роботов. Круто, но нужно обучать с нуля под каждую задачу. PhysicalAgent пытается заставить VLA-модели управлять роботами без обучения, но там все еще много костылей.
| Подход | Нужно обучение? | Понимает язык? | Ищет в интернете? |
|---|---|---|---|
| Традиционная робототехника | Да, много | Нет | Нет |
| Nvidia Isaac | Да, в симуляции | Ограниченно | Нет |
| PhysicalAgent | Минимальное | Да | Нет |
| Gemini Robotics 1.5 | Нет (zero-shot) | Да, свободно | Да |
Главный трюк Gemini Robotics - она построена на том же движке, что и Gemini 2.5 Computer Use. Той самой модели, которая управляет компьютером через скриншоты. Только вместо кликов мышкой - движения манипулятора. Вместо нажатия клавиш - захват предметов.
Как это работает изнутри? (Без кода, обещаю)
Вы даете роботу API-ключ от Gemini Robotics 1.5. Подключаете камеры и датчики. Пишете промпт: "Когда я скажу 'найди мне что-нибудь сладкое', осмотри комнату, найди что-то похожее на еду, проверь в интернете, сладкое ли это, и если да - принеси мне".
Вот здесь начинается магия. Модель не получает готовый алгоритм. Она сама разбивает задачу на шаги: 1) осмотреть комнату, 2) выделить объекты, 3) определить съедобные, 4) для каждого съедобного запросить в сети "[название] это сладкое?". 5) выбрать подходящий. 6) спланировать траекторию захвата. 7) выполнить.
И да, это тот же принцип, что в агентных workflow Gemini 3 Flash, только в физическом мире. Модель постоянно оценивает результат: "захватил я предмет или промахнулся?", "та это конфета или просто фантик?", "достал я до полки или нет?". И корректирует действия.
Где это взломается сразу же?
Не обольщайтесь. Технология сырая. Вот что бесит уже сейчас:
- Скорость. Робот думает. Иногда долго. "Осмотреть-распознать-погуглить-спланировать" занимает секунды. В производстве это неприемлемо.
- Дорого. API-вызовы к Gemini Pro стоят денег. Каждый анализ сцены, каждый поиск в сети - это центы. Робот-уборщик разорит вас за месяц.
- Безопасность. "Прибери на кухне". Робот видит нож. Решает, что нож - это мусор. И выбрасывает его в мусорку вместе с банановой кожурой. Поздравляю.
- Интернет-зависимость. Нет сети - нет поиска. Робот превращается в беспомощного идиота.
И сравните с роботом Грин от Сбера. Тот хотя бы работает офлайн, хоть и делает при этом дикие вещи.
Кому это нужно прямо сейчас?
Не фабрикам. Не больницам. Не вашему домашнему роботу-пылесосу.
А вот кому:
- Исследователям. Чтобы быстро прототипировать поведение роботов без месяцев обучения. Дать новую задачу - получить работающее поведение через час.
- Образовательным проектам. Студенты смогут экспериментировать с ИИ-роботами, не имея суперкомпьютеров для обучения моделей.
- Стартапам в нишевых задачах. Создать робота для сортировки странного специфического мусора (электронные платы, медицинские отходы). Обучать с нуля дорого. А тут - дал описание, что куда сортировать, и работает.
- Компаниям вроде Waymo. Кстати, о них. Waymo уже встраивает Gemini в роботакси. Представьте: беспилотник видит нестандартную ситуацию на дороге, ищет в сети прецеденты, принимает решение. Страшно? Еще бы.
Что будет дальше? (Спойлер: локальные модели)
Текущая схема "робот-интернет-облако-ответ" слишком медленная и дорогая для массового применения. Но тренд ясен: большие мультимодальные модели научились понимать физический мир.
Следующий шаг - локальные оптимизированные модели. Представьте Gemma 3 270M, но доработанную для робототехники. Или специальные чипы, как в Jetson AGX Thor, которые будут запускать эти модели в реальном времени.
Мой прогноз: через год-два появятся open-source аналоги Gemini Robotics, которые можно будет запустить на роботе без облака. И тогда начнется настоящая революция. Роботы перестанут быть запрограммированными автоматами и станут... ну, не полноценными ИИ, но хотя бы сообразительными помощниками.
А пока что - следите за обновлениями Gemini API. И не удивляйтесь, если ваш следующих робот-пылесос вдруг спросит: "А можно я сначала погуглю, как лучше проехать вокруг этого стула?"