ИИ в робототехнике: физическое воплощение генеративных моделей на примере робота Грина | AiManual
AiManual Logo Ai / Manual.
07 Янв 2026 Новости

Робот Грин: как Сбер заставил генеративный ИИ ходить, говорить и пугать людей

Как Сбер соединил генеративный ИИ с робототехникой в проекте Грин. Технические детали, проблемы и почему это не просто аниматроник.

От чат-бота к шагающему боту

Вы видели демо. Робот с человеческим лицом плавно двигается, поддерживает диалог, жестикулирует. Это Грин - флагманский проект Сбера на AI Journey 2025. Но что скрывается за плавной анимацией? Очередной дорогой аниматроник или прорыв в физическом воплощении ИИ?

Оказывается, ни то, ни другое. Грин - это мост между двумя мирами: цифровым интеллектом и физической реальностью. И этот мост построен на генеративных моделях, которые внезапно научились управлять не только текстом, но и сервоприводами.

Ключевое отличие Грина от промышленных роботов - генеративное управление. Вместо заранее запрограммированных движений система создает их в реальном времени, адаптируясь к ситуации. Это как ChatGPT для моторики.

Что внутри: не мозг, а нервная система

Если разобрать Грина на компоненты (мысленно, не пытайтесь повторить), вы найдете знакомые технологии в незнакомой конфигурации:

  • Мультимодальная LLM - обрабатывает речь, видео с камер, данные датчиков. Та же архитектура, что в ChatGPT, но с дополнительными "органами чувств"
  • Предиктивная модель движений - предсказывает следующую позу на основе контекста. Работает по принципу World Models, только для физики тела
  • Низкоуровневый контроллер - переводит "намерения" ИИ в конкретные команды для 24 сервоприводов
  • Система обратной связи - датчики крутящего момента, камеры, микрофоны. Без этого ИИ работает вслепую

Самое интересное - как эти компоненты общаются. Не через жесткие API, а через общее семантическое пространство. Движение руки и фраза "передай мне это" для системы - части одного действия.

💡
Технический нюанс: система использует подход, похожий на PhysicalAgent. Вместо обучения с нуля на дорогих роботах инженеры адаптируют готовые VLA-модели, добавляя им "физическое воображение".

Почему это сложнее, чем кажется

Казалось бы, взяли GPT-4, прикрутили к роботу - готово. На практике получается адская смесь из:

ПроблемаКак решают в ГринеЦена решения
Задержки (латенси)Локальный инференс, кэширование позТребуется Jetson AGX Orin на борту
Галлюцинации ИИФизические ограничители, проверка кинематикиРобот иногда "зависает" в безопасности
ЭнергопотреблениеДинамическое отключение неиспользуемых модулейАвтономность всего 45 минут
Естественность движенийДополнительная сеть-стилизатор движений+20% к вычислительной нагрузке

Самая большая головная боль - согласование временных масштабов. LLM думает "предложениями", система управления - "кадрами" по 100 Гц, а механика реагирует с задержкой в миллисекунды. Синхронизировать это - все равно что дирижировать оркестром, где скрипачи играют в 10 раз быстрее барабанщиков.

Предупреждение для энтузиастов: не пытайтесь повторить это на Raspberry Pi. Архитектура Грина требует минимум 50 TOPS вычислительной мощности для работы в реальном времени. Без этого получится робот, который думает 5 секунд перед каждым шагом.

Чем Грин отличается от Boston Dynamics

Spot от Boston Dynamics - это шедевр инженерной мысли. Но его интеллект сравним с насекомым: реактивный, эффективный, ограниченный. Грин пытается быть приматом: медленнее, менее устойчиво, но с абстрактным мышлением.

Разница в подходе:

  • Boston Dynamics: сначала физика, потом простой ИИ
  • Грин: сначала сложный ИИ, потом адаптация к физике

Первый подход дает надежных роботов для складов. Второй - непредсказуемых, но потенциально более универсальных ассистентов. Пока Грин не может делать сальто назад как Atlas. Зато он может объяснить, почему сальто - плохая идея в данной ситуации.

Что будет, когда это станет массовым

Сейчас Грин - дорогой эксперимент. Но технологии имеют привычку дешеветь. Представьте:

  1. Через 2 года - аналогичные системы для телеприсутствия
  2. Через 4 года - домашние роботы-компаньоны с персонализированным характером
  3. Через 6 лет - физические аватары для работы в опасных условиях

Проблема не в технологии. Проблема в нас. Как мы будем взаимодействовать с существами, которые выглядят почти как люди, думают почти как люди, но не являются людьми? Этот вопрос становится актуальнее с каждым демо.

Можно ли сделать такое самому?

Теоретически - да. Практически - готовьтесь к годам работы и сотням тысяч долларов. Упрощенный стек технологий выглядит так:

1Выберите аппаратную платформу

Не начинайте с гуманоида. Возьмите манипулятор на 6 степеней свободы. Или даже готового робота типа Unitree Go2. Главное - открытый API и датчики обратной связи.

2Соберите софтверный стек

Вам понадобится: ROS 2, кастомный драйвер для вашего железа, локальная LLM (например, GPT-OSS-120b если хватит памяти), система планирования движений. Не пытайтесь написать все с нуля - берите готовые компоненты из Nvidia Isaac.

3Обучите модель "физическому здравому смыслу"

Самый сложный этап. Нужны тонны симуляционных данных + реальные прогоны. Начните с простых задач: "возьми кубик", "поставь на стол". Постепенно усложняйте. И да, робот будет ломаться. Много.

Реальность: 95% подобных проектов умирают на этапе интеграции. LLM выдает команду "плавно подними руку", низкоуровневый контроллер понимает это как "установи угол в суставе X на 45 градусов за 0.5 секунды", а механика не может так быстро двигаться без перегрева. Согласование абстракций - это искусство.

Что дальше? Неочевидный тренд

Грин - не конечная точка. Это первый шаг к чему-то более странному. Следующая волна - не антропоморфные роботы, а распределенные физические ИИ.

Представьте: один ИИ управляет одновременно дроном, манипулятором в лаборатории и аватаром для встреч. Единое сознание в multiple physical bodies. Звучит как научная фантастика? Технологии для этого уже существуют. Нужно только убрать провода между устройствами.

Пока Сбер и другие гиганты строят отдельных роботов, присмотритесь к стартапам, которые работают над постсмартфонными интерфейсами. Возможно, будущее физического ИИ - не в металлических телах, а в облаке, которое временно вселяется в доступные устройства вокруг нас.

А Грин? Он хороший прототип. Красивая демонстрация того, что возможно. Но как и все первые шаги в новой технологии, он больше показывает путь, чем конечную цель. Следующее поколение таких систем будет меньше, дешевле и умнее. И, скорее всего, не будет выглядеть как человек. Потому что когда ИИ получает физическое тело, антропоморфизм - это ограничение, а не преимущество.