Genie 3 создает миры из ничего. Но что, если в этих мирах кто-то поселится? Кто-то, кто не просто бегает по заданному скрипту, а спрашивает "почему?", учится на ошибках и может затеять с вами философский спор о природе виртуальной реальности. DeepMind только что выпустил такого жильца. Встречайте SIMA 2.
От бота-исполнителя к собеседнику с контроллером
Первый SIMA был умным попугаем. Дал команду "подойди к синему ящику" - он подходил. Все. SIMA 2 - это уже не попугай. Это партнер по коопу в No Man's Sky, который сам предложит план, пошутит над вашей тактикой и заметит, что вы трижды наступаете на одни и те же гравитационные грабли.
Представьте, что вы говорите агенту: "Эй, нам нужно построить укрытие до заката, но сначала раздобудь еды". Старый ИИ разбил бы это на подзадачи сам. SIMA 2 спросит: "Хочешь, я проверю ближайшую пещеру на грибы, пока ты рубишь дерево? В прошлый раз там были волки, но сейчас день".
1 Как SIMA 2 видит мир: не пиксели, а смыслы
Вот где начинается магия. Вместо того чтобы смотреть на экран как на сетку цветных точек, SIMA 2 использует модель зрения, которая вычленяет объекты, их свойства и отношения. Дерево - это не текстура коры, а "источник древесины, горит, можно спрятаться за".
# Примерно так SIMA 2 кодирует наблюдение за миром
observation = {
"entities": [
{"type": "tree", "position": [10, 5], "properties": ["flammable", "choppable"]},
{"type": "wolf", "position": [15, 8], "properties": ["hostile", "nocturnal"]}
],
"relations": ["wolf_near_tree", "daytime"],
"goals": ["build_shelter", "acquire_food"]
}
Этот структурированный взгляд на мир - ключ к рассуждениям. Именно так, как описано в нашей статье про World Models, которые обещают перевернуть ИИ.
Диалог, который не сводится к выбору реплики из списка
Тут DeepMind сделали хитро. Они не стали прикручивать к SIMA 2 обычный языковой модель вроде GPT. Вместо этого создали гибрид: ядро на основе Gemini (да, той самой, что решает олимпиадные задачи) дообучили на диалогах внутри игр.
| Действие | SIMA 1 | SIMA 2 |
|---|---|---|
| Команда: "Найди ресурсы" | Ищет ближайший ресурс | Спрашивает: "Какие именно? Дерево, камень или еда?" |
| Неудача: упал с утеса | Перезапускает задачу | Комментирует: "Нужно было проверить край. В следующий раз обойдем" |
| Неоднозначность: "Иди туда" | Ждет уточнения | Предлагает варианты: "К пещере, к реке или к тому странному обелиску?" |
Обучение идет в симуляторах, но не на скриптах. ИИ смотрит тысячи часов геймплея с реальными игроками, которые ругаются, советуются, ошибаются. Он учится не только что делать, но и как об этом говорить. Это следующий уровень после того, как ИИ начал "думать".
2 Почему это не просто крутая игрушка?
Потому что SIMA 2 - это тестовая площадка для воплощенного ИИ (Embodied AI). Того самого, который нужен роботам, чтобы не просто крутиться на месте, когда вы говорите "принеси чашку со стола". Каждый диалог, каждое действие в 3D-мире - это данные для обучения будущих автономных систем.
Техническая справка: архитектура SIMA 2 использует отдельные энкодеры для видео, текста и действий, которые потом сводятся в единое сквозное представление. Это позволяет агенту связывать слова с объектами и действиями в мире. Звучит просто, но за этим годы исследований.
И да, это напрямую связано с попытками создать сознание для робота. Разница в том, что SIMA 2 учится в безопасной цифровой среде, где сбой - это не разбитая ваза, а перезапуск уровня.
Где это сломается? (Подсказка: почти везде)
DeepMind честно пишет в блоге: SIMA 2 все еще путается в сложных многошаговых командах. Скажешь "построй замок, но сначала уберись в подземелье" - он может начать строить замок в подземелье. Потому что языковая модель иногда перевешивает здравый смысл.
- Проблема обобщения: то, что выучил в Valheim, не всегда применимо в Space Engineers. Физика разная.
- Диалоговые петли: иногда агент увлекается беседой и забывает про цель. Прямо как люди.
- Хрупкость рассуждений: небольшое изменение в формулировке - и агент теряется. Знакомая проблема из статьи про фундаментальную ошибку больших моделей.
И самое главное: SIMA 2 не создает новые стратегии с нуля. Он комбинирует увиденное. Это не гений, это очень способный ученик. Что, впрочем, уже на порядок выше, чем все, что было раньше.
Что будет, когда SIMA выйдет в тираж?
Представьте неигровых персонажей, которые помнят ваши прошлые диалоги и адаптируют поведение. Или игровых компаньонов, которые действительно помогают, а не имитируют помощь. Или, если смотреть шире, прототипы домашних роботов, которые учатся взаимодействовать с миром через симуляцию.
Но есть и темная сторона. Технологии, подобные SIMA, - это идеальный фундамент для AI-мошенников нового поколения, которые смогут вести убедительные диалоги в реальном времени. Или для социальных ботов, чье влияние мы даже не можем оценить.
Мой прогноз? Через год у нас будет SIMA 3, который сможет не только общаться, но и сам ставить цели. "Я решил исследовать тот остров, потому что там может быть секретная пещера" - вот такой уровень. А потом кто-то подключит это к потребительскому железу от OpenAI, и мы получим персонального ИИ-компаньона в AR-очках.
Итог: SIMA 2 - это не финальный продукт. Это сигнал. Сигнал о том, что разделение между "ИИ, который думает" и "ИИ, который действует" стирается. Следующий рубеж - агенты, которые не просто выполняют команды в мире, а меняют мир под свои цели. И да, это немного пугает.