Вы просите GPT-5 написать синопсис для игры про космических ковбоев - он справится. Попросите набросать код для простого платформера - легко. Но дайте ему джойстик и запустите этот самый платформер - персонаж умрет на первой же платформе. И неважно, какая у вас модель: свежий Claude 4, Gemini Ultra 2.0 или какой-нибудь открытый Mixtral 2. Почему эти титаны текста беспомощны в виртуальном мире? Мы поговорили с одним из главных скептиков - Джулианом Тогелиусом из NYU.
Слова, слова, слова. Где действие?
Тогелиус не церемонится. "LLM - это статические картографы динамического мира, - говорит он. - Они выучили карту, но не понимают, что местность меняется с каждым шагом". На конференции AIIDE в октябре 2025 его доклад вызвал бурю. Он показал, как даже fine-tuned версии GPT-4.5 на играх вроде NetHack или простых Atari 2600 демонстрируют катастрофический провал в долгосрочном планировании.
Это не баг, а фича архитектуры. LLM обучены предсказывать следующее токен в последовательности. Игра - это не последовательность. Это дерево решений, где каждая ветка меняет ландшафт.
Проблема в оценке способностей. Мы тестируем модели на статичных наборах данных (GLUE, MMLU), но игры требуют чего-то другого - постоянной адаптации к непредсказуемому. Как отмечалось в нашем материале о фреймворке DeepMind для измерения AGI, игра - это комплексный тест на когнитивные навыки, который LLM проваливают.
Почему они пишут код, но не могут им управлять?
Это главный парадокс, который бесит всех. Модель может сгенерировать перфектный код для симуляции физики прыжка Марио, но не может решить, когда именно прыгнуть, увидев гриб. Тогелиус называет это "разрывом между декларативным и процедурным знанием".
Кодирование - это в значительной степени языковая задача. Вы описываете логику. Игра - это выполнение логики в реальном времени, под давлением, с обратной связью, которая меняет цель. LLM, по своей сути, не имеют механизма для обработки такого типа обратной связи. Они принимают промпт, выдают ответ. Конец истории. В играх история никогда не заканчивается.
Это напрямую связано с тем, как LLM понимают цель, но игнорируют её. В игре цель - выиграть - постоянна. Но путь к ней требует постоянного пересмотра тактики. Для LLM каждый ход - это новая, изолированная задача.
Так что же работает? Подсказка: не языковые модели
Тогелиус указывает на старую добрую reinforcement learning (RL). Алгоритмы вроде PPO или MuZero, которые доминируют в StarCraft II и Dota 2, построены на принципиально другой парадигме: обучение через взаимодействие и награду. Они не "понимают" игру на лингвистическом уровне. Они чувствуют ее через математику вознаграждения.
"Попытки скрестить LLM с RL - это модно, но наивно, - говорит эксперт. - Вы получаете медленную, дорогую систему, которая наследует слабости обоих подходов". Проекты типа Voyager от Nvidia (анонсирован в 2024) показывают ограниченный успех только в крайне структурированных средах вроде Minecraft, и то с тысячами костылей.
Интересно, что проблема не в вычислительной мощности. GPT-5, обученная на триллионах токенов, потребляет гигантские ресурсы. При этом простой RL-агент, тренированный с нуля за несколько дней на кластере GPU, бьет ее наголову в той же игре. Это вопрос архитектуры, а не масштаба. Как мы уже писали, будущее, возможно, за подходом "вычислять, а не предсказывать".
Значит, игры - это тупик для LLM? Не совсем
Тогелиус не говорит, что LLM бесполезны в геймдеве. Напротив. Они революционизируют создание контента, диалоги с NPC, генерацию квестов. Но это пассивная роль. Активное исполнение - не их стезя.
Главный вывод для индустрии AI в 2026 году: не стоит использовать молоток (LLM) для закручивания шурупов (игр). Нужны специализированные инструменты. Оценка способностей AI должна включать динамические среды, иначе мы создаем иллюзию интеллекта, которая разбивается о первую же бочку в Donkey Kong. Чтобы глубже понять природу таких иллюзий, читайте наш разбор иллюзий и ошибок LLM.
Так что в следующий раз, когда увидите заголовок "GPT-5 обыграла человека в Chess", проверьте, не говорится ли об игре по переписке. В реальном времени, под таймером, даже самая продвинутая языковая модель сегодня - это просто очень начитанный новичок, который забывает, зачем он здесь. И, кажется, так будет еще долго.