Почему LLM не могут играть в видеоигры?

LLM обучены предсказывать следующий токен в текстовой последовательности, а игра — это динамическая среда, требующая постоянной адаптации, долгосрочного планирования и обработки обратной связи в реальном времени. Архитектура LLM не предназначена для такого типа задач.

В чем фундаментальные ограничения LLM в динамических средах?

Основное ограничение — разрыв между декларативным знанием (описанием игры) и процедурным знанием (непосредственным выполнением действий). LLM могут описать игровой процесс, но не могут эффективно действовать в условиях меняющегося состояния игры и необходимости мгновенных решений.

Как Julian Togelius оценивает перспективы LLM в играх?

Тогелиус считает, что LLM останутся полезными для пассивных задач в геймдеве, таких как генерация контента или диалогов, но для активного игрового исполнения необходимы специализированные архитектуры, например, основанные на обучении с подкреплением (Reinforcement Learning).

LLM и видеоигры: почему нейросоли не играют | Анализ 2026

Вы просите GPT-5 написать синопсис для игры про космических ковбоев - он справится. Попросите набросать код для простого платформера - легко. Но дайте ему джойстик и запустите этот самый платформер - персонаж умрет на первой же платформе. И неважно, какая у вас модель: свежий Claude 4, Gemini Ultra 2.0 или какой-нибудь открытый Mixtral 2. Почему эти титаны текста беспомощны в виртуальном мире? Мы поговорили с одним из главных скептиков - Джулианом Тогелиусом из NYU.

Слова, слова, слова. Где действие?

Тогелиус не церемонится. "LLM - это статические картографы динамического мира, - говорит он. - Они выучили карту, но не понимают, что местность меняется с каждым шагом". На конференции AIIDE в октябре 2025 его доклад вызвал бурю. Он показал, как даже fine-tuned версии GPT-4.5 на играх вроде NetHack или простых Atari 2600 демонстрируют катастрофический провал в долгосрочном планировании.

Это не баг, а фича архитектуры. LLM обучены предсказывать следующее токен в последовательности. Игра - это не последовательность. Это дерево решений, где каждая ветка меняет ландшафт.

Проблема в оценке способностей. Мы тестируем модели на статичных наборах данных (GLUE, MMLU), но игры требуют чего-то другого - постоянной адаптации к непредсказуемому. Как отмечалось в нашем материале о фреймворке DeepMind для измерения AGI, игра - это комплексный тест на когнитивные навыки, который LLM проваливают.

Почему они пишут код, но не могут им управлять?

Это главный парадокс, который бесит всех. Модель может сгенерировать перфектный код для симуляции физики прыжка Марио, но не может решить, когда именно прыгнуть, увидев гриб. Тогелиус называет это "разрывом между декларативным и процедурным знанием".

Кодирование - это в значительной степени языковая задача. Вы описываете логику. Игра - это выполнение логики в реальном времени, под давлением, с обратной связью, которая меняет цель. LLM, по своей сути, не имеют механизма для обработки такого типа обратной связи. Они принимают промпт, выдают ответ. Конец истории. В играх история никогда не заканчивается.

💡

Эксперименты 2025 года показывают: если дать LLM текстовое описание состояния игры и попросить выбрать действие, модели показывают случайный результат. Их успех не превышает 10% даже в играх с примитивной механикой. Это фундаментально.

Это напрямую связано с тем, как LLM понимают цель, но игнорируют её. В игре цель - выиграть - постоянна. Но путь к ней требует постоянного пересмотра тактики. Для LLM каждый ход - это новая, изолированная задача.

Так что же работает? Подсказка: не языковые модели

Тогелиус указывает на старую добрую reinforcement learning (RL). Алгоритмы вроде PPO или MuZero, которые доминируют в StarCraft II и Dota 2, построены на принципиально другой парадигме: обучение через взаимодействие и награду. Они не "понимают" игру на лингвистическом уровне. Они чувствуют ее через математику вознаграждения.

"Попытки скрестить LLM с RL - это модно, но наивно, - говорит эксперт. - Вы получаете медленную, дорогую систему, которая наследует слабости обоих подходов". Проекты типа Voyager от Nvidia (анонсирован в 2024) показывают ограниченный успех только в крайне структурированных средах вроде Minecraft, и то с тысячами костылей.

Интересно, что проблема не в вычислительной мощности. GPT-5, обученная на триллионах токенов, потребляет гигантские ресурсы. При этом простой RL-агент, тренированный с нуля за несколько дней на кластере GPU, бьет ее наголову в той же игре. Это вопрос архитектуры, а не масштаба. Как мы уже писали, будущее, возможно, за подходом "вычислять, а не предсказывать".

Значит, игры - это тупик для LLM? Не совсем

Тогелиус не говорит, что LLM бесполезны в геймдеве. Напротив. Они революционизируют создание контента, диалоги с NPC, генерацию квестов. Но это пассивная роль. Активное исполнение - не их стезя.

Главный вывод для индустрии AI в 2026 году: не стоит использовать молоток (LLM) для закручивания шурупов (игр). Нужны специализированные инструменты. Оценка способностей AI должна включать динамические среды, иначе мы создаем иллюзию интеллекта, которая разбивается о первую же бочку в Donkey Kong. Чтобы глубже понять природу таких иллюзий, читайте наш разбор иллюзий и ошибок LLM.

Так что в следующий раз, когда увидите заголовок "GPT-5 обыграла человека в Chess", проверьте, не говорится ли об игре по переписке. В реальном времени, под таймером, даже самая продвинутая языковая модель сегодня - это просто очень начитанный новичок, который забывает, зачем он здесь. И, кажется, так будет еще долго.

Подписаться на канал

Почему LLM не умеют играть в видеоигры: анализ фундаментальных ограничений от эксперта NYU

Слова, слова, слова. Где действие?

Почему они пишут код, но не могут им управлять?

Так что же работает? Подсказка: не языковые модели

Значит, игры - это тупик для LLM? Не совсем

Подписывайтесь на наш канал!