Почему текущие бенчмарки ИИ не работают?

Они статичны, узкоспециализированы и не адаптивны. Модели учатся подстраиваться под конкретные тесты, а не развивают общий интеллект.

Что предлагает DeepMind вместо старых тестов?

Оценивать процесс мышления ИИ, а не только конечный ответ. Создавать динамические, мультимодальные тесты, где задачи меняются и нет единственного правильного решения.

Как кризис бенчмарков повлияет на развитие ИИ?

Сместит фокус с гонки за места в лидербордах на создание действительно разумных систем, способных действовать в сложном, меняющемся мире.

Кризис бенчмарков ИИ: DeepMind предлагает новые метрики интеллекта

Когда 100% на тесте не значит ничего

Вы когда-нибудь задумывались, почему ИИ, который блестяще проходит тесты, в реальном мире ведет себя как ребенок, потерявшийся в супермаркете? Модель набирает 95% на MMLU, но не может объяснить, зачем ей эти знания. Решает олимпиадные задачи по математике, но пасует перед простым бытовым планированием.

DeepMind в своем последнем исследовании бьет тревогу: мы измеряем не то. Наши бенчмарки превратились в учебники для натаскивания, а не в инструменты оценки интеллекта. Это как судить о гениальности пианиста по его умению играть гаммы. Технично? Да. Искусно? Вряд ли.

Проблема не в том, что модели стали глупее. Проблема в том, что наши измерители сломались. Мы создали поколение ИИ, идеально оптимизированных под наши тесты, но беспомощных вне их границ.

Бенчмарк-гольф: игра, в которой все проигрывают

Представьте себе соревнование по бегу, где трассу каждый раз прокладывают заново, но по одним и тем же кочкам. Участники быстро учатся просто перепрыгивать эти кочки. Они не бегут быстрее - они просто лучше знают маршрут.

Так работают современные бенчмарки. Возьмем тот же ARC-AGI. Сначала он был прорывом - тест на абстрактное мышление, не основанный на запоминании. Но посмотрите на микро-модели, которые его обходят. Они не стали умнее - они научились обходить конкретные паттерны.

💡

Типичный цикл: 1) Создают сложный тест. 2) Модели его проваливают. 3) Исследователи годами тренируют модели на похожих данных. 4) Модели начинают проходить тест. 5) Все радуются «прогрессу». 6) На самом деле модель просто запомнила шаблон.

Или возьмите математические бенчмарки. Gemini решает олимпиадные задачи - это впечатляет. Но спросите ее: «Если я потратил половину денег в магазине, а потом треть оставшегося, сколько у меня осталось?» Ответ может быть... творческим. Не в хорошем смысле.

Что не так с нашими линейками?

DeepMind указывает на три фундаментальные проблемы:

Статичность. Бенчмарки заморожены во времени. Реальный мир меняется каждый день. ИИ, обученный на данных 2023 года, в 2025 может не понимать новых социальных норм, технологий или даже мемов (а это важно для коммуникации!).
Узкая специализация. Отдельные тесты для кодирования, математики, здравого смысла. Настоящий интеллект - это способность соединять разные области. Как в жизни: чтобы приготовить ужин, нужно и математику (пропорции), и физику (температура), и биологию (питательность), и эстетику (подача).
Отсутствие адаптивности. Хороший тест должен подстраиваться под испытуемого. Как живой экзаменатор, который видит, что вы поняли суть, и задает более глубокие вопросы. Наши бенчмарки - это тесты с единственным правильным ответом в бланке.

Что измеряем	Что получаем	Проблема
Знание фактов	Способность запоминать	Не равно пониманию
Решение задач	Натасканность на паттерны	Нет переноса навыков
Точность ответов	Статистическую вероятность	Игнорирует процесс мышления

Альтернатива: измерять мышление, а не ответы

DeepMind предлагает радикальный сдвиг. Вместо оценки конечного результата - оценивать процесс. Как модель пришла к ответу? Какие альтернативы рассматривала? Может ли объяснить свои рассуждения простыми словами?

Это похоже на то, как мы оцениваем людей. Нас интересует не только «что», но и «как». Врач, который ставит диагноз методом тыка, страшнее того, кто ошибается, но логично рассуждает.

Новый подход требует новых тестов. Динамических, мультимодальных, адаптивных. Где задача меняется в процессе решения. Где нет единственного правильного ответа, а есть спектр разумных вариантов. Где нужно не вспомнить факт, а вывести его из принципов.

Представьте тест, где ИИ должен помочь спланировать исследовательскую экспедицию. Нужно учесть бюджет, логистику, научные цели, безопасность, этические нормы. И все это - с неполной информацией, которая поступает постепенно. Как в реальной жизни.

Или взять компьютерное зрение. Вместо «назови объект на картинке» - «опиши, что происходит, и что может случиться через минуту». Это проверка не распознавания, а понимания контекста.

Что это меняет для индустрии?

Все. Абсолютно все.

Во-первых, гонка за места в лидербордах потеряет смысл. Нельзя будет просто натренировать модель на датасете и ждать аплодисментов. Придется разрабатывать действительно разумные системы.

Во-вторых, изменится фокус исследований. Вместо наращивания параметров - углубление понимания. Вместо запоминания - обобщение. Это может вернуть нас к идеям математического фундамента ИИ, а не статистических паттернов.

В-третьих, это ударит по хайпу. Когда станет ясно, что текущие модели не так умны, как кажутся по тестам, коррекция ожиданий станет болезненной. Но необходимой.

И самое главное - это приблизит нас к настоящему AGI. Не к системе, которая имитирует интеллект в лабораторных условиях, а к тому, что может действовать в сложном, меняющемся мире. Как те ИИ-экологи, которые работают с реальными проблемами, а не тестовыми заданиями.

Что делать прямо сейчас?

Не ждите, пока DeepMind выпустит новый стандарт. Начните оценивать свои модели по-другому уже сегодня.

1Задавайте открытые вопросы

Вместо «Столица Франции?» - «Почему Париж стал столицей?». Сравните ответ с тем, что дает поисковик. Если они идентичны - модель просто выдает сохраненную информацию.

2Тестируйте в нестандартных условиях

Дайте задачу с противоречивыми данными. Или с недостающей информацией. Посмотрите, как модель справляется с неопределенностью. Просит уточнить? Делает предположения? Паникует?

3Оценивайте процесс, а не результат

Попросите объяснить шаги решения. Если ответ правильный, но объяснение бессвязное - это тревожный звоночек. Значит, модель угадала, а не поняла.

Кризис бенчмарков - это не конец прогресса. Это возможность начать измерять то, что действительно важно. Интеллект - это не сумма правильных ответов. Это способность находить вопросы, на которые нет готовых ответов.

И если ИИ когда-нибудь задаст свой собственный, неожиданный вопрос о мире - вот тогда мы поймем, что создали нечто большее, чем продвинутый автодополнение.

Кризис бенчмарков: почему DeepMind предлагает переосмыслить измерение интеллекта ИИ