Когда 100% на тесте не значит ничего
Вы когда-нибудь задумывались, почему ИИ, который блестяще проходит тесты, в реальном мире ведет себя как ребенок, потерявшийся в супермаркете? Модель набирает 95% на MMLU, но не может объяснить, зачем ей эти знания. Решает олимпиадные задачи по математике, но пасует перед простым бытовым планированием.
DeepMind в своем последнем исследовании бьет тревогу: мы измеряем не то. Наши бенчмарки превратились в учебники для натаскивания, а не в инструменты оценки интеллекта. Это как судить о гениальности пианиста по его умению играть гаммы. Технично? Да. Искусно? Вряд ли.
Проблема не в том, что модели стали глупее. Проблема в том, что наши измерители сломались. Мы создали поколение ИИ, идеально оптимизированных под наши тесты, но беспомощных вне их границ.
Бенчмарк-гольф: игра, в которой все проигрывают
Представьте себе соревнование по бегу, где трассу каждый раз прокладывают заново, но по одним и тем же кочкам. Участники быстро учатся просто перепрыгивать эти кочки. Они не бегут быстрее - они просто лучше знают маршрут.
Так работают современные бенчмарки. Возьмем тот же ARC-AGI. Сначала он был прорывом - тест на абстрактное мышление, не основанный на запоминании. Но посмотрите на микро-модели, которые его обходят. Они не стали умнее - они научились обходить конкретные паттерны.
Или возьмите математические бенчмарки. Gemini решает олимпиадные задачи - это впечатляет. Но спросите ее: «Если я потратил половину денег в магазине, а потом треть оставшегося, сколько у меня осталось?» Ответ может быть... творческим. Не в хорошем смысле.
Что не так с нашими линейками?
DeepMind указывает на три фундаментальные проблемы:
- Статичность. Бенчмарки заморожены во времени. Реальный мир меняется каждый день. ИИ, обученный на данных 2023 года, в 2025 может не понимать новых социальных норм, технологий или даже мемов (а это важно для коммуникации!).
- Узкая специализация. Отдельные тесты для кодирования, математики, здравого смысла. Настоящий интеллект - это способность соединять разные области. Как в жизни: чтобы приготовить ужин, нужно и математику (пропорции), и физику (температура), и биологию (питательность), и эстетику (подача).
- Отсутствие адаптивности. Хороший тест должен подстраиваться под испытуемого. Как живой экзаменатор, который видит, что вы поняли суть, и задает более глубокие вопросы. Наши бенчмарки - это тесты с единственным правильным ответом в бланке.
| Что измеряем | Что получаем | Проблема |
|---|---|---|
| Знание фактов | Способность запоминать | Не равно пониманию |
| Решение задач | Натасканность на паттерны | Нет переноса навыков |
| Точность ответов | Статистическую вероятность | Игнорирует процесс мышления |
Альтернатива: измерять мышление, а не ответы
DeepMind предлагает радикальный сдвиг. Вместо оценки конечного результата - оценивать процесс. Как модель пришла к ответу? Какие альтернативы рассматривала? Может ли объяснить свои рассуждения простыми словами?
Это похоже на то, как мы оцениваем людей. Нас интересует не только «что», но и «как». Врач, который ставит диагноз методом тыка, страшнее того, кто ошибается, но логично рассуждает.
Новый подход требует новых тестов. Динамических, мультимодальных, адаптивных. Где задача меняется в процессе решения. Где нет единственного правильного ответа, а есть спектр разумных вариантов. Где нужно не вспомнить факт, а вывести его из принципов.
Представьте тест, где ИИ должен помочь спланировать исследовательскую экспедицию. Нужно учесть бюджет, логистику, научные цели, безопасность, этические нормы. И все это - с неполной информацией, которая поступает постепенно. Как в реальной жизни.
Или взять компьютерное зрение. Вместо «назови объект на картинке» - «опиши, что происходит, и что может случиться через минуту». Это проверка не распознавания, а понимания контекста.
Что это меняет для индустрии?
Все. Абсолютно все.
Во-первых, гонка за места в лидербордах потеряет смысл. Нельзя будет просто натренировать модель на датасете и ждать аплодисментов. Придется разрабатывать действительно разумные системы.
Во-вторых, изменится фокус исследований. Вместо наращивания параметров - углубление понимания. Вместо запоминания - обобщение. Это может вернуть нас к идеям математического фундамента ИИ, а не статистических паттернов.
В-третьих, это ударит по хайпу. Когда станет ясно, что текущие модели не так умны, как кажутся по тестам, коррекция ожиданий станет болезненной. Но необходимой.
И самое главное - это приблизит нас к настоящему AGI. Не к системе, которая имитирует интеллект в лабораторных условиях, а к тому, что может действовать в сложном, меняющемся мире. Как те ИИ-экологи, которые работают с реальными проблемами, а не тестовыми заданиями.
Что делать прямо сейчас?
Не ждите, пока DeepMind выпустит новый стандарт. Начните оценивать свои модели по-другому уже сегодня.
1Задавайте открытые вопросы
Вместо «Столица Франции?» - «Почему Париж стал столицей?». Сравните ответ с тем, что дает поисковик. Если они идентичны - модель просто выдает сохраненную информацию.
2Тестируйте в нестандартных условиях
Дайте задачу с противоречивыми данными. Или с недостающей информацией. Посмотрите, как модель справляется с неопределенностью. Просит уточнить? Делает предположения? Паникует?
3Оценивайте процесс, а не результат
Попросите объяснить шаги решения. Если ответ правильный, но объяснение бессвязное - это тревожный звоночек. Значит, модель угадала, а не поняла.
Кризис бенчмарков - это не конец прогресса. Это возможность начать измерять то, что действительно важно. Интеллект - это не сумма правильных ответов. Это способность находить вопросы, на которые нет готовых ответов.
И если ИИ когда-нибудь задаст свой собственный, неожиданный вопрос о мире - вот тогда мы поймем, что создали нечто большее, чем продвинутый автодополнение.