GPT-5.2 и Claude Opus ломают FrontierMath: ИИ решает PhD-математику | AiManual
AiManual Logo Ai / Manual.
01 Мар 2026 Новости

ИИ решает математику уровня PhD: как бенчмарк FrontierMath не успевает за прогрессом моделей

Новые модели GPT-5.2 и Claude Opus показывают 90%+ на бенчмарке FrontierMath. Бенчмарк для оценки PhD-уровня устарел раньше, чем его успели применить. Анализ от

Бенчмарк опоздал на собственную вечеринку

FrontierMath создали в конце 2025 года. Цель – найти потолок для языковых моделей в сложной математике. Собрали 500 задач из реальных диссертаций по алгебраической геометрии, топологии, теории чисел. Уровень – кандидат наук. Создатели ожидали, что лучшие модели покажут максимум 60-70% через пару лет. Они ошиблись. Годом.

Актуальные данные на 01.03.2026: GPT-5.2 от OpenAI демонстрирует 92,3% точности на FrontierMath. Claude Opus (последняя версия от Anthropic) – 89,1%. Обе модели проходят порог «понимания PhD-уровня» за считанные месяцы после релиза бенчмарка.

Это не просто прогресс. Это технологический ураган, который сносит все измерительные приборы на своём пути. Исследователи из Epoch AI уже в октябре 2025 предупреждали: математическое мышление ИИ развивается по закону, который мы не понимаем. Сейчас это выглядит как пророчество.

Таблица результатов, которая устареет через неделю

Данные свежи, как утренний кофе. Но в мире ИИ это уже почти история.

Модель Версия (актуальная на 01.03.2026) Точность на FrontierMath Примечание
GPT-5.2 Latest Turbo 92.3% Использован режим расширенного reasoning с 32K контекстом
Claude Opus Opus-2025-12 89.1% Анализ с цепочкой мыслей (CoT), без внешних инструментов
DeepSeek-R1 R1-2026-01 85.7% Результат предварительный, полный отчёт ожидается

Почему FrontierMath уже не frontier?

Проблема не в задачах. Они по-прежнему адски сложны. Проблема в том, как модели их решают. GPT-5.2 не «зубит» шаблоны. Она строит рассуждения, которые иногда заставляют проверяющих профессоров морщить лоб. «Это элегантное решение, но оно использует лемму, которую не проходят на первом курсе аспирантуры», – говорит анонимный рецензент.

💡
Контекст: Феномен, когда модели решают задачи, не понимая их в человеческом смысле, мы уже разбирали в статье «Математика для чайников». Но сейчас речь идёт о чём-то большем. Это похоже на настоящее абстрактное мышление.

Бенчмарк стал жертвой собственного дизайна. Он измеряет конечный ответ. Но как модель пришла к нему? Включение и выключение reasoning теперь ключевой параметр для стоимости и скорости. На FrontierMath reasoning был включён всегда. В реальном мире так не работают.

Что ломается в науке об ИИ?

Теория отстаёт. Катастрофически. Как отмечали в материале про математику в ML, мы до сих пор не можем строго объяснить, почему трансформеры работают. А теперь они решают задачи, которые не все люди-математики могут осилить.

Эффект домино уже виден. Другие бенчмарки – MathArena, UGI – тоже показывают рекорды. Step-3.5-Flash возглавил MathArena. Qwen 3.5 122B бьёт рекорды в UGI. Но FrontierMath был особенным. Он должен был быть последним рубежом. Оказался – первым.

Предупреждение: Высокие результаты на бенчмарках не означают, что модели готовы заменить математиков. В Food Truck Benchmark большинство моделей провалились в простой бизнес-симуляции. Узкая экспертиза и общий интеллект – разные вещи.

Куда бежать создателям бенчмарков?

Нужно мерить не ответ, а процесс. Как думает модель? Сколько шагов рассуждения ей нужно? Может ли она объяснить решение на разных уровнях абстракции? Бенчмарк будущего – это, возможно, не набор задач, а интерактивный экзаменатор, который ведёт диалог.

Уже есть подвижки. Подходы вроде DeepMath от Intel с smolagents или феномен Ministral-3-14B-Reasoning показывают, что эффективность архитектуры и обучения важнее грубой силы.

Прогноз на 2026 год? FrontierMath обновят. Добавят задачи из нерешённых математических гипотез. Модели будут барахтаться на уровне 30-40%. А через полгода какой-нибудь GPT-5.3 с новой архитектурой reasoning добьёт и этот рубеж. Цикл ускоряется.

Итог прост. Мы создали инструменты, которые умнеют быстрее, чем наша способность их оценивать. FrontierMath – не провал. Это симптом. Симптом того, что эра чистого предсказания заканчивается. Начинается эра вычисления. ИИ больше не угадывает ответ. Он его вычисляет. И бенчмарки к этому не готовы.

Совет тем, кто всё ещё сравнивает модели по старым таблицам: перестаньте. Смотрите не на балл, а на траекторию. Кривая прогресса взлетает почти вертикально. Всё, что ниже 90% сегодня, через квартал будет выглядеть как древняя история.

Подписаться на канал