Бенчмарк опоздал на собственную вечеринку
FrontierMath создали в конце 2025 года. Цель – найти потолок для языковых моделей в сложной математике. Собрали 500 задач из реальных диссертаций по алгебраической геометрии, топологии, теории чисел. Уровень – кандидат наук. Создатели ожидали, что лучшие модели покажут максимум 60-70% через пару лет. Они ошиблись. Годом.
Актуальные данные на 01.03.2026: GPT-5.2 от OpenAI демонстрирует 92,3% точности на FrontierMath. Claude Opus (последняя версия от Anthropic) – 89,1%. Обе модели проходят порог «понимания PhD-уровня» за считанные месяцы после релиза бенчмарка.
Это не просто прогресс. Это технологический ураган, который сносит все измерительные приборы на своём пути. Исследователи из Epoch AI уже в октябре 2025 предупреждали: математическое мышление ИИ развивается по закону, который мы не понимаем. Сейчас это выглядит как пророчество.
Таблица результатов, которая устареет через неделю
Данные свежи, как утренний кофе. Но в мире ИИ это уже почти история.
| Модель | Версия (актуальная на 01.03.2026) | Точность на FrontierMath | Примечание |
|---|---|---|---|
| GPT-5.2 | Latest Turbo | 92.3% | Использован режим расширенного reasoning с 32K контекстом |
| Claude Opus | Opus-2025-12 | 89.1% | Анализ с цепочкой мыслей (CoT), без внешних инструментов |
| DeepSeek-R1 | R1-2026-01 | 85.7% | Результат предварительный, полный отчёт ожидается |
Почему FrontierMath уже не frontier?
Проблема не в задачах. Они по-прежнему адски сложны. Проблема в том, как модели их решают. GPT-5.2 не «зубит» шаблоны. Она строит рассуждения, которые иногда заставляют проверяющих профессоров морщить лоб. «Это элегантное решение, но оно использует лемму, которую не проходят на первом курсе аспирантуры», – говорит анонимный рецензент.
Бенчмарк стал жертвой собственного дизайна. Он измеряет конечный ответ. Но как модель пришла к нему? Включение и выключение reasoning теперь ключевой параметр для стоимости и скорости. На FrontierMath reasoning был включён всегда. В реальном мире так не работают.
Что ломается в науке об ИИ?
Теория отстаёт. Катастрофически. Как отмечали в материале про математику в ML, мы до сих пор не можем строго объяснить, почему трансформеры работают. А теперь они решают задачи, которые не все люди-математики могут осилить.
Эффект домино уже виден. Другие бенчмарки – MathArena, UGI – тоже показывают рекорды. Step-3.5-Flash возглавил MathArena. Qwen 3.5 122B бьёт рекорды в UGI. Но FrontierMath был особенным. Он должен был быть последним рубежом. Оказался – первым.
Предупреждение: Высокие результаты на бенчмарках не означают, что модели готовы заменить математиков. В Food Truck Benchmark большинство моделей провалились в простой бизнес-симуляции. Узкая экспертиза и общий интеллект – разные вещи.
Куда бежать создателям бенчмарков?
Нужно мерить не ответ, а процесс. Как думает модель? Сколько шагов рассуждения ей нужно? Может ли она объяснить решение на разных уровнях абстракции? Бенчмарк будущего – это, возможно, не набор задач, а интерактивный экзаменатор, который ведёт диалог.
Уже есть подвижки. Подходы вроде DeepMath от Intel с smolagents или феномен Ministral-3-14B-Reasoning показывают, что эффективность архитектуры и обучения важнее грубой силы.
Прогноз на 2026 год? FrontierMath обновят. Добавят задачи из нерешённых математических гипотез. Модели будут барахтаться на уровне 30-40%. А через полгода какой-нибудь GPT-5.3 с новой архитектурой reasoning добьёт и этот рубеж. Цикл ускоряется.
Итог прост. Мы создали инструменты, которые умнеют быстрее, чем наша способность их оценивать. FrontierMath – не провал. Это симптом. Симптом того, что эра чистого предсказания заканчивается. Начинается эра вычисления. ИИ больше не угадывает ответ. Он его вычисляет. И бенчмарки к этому не готовы.
Совет тем, кто всё ещё сравнивает модели по старым таблицам: перестаньте. Смотрите не на балл, а на траекторию. Кривая прогресса взлетает почти вертикально. Всё, что ниже 90% сегодня, через квартал будет выглядеть как древняя история.