Физик в коде: как P1-235B-A22B переиграла GPT-5

В январе 2026 года случилось то, чего не ждал никто. Модель с открытыми весами от Shanghai AI Laboratory взяла золотую медаль на International Physics Olympiad. Не метафорически, а буквально – прошла тесты IPhO-2024 с результатом 39.5 из 50, обогнав GPT-5 и Claude-4. Это P1-235B-A22B, и она думает как физик, а не как текстовая обезьяна.

Важно: все данные актуальны на 20.01.2026. P1-235B-A22B – последняя стабильная версия модели на эту дату. Ведётся работа над P1-270B, но её веса пока не опубликованы.

Что внутри у этой 235-миллиардной штуки?

P1 – не просто доработанный Llama 3 или Mixtral. Архитектура A22B (Advanced 22 Block) специально заточена под цепочки рассуждений. Модель тренировали не на следующий токен, а на логические шаги. Дали ей 500 тысяч физических задач, каждая с пошаговым решением, и заставили учиться думать.

Reasoning-ядро: 22 специализированных блока вместо стандартных 80. Каждый блок отвечает за свой тип операций – математические выкладки, анализ условий, проверку единиц измерения.
PhysicsMinions: агентная система внутри модели. Когда вы задаёте задачу, P1 запускает внутренних «агентов» – один считает интегралы, другой рисует схемы, третий проверяет граничные условия. Они спорят между собой и приходят к консенсусу.
Контекст 128k токенов: можно загрузить целую научную статью и попросить найти в ней ошибки. Или дать описание эксперимента с кучей формул.

💡

В отличие от обычных LLM, P1 не генерирует текст «потоком сознания». Она выдаёт решение структурированно: условие, известные величины, физические законы, математический аппарат, вычисления, ответ с единицами. Как будто сдаёт экзамен.

Скачать, установить, запустить: инструкция для нетерпеливых

Веса лежат на Hugging Face под лицензией Apache 2.0. Полная версия 235B параметров весит ~450 ГБ в FP16. Звучит страшно, но есть квантованные версии. Самый популярный формат на 2026 год – IQ4_XS, который сжимает модель до 65 ГБ с минимальной потерей качества на reasoning-задачах.

1 Качаем квантованную версию

Не пытайтесь тянуть FP16, если у вас не кластер из восьми H100. Возьмите IQ4_XS – качество падает на 2-3% против оригинальной модели, но для большинства задач этого хватит. Для точных вычислений лучше IQ4_XL, но он уже 120 ГБ.

# Используем huggingface-hub 0.22+ (актуально на 2026 год)
pip install huggingface-hub==0.22.2
huggingface-cli download Shanghai-AI-Lab/P1-235B-A22B-GGUF-IQ4_XS --local-dir ./p1-model --local-dir-use-symlinks False

2 Запускаем через llama.cpp

Llama.cpp в версии 2026.01 поддерживает все новые форматы квантования, включая IQ-серию. Собрать лучше из исходников с поддержкой CUDA 12.5.

# Клонируем актуальную версию
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make LLAMA_CUBLAS=1 -j8

# Запускаем инференс
./main -m ../p1-model/p1-235b-a22b-q4_XS.gguf -p "Задача: Найти ускорение тела на наклонной плоскости с трением." -n 512 --reasoning-mode

Ключевой флаг --reasoning-mode – он включает агентную систему PhysicsMinions. Без него P1 будет работать как обычная большая модель, но с ним начнёт рассуждать шагами.

3 А если нет 65 ГБ на диске?

Берём P1-27B-A12B – урезанную версию на 27 миллиардов параметров. Она занимает 8 ГБ в IQ4_XS и показывает 85% от результатов большой модели на задачах средней сложности. Для студентов и инженеров – идеально. Ссылка на веса в том же репозитории.

Внимание: Не используйте старые методы квантования вроде Q8_0 или Q4_K_M для P1. Они убивают reasoning-способности. Только IQ-форматы, специально разработанные для моделей рассуждений. Подробнее в нашем гайде про квантование.

Когда P1 выигрывает, а когда проигрывает

Сравнивать P1 с другими моделями в 2026 году – занятие неблагодарное. GPT-5 лучше пишет стихи, Claude-4 лучше следует инструкциям. Но в научном reasoning-е P1 бьёт всех.

Модель	IPhO-2024 Score	Контекст	Стоимость инференса	Открытые веса
P1-235B-A22B (2026)	39.5/50	128k	0 (локально)	Да
GPT-5 (2025)	37.2/50	256k	$0.12/1M токенов	Нет
Claude-4 (2025)	35.8/50	200k	$0.18/1M токенов	Нет
Gemma 3 27B (2026)	28.3/50	64k	0 (локально)	Да

P1 выигрывает, когда нужны:

Решение сложных физических и математических задач с пошаговым объяснением.
Анализ научных статей на предмет логических ошибок.
Генерация гипотез для экспериментов (модель предлагает неочевидные связи).
Проверка расчётов – P1 ловит ошибки в размерностях и приближениях.

P1 проигрывает, когда нужны:

Креативные тексты – пишет сухо, как учебник.
Диалог на общие темы – отвечает, но без эмоций.
Работа с кодом – специализированные SWE-модели вроде GLM-4.7-REAP справляются лучше.
Быстрые ответы – инференс 235B модели даже на современном железе занимает секунды.

Научные задачи, которые теперь решаются за минуты

Вот что можно делать с P1 прямо сейчас, без дообучения:

Разбор экспериментальных данных

Загружаете сырые данные с датчиков, описываете установку. P1 предлагает методы обработки, строит гипотезы о погрешностях, рекомендует графики для визуализации. Не заменит учёного, но сэкономит неделю рутинного анализа.

Поиск ошибок в расчётах

Даёте свою статью или отчёт. Модель находит несоответствия в формулах, проверяет переходы между уравнениями, указывает на пропущенные множители. Тестировали на реальных препринтах с arXiv – находила ошибки, которые пропускали рецензенты.

Генерация учебных материалов

Попросите создать задачу по квантовой механике уровня третьего курса с постепенным увеличением сложности. P1 сгенерирует условие, решение, альтернативные подходы и контрольные вопросы. Преподаватели физики уже используют это для семинаров.

💡

Самый неочевидный кейс – использование P1 для peer review. Модель не заменяет эксперта, но может проверить логическую целостность работы, что особенно полезно для междисциплинарных статей, где рецензенты могут не заметить ошибки в чужой области.

Кому не стоит трогать эту модель?

P1 – инструмент для профессионалов, а не игрушка. Не беритесь за неё, если:

У вас меньше 32 ГБ оперативной памяти. Даже квантованная версия требует RAM для буферов.
Вы не готовы разбираться с llama.cpp и компиляцией. Готовых GUI на 2026 год мало, большинство – консольные.
Вам нужны ответы на бытовые вопросы. Для этого есть бесплатные 7B-модели.
Вы рассчитываете на 100% точность. P1 ошибается, особенно в задачах за пределами физики и математики. Всегда проверяйте вывод.

Идеальный пользователь P1 – научный сотрудник, инженер-исследователь, преподаватель физики или математики, аспирант. Тот, кто понимает предмет и может отличить правильное решение от красивого бреда.

Что дальше? Прогноз на 2027 год

Успех P1 показал, что специализированные модели reasoning-а – это отдельная ниша. К концу 2026 года ждём:

Появление аналогичных моделей для химии и биологии от других лабораторий.
Интеграцию PhysicsMinions в популярные фреймворки вроде LangChain для создания научных ассистентов.
Рост количества квантованных форматов, оптимизированных под reasoning. Возможно, появится IQ2, который сожмёт P1 до 30 ГБ без потерь.

Совет напоследок: если вы работаете в науке, скачайте P1-27B-A12B сегодня. Это как получить в команду ещё одного исследователя, который не спит, не ест и не просит зарплату. Только не забудьте проверить его расчёты. (И да, для медицинских задач лучше использовать специализированные модели – вот наш обзор MedGemma).

А если хотите дообучить P1 под свои задачи – готовьтесь к боли с железом. 235 миллиардов параметров – это не шутки. Но есть лайфхаки, например, как разместить её на трёх 3090. Удачи в экспериментах!

P1-235B-A22B: как использовать первую золотую медалистку IPhO для решения научных задач