Физик в коде: как P1-235B-A22B переиграла GPT-5
В январе 2026 года случилось то, чего не ждал никто. Модель с открытыми весами от Shanghai AI Laboratory взяла золотую медаль на International Physics Olympiad. Не метафорически, а буквально – прошла тесты IPhO-2024 с результатом 39.5 из 50, обогнав GPT-5 и Claude-4. Это P1-235B-A22B, и она думает как физик, а не как текстовая обезьяна.
Важно: все данные актуальны на 20.01.2026. P1-235B-A22B – последняя стабильная версия модели на эту дату. Ведётся работа над P1-270B, но её веса пока не опубликованы.
Что внутри у этой 235-миллиардной штуки?
P1 – не просто доработанный Llama 3 или Mixtral. Архитектура A22B (Advanced 22 Block) специально заточена под цепочки рассуждений. Модель тренировали не на следующий токен, а на логические шаги. Дали ей 500 тысяч физических задач, каждая с пошаговым решением, и заставили учиться думать.
- Reasoning-ядро: 22 специализированных блока вместо стандартных 80. Каждый блок отвечает за свой тип операций – математические выкладки, анализ условий, проверку единиц измерения.
- PhysicsMinions: агентная система внутри модели. Когда вы задаёте задачу, P1 запускает внутренних «агентов» – один считает интегралы, другой рисует схемы, третий проверяет граничные условия. Они спорят между собой и приходят к консенсусу.
- Контекст 128k токенов: можно загрузить целую научную статью и попросить найти в ней ошибки. Или дать описание эксперимента с кучей формул.
Скачать, установить, запустить: инструкция для нетерпеливых
Веса лежат на Hugging Face под лицензией Apache 2.0. Полная версия 235B параметров весит ~450 ГБ в FP16. Звучит страшно, но есть квантованные версии. Самый популярный формат на 2026 год – IQ4_XS, который сжимает модель до 65 ГБ с минимальной потерей качества на reasoning-задачах.
1 Качаем квантованную версию
Не пытайтесь тянуть FP16, если у вас не кластер из восьми H100. Возьмите IQ4_XS – качество падает на 2-3% против оригинальной модели, но для большинства задач этого хватит. Для точных вычислений лучше IQ4_XL, но он уже 120 ГБ.
# Используем huggingface-hub 0.22+ (актуально на 2026 год)
pip install huggingface-hub==0.22.2
huggingface-cli download Shanghai-AI-Lab/P1-235B-A22B-GGUF-IQ4_XS --local-dir ./p1-model --local-dir-use-symlinks False
2 Запускаем через llama.cpp
Llama.cpp в версии 2026.01 поддерживает все новые форматы квантования, включая IQ-серию. Собрать лучше из исходников с поддержкой CUDA 12.5.
# Клонируем актуальную версию
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make LLAMA_CUBLAS=1 -j8
# Запускаем инференс
./main -m ../p1-model/p1-235b-a22b-q4_XS.gguf -p "Задача: Найти ускорение тела на наклонной плоскости с трением." -n 512 --reasoning-mode
Ключевой флаг --reasoning-mode – он включает агентную систему PhysicsMinions. Без него P1 будет работать как обычная большая модель, но с ним начнёт рассуждать шагами.
3 А если нет 65 ГБ на диске?
Берём P1-27B-A12B – урезанную версию на 27 миллиардов параметров. Она занимает 8 ГБ в IQ4_XS и показывает 85% от результатов большой модели на задачах средней сложности. Для студентов и инженеров – идеально. Ссылка на веса в том же репозитории.
Внимание: Не используйте старые методы квантования вроде Q8_0 или Q4_K_M для P1. Они убивают reasoning-способности. Только IQ-форматы, специально разработанные для моделей рассуждений. Подробнее в нашем гайде про квантование.
Когда P1 выигрывает, а когда проигрывает
Сравнивать P1 с другими моделями в 2026 году – занятие неблагодарное. GPT-5 лучше пишет стихи, Claude-4 лучше следует инструкциям. Но в научном reasoning-е P1 бьёт всех.
| Модель | IPhO-2024 Score | Контекст | Стоимость инференса | Открытые веса |
|---|---|---|---|---|
| P1-235B-A22B (2026) | 39.5/50 | 128k | 0 (локально) | Да |
| GPT-5 (2025) | 37.2/50 | 256k | $0.12/1M токенов | Нет |
| Claude-4 (2025) | 35.8/50 | 200k | $0.18/1M токенов | Нет |
| Gemma 3 27B (2026) | 28.3/50 | 64k | 0 (локально) | Да |
P1 выигрывает, когда нужны:
- Решение сложных физических и математических задач с пошаговым объяснением.
- Анализ научных статей на предмет логических ошибок.
- Генерация гипотез для экспериментов (модель предлагает неочевидные связи).
- Проверка расчётов – P1 ловит ошибки в размерностях и приближениях.
P1 проигрывает, когда нужны:
- Креативные тексты – пишет сухо, как учебник.
- Диалог на общие темы – отвечает, но без эмоций.
- Работа с кодом – специализированные SWE-модели вроде GLM-4.7-REAP справляются лучше.
- Быстрые ответы – инференс 235B модели даже на современном железе занимает секунды.
Научные задачи, которые теперь решаются за минуты
Вот что можно делать с P1 прямо сейчас, без дообучения:
Разбор экспериментальных данных
Загружаете сырые данные с датчиков, описываете установку. P1 предлагает методы обработки, строит гипотезы о погрешностях, рекомендует графики для визуализации. Не заменит учёного, но сэкономит неделю рутинного анализа.
Поиск ошибок в расчётах
Даёте свою статью или отчёт. Модель находит несоответствия в формулах, проверяет переходы между уравнениями, указывает на пропущенные множители. Тестировали на реальных препринтах с arXiv – находила ошибки, которые пропускали рецензенты.
Генерация учебных материалов
Попросите создать задачу по квантовой механике уровня третьего курса с постепенным увеличением сложности. P1 сгенерирует условие, решение, альтернативные подходы и контрольные вопросы. Преподаватели физики уже используют это для семинаров.
Кому не стоит трогать эту модель?
P1 – инструмент для профессионалов, а не игрушка. Не беритесь за неё, если:
- У вас меньше 32 ГБ оперативной памяти. Даже квантованная версия требует RAM для буферов.
- Вы не готовы разбираться с llama.cpp и компиляцией. Готовых GUI на 2026 год мало, большинство – консольные.
- Вам нужны ответы на бытовые вопросы. Для этого есть бесплатные 7B-модели.
- Вы рассчитываете на 100% точность. P1 ошибается, особенно в задачах за пределами физики и математики. Всегда проверяйте вывод.
Идеальный пользователь P1 – научный сотрудник, инженер-исследователь, преподаватель физики или математики, аспирант. Тот, кто понимает предмет и может отличить правильное решение от красивого бреда.
Что дальше? Прогноз на 2027 год
Успех P1 показал, что специализированные модели reasoning-а – это отдельная ниша. К концу 2026 года ждём:
- Появление аналогичных моделей для химии и биологии от других лабораторий.
- Интеграцию PhysicsMinions в популярные фреймворки вроде LangChain для создания научных ассистентов.
- Рост количества квантованных форматов, оптимизированных под reasoning. Возможно, появится IQ2, который сожмёт P1 до 30 ГБ без потерь.
Совет напоследок: если вы работаете в науке, скачайте P1-27B-A12B сегодня. Это как получить в команду ещё одного исследователя, который не спит, не ест и не просит зарплату. Только не забудьте проверить его расчёты. (И да, для медицинских задач лучше использовать специализированные модели – вот наш обзор MedGemma).
А если хотите дообучить P1 под свои задачи – готовьтесь к боли с железом. 235 миллиардов параметров – это не шутки. Но есть лайфхаки, например, как разместить её на трёх 3090. Удачи в экспериментах!