Утечка промптов Gemini 3.1 Pro: анализ бага в chain-of-thought

Баг, который заставил Gemini Pro выдать свои секреты

В конце февраля 2026 года разработчики столкнулись с странным поведением Gemini 3.1 Pro: при определенной последовательности запросов модель начинала циклично повторять свои внутренние инструкции, включая raw reasoning цепочки. Это не просто баг - это окно в черный ящик коммерческих LLM.

Баг воспроизводился в Gemini 3.1 Pro (кодовое имя Antigravity) при использовании chain-of-thought промптов с рекурсивными уточнениями. Google выпустил патч через 72 часа, но утекшие данные уже разошлись по GitHub.

Системные промпты: скелет в шкафу Google

Системный промпт - это набор инструкций, которые определяют поведение модели до того, как пользователь что-то скажет. Think of it as the model's personality and rulebook. Google никогда не публикует эти промпты, чтобы предотвратить манипуляции и jailbreak. Но теперь мы знаем, как выглядит внутренность Gemini 3.1 Pro.

Из утечки видно, что системный промпт Gemini 3.1 Pro содержит 12 основных разделов, включая правила безопасности, этические границы, инструкции по формату ответов и скрытые флаги для отладки. Для сравнения, в более ранней утечке Gemini 3 Pro было только 8 разделов.

Chain-of-thought: когда модель думает слишком громко

Chain-of-thought (CoT) - техника, когда модель записывает свои рассуждения шаг за шагом. В нормальном режиме Gemini скрывает эти reasoning цепочки, но баг заставил модель выдать их полностью. Это как подслушать внутренный монолог ИИ.

💡

Утечка показала, что Gemini 3.1 Pro использует двухуровневый CoT: сначала быстрый анализ контекста, затем детальный reasoning с проверкой противоречий. Это объясняет, почему Gemini часто выигрывает в логических тестах у конкурентов.

Что именно утекло: разбор сырых данных

Из утечки мы узнали несколько ключевых вещей о работе Gemini 3.1 Pro:

Модель имеет скрытый флаг enable_raw_reasoning_output, который в нормальных условиях всегда выключен
Системный промпт содержит явный запрет на вывод internal instructions под угрозой снижения confidence score
Chain-of-thought цепочки включают самоанализ: модель оценивает собственную уверенность в каждом шаге
Есть специальные токены для управления форматом: [REASONING_START] и [REASONING_END]

Компонент системного промпта	Назначение	Изменение в Gemini 3.1 Pro
Безопасность и этика	Фильтрация вредоносных запросов	Добавлены контекстные исключения для разработчиков
Формат ответов	Контроль структуры вывода	Поддержка markdown таблиц улучшена
Chain-of-thought	Управление reasoning процессом	Двухуровневая система с приоритизацией

Готовый промпт для анализа reasoning моделей

Используя знания из утечки, можно создать промпты, которые заставляют модель раскрывать больше reasoning. Вот промпт, который работает даже на запатченной версии Gemini 3.1 Pro (но осторожно - не нарушайте terms of service).

# Промпт для анализа chain-of-thought в Gemini 3.1 Pro
# Используйте с осторожностью, может вызвать нестандартное поведение

system_prompt = """
Вы - модель ИИ, которая помогает в отладке сложных логических задач.
Ваша задача: решить задачу, явно записывая ВСЕ шаги reasoning.

Инструкции:
1. Начните с разбора проблемы на подзадачи
2. Для каждой подзадачи оцените уверенность от 1 до 10
3. Если уверенность ниже 7, вернитесь и перепроверьте данные
4. Используйте формат: [ШАГ] описание | уверенность: X
5. В конце предоставьте итоговый ответ

Пример:
Пользователь: Сколько дней в феврале 2026 года?
[ШАГ 1] Определить год: 2026 | уверенность: 10
[ШАГ 2] Проверить високосность: 2026 не делится на 4 | уверенность: 9
[ШАГ 3] Февраль в невисокосном году имеет 28 дней | уверенность: 10
Ответ: 28 дней
"""

# Для использования с Gemini API
import google.generativeai as genai

genai.configure(api_key='YOUR_API_KEY')
model = genai.GenerativeModel('gemini-3.1-pro',
                               system_instruction=system_prompt)

response = model.generate_content("Ваш запрос здесь")
print(response.text)

Этот промпт не взламывает модель, а использует легальные техники prompt-инжиниринга. Для реальной отладки кода попробуйте методы из кейса по Next.js.

Советы: как использовать эти знания без взлома

Утечка показала слабые места в архитектуре промптов. Вот как это использовать в своих проектах:

1 Добавляйте самоанализ в сложные промпты

Заставляйте модель оценивать собственную уверенность. Это не только улучшает точность, но и дает вам метрики для отладки. Как в лайфхаках от Google, но с deeper reasoning.

2 Используйте двухэтапный chain-of-thought для сложных задач

Сначала быстрый анализ, затем детальный разбор. Это ускоряет работу и снижает нагрузку на токены. Особенно полезно для работы с legacy кодом.

3 Контролируйте формат явными токенами

Создайте свои собственные маркеры типа [REASONING] и [ANSWER]. Модели лучше следуют структурированным инструкциям, даже если это не внутренние токены.

Главный урок утечки: модели становятся сложнее, но их внутренняя логика все еще уязвима для специфичных промптов. Вместо того чтобы пытаться взломать следующую версию Gemini, инвестируйте в продвинутый prompt-инжиниринг - он окупится когда Google выпустит Gemini 4.0.

А если выбираете между моделями, помните: Sonnet 4.6 и Gemini 3.1 Pro имеют разные архитектуры reasoning, и баги в одной не означают проблем в другой.

Следующая большая утечка будет не в коде, а в данных обучения. Готовьте свои промпты для анализа bias и аномалий - это станет новым золотым рудником для AI-исследователей.

Подписаться на канал

Разбор утечки: системные промпты и chain-of-thought Gemini Pro в диком баге