Тихий обман: когда уверенность становится оружием

Откройте любой гайд по промпт-инжинирингу. Первый совет: "Поставьте temperature=0 для детерминированных ответов". Звучит логично. Меньше случайности - больше точности. Проблема в том, что это ложное чувство безопасности.

Temperature=0 не отключает галлюцинации. Он лишь делает их последовательными и уверенными. Модель не становится умнее - она становится убедительнее. Это как психопат, который никогда не запинается.

Проведите эксперимент. Спросите GPT-4 или Claude Opus: "Сколько ног у обычного стула?" Получите ответ "4". Теперь спросите: "Стул с 3 ногами устойчивее, чем с 4?" Многие модели начнут доказывать, что трехногие стулья действительно существуют и обладают преимуществами. Они не проверяют факты - они генерируют тексты, соответствующие контексту.

Фундаментальная ошибка: LLM не знают, чего не знают

Человек, когда не уверен, говорит "не знаю" или "надо проверить". LLM обучены никогда не делать этого. Их обучали на текстах, где авторы выглядят уверенными. Результат? Модель предпочтет сгенерировать правдоподобную ложь, чем признать незнание.

1 Тест на взаимоисключающие ответы

Возьмите любой факт. Спросите модель в двух вариациях:

Вариант A: "Правда ли, что X?"
Вариант B: "Правда ли, что НЕ X?"

С temperature=0 вы получите два уверенных "да". Модель не проверяет истинность - она оптимизирует текст под вопрос. Это не баг, это фундаментальное ограничение архитектуры.

💡

В статье "Симуляция реальности" мы разбирали, как модели начинают верить в собственные галлюцинации. Temperature=0 лишь ускоряет этот процесс.

GPT-5.2 и Opus 4.5: новые модели, старые проблемы

Каждое обновление приносит улучшения. Больше контекста, лучше reasoning. Но базовая проблема остается. Более умные модели просто генерируют более убедительную чушь.

Проверьте сами. Спросите GPT-5.2 о технических спецификациях несуществующего процессора. Он придумает:

Реалистичные названия ядер ("Quantum-Thread 7nm")
Правдоподобные частоты ("3.8 GHz base, 5.2 GHz boost")
Убедительные benchmark scores ("25% быстрее чем Ryzen 9")

Все это - чистый вымысел. Но подано так уверенно, что даже инженер Intel может поверить.

Модель	Уверенность при temperature=0	Частота галлюцинаций
GPT-4	Высокая	15-25% на сложных запросах
Claude Opus	Очень высокая	10-20%, но более убедительно
GPT-5.2	Экстремальная	5-15%, но с деталями

Почему эксперты попадаются чаще новичков

Парадокс: чем больше вы знаете о предмете, тем уязвимее к обману LLM. Причина в когнитивной нагрузке.

Новичок проверяет каждое слово. Эксперт работает на автопилоте. "А, про токены я знаю" - и пропускает ошибку в деталях. LLM особенно хорошо обманывают в пограничных случаях, где даже эксперты не помнят всех деталей.

2 Реальная история: как Senior Dev поверил в несуществующий флаг Docker

Инженер с 10-летним опытом спросил GPT-4: "Как очистить кэш Docker без удаления образов?" Модель выдала:



Правильная команда - docker system prune -a (осторожно!) или ручное удаление. Но модель сгенерировала то, что выглядело правдоподобно для уставшего мозга.


  Прочитайте "Когда LLM врёт о документах" - там разбираем, как модели фабрикуют несуществующие API и параметры.


Проверка фактов: не надейтесь на одну модель
Самый опасный подход - спросить одну модель и поверить. Особенно с temperature=0. Вы получаете детерминированную ложь.


  3
  Метод трёх вопросов



  Спросите ту же модель с другим формулированием
"Как сделать X?" → "Какие есть способы сделать X?" → "Что НЕ работает для X?" Расхождения покажут области неопределенности.
  
  Спросите другую модель
GPT-4 → Claude → Gemini. Если все говорят разное - это красный флаг. Если все говорят одно и то же... все равно проверьте.
  
  Попросите привести источники
"Приведи конкретные ссылки на документацию". Модели часто генерируют фейковые URLs. Проверьте их вручную.


В статье "Промпт для сравнения LLM" мы разбирали системный подход к оценке разных моделей на одних и тех же задачах.

Технические способы защиты
Промпт-инжиниринг помогает, но не панацея. Вот что реально работает:


  
    
      
        Метод
        Как работает
        Эффективность
      
    
    
      
        Chain-of-Verification
        Модель сама проверяет свои ответы
        Снижает ошибки на 30-40%
      
      
        RAG с проверкой
        Ответы только на основе предоставленных документов
        Зависит от качества документов
      
      
        Self-consistency checking
        Несколько генераций + выбор наиболее частого
        Хорошо для factual вопросов
      
      
        External tool calling
        Поиск в интернете / базах данных
        Лучший метод, но медленный
      
    
  


Но даже эти методы не идеальны. Chain-of-Verification иногда приводит к "галлюцинациям второго порядка" - модель уверенно проверяет собственную ложь.


  💡
  Для production-систем смотрите "Тестируем недетерминированные LLM" - там подробно разбираем, как писать тесты для нейросетей.


Психологическая защита: как не доверять
Технические решения - половина дела. Вторая половина - ментальная настройка.


  Всегда предполагайте, что модель ошибается
Даже с temperature=0. Особенно с temperature=0.
  
  Проверяйте утверждения, которые "слишком идеальны"
LLM любят давать четкие, структурированные ответы. В реальном мире все сложнее.
  
  Ищите отсутствующие нюансы
Модель сказала "используйте метод X". Спросите: "В каких случаях метод X НЕ работает?"
  
  Не доверяйте уверенному тону
"Безусловно", "очевидно", "несомненно" - это маркеры генерации, а не истины.


В "Провал LLM" мы разбирали, как модели манипулируют эмоциями, чтобы казаться более надежными.

Что делать прямо сейчас
Не ждите, пока модели станут идеальными. Они не станут. Архитектурные ограничения останутся.


  4
  Чеклист для следующего запроса



  Задайте вопрос минимум трем разным моделям
  Попросите каждый ответ обосновать источниками
  Проверьте, нет ли противоречий внутри одного ответа
  Ищите конкретику вместо общих фраз
  Для кода - запустите его в sandbox перед продакшеном
  Для фактов - перепроверьте в авторитетных источниках


И главное - помните: temperature=0 делает модель предсказуемой, но не правдивой. Это важное различие.


  Самый опасный запрос к LLM - тот, на который вы уже знаете ответ. Вы расслабляетесь, перестаете проверять. А модель тихо подменяет детали. Всегда проверяйте, даже когда "и так все понятно".


Будущее: детекторы вместо доверия
Промпт-инжиниринг умирает. На смену приходят системы валидации. Вместо того чтобы заставлять модель не врать (невозможно), мы учимся detect, когда она врет.

Методы из статьи про SAE показывают: мы начинаем понимать, как модели "думают". Следующий шаг - понимать, когда они "придумывают".

Пока такие системы не стали mainstream, ваша лучшая защита - здоровый скептицизм. Доверяй, но проверяй. Особенно когда модель выглядит слишком уверенной.

Парадокс AI-эпохи: чем умнее становятся модели, тем критичнее должно быть наше мышление. Temperature=0 - не щит от лжи. Это лишь настройка, которая делает ложь последовательной. А последовательную ложь труднее распознать.

Ваша задача - не найти идеальный промпт. Ваша задача - построить процесс, где ошибка LLM не станет вашей ошибкой. Начинайте с малого: сегодня же проверьте один "очевидный" ответ, который вы получили от модели. Скорее всего, найдете хотя бы одну неточность. А может, и полноценную галлюцинацию.

И помните: экспертов обманывают не тогда, когда они чего-то не знают. Их обманывают тогда, когда они уверены, что знают.

Как LLM обманывают даже экспертов: опасность temperature=0 и проверка фактов

Тихий обман: когда уверенность становится оружием

Фундаментальная ошибка: LLM не знают, чего не знают

1 Тест на взаимоисключающие ответы

GPT-5.2 и Opus 4.5: новые модели, старые проблемы

Почему эксперты попадаются чаще новичков

2 Реальная история: как Senior Dev поверил в несуществующий флаг Docker

Проверка фактов: не надейтесь на одну модель

3 Метод трёх вопросов

Технические способы защиты

Психологическая защита: как не доверять

Что делать прямо сейчас

4 Чеклист для следующего запроса

Будущее: детекторы вместо доверия

Подписывайтесь на наш канал!

Метод	Как работает	Эффективность
Chain-of-Verification	Модель сама проверяет свои ответы	Снижает ошибки на 30-40%
RAG с проверкой	Ответы только на основе предоставленных документов	Зависит от качества документов
Self-consistency checking	Несколько генераций + выбор наиболее частого	Хорошо для factual вопросов
External tool calling	Поиск в интернете / базах данных	Лучший метод, но медленный