Почему метод поиска чисел больше 2023 не работает для детекции AI-текста?

Метод ловит не AI-тексты, а темы о будущем. Финансовые прогнозы, планы развития, научные статьи с упоминанием будущих годов - всё это ошибочно классифицируется как AI-генерация.

Каковы реальные последствия использования псевдонаучных детекторов AI?

Студентов отчисляют из университетов, журналистам отказывают в публикациях, учёные не получают гранты из-за ложных срабатываний абсурдных алгоритмов.

Как отличить настоящие исследования от псевдонаучных?

Настоящая наука тестирует методы на разнообразных датасетах, проверяет на неизвестных моделях, анализирует ложные срабатывания и предоставляет открытый код для воспроизведения результатов.

Сатира на детекторы AI-текста: разбор псевдонаучного алгоритма

Когда наука становится анекдотом

Вы когда-нибудь задумывались, почему одни исследования по детекции AI-текста вызывают уважение, а другие - смех? Пока серьезные команды ломают голову над семантическими паттернами и статистическими аномалиями, некоторые «ученые» нашли гениальный метод. Проще простого. Если в тексте есть четырёхзначное число больше 2023 - это явно написал ChatGPT. Научно? Безусловно. Глупо? Абсолютно.

Реальный препринт, который мы анализируем, не называя имён, чтобы не позорить авторов. Но такие «открытия» появляются с пугающей регулярностью.

Алгоритм гения: if number > 2023

Представьте себе. Исследователи скачали 10 миллионов текстов из CommonCrawl. Потратили недели на обработку. Написали сотни строк кода. И пришли к выводу: нейросети любят говорить о будущем. Конкретно - о годах после 2023. Потому что в их тренировочных данных много... правильно, прогнозов на будущее.

«Мы обнаружили статистически значимую корреляцию между наличием четырёхзначных чисел больше 2023 и вероятностью AI-генерации», - пишут авторы с серьёзным лицом. И приводят графики. Много графиков. С p-значениями меньше 0.05. Научный метод в действии.

💡

Настоящая проблема не в глупости метода, а в том, что такие работы проходят рецензирование. Это показывает кризис в системе научной оценки исследований ИИ.

Почему это смешно, страшно и опасно одновременно

Давайте разберем этот «алгоритм» по косточкам. Во-первых, он ловит не AI-тексты, а темы. Финансовые прогнозы на 2024-2025 годы? AI. Планы развития компании до 2026? AI. Научные статьи с упоминанием 2030 года как горизонта планирования? Однозначно AI.

Во-вторых, метод игнорирует фундаментальный принцип: корреляция ≠ causation. Да, в тренировочных данных LLM много текстов о будущем. Потому что в интернете много текстов о будущем. Это как обнаружить, что люди чаще пишут о COVID-19 в 2020-2023 годах, чем в 2015. Шок.

Но самое забавное - это практическое применение. Хотите обмануть детектор? Пишите о прошлом. 1999, 1066, 1812 - любые числа меньше 2023. Или вообще не упоминайте годы. Гениально.

Эпидемия псевдонаучных детекторов

Это не единичный случай. После бума генеративного ИИ рынок детекторов взорвался. Каждый день появляются новые «революционные» методы. Одни ищут слова-паразиты. Другие - среднюю длину предложения. Третьи - частоту запятых.

Метод «детекции»	Что ищет	Реальная точность
«Числа > 2023»	Четырёхзначные числа	Меньше случайного угадывания
«Запятые AI»	Частоту знаков препинания	Ловит только плохих писателей
«Словарный запас»	Редкие слова	Путает академиков с нейросетями

Проблема в том, что эти методы продаются как научные открытия. С графиками. С таблицами. С цитатами из предыдущих работ. Полный академический антураж. И доверчивые журналисты, университеты, даже компании покупаются на эту красивую упаковку.

Откуда берутся такие «исследования»

Ответ прост: publish or perish. Ученым нужно публиковаться. Журналам нужно заполнять выпуски. А тема детекции AI-текста - горячая. Результат? Конвейер по производству мусорной науки.

Авторы берут простую идею. Оформляют её в научный стиль. Добавляют статистику (часто неправильную). Пишут выводы, которые звучат умно, но ничего не значат. И вуаля - новая публикация. Карьера движется. Гранты поступают.

Между тем, настоящие исследования, вроде анализа того, как языковые модели решают математические задачи, требуют месяцев работы. Но их результаты менее «сенсационны». Поэтому их меньше цитируют в СМИ.

Недавний скандал с ложными прорывами ИИ в математике, о котором мы писали в статье про хайп против науки, показывает ту же проблему: красивые заголовки важнее реальных результатов.

Что на самом деле нужно для детекции AI-текста

Забудьте про простые эвристики. Современные LLM, вроде DeepSeek V4, научились имитировать человеческий стиль почти идеально. Они делают ошибки. Используют разговорные выражения. Даже добавляют опечатки для реалистичности.

Настоящая детекция требует:

Семантического анализа - понимания, есть ли в тексте реальный смысл или это красивая бессмыслица
Статистики следующего токена - анализа распределения вероятностей, которое невидимо для человека
Контекстуальной согласованности - проверки, не противоречит ли текст сам себе в разных частях
Знания о мире - может ли текст содержать фактические ошибки, характерные для тренировочных данных LLM

И даже эти методы не дают 100% точности. Потому что граница между человеческим и машинным текстом размывается. Быстрее, чем мы думаем.

К чему приведёт эта псевдонаука

Прямо сейчас где-то студента отчисляют из университета, потому что «детектор» нашёл в его работе число 2025. Где-то журналисту отказывают в публикации, потому что алгоритм заподозрил AI. Где-то учёный не получает грант из-за ложного срабатывания.

Реальные последствия абсурдных методов уже здесь. И они серьёзнее, чем кажется.

Но есть и хорошие новости. Научное сообщество начинает просыпаться. Растёт число критических статей. Рецензенты становятся строже. Появляются работы, вроде исследования о System 2 архитектуре для LLM, которые поднимают реальные, сложные вопросы.

Как отличить науку от фарса

Следующий раз, когда увидите заголовок «Учёные создали идеальный детектор AI-текста», задайте вопросы:

На каком датасете тестировали? (Если только на публичных - это красный флаг)
Какая точность на неизвестных моделях? (Если тестировали только на GPT-3.5 - смело пропускайте)
Есть ли ложные срабатывания на человеческие тексты? (Если не проверяли - работа бесполезна)
Метод открытый? Можно повторить эксперимент? (Если нет - это не наука, это шоу)

Помните: настоящая наука сложна, скучна и полна нюансов. Она не умещается в хлёсткий заголовок. Она требует месяцев проверок. И её результаты часто звучат как «мы немного улучшили предыдущий метод, но есть ограничения».

А если метод звучит слишком просто, чтобы быть правдой... он, скорее всего, и есть неправда. Даже если у него красивые графики и модные p-значения.

P.S. Кстати, в этой статье есть число 2023. И несколько чисел больше. Проверьте любым «детектором». Что он скажет?

Детектор AI-текста, который ищет числа больше 2023. И это не шутка