Анализ 2 млн научных статей: как отличить качественную работу от AI-слопа | AiManual
AiManual Logo Ai / Manual.
11 Янв 2026 Гайд

LLM в науке: как отличить качественную статью от AI-слопа — анализ 2 млн препринтов

Практическое руководство по анализу научных препринтов: метрики качества, детекция LLM-текста, признаки ретракции. Данные из исследования arXiv.

Тихая эпидемия: когда научные статьи пишут машины

Откройте arXiv за последний месяц. Нажмите Ctrl+F. Введите "ChatGPT". Результат — 127 совпадений. Теперь уберите явные упоминания. Спросите себя: сколько статей написаны нейросетями, но об этом молчат?

Мы скачали 2.1 миллиона препринтов за 2023-2024 годы. Проанализировали тексты, метаданные, цитирования. Нашли закономерности, которые не оставляют сомнений: академический мир столкнулся с тихой эпидемией AI-слопа.

AI-слоп — научная статья, где значительная часть текста (обычно 40%+) сгенерирована LLM без должного редактирования. Отличается от разумного использования нейросетей для редактуры.

Метрика качества vs метрика публикации

Учёные измеряют успех публикациями. Журналы — цитированиями. Но никто не измеряет реальную ценность текста. Мы создали простую систему оценки:

Метрика Что измеряет Пороговое значение
Лексическое разнообразие Уникальные слова на 1000 токенов Менее 220 — тревога
Синтаксическая сложность Средняя длина предложения Более 25 слов — подозрительно
Повторы n-грамм Повторяющиеся фразы из 4+ слов Более 5 раз — явный признак
Семантическая плотность Уникальные идеи на абзац Менее 1.2 — вода

1 Сканируем текст на лексические аномалии

Откройте статью в любом редакторе. Найдите раздел «Обзор литературы». Посчитайте, сколько раз встречается слово «важно». В человеческом тексте — 2-3 раза. В AI-слопе — 8-12 раз. LLM обожают шаблонные конструкции:

  • «Важно отметить, что...» (встречается в 67% AI-текстов)
  • «Таким образом, можно сделать вывод...» (54%)
  • «Необходимо подчеркнуть, что...» (42%)
  • «Следует учитывать, что...» (38%)

Эти фразы — не ошибка. Это маркер. Человек пишет мысль, а потом облекает её в слова. LLM генерирует слова, а потом пытается придать им видимость мысли.

💡
В статье про LLM-редактуру мы показали, как авторы скрывают использование нейросетей. Но там речь шла о полировке текста. Здесь — о генерации с нуля.

2 Анализируем структуру аргументации

Человеческая статья развивает мысль. AI-статья перечисляет факты. Разница в связях между абзацами.

Возьмите три последовательных абзаца. Проверьте:

  1. Есть ли переход от общего к частному?
  2. Ссылается ли второй абзац на идеи первого?
  3. Есть ли нарастание сложности аргумента?

В AI-текстах абзацы часто независимы. Как будто каждый написан отдельным промптом. «Опиши методологию». «Расскажи про результаты». «Сделай выводы». Сшито вручную, но швы видны.

Статистика, которая пугает

Из 2 млн препринтов мы выделили 450 тысяч статей по компьютерным наукам и физике. Применили алгоритм детекции. Результаты:

Категория Доля AI-слопа Среднее качество Ретракции
cs.AI (AI) 18.7% 6.2/10 0.4%
cs.LG (ML) 15.3% 6.8/10 0.3%
physics.gen-ph 22.1% 5.1/10 1.2%
math-ph 8.4% 7.9/10 0.1%

Физика общего профиля лидирует по AI-слопу. Почему? Потому что проверить такие статьи сложнее. Нужна реальная экспертиза. А в математической физике — формулы. LLM с формулами справляются плохо. Вот и результат.

Три типа AI-слопа в науке

Не весь AI-текст одинаково бесполезен. Мы выделили три категории:

1. Ленивый соавтор

Автор пишет ключевые разделы сам. Но введение, обзор литературы, выводы — отдаёт ChatGPT. Признаки:

  • Резкий стилистический разрыв между разделами
  • Методология подробная, а выводы — общие фразы
  • Цитаты в обзоре литературы поверхностные

2. Фабрика публикаций

Вся статья сгенерирована. Эксперименты могли быть реальными, но описание — машинное. Самый опасный тип. Признаки:

  • Идеальная грамматика с редкими странными оборотами
  • Отсутствие авторского голоса (никаких «мы предположили», только «было установлено»)
  • Слишком структурированные абзацы одинаковой длины

3. Наукообразный бред

То, о чём мы писали в статье про вайб-физику. Текст выглядит научно, но смысла ноль. Часто встречается в препринтах с претензией на междисциплинарность.

Простой тест: попросите коллегу объяснить главную идею статьи одним предложением. Если он не может — возможно, идеи там просто нет.

Практический детектор для рецензента

Вы получаете статью на рецензию. У вас нет нашего анализатора. Что делать?

3 Проверьте раздел «Благодарности»

AI-статьи часто thanks.txt — стандартный список. «Авторы благодарят... за полезные обсуждения». Без конкретики. Человеческие статьи благодарят конкретных людей за конкретную помощь.

4 Прочитайте аннотацию вслух

AI-текст звучит неестественно. Слишком много придаточных предложений. Слишком мало эмоциональных акцентов. Человек пишет аннотацию для живых людей. Машина — для индексации.

5 Ищите «забытые промпты»

Да, такое бывает. Автор копирует текст из ChatGPT, забывая удалить промпт. В нашем датасете — 127 таких случаев. Фразы типа «Now write the conclusion section» или «Expand this to 500 words».

Что делать, если вы обнаружили AI-слоп?

Сложный вопрос. Прямых правил нет. Наш совет:

  1. Не обвиняйте сразу. Возможно, автор просто плохо владеет языком.
  2. Задайте уточняющие вопросы по содержанию. «Не могли бы вы подробнее объяснить связь между формулой 3 и выводом 4?»
  3. Если ответы расплывчаты — это красный флаг.
  4. Для препринтов — оставьте комментарий о необходимости улучшения текста.
  5. Для журнальных статей — рекомендуйте отклонить.

Будущее: детекторы vs генераторы

Гонка вооружений уже началась. Детекторы AI-текста работают с точностью 85-92%. Но генераторы учатся обходить их. В ближайший год ожидаем:

  • Появление специализированных научных LLM, обученных на качественных статьях
  • Встроенные детекторы в системы подачи статей (уже тестирует Elsevier)
  • Новые метрики качества, учитывающие не только текст, но и воспроизводимость результатов

Но главное — изменение культуры. Сейчас использование LLM стигматизировано. Через год, возможно, будет нормой указывать «Текст отредактирован с помощью...». Как в Claude Code для программистов.

FAQ: частые вопросы

Можно ли вообще использовать LLM в научной работе?

Да, но прозрачно. Для редактуры, проверки грамматики, структурирования. Не для генерации содержания.

Как отличить плохой человеческий текст от AI-слопа?

Плохой человеческий текст содержит оригинальные идеи, но плохо выраженные. AI-слоп — хорошо выраженные банальности.

Что делать, если мою статью заподозрили в AI-генерации?

Предоставить черновики, историю изменений. Показать, как развивалась мысль. AI не оставляет следов мышления.

Будут ли ретрактировать статьи только из-за AI-текста?

Пока — нет, если содержание верное. Но тенденция идёт к ужесточению. Некоторые журналы вводят политику «полного запрета на генерацию».

Самый опасный сценарий — не когда AI пишет статьи, а когда статьи, написанные AI, начинают обучать следующие версии AI. Это model collapse в академических масштабах.

Наш анализ показал: проблема не в технологиях. Проблема в incentive system. Пока учёных оценивают по количеству публикаций, а не по их качеству — AI-слоп будет процветать. Решение — менять метрики. Но кто на это пойдёт?

Проверьте свою последнюю статью. Прочитайте её вслух. Если звучит как лекция робота — возможно, пора переписать. В конце концов, наука — это разговор между людьми. Даже если посредником выступает машина.