Почему нельзя использовать обычные LLM для научных исследований?

Обычные LLM обучены на смеси научных и ненаучных данных, включая форумы, художественную литературу и соцсети. Они не отличают научный факт от вымысла и могут генерировать убедительный, но ложный научный контент.

Кто мог бы создать чистую научную AI-модель?

Теоретически - консорциум университетов с государственным финансированием. На практике: у университетов нет денег, у компаний нет коммерческого интереса, государства действуют медленно, а стартапы ищут быструю окупаемость.

Что делать учёным сейчас, пока нет специализированной модели?

Использовать обычные модели как «умный поиск» с обязательной проверкой каждого факта, настраивать RAG-системы с проверенными базами статей, участвовать в открытых проектах по сбору данных и не доверять AI с формулами и экспериментальными данными.

Почему нет AI-модели для науки: гнев учёных и проблемы с данными

Научный чат-бот или профессиональный бредогенератор?

Доктор Мария Ковальчук из Института биофизики пыталась использовать ChatGPT для анализа структуры белка. Модель выдала красивую, убедительную схему с цитатами из несуществующих статей. Ссылки выглядели как настоящие. Журналы звучали солидно. Только вот белок в природе не существует. «Это как спрашивать у таксиста теорию струн», - говорит Мария. «Он уверенно ответит. И будет неправ».

Учёные по всему миру сталкиваются с одной проблемой. Современные большие языковые модели обучены на всём подряд. На научных статьях. На форумах. На фанфиках. На инструкциях к тостерам. И когда вы спрашиваете о квантовой запутанности, модель может выдать вам смесь учебника по физике, поста с Reddit и сюжета из «Звёздного пути».

Профессор Стэнфорда в сердцах: «Я лучше буду работать с калькулятором 80-х годов, чем с AI, который выдаёт научные факты с той же уверенностью, что и рецепт борща».

Что не так с «чистотой» данных?

Представьте, что вы готовите лекарство. Берёте дистиллированную воду. Стерильные инструменты. А потом добавляете туда воду из лужи «потому что её много и она бесплатная». Примерно так работают современные модели.

Что есть в обучающих данных	Проблема для науки
Научные статьи (20-30%)	Устаревают, есть плагиат, ретракции
Форумы и Stack Overflow (40%)	Непроверенные советы, ошибки, домыслы
Художественная литература	Научная фантастика ≠ наука
Соцсети и блоги	Теории заговора, лженаука

«Мы не можем доверять модели, которая училась на arXiv и 4chan одновременно», - говорит Алексей Петров, исследователь в области вычислительной химии. «Это всё равно что готовить хирурга, заставляя его смотреть и медицинские лекции, и сериал «Доктор Хаус» как документалку».

Почему никто не сделал научную модель?

Звучит просто. Берёшь все научные статьи. Очищаешь от мусора. Обучаешь модель. Профит. На практике это выглядит иначе.

1 Данные под замком и за деньги

Elsevier, Springer, Wiley. Эти издательства владеют миллионами статей. Доступ к ним стоит десятки тысяч долларов в год для одного университета. Для обучения модели нужны ВСЕ статьи. Стоимость лицензии? Миллионы. Возможно, десятки миллионов.

# Примерная математика катастрофы
статьи_всего = 200_000_000  # примерно столько научных статей
стоимость_доступа_к_одной = 0.5  # долларов в среднем

общая_стоимость = статьи_всего * стоимость_доступа_к_одной
print(f"Нужно {общая_стоимость:,.0f} долларов только за доступ к данным")
# Вывод: Нужно 100,000,000 долларов только за доступ к данным

2 Кто будет чистить?

Научная статья 2023 года может опровергать статью 2020-го. Статья 2020-го может быть отозвана из-за фальсификации данных. Статья 2015-го может содержать ошибки, обнаруженные только сейчас. Кто будет вести этот учёт? Нужны не просто данные, а живая, обновляемая база знаний с версионированием.

💡

В отличие от обычных AI-агентов, которые могут работать с несовершенными данными, научная модель требует абсолютной точности. Одна ошибка в формуле может привести к годам бесполезных экспериментов.

3 А кто заплатит?

OpenAI делает модели для миллионов пользователей. Google - для рекламы и поиска. Кому нужна модель для 10 000 специалистов по квантовой физике? Рынок слишком мал для коммерческих компаний. Академические институты не имеют миллиардов на обучение моделей.

Токсичные примеси: как мусор в данных портит науку

Вот конкретный пример. Исследователь спрашивает у модели: «Какие есть методы определения структуры белка?»

Хороший ответ: рентгеноструктурный анализ, ЯМР, криоэлектронная микроскопия.

Что получается на практике: «Рентгеноструктурный анализ, ЯМР, крио-ЭМ, а также метод, описанный в фанфике по «Наруто», где ниндзя определяют структуру чакрой, и совет с форума, где парень пишет, что можно просто посмотреть в микроскоп и «почувствовать»».

Проблема не в том, что модель врёт. Проблема в том, что она не отличает научный факт от научно-фантастического вымысла. Для модели и статья в Nature, и пост на Reddit с тегом «trust me bro» - одинаково valid input.

А как же open-source?

Кажется, вот он выход. Берём открытые модели типа тех, что описаны в обзоре open-source моделей для агентов, и дообучаем на научных данных. Но и здесь подводные камни.

Базовые модели уже «загрязнены» общим обучением
Дообучение не стирает старые знания, только добавляет новые
Модель продолжает «помнить» и научную фантастику, и лженауку
Нужна не дообученная, а изначально чистая архитектура

«Это как пытаться сделать дистиллированную воду, добавляя чистую воду в грязную», - объясняет инженер из команды, работающей над production-ready AI-агентами. «Технически вода становится чище. Но мусор никуда не девается».

Кто мог бы сделать, но не делает?

Университеты? Нет денег. Крупные tech-компании? Нет коммерческого интереса. Государства? Слишком медленно и бюрократично. Научные фонды? Не понимают технологий.

Остаются стартапы. Но здесь другая проблема. Как в истории с Z.ai, инвесторы хотят быстрой отдачи. Научная модель - это вложения на годы без гарантированной прибыли.

Есть ли свет в конце тоннеля?

Несколько проектов пытаются решить проблему. Но каждый со своими ограничениями:

Galactica от Meta - попытка научной модели. Провалилась, потому что генерировала «научный» бред с уверенностью факта
OpenAI делает специализированные версии для медицины и права. Но это закрытые коммерческие продукты
Академические группы тренируют маленькие модели на узких областях. Работает, но масштабирование убивает

Самый реалистичный сценарий? Консорциум университетов + государственное финансирование + открытая лицензия. Как Human Genome Project в 90-х. Только вместо генома - чистая AI-модель для науки.

Пока учёные ждут, они выкручиваются. Используют RAG-системы с проверенными базами статей. Пишут собственные плагины для проверки фактов. Или просто... не используют AI для серьёзных исследований. Старомодно, зато надёжно.

Что делать сейчас, если вы учёный?

Ждать чистую модель бесполезно. Она появится не скоро. Вместо этого:

Используйте обычные модели как «умный поиск», но проверяйте каждый факт
Настройте RAG с вашими статьями и учебниками (техники из статьи про проектирование AI-агентов)
Участвуйте в открытых проектах по сбору научных данных
Требуйте от издательств открытого доступа для AI-обучения
Не доверяйте AI с формулами и экспериментальными данными

И главное - помните. Тот факт, что модель говорит уверенно, не делает её правой. Особенно в науке. Особенно когда она училась на всём подряд. Особенно когда за этой уверенностью может скрываться смесь учебника, фанфика и поста с форума про плоскую Землю.

Чистая научная AI-модель - это не вопрос «если», а вопрос «когда». Но пока она не появилась, учёным остаётся либо игнорировать AI, либо использовать его с осторожностью сапёра. Который знает, что под красивой уверенностью модели может быть мина с ошибкой. Которая взорвёт месяцы исследований одним «кажется, я где-то это читал».

Учёные в ярости: почему до сих пор нет чистой AI-модели для научных исследований?