Когда камни начинают говорить
Представьте себе камень. Не просто булыжник, а кусок мрамора, которому две тысячи лет. На нем высечены буквы, но половина стерта временем. Другая половина покрыта трещинами и пятнами. Историк проводит над ним дни, недели, иногда месяцы — пытается восстановить текст по обрывкам.
Теперь представьте, что этот камень загружают в нейросеть. За пять секунд она предлагает три вероятных варианта того, что там было написано. С указанием степени уверенности для каждого символа. Это не фантастика. Это Aeneas.
Aeneas — модель машинного обучения, созданная специально для анализа латинских эпиграфических надписей. Она умеет не просто распознавать символы, но и предлагать вероятные восстановления утраченных фрагментов, учитывая контекст, стиль и грамматические правила классической латыни.
Чем Aeneas отличается от обычного OCR?
Обычный оптический распознаватель текста видит букву «А» и говорит: «Это буква А». Aeneas видит половину буквы, окруженную определенными символами, и думает: «В 87% случаев это была буква А, в 12% — R, и есть 1% шанс, что это был дефект камня». А потом проверяет, складывается ли из этого грамматически правильная латинская фраза.
Модель тренировали на десятках тысяч оцифрованных надписей из баз данных типа Epigraphik-Datenbank Clauss-Slaby. Она знает не только алфавит, но и типичные формулы римских посвящений, структуру имен, стандартные сокращения. Когда она видит «IMP CAE...», она с высокой вероятностью предложит «IMP CAESAR» — император Цезарь.
Где ломается нейросеть? (Подсказка: не там, где вы думаете)
Самое интересное в Aeneas — не то, насколько хорошо она работает, а то, где она дает сбой. И эти сбои невероятно поучительны.
Модель отлично справляется с официальными надписями — теми самыми, которые вырезали профессиональные каменотесы по стандартным шаблонам. Но стоит ей столкнуться с граффити, нацарапанным солдатом на стене форта, или с личной надписью на погребальной плите — и ее уверенность падает.
Почему? Потому что в этих случаях меньше данных для обучения. Потому что почерк хуже. Потому что люди делали орфографические ошибки. И именно здесь историки говорят: «Стоп, теперь наше дело». Машина показывает свою неуверенность — и это сигнал для эксперта включиться в работу.
| Тип надписи | Точность Aeneas | Где нужен историк |
|---|---|---|
| Официальные декреты | 95%+ | Проверка контекста |
| Надгробные плиты | 85-90% | Интерпретация имен, титулов |
| Граффити, неформальные надписи | 70-80% | Почти все — орфография, смысл |
ИИ как младший коллега — буквально
Вот где метафора из нашей статьи про ИИ как младшего коллегу работает идеально. Aeneas не заменяет историка. Она делает черновую работу — перебирает варианты, предлагает гипотезы, отсекает очевидно неверные пути.
Историк остается боссом. Он принимает окончательное решение. Он знает, что в определенный период в определенной провинции использовались специфические формы имен. Он помнит, что конкретный император запрещал определенные титулы после восстания. Нейросеть этого не знает — у нее нет исторической памяти в человеческом смысле.
Но она мгновенно находит все похожие надписи в базе данных. И показывает их историку. Это симбиоз, а не конкуренция.
Почему это не очередной хайп?
Потому что результаты измеряются не лайками в соцсетях, а публикациями в рецензируемых журналах по классической филологии. Потому что над проектом работают не стартаперы, ищущие инвестиции, а академические институты вроде Гейдельбергского университета.
Это противоположность тем историям, о которых мы писали в материале про хайп против науки. Здесь нет громких заявлений о том, что «ИИ переписывает историю». Есть конкретная задача: ускорить обработку эпиграфического материала, чтобы у историков осталось больше времени на интерпретацию.
Главный ограничитель Aeneas — данные. Модель обучена в основном на латинских надписях из Римской империи. Греческие? Плохо. Египетские иероглифы? Нет. Клинопись? Забудьте. Для каждой письменности нужна своя модель и свой набор данных для обучения.
Что дальше? Когда ИИ начнет делать открытия?
Следующий шаг — не распознавание, а обнаружение паттернов. Модель уже сейчас может заметить, что определенная формула посвящения встречается только в определенных провинциях и в определенный период. Но что, если она найдет корреляцию, которую историки пропустили?
Например, связь между определенными эпитетами императоров и военными кампаниями тех лет. Или изменения в формулировках законов после конкретных событий. Это уже не помощь в расшифровке — это помощь в анализе.
Но для этого нужны не просто изображения надписей, а их семантическая разметка. Кто, кому, когда, по какому поводу. И здесь без историков не обойтись — они должны создать этот обучающий набор.
Историческая ирония
Есть что-то глубоко символичное в том, что технология, которую многие считают угрозой человеческому знанию, используется для сохранения самого древнего человеческого знания — письменных памятников.
Пока одни спорят, отнимет ли ИИ работу у копирайтеров и программистов (как в нашей статье про потерю работы из-за ИИ), историки тихо получают суперспособности. Они теперь могут обрабатывать в десятки раз больше материала. Находить связи, которые раньше ускользали.
Может быть, настоящая революция ИИ произойдет не там, где ее ждут — не в создании контента, а в его анализе. Не в генерации нового, а в понимании старого.
В следующий раз, когда увидите новость о том, что «найдена ранее неизвестная римская надпись», знайте — с высокой вероятностью в ее расшифровке участвовал ИИ. Не как главный герой, а как тихий помощник в лаборатории. И это, пожалуй, самый здоровый способ использования этой технологии.