Aeneas: нова мовна модель штучного інтелекту для читання стародавніх текстів

Науковці з DeepMind, Університету Ноттінгема та інших наукових центрів розробили штучний інтелект, здатний відновлювати фрагментовані латинські написи часів Римської імперії. Новий штучний інтелект отримав назву Aeneas — на честь героя давньоримського епосу.

Щороку археологи знаходять близько 1500 латинських написів, вирізаних на камені, металі та кераміці. Ці написи одні з небагатьох джерел, які дають пряме уявлення про мову, релігію, повсякденне життя та устрій суспільства Стародавнього Риму. Однак більшість знахідок сильно пошкоджені. Багато написів неповні: текст частково втрачено, пошкоджено або розколото. Розшифровка та інтерпретація таких артефактів потребує копіткої роботи та високої кваліфікації.

Нейромережа Aeneas навчена відновлювати втрачені фрагменти, вловлюючи зв’язки між словами, граматикою, контекстом та історичними особливостями мови. Її навчання включало 176 861 латинський напис — це близько 16 мільйонів символів. Приблизно 5% їх супроводжувалися зображеннями. Модель була навчена на даних про час, місце та значення написів, знайдених на території 62 римських провінцій.

Теа Зоммершильд, фахівець з епіграфіки з Університету Ноттінгема та співавтор проєкту, порівнює роботу моделі із рішенням гігантської головоломки. За її словами, один фрагмент нічого не дає — важлива форма, колір та зв’язок з іншими частинами, як у мозаїці.

За допомогою Aeneas вчені протестували нейромережу на знаменитому тексті Res Gestae Divi Augusti, в якому імператор Август перераховує свої досягнення. Попри стилістичні перебільшення, заплутану хронологію та географічні помилки у написі, модель зуміла вловити рідкісні мовні форми та архаїчні написання, що дозволило їй звузити можливий період її створення. Як зазначається в публікації в Nature, результати Aeneas збігаються з двома часовими інтервалами, про які досі сперечаються історики.

Янніс Ассаел з DeepMind, один з авторів дослідження, наголошує, що латинські написи це рідкісні сліди мислення стародавніх римлян. На відміну від літературних джерел, вони не переписувалися, не редагувалися та не проходили цензуру. У них можна побачити, як говорили, думали та жили реальні люди того часу.

Нейромережа вміє розшифровувати як втрачені фрагменти тексту, так й передбачуване походження напису — провінції, і навіть десятиліття. У рамках випробувань понад 20 істориків протестували модель, і в 90% випадків визнали її корисною. Однак найкращі результати, за словами авторів проєкту, досягаються при спільній роботі: коли штучний інтелект підказує, а історик інтерпретує.

Дослідження демонструє, як штучний інтелект може допомогти відновити голоси минулого та стати новим інструментом в арсеналі істориків, лінгвістів та археологів. Проєкт Aeneas поєднує гуманітарне знання з машинним навчанням і повертає до життя те, що здавалося безповоротно загубленим.

Більше цікавого:

Джерело: Nature

Aeneas: нова мовна модель штучного інтелекту для читання стародавніх текстів

Читайте также: