Війна за шифр — чи зможе штучний інтелект прочитати стародавні тексти

Люди вигадали безліч способів фіксувати навколишній світ — розробили символи та ієрогліфи, малюнки та літери, потім з’явилися різні мови, а сьогодні ми знаємо навіть комп’ютерні програми, що також звуться мовами і допомагають в спілкуванні людини із технікою.

Настав час поглянути в самий початок великого лінгвістичного шляху людства, спробувати розгадати найдавніші його загадки, користуючись сучасними розробками — технологією машинного навчання та штучного інтелекту. З їх допомогою вчені сподіваються прочитати одну з найбільших загадок — спадок цивілізації долини Інду, такої несхожої на інші відомі знахідки Бронзової доби.

Історія індійських знахідок

У 1872 році британський генерал, «батько індійської археології» Олександр Каннінгем (Alexander Cunningham) під час чергової дослідницької експедиції в підконтрольних Імперії північних індійських територіях виявив фрагмент гладкого чорного каменю з вирізьбленими на ньому символами. Малюнок містив лінії, овали, символічне зображення рибини та бика. Генерал дійшов висновку, що малюнок — не індійського походження (на його думку, бик не скидався на типово індійську тварину), а був скоріше фрагментом іноземного побуту, випадково переміщеним в долину Інду. Згодом кам’яний фрагмент опинився в Британському Музеї, разом з іншими схожими знахідками, виявленими  в тих же роках Каннінгемом та його дослідниками. Пізніше, в 1920-х колекція поповнилася великою кількістю схожих артефактів і археологи прийшли до висновку, що мають справу із стародавнім письмом цивілізації Хараппи (інша назва — цивілізація долини Інду), вік якої сягає 4 тис років. Ця культура вважається найдавнішою індійською цивілізацією з усіх відомих науковцям.

З того часу колекція хараппських знахідок розрослася фрагментами з символами згори та вирізьбленими тваринами — в нижній частині. Нові камені з письмом знаходили на території сучасної Індії та Пакистану, а також вздовж стародавнього торговельного шляху. Найбільш віддалені від Інду фрагменти знайшлися на території сучасного Іраку. Геометричні фігури, зображення тварин та риб розміщувались не лише на каменях, але і на посуді, гончарних виробах. Там були вирізьблені бики, носороги, слони та навіть єдинороги.

За весь час вдалося зібрати колекцію з тисяч символів, але їх значення і досі нерозкрите. Минуло більше століття з часу перших знахідок Каннінгема, але спеціалісти досі не визначились навіть із тим, мають вони справу зі стародавньою мовою, або ж малюнки — це релігійні, сімейні чи політичні знаки. Ці питання гаряче обговорюються в науковому світі, а чвари між спеціалістами загострюють і культурне суперництво за право наслідування колосальної спадщини прадавніх жителів долини Інду. Саме зараз, коли технологічний процес наблизив нас до створення повноцінного штучного інтелекту, алгоритми машинного навчання й науки про процес пізнання можуть допомогти розшифрувати культурний спадок.

Фрагмент із стародавніми символами, знайдений в Мохенджо-Даро, центрі стародавньої цивілізації. 2500-2000 рр до н.е.

Фрагмент, знайдений в Мохенджо-Даро, стародавньому центрі Хараппської цивілізації. 2500-2000 рр до н.е.

З чим працюють вчені

Хараппська цивілізація (назва походить від м. Хараппа, одного з найбільших знайдених центрів тієї культури, сьогодні — селище на території Пакистану) існувала в період між 2600 та 1900 рр до н.е., за розмірами перевершувала Єгипетську та Месопотамську цивілізації. За площею вона охоплювала понад 1 млн кв км території сучасного Пакистану та Індії, мала вдосконалену систему розподілу водних ресурсів, дренажну систему, добре сплановані міста з вуличною структурою та навіть перші відомі у цьому регіоні вбиральні. Торговельні шляхи жителів долини річки Інду сягали Перської затоки. Перші реліквії Хараппської цивілізації були виявлені ще до Каннінгама: у середині XIX ст на території сучасного Пакистану будівельники знайшли велику кількість якісної бруківки, придатної для використання. Вони збудували понад 150 км залізниці зі знайденого матеріалу, і лише набагато пізніше археологи з’ясували, що цегла належить періоду найстарішої індійської культури.

Серед усіх знайдених свідчень про прогресивний устрій Хараппської цивілізації немає жодних доказів впливового релігійного культу: не знайдено ані зображень божеств, ні статуй чи палаців на честь богів. Храмова башта Месопотамії чи єгипетські піраміди Гізи не мають споріднених об’єктів в долині річки Інду. Більше того, археологи знайшли дуже мало зброї і зовсім не виявили слідів великих воєн — все це дивно і нехарактерно для інших цивілізацій Бронзової доби, відомих вченим.

«— Насправді, ми практично нічого не знаємо напевне про жителів Хараппської цивілізації, — констатує епіграфіст Брайан Уелс (Bryan Wells). — Жоден археолог-індуїст не пояснить вам, як з’явилася цивілізація, чим займались її жилеті та як вона, врешті-решт, занепала.»

Символи з долини Інду не єдині у переліку й досі не розшифрованих стародавніх мов. Вчені продовжують шукати ключ до розуміння багатьох шифрів: знахідок часів Стародавньої Греції, прадавнього Ірану, письмо месоамериканської доби та культурний спадок ронго-ронго з острову Пасхи. Деякі ієрогліфи доби неоліту, що не мають лінгвістичних похідних у пізнішій історії людства, можуть назавжди залишитись непрочитаними. Інші зразки, наприклад, лінійне письмо Б (англ. Linear script B), що існувало в період XV-XII ст. до н. е., розшифрували, коли вдалося виділити знаки, які використовуються на початку фрази й ті, що означають її закінчення; виявити чергування складів, зміну приголосних і голосних в межах одного речення тощо.

Оскільки від розшифровки стародавніх знаків не залежить майбутнє всього людства, немає й особливого поспіху в їх розшифровці, а всі процеси раніше переважно відбувались вручну. Для лінійного письма Б використовували фонетичні діаграми, допоки вони в кінцевому підсумку не призвели до розшифровки цієї мови. Ще в 30-х роках минулого століття вчений Дж. Р. Хантер (G.R. Hunter) спробував використати аналогічний підхід до індійських символів: він розділив всі знаки на кластери, виявив певну структуру в їх написанні, але розшифрувати код та перекласти зміст так і не зміг.

Ніша Ядав (Nisha Yadav) з Інституту фундаментальних досліджень Тата, що в Мумбаї, Індія, виділяє кілька головних причин, чому з текстами Хараппської цивілізації виникли складнощі. По-перше, знайдені фрагменти занадто короткі, в середньому, не більше 5 символів, а найдовший текст має всього 17 знаків. Через це, на переконання Ядав, важко з’ясувати, якою була структура побудови стародавніх повідомлень. Її колега з Університету Вашингтону та американського Національного наукового фонду Раджеш Рао (Rajesh Rao) додає, що вчені не знають, до якої мовної сім’ї належала говірка жителів того регіону 4 тис років тому. Історики не в змозі допомогти лінгвістам: схоже, що із зникненням самої цивілізації долини Інду закінчилася і культурна традиція, і система письма того часу. «Ми не знаємо спадкоємців культури та мови, які б продовжили звичаї Хараппської цивілізації», — пояснює дослідниця Ніша Ядав. Археологи сподіваються знайти певний аналог Розетського каменю, що допоміг би розшифрувати записи прадавніх індусів, як це сталось із єгипетськими ієрогліфами. Однак поки що їм в цьому не таланить.

Не дивлячись на відсутність позитивного результату із розшифровкою, важко звинуватити вчених у лінощах. Сьогодні є понад 100 варіантів розшифровки, але Брайан Уелс уточнює, що спеціалісти не визнають жодну з них. Найзагадковішу стародавню мову сьогодні називають «найбільш розшифрованою» саме за кількість спроб, а не за якість перекладу записів. Більшість «шифрувальників» заявляли, що їм вдалося довести зв’язок між знайденими знаками і пізнішими мовами, але жодна теорія не була підтверджена належним чином. Один тантричний гуру навіть заявляв, що отримав пояснення стародавньої мови від Великого Непізнаного, з яким увійшов в контакт під час медитації. При всій нашій лінгвістичній обізнаності стародавні тексти лишаються непрочитаними до сьогодні. Усі сподівання — на штучний інтелект.

ЧИТАЙТЕ ТАКОЖ:

Як розшифровують мову

Щоби розшифрувати символи насамперед потрібно визначитись, з чим ми маємо справу: чи знаки є лінгвістичними конструкціями і формують мову, або, за прикладом тотемних стовпів, несуть на собі позначки божеств, родин чи інших спільнот. Вчені намагались виявити закономірності і, за словами Рао, результати їх діяльності свідчать більше на користь теорії про мову на древніх рештках, аніж проти цієї версії.

В 2009 році Рао опублікував свої дослідження структури походження шифру з долини Інду. Він детально розглянув, як одні символи поєднуються з іншими і наскільки можна передбачити появу однакових ланцюгів позначок. Для лінгвістичних систем характерне наслідування знаків та цілих словесних конструкцій, хоча і з неабиякою гнучкістю форм. Дослідники називають таку непевну можливість передбачення «умовна ентропія». Предметом вивчення для Рао та його колег став пошук правил розташування символів та спростування версії, що вони випадково розташовувалися по сусідству один біля одного.

Письмо Хараппської цивілізації проаналізували в порівнянні з ведичним санскритом (приклад лінгвістичної системи) та послідовностями в людській ДНК (приклад нелінгвістичної системи), а отриманий результат підтвердив, що манускрипти з північної Індії мають більше схожих зразків та послідовностей з мовою.

«— Це не є гарантованим доказом того, що ми маємо справу із мовою, — уточнює Рао. — Однак ми отримали підтвердження, що послідовність знаків та малюнків точно не є випадковою, а більшість окремих моделей корелює із конструкціями в сталій мовній системі.»

Символи зі знайдених артефактів аналізували за моделлю Маркова, яка використовується для моделювання систем, що випадково змінюються. В математиці використання цієї моделі передбачає, що майбутні стани залежать тільки від поточного стану, а не від послідовності подій. У випадку із лінгвістичними знаками припущення дозволяє виявити, які з них найімовірніше використовуються на початку фрази, а які, скоріше за все, закінчують вислів. Також математична модель визначає групи символів, які найчастіше вживаються разом, а це вже дозволяє заповнювати прогалини у пошкоджених фрагментах стародавнього письма.

«Виходячи із загальної статистики та аналізу цілих фрагментів тексту, можна дописати загублені символи», — пояснює Раджеш Рао. В той же час, Ядав з колегами використала інший тип моделі Маркова для підтвердження лінгвістичного походження символів. Використання N-грам, тобто послідовності кількох елементів, добре відоме користувачам пошукової системи Google: коли ви починаєте вводити текст, система пропонує на вибір кілька найпопулярніших запитів для пошуку. Вчені задали системі відомі послідовності символів і таким чином змогли підтвердити їх лінгвістичне походження — алгоритми підставляли вже відомі комбінації у разі введення окремих символів.

Неочікувано, використання двох технологій аналізу символів дозволило виявити діалекти: фрагменти тексту, знайдені на території сучасного Іраку, відрізнялись за структурою від малюнків з території Пакистану чи Індії. За зовнішнім виглядом це були символи однієї системи, але їх послідовність не схожа — так, наче жителі експериментували із значенням кожного зображення.

Ще один підхід до розуміння древніх послань — аналіз символів через призму всіх даних, відомих про відповідну територію у вибраний період часу. Габріель Реччіа (Gabriel Recchia) з Кембриджу успішно використовував науку про процес пізнання для аналізу даних. Наприклад, відстань між містами можна з’ясувати, проаналізувавши, як часто вони згадуються разом у письмових текстах. Цей принцип підтвердився на декількох прикладах: із сучасними газетами в США, із близькосхідними та китайськими текстами та навіть із згадками міст з художніх книг про Володаря кілець. Реччіа порівнював фрагменти, чиє походження було достеменно відоме, із нерозпізнаними артефактами. Завдяки алгоритмам аналізу можна було з’ясувати, чи даний фрагмент стародавнього зображення було знайдено в тому ж місці, де його створили, чи цей уламок завезли з іншої місцевості.

Щоб оптимізувати процес розпізнання та аналізу стародавніх символів вчені з Ченнаї, Індія, розробляють програму, яка розпізнає знаки на фотографіях в мобільному пристрої. Розробка Роноджоя Адхікарі (Ronojoy Adhikari) та Сатіша Паланіапана (Satish Palaniappan) дозволить пришвидшити обробку даних з кожного нового знайденого уламка.

А якщо це — не мова?

Не всі археологи та історики погоджуються із тим, що символи з долини Інду являють собою стародавню мову. В 2004 році група вчених опублікувала спростування всіх методів дослідження, які застосовувались до символів Хараппської культури. Нейробіолог та порівняльний історик Стів Фармер (Steve Farmer), обчислювальний теоретик Річард Спроут (Richard Sproat) та філолог Майкл Вітзель (Michael Witzel) заявили, що знайдені індуські символи та їх комбінації не можуть бути лінгвістичними елементами. Вони навіть запропонували нагороду в $10 тис тому, хто віднайде достатньо довгий хараппський напис, який би міг вважатись лінгвістичною структурою. Вони розкритикували дослідження Рао та інших спеціалістів, піддавши сумніву цінність їх висновків.

«— Що дає нам їх умовна ентропія? Що ці символи з’явились на каменях невипадково? Що вони не цілком беззмістовні, що їх наносили з певною визначеною послідовністю? Але ж це і так зрозуміло. Ці дослідження не дають нової інформації для розуміння предмету.» — Так писав про дослідження Спроут.

Фармер висловлював схожу точку зору:

«— Лише той факт, що у розташуванні малюнків виявилась певна структура ще не дає гарантії, що ми маємо справу саме із мовою. В геральдиці є структура, в астрологічних символах є структура та навіть в стрічках бойскаутів є своя визначена структура.»

Критика викликала гарячу реакцію не тільки тих, хто безпосередньо приймав участь в обговорюваних дослідженнях, але й в інших спеціалістів галузі. Дискусія перейшла в приватну площину: окрім того, що Уелс та колеги згадували, що їх критики не мають кваліфікації ані в археології, епіграфії чи іншій дисципліні, пов’язаній зі стародавньою історією, набула розголосу історія про суперечку навколо дисертації Уелса, яку нібито намагався заблокувати Вітзель. За словами дослідників античних реліквій, їхнім опонентам не вистачає факт-чекінгу, як власне і багатьом сучасним ЗМІ, які публікують матеріали про наукові дослідження.

Попри безліч розбіжностей, є одна точка зору, яка об’єднує опонентів. Рао з Уелсом та Спроут із Фармером впевнені: якщо символи не відображають стародавню мову, значить всі артефакти з долини Інду являють собою значно більший інтерес для дослідників. Така нелінгвістична система передачі інформації стане найбільшим здобутком для вивчення історії неписемних древніх спільнот. А значить, математичні й статистичні алгоритми для її розшифровки будуть чи не єдиним способом виявити, про що ж все-таки йдеться на зображеннях.

Чи може бути зображення слона лінгвістичним елементом? Фрагмент, знайдений в Мохенджо-Даро, стародавньому центрі Хараппської цивілізації. 2500-2000 рр до н.е.

Чи може бути зображення слона лінгвістичним елементом? Фрагмент, знайдений в Мохенджо-Даро, стародавньому центрі Хараппської цивілізації. 2500-2000 рр до н.е.

Політика і колиска Індії

Незважаючи на суперечки, вчені залишаються вірні головній меті — розшифрувати послання на залишках стародавньої цивілізації. Тому Раджеш Рао готовий вести конструктивний діалог з опонентами та працювати разом. Навіть якщо буде доведено, що на уламках зображено не слова та речення древньої мови, а символічні малюнки.

Зовсім інший характер мають суперечки політиків, які також оточують археологічні знахідки. Цивілізація долини Інду старша за віком від усіх інших відомих індійських культур, а тому північний, центральний та південний регіони вже сперечаються за право вважатися єдиними справжніми спадкоємцями індійських пращурів. Ситуацію тільки погіршує той факт, що археологи не можуть чітко підтвердити або спростувати зв’язок між малюнками на уламках і санскритом, дравидськими мовами чи діалектом народів центральної частини країни. Всі вони мають однакове право заявляти про свою причетність до «колиски культури Індії». Більше того, оскільки долина Інду сьогодні розділена індійсько-пакистанським кордоном, непрості взаємини цих двох країн загострюються змаганням за культурну спадщину регіону.

Ще один наріжний камінь — фінансування. Допоки триває суперечка між країнами за походження культурного спадку, жодний уряд не наважиться на виділення значних коштів. На сьогоднішній день розкопки та дешифрувальна робота в лабораторіях проводяться коштом спеціалізованих фондів та окремих університетів. Уелс жартує, що найкращим способом покращити фінансове становище дослідників буде виграш $10 тис, які його ідейні опоненти пообіцяли за значний прогрес в пошуках шифру стародавніх символів.

Хоча немає єдиної теорії, як розгадати значення малюнків (чи, все ж таки, повноцінної мови?), вчені бачать єдиний сценарій — продовжувати експериментувати із алгоритмами аналізу даних. Чим більше даних з нових уламків буде мати система, тим вірогідніше, що комп’ютер врешті решт навчиться читати послання людей, що жили понад 4 тис років тому. Уелс із колегами планує оприлюднити результати своїх напрацювань у квітні, після того, як представить їх спільноті професіоналів на міжнародній конференції з епіграфії. Схоже, що люди нарешті спромоглися розробити програму, щоб зрозуміти своїх давно померлих предків. Навряд чи інформація зі стародавніх скрижалів зможе врятувати Всесвіт, та все ж знання про появу, побут і загибель такої прогресивної цивілізації можуть дечому навчити нащадків.

Джерело: The Verge