Автоматизація науки: як вчені застосовують штучний інтелект, нейромережі та машинне навчання. Частина 1

Останні алгоритми штучного інтелекту досліджують еволюцію галактик, обчислюють квантові хвильові функції, відкривають нові хімічні сполуки й багато іншого. Чи є щось, що вчені роблять, що не можна автоматизувати? Пропонуємо переклад цікавого матеріалу від наукового журналіста Дена Фока (Dan Falk).

Людина не здатна обробити терабайти даних, що отримуються під час досліджень у сфері фізики та астрономії, кількість цих даних продовжує зростати, вважає Фок. В підтвердження він приводить Square Kilometer Array — радіоінтерферометр, який після запуску буде відтворювати стільки ж трафіку, скільки й весь інтернет.

Проект надпотужного радіотелескопа Square Kilometer Array. «Вікіпедія»

Тому вчені почали використовувати штучний інтелект. Штучні нейронні мережі – це змодельовані на комп’ютері нейромережі, які знаходять загальні структури та визначають розрізненість даних, які людині складно визначити власноруч.

Автор звертає увагу на те, що хоча комп’ютери й використовуються в дослідженнях вже біля 75 років, а люди тисячоліттями систематизують данні, машинне навчання та штучний інтелект на сьогодні – це щось нове.

У якості прикладу він приводить загальне моделювання. Його завдання – визначити найбільш правдоподібну інтерпретацію даних спостережень на основі виключно цих даних, без яких-небудь заздалегідь закладених знань про фізичні процеси досліджуваної системи.

Автор статті розділяє вчених на дві частини: представники першої відносяться до таких новинок, як до допоміжних інструментів; представники другої, яких більшість вірять в те, що роль штучного інтелекту у науці буде поступово збільшуватись.

У другій частині вчених знаходиться астрофізик лабораторії Фермі Брайан Норд (Brian Nord). Нейромережі на основі штучного інтелекту допомагають йому в дослідженні космосу, й він вірить у те, що все, на що здатний вчений, може зробити й робот також.

«Ця думка мене трошки лякає» – додав Норд.

Генерування даних за допомогою нейромереж

У 2007 році співробітник Швейцарської вищої технічної школи Цюриха Кевін Шавінскі (Kevin Schawinski) запустив проект Galaxy Zoo. Інтернет- користувачі допомагали астрономам вибирати категорії для галактик. Обрана більшістю користувачів категорія зазвичай виявлялася вірною.

За словами Шавінскі, наразі талановитий вчений з досвідом машинного навчання та доступом до хмарного обчислювального середовища впорається з цією задачею за один вечір за допомогою штучного інтелекту.

Шавінскі прийшов до використання узагальненого моделювання у 2016 році. Суть цього методу – відповісти на питання «Якщо умова Х, то з якою ймовірністю кінцевим результатом може стати Y?». Приклад такої моделі – програма, яка здатна передбачати, як зміниться зовнішність людини через деякий період часу.

Генеративна модель пропускає через себе зображення людських облич із зазначенням на них віку, а програма визначає загальну властивість «у старих людей є зморшки» та таким чином може віртуально «зістарити» будь-яке обличчя.

Системи узагальненого моделювання, звані генеративно-змагальними мережами (ГЗМ), вміють відновлювати пошкодженні зображення, робити розмиті фото чіткішими.

Мережа складається з двох частин: перша – це генератор хибних даних, друга – це детектор, який повинен відрізнити хибні дані від реальних. Змагаючись таким чином, мережа вчиться визначати брак інформації та поступово розвивається. Так ГЗМ створюють реалістичні обличчя, яких насправді не існує.

Обличчя в колонках А та В створені генеративно-змагальною мережею (ГЗМ) з використанням фрагментів реальних облич. Ця мережа з’єднала фрагменти облич з колонки А з обличчями з колонки В та створила нові обличчя.

Далі Фок характеризує загальне моделювання в ширшому плані. Ця система бере набори даних (зображень), розбиває їх на більш дрібні «цеглинки», які вчені називають «потенційним простором». Потім алгоритм переставляє ці базові елементи, спостерігає за тим, як від цього змінюються вихідні дані, таким чином визначає фізичні процеси в основі системи.

Ідея «потенційного простору» абстрактна, її тяжко візуально уявити. Тому автор пропонує зрівняти її з тим, як люди намагаються визначити стать іншої людини. Ми звертаємо увагу на волосся, форму носу та інші речі, які тяжко характеризувати словами.

Комп’ютерна програма працює по такому ж принципу: нехай вона не знає, що означає «стать» або «вуса», але коли бачить, що достатньо зображень з тегом «чоловік» також мають тег «вуса», а зображення з тегом «жінка» «вусів» не мають, то зробить певний висновок.

Науковий журналіст Фок розповідає про експеримент Шавінскі та його колег у технічній школі Цюриха Денниса Терпа (Dennis Turp) та Це Джана (Ce Zhang), результати якого були опубліковані в журналі Astronomy & Astrophysics. Ці вчені використовували загальне моделювання, аби дізнатися, які фізичні зміни зазнають галактики з плином часу.

Модель, яку вони використовували, технічно не ГЗМ, але була на неї дуже схожа – вона створювала штучні дані для перевірки тої чи іншої гіпотези. Наприклад, вчені застосували програму, аби дізнатися, як різке зниження швидкості створення нових зірок пов’язано зі збільшенням щільності галактики.

Головне було зрозуміти, як багато інформації можна отримати про процеси, які відбуваються в зірках та галактиках, на основі лише одних даних, які є в наявності.

«Позбудемось від усіх наших знань у сфері астрофізики. Скільки ми можемо дізнатися нового, користуючись лише голими даними?» — Кевін Шавінскі, астрофізик та директор компанії Modulos, що вивчає штучний інтелект.

Вчені взяли зображення галактик, які знаходяться в просторі з низькою щільністю та зрівняли, як би вони виглядали у просторі з високою щільністю. Як наслідок, дослідники виявили, що при переході з низької щільності у високу, галактики стають червонуватого кольору, а зірки всередині них збираються ближче до центру. Такі дані були отримані й при спостереженях за галактиками. Але Шавінскі хотів знати причину цього явища.

І в цьому моменті потрібно долучити до процесу людину для того щоб пояснити, що могло так вплинути на стан галактики. Шавінскі навів дві гіпотези: збільшення кількості пилу або уповільнення створення нових зірок могло давати галактиками червонуватий колір в просторі високої щільності.

Для перевірки цих гіпотез знову використали загальне моделювання. Змінили потенційний запилений простір й швидкість утворення зірок, щоб побачити, як зміниться колір галактики.

В кінці експерименту вчені ясно побачили, що більш насичений червоний колір мали галактики, в яких знизилася швидкість утворення нових зірок, а не ті, в яких змінилася запиленість. Тому перевагу віддали теорії, що зв’язує щільність простору галактики і швидкість утворення зірок.

Зміни в галактиках, що перейшли з космічного простору з низькою щільністю у простір з високою щільністю. Візуалізація стала можливою завдяки узагальненому моделюванню Astronomy & Astrophysics

Ось як сам Шавінскі пояснює різницю між звичайним та узагальненим моделюванням.

«Звичайне моделювання. Здається, я знаю, яким фізичним законам це можна пояснити. Знаю, як утворюються зірки, як поводить себе темна матерія та тому подібне. Я завантажу усі свої теорії в одну базу та запущу програму моделювання. А потім запитаю себе, чи схоже це на правду.
Узагальнене моделювання. В деякому розумінні воно суперечить звичайному моделюванню. Ми нічого не знаємо та нічого не можемо припускати. Ми хочемо, аби дані вказали нам, в чому може бути справа.»

Фок пояснює, що застосування узагальненого моделювання не приведе до зникнення вчених. Але й до штучних систем слід відноситися не просто як до інструментів обробки даних, а як до інструментів, які автоматизують наукову діяльність.

На початку своєї роботи Фок згадав, що деякі вчені не вважають узагальнене моделювання новим словом в науці. Серед них Девід Хогг (David Hogg), спеціаліст по космології Нью-Йорського університету та інституту Flatiron. Його дослідження, як і дослідження Шавінскі, спираються на штучний інтелект.

Хогг використовував нейромережі для класифікації зірок по спектрах та присвоєнню фізичних властивостей тим чи іншим зіркам на основі моделей обробки даних. Але, на відміну від Шавінскі, Хогг вважає, що узагальнене моделювання – це всього лише складний та прогресивний метод досліджень та аналізу, який астрономи застосували протягом століть, отже, його навряд можна назвати новим.

«Я думаю, що ми, як спільнота, починаємо використовувати дані більш технологічно. Але мої дослідження все ще засновані на простих спостереженнях», — вважає Хогг.

Продовження статті читайте у другій частині.

БІЛЬШЕ ЦІКАВОГО:

Автоматизація науки: як вчені застосовують штучний інтелект, нейромережі та машинне навчання. Частина 1

Генерування даних за допомогою нейромереж

Читайте также: