Використовуючи потужну суперкомп’ютерну систему, дослідники MIT розробили модель, яка фіксує, як виглядає глобальний інтернет-трафік у будь-який день. Вчені вважають, що аналіз такої моделі веб-трафіку в глобальних масштабах корисний для створення інтернет-політик, виявлення та запобігання перебоям у роботі, захисту від кібератак та розробки більш ефективної обчислювальної інфраструктури.
Для своєї роботи дослідники зібрали найбільший загальнодоступний набір даних, що включає 50 мільярдів пакетів даних, які були взяті в точках обміну інтернет-трафіку по всьому світу протягом кількох років.
Далі вчені пропустили дані через новий конвеєр на базі «нейронної мережі», який працює на базі 10 тисяч процесорів MIT SuperCloud — системи, яка комбінує обчислювальні ресурси Лабораторії MIT Lincoln та усього Інституту. Цей конвеєр згенерував модель, яка фіксує взаємозв’язок для всіх ланок у наборі даних — від стандартних відправників пакетів до таких гігантів, як Google та Facebook, а також включно з рідкісними ланками, які демонструють лише короткочасне підключення, але все ж таки мають певний вплив на веб-трафік.
Створена модель може взяти будь-який масивний набір мережевих даних і згенерувати детальні статистичні висновки щодо того, як всі з’єднання в мережі впливають один на одного. Це може бути використано для розкриття інформації про одноранговий спільний доступ до файлів, підозрілі IP-адреси та поведінку щодо спаму, розподілення атак в критичних секторах і вузьких місцях передачі даних з метою кращого розподілу обчислювальних ресурсів і забезпечення безперервної передачі даних.
В принципі, така робота подібна виміру космічного мікрохвильового фону, по суті — майже однорідних радіохвиль, що поширюються по нашому всесвіту. Саме такі радіохвилі були важливим джерелом інформації для вивчення явищ в космічному просторі.
«Ми створили точну модель для вимірювання фону віртуального всесвіту інтернету, — каже Джеремі Кепнер (Jeremy Kepner), науковий співробітник Лабораторії суперкомп’ютерних технологій MIT Lincoln Laboratory й астроном за освітою. — Якщо ви хочете виявити будь-які відхилення або порушення в трафіку, вам знадобиться саме така модель».
Аналіз даних
Завдяки дослідженню експерти можуть знайти аномалії в веб-трафіку, які вказують, наприклад, на кіберзагрози. Але, щоб знайти відхилення, спочатку потрібно зрозуміти, як виглядає стандартний трафік, а це не так просто. Традиційні моделі «аналізу трафіку» можуть обробляти тільки невеликі вибірки пакетів даних, якими обмінюються точки відправлення та приймання пакетів, обмежені місцем розташування. Це знижує точність моделі.
Мережі зазвичай представляються у формі графіків з акторами (актор — вузол-оператор в графі потоків даних) і ланками, що представляють зв’язок між вузлами. В інтернет-трафіку вузли розрізняються за розмірами й місцем розташування. Великі супервузли — це популярні хаби, такі як Google або Facebook. Дрібні вузли виходять з цього супервузла і мають кілька з’єднань між собою та супервузлом. За межами цього «ядра» супервузлів і кінцевих вузлів знаходяться ізольовані вузли й ланки, які дуже нечасто з’єднуються один з одним.
Обробка цих графіків у повному масштабі неможливе для традиційних моделей. «Ви не можете доторкнутися до цих даних, не маючи суперкомп’ютер», — каже Кепнер.
У співпраці з іншими організаціями, дослідники MIT отримали найбільший у світі набір пакетів інтернет-трафіку. Цей набір даних містить майже 50 мільярдів унікальних стартових та кінцевих точок даних між споживачами й різними додатками та службами, витягнутих протягом кількох випадкових днів в різних локаціях Японії й США, починаючи з 2015 року.
Революційне рішення для розуміння процесів в інтернеті
Але переважна більшість осередків в цьому гіперрозділеному наборі даних все ще були порожніми. Щоб обробити матрицю, команда запустила ту ж саме нейронну мережу MIT SuperCloud на 10 тисячах ядер. Зрештою, нейронна мережа по суті генерує просту модель, що має тільки два параметри, каже Кепнер. Вони описують набір даних інтернет-трафіку в такому вигляді: «від дійсно популярних вузлів до ізольованих вузлів і повного спектра усього, що між ними».
Використання суперкомп’ютерних ресурсів для ефективної обробки «потокового трафіку» і визначення важливих шаблонів і веб-активності є «проривною» розробкою, вважає Девід Бейдер (David Bader), професор Інституту Технологій Нью-Джерсі.
«Головне завдання в області кібербезпеки — зрозуміти глобальні тенденції в інтернет-трафіку для таких цілей, як виявлення підозрілих джерел, занадто великої агрегації потоків і вакцинація проти комп’ютерних вірусів. Дослідницька група успішно розв’язала таку проблему і представила глибокий аналіз глобального мережевого трафіку», — говорить він.
Дослідники тепер співпрацюють з науковою спільнотою, щоб знайти подальше застосування для своєї моделі. Експерти, наприклад, могли б вивчити значення ізольованих посилань, виявлених під час експериментів, які зустрічаються досить рідко, але, здається, впливають на веб-трафік в основних вузлах.
Крім інтернету, створений канал нейронних мереж можна використовувати для аналізу будь-якої гіперрозділеної мережі, такої як біологічні та соціальні мережі. За словами Кепнера, вони надали науковій спільноті фантастичний інструмент для всіх фахівців, які хочуть побудувати більш надійні мережі або виявити в них аномалії. Ці аномалії можуть бути як просто стандартною поведінкою користувачів, так і наслідком того, що люди роблять якісь заборонені речі.
ЧИТАЙТЕ ТАКОЖ:
- Робот RoCycle з MIT може сортувати папір і пластик на дотик. Відео
- MIT вчить машини бачити крізь туман
- Штучний інтелект у вашому смартфоні зможе визначити, чи впали ви в депресію
Джерело: MIT News