Суперкомп’ютер MIT здатний аналізувати веб-трафік усього інтернету

Використовуючи потужну суперкомп’ютерну систему, дослідники MIT розробили модель, яка фіксує, як виглядає глобальний інтернет-трафік у будь-який день. Вчені вважають, що аналіз такої моделі веб-трафіку в глобальних масштабах корисний для створення інтернет-політик, виявлення та запобігання перебоям у роботі, захисту від кібератак та розробки більш ефективної обчислювальної інфраструктури.

Для своєї роботи дослідники зібрали найбільший загальнодоступний набір даних, що включає 50 мільярдів пакетів даних, які були взяті в точках обміну інтернет-трафіку по всьому світу протягом кількох років.

Далі вчені пропустили дані через новий конвеєр на базі «нейронної мережі», який працює на базі 10 тисяч процесорів MIT SuperCloud — системи, яка комбінує обчислювальні ресурси Лабораторії MIT Lincoln та усього Інституту. Цей конвеєр згенерував модель, яка фіксує взаємозв’язок для всіх ланок у наборі даних — від стандартних відправників пакетів до таких гігантів, як Google та Facebook, а також включно з рідкісними ланками, які демонструють лише короткочасне підключення, але все ж таки мають певний вплив на веб-трафік.

Створена модель може взяти будь-який масивний набір мережевих даних і згенерувати детальні статистичні висновки щодо того, як всі з’єднання в мережі впливають один на одного. Це може бути використано для розкриття інформації про одноранговий спільний доступ до файлів, підозрілі IP-адреси та поведінку щодо спаму, розподілення атак в критичних секторах і вузьких місцях передачі даних з метою кращого розподілу обчислювальних ресурсів і забезпечення безперервної передачі даних.

В принципі, така робота подібна виміру космічного мікрохвильового фону, по суті — майже однорідних радіохвиль, що поширюються по нашому всесвіту. Саме такі радіохвилі були важливим джерелом інформації для вивчення явищ в космічному просторі.

«Ми створили точну модель для вимірювання фону віртуального всесвіту інтернету, — каже Джеремі Кепнер (Jeremy Kepner), науковий співробітник Лабораторії суперкомп’ютерних технологій MIT Lincoln Laboratory й астроном за освітою. — Якщо ви хочете виявити будь-які відхилення або порушення в трафіку, вам знадобиться саме така модель».

Аналіз даних

Завдяки дослідженню експерти можуть знайти аномалії в веб-трафіку, які вказують, наприклад, на кіберзагрози. Але, щоб знайти відхилення, спочатку потрібно зрозуміти, як виглядає стандартний трафік, а це не так просто. Традиційні моделі «аналізу трафіку» можуть обробляти тільки невеликі вибірки пакетів даних, якими обмінюються точки відправлення та приймання пакетів, обмежені місцем розташування. Це знижує точність моделі.

Мережі зазвичай представляються у формі графіків з акторами (актор — вузол-оператор в графі потоків даних) і ланками, що представляють зв’язок між вузлами. В інтернет-трафіку вузли розрізняються за розмірами й місцем розташування. Великі супервузли — це популярні хаби, такі як Google або Facebook. Дрібні вузли виходять з цього супервузла і мають кілька з’єднань між собою та супервузлом. За межами цього «ядра» супервузлів і кінцевих вузлів знаходяться ізольовані вузли й ланки, які дуже нечасто з’єднуються один з одним.

Обробка цих графіків у повному масштабі неможливе для традиційних моделей. «Ви не можете доторкнутися до цих даних, не маючи суперкомп’ютер», — каже Кепнер.

У співпраці з іншими організаціями, дослідники MIT отримали найбільший у світі набір пакетів інтернет-трафіку. Цей  набір даних містить майже 50 мільярдів унікальних стартових та кінцевих точок даних між споживачами й різними додатками та службами, витягнутих протягом кількох випадкових днів в різних локаціях Японії й США, починаючи з 2015 року.

Революційне рішення для розуміння процесів в інтернеті

Але переважна більшість осередків в цьому гіперрозділеному наборі даних все ще були порожніми. Щоб обробити матрицю, команда запустила ту ж саме нейронну мережу MIT SuperCloud на 10 тисячах ядер. Зрештою, нейронна мережа по суті генерує просту модель, що має тільки два параметри, каже Кепнер. Вони описують набір даних інтернет-трафіку в такому вигляді: «від дійсно популярних вузлів до ізольованих вузлів і повного спектра усього, що між ними».

Використання суперкомп’ютерних ресурсів для ефективної обробки «потокового трафіку» і визначення важливих шаблонів і веб-активності є «проривною» розробкою, вважає Девід Бейдер (David Bader), професор Інституту Технологій Нью-Джерсі.

«Головне завдання в області кібербезпеки — зрозуміти глобальні тенденції в інтернет-трафіку для таких цілей, як виявлення підозрілих джерел, занадто великої агрегації потоків і вакцинація проти комп’ютерних вірусів. Дослідницька група успішно розв’язала таку проблему і представила глибокий аналіз глобального мережевого трафіку», — говорить він.

Дослідники тепер співпрацюють з науковою спільнотою, щоб знайти подальше застосування для своєї моделі. Експерти, наприклад, могли б вивчити значення ізольованих посилань, виявлених під час експериментів, які зустрічаються досить рідко, але, здається, впливають на веб-трафік в основних вузлах.

Крім інтернету, створений канал нейронних мереж можна використовувати для аналізу будь-якої гіперрозділеної мережі, такої як біологічні та соціальні мережі. За словами Кепнера, вони надали науковій спільноті фантастичний інструмент для всіх фахівців, які хочуть побудувати більш надійні мережі або виявити в них аномалії. Ці аномалії можуть бути як просто стандартною поведінкою користувачів, так і наслідком того, що люди роблять якісь заборонені речі.

ЧИТАЙТЕ ТАКОЖ:

Джерело: MIT News

Читайте также:

Цікаві природні явища на Марсі та їх наслідки

Теорії змови про 5G, або чому люди бояться нових технологій

Чи здатне біонічне око перевершити людський орган зору?

Подальші плани NASA або для чого потрібна місячна космічна станція?