Il supercomputer analizza il traffico Web su tutta Internet

Tempo di lettura: 4 minuti

Utilizzando un sistema di supercomputer, i ricercatori del MIT hanno sviluppato un modello che cattura l’aspetto del traffico web in tutto il mondo in un determinato giorno, che può essere utilizzato come strumento di misurazione per la ricerca su Internet e molte altre applicazioni.

Comprendere i modelli di traffico Web su così vasta scala, affermano i ricercatori, è utile per informare la politica di Internet , identificare e prevenire le interruzioni, difendersi dagli attacchi informatici e progettare infrastrutture di calcolo più efficienti. Un documento che descrive l’approccio è stato presentato alla recente conferenza IEEE ad alte prestazioni per il calcolo estremo.

Per il loro lavoro, i ricercatori hanno raccolto il più grande set di dati sul traffico Internet disponibile al pubblico, che comprende 50 miliardi di pacchetti di dati scambiati in diverse località in tutto il mondo per un periodo di diversi anni.

Hanno gestito i dati attraverso una nuova pipeline di “reti neurali” che opera attraverso 10.000 processori del MIT SuperCloud, un sistema che combina risorse di elaborazione del MIT Lincoln Laboratory e dell’Istituto. Tale pipeline ha formato automaticamente un modello che acquisisce la relazione per tutti i collegamenti nel set di dati, dai ping comuni a giganti come Google e Facebook, ai collegamenti rari che si collegano solo brevemente ma sembrano avere un impatto sul traffico web.

Il modello può accettare qualsiasi enorme set di dati di rete e generare alcune misurazioni statistiche su come tutte le connessioni nella rete si influenzano a vicenda. Questo può essere usato per rivelare approfondimenti sulla condivisione di file peer-to-peer, indirizzi IP nefasti e comportamento spamming, distribuzione di attacchi in settori critici e strozzature del traffico per allocare meglio le risorse di elaborazione e mantenere il flusso dei dati.

In termini concettuali, il lavoro è simile alla misurazione del fondo cosmico a microonde dello spazio, le onde radio quasi uniformi che viaggiano nel nostro universo e che sono state un’importante fonte di informazioni per studiare i fenomeni nello spazio. “Abbiamo costruito un modello accurato per misurare lo sfondo dell’universo virtuale di Internet”, afferma Jeremy Kepner, ricercatore presso il MIT Lincoln Laboratory Supercomputing Center e un astronomo in formazione. “Se si desidera rilevare eventuali varianze o anomalie, è necessario disporre di un buon modello di sfondo.”

Ad unirsi a Kepner sul giornale ci sono: Kenjiro Cho dell’Internet Initiative Japan; KC Claffy del Center for Applied Internet Data Analysis presso l’Università della California a San Diego; Vijay Gadepally e Peter Michaleas del Centro di supercomputer del Lincoln Laboratory; e Lauren Milechin, ricercatrice presso il Dipartimento di Scienze della Terra, dell’atmosfera e del pianeta del MIT.

Nella ricerca su Internet, gli esperti studiano anomalie nel traffico web che possono indicare, ad esempio, minacce informatiche. Per fare ciò, aiuta prima a capire che aspetto ha il traffico normale. Ma catturare ciò è rimasto impegnativo. I modelli tradizionali di “analisi del traffico” possono analizzare solo piccoli campioni di pacchetti di dati scambiati tra fonti e destinazioni limitati dalla posizione. Ciò riduce la precisione del modello.

I ricercatori non stavano specificamente cercando di affrontare questo problema di analisi del traffico. Ma avevano sviluppato nuove tecniche che potevano essere utilizzate sul SuperCloud del MIT per elaborare enormi matrici di rete. Il traffico Internet è stato il test perfetto.

Le reti sono di solito studiate sotto forma di grafici, con attori rappresentati da nodi e collegamenti che rappresentano connessioni tra i nodi. Con il traffico Internet, i nodi variano in dimensioni e posizione. I supernodi di grandi dimensioni sono hub popolari, come Google o Facebook. I nodi foglia si estendono da quel supernodo e hanno connessioni multiple tra loro e il supernodo. Al di fuori di quel “nucleo” di supernodi e nodi foglia vi sono nodi e collegamenti isolati, che si collegano tra loro solo raramente.

Catturare l’intera estensione di questi grafici è impossibile per i modelli tradizionali. “Non è possibile toccare tali dati senza l’accesso a un supercomputer”, afferma Kepner.

In collaborazione con il progetto WIDE (Widely Integrated Distributed Environment), fondato da diverse università giapponesi e il Center for Applied Internet Data Analysis (CAIDA), in California, i ricercatori del MIT hanno acquisito il più grande set di dati al mondo per l’acquisizione di pacchetti per il traffico Internet. Il set di dati anonimo contiene quasi 50 miliardi di punti dati di origine e destinazione unici tra consumatori e varie app e servizi durante giorni casuali in varie località in Giappone e negli Stati Uniti, risalenti al 2015.

Prima di poter addestrare qualsiasi modello su tali dati, avevano bisogno di effettuare una vasta preelaborazione. Per fare ciò, hanno utilizzato il software creato in precedenza, chiamato Dynamic Distributed Dimensional Data Mode (D4M), che utilizza alcune tecniche di calcolo della media per calcolare e ordinare in modo efficiente “dati hyperparse” che contengono molto più spazio vuoto dei punti dati. I ricercatori hanno suddiviso i dati in unità di circa 100.000 pacchetti su 10.000 processori SuperCloud del MIT. Ciò ha generato matrici più compatte di miliardi di righe e colonne di interazioni tra fonti e destinazioni.

Ma la stragrande maggioranza delle celle in questo insieme di dati ipersparsi era ancora vuota. Per elaborare le matrici, il team gestiva una rete neurale sugli stessi 10.000 core. Dietro le quinte, una tecnica di prova ed errore ha iniziato ad adattare i modelli alla totalità dei dati, creando una distribuzione di probabilità di modelli potenzialmente accurati.

Quindi, ha utilizzato una tecnica modificata di correzione degli errori per perfezionare ulteriormente i parametri di ciascun modello per acquisire il maggior numero possibile di dati. Tradizionalmente, le tecniche di correzione degli errori nell’apprendimento automatico cercheranno di ridurre la significatività di tutti i dati periferici al fine di adattare il modello a una normale distribuzione di probabilità, che lo rende complessivamente più accurato. Ma i ricercatori hanno usato alcuni trucchi matematici per assicurarsi che il modello vedesse ancora tutti i dati periferici, come collegamenti isolati, significativi per le misurazioni complessive.

Alla fine, la rete neurale genera essenzialmente un modello semplice, con solo due parametri, che descrive il set di dati del traffico Internet, “da nodi molto popolari a nodi isolati e l’intero spettro di tutto ciò che sta nel mezzo”, afferma Kepner.

I ricercatori stanno ora raggiungendo la comunità scientifica per trovare la loro prossima applicazione per il modello. Gli esperti, ad esempio, potrebbero esaminare il significato dei collegamenti isolati che i ricercatori hanno scoperto nei loro esperimenti che sono rari ma sembrano influenzare il traffico web nei nodi principali.

Oltre a Internet, la pipeline della rete neurale può essere utilizzata per analizzare qualsiasi rete ipersparsa , come le reti biologiche e sociali. “Ora abbiamo fornito alla comunità scientifica uno strumento fantastico per le persone che vogliono costruire reti più robuste o rilevare anomalie delle reti”, afferma Kepner. “Quelle anomalie possono essere solo comportamenti normali di ciò che fanno gli utenti, oppure persone che fanno cose che non vuoi”.

Fonte