ingannare ai

Protezione di macchine intelligenti da attacchi intelligenti

Tempo di lettura: 3 minuti

La capacità delle macchine di apprendere elaborando i dati raccolti dai sensori è alla base dei veicoli automatizzati, dei dispositivi medici e di una serie di altre tecnologie emergenti. Ma questa capacità di apprendimento rende i sistemi vulnerabili agli hacker in modi inaspettati, hanno scoperto i ricercatori dell’Università di Princeton.

In una serie di articoli recenti, un gruppo di ricerca ha esplorato come le tattiche contraddittorie applicate all’intelligenza artificiale (AI) potrebbero, ad esempio, ingannare un sistema di efficienza del traffico nel causare ingorgo o manipolare un’applicazione di IA correlata alla storia della salute per rivelare il medico privato dei pazienti . Come esempio di uno di questi attacchi, il team ha alterato la percezione di un robot di guida di un segnale stradale da un limite di velocità a un segnale di “Stop”, che potrebbe causare una pericolosa frenata alle alte velocità dell’autostrada; in altri esempi, hanno modificato i segnali di stop per essere percepiti come una varietà di altre istruzioni sul traffico.

“Se l’apprendimento automatico è il software del futuro, siamo a un punto di partenza fondamentale per garantirlo”, ha affermato Prateek Mittal, ricercatore capo e professore associato presso il Dipartimento di Ingegneria Elettrica di Princeton. “Affinché le tecnologie di apprendimento automatico possano raggiungere il loro pieno potenziale, dobbiamo capire come funziona l’apprendimento automatico in presenza di avversari. Ecco dove abbiamo una grande sfida.

Proprio come il software è incline a essere violato e infettato da virus informatici come i suoi utenti sono colpiti da truffatori attraverso phishing e altri stratagemmi di violazione della sicurezza, le applicazioni basate su AI hanno le loro vulnerabilità. Tuttavia, il dispiegamento di garanzie adeguate è in ritardo. Finora, la maggior parte dello sviluppo dell’apprendimento automatico si è verificato in ambienti benigni e chiusi, un ambiente radicalmente diverso rispetto al mondo reale.

Mittal è un pioniere nella comprensione di una vulnerabilità emergente nota come apprendimento automatico contraddittorio. In sostanza, questo tipo di attacco fa sì che i sistemi di intelligenza artificiale producano risultati involontari e potenzialmente pericolosi corrompendo il processo di apprendimento. Nelle loro recenti serie di articoli, il gruppo di Mittal ha descritto e dimostrato tre grandi tipi di attacchi di apprendimento automatico contraddittorio.

Avvelenare bene i dati

Il primo attacco coinvolge un agente malevolo che inserisce informazioni fasulle nel flusso di dati che un sistema di intelligenza artificiale sta utilizzando per apprendere, un approccio noto come avvelenamento dei dati. Un esempio comune è un gran numero di telefoni degli utenti che segnalano le condizioni del traffico. Tali dati crowdsourcing possono essere utilizzati per formare un sistema di intelligenza artificiale per sviluppare modelli per un migliore percorso collettivo di auto autonome, riducendo la congestione e lo spreco di carburante.

“Un avversario può semplicemente inserire dati falsi nella comunicazione tra il telefono e entità come Apple e Google, e ora i loro modelli potrebbero essere potenzialmente compromessi”, ha detto Mittal. “Qualunque cosa tu impari dai dati corrotti sarà sospetta.”

Il gruppo di Mittal ha recentemente dimostrato una sorta di passaggio di livello successivo da questo semplice avvelenamento di dati, a un approccio che chiamano “avvelenamento da modello”. Nell’intelligenza artificiale, un “modello” potrebbe essere un insieme di idee che una macchina ha formato, basato sulla sua analisi dei dati, su come funziona una parte del mondo. A causa di problemi di privacy, il telefono cellulare di una persona potrebbe generare il proprio modello localizzato, consentendo di mantenere riservati i dati dell’individuo. I modelli anonimi vengono quindi condivisi e raggruppati con i modelli di altri utenti. “Sempre più le aziende si stanno muovendo verso l’apprendimento distribuito in cui gli utenti non condividono direttamente i propri dati, ma invece addestrano modelli locali con i loro dati”, ha affermato Arjun Nitin Bhagoji, Ph.D. studente nel laboratorio di Mittal.

Ma gli avversari possono mettere un pollice sulla bilancia. Una persona o un’azienda interessata al risultato potrebbe indurre i server di un’azienda a ponderare gli aggiornamenti del proprio modello rispetto ai modelli di altri utenti. “L’obiettivo dell’avversario è garantire che i dati scelti siano classificati nella classe che desiderano e non nella vera classe”, ha affermato Bhagoji.

A giugno, Bhagoji ha presentato un documento su questo argomento alla Conferenza internazionale sull’apprendimento automatico (ICML) del 2019 a Long Beach, in California, in collaborazione con due ricercatori di IBM Research. L’articolo ha esplorato un modello di prova che si basa sul riconoscimento delle immagini per classificare se le persone nelle foto indossassero sandali o scarpe da ginnastica. Mentre una classificazione errata indotta di quella natura sembra innocua, è il tipo di sotterfugio ingiusto che una società senza scrupoli potrebbe impegnarsi per promuovere il suo prodotto rispetto a quello di un rivale.

“I tipi di avversari che dobbiamo considerare nella ricerca avversaria sull’intelligenza artificiale vanno dai singoli hacker che cercano di estorcere denaro da persone o aziende, alle aziende che cercano di ottenere vantaggi commerciali, agli avversari a livello di stato-nazione che cercano vantaggi strategici”, ha affermato Mittal, che è associato anche al Center for Information Technology Policy di Princeton .