privacy

Il riconoscimento delle emozioni ha un problema di privacy

Tempo di lettura: 3 minuti

Con i dispositivi che ascoltano ovunque tu vada, i problemi di privacy sono endemici del progresso della tecnologia. Particolarmente sensibili sono le diverse tecniche alimentate dall’audio proveniente da smartphone e altoparlanti, che mettono i consumatori in una costante analisi costi-benefici tra privacy e utilità.

Prendi, ad esempio, un’app mobile o un assistente virtuale che può imparare ad adattarsi all’umore di un utente e riconoscere le emozioni in tempo reale. Questo tipo di adattamento può creare conversazioni più fluide e una comprensione più utile e umana da parte degli assistenti vocali. Ma dove disegna l’utente se l’audio che alimenta queste intuizioni è stato archiviato pieno di identificatori sul genere e le informazioni demografiche?

Un nuovo articolo dello studente di dottorato CSE Mimansa Jaiswal e della prof.ssa Emily Mower Provost propone un metodo per rimuovere questa barriera e consentire tecnologie più sicure basate sull’apprendimento automatico (ML). Attraverso l’uso di ML contraddittorio, hanno dimostrato la capacità di “disimparare” questi identificatori sensibili dall’audio prima che vengano memorizzati, e invece usano rappresentazioni spogliate del relatore per addestrare i modelli di riconoscimento delle emozioni.

Il riconoscimento delle emozioni, l’analisi del sentimento e altre tecniche per l’identificazione automatica di diverse caratteristiche complesse del linguaggio sono basati su modelli ML formati su enormi archivi di dati etichettati. Al fine di individuare in modo affidabile modelli nel discorso di un utente, il modello deve avere una significativa esperienza di formazione con un discorso simile che lo aiuti a identificare alcune caratteristiche comuni.

Questi sistemi che affrontano la vita quotidiana dei normali utenti di smartphone dovranno quindi essere addestrati su una vasta gamma di normali discorsi umani – essenzialmente, registrazioni di conversazioni.

“La speranza di questo articolo è di mostrare che questi algoritmi di apprendimento automatico finiscono per codificare molte informazioni sul genere o le informazioni demografiche di una persona”, afferma Jaiswal. Queste informazioni demografiche sono archiviate sui server aziendali che alimentano una particolare app mobile o assistente vocale, lasciando l’utente aperto all’identificazione da parte dell’azienda o, peggio ancora, di eventuali intercettatori malevoli.

“Le implicazioni della perdita di informazioni sensibili sono profonde”, scrivono gli autori. “La ricerca ha dimostrato che si verificano discriminazioni tra le variabili di età, razza e genere nelle assunzioni, nelle attività di polizia e nei rating del credito”.

Questi dati audio identificativi, archiviati nella sua forma grezza, potrebbero addirittura sovrascrivere le opzioni di opt-out selezionate dall’utente altrove nell’app. Per gestire ciò, i servizi sono passati all’archiviazione delle rappresentazioni ottenute dopo la pre-elaborazione sul cloud, per evitare la perdita di informazioni.

I lavori precedenti sulla codifica dei dati audio tenendo presente la privacy hanno provato ad aggiungere rumore casuale al set di dati. Mentre la tecnica funzionava se l’ascoltatore non era a conoscenza del tipo di rumore utilizzato, nell’istante in cui l’attaccante era in grado di accedere alla rete generando l’anonimato il metodo è andato in pezzi.

Invece, Jaiswal e Mower Provost usano tecniche ML contraddittorie per ridurre la codifica di funzioni demografiche e private dall’audio non elaborato prima che sia mai archiviato. Ciò che rimane è una rappresentazione dei dati astratta della registrazione originale. Gli autori utilizzano queste rappresentazioni per offuscare parzialmente il contenuto effettivo della conversazione, eliminando i rischi per la privacy associati alla memorizzazione dei dati all’ingrosso.

La sfida consisteva quindi nel garantire che questo nuovo formato di dati protetti dalla privacy potesse ancora essere utilizzato per addestrare in modo efficace i modelli ML sul loro compito principale. Ciò che i ricercatori hanno scoperto è che quando la forza della componente contraddittoria aumenta, la metrica sulla privacy aumenta per lo più – e le prestazioni sull’attività primaria sono invariate o sono influenzate solo in misura minore.

“Scopriamo che le prestazioni vengono mantenute o che si verifica una leggera riduzione delle prestazioni per alcune configurazioni”, scrivono gli autori. In più casi hanno persino identificato un aumento significativo delle prestazioni, il che implica che rendere il modello cieco al genere aumenta la sua solidità non imparando le associazioni tra genere ed etichette emozionali.

Jaiswal spera di utilizzare questi risultati per rendere la ricerca sull’apprendimento automatico più sicura e più sicura per gli utenti nel mondo reale.

“I modelli ML sono per lo più modelli di scatole nere”, afferma, “il che significa che di solito non sai esattamente cosa codificano, quali informazioni hanno o se tali informazioni possono essere utilizzate in modo positivo o dannoso. Il prossimo passo è capire la differenza nelle informazioni codificate tra due modelli in cui l’unica differenza è che uno è stato addestrato per proteggere la privacy. ”

“Vogliamo migliorare il modo in cui gli umani percepiscono e interagiscono con questi modelli”.

Questa ricerca è stata pubblicata nel documento “Privacy Enhanced Multimodal Neural Representations for Emotion Recognition“, pubblicato alla conferenza dell’Associazione 2020 per l’avanzamento dell’intelligenza artificiale (AAAI).