MIT-implausible-physics_0

Aiutare le macchine a percepire alcune leggi della fisica

Tempo di lettura: 5 minuti

Gli umani hanno una prima comprensione delle leggi della realtà fisica. I neonati, ad esempio, nutrono aspettative su come gli oggetti dovrebbero muoversi e interagire tra loro e mostreranno sorpresa quando fanno qualcosa di inaspettato, come la scomparsa in un trucco magico da gioco di prestigio.

Ora i ricercatori del MIT hanno progettato un modello che dimostra la comprensione di alcune “fisiche intuitive” di base su come gli oggetti dovrebbero comportarsi. Il modello potrebbe essere utilizzato per aiutare a sviluppare un’intelligenza artificiale più intelligente e, a sua volta, fornire informazioni per aiutare gli scienziati a comprendere la cognizione infantile.

Il modello, chiamato ADEPT, osserva gli oggetti che si muovono attorno a una scena e fa previsioni su come gli oggetti dovrebbero comportarsi, in base alla loro fisica sottostante. Durante il tracciamento degli oggetti, il modello emette un segnale per ogni fotogramma video correlato a un livello di “sorpresa”: maggiore è il segnale, maggiore è la sorpresa. Se un oggetto non corrisponde mai in modo convenzionale alle previsioni del modello, per esempio, sparendo o teletrasportando attraverso una scena, i suoi livelli di sorpresa aumenteranno.

In risposta ai video che mostrano oggetti che si muovono in modi fisicamente plausibili e non plausibili, il modello ha registrato livelli di sorpresa corrispondenti ai livelli riportati dagli umani che avevano visto gli stessi video.

“Quando i bambini hanno 3 mesi, hanno la nozione che gli oggetti non strizzano  e non possono muoversi l’uno con l’altro o teletrasportarsi”, afferma il primo autore Kevin A. Smith, ricercatore in il Dipartimento di Cervello e Scienze cognitive (BCS) e un membro del Center for Brains, Minds and Machines (CBMM). “Volevamo catturare e formalizzare quella conoscenza per trasformare la cognizione infantile in agenti di intelligenza artificiale. Ora ci stiamo avvicinando all’aspetto umano nel modo in cui i modelli possono distinguere scene di base plausibili o plausibili ”.

Ad affiancare Smith sull’articolo ci sono i co-primi autori Lingjie Mei, uno studente universitario presso il Dipartimento di Ingegneria Elettrica e Informatica, e lo scienziato di ricerca BCS Shunyu Yao; Jiajun Wu PhD ’19; Investigatrice CBMM Elizabeth Spelke; Joshua B. Tenenbaum, professore di scienze cognitive computazionali e ricercatore in CBMM, BCS, e il Computer Science and Artificial Intelligence Laboratory (CSAIL); e investigatore CBMM Tomer D. Ullman PhD ’15.

Realtà non corrispondenti

ADEPT si basa su due moduli: un modulo di “grafica inversa” che cattura le rappresentazioni di oggetti da immagini grezze e un “motore fisico” che predice le rappresentazioni future degli oggetti da una distribuzione di possibilità.

La grafica inversa sostanzialmente estrae informazioni sugli oggetti, come forma, posa e velocità  dagli input di pixel. Questo modulo acquisisce fotogrammi di video come immagini e utilizza una grafica inversa per estrarre queste informazioni dagli oggetti nella scena. Ma non si impantana nei dettagli. ADEPT richiede solo una geometria approssimativa di ciascuna forma per funzionare. In parte, questo aiuta il modello a generalizzare le previsioni per nuovi oggetti, non solo per quelli su cui è stato addestrato.

“Non importa se un oggetto è un rettangolo o un cerchio o se è un camion o un’anatra. ADEPT vede solo che c’è un oggetto con una certa posizione, che si muove in un certo modo, per fare previsioni ”, afferma Smith. “Allo stesso modo, anche i bambini piccoli non sembrano preoccuparsi molto di alcune proprietà come la forma quando fanno previsioni fisiche.”

Queste descrizioni grossolane di oggetti vengono inserite in un motore fisico, un software che simula il comportamento di sistemi fisici, come corpi rigidi o fluidi, e viene comunemente utilizzato per film, videogiochi e computer grafica. Il motore fisico dei ricercatori “spinge gli oggetti in avanti nel tempo”, afferma Ullman. Questo crea una serie di previsioni, o una “distribuzione di credenze”, per ciò che accadrà a quegli oggetti nel prossimo frame.

Successivamente, il modello osserva l’attuale fotogramma successivo. Ancora una volta, cattura le rappresentazioni degli oggetti, che quindi allinea a una delle rappresentazioni degli oggetti previste dalla sua distribuzione di credenze. Se l’oggetto obbedisse alle leggi della fisica, non ci sarebbe molta discrepanza tra le due rappresentazioni. D’altra parte, se l’oggetto ha fatto qualcosa di non plausibile, diciamo, è svanito da dietro un muro, ci sarà una grande discrepanza.

ADEPT ricampiona quindi dalla sua distribuzione di credenze e nota una probabilità molto bassa che l’oggetto sia semplicemente svanito. Se c’è una probabilità abbastanza bassa, il modello registra una grande “sorpresa” come picco di segnale. Fondamentalmente, la sorpresa è inversamente proporzionale alla probabilità che si verifichi un evento. Se la probabilità è molto bassa, il picco del segnale è molto alto.

“Se un oggetto va dietro un muro, il motore fisico ritiene che l’oggetto sia ancora dietro il muro. Se il muro crolla e non c’è nulla, c’è una discrepanza “, afferma Ullman. “Quindi, il modello dice: ‘C’è un oggetto nella mia previsione, ma non vedo nulla. L’unica spiegazione è che è scomparsa, quindi è sorprendente. “”

Violazione delle aspettative

Nella psicologia dello sviluppo, i ricercatori eseguono test di “violazione delle aspettative” in cui ai bambini vengono mostrate coppie di video. Un video mostra un evento plausibile, con oggetti che aderiscono alle loro nozioni attese su come funziona il mondo. L’altro video è lo stesso in tutti i modi, tranne che gli oggetti si comportano in un modo che viola le aspettative in qualche modo. I ricercatori useranno spesso questi test per misurare per quanto tempo il bambino guarda una scena dopo che si è verificata un’azione non plausibile. Più a lungo fissano, ipotizzano i ricercatori, più possono essere sorpresi o interessati a ciò che è appena accaduto.

Per i loro esperimenti, i ricercatori hanno creato diversi scenari basati sulla ricerca classica sullo sviluppo per esaminare la conoscenza degli oggetti chiave del modello. Hanno impiegato 60 adulti per guardare 64 video di scenari noti fisicamente plausibili e fisicamente non plausibili. Gli oggetti, ad esempio, si sposteranno dietro un muro e, quando il muro cadrà, saranno ancora lì o se ne andranno. I partecipanti hanno valutato la loro sorpresa in vari momenti su una scala crescente da 0 a 100. Quindi, i ricercatori hanno mostrato gli stessi video al modello. Nello specifico, gli scenari hanno esaminato la capacità del modello di catturare le nozioni di permanenza (gli oggetti non appaiono o scompaiono senza motivo), la continuità (gli oggetti si muovono lungo traiettorie connesse) e la solidità (gli oggetti non possono muoversi l’uno nell’altro).

ADEPT si è abbinato particolarmente bene agli umani nei video in cui gli oggetti si muovevano dietro i muri e scomparivano quando il muro veniva rimosso. È interessante notare che il modello ha anche abbinato livelli di sorpresa nei video che gli umani non sono stati sorpresi, ma forse avrebbero dovuto esserlo. Ad esempio, in un video in cui un oggetto che si muove a una certa velocità scompare dietro un muro ed esce immediatamente dall’altro lato, l’oggetto potrebbe essersi accelerato in modo significativo quando è andato dietro il muro o potrebbe essersi teletrasportato dall’altro lato. In generale, gli esseri umani e l’ADEPT erano entrambi meno sicuri se quell’evento fosse o non fosse sorprendente. I ricercatori hanno anche scoperto che le reti neurali tradizionali che apprendono la fisica dalle osservazioni, ma non rappresentano esplicitamente gli oggetti, sono molto meno accurate nel differenziare le scene sorprendenti da quelle non sorprese.

Successivamente, i ricercatori hanno in programma di approfondire il modo in cui i bambini osservano e conoscono il mondo, con l’obiettivo di incorporare qualsiasi nuova scoperta nel loro modello. Gli studi, ad esempio, mostrano che i bambini fino a una certa età in realtà non sono molto sorpresi quando gli oggetti cambiano completamente in qualche modo, come se un camion scompare dietro un muro, ma riemerga come un’anatra.

“Vogliamo vedere cos’altro deve essere integrato per comprendere il mondo più come i bambini e formalizzare ciò che sappiamo sulla psicologia per costruire agenti di intelligenza artificiale migliori”, afferma Smith.

Fonte