Foto di Possessed Photography su Unsplash 

Cattivi Scienziati

Gli ultimi studi sulle IA concordano: in futuro saranno molto più intelligenti di noi

Enrico Bucci

Quanto è davvero intelligente l’intelligenza artificiale? La comunità scientifica alle prese con la formulazione di misure precise per testare le prestazioni degli algoritmi

Sembra una domanda oziosa, perché esperti importanti del settore hanno già dato risposte abbastanza chiare in merito. Il vincitore del premio Turing Geoffrey Hinton, per esempio, ha recentemente dichiarato: “Ho cambiato opinione sul fatto che queste cose saranno più intelligenti di noi. Penso che ora ci siamo molto vicini e che in futuro saranno molto più intelligenti di noi”. Un altro vincitore del premio Turing, Yoshua Bengio, ha similmente dichiarato: “I recenti progressi suggeriscono che anche il futuro in cui sappiamo come costruire IA superintelligenti (più intelligenti degli umani su tutta la linea) è più vicino di quanto la maggior parte delle persone si aspettasse solo un anno fa".

Di fronte a simili dichiarazioni, è urgente riportare la questione nell’ambito degli studi e dei dati, come ha fatto su Science Melanie Mitchell, professoressa del Santa Fe Institute negli USA e specialista in intelligenza artificiale e scienze della cognizione. Il punto sollevato dalla professoressa è il seguente: per sapere se e in che senso le prestazioni degli algoritmi di IA siano a livello dell’intelligenza umana, è necessario fare misure precise; a questo scopo, di solito, si usano test utilizzati per le persone, con cui si mettono alla prova le diverse versioni di intelligenza artificiale. Nel farlo, tuttavia, bisogna stare estremamente attenti ad effetti che, nel caso in cui quei test siano usati per l’intelligenza umana, sono ininfluenti, ma invece hanno un peso fondamentale quando siano usati per valutare se un algoritmo sia capace di prestazioni cognitive simili o superiori a quelle umane.

Il primo di questi fattori è la contaminazione dei dati utilizzati per l’addestramento delle IA, che possono contenere le soluzioni ai test usati per la valutazione. Mentre è molto improbabile che una persona abbia già visto la soluzione ad un quesito presentato per valutare le sue capacità mentali, modelli di IA quali GPT-4 sono stati addestrati con quantità sterminate di dati digitali. OpenAI, il produttore di GPT-4, ha per esempio dichiarato che il proprio sistema di intelligenza artificiale ha raggiunto le prestazioni umane in vari test professionali e accademici. Di fronte all’obiezione che l’algoritmo potesse semplicemente aver incontrato la maggior parte dei problemi e delle rispettive risposte nel set di dati usati per il suo allenamento, OpenAI non ha fornito accesso a tale set, ma ha dichiarato di aver effettuato un controllo per escludere tale evenienza, ricercando sottostringhe dei quesiti superati all’interno del data set in questione. Questo metodo, naturalmente, è assolutamente superficiale, perché esclude il caso in cui gli stessi quesiti siano presenti, con piccole varianti testuali (che GPT-4 è abituato a trattare); di conseguenza, come ha ricordato la professoressa Mitchell, la comunità scientifica ha sollevato pesanti critiche, anche perché è risultato che le risposte fornite da GPT-4 sono state molto più accurate per i test sviluppati prima del 2021, cioè prima del limite temporale della raccolta di dati usati per il suo allenamento.

In secondo luogo, è stato ampiamente dimostrato che i sistemi di IA che vanno attualmente per la maggiore mancano di robustezza nel risolvere problemi di differente complessità. Presentando cioè lo stesso quesito in forme diverse, si ottengono a volte risposte che fanno sospettare una qualche forma di intelligenza, così come soluzioni completamente erronee; la presunta intelligenza, cioè, si riduce spesso al riconoscimento della forma del problema, che è ricondotto ricorsivamente attraverso il modello linguistico utilizzato ad una forma dello stesso già esaminata (nei casi in cui si ottiene una risposta sensata).

Infine, vi è un problema se si vuole ancora più fondamentale, che consiste nell’utilizzo di sistemi di valutazione che sono profondamente viziati nella loro costruzione, in un modo che può essere sfruttato dall’IA per trovare euristiche completamente diverse dal ragionamento corretto e che sono strettamente dipendenti dal vizio dei dati utilizzati per il test. È stato dimostrato che i set di dati di riferimento utilizzati per addestrare i sistemi di intelligenza artificiale possono consentire sottili associazioni statistiche che le macchine possono utilizzare per produrre risposte corrette, senza in realtà “comprendere” effettivamente un bel nulla. Uno studio ha per esempio rilevato che un sistema di intelligenza artificiale che classificava con successo i tumori maligni nelle immagini dermatologiche utilizzava la presenza di un righello nelle immagini come segnale importante (le immagini di tumori non maligni tendevano a non includere righelli). Un altro studio ha dimostrato che un sistema di intelligenza artificiale che ha raggiunto prestazioni a livello umano su un benchmark per valutare le capacità di ragionamento si basava sul fatto che le risposte corrette avevano (involontariamente) maggiori probabilità di contenere determinate parole chiave. Ad esempio, si è scoperto che le scelte di risposta contenenti la parola "non" avevano maggiori probabilità di essere corrette.

Questi esempi mostrano come i sistemi di AI possono identificare bias nei dati usati prima per il loro addestramento e quindi per la valutazione delle loro capacità, bias che sono insignificanti per valutare un essere umano perché non percettibili al nostro cervello, ma invece sono utilissimi a ricavare euristiche che apparentemente producono il comportamento voluto, ma in realtà rappresentano trappole statistiche che avvelenano le capacità della macchina. I problemi elencati, insieme ad altri che sono attualmente in studio, mostrano tutti un punto fondamentale: utilizzare test adattati per valutare le capacità cognitive e le prestazioni dell’essere umano può essere estremamente ingannevole, quando si tratti di valutare le prestazioni e le capacità di una IA (e forse, per estensione, anche di cervelli diversi da quello umano). Prima di dichiarazioni sul punto a cui siamo giunti nel riprodurre l’intelligenza umana, quindi, e senza nemmeno ancora affrontare il problema di cosa questa sia, è urgente sviluppare capacità di misura e strumenti di indagine che non producano gli imbarazzanti inconvenienti qui brevemente ricordati.