Imaginechina via AP Images

Il lato oscuro

Il lavoro (nero) di chi ripulisce i contenuti che fanno funzionare le IA

Pietro Minto

Secondo alcune stime una delle intelligenze artificiali più diffuse e stupefacenti brucerebbe tre milioni di dollari al giorno, soprattutto per il costo del potere computazionale. Ma sarebbe resa possibile anche dall'impiego mal retribuito di centinaia di esseri umani

Secondo Arthur C. Clarke, tra i padri della fantascienza contemporanea, “qualunque tecnologia sufficientemente avanzata è indistinguibile dalla magia”. È un po’ questo l’effetto che dà a molte persone l’utilizzo delle intelligenze artificiali generative uscite negli ultimi mesi, quelle in grado di produrre testi e immagini anche molto credibili. Basta un clic ed ecco che la macchina sa scrivere e produrre arte – o qualcosa che le somiglia. Eppure, dietro a quel pulsante non c’è nulla di magico, ma una tecnologia potentissima e molto costosa, su cui molti imprenditori hanno investito miliardi di dollari. Secondo alcune stime, ChatGPT, una delle intelligenze artificiali (IA) più diffuse e stupefacenti, brucerebbe tre milioni di dollari al giorno, soprattutto per il costo del potere computazionale, l’utilizzo del grande cervellone su cui si basa, offerto gentilmente da Microsoft.

 

Secondo quanto svelato dal settimanale Time, però, la magia di ChatGPT sarebbe resa possibile anche dal lavoro mal retribuito di centinaia di esseri umani, perlopiù in Kenya. OpenAI, l’azienda che ha sviluppato la tecnologia, ha “allenato” l’intelligenza artificiale sulla base di un grande archivio di testi, compresi i contenuti presenti online, che sono stati analizzati, spezzettati e poi riassemblati per creare il modello linguistico che la fa funzionare. Sappiamo però che nella rete si trova quanto di più spiacevole, violento e offensivo l’umanità possa offrire. Di conseguenza, l’IA rischiava di “imparare” a scrivere usando contenuti, parole e pensieri osceni. Serviva quindi qualcuno che ripulisse l’archivio e OpenAI l’ha trovato in una serie di lavoratori kenioti in molti casi pagati “meno di due euro l’ora”.

 

Questo è un metodo piuttosto rodato con cui aziende della Silicon Valley ripuliscono da tempo i feed dei loro social network – e ora le loro IA –  tanto da favorire l’ascesa di società che si sono specializzate in questo ambito. Come Sama, la stessa azienda a cui ha fatto ricorso OpenAI ma che ha lavorato anche per Google, Meta e Microsoft. Pur avendo sede a San Francisco, la società offre lavoro soprattutto in Kenya, Uganda e India, presentandosi come una realtà dedita alla “AI etica” in grado di strappare dalla povertà più di cinquantamila persone. Quello che Sama e altre aziende simili evitano di dire è che queste persone fanno un lavoro piuttosto usurante, scandagliando le pagine peggiori della rete per poi segnalare ed etichettare i contenuti ritenuti poco opportuni. Un loro ex dipendente ha raccontato gli effetti a lungo termine di un lavoro in cui si leggono per ore, ogni giorno, testimonianze e racconti violenti d’ogni tipo, a un ritmo di “150-250 passaggi per un turno da nove ore”: “Era una tortura. Quando si arriva a venerdì si è disturbati dall’aver pensato tutto il tempo a quelle cose”. 

 

La natura del lavoro per conto di OpenAI spinse la stessa l’azienda a rescindere il contratto nel febbraio del 2022, ovvero otto mesi prima del previsto. Sempre secondo il Time, la collaborazione tra OpenAI e Sama avrebbe riguardato anche le immagini: in particolare, quest’ultima avrebbe dovuto raccogliere per conto del cliente migliaia di immagini “violente e di natura sessuale”. Da lì a poco, l’accordo è saltato, anche per la protesta di alcuni dirigenti di Sama. Quanto a OpenAI, ha dichiarato che la categorizzazione di immagini simili è stata “un passo necessario” per rendere le IA più sicure. 

 

La vicenda sottolinea la natura umana e “sporca” di queste tecnologie, che vengono presentate come geni della bottiglia ma sono più precisamente sistemi impressionanti basati su un’enorme mole di dati. Dati umani. Di ogni tipo, dimensione, provenienza e qualità. Siccome la fase d’allenamento di un sistema simile è fondamentale, e più grande è l’archivio di partenza meglio l’intelligenza artificiale funziona, l’obiettivo è quello di fagocitare più informazioni possibile per poter ambire a performance migliori. La qualità dei dati raccolti sembra essere stata, almeno finora, un pensiero secondario, un dettaglio magari risolvibile con comodo, pagando aziende come Sama per nascondere il lato oscuro di queste magiche intelligenze artificiali.

Di più su questi argomenti: