Foto di Obi - @pixel7propix su Unsplash 

tecnologia

Le AI hanno bisogno di testi di qualità per allenarsi. Un'occasione per i media

Pietro Minto

Vendere l’accesso dei propri contenuti alle intelligenze artificiali può diventare una nuova fonte d’entrate per le testate giornalistiche. Il caso di Reddit e le trattative di alcuni editori svelate dal Financial Times

Nei giorni scorsi Reddit, il sito per la condivisione di contenuti e notizie, è stato interessato da una grande protesta condotta da milioni di utenti contro la decisione del ceo Steve Huffman di monetizzare alcuni aspetti del social network finora poco sfruttati. Al centro della discordia c’è l’API (o interfaccia di programmazione di applicazione), il sistema che permette a un’app esterna di accedere ai dati di Reddit, che Huffman vuole offrire soltanto a pagamento – a un prezzo altissimo, tale da distruggere il business di alcuni servizi nati attorno al sito nel corso degli anni. 

La svolta di Huffman pare essere stata influenzata dal dibattito sulle intelligenze artificiali e il loro “allenamento”: oggi sappiamo che OpenAI, azienda sviluppatrice di ChatGPT, ha utilizzato anche l’archivio di post provenienti da Reddit per “insegnare” alle proprie reti neurali a esprimersi correttamente. Il tutto, senza sborsare un soldo al social network. Ciò è bastato a convincere il capo di Reddit a muoversi per proteggere e monetizzare i contenuti del proprio sito. La reazione di Huffman è stata ritenuta  troppo drastica, ma non è l’unica in questa direzione. Nelle ultime settimane sono aumentati i contatti diretti tra aziende operanti nel settore delle IA e le testate giornalistiche, depositarie di una risorsa diventata d’improvviso molto importante: testi scritti bene e verificati da esseri umani qualificati. Il Financial Times ha rivelato in esclusiva le discussioni avvenute di recente tra OpenAI, Microsoft, Google e Adobe con alcuni editori e giornali tra i più rilevanti d’occidente, tra cui News Corp (il gruppo di Rupert Murdoch), Axel Springer (l’editore storico della Bild tedesca che possiede anche Politico), il New York Times e il Guardian.

Secondo il quotidiano londinese, questa trattativa sarebbe ancora agli inizi ma potrebbe arrivare a prevedere il pagamento di una tariffa fissa, una specie  di “abbonamento” per l’accesso ai loro contenuti “ai fini di sviluppare la tecnologia che fa funzionare chatbot come ChatGPT di OpenAI e Bard di Google”. E’ ancora presto per dire se la vendita dell’accesso ai propri contenuti per le IA possa diventare una nuova fonte d’entrate per le testate giornalistiche, anche perché aziende del settore come Stability AI e OpenAI sono state già accusate di violazione di copyright da diversi artisti, proprio perché le opere di quest’ultimi avevano finito per “ispirare” la generazione di immagini da parte di questi sistemi. 

Lo scorso maggio l’amministratore delegato di News Corp, Robert Thomson, aveva dichiarato che “le proprietà intellettuali collettive dei media sono sotto attacco” e che fosse quindi necessario “chiedere rumorosamente una compensazione” alle società produttrici di IA. In tutto questo, il settore dei media e del giornalismo potrebbe avere la possibilità di farsi valere a causa di una debolezza poco nota delle IA generative, che, come detto, devono essere allenate con grandi quantità di contenuti. La qualità di questo archivio è però un aspetto cruciale su cui si baserà buona parte del futuro di questa tecnologia: secondo gli esperti del settore, infatti, è importante verificare che tra i materiali usati nella formazione delle IA non ci siano contenuti che sono stati generati dalle stesse. Il rischio è infatti quello di un “feedback loop”, un circolo vizioso che porterebbe velocemente al collasso dell’intero sistema, con risultati disastrosi.

Un recente studio realizzato da ricercatori britannici e canadesi ha notato come “col passare del tempo gli errori nei dati generati si accumulano” e, quando vengono usati nella formazione delle intelligenze artificiali, “portano i modelli a fraintendere la realtà sempre di più”. Uno degli autori ha spiegato al sito Venture Beat di essere stato “sorpreso dalla velocità con cui un collasso simile si verifica”. L’unico modo per evitarlo è quindi assicurarsi che tra i testi di partenza e quelli generati non ci siano punti di collegamento, dando una nuova e inattesa speranza al settore giornalistico.

Di più su questi argomenti: