LaPresse
incertezze e ombre
Le dimissioni da Anthropic del capo della sicurezza e il dilemma: fare bene o fare veloci?
Nella lettera di commiato di Mrinank Sharma si allude a un "mondo in pericolo" per via dell'industria dell'AI. La frase suona potente nella sua elasticità e può essere letta come ammonimento etico, oppure come allarme, o ancora come ammissione di impotenza
Le dimissioni di Mrinank Sharma dall’azienda di AI californiana Anthropic, di cui guidava il team della sicurezza, sono il prodotto perfetto dei nostri tempi: un mix di generiche accuse complottiste, catastrofismo doomista e l’indiretta generazione di hype sulla tecnologia. Nella lettera di commiato ai suoi colleghi, Sharma allude infatti a un “mondo in pericolo”, a un’epoca di policrisi che si sommano, e chiude affidandosi a un verso poetico, per aumentare la dose mistica e di ambiguità. La notizia arriva in un momento in cui Anthropic, anche col suo recente spot al SuperBowl, è all’acme del suo sforzo di posizionamento tra le aziende percepite come più attente al lato etico dell’AI. Nel giro di qualche giorno però sono arrivate tre dimissioni di un certo peso, contribuendo a creare una narrazione ben diversa da quella sperata dai fratelli Amodei che guidano l’azienda.
Nei giorni in cui il mondo scopre gli Epstein files, e ognuno di noi li esperisce in modo diverso e frammentato, a seconda della dieta informativa che gli algoritmi hanno preparato per noi, Sharma si accoda dunque allo Zeitgeist, presentando una lettera priva di accuse circostanziate, ma che aggiungono incertezze e ombre a un’industria che risulta già ontologicamente difficile da comprendere. Lui stesso la mette su un piano quasi ascetico: quando parla di quanto sia difficile far sì che i nostri valori governino le nostre azioni prima scrive “l’ho visto in me stesso”, e poi afferma che lo ha visto anche dentro l’azienda. La frase suona potente nella sua elasticità, che si presta a essere letta a seconda della predisposizione d’animo del lettore come ammonimento etico, oppure come allarme, o ancora come ammissione di impotenza.
Le dimissioni di Sharma seguono due anni (in termini di AI, un’èra geologica) di lavoro di frontiera, in cui il dimissionario si era concentrato sull’analisi di 1,5 milioni di conversazioni reali con Claude dedicata ai “disempowerment patterns”, le situazioni in cui parlare con un chatbot può deformare la percezione della realtà dell’utente e indirizzare scelte. I casi più gravi del fenomeno restano rari, sotto lo 0,1 per cento, ma non inquietano solo a patto di non guardare dove stanno aumentando, ovvero nelle conversazioni su relazioni e benessere emotivo, cioè quelle in cui l’utente è più vulnerabile (nonché il caso d’uso più rilevante del 2025). Il paper descrive episodi di linguaggio compiacente che valida narrative persecutorie, episodi di giudizi morali netti su terze persone, episodi di messaggi “pronti da inviare” che vengono poi spediti quasi senza mediazione. E dentro c’è il dato più pericoloso: le conversazioni più a rischio ricevono valutazioni più alte. Ci piace di più quando l’algoritmo ci asseconda, anche quando quell’assecondare ci restringe.
E a questo punto che torna il dilemma che credevamo archiviato con la Facebook del “move fast and break things”: fare bene o fare veloci. Vent’anni dopo, la velocità è diventata quasi improcessabile ai cervelli umani, e necessita dunque di AI per dare un senso (è il caso, ancora, degli Epstein files e dei suoi 3 milioni di documenti, che possono essere scandagliati solo tramite l’ausilio delle macchine). Oggi la fretta viene vestita da necessità geopolitica: “Se rallentiamo, la Cina ci supera”, e la scorciatoia diventa patriottismo industriale. Con Trump, nel discorso pubblico americano, è cresciuta l’idea di un via libera sulla safety in nome della competizione con il principale avversario mondiale: meno vincoli, più corsa. Il mantra “occhio, altrimenti Pechino arriva prima all’Agi” (l’Artificial general intelligence) funziona come un’imprudente scorciatoia argomentativa: trasforma ogni frizione in un lusso, e ogni prudenza in un favore all’avversario. Mentre la chiosa con la citazione integrale della poesia di Stafford dà alla scelta un’aura esistenziale, ma lascia anche ai complottisti di professione un’ulteriore pista, dopo l’uscita di un paper che sostiene che proprio la poesia è uno dei registri di elezione per il jailbreaking (il raggiro delle regole di sicurezza)dei modelli fondativi.
Appoggiandosi a una tecnica ormai consolidata nel settore, la conversazione sui rischi esistenziali contribuisce ovviamente a gonfiare l’hype e le aspettative sulla tecnologia, spesso facendo leva su un giornalismo compiacente. Di certo, è innegabile che un certo problema di allineamento sia presente nei modelli linguistici più avanzati. E se a livello tecnico si fatica a comprendere esattamente cosa succede sotto il cofano, per via dei “comportamenti emergenti” intrinsechi alla tecnologia stessa, diventa oggi prioritario provare a cambiare ciò che viene misurato e ricompensato. In altre parole, se l’utente premia il modello quando lo lusinga, bisogna costruire un sistema di pesi e contropesi che proteggano l’utente stesso anche contro il proprio comprensibile desiderio di essere assecondato. E’ una scelta impopolare e costosa, e proprio per questo fondamentale. Alle aziende di frontiera che si propongono come l’alternativa etica allo sviluppo dei colossi di settore rimane oggi il compito di farsene carico.
screenshot - cose dai nostri schermi