Google creative commons
Cattivi scienziati
La poesia mette in crisi i sistemi di sicurezza dei modelli linguistici
Ci sono alcune categorie di richieste che i modelli linguistici rifiutano, dall'istruzione di come suicidarsi a come costruire un ordigno artigianale. Ma se la stessa richiesta compare nella sua veste poetica, tantissimi modelli cominciano a fornire risposte
Un gruppo di ricercatori italiani, di DEXAI, della Sapienza e del Sant’Anna di Pisa, ha deciso di verificare in modo diretto quanto siano affidabili i sistemi di sicurezza dei modelli linguistici contemporanei. Il punto di partenza è questo: esistono alcune categorie di richieste che i modelli dovrebbero assolutamente rifiutare. Istruzioni su come suicidarsi, su come costruire un ordigno artigianale, su come sintetizzare un veleno domestico, su come eludere un controllo fisico o informatico. Sono contenuti che ogni sistema di moderazione classifica come bloccati senza eccezioni. I ricercatori hanno preso tali richieste e creato due versioni di ciascuna. La prima è la versione originale, in italiano e in inglese standard. La seconda è una sua trascrizione in versi: un algoritmo che prende la stessa istruzione pericolosa e la rifrasa come fosse una poesia. Non poesia di qualità, certo — questo non conta affatto — ma rime approssimative, immagini casuali, ritmo incerto. Il contenuto però rimane perfettamente intatto: c’è ancora la formula pericolosa, la procedura proibita, la richiesta che un modello dovrebbe respingere. Cambia solo il modo in cui è costruita stilisticamente e terminologicamente la frase. Questa trasformazione viene poi applicata sistematicamente e presentata a venticinque modelli linguistici diversi. Emerge quindi il risultato centrale. Quando la richiesta è diretta, molti modelli fanno ciò che ci si aspetta: riconoscono che si tratta di istruzioni dannose e rifiutano di rispondere.
Quando la stessa identica richiesta compare nella sua veste poetica, una percentuale altissima di modelli inizia invece a fornire risposte. Non si tratta di casi sporadici, ma di un cedimento riproducibile: più della metà delle versioni poetiche ottiene la collaborazione del modello anche quando la versione prosaica è stata categoricamente rifiutata. Anche le poesie generate automaticamente — senza alcun intervento umano — riescono a passare quasi la metà delle volte. Questo risultato, che potrebbe sembrare bizzarro se non si conosce come funziona un modello linguistico, diventa perfettamente logico nel momento in cui lo si inserisce nella sua cornice tecnica. Un LLM non “capisce” il contenuto di ciò che legge. Non riconosce un concetto pericoloso in quanto concetto; non individua un’istruzione per ferirsi come tale perché ne ha compreso il significato profondo. Un LLM riconosce pattern statistici. Associa token a token in base alle frequenze, alle co-occorrenze e alle traiettorie probabilistiche apprese durante l’addestramento. Le sue salvaguardie funzionano esattamente allo stesso modo: non leggono il contenuto, ma intercettano configurazioni linguistiche che, nel corpus, sono apparse in contesti pericolosi.
Quando il testo viene trasformato in poesia, la struttura statistica cambia. Gli stessi concetti — anche i più rischiosi — vengono avvolti in una distribuzione di token diversa, che rompe il profilo linguistico tipico delle richieste vietate. La forma poetica, con le sue oscillazioni stilistiche, altera proprio quegli indizi superficiali che i filtri usano per riconoscere il pericolo. Il modello non “vede” più la categoria semantica della domanda, perché quella categoria non è mai stata realmente vista: vede solo un pattern, misurato su diverse grandezze aggiornate probabilisticamente durante la fase di apprendimento. Un pattern che adesso non c’è più. Il risultato non dimostra soltanto che i sistemi di sicurezza sono aggirabili — questo già lo si sapeva. Dimostra anche, in un modo che a me pare davvero efficace, quello che gli esperti dicono da sempre: i modelli linguistici non hanno accesso al significato, non hanno cognizione e non sono intelligenti nel senso umano. Non interpretano una richiesta come “istruzione per ferirsi”: reagiscono a una firma linguistica che, nel loro spazio statistico, corrisponde a quel tipo di contenuto. Cambia la firma, cambia la reazione. Il modello diventa accondiscendente non perché è stato ingannato, ma perché, letteralmente, non riconosce più ciò che sta guardando. E dunque la fragilità non è un incidente, ma una conseguenza diretta dell’architettura.
Non è un errore da correggere con una patch, ma la manifestazione perfettamente coerente di un meccanismo che non comprende, non interpreta, non vede concetti: collega token e calcola proprietà numeriche in uno spazio probabilistico. Se il modo in cui si formula una richiesta cambiano a sufficienza le coordinate dei token (per approssimare diciamo le parole) in questo spazio probabilistico, il modello procede come se fosse davanti ad una richiesta completamente diversa, anche quando semanticamente è la stessa. L’ironia, a quel punto, è involontaria: mentre si costruiscono strati sempre più sofisticati di filtri per impedire ai modelli di dare istruzioni per nuocere, basta un algoritmo che “verseggia” come un adolescente distratto per mandare tutto all’aria. E il risultato — pulito, replicabile, quasi didattico — finisce per mostrare in modo inequivocabile la verità che chiunque conosca gli LLM dà per scontata: la sicurezza costruita su modelli che non comprendono il contenuto è inevitabilmente vulnerabile a qualunque trasformazione che alteri le statistiche superficiali del testo. Anche quando quella trasformazione non cambia nemmeno di una virgola il significato reale.