Google creative commons
Cattivi scienziati
Un piccolo fraintendimento può alterare la distribuzione delle citazioni scientifiche su scala globale
Il sistema di bibliometria non ha meccanismi interni di controllo capaci di diagnosticare gli errori. Il risultato, riportato in un preprint del fisico Kriváchy, è che la distorsione potrebbe aver riguardato decine di migliaia di articoli e milioni di citazioni nel corso di oltre un decennio
Alcuni ricercatori che studiano l’evoluzione del piumaggio degli uccelli hanno presto iniziato a sospettare che qualcosa non tornasse nelle loro pubblicazioni. Uno dei loro articoli, pubblicato nel 2018 su una rivista molto prestigiosa del gruppo Springer Nature, risultava improvvisamente tra i più citati dell’intero volume. Secondo i sistemi bibliometrici, aveva accumulato più di settemila citazioni. Un numero fuori scala per quel settore scientifico. Quando gli autori hanno controllato alcune delle citazioni elencate nei database, hanno scoperto qualcosa di ancora più sorprendente: molti degli articoli che avrebbero dovuto citarli non li citavano affatto. Nei riferimenti finali non compariva alcuna traccia del loro lavoro. Le citazioni esistevano nei contatori, ma non nelle bibliografie reali.
Questo episodio ha spinto un ricercatore, il fisico Tamás Kriváchy, a indagare da dove nascesse una distorsione così macroscopica. Il risultato è un preprint, appena pubblicato, che tenta di spiegare il fenomeno partendo da un dettaglio tecnico spesso ignorato: il formato dei metadati delle riviste scientifiche. Da oltre dieci anni molte riviste del gruppo Springer Nature non usano più le classiche pagine numerate: ogni articolo ha invece un “numero d’articolo”, un identificatore digitale che sostituisce la paginazione tradizionale. Fin qui nulla di strano. Il problema nasce dal fatto che in alcuni campi dei metadati, quelli che dovrebbero indicare le pagine, compare lo stesso una sequenza come “1–8”, un residuo della vecchia struttura o un formato non armonizzato.
I software che leggono automaticamente questi metadati — quelli utilizzati dai grandi database di citazioni — interpretano quel “1–8” come un intervallo di pagine e, come da logica tradizionale, associano la pagina 1 all’articolo numero 1 del volume. Ogni volta che accade questo, una citazione viene assegnata all’articolo sbagliato. Se il meccanismo si ripete su migliaia di articoli pubblicati in centinaia di numeri, l’effetto diventa enorme. Ed è ciò che emerge dall’analisi di Kriváchy: una distorsione che potrebbe aver riguardato decine di migliaia di articoli e milioni di citazioni nel corso di oltre un decennio.
È importante essere chiari: si tratta ancora di un preprint, non di uno studio sottoposto a revisione indipendente. Alcune parti dell’analisi potranno essere confermate, altre ridimensionate. Anche l’editore coinvolto ha risposto con cautela, sostenendo che i dati potrebbero essere parziali o mal interpretati. La prudenza è necessaria. Tuttavia, nei commenti di vari ricercatori emergono osservazioni che vanno oltre il singolo episodio. Alcuni hanno notato che lo stesso tipo di anomalia — un’interpretazione ambigua dei campi dei metadati — compare anche in riviste di altri editori. Altri hanno ricordato che Google Scholar, Scopus e Web of Science hanno algoritmi propri per interpretare i metadati e che anche piccoli cambiamenti nei formati possono produrre effetti a cascata. Non è detto che l’errore descritto nel preprint sia l’unico in circolazione. È proprio questo il punto: un caso concreto ha permesso di vedere quanto sia fragile l’intero sistema.
Ed è qui che la vicenda smette di essere un aneddoto tecnico. La bibliometria si presenta come un meccanismo oggettivo, fondato su numeri che dovrebbero rappresentare fedelmente l’impatto della ricerca. Ma questi numeri non nascono dal lavoro dei ricercatori: nascono da una catena automatica di passaggi tecnici, che va dagli editori ai registri dei DOI, e da lì ai database che contano le citazioni. È una catena costruita per funzionare senza intervento umano, basata sulla fiducia in un insieme di standard che nel tempo si sono rivelati più fluidi di quanto si fosse disposti ad ammettere.
Il caso degli ornitologi, con i suoi settemila riferimenti fantasma, mostra in modo concreto ciò che molti sospettavano da anni: basta un singolo baco, in questo caso un fraintendimento in un campo dei metadati, per alterare la distribuzione delle citazioni su scala globale. Ma quello che conta di più è che nessuno se ne accorge finché un ricercatore non nota un’anomalia troppo evidente per essere ignorata. In altre parole, il sistema non ha meccanismi interni di controllo capaci di diagnosticare gli errori. Se i dati arrivano da un editore considerato affidabile, i database li accettano. Se i database li accettano, gli indicatori bibliometrici li incorporano. E se gli indicatori li incorporano, gli enti di valutazione li usano. L’errore diventa norma. Anche se il preprint dovesse rivelarsi parzialmente sovrastimato, il punto essenziale non cambia: una parte rilevante della valutazione della ricerca mondiale dipende da pipeline informatiche che nessuno verifica davvero. Un modello che già in teoria presenta limiti profondi — perché riduce la qualità della ricerca a numeri estratti dal contesto — ora mostra anche vulnerabilità tecniche capaci di deformare la reputazione scientifica di migliaia di autori.
Ed è qui che il discorso arriva a toccare l’Italia, dove la dipendenza dagli indicatori bibliometrici è l’architrave delle procedure valutative. L’abilitazione scientifica nazionale, le classificazioni dei prodotti della ricerca, le mediane, molti concorsi e una parte significativa delle politiche di finanziamento si basano su numeri che presuppongono un’infrastruttura infallibile. Questo caso mostra che quell’infrastruttura non è infallibile affatto: è porosa, incoerente, mutevole, e soprattutto poco controllata, perché in mano a privati. In Italia la bibliometria è stata invocata come strumento per neutralizzare vecchie distorsioni accademiche — favoritismi, chiusure locali, arbitri non motivati. Ma la soluzione ha introdotto un nuovo problema, ben più vasto: la delega della valutazione a numeri prodotti da strumenti che nessuno governa direttamente, e che oggi sappiamo essere vulnerabili persino a un dettaglio nella formattazione dei metadati.
Invece di correggere l’ingiustizia locale, abbiamo costruito un sistema che genera ingiustizia globale, oltre a deformare e distruggere la pubblicazione scientifica e la documentazione stessa della ricerca. Non è necessario che l’errore in un software sia intenzionale; è sufficiente che avvenga. E quando avviene, nessuno se ne accorge per anni, perché non vi è modo di controllare in maniera semplice un sistema informativo complesso e parzialmente caotico come quello da cui dipendiamo.
La questione non può essere liquidata come un incidente tecnico da risolvere. È un caso che rivela quanto sia urgente ripensare la valutazione della ricerca alla radice. Bisogna restituire spazio alla lettura reale dei lavori, a una responsabilità umana capace di distinguere tra impatto scientifico e artefatti contabili, e a un controllo indipendente delle infrastrutture che producono i dati utili alla valutazione, quali che siano. Finché questo non avverrà, non potremo pretendere che gli indicatori riflettano la qualità della ricerca; rifletteranno, piuttosto, il funzionamento — a volte corretto, a volte distorto — di una macchina troppo complessa per essere lasciata a sé stessa. E questa è la parte essenziale: non basta più criticare la teoria bibliometrica. Dobbiamo riconoscere che anche lo strumento tecnico su cui essa si appoggia è fragile. Un sistema così esposto non può essere la base della reputazione scientifica. Non più.
E adesso, un piccolo dettaglio finale: quanti potrebbero fare ricorso ai TAR, se si dovesse scoprire che il calcolo delle metriche utilizzate per l’abilitazione nazionale ed altri passaggi valutativi era erroneo, a causa di un baco come quello appena documentato nel preprint che stiamo discutendo?