Perché non posso tradurre lo tsonga?

In Africa si parlano migliaia di lingue. Si stima che siano tra le 1.250 e le 2.100. Ma se cercate sui principali sistemi di traduzione online, noterete che le lingue di derivazione europea o asiatica sono infinitamente di più. Google Translate, il principale traduttore online del mondo, consente di tradurre dall’italiano al gallese, parlato da 700 mila persone, ma non dall’italiano allo tsonga, parlato da 12 milioni di persone. Ci sono molte ragioni politiche per questa situazione, ma anche tecniche. I ricercatori hanno applicato le tecniche di machine learning alle lingue dell’Africa, ma hanno un gigantesco problema: i dati su cui lavorare (dataset) sono troppo scarni. Un’intelligenza artificiale, per funzionare a dovere, ha bisogno di enormi moli di informazioni, ma queste informazioni sulle lingue africane non esistono o non sono digitalizzate. Due ricercatrici sudafricane, Laura Martinus e Jade Abbott, hanno pubblicato poche settimane fa un paper sul tema – “A Focus on Neural Machine Translation for African Languages” – in cui spiegano che per salvare molte lingue africane dall’estinzione, e soprattutto per salvare molti cittadini africani dall’essere tagliati fuori dal mondo, bisogna ampliare i dataset e scrivere algoritmi ad hoc. Questa è una sfida grande, non soltanto per i linguisti. Casi come questo mostrano che c’è molto lavoro da fare per estendere a tutti i benefici dell’AI.