Cosa succede se un errore di battitura mette ko la rete

Eugenio Cau

Un “typo” durante un intervento di manutenzione ha messo offline centinaia di migliaia di siti internet, ha rivelato oggi Amazon

Qualche giorno fa, martedì mattina, una parte consistente di internet è venuta giù. Come ha notato The Verge, migliaia di siti importanti come Quora, Trello, IFTTT sono andati improvvisamente offline, lasciando milioni di utenti senza servizi. Altri siti, come Apple, Medium, Slack, Soundcloud e lo stesso The Verge, magari hanno resistito, ma avevano alcune delle loro componenti, per esempio la gestione delle immagini, completamente irraggiungibili. Diversi servizi “smart”, dal termostato intelligente Nest all’assistente per la casa con intelligenza artificiale Alexa hanno faticato a funzionare. In tutto, secondo gli analisti di Similartech, 150 mila siti internet sono diventati irraggiungibili per ore. Perfino il sito Is it down right now? (www.isitdownrightnow.com), che fornisce un servizio di monitoraggio dei siti online e offline ed è la prima meta di tutti gli specialisti quando qualcosa va male, era offline. Su Twitter si sono generate scene di frustrazione, panico, rassegnata ironia.

 

 

La ragione: una parte importante dei server di Amazon, chiamato S3 e che ospita innumerevoli siti internet e servizi, era andata offline. Cosa era andato male? Spesso è un malfunzionamento, un blackout, un incidente nei data center. Più raramente, ma in maniera più inquietante, si può trattare di un attacco hacker. Gli attacchi ai datacenter sono tra i più temuti dagli esperti perché colpiscono i gangli vitali della rete. Ma in questo caso – Amazon lo ha rivelato oggi – il responsabile del gran disastro è stato un typo, un errore di battitura.

 

Durante un intervento di manutenzione programmata del sistema che avrebbe dovuto mettere offline solo alcuni server non fondamentali, ha spiegato Amazon, un tecnico ha digitato male il comando che decide il numero delle macchine da disattivare. Sono andati offline molti più server del previsto, e tra questi alcuni sottosistemi che gestivano operazioni importanti sull’archiviazione e il recupero dei dati. In pratica, è partito un effetto domino che ha mandato offline una bella porzione di internet. Si è reso necessario un “riavvio completo”, che ha richiesto molto tempo e ha reso inaccessibili ancora più servizi. S3 di Amazon è perfettamente capace di tamponare la perdita di qualche server. Ma un riavvio completo di tutto il sistema è stato ingestibile anche per dei sistemi studiati per essere elastici e resilienti.

 

Amazon è il più importante operatore di servizi cloud del mondo. Secondo la società di analisi Gartner, i suoi server ospitano una quantità di dati che è 1,6 volte più grande di quella di tutti i suoi concorrenti messi insieme (in primis Google e Microsoft). Amazon non rilascia numeri sui suoi server, ma nel 2012, èra preistorica del cloud computer, ospitava già l’1 per cento di tutto internet, ha scritto Wired. Da allora, il suo business cloud è cresciuto molto, e così la sua pervasività nella struttura della rete. Se Amazon va offline, in pratica, internet è devastato, e il fatto che a combinare il disastro sia stato un banale errore di battitura è particolarmente significativo.

 

Amazon ha annunciato che renderà i suoi server ancora migliori, e ha dichiarato guerra ai typo, implementando meccanismi per impedire che un numero digitato male possa fare tanti danni. Ma il piccolo caso di S3 offre più di una lezione. La prima, e lo si ripete tutte le volte che qualcosa del genere succede, è che le nostre vite dipendono dal cloud in una maniera sempre crescente e soprattutto sempre più reale. Il problema non è tanto se smette di funzionare l’email per qualche ora, ma piuttosto se a dare problemi iniziano a essere i termostati smart (le case restano al freddo) o gli assistenti per la domotica, che spesso controllano l’illuminazione, i sistemi di sicurezza e altri elementi importanti delle abitazioni più nuove. Insomma, il cloud può creare danni “veri” quando non funziona o funziona male. La seconda lezione è che questo sistema da cui dipendiamo in maniera crescente è eccezionalmente fragile. La terza lezione è che per mettere ko questo sistema fragile non servono incendi o terremoti, non serve nemmeno un cyberattacco russo. Basta un pizzico di cybersbadataggine.

Di più su questi argomenti:
  • Eugenio Cau
  • E’ nato a Bologna, si è laureato in Storia, fa parte della redazione del Foglio a Milano. Ha vissuto un periodo in Messico, dove ha deciso di fare il giornalista. E’ un ottimista tecnologico. Per il Foglio cura Silicio, una newsletter settimanale a tema tech, e il Foglio Innovazione, un inserto mensile in cui si parla di tecnologia e progresso. Ha una passione per la Cina e vorrebbe imparare il mandarino.