Molti utenti, durante la giornata di ieri hanno lamentato difficoltà nel collegarsi a Facebook e lo stesso sito ha ammesso di avere problemi di latenza con le sue API anche se non è stato chiarito cosa potesse provocare il disservizio.
All'inizio il problema sembrava legato anche ad un guasto avuto da Qweist, uno dei suoi fornitori di banda, nell'Indiana ma poi Facebook ha spiegato cosa abbia provocato l'interruzione, definita dalla stessa società la peggiore in oltre quattro anni.
Si tratta, invece, di un problema creato dagli stessi operatori di Facebook e dovuto ad una modifica per automatizzare la correzione dei valori errati all'interno dei parametri configurati nella cache.
In tal modo ogni singolo client ha visto il valore non valido ed ha cercato di risolvere il problema. La risoluzione del problema prevedeva che venisse fatta una richiesta ad un cluster di database che è stato rapidamente sopraffatto da centinaia di migliaia di richieste al secondo. A peggiorare le cose la richiesta di fix è anch'essa interpretata come un errore e ciò ha voluto significare che anche dopo che il problema era stato fixato, il flusso delle query è continuato, creando un ciclo di feedback che non permetteva di recuperare il database. Veramente a questo punto gli operatori di Facebook si sono trovati in una situazione disperata per cui hanno deciso, che l'unica cosa da fare fosse spegnere il sito, in tal modo il database si era potuto riprendere e nello stesso tempo è stata fixata la causa che provocava il ciclo di feedback, e gli utenti hanno potuto ricominciare ad accedere normalmente al sito.
La direzione di Facebook si è scusata con i suoi utenti ed ha promesso di gestire le cose in modo di non arrivare a situazioni disperate, in futuro.
Nessun commento:
Posta un commento