Lo scorso 4 settembre una tempesta elettrica ha causato grandi disservizi alla piattaforma Azure. Microsoft è al lavoro per potenziare la sua rete e rimborserà i clienti interessati dai disservizi.

Il blackout di Azure ha colpito molte aree della Terra

Una nota sul blog ufficiale di Microsoft spiega ciò che è successo lo scorso 4 settembre, giorno in cui si è verificato il più grande blackout di Azure. Il team di ingegneri sta continuando a indagare sull’incidente per fornire un’analisi più dettagliata a breve. Tutti i clienti colpiti dal blackout riceveranno del credito Azure in base a quanto previsto dal contratto con Microsoft nelle dichiarazioni di fatturazione di ottobre.
La causa scatenante dei disservizi è stata una tempesta elettrica che si è abbattuta nel Sud degli Stati Uniti, causando numerosi sbalzi di tensione in un data center di Azure. Nonostante la presenza di soppressori di sovratensione, il sistema di raffreddamento del data center ha subito dei danni e il buffer termico di emergenza non è bastato a contenerli. Gli ingegneri Microsoft hanno dunque dovuto sostituire l’hardware danneggiato, migrare il server e convalidare i dati non danneggiati.

Non è stato possibile inoltre effettuare il failover su un sito di backup:

Abbiamo preso la decisione di lavorare sul ripristino dei dati e non di eseguire un failover su un altro datacenter, poiché un failover avrebbe comportato un’ingente perdita di dati a causa della natura asincrona di replica geografica.

I servizi colpiti sono quasi tutti i servizi di Azure che dipendevano dai server di archiviazione di quel data center:

  • Torage
  • Virtual Machines
  • Application Insights
  • Cognitive Services & Custom Vision API
  • Backup
  • App Service (and App Services for Linux and Web App for Containers)
  • Azure Database for MySQL
  • SQL Database
  • Azure Automation
  • Site Recovery
  • Redis Cache
  • Cosmos DB
  • Stream Analytics
  • Media Services
  • Azure Resource Manager
  • Azure VPN gateways
  • PostgreSQL
  • Application Insights
  • Azure Machine Learning Studio
  • Azure Search
  • Data Factory
  • HDInsight
  • IoT Hub
  • Analysis Services
  • Key Vault
  • Log Analytics
  • Azure Monitor
  • Azure Scheduler
  • Logic Apps
  • Databricks
  • ExpressRoute
  • Container Registry
  • Application Gateway
  • Service Bus
  • Event Hub
  • Azure Portal IaaS Experiences
  • Azure Batch
  • Service Fabric and Visual Studio Team Services (VSTS)

La maggior parte dei disservizi è stata mitigata il giorno dopo, anche se la piena operatività è tornata il 7 settembre. La zona colpita non è stata solo quella del Sud degli Stati Uniti a causa di resilienza insufficiente per Azure Service Manager; i disservizi si sono dunque diffusi in tutto il mondo.

I dirigenti Microsoft sono alla ricerca di nuovi metodi per migliorare la resilienza architettonica in seguito al blackout di Azure; un’analisi dettagliata dell’hardware e dei sistemi di data center e una revisione di ogni servizio di Azure Service Manager dovrebbero aiutare a proteggere in futuro l’infrastruttura Microsoft da nuove problematiche.

Avete riscontrato anche voi disservizi durante il più grande blackout di Azure? Fatecelo sapere nei commenti.

Articolo di Windows Blog Italia
Fonte | Microsoft