En lo que ha sido un suceso semanal en diciembre de 2021, AWS experimentó otra interrupción que derribó importantes aplicaciones y servicios como Slack, la plataforma de seguimiento de ubicación Life360, Grindr, la aplicación McDonalds y Epic Games Store, junto con juegos populares como Fall Guys.
El momento de la interrupción no podría haber sido mucho peor para los usuarios de Slack de la costa este, ya que los informes comenzaron a aumentar justo antes de las 7 a. m. EST, cuando muchos estaban iniciando sesión durante el día. En cuestión de minutos, AWS página de estado se actualizó para confirmar que la compañía había detectado un corte de energía “dentro de un único centro de datos dentro de una única zona de disponibilidad (USE1-AZ4) en la región US-EAST-1”.
A pesar de la naturaleza relativamente localizada del apagón, el impacto en el servicio Elastic Computing (EC2) de Amazon fue bastante catastrófico en el corto plazo, y AWS recomendó que cualquier cliente capaz debería “fallar” en zonas de disponibilidad no afectadas.
Los esfuerzos de restauración comenzaron rápidamente y AWS informó avances en la restauración de la energía dentro de los 18 minutos posteriores a su confirmación inicial. Sin embargo, el proceso de restauración continuó durante varias horas más hasta que AWS notó que la energía se había restablecido por completo a las 9:51 a. m. EST. Incluso entonces, la página de soporte de la compañía advirtió que algunos problemas de conectividad de red continuaron persistiendo en una parte de las instancias EC2 afectadas. También reveló que algunos clientes de su servicio de almacenamiento EBS se vieron afectados por un “rendimiento IO degradado” durante la interrupción.
A pesar del aparente patrón de cortes que surgieron durante diciembre, los tres incidentes tienen muy poco en común. El primero, el 7 de diciembre, también afectó a la región US-EAST-1, pero se relacionó con un problema de escalamiento de capacidad de red automatizada en lugar de un corte de energía. El segundo tiempo de inactividad ocurrió en todo el país en las regiones US-WEST-1 y WEST-2 y estuvo relacionado con un problema de conectividad de red.
Queda por ver si existe una razón subyacente para el repentino aumento en los tiempos de inactividad de AWS o si la compañía acaba de tener una racha de muy mala suerte. Sin embargo, es casi seguro que las aplicaciones, servicios, juegos y sitios web que han llegado a depender de AWS para su propia estabilidad están comenzando a analizar detenidamente el impacto que estas interrupciones están teniendo en sus propios resultados.