Imagen: Getty Images

Microsoft dice que una actualización en un enrutador estuvo detrás de una gran interrupción de varias horas que afectó a la red de área amplia (WAN) de Microsoft que hizo que Azure, las aplicaciones de Microsoft 365 y Power Platform fueran inaccesibles para los clientes de todo el mundo la semana pasada.

La interrupción de varias horas del miércoles pasado afectó a Microsoft Teams, Exchange Online, Outlook, SharePoint Online, OneDrive for Business, Microsoft Graph, PowerBi, M365 Admin Portal, Microsoft Intune, Microsoft Defender for Cloud Apps y Microsoft Defender for Identity.

Antes de la interrupción, Microsoft había advertido a los clientes que una actualización planificada podría causar latencia o tiempos de espera a partir de las 07:05 UTC del miércoles cuando los clientes intentaran conectarse a recursos de Azure en regiones públicas de Azure, Microsoft 365 y Power BI. Pero cuando los trabajadores en Europa comenzaron el día, la actualización causó más que problemas de latencia y comenzó a afectar los dispositivos de red en la WAN de Microsoft, lo que interrumpió las conexiones entre los servicios en los centros de datos, así como las conexiones en ExpressRoute, la red privada de Microsoft para que los clientes transfieran datos entre ellos. centros de datos.

Microsoft dice en su revisión preliminar posterior al incidente que la mayoría de las regiones y servicios se habían recuperado a las 09:00 UTC del miércoles, pero no se recuperaron por completo hasta las 12:43 UTC del 25 de enero. Según Microsoft, la interrupción también afectó a los servicios en la nube de Azure Government que dependían de la nube pública de Azure.

Además: Los mejores servicios de almacenamiento en la nube: ¿Valen la pena los gratuitos?

“Determinamos que un cambio realizado en la red de área amplia (WAN) de Microsoft afectó la conectividad entre clientes en Internet con Azure, la conectividad entre regiones, así como la conectividad entre instalaciones a través de ExpressRoute”, dice Microsoft en su informe descubierto por primera vez por Bleeping. Computadora.

“Como parte de un cambio planeado para actualizar la dirección IP en un enrutador WAN, un comando dado al enrutador provocó que enviara mensajes a todos los demás enrutadores en la WAN, lo que resultó en que todos volvieran a calcular sus tablas de adyacencia y reenvío. Durante Durante este proceso de nuevo cálculo, los enrutadores no pudieron reenviar correctamente los paquetes que los atravesaban. El comando que causó el problema tiene comportamientos diferentes en diferentes dispositivos de red y el comando no se había examinado utilizando nuestro proceso de calificación completo en el enrutador en el que estaba. ejecutado.”

Los sistemas de monitoreo de Microsoft detectaron problemas con el servicio de nombres de dominio (DNS) y WAN a las 07:12 UTC. Después de revisar los cambios recientes, mientras se realizaba la recuperación automática a las 08:20 UTC, los ingenieros descubrieron el “comando problemático” detrás de los problemas.

Además: el gasto en tecnología aumentará en 2023. Y este viejo favorito sigue siendo una máxima prioridad

“Debido al impacto de la WAN, nuestros sistemas automatizados para mantener la salud de la WAN fueron pausados, incluidos los sistemas para identificar y eliminar dispositivos en mal estado y el sistema de ingeniería de tráfico para optimizar el flujo de datos a través de la red”, dijo Microsoft.

“Debido a la pausa en estos sistemas, algunas rutas en la red experimentaron una mayor pérdida de paquetes desde las 09:35 UTC hasta que esos sistemas se reiniciaron manualmente, restaurando la WAN a condiciones operativas óptimas. Esta recuperación se completó a las 12:43 UTC”.

Microsoft dice que ahora ha “bloqueado la ejecución de comandos de gran impacto en los dispositivos” para mitigar sucesos futuros. Ahora también requiere que toda la ejecución de comandos en los dispositivos de la red siga pautas de cambio seguras.

Microsoft planea publicar un informe final posterior al incidente dentro de las próximas dos semanas.