Amazon Web Services (AWS) se disculpó con los clientes afectados por una interrupción masiva el lunes, después de dejar fuera de línea algunas de las plataformas más grandes del mundo.

Están Snapchat, Reddit y Lloyds Bank Se informa que más de 1.000 sitios y servicios están caídos Como resultado de problemas en el corazón de las operaciones del gigante de la computación en la nube en Virginia del Norte, EE. UU., el 20 de octubre.

En un resumen detallado de lo que causó la interrupción, Amazon indicó que sus sistemas internos no pudieron conectar sitios web con las direcciones IP utilizadas para encontrarlos.

“Pedimos disculpas por el impacto que este evento ha tenido en nuestros clientes”, dijo la compañía.

“Sabemos lo críticos que son nuestros servicios para nuestros clientes, sus aplicaciones y usuarios finales, y sus negocios.

“Sabemos que este evento afectó a muchos clientes de manera significativa”.

Si bien muchas plataformas, como los juegos en línea Roblox y Fortnite, volvieron a funcionar a las pocas horas de la interrupción, algunos servicios estuvieron inactivos durante períodos prolongados.

Esto incluyó a Lloyds Bank, que vio a algunos clientes experimentar problemas hasta el mediodía, así como a la aplicación de pagos estadounidense Venmo y al sitio de redes sociales Reddit.

La interrupción tuvo un impacto de gran alcance y, según se informa, incluso interrumpió el sueño de algunos propietarios de camas inteligentes.

Eight Sleep, que fabrica “cápsulas” para dormir con opciones de temperatura y elevación que requieren una conexión a Internet, dijo que está trabajando para “superar a prueba” sus colchones. Algunos incluso se quedan atascados por sobrecalentamiento y en posición inclinada..

Muchos expertos dijeron que la interrupción mostró cuánto depende la tecnología del dominio de Amazon en el sector de la computación en la nube, un mercado acaparado en gran medida por AWS y Microsoft Azure.

La compañía dijo que “haremos todo lo que podamos” para aprender del evento y mejorar su disponibilidad.

En su extenso resumen del apagón del lunesAmazon dijo que tuvo problemas en US-East-1, su mayor grupo de centros de datos que alimentan gran parte de Internet.

Los procesos críticos en la base de datos de la región que almacenan y administran registros del Sistema de nombres de dominio (DNS) que permiten a las computadoras interpretar las URL de los sitios web no están sincronizados de manera efectiva.

Según Amazon, esto desencadenó una “condición de carrera latente” o, en otras palabras, descubrió un error latente que ocurrió en una secuencia improbable de eventos.

Un retraso en el proceso en la madrugada del lunes tuvo un efecto dominó que provocó que sus sistemas dejaran de funcionar correctamente.

Gran parte de este proceso está automatizado, lo que significa que se lleva a cabo sin intervención humana.

El Dr. Junade Ali, ingeniero de software y miembro del Instituto de Ingeniería y Tecnología, dijo a la BBC que la principal causa de los problemas de Amazon era la “automatización incorrecta”.

“La razón técnica específica fue que una automatización defectuosa había roto los sistemas internos de ‘libreta de direcciones’ en los que confiaba la región”, dijo.

“Así que no pudieron encontrar ninguno de los otros sistemas clave”.

Al igual que otros, el Dr. Ali cree que esto pone de relieve la necesidad de que las empresas se vuelvan más sólidas y diversifiquen sus proveedores de servicios en la nube.

“En este caso, es posible que aquellos que tienen un único punto de falla en esta región amazónica sean desconectados”, dijo.

Enlace de origen