Noticias

Un error de mantenimiento causó la interrupción de 6 horas de Facebook

Un error durante el mantenimiento de rutina en la red de centros de datos de Facebook provocó el colapso de su sistema global el lunes durante más de seis horas, lo que provocó un torrente de problemas que retrasaron las reparaciones, dijo la compañía el martes.

La interrupción fue la más grande que Downdetector, una empresa de monitoreo web, dijo que había visto. Bloqueó el acceso a aplicaciones para miles de millones de usuarios de Facebook, Instagram y WhatsApp, intensificando aún más las semanas de escrutinio para la compañía de casi 1 billón de dólares. En una audiencia en el Senado de Estados Unidos el martes, un ex empleado convertido en denunciante acusó a Facebook de anteponer las ganancias a la seguridad de las personas, lo que la compañía niega. En una publicación de blog, el vicepresidente de ingeniería de Facebook, Santosh Janardhan, explicó que los ingenieros de la compañía emitieron un comando que desconectaba involuntariamente los centros de datos de Facebook del resto del mundo.

Los sistemas de Facebook están diseñados para auditar comandos para evitar errores, pero la herramienta de auditoría tenía un error y no pudo detener el comando que causó la interrupción, dijo la compañía. La interrupción no fue causada por una actividad maliciosa, agregó. Si bien los usuarios perdieron el acceso a una de las aplicaciones de mensajería más populares del mundo (WhatsApp tiene más de 2 mil millones de usuarios), los empleados también fueron bloqueados de las herramientas internas.

La interrupción eliminó las herramientas que los ingenieros normalmente usarían para investigar y reparar tales interrupciones, lo que dificulta aún más la tarea, dijo Facebook. La compañía dijo que envió un equipo de ingenieros a la ubicación de sus centros de datos para intentar depurar y reiniciar los sistemas.

Sin embargo, a la empresa le tomó más tiempo conseguir que los ingenieros trabajaran en los servidores debido a la alta seguridad física y del sistema implementada. Incluso después de que se restauró la conectividad de la red a los centros de datos, Facebook dijo que le preocupaba que un aumento en el tráfico hiciera que sus sitios web y aplicaciones colapsaran.

Pero debido a que la compañía había realizado simulacros para prepararse para tales situaciones, el acceso a sus servicios regresó con relativa rapidez. “Cada fracaso como este es una oportunidad para aprender y mejorar”, escribió Janardhan. “De ahora en adelante, nuestro trabajo es … asegurarnos de que eventos como este sucedan lo menos posible”.

Fuente: Reuters

Responder

Por favor, inicia sesión con uno de estos métodos para publicar tu comentario:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Salir /  Cambiar )

Google photo

Estás comentando usando tu cuenta de Google. Salir /  Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Salir /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Salir /  Cambiar )

Conectando a %s