Informe sobre los problemas en los servicios de Second Life

Ayer, 23 de mayo, en el blog oficial de Second Life, Landon Linden explicó clara y detalladamente los problemas con Second Life que han afectado a sus usuarios en estas últimas semanas, sus causas y las acciones tomadas por Linden Lab para solucionarlos.

Esta comunicación pública de Landon Linden, debo reconocer, es realmente una sorpresa y para quienes somos críticos de la falta de comunicación de la empresa para con sus usuarios, representa una luz de esperanza en cuanto puede indicar que el actual CEO intenta cambiar eso para mejor. Ojala que este nivel de comunicación entre la empresa y sus usuarios siga siendo asi y mejore día a día.

Cómo el artículo está en inglés y creyendo que muchos se interesarán por conocer su contenido, ya que explica semi tecnicamente, cuales son los problemas que han aquejado al funcionamiento de Second Life, a continuación les dejo una traducción libre del mismo (digo libre porque no es un traducción textual, sino que en algunos párrafos, hice una traducción del sentido ténico para que fuera mas entendible por el usuario no técnico):


Cuando llegué a Linden Lab hace más de cinco años, Second Life había pasado por un período de crecimiento extremo, y, simplemente, no estaba a la altura de las exigencias técnicas que ese tipo de crecimiento exige. Uno o más cortes de servicio importantes a la semana eran comunes.

En mis primeros meses en la empresa, eliminamos más de un centenar de importantes causas de fallo en el servicio, pero varias causas importantes todavía tenían gran influencia, el abuelo de todas ellas es el servidor principal de base de datos MySQL. A finales de invierno de 2009 sufríamos un corte de la base de datos central un par de veces cada semana.

Con un montón de trabajo duro y un sinfín de noches largas estabilizamos el servicio y empezamos a hacer grandes mejoras en la estabilidad y el rendimiento general de Second Life. Sin embargo, a pesar de nuestras continuas mejoras, y la relativa tranquilidad que éstas han creado, los fantasmas de la deuda técnica y los puntos únicos de fallo todavía se ciernen sobre nuestras operaciones. En las últimas semanas algunos de ellos han golpeado y perturbado Second Life. Tanto es así que quiero explicar los cortes que se han producido, la forma en que los solucionamos, y lo que estamos haciendo para el futuro.

En primer lugar, todavía existe ese clúster del núcleo de base de datos MySQL. Sigue siendo el núcleo de muchas de nuestras funciones centrales. Cuando falla el servidor de escritura se necesita un mínimo de treinta minutos para la promoción de un nuevo servidor en su reemplazo. La promoción en sí es en realidad relativamente rápida, pero sus numerosos servicios dependientes deberán ser detenidos y vueltos a poner en marcha con cuidado para asegurarse de que todos ellos están funcionando correctamente.

En los últimos dos meses, el núcleo de la base de datos MySQL de escritura ha sido golpeado por dos diferentes faltas graves de hardware, que nos llevó a suspender temporalmente la mayoría de las operaciones de Second Life. En cierto sentido, dos grandes fallas de escritura de bases de datos muy juntas es mala suerte, pero no podemos depender de la suerte para garantizar la fiabilidad de Second Life. En un futuro muy cercano, estaremos moviendo el núcleo de escritura del servidor MySQL a una nueva clase de hardware, en la cual los servidores de lectura de producción ya se están ejecutando. mover el servidor de escritura mejorará aún más el rendimiento general de bases de datos y hará que los fallos sean menos frecuentes. No resuelve, por supuesto, la raíz del problema del problema del fallo de punto único por lo que en los próximos días, semanas y meses estaremos reduciendo aún más el impacto de las fallas de la base de datos. Esto incluye la mejora constante en el proceso de rotación, quitar más funciones del clúster de base de datos, y reducir aún más el número de características que dependen del servidor único de escritura.

Sin embargo, la base de datos central de MySQL, no ha sido nuestro único problema recientemente. Hace unas semanas hubo un ataque de denegación distribuída de servicios (1) sobre uno de nuestros proveedores de servicio de upstream (2) que afectó a la mayor parte de sus clientes, incluyéndonos, y que se hizo que algunos usuarios no pudieran utilizar nuestros servicios. Desde entonces, hemos mitigado el potencial impacto a futuro de este tipo de ataque mediante la adición de un proveedor adicional. También se han producido fallos de hardware en la infraestructura de búsqueda del mercado en línea (3) que han impactado en el sitio web del mismo, un problema en el que continuamos trabajando para resolverlo. Lo más serio fue el corte de servicio del inicio de sesión durante cuatro horas y media de esta semana.

El martes por la mañana, los usuarios no pudieron entrar en Second Life. La causa principal se originó hace más de diez años en un sistema diseñado para asignar un identificador único para el traspaso de las sesiones de inicio de sesión a las regiones iniciales de los usuarios. A las 7:40 AM, hora del Pacífico, inadvertidamente el sistema se quedó sin posibles números (identificadores) que asignar. Nos tomó cuatro horas encontrar la causa del problema, probar una solución e implementar el cambio. En ese punto, los usuarios ya podían iniciar sesión inmediatamente, pero hicieron falta dos horas adicionales para que los sistemas se asentaran. Cuando decenas de miles de usuarios ingresan masivamente de nuevo en Second Life, después de un corte de servicio, hay que limitar deliberadamente algunos servicios para evitar una saturación.

Tener un fallo oculto en un servicio básico es inaceptable, por lo que estamos haciendo una revisión a fondo del proceso de inicio de sesión para determinar si hay más problemas de este tipo que estén al acecho. Nuestra intención en este punto es también quitar el servicio de asignación de identificador completamente. Eso no fue la única fuente de este último corte de servicio, pero también es un punto de fallo que se debería haber resuelto hace mucho tiempo.

Queremos pedir disculpas por todos los problemas recientes y la frustración que han causado. Nosotros también estamos frustrados y tenemos la intención de hacer que nuestro servicio sea mejor. Pocas cosas me dan más placer que ayudar a que cada día Second Life sea un lugar alegre y divertido. Gracias por vuestra paciencia y apoyo. Nosotros simplemente no podríamos tener una comunidad de usuarios más devotos y es por eso les debemos ser mejores.

Muy Sincenrarmente

Landon Linden


(1) Conocido en el ambiente como ataque DDOS (Distributed Denial Of Service)

(2) Aquí hablamos del servicio de red dedicado al envío de paquetes de información, lo que comúnmente decimos «ancho de banda de subida».

No hago ningún comentario al respecto, ya que lo dicho por Landon me parece por demás explicativo y sincero y, desde fuera, analizando los problemas con Second Life en estos últimos días, creo que la información dada es correcta y consistente con todo lo que han padecido los usuarios de este mundo virtual ultimamente.

SaludOS/2

Deja un comentario

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.