El informe resume una falla en la aplicación SIR que impidió el acceso y mantenimiento de sesiones. La falla se debió inicialmente a problemas de conectividad entre servidores de aplicación y bases de datos, luego a sesiones duplicadas en el balanceador de carga. Tras reiniciar componentes como el servidor de base de datos, balanceador e iniciar aplicaciones, el servicio fue restablecido.
1. Bogotá, Colombia Ver 4.0 04-08
GARS
INFORME DE INCIDENTE
Incidente No IM577333 Avance de Informe No FINAL
Zona de Evento BOGOTA Fecha y Hora de Evento 19/06/2013 07:15
Evento Reportado por ETB Fecha y Hora de Solución 19/06/2013 12:52
Tipo de Evento
Falla conexión al aplicativo SIR
Descripción de Evento
No se tiene operatividad de la aplicación SIR, se registran alarmas del puerto 7778 en los servidores de aplicación.
Avances
Día Hora Descripción del Avance
07:15
Se recibe reporte en Mesa Funcional de la oficina Espinal indicando que no se puede loguear en el
aplicativo SIR.GLPI N° 39459
07:30
Se realizan pruebas desde la Mesa de Ayuda Funcional las cuales no son satisfactorias, se procede
a escalar a los grupos de Soporte
08:00
Realizando las verificaciones desde los servicios de aplicación (jboss) no se identifica conexión
entre estos servidores y los de bases de datos.
08:30
Se realizan las pruebas de conectividad tomando como punto de partida uno delos servidores de
aplicación hacia el servidor SNRDB3 de base de datosencontrando que este no responde,al
intentar realizar las verificaciones pertinentesse encuentra que no permite el acceso a nivel de
Sistema Operativo, se procede a tomar control de este equipo a través de HMC.
Se restablece el servicio en el servidor SNRDB3 después de su reinicio ya que se encontró falla en
el file system /varde este equipo, se creó caso con el fabricante IBM.P2DXXC7
Servicios Afectados
Superintendencia de Notariado y Registro - Hosting Dedicado SIR
2. Bogotá, Colombia Ver 4.0 04-08
GARS
09:00
Se realizan nuevamente las pruebas de conexión desde los servidores de aplicación hacia los
servidores de base de datos encontrando que no son exitosas, por lo cual se inicia eldiagnostico en
la parte de enrutamiento configurado en los servidores de aplicaciones y verificaciones a nivel de
red en el Datacenter.
09:30
Se configuran en los servidores de aplicaciones rutas estáticas hacia los servidores de base de
datos con lo cual se confirma que ya se tiene conexión desde todos los servidores de aplicaciones
hacia los servidores de base de datos, por consiguiente se inician las pruebas funcionales de la
aplicación SIR. Se descartan problemas de conexión de red en el Datacenter.
10:00
El resultado de las pruebas muestra que la aplicación SIR se conecta pero no mantiene la sesión,
esta se desconecta, se continúa revisando los elementos de la aplicación SIR.
10:30
Dado que el servicio continúa en falla se decide realizar marcha atrása las configuraciones en las
rutas estáticas aplicadas a los servidores de aplicaciones.
Se realizan las pruebas de conectividad hacia los servidores de base de datos desde los servidores
de aplicación encontrando que no se tiene conexión.
11:00
Se realiza la revisión del esquema de balanceo del aplicativo SIR el cual evidencia la conexión lógica
de los servidores de aplicación. Al verificar que el servicio no mantiene las sesiones de conexión se
desplaza personal técnico al Datacenter con el fin de efectuar revisión directamente de los equipos
en sitio.
11:30
Se realiza reinicio de la interfaz del Balanceador instalado en el Datacenter para los servidores de
aplicaciones ya que las sesiones de los miembros del pool de balanceo se duplicaron generando
intermitencias en la conexión.
11:45
Se realizan pruebas de conectividad entre los servidores de aplicación y bases de datos con
resultados satisfactorios, se solicita el inicio de pruebas funcionales.
12:10
La Mesa de Ayuda Funcional informa que las pruebas no son exitosas, se procede a realizar el
reinicio controlado en los servidores de aplicación.
12:25
Se logra funcionalidad del aplicativo sobre uno de los servidores de aplicación, se procede a iniciar
pruebas funcionales sobre este y se continúa con el procedimiento en los restantes.
12:40
Se corrobora que todos los servidores de aplicaciones están operativos, se realizan pruebas
funcionales a la aplicación SIR .
12:52
Las pruebas funcionales fueron exitosas en la aplicación SIR y se confirma con las ORIPs la
normalidad de la operación.
3. Bogotá, Colombia Ver 4.0 04-08
GARS
SOLUCION DE LA FALLA
Se realiza reinicio controlado al servidor de Base de datos SNRDB3 dado que se encontró falla en el file system
/var,luego de esto fue necesario el reinicio de la interface del balanceador debido a que las sesiones de los miembros
del pool de balanceo se duplicaron generando intermitencias en la conexión entre servidores de aplicación y base de
datos, una vez normalizado lo anterior se procedió al reinicio controlado de la aplicación para lograr su correcto
funcionamiento.
ACCIONES DE MEJORA
Se generó ticket con el fabricante IBM dada la falla presentada con el file system /var del servidor SNRDB03.
Se genero ticket con el fabricante F5 debido a la falla presentada en el balanceador de carga (0622 (AFINA F5))
Se requiere disponer de mecanismos que permitan escalar la falla al fabricante Red Hatque se detectó de acuerdo al
reporte de falla del 6 de Mayo 2013.
Estado Actual: Resuelto
Evento Atendido por:ETB– INTEK
VoBo Ingeniero: David Popayán P.
En la Cultura ETB, ¡Entendemos las necesidades de nuestros clientes y les ofrecemos soluciones integrales,
buscando relaciones de largo plazo!