1. Bogotá, Colombia Ver 4.0 04-08
GARS
INFORME DE INCIDENTE
Incidente No IM577333 Avance de Informe No FINAL
Zona de Evento BOGOTA Fecha y Hora de Evento 14/05/2013 07:15
Evento Reportado por ETB Fecha y Hora de Solución 14/05/2013 12:52
Tipo de Evento
Falla conexión al aplicativo SIR
Descripción de Evento
No se tiene operatividad de la aplicación SIR, se registran alarmas del puerto 7778 en los servidores de aplicación.
Avances
Día Hora Descripción del Avance
07:15
Se recibe reporte en Mesa Funcional de la oficina Espinal indicando que no se puede loguear en el
aplicativo SIR. GLPI N° 39459
07:30
Se realizan pruebas desde la Mesa de Ayuda Funcional las cuales no son satisfactorias, se procede a
escalar a los grupos de Soporte
08:00
Realizando las verificaciones desde los servicios de aplicación (jboss) no se identifica conexión entre
estos servidores y los de bases de datos.
08:30
Se realizan las pruebas de conectividad tomando como punto de partida uno de los servidores de
aplicación hacia el servidor SNRDB3 de base de datos encontrando que este no responde, al
intentar realizar las verificaciones pertinentes se encuentra que no permite el acceso a nivel de
Sistema Operativo, se procede a tomar control de este equipo a través de HMC.
Se restablece el servicio en el servidor SNRDB3 después de su reinicio ya que se encontró falla en el
file system /var de este equipo, se creó caso con el fabricante IBM. P2DXXC7
Servicios Afectados
Superintendencia de Notariado y Registro - Hosting Dedicado SIR
2. Bogotá, Colombia Ver 4.0 04-08
GARS
09:00
Se realizan nuevamente las pruebas de conexión desde los servidores de aplicación hacia los
servidores de base de datos encontrando que no son exitosas, por lo cual se inicia el diagnostico en
la parte de enrutamiento configurado en los servidores de aplicaciones y verificaciones a nivel de
red en el Datacenter.
09:30
Se configuran en los servidores de aplicaciones rutas estáticas hacia los servidores de base de datos
con lo cual se confirma que ya se tiene conexión desde todos los servidores de aplicaciones hacia
los servidores de base de datos, por consiguiente se inician las pruebas funcionales de la aplicación
SIR. Se descartan problemas de conexión de red en el Datacenter.
10:00
El resultado de las pruebas muestra que la aplicación SIR se conecta pero no mantiene la sesión, esta
se desconecta, se continúa revisando los elementos de la aplicación SIR.
10:30
Dado que el servicio continúa en falla se decide realizar marcha atrás a las configuraciones en las
rutas estáticas aplicadas a los servidores de aplicaciones.
Se realizan las pruebas de conectividad hacia los servidores de base de datos desde los servidores de
aplicación encontrando que no se tiene conexión.
11:00
Se realiza la revisión del esquema de balanceo del aplicativo SIR el cual evidencia la conexión lógica
de los servidores de aplicación. Al verificar que el servicio no mantiene las sesiones de conexión se
desplaza personal técnico al Datacenter con el fin de efectuar revisión directamente de los equipos
en sitio.
11:30
Se realiza reinicio de la interfaz del Balanceador instalado en el Datacenter para los servidores de
aplicaciones ya que las sesiones de los miembros del pool de balanceo se duplicaron generando
intermitencias en la conexión.
11:45
Se realizan pruebas de conectividad entre los servidores de aplicación y bases de datos con
resultados satisfactorios, se solicita el inicio de pruebas funcionales.
12:10
La Mesa de Ayuda Funcional informa que las pruebas no son exitosas, se procede a realizar el
reinicio controlado en los servidores de aplicación.
12:25
Se logra funcionalidad del aplicativo sobre uno de los servidores de aplicación, se procede a iniciar
pruebas funcionales sobre este y se continúa con el procedimiento en los restantes.
12:40
Se corrobora que todos los servidores de aplicaciones están operativos, se realizan pruebas
funcionales a la aplicación SIR .
12:52
Las pruebas funcionales fueron exitosas en la aplicación SIR y se confirma con las ORIPs la
normalidad de la operación.
SOLUCION DE LA FALLA
3. Bogotá, Colombia Ver 4.0 04-08
GARS
Se realiza reinicio controlado al servidor de Base de datos SNRDB3 dado que se encontró falla en el file system /var,
luego de esto fue necesario el reinicio de la interface del balanceador debido a que las sesiones de los miembros del pool
de balanceo se duplicaron generando intermitencias en la conexión entre servidores de aplicación y base de datos, una
vez normalizado lo anterior se procedió al reinicio controlado de la aplicación para lograr su correcto funcionamiento.
ACCIONES DE MEJORA
Se generó ticket con el fabricante IBM dada la falla presentada con el file system /var del servidor SNRDB03.
Se genero ticket con el fabricante F5 debido a la falla presentada en el balanceador de carga (0622 (AFINA F5))
Se requiere disponer de mecanismos que permitan escalar la falla al fabricante Red Hat que se detectó de acuerdo al
reporte de falla del 6 de Mayo 2013.
Estado Actual: Resuelto
Evento Atendido por: ETB – INTEK
VoBo Ingeniero: David Popayán P.
En la Cultura ETB, ¡Entendemos las necesidades de nuestros clientes y les ofrecemos soluciones integrales,
buscando relaciones de largo plazo!