Continuidad de TI - Estrategias de Disaster Recovery
1. “Gestión de Continuidad en TI”
Lic. Alejandro Melo
Certificado en Continuidad de Negocio (ABCP)
Norberto Figuerola Ciudad de Panamá
noviembre de 2014 1
2. Continuidad del Negocio y DRP TI
• Administración de Crisis
• Imagen Corporativa
• Reclamos - Demandas
• Ingresos
• Mercado
Continuidad
de
Negocio
Respuesta a
Emergencias
BCM
Vidas Humanas
Instalaciones
• Permanencia
• Rentabilidad
• Continuidad
Plan
Recuperación
ante Desastres
(DRP)
Plan de
Continuidad de
Negocio (BCP)
• Operaciones
• Procesos
• Servicios e
Infraestructura
de TI –
Continuidad de
Servicios de TI
noviembre de 2014 2
3. La continuidad del
negocio es parte de la
gestión general del
riesgo en una
compañía y tiene áreas
superpuestas con la
gestión de seguridad y
tecnología de la
información.
Continuidad del Negocio y DRP TI
ISO 31000
ISO 22301
ISO 27000
noviembre de 2014 3
4. Plan de Recuperación ante Desastres (TI)
Un plan de recuperación ante desastres (DRP) es un
proceso documentado o conjunto de
procedimientos para recuperar y proteger la
infraestructura tecnológica de una empresa en caso
de un desastre. Llamamos desastre a cualquier
causa que afecte a la infraestructura (datos,
hardware o software), ya sea natural, intencional o
involuntaria, e impida la normal continuidad del
negocio.
El DRP está incluído en un plan integral de la organización llamado Plan de
Continuidad del Negocio (BCP) que incluye los componentes siguientes:
• Plan de reanudación del Negocio
• Plan de emergencia del Personal
• Plan de continuidad de Operaciones
• Plan de manejo de Incidentes
• Plan de Comunicación y Crisis
noviembre de 2014 4
5. Qué es un Desastre ?
ENFOQUE CONCEPTUAL Y MEJORES PRÁCTICAS
• Cualquier EVENTO MAYOR que afecte el funcionamiento normal de las
operaciones de una empresa.
• Es un evento o suceso impredecible de cierta magnitud, cuyos efectos o
consecuencias ocasionan la pérdida parcial o total de servicios esenciales
para el funcionamiento de las actividades productivas de la empresa por un
lapso prolongado.
• Para mitigar las consecuencias de un desastre, nacen los DRP (Disaster
Recovery Planning), que consisten básicamente en las acciones para
recuperarse en caso de que se presente un desastre. El DRP se utiliza
normalmente en el contexto de operaciones para el procesamiento de datos.
noviembre de 2014 5
6. Relación entre el DRP y el BCP
“The Business Continuity Strategy should principally focus on business
processes and associated issues (e.g. business process continuity, staff
continuity, buildings continuity). Once the Business Continuity Strategy
has been produced, and the role that IT services has to provide within the
strategy has been determined, an ITSCM strategy can be produced that
supports and enables the Business Continuity Strategy. This ensures that
cost-effective decisions can be made, considering all the ‘resources’ to
deliver a business process. Failure to do this tends to encourage ITSCM
options that are faster, more elaborate and expensive than are actually
needed.”
ITIL Service Design V3
IT Service Continuity Management
noviembre de 2014 6
7. Origen de las Amenazas
AMENAZAS A LA CONTINUIDAD DE NEGOCIO
Fraudes
Conmoción Social
Huelgas
Vandalismo
Sabotaje
Terrorismo
Desastres más comunes
• 42% Fallas de HW
• 30% Errores Humanos
• 14% Errores de SW o Datos
• 7% Seguridad
• 5% Robo - Fraudes
Sociales /
Políticas
Fallas Comunicaciones
Seguridad - Virus
Fallas de Suministro
Eléctrico
Caída de Servidores
Fallas Storage
Naturales
Terremotos
Inundaciones
Incendios
Cortes Energía
Incendios Forestales
Incendios
Explosiones
Cortes Energía
Errores Operación
Pérdida de Datos
Sabotaje
Causadas
por el
hombre
Tecnológicas
Amenazas
noviembre de 2014 7
8. 8
Terminología Tradicional en DRP
RPO (Recovery Point Objective) define la
pérdida de datos máxima tolerable que se acepta
ante una situación de desastre. Si no hay pérdida
de datos aceptable, el RPO es cero. Para reducir un
RPO es necesario aumentar la frecuencia de la
copia de seguridad o el sincronismo de datos.
noviembre de 2014
RTO (Recovery Time Objective) es el tiempo de recuperación
objetivo para tener la infraestructura disponible. Determina el
tiempo tolerable para que recuperar los sistemas críticos. Ej:
restaurar los datos de copia de seguridad o corrección de una falla.
Se lleva a cabo por el administrador del sistema, administrador de
la red, el administrador de almacenamiento, etc
El tiempo de recuperación de trabajo (WRT) determina el
tiempo tolerable que se necesita para verificar el sistema, la
integridad de los datos, comprobar las bases de datos y asegurarse
de que las aplicaciones o servicios se están ejecutando bien. Se
lleva a cabo por el administrador de la aplicación, el administrador
de bases de datos, etc. Cuando los sistemas afectados por el
desastre son verificados, se reanuda de nuevo la producción.
La suma de RTO y WRT se define como el tiempo de
inactividad máximo tolerable (MTD), que define
la cantidad total de tiempo que un proceso de negocio
puede ser interrumpido sin causar consecuencias
inaceptables. Este valor debe ser definido por el
director de TI junto con el equipo de gestión de
negocios .
9. Terminología Tradicional en DRP
Ejemplo: un DRP tradicional tiene como objetivo recuperar 5 aplicaciones claves para el negocio,
dentro de las 2 horas después de ocurrido el desastre (RTO), y acepta perder 6 horas de datos
(RPO). El RTO y RPO dependen de las necesidades del negocio y de las posibilidades de
inversión en HW y SW, además de la estrategia de backup y recovery seleccionada.
noviembre de 2014 9
10. La misión principal de un Plan de Recuperación de Desastres es restaurar los sistemas críticos de
negocio a una condición normal o casi normal después de un incidente. Existen tres clásicas estrategias
para definir los sitios de recuperación, y su elección depende de la misión crítica de las aplicaciones, el
RPO y RTO definidos, costos de mantenimiento, comunicaciones, etc.
Cold Standby : Los componentes de hardware y software, acceso a la red, y la restauración de
datos se llevan a cabo de forma manual. Requiere reiniciar aplicaciones en el sitio de copia de
seguridad, así como permitir la redirección de red al nuevo centro de datos. RPO y RTO de días o
semanas. Es el más económico de mantener, pero más caro para recuperar.
10
Tipos de Centros de Recuperación
noviembre de 2014
11. Warm Standby : En este escenario ya se encuentra creado un ambiente de espera mediante un
vínculo estable y una granja alternativa duplicada del centro de datos alternativo. Se debe asegurar de
que se actualiza regularmente mediante el uso de copias de seguridad completas e incrementales. Los
recursos y servicios se pueden activar de forma manual o automática cuando el centro primario queda
fuera de servicio. Esta solución proporciona un mejor RTO y RPO que el modo de espera en frío,
midiéndose en horas a días.
11
Tipos de Centros de Recuperación
noviembre de 2014
12. Hot Standby: En un escenario de recuperación de desastres de espera activa, se configura una granja de
conmutación para que pueda asumir las operaciones de producción casi inmediatamente ante fallos en
el data center primario. La replicación de datos se realiza en forma asincrónica o sincrónica. Por lo
general, el RTO y RPO se aproximan a cero, lo que significa que los datos reflejados en el sitio de
respaldo son exactamente los mismos que en el sitio original. Se requiere que el Hypervisor provea las
herramientas para trabajar en HA.
12
Tipos de Centros de Recuperación
noviembre de 2014
13. DR en ambientes Virtualizados - HA
La Virtualización trajo muchas ventajas sobre ambientes de servidores físicos unicamente.
Los Hypervisores mejoran la disponibilidad del HW y aplicativos, al hacer abstracción de los
recursos, con mayor resilencia y más fácil recuperación. Con la virtualización se puede
configurar clustes de alta disponibilidad que facilita la recuperación de máquinas virtuales
si falla un server físico.
• Vmware vSphere
• Microsoft Hyper-V Server
• Citrix XenServer
De acuerdo al hypervisor existen requerimientos en
cuanto a cómo diseñar un ambiente clusterizado HA
(memoria, discos, servidores, comunicaciones, etc.)
y existen SW de terceros que ofrecen funciones por
sobre el hypervisor
noviembre de 2014 13
14. DR en ambientes Virtualizados - HA
N + 1
N + 1 + 1
N + 2 + 1
Activo
Pasivo
Spare
noviembre de 2014 14
16. DR – Site alternativo (activo – pasivo)
La implementación de un plan de Disaster Recovery para un ambiente alternativo, es similar tanto sea
físico como virtual. Se necesita hacer un back-up, enviarlo al site alternativo y ser capaz de recuperarlo.
La diferencia en el virtualizado es que el backup y recovery es de maquinas virtuales (VM).
Microsoft's Hyper-V incluye en forma nativa varias funciones de backup que dependiendo de las
necesidades lo transforman en una plataforma DR. Los requerimientos son:
Site alternativo: Ubicación alternativa adecuada convenientemente con una conexión lo más rápida
posible para el recupero.
Infraestructura HW y SW alternativa: el sito alternativo debe tener los servidores físicos y las
plataformas virtuales de software necesarias. Este sistema puede estar levantado y ejecutándose o en
stand-by para su iniciación (costos)
Software de backup virtual: Dependerá mucho del hypervisor que se utilice. Hyper-V integra el Volume
Shadow Copy Service (VSS) que asegura el bakcup de las máquinas virtuales y su rápida restauración con
el SO y Aplicaciones (SQL, Exchange, etc.) o el WSFC para failover cluster .
Software de replicación: el proceso de recovery termina con la implementación de los virtual server
backups en el site de contingencia, ya sea trasladando manualmente las cintas (o discos), o a través de
herramientas de replicación automáticas.
Herramientas: Computer Associated – Veritas - Neverfail’s Heartbeat Failover – Veeam Software Backup
& Replication – Symmantec – Netbackup - CommVault - HP - EMC
noviembre de 2014 16
17. Estrategias de Backup
Backups completos: copia la totalidad de los datos en otro juego de soportes, que puede consistir en
cintas, discos, o DVD. La ventaja es que se dispone de la totalidad de los datos en un único juego de
soportes. Esto permite restaurar los datos en un tiempo mínimo (menor RTO), pero implica más
tiempo y más espacio para efectuar el backup.
Backups incrementales: sólo copia los datos que han variado desde la última operación de backup de
cualquier tipo. La ventaja es que copia una menor cantidad de datos que un backup completo, por eso
se realizan en ventanas de tiempo menores y exigen menos espacio
Backups diferenciales: es similar a un backup incremental la primera, pues copiará todos los datos
que hayan cambiado desde el backup anterior. Sin embargo, cada vez que se vuelva a ejecutar, seguirá
copiando todos los datos que hayan cambiado desde el anterior completo.
Soporte de Backups : D2T - D2D - D2D2T - D2D2C
Dependen del costo, rapidez y cumplimiento de exigencias de respaldo (períodos de tiempo a guardar)
noviembre de 2014 17
18. Virtual Server Backup
Agent-based backup: es el más común y maduro de los metodos. Instala un agente de
backup en cada VM. Puede restaurar archivos individuales, imagenes completas o
máquinas enteras. Desventaja cuando se corren múltiples VM en servidores físicos con
limitados recursos de I/O.
Image-based backup: esta forma opera a nivel de virtualización y hace una imagen o
“snapshot” del disco virtual completo. También se lo llama block-based backup y al ser una
imagen completa incluye archivo borrados o bloques vacíos del disco. Por ello las
herramientas utilizan funciones de data reduction o backup incrementales.
noviembre de 2014 18
19. Virtual Server Backup
Agent-Assisted Backup: provee rápido y eficiente backup online y offline, y a diferencia del
agent-based no consume espacio ni CPU y ofrece un backup más granular (Full VM,
aplicaciones, bases de datos, archivos, folders, etc.). Es excelente con aplicaciones como
AD, Exchange, SQL y SharePoint.
Serverless backup: también llamado LAN-free backup o proxy based backup, requiere una
conectividad a un arreglo SAN con fibra óptica, iSCSI o FCoE. Serverless backup permite
disco-cinta o disco-disco sin utilizar recursos del servidor, a través de un agente inteligente
que realiza una copia snapshot de los datos.
noviembre de 2014 19
20. Disaster Recovery vs Disaster Avoidance
La Recuperación de Desastres (DR) normalmente se basan en un sitio secundario pasivo para
apoyar el sitio principal activo (configuración activo /pasivo). Esto significa que el centro de
datos secundario no hace casi ningún trabajo hasta que ocurra un desastre (cold, warm, hot)
y se confía todo en las copias de seguridad y snapshots para conservar y recuperar los datos
críticos de carga de trabajo.
"Disaster avoidance" es la implementación de un sitio alternativo junto con el sitio principal
activo (configuración activo /activo). Esto significa que el centro de datos secundario puede
albergar cargas de trabajo activas y comparte las tareas en tiempo real. La prevención de
desastres depende de la migración de VM y tecnologías de clúster, junto con el servidor
altamente resistente. Cuando se produce un desastre, el sitio secundario puede seguir
trabajando sin casi ser perceptible.
Una infraestructura para evitar desastres contiene servidores en clúster con tolerancia a
fallos, apoyados con sistemas de alimentación ininterrumpida, generadores de emergencia y
sistemas de refrigeración de backup. La conectividad de red y switches suele ser redundante
y soporta trunking y failover. Los arreglos de discos son mirroring o duplicados, se basan en
plataformas de virtualización para una rápida migración, asi como software de conmutación
por error de carga de trabajo, lo que mantiene la sincronización entre máquinas virtuales
duplicadas a través de los centros de datos.
noviembre de 2014 20
21. Proceso para construír el Plan DR
La construcción de un DRP se debe tomar como un proyecto, pero una vez logrado es
considerado como un proceso continuo, dado que tiene que evolucionar en la medida que se
produzca cualquier cambio en la Infraestructura.
noviembre de 2014 21
22. Proceso para construír el Plan DR
• Definir claramente cual será el alcance del Plan DR (qué incluye y qué NO incluye)
• Definir cual será la estrategia de continuidad de TI
• Definir estrategia, política y procesos de backup-recovery que serán utilizados
• Identificar y priorizar las funciones y servicios de negocio críticas (BIA)
• Identificar interdependencias
• Identificar y priorizar los activos (infraestructura TI) críticos al negocio
• Identificar y clasificar los riesgos, amenazas, SPOF
• Cuantificar el impacto potencial y amenazas a los activos y servicios críticos
• Determinar períodos de recuperación críticos: SLA, RTO y RPO
• Preparar respuestas y procedimientos de emergencia
• Organizar e implementar adecuadamente el sitio de recupero
• Identificar a los recursos humanos requeridos y responsables de DR
• Establecer los mecanismos de comunicación
• Probar el Plan
• Educación y Entrenamiento
• Auditoría y Actualización del Plan en forma constante
noviembre de 2014 22
23. Proceso para construír el Plan DR
Es útil tener en cuenta todos los escenarios posibles, y entonces decidir en cuáles
desea centrarse al trabajar en la planificación de recuperación ante desastres para
su entorno:
• Pérdida de un sitio entero
• Pérdida de un único centro de datos
• Pérdida de un sistema (error de hardware o de sistema operativo)
• Pérdida de datos (eliminación de datos o datos dañados)
• Pérdida de una dependencia crítica
Recuperarse de la pérdida de un sitio entero tiene consideraciones muy diferentes
respecto a la recuperación de un solo sistema. También querrá definir los umbrales
de recuperación en función de sus SLA.
• Para el armado del BIA es importante contar con el Catalogo de Servicios
• Para la identificación de los activos a proteger es importante contar con la CMDB
noviembre de 2014 23
24. Objetivos básicos de BIA y AR
• Identificar los activos de la compañía y las funciones que son necesarias
para la recuperación del negocio en caso de desastre y priorizarlas de
acuerdo a su criticidad (BIA).
• Identificar las amenazas más probables a los activos y funciones (AR).
• Crear objetivos para el desarrollo de estrategias que eliminen los riesgos
eliminables y minimicen el impacto de aquellos riesgos que no se pueden
eliminar.
• Crear objetivos para el desarrollo de estrategias para el respaldo y/o
recuperación de aquellas funciones que son críticas para el negocio y que
podrían verse afectadas en un desastre.
noviembre de 2014 24
25. Análisis de Impacto en el Negocio (BIA)
Un Análisis de impacto en el negocio
(BIA) es una parte clave del proceso.
Analiza las funciones, procesos o
actividades del negocio y las prioriza
para determinar cuales son de misión
crítica, para identificar y cuantificar el
impacto que podría tener en la
organización la pérdida de dichas
funciones.
En principio todas las actividades del
negocio son importantes, pero
debemos distinguir las críticas y de
ellas cuales son los recursos y el
tiempo mínimo necesario para su
recuperación en caso de algún
evento de desastre o crisis.
noviembre de 2014 25
26. Análisis de los Riesgos (AR)
El BIA ayuda a identificar los procesos de negocios más críticos, y describe el impacto
potencial que tendría una interrupción de esos procesos. Un AR análisis o evaluación de los
riesgos identifica situaciones internas y externas que podrían tener un impacto negativo en
los procesos críticos. También intenta cuantificar la potencial gravedad de tales eventos, y la
probabilidad de que ocurran.
Peligros
naturales
Peligros sociales o
políticos
Peligros causados por el
hombre
Tecnológicos
Tormenta Terrorismo Error de operador Falla de energía
Inundación Fraude Error de programación Corte de la Red
Caída de rayos Disturbios Incendio provocado Daño por humo
Nevada Huelga Falta prevención Incendio
Terremoto Robos Pérdida de datos Fallas en el HW
Tornado Vandalismo Falta de mantenimiento Fallas en el SW
Huracán Daño por bomba Falta de calidad Malware
Para cada Riesgo identificado analizar probabilidad de ocurrencia, potencialidad, medidas de
prevención, medidas de mitigación, actividades de recuperación, planes de contingencia
noviembre de 2014 26
27. AR: Identificar amenazas a los Activos
Algunas medidas típicas de reducción de riesgos y amenazas:
· Instalación de UPS y generadores de energía para el Hardware necesario.
· Métodos RAID de discos o mirroring para preveer pérdida de datos o inconsistencias.
· Comunicaciones o redes redundantes
· Equipamiento “spare” para el caso de fallas, por ejemplo un LAN Server completamente
configurado y disponible para reemplazar otro en falla.
· Identificación y eliminación de “SpoFs”, tal como un sólo punto de acceso a la red o un
solo sistema de provisión de energía eléctrica.
· Sistemas de TI y de Comunicaciones “resilentes”.
· Servicios tercerizados y provisión por más de un proveedor.
· Sistemas de detección y supresión de incendios y control de accesos y seguridad.
· Un proceso y estrategia completo y seguro de backup y recovery , que incluya
almacenamiento fuera del lugar de servicio primario.
· Sistemas tipo Fault-tolerant para aplicaciones de misión crítica, donde una caída es
inaceptable.
· Cluster de servidores fisicos virtualizados con HA.
· Site alternativo de recovery en caso de desastre o pérdida de funcionamiento del site
principal
noviembre de 2014 27