El documento describe un sistema para la monitorización pasiva y análisis de tráfico de red basado en Apache Hadoop. El sistema captura paquetes de red usando una sonda y los almacena en HDFS. Luego, aplica tareas MapReduce para procesar los paquetes y extraer información, la cual es almacenada en tablas Hive para realizar consultas y generar informes. Los experimentos muestran que el sistema puede procesar hasta 7 Gbps de datos, escalando horizontalmente de forma eficiente en Hadoop.
tipos de organización y sus objetivos y aplicación
MONITORIZACIÓN Y ANÁLISIS DE RED CON HADOOP
1. MONITORIZACIÓN Y ANÁLISIS DE TRÁFICO
DE RED CON APACHE HADOOP
Rubén García-Valcárcel, Rafael Leira, Iván González,
Jorge E. López de Vergara
ruben4593@gmail.com, {rafael.leira, ivan.gonzalez,
jorge.lopez_vergara}@uam.es
JITEL 2015 – 15 de Octubre de 2015
2. Introducción
Estado del arte
Sistema propuesto
Experimentos
Conclusiones
Tabla de contenidos
1 Introducción
2 Estado del arte
3 Sistema propuesto
Arquitectura de la red
Sistema de captura
Arquitectura del sistema
Procesamiento en Hadoop
4 Experimentos
Análisis mediante Hive
Rendimiento
Sistemas utilizados
Comparativa global
5 Conclusiones
R. García-Valcárcel, R. Leira, I. González, J.E. López de Vergara Monitorización y Análisis de Tráfico de Red con Apache Hadoop 2
3. Introducción
Estado del arte
Sistema propuesto
Experimentos
Conclusiones
Introducción
Objetivo: Monitorización pasiva y Análisis de redes de
comunicaciones.
Necesidad de un sistema escalable y fiable frente al crecimiento
exponencial de las redes
Diseño de un sistema para la captura, el almacenamiento, el
procesamiento y el análisis de tráfico de red basado en Hadoop
Evaluación del sistema mediante la monitorización de la red de los
laboratorios docentes de la Escuela Politécnica Superior (en la
UAM).
R. García-Valcárcel, R. Leira, I. González, J.E. López de Vergara Monitorización y Análisis de Tráfico de Red con Apache Hadoop 3
4. Introducción
Estado del arte
Sistema propuesto
Experimentos
Conclusiones
Estado del arte
Herramientas habituales para la captura y procesamiento de tráfico
Bajas tasas de red (tcpdump, wireshark...)
Altas tasas de red
APIs de alta velocidad (Intel DPDK...)
Hardware dedicado (GPUs, FPGAs...)
Computación distribuida
Google: GFS y MapReduce
Apache: HDFS y YARN
Procesamiento de tráfico mediante Hadoop
[RIPE]: Pesada, lenta y limitada. Librerías de terceros
[Yeonhee Lee]: Heurística de fragmentado PCAP. Código liberado
incompleto
R. García-Valcárcel, R. Leira, I. González, J.E. López de Vergara Monitorización y Análisis de Tráfico de Red con Apache Hadoop 4
5. Introducción
Estado del arte
Sistema propuesto
Experimentos
Conclusiones
Arquitectura de la red
Sistema de captura
Arquitectura del sistema
Procesamiento en Hadoop
Sistema propuesto
Arquitectura de la red de prueba
Red interna
Internet
Sonda de
captura
Firewall
Hadoop
TAP
Servidor DNS
R. García-Valcárcel, R. Leira, I. González, J.E. López de Vergara Monitorización y Análisis de Tráfico de Red con Apache Hadoop 5
6. Introducción
Estado del arte
Sistema propuesto
Experimentos
Conclusiones
Arquitectura de la red
Sistema de captura
Arquitectura del sistema
Procesamiento en Hadoop
Sistema de captura
FlowProcess
La sonda de captura:
Almacena los paquetes:
En formato PCAP
Truncados a 300 bytes (por motivos de privacidad, también reduce el
espacio consumido)
Crea archivos de aproxidamente 1 GB
La sonda descarta los paquetes que contengan la dirección IP de la
propia sonda.
Genera archivos en texto plano con información relativa a los flujos
(Netflow extendido)
R. García-Valcárcel, R. Leira, I. González, J.E. López de Vergara Monitorización y Análisis de Tráfico de Red con Apache Hadoop 6
7. Introducción
Estado del arte
Sistema propuesto
Experimentos
Conclusiones
Arquitectura de la red
Sistema de captura
Arquitectura del sistema
Procesamiento en Hadoop
Sistema propuesto
Arquitectura del sistema
Hadoop
AnálisisPreprocesamientoCaptura
PCAPs
Flujos
DNS
HTTP
HTTPS
Tareas
MapReduce
Hive
PCAPs
Tablas
Gráficas
Deseria-
lizador
PrediccionesWeka
Admin
Sonda de
captura
R. García-Valcárcel, R. Leira, I. González, J.E. López de Vergara Monitorización y Análisis de Tráfico de Red con Apache Hadoop 7
8. Introducción
Estado del arte
Sistema propuesto
Experimentos
Conclusiones
Arquitectura de la red
Sistema de captura
Arquitectura del sistema
Procesamiento en Hadoop
Procesamiento
Se parte del trabajo de [RIPE], pero:
Se han reimplementado de los disectores de HTTP y DNS
Implementación de un nuevo disector de HTTPS
Mejora de rendimiento
Eliminación del reensamblado TCP
Guardado de los campos en estructuras fijas en lugar de una tabla
hash.
R. García-Valcárcel, R. Leira, I. González, J.E. López de Vergara Monitorización y Análisis de Tráfico de Red con Apache Hadoop 8
9. Introducción
Estado del arte
Sistema propuesto
Experimentos
Conclusiones
Análisis mediante Hive
Rendimiento
Experimentos
Análisis mediante Hive
R. García-Valcárcel, R. Leira, I. González, J.E. López de Vergara Monitorización y Análisis de Tráfico de Red con Apache Hadoop 9
10. Introducción
Estado del arte
Sistema propuesto
Experimentos
Conclusiones
Análisis mediante Hive
Rendimiento
Experimentos
Análisis mediante Hive
Series temporales del consumo de la red por días (periodo 20/02/15 − 01/05/15)
Series temporales del consumo de la red por horas (periodo 16/03/15 − 20/03/15)
R. García-Valcárcel, R. Leira, I. González, J.E. López de Vergara Monitorización y Análisis de Tráfico de Red con Apache Hadoop 10
11. Introducción
Estado del arte
Sistema propuesto
Experimentos
Conclusiones
Análisis mediante Hive
Rendimiento
Experimentos
Análisis mediante Hive
Bytes (exterior) y flujos (interior) usados por cada protocolo y puerto
R. García-Valcárcel, R. Leira, I. González, J.E. López de Vergara Monitorización y Análisis de Tráfico de Red con Apache Hadoop 11
12. Introducción
Estado del arte
Sistema propuesto
Experimentos
Conclusiones
Análisis mediante Hive
Rendimiento
Experimentos
Análisis mediante Hive
Las 16 asignaturas que más han consumido (periodo 02/02/15 − 01/05/15)
R. García-Valcárcel, R. Leira, I. González, J.E. López de Vergara Monitorización y Análisis de Tráfico de Red con Apache Hadoop 12
13. Introducción
Estado del arte
Sistema propuesto
Experimentos
Conclusiones
Análisis mediante Hive
Rendimiento
Experimentos
Análisis mediante Hive
Ordenadores encendidos cada noche (periodo 02/02/15 − 01/05/15)
Ordenadores inactivos cada semana (periodo 02/02/15 − 01/05/15)
R. García-Valcárcel, R. Leira, I. González, J.E. López de Vergara Monitorización y Análisis de Tráfico de Red con Apache Hadoop 13
14. Introducción
Estado del arte
Sistema propuesto
Experimentos
Conclusiones
Análisis mediante Hive
Rendimiento
Experimentos
Análisis mediante Hive
Páginas web más solicitadas vía HTTP (izquierda) y HTTPS (derecha)
agrupadas por dominio de segundo nivel
R. García-Valcárcel, R. Leira, I. González, J.E. López de Vergara Monitorización y Análisis de Tráfico de Red con Apache Hadoop 14
15. Introducción
Estado del arte
Sistema propuesto
Experimentos
Conclusiones
Análisis mediante Hive
Rendimiento
Pruebas de rendimiento
Sistemas utilizados
Características de los sistemas de pruebas
Sistema
RAM
Discos CPU
Total Red
(GB) cores (Gbps)
Hadoop
Esclavo 1 32 5x 3 TB 1x Xeon L5408 @ 2,13 GHz 4 1
Esclavo 2 32 5x 3 TB 1x Xeon L5408 @ 2,13 GHz 4 1
Esclavo 3 256 4x 3 TB 4x Xeon E7-4830 @ 2,13 GHz 32 1
Esclavo 4 64 7x 3 TB 2x Xeon E5-2620 v3 @ 2,40 GHz 12 1
Esclavo 5 64 7x 3 TB 2x Xeon E5-2620 v3 @ 2,40 GHz 12 1
Servidor Alto Rendimiento 32 RAID 0: 9x 3 TB 2x Xeon E5-2630 @ 2,6 GHz 12 -
[Y. Lee] (30 nodos) 30x 19 30x 4 TB 30x 8 cores @ 2,93 GHz 240 1
R. García-Valcárcel, R. Leira, I. González, J.E. López de Vergara Monitorización y Análisis de Tráfico de Red con Apache Hadoop 15
16. Introducción
Estado del arte
Sistema propuesto
Experimentos
Conclusiones
Análisis mediante Hive
Rendimiento
Pruebas de rendimiento
Comparativa global
Rendimiento de cada sistema al procesar 1 TB
Programa Gbps Gbps/core
Hadoop
Disector HTTP 7,13 0,11
Disector HTTPS 7,41 0,12
Disector DNS 7,72 0,12
Test de lectura 4,98 0,08
Disector HTTP serie (en c) en S.A.R. 4,21 4,21 (1 core)
Versión de [Y. Lee]
5 nodos 1,9 0,05
30 nodos 14,0 0,06
R. García-Valcárcel, R. Leira, I. González, J.E. López de Vergara Monitorización y Análisis de Tráfico de Red con Apache Hadoop 16
17. Introducción
Estado del arte
Sistema propuesto
Experimentos
Conclusiones
Conclusiones
Se ha creado una batería de consultas en Hive, y un medio para
crear nuevos análisis de la red.
El proyecto Apache Hadoop permite escalar horizontalmente con
facilidad.
Con un bajo coste de desarrollo se han alcanzado 7 Gbps.
Se pretende integrar el sistema con otros de Big Data como Apache
Mahout, extendiendo así sus capacidades.
No obstante Hadoop tiene limitaciones: Java,
homogeneidad/heterogeneidad del clúster, etc.
Dichas limitaciones se pretenden superar investigando en el campo
del almacenamiento (HDFS), así como en las posibles uniones de
Hadoop con hardware específico (GPUs, FPGAs...) con el objetivo
de crear un sistema más económico y estable.
R. García-Valcárcel, R. Leira, I. González, J.E. López de Vergara Monitorización y Análisis de Tráfico de Red con Apache Hadoop 17
18. Introducción
Estado del arte
Sistema propuesto
Experimentos
Conclusiones
Gracias por su atención
R. García-Valcárcel, R. Leira, I. González, J.E. López de Vergara Monitorización y Análisis de Tráfico de Red con Apache Hadoop 18