Este documento describe una investigación sobre métodos de visualización de datos para detectar intrusos en una red. Explica diferentes técnicas de visualización como el análisis de componentes principales y mapeo de puertos. También resume conjuntos de datos comunes y tipos de ataques utilizados para este propósito. Finalmente, describe un experimento que aplica el análisis de componentes principales a un conjunto de datos de ataques de red para visualizar y separar diferentes tipos de ataques.
2. La visualización de datos es un método gráfico de presentación de datos
que se utiliza para una mejor comprensión. De los datos elegidos.
Keim, Mansmann,
define la analítica visual como un enfoque que combina interactivos
Visualizaciones con métodos de análisis automático para una percepción
más completa.
Investigación de detección de intrusos en red
utilizando. métodos de visualización de datos
3. Kurasova y Zilinskas
clasifican los métodos de visualización dentro directo visualización y proyección
visualización métodos:
1. Métodos de visualización directa,
cuando las características de un multi dimensional objeto se presentan en una
cierta forma visual. Usando estos métodos, las dimensiones seleccionadas de los
datos son Presentado en forma visual en un plano bidimensional. Los métodos de
visualización directa pueden clasificarse además como Geométrica, simbólica y
jerárquica.
2. Los métodos de proyección lineal y no lineal
ayudan a presentar objetos multidimensionales en un número menor de
dimensiones del espacio (también conocido como reducción de dimensión
métodos). Los métodos de visualización de proyección lineal pueden ser Además
clasificado en Análisis de Componentes Principales, Lineal Análisis discriminante y
búsqueda de proyecciones. No lineal Los métodos de proyección se pueden
clasificar en Multi dimensional Escalado, incrustación lineal local, isométrica
Mapeo de funciones,
4. INTRUSIÓN PROBLEMA DE DETECCIÓN Y DATOS RELACIONADOS
CUESTIONES.
A.- Problema de detección de intrusión Detección de intrusos, señalización de
actividad maliciosa o política. violaciones a nivel de red o sistema, es un bien
reconocido Problema del dominio de la ciberseguridad.
Intrusión en la red actual Detección Sistemas (IDS) utilizar Tres principal
técnica: Detección de anomalías, detección de mal uso e híbrido de anomalías
5. B. Conjuntos de datos y temas relacionados
Fuentes primarias de datos de detección de
intrusión
además Definidos como conjuntos de datos,
son flujos de red de otra red. Dominios y red
local, enriquecidos con usuarios basados en
host. comportamiento y contenido a nivel del
sistema, como se muestra en la Fig. 1, que se
necesita para detectar comportamientos
anómalos y diversos Tipos de ataques de
intrusión.
El enrutador o conmutador puede recopilar el tráfico de red IP a medida que Entra y sale de la interfaz. El monitoreo de
flujo se ha convertido en un Requisito previo para el seguimiento del tráfico en redes. Una red El flujo se define
predominantemente como una secuencia unidireccional. de paquetes que comparten exactamente los mismos
atributos de paquetes: ingreso interfaz, dirección IP de origen, dirección IP de destino, IP Protocolo, puerto de origen,
puerto de destino y tipo de servicio
6. C. Dispersión temporal de los ataques de intrusos.
Los tipos de ataque de estilo básico, que ocurren en el ciberespacio. Han sido
probados con diferentes tipos de Machine Learning. conjuntos de algoritmos para
reducir la tasa de alerta falsa (FAR), que varía en un rango de 5% dependiendo
del método utilizado y el tipo de ataque.
D. Cambio de formatos de flujos de red. A pesar de que NetFlows todavía
puede ser el más frecuente debido a la popularidad de Cisco en la industria
de redes, otros proveedores de equipos de red proporcionan un flujo de red
similar tecnología de monitoreo, lo que implica que la capacitación tiene
que ser adaptado para el tipo de registro de flujo específico. además
7. III. TRABAJO RELACIONADO
En esta sección se presenta una revisión de los métodos de aprendizaje automático y visualización
(reconocimiento directo de red, visualización dinámica y mapeo de puertos).
A. Métodos de visualización de conciencia de red directa
Hay muchos ejemplos de aplicación de visualización para mejorar la supervisión de la red y la detección de
intrusiones
B. Métodos de visualización de la dinámica de la red temporal.
Para representar la dinámica de datos en dimensión temporal,
Musa y Parish [17] han usado la animación. Entre los que utilizan diseños espaciales del tiempo, McPherson, Ma et al.
[18] visualice la actividad portuaria con el tiempo en el eje y, mientras que Abdullah, Lee et al. [19] visualice las alarmas de
un IDS para un espacio IP grande en columnas donde el eje x de cada columna es el tiempo.
C. Métodos de visualización del mapeo de puertos.
Otra técnica visual ampliamente utilizada es la visualización basada en puertos, porque la actividad de puertos de una red
es esencial para el escaneo de puertos. Goodall, Lutters et al. [21] asigne cada dirección IP a una fila para producir una
línea de tiempo de actividad. Las conexiones entre direcciones IP se dibujan como líneas entre filas.
8. D.- Métodos de aprendizaje automático utilizados para la detección de intrusiones.
Varios autores propusieron un conjunto de modelos de aprendizaje automático como una forma probable de resolver problemas
de detección de intrusiones. Como se muestra en la Fig. 2, los conjuntos de métodos de ML entrenan combinaciones de modelos
básicos de aprendizaje automático.
9. V. PRINCIPAL
ANÁLISIS DE COMPONENTES EN LA DETECCIÓN DE INTRUSIÓN
La definición común de Análisis de componentes principales (PCA)
Hotelling Se dice que para un conjunto de vectores observados {ui}, i ∈ {1, ..., N}, donde N es el número de
vectores, los ejes principales q {Ej}, j∈ {1, ... q} son los ortogonales Ejes sobre los cuales la varianza retenida bajo
proyección es máxima. Se puede mostrar que los vectores
Ej. están dados por los vectores propios q dominantes de la matriz de covarianza C del vector v, de modo que los
vectores propios Ej y los valores propios correspondientes λi son la solución a CEi = λiEj ecuación. El vector vi = ET
(ui-ū), donde E = (E1 ... .Eq), es, por lo tanto, una representación reducida en qdimensional de lo observado.
10. V. EXPERIMENTO
El objetivo del experimento
en esta investigación fue
visualizar diferentes tipos
de datos de ataque,
disponibles en el conjunto
de datos NSL-KDD. La
Tabla I presenta los ataques
y sus tipos, disponibles en
los datos de NSL-KDD.
11. Para reducir los recursos de computadora necesarios para este experimento, la cantidad de datos cargados
para el análisis se limitó a 20% (NSL-KDD-master 20% training set.csv). Se agregaron etiquetas de columna
para facilitar la importación en el kit de herramientas de visualización de datos de fuente abierta, aprendizaje
automático y minería de datos Orange
12. Sin embargo, solo unos pocos
tipos de ataque se pueden
separar visualmente en la Fig.
5: Neptuno (DoS), Satanás
(Sonda), Nmap (Sonda) y
Portsweep (Sonda), cuando
PC1 es mayor que 1.16.
13. Además, en el experimento (ver
Fig. 6), se investigaron las
selecciones de diferentes pares
de Componentes Principales, con
la segunda mejor opción
proporcionada por el par PC1 y
PC3, desafortunadamente, otros
pares dieron poca información
visual.
14. CONCLUSIONES.
El análisis de PCA resultante con el software Orange 3 revela la estructura informativa
del conjunto de datos; Sin embargo, no es suficiente para la toma de decisiones
visuales.
Se podrían realizar experimentos y análisis futuros utilizando una fuente de datos más
detallada CIC IDS 2017 [13].
Según Sharafaldin, Lashkari y Ghorbani,
la fuente mencionada anteriormente, enriquecida con 80 características de red,
contiene 28 componentes principales informativos.