Presentation displayed at the JNIC17 (National Cybersecurity Research Jorneys) prize awards ceremony, where I was lucky enough to be awarded with the 3rd Best Student Work Prize.
Autorización con XACML v3.0 basada en perfilado de usuarios mediante aprendizaje no supervisado
1. Autorización con XACML v3.0
basada en perfilado de usuarios
mediante aprendizaje no supervisado
Autor: Daniel Hernández León
Directora: Marta Beltrán Pardo
3er Premio al mejor trabajo de estudiante
Curso académico 2015-2016
2. Daniel Hernández León
• Cybersecurity & Data Analytics
en Innovation 4 Security (BBVA)
• Master en Data Science (URJC ’16)
• Ingeniero Superior en Informática (UAM ’06)
Presentación
3. Objetivos
Mejorar los sistemas de control de acceso XACML
usando modelos de comportamiento personalizados.
Crear un servicio de scoring
que refleje cómo de habitual es una operación
en base al histórico de cada cliente.
7. Servicio de Scoring
<1: Bajo (operación conocida)
> 2: Alto (outsider, operación desconocida)
1-2: Medio (operación similar)
8. Trabajo futuro
• Actualización de modelos en tiempo real utilizando Spark Streaming MLlib.
• Mejora de rendimiento en la implementación del algoritmo de selección de K.
• Utilización de datos reales extraídos por ejemplo de BBVA API Market:
https://www.bbvaapimarket.com/web/api_market/bbva/money-transfers/documentation
• Inclusión de más variables en el modelo (i.e. timestamp).
• Mejora del código de la implementación incluyendo control de errores y tests.
K-Means es un algoritmo cuyas aplicaciones típicas tienen una descripción muy parecida a la del problema que se trata de resolver en éste trabajo. Sirve por ejemplo como método para agrupar consumidores con comportamientos similares basándose en su histórico de transacciones, para clasificar
documentos basándose en el parecido de su contenido, o para identificar pólizas de seguro con alto riesgo de fraude.
Además, se trata de un método no supervisado, lo que encaja con nuestros intereses. El problema que plantea éste algoritmo es la selección del valor de k, que debe ser un entero mayor que 1 pero cuya elección depende de los datos y del dominio del problema, por lo que no hay una fórmula sencilla ni
universal para calcularla
k automático
los modelos de regresión requieren para ofrecer resultados válidos que las variables
cumplan una serie de requisitos, como la dependencia lineal de la variable de salida sobre las variables
independientes, la no colinealidad de las variables independientes y un mínimo de observaciones por
cada una de ellas, y la normalidad de los residuos. Si bien a menudo estas condiciones se asumen y en
este caso la normalidad y dependencia parecen claras, sí que existe una alta probabilidad de que no
haya suficientes observaciones en algunos casos, y la no colinealidad no está garantizada.
1- Actualmente los modelos se construyen durante el arranque de la aplicación. Lo ideal sería seguir una arquitectura Lambda o Kappa, para que los modelos se recalculen por completo de forma planificada pero se actualicen constantemente.
2 - Mediante la técnica descrita en [8] que al parecer ofrece mejor rendimiento para grandes volúmenes de datos.
3- No se utilizó para evitar problemas de privacidad de datos en el TFM
4- Para mejorar la detección de patrones de conducta periódicos
5- Se hizo quick and dirty