Se ha denunciado esta presentación.
Utilizamos tu perfil de LinkedIn y tus datos de actividad para personalizar los anuncios y mostrarte publicidad más relevante. Puedes cambiar tus preferencias de publicidad en cualquier momento.

Teoría de redes y detección de fraude // Theory of networks and fraud detection

641 visualizaciones

Publicado el

Teoría de redes y detección de fraude
Por Massimiliano Zanin.
Universidad Rey Juan Carlos.

Curso de Verano 'Innovación en ciberseguridad aplicada a la protección de la identidad digital #CIGTR2015'.
http://es.cigtr.info/2015/06/curso-de-verano-innovacion-en-seguridad.html (ES)

Theory of networks and fraud detection
Massimiliano Zanin.
Universidad Rey Juan Carlos.

Summer Course 'Innovation in security applied to the protection of digital identity #CIGTR2015'.
http://www.cigtr.info/2015/06/summer-course-innovation-in-security.html#.ViXv337hDb2 (EN)

Publicado en: Tecnología
  • Sé el primero en comentar

  • Sé el primero en recomendar esto

Teoría de redes y detección de fraude // Theory of networks and fraud detection

  1. 1. Teoría de redes y detección de fraude 2015.07.07! Massimiliano Zanin!
  2. 2. 1. Redes complejas: ¿porqué? Teoría de redes y detección de fraude! 2. Aplicación a fraude en tarjetas 3. Trabajos futuros
  3. 3. ¿Que son las redes?! Representación de la estructura creada por las interacciones de un sistema complejo
  4. 4. Sistema complejo Multiplicidad de elementos Importancia de las interacciones entre ellos
  5. 5. Sistema complejo Multiplicidad de elementos Importancia de las interacciones entre ellos Solo interacciones entre elementos Ningún elemento innecesario Red compleja
  6. 6. Métricas estructurales Describen cuantitativamente la estructura Solo interacciones entre elementos Ningún elemento innecesario Red compleja Sistema complejo
  7. 7. Más detalle Más belleza
  8. 8. Más detalle Más belleza
  9. 9. Mapa del Greater Khorasan, por el geógrafo persa Ibrahim Al- Istakhri, 980 AC. Departamento de manuscritos orientales, Bibliothèque National de France.
  10. 10. Redes genéticas Red de contactos sexuales Redes financieras Redes de transporte
  11. 11. ¿Por que redes en seguridad?! Las relaciones pueden ser más importantes que los elementos individuales
  12. 12. Un ejemplo: InfoSec Sistema normal
  13. 13. Un ejemplo: InfoSec Ataque simple
  14. 14. Un ejemplo: InfoSec Ataque coordinado
  15. 15. Un ejemplo: InfoSec Ataque coordinado
  16. 16. Detección de fraudes en tarjetas Cantidad de la transacción Tiempo desde la última transacción Ubicación geográfica … Ningún elemento es significativo por si solo
  17. 17. ¿Como reconstruir redes?! 1. No hay conexiones físicas 2. Queremos detectar anomalías
  18. 18. Importancia de las relaciones entre elementos e.g. colesterol y trigliceridos
  19. 19. En personas sanas, colesterol y trigliceridos suelen estar correlacionados Colesterol Trigliceridos Límites aceptables
  20. 20. Colesterol Trigliceridos Límites aceptables Relación anormal i.e. alejada de la regresión esperada
  21. 21. Colesterol Trigliceridos Límites aceptables Distancia esperada desde la regresión Distancia anormal
  22. 22. Tri. Col. Creamos un link cuando la relación es anormal
  23. 23. Tri. Col. Una red para cada persona Links representan relaciones anormales Por lo tanto, la red representa la condición del sujeto
  24. 24. Tri. Col. Datos cuantitativos de la red pueden ser utilizados para una tarea de clasificación Los datos originales también tienen que ser incluídos
  25. 25. Resumiendo …
  26. 26. Resumiendo …
  27. 27. Transacciones con tarjetas! ¿Pueden las redes mejorar nuestra capacidad para detectar transacciones fraudulentas?
  28. 28. Objetivos del proyecto Validar las hipótesis: •  La información acerca de la legalidad de una transacción está codificada en las relaciones entre elementos •  Las redes pueden ayudar a detectar transacciones fraudulentas Validación basada en datos reales Comparación con sistemas estándar de detección de fraude
  29. 29. Objetivos del proyecto Comparación con sistemas estándar de detección de fraude Limitación: Ninguna eurística incluída Solo análisis de datos basado en redes
  30. 30. Datos reales utilizados Todas las transacciones con tarjetas de crédito / débito del BBVA, años 2011 y 2012. Volumen de datos: 3 M. tarjetas / mes 38 M. operaciones / mes 400k fraudes / mes
  31. 31. Datos iniciales Creación de las redes (pesadas) Creación de las redes (binarias) Extracción de métricas Clasificación
  32. 32. Datos iniciales Features Redes Métricas estructurales Clasificación Comportamiento esperado Parámetros del modelo Aprendizaje
  33. 33. Preparación de los datos Feature Tipo! Cantidad de dinero Int Tiempo desde última transacción Int Cantidad de la última transacción Int Transacción media Float Tiempo medio entre operaciones Float Misma tienda Boolean Hora del día Int Ratio de fraudes (5k transacciones) Float
  34. 34. Grado  máximo  de  los  nodos     Entropía  de  la  distribución  de  grado       Correlación  entre  grados  de  los  nodos     Coeficiente  de  Clustering     Distancia  geodésica  media  entre  nodos     Eficiencia     Informa>on  Content       Métricas topológicas consideradas
  35. 35. 0 5 10 15 20 25 Classificationerror(%) Classification algorithm Bayes MLP DT KNN Mejor resultado: MLP Hay relaciones no lineales entre las distintas features
  36. 36. Referencia Link density Clustering Max degree Eficiencia IC 0 5 10 15 20 25 30 Errordeclasificación(%) Ninguna feature puede ser descartada prima facie
  37. 37. 19.26219.26219.26219.26219.26219.26219.26219.26219.26219.26219.26219.262 42.061 38.675 37.923 35.226 37.2065 35.38735.558 32.557 30.566 28.428 31.237 36.245 16.009 15.016 14.07813.73113.53913.43713.059512.3635 11.76211.55512.230512.45 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0 10 20 30 40 50 Classificationerror(%) Link density Raw features Parenclitic All Las redes aportan una visión distinta al problema, y permiten mejorar el resultado.
  38. 38. 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 1.2 TruePositiveratio(%) False Positive ratio (%) Parenclitic networks Linx UPV 0.00 0.02 0.04 0.0 0.1 0.2 0.3 0.4
  39. 39. 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 1.2 TruePositiveratio(%) False Positive ratio (%) Parenclitic networks Parenclitic only Raw features 0.00 0.02 0.04 0.0 0.1 0.2 0.3 0.4
  40. 40. All 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 1.2 TruePositiveratio(%) False Positive ratio (%) 0.00 0.02 0.04 0.06 0.08 0.10 0.0 0.1 0.2 0.3 0.4
  41. 41. 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 1.2 TruePositiveratio(%) False Positive ratio (%) Parenclitic networks Linx 0.00 0.02 0.04 0.0 0.1 0.2 0.3 0.4
  42. 42. Resumen de resultados Resultados obtenidos: muy buenos, si consideramos que •  No se utiliza eurística •  No hemos ido refinando el modelo durante años! Resultados positivos para bajos falsos positivos Mejor rendimiento para ciertos nichos de transacción: •  Riesgo de over-fitting y Paradoja de Simpson
  43. 43. Dos grupos de eventos Cada uno está asociado a una relación positiva entre f1 y f2 Feature 1 Feature2 Paradoja de Simpson
  44. 44. Feature 1 Feature2 Una relación “falsa” aparece cuando los dos grupos son considerados a la vez Dos grupos de eventos Cada uno está asociado a una relación positiva entre f1 y f2 Paradoja de Simpson
  45. 45. C. R. Charig et al.! Comparison of treatment of renal calculi by open surgery, percutaneous nephrolithotomy, and extracorporeal shockwave lithotripsy 2 tratamientos: A – Tratamiento invasivo cirurgico B - Percutaneous nephrolithotomy 2 grupos: Piedras pequeñas Piedras grandes
  46. 46. Tratamiento A Tratamiento B Piedras pequeñas 93%! 87% Piedras grandes 73%! 69% Total 78% 83%! C. R. Charig et al.! Comparison of treatment of renal calculi by open surgery, percutaneous nephrolithotomy, and extracorporeal shockwave lithotripsy
  47. 47. C. R. Charig et al.! Comparison of treatment of renal calculi by open surgery, percutaneous nephrolithotomy, and extracorporeal shockwave lithotripsy Tratamiento A Tratamiento B Piedras pequeñas 81/87 234/270 Piedras grandes 192/263 55/80 Total 273/350 289/350
  48. 48. Coste computacional Fase del cálculo! Tiempo! Preparación de las features 7.0 ms. Creación de redes y análisis 3.8 ms. Clasificación 2.6 ms. Proceso completo! 13.4 ms.! Xeon E5335 2GHz, 1 core, 1.2GB RAM utilizada
  49. 49. Mirando al futuro! ¿Como podemos mejorar los resultados?
  50. 50. Después de la validación … Implementar el algoritmo en un entorno operacional •  Retos técnicos de velocidad •  Integración con otros algoritmos Identificación y explotación de nichos Inclusión de eurística y conocimiento experto
  51. 51. … volver al InfoSec Falta de buenas bases de datos, con información sobre la dinámica normal
  52. 52. … y al análisis del cerebro Intra-subject Inter-subject 0.0 0.3 0.6 Intra-subject Inter-subject 0.0 0.3 0.6 Intra-subject Inter-subject 0.0 0.3 0.6 Intra-subject Inter-subject 0.0 0.3 0.6 Intra-subject Inter-subject 0.0 0.3 0.6 Intra-subject Inter-subject 0.0 0.3 0.6 Intra-subject Inter-subject 0.0 0.3 0.6 Intra-subject Inter-subject 0.0 0.3 0.6 Intra-subject Inter-subject 0.0 0.3 0.6 Intra-subject Inter-subject 0.0 0.3 0.6 Subject4Subject3Subject2Subject1 Subject 4Subject 3Subject 2Subject 1 Intra-subject Inter-subject 0.0 0.3 0.6 Intra-subject Inter-subject 0.0 0.3 0.6 Identity assurance basada en el análisis de la actividad cerebral
  53. 53. Bibliografía Zanin, M. et al. (2014). Parenclitic networks: uncovering new functions in biological data. Scientific reports, 4. Zanin, M., Sousa, P. A., & Menasalvas, E. (2014). Information content: Assessing meso-scale structures in complex networks. EPL, 106 (3), 30001. Zanin, M., & Papo, D. (2014). Characterizing Motif Dynamics of Electric Brain Activity Using Symbolic Analysis. Entropy, 16 (11), 5654-5667. Zanin, M. & Papo, D. Information systems as functional networks. In publication. Zanin, M. & Papo, D. Identity assurance through EEG recordings. In publication.

×