9. ML aplicado a ciberseguridad:
¿Qué se está haciendo realmente?
9
"I think machine intelligence is useful
for defense, not offense," Shamir
said.
https://www.rsaconference.com/events/us17/agenda/sessions/7580-the-cryptographers-panel
10. ML en ciberseguridad: Seguridad Defensiva
10
Security Architecture & Design
Security operations – Gestión de la configuración (asignación de
recursos), disponibilidad, verificación técnica…
Software Development Security
Information Security Governance & Risk Management &
Compliance
Telecommunications & Network Security - análisis de
tráfico/registro (IDS/IPS, logs…), fuga de información, phising
detection, …
Fraud detection / Malware prevention
User Behavior anomaly detection
Entity Behaviour Analytics (UEBA) & ML
• Disciplinas de la ciberseguridad (defensiva) de las que puede beneficiarse el
Machine Learning:
▪ Data Security / Cryptography - Protección de la información (cifrado de la
información).
▪ Access Control - Autenticación, autorización, identificación y perfilado.
13. Limitaciones ML. La realidad!!!
13
• CANTIDAD y CALIDAD DE DATOS - ¿Cuántos necesito? ¿Entrenar con poca
información? ¿APT?
• DOMINIO DE APLICACIÓN: Muchas “muestras de buenos”, pocas “muestras de malos”
- ¿Lista blanca?
• ENTRENAMIENTO “ESTÁTICO”. Mitos: “machine learning hazlo una vez y olvídate”,
“aprender en el lado del cliente”, “soluciones de seguridad basada sólo en modelos
ML”…
• PRIVACIDAD de los modelos y los datos - ¿Dónde entreno?
• LIMITACIÓN por la especialización en algoritmos de detección. ¿No podemos hacer
nada mejor? ¿E2E?
• ¿ML + seguridad != ML seguro? – Formalización de ML seguros
• Seguridad ofensiva es una realidad
14. Limitaciones ML. La realidad!!!
14Oct – 2017 https://arxiv.org/pdf/1702.06162.pdf
15. Limitaciones ML. La realidad!!!
• Privacidad y modelos de entrenamiento compartidos
15
“To train a neural network that is fully encrypted during training (trained on
unencrypted data). The result will be a neural network with two beneficial properties.
First, the neural network's intelligence is protected from those who might want to steal
it, allowing valuable AIs to be trained in insecure environments without risking theft of
their intelligence. Secondly, the network can only make encrypted predictions (which
presumably have no impact on the outside world because the outside world cannot
understand the predictions without a secret key…”.
https://iamtrask.github.io/2017/03/17/safe-ai/
https://arxiv.org/abs/1412.6181
16. • “Detectar lo desconocido y ocultar lo conocido” (APT, Behaviour
Analytics, Usability, …)
16
Limitaciones ML. La realidad!!!
https://blog.openai.com/robots-that-learn/
“Humans learn new concepts with very little supervision – e.g. a
child can generalize the concept of “giraffe” from a single picture
in a book – yet our best deep learning systems need hundreds or
thousands of examples. This motivates the setting we are
interested in: “one-shot” learning, which consists of learning
a class from a single labelled example…”
“Supervised deep learning paradigm does not offer a satisfactory
solution for learning new concepts rapidly from little data…”
Zero-shot learning aims to recognize objects whose
instances may not have been seen during training
17. Continuous Delivery & Continuous Deployment
• Machine learning como un elemento más del ciclo de
seguridad.
17
23. Seguridad ofensiva basada/contra ML
23
• Tipos de ataques:
• Ataques clásicos (mejorados con ML) - fuzzing, password guessing,
• Sistemas “sintéticos” atacando a algoritmos de machine learning
• Ataques ML a sistemas ML (Adversarial Machine Learning)
• Ataques mixtos con ML (robo del modelo, puertas traseras, etc.)
Off the Beaten Path: Machine Learning for Offensive Security -
https://pdfs.semanticscholar.org/e0d6/af4067d0b51794c3ae91fccfd1909d784a5b.pdf
Input
Training
modelalgorithm
Output
24. 1. Ataques clásicos (mejorados con ML)
24
https://arxiv.org/pdf/1709.00440.pdf
https://www.youtube.com/watch?v=wbRx18VZlYA
DEF CON 25 (2017) - Weaponizing Machine Learning
30. 3. Ataques basados en ML…
• Tipos de ataques
• Evasion Attacks
• Poisoning Attacks
30
31. Generative Adversarial Networks
31
• Dos redes neuronales compitiendo, el
generador y el discriminador.
• El generador crea nuevas muestras de datos
a partir de entradas ruidosas.
• El discriminador recibe muestras tanto de
datos de entrenamiento como de los que
provienen del generador y debe de ser capaz
de diferenciar entre las dos fuentes.
• Ambas se encuentran en un “juego”
continuo en el que el generador aprende a
crear cada vez muestras más realistas y el
discriminador aprende cada vez a diferenciar
mejor entre las muestras reales y las
generadas.
34. Cleverhans (https://github.com/tensorflow/cleverhans)
Ataque: Jacobian-based saliency map approach (JSMA). 34
Jacobian-based saliency map
approach (JSMA).
https://arxiv.org/pdf/1511.07528.pdf
Rubbish class!!!
“We show that our algorithms can
reliably produce samples correctly
classified by human subjects but
misclassified in specific targets by
a DNN with a 97% adversarial
success rate while only modifying
on average 4.02% of the input
features per sample”
38. 38
Ejemplo sencillo - Ataque en regresión logística
w, b parámetros desconocidos
Pasos a seguir:
1. Hacer peticiones con entrada xii, obteniendo yi = f(xi). Si xi tiene n
dimensiones, son sólo necesarias n+1 consultas.
2. Sustituir para cada (xi, yi) en ecuación.
3. Formar un sistema de ecuaciones con w, b y resolver, obtenido los
valores de w y b. Sustityendo esos valores en f(xi) se obtiene el modelo.
x1
xn
x2
y1
y2
yn
Consultas Respuestas
del modelo
42. Formalización de seguridad en Machine Learning
42
Ataques de colisión
en algoritmos de hash en criptografía
http://www.cs.columbia.edu/igert/courses/E6898/privacy-igert.pdf
ML + Seguridad != ML Seguro
¿Está todo perdido?
43. Recomendaciones de defensa frente a
“Adversarial Machine Learning”
• Formalización y definición de algoritmos de
aprendizaje “seguros” (rubbish class).
• Recomendación de uso de diversos sistemas
de clasificación.
• Engañar al atacante, con información falsa,
mientras adquiere conocimineto del
sistema.
• Estudio del aprendizaje “conservando la
privacidad”.
• Análisis de robustez basada en modelos de
adversarial machine learning.
• Diseño de arquitectura “segura” global.
• Gestión del riesgo.
43
https://pdfs.semanticscholar.org/5f19/8e9f1a6cace1fc
ee5ec53f5d35d9d83af6b7.pdf
45. Ciclo de vida del Machine Learning “seguro”
45
Reducción
dimensionalidad
- Estadística
- Experiencia
Normalización
Selección del
algoritmo a usar
Algoritmos
Selección de los
parámetros del
algoritmo
- Por defecto
- Estudio
Conjunto de
datos en un
dominio
Aplicación del
algoritmo
Datos
Evaluación
resultados
Aplicación
del modelo
Resultados
Retroalimentación
…
Seguridad
46. Dr. Alfonso Muñoz
Head of Cybersecurity Lab (i4S BBVA)
alfonso@criptored.com - Twitter: @mindcrypt
http://alfonsocv.com
https://es.linkedin.com/in/alfonso-muñoz-phd-1984141b
Senior Security Researcher, Offensive/Defensive security, CryptoStegoExpert,
Machine Learning lover and passionate traveler. Co-editor @Criptored
Machine learning aplicado a ciberseguridad.
Limitaciones y seguridad ofensiva