5. Problema 1
• 1.7M de colisiones por segundo
• 50 eventos relevantes por
segundo guardados
• 5M de eventos después de hacer
un preselección en parámetros
físicos.
• 7K señal, 5M ruido.
• Encontrar una muestra
suficientemente limpia para
permitir hacer mediciones
precisión. pureza ~ 5%, con 5K+
eventos de señal.
6. ¿Qué se quería medir?
• Se quería medir las
propiedades del mesón B0
s.
En particular sus parámetros
de violación CP.
• Los parámetros de violación
de CP indican qué tan distinto
es el comportamiento de la
materia y la antimateria.
• La teoría predecía pequeña
violación de CP. Sin embargo,
medir un efecto significaría
medir un nuevo fenómeno de
la naturaleza.
7. Solución
• Se generaron muestras MC
con las propiedades de la
señal, y los diferentes tipos de
ruido (2 tipos: combinatorio y
de decaimientos similares).
• Se entrenaron dos Random
Forests para clasificar cada
tipo de ruido.
• Después de aplicaron ambos
entrenamientos a la muestra
real (5M de eventos), y se logro
obtener 6k+ eventos de señal
por 100k eventos de ruido.
8. Resultado
• El resultado se obtuvo
consistente con la teoría.
• Se disminuyó a la mitad la
incertidumbre de la medición
con respecto a la última
medición del experimento.
• LHCb mejoró la medición un
años después. (Con un
detector optimizado para este
tipo de física),
9. Problema 2
• Una startup con menos de
700 préstamos otorgados.
• 70% de impago.
• Se necesita reducir el impago
a 20% para que la empresa
pueda ser viable.
10. ¿Qué se necesita medir?
• Obtener alguna calificación que se pueda traducir
a riesgo crediticio, es decir, a probabilidad de
incumplimiento.
• Para esto se usó información tradicional como
Historial Crediticio y una Forma llenada en linea;
así como información no tradicional como:
Información de Redes Sociales, Huella en Linea,
Grafo Social, Técnicas de Identificación de
Dispositivos.
11. ¿Qué se usó?
• Desde modelos tradicionales como regresiones
lineales logísticas
• Modelos bayesianos
• Random Forests
• k-Nearest Neighbours
• Combinados con una red neuronal.
12. Resultados
• Se logró reducir el impago a niveles del 20% en el
primer préstamo.
• La empresa acaba de cumplir su tercer año.
• Ha recibido más de 5M de dólares de inversión.
• Sigue creciendo en número de clientes y con finanzas
saludables
13. Problema 3
• El gobierno Federal está
obligado a responder las
solicitudes de atención
ciudadana.
• Al recibirlas, una persona
debe leerlas y clasificarlas
conforme a qué dependencia
debe atender la solicitud.
• ¿Se puede automatizar esta
tarea?
14. Status
• Usando técnicas de NLP se
hace un análisis del texto
recibido.
• Cada palabra representa una
característica del documento.
• Usando un Random Forest se
puede predecir a qué
dependencia debe dirigirse la
solicitud.
• La solución 0 ya está, pero el
desarrollo sigue activo.
16. Conclusiones
• Existen muchos problemas en las más diversas áreas
que se pueden atacar usando las mismas técnicas.
• El análisis de datos predictivo, en particular los métodos
estadísticos de clasificación están en auge, y serán
usados cada vez más en problemas cada vez más
complicados.
• Recomendación: exploren y aprendan cada nueva
técnica y paquete que se les presente. En cualquier
momento puede llegar el problema que se puede
solucionar con dicha técnica.