SlideShare una empresa de Scribd logo
1 de 17
Descargar para leer sin conexión
Análisis de datos: una
breve muestra de sus
aplicaciones
Jorge Martínez Ortega
Diciembre 10, 2015
¿Qué tienen en común?
• Un experimento de Altas Energías
• Una Startup dedicada a las microfinanzas
• El gobierno
Respuesta
• Que utilizan métodos estadísticos de
clasificación para mejorar sus
procesos. (Machine Learning)
Machine Learning
Métodos de clasificación
Problema 1
• 1.7M de colisiones por segundo
• 50 eventos relevantes por
segundo guardados
• 5M de eventos después de hacer
un preselección en parámetros
físicos.
• 7K señal, 5M ruido.
• Encontrar una muestra
suficientemente limpia para
permitir hacer mediciones
precisión. pureza ~ 5%, con 5K+
eventos de señal.
¿Qué se quería medir?
• Se quería medir las
propiedades del mesón B0
s.
En particular sus parámetros
de violación CP.
• Los parámetros de violación
de CP indican qué tan distinto
es el comportamiento de la
materia y la antimateria.
• La teoría predecía pequeña
violación de CP. Sin embargo,
medir un efecto significaría
medir un nuevo fenómeno de
la naturaleza.
Solución
• Se generaron muestras MC
con las propiedades de la
señal, y los diferentes tipos de
ruido (2 tipos: combinatorio y
de decaimientos similares).
• Se entrenaron dos Random
Forests para clasificar cada
tipo de ruido.
• Después de aplicaron ambos
entrenamientos a la muestra
real (5M de eventos), y se logro
obtener 6k+ eventos de señal
por 100k eventos de ruido.
Resultado
• El resultado se obtuvo
consistente con la teoría.
• Se disminuyó a la mitad la
incertidumbre de la medición
con respecto a la última
medición del experimento.
• LHCb mejoró la medición un
años después. (Con un
detector optimizado para este
tipo de física),
Problema 2
• Una startup con menos de
700 préstamos otorgados.
• 70% de impago.
• Se necesita reducir el impago
a 20% para que la empresa
pueda ser viable.
¿Qué se necesita medir?
• Obtener alguna calificación que se pueda traducir
a riesgo crediticio, es decir, a probabilidad de
incumplimiento.
• Para esto se usó información tradicional como
Historial Crediticio y una Forma llenada en linea;
así como información no tradicional como:
Información de Redes Sociales, Huella en Linea,
Grafo Social, Técnicas de Identificación de
Dispositivos.
¿Qué se usó?
• Desde modelos tradicionales como regresiones
lineales logísticas
• Modelos bayesianos
• Random Forests
• k-Nearest Neighbours
• Combinados con una red neuronal.
Resultados
• Se logró reducir el impago a niveles del 20% en el
primer préstamo.
• La empresa acaba de cumplir su tercer año.
• Ha recibido más de 5M de dólares de inversión.
• Sigue creciendo en número de clientes y con finanzas
saludables
Problema 3
• El gobierno Federal está
obligado a responder las
solicitudes de atención
ciudadana.
• Al recibirlas, una persona
debe leerlas y clasificarlas
conforme a qué dependencia
debe atender la solicitud.
• ¿Se puede automatizar esta
tarea?
Status
• Usando técnicas de NLP se
hace un análisis del texto
recibido.
• Cada palabra representa una
característica del documento.
• Usando un Random Forest se
puede predecir a qué
dependencia debe dirigirse la
solicitud.
• La solución 0 ya está, pero el
desarrollo sigue activo.
Lenguajes y Paquetes
Usados:
• C++ (TMVA/ Cern ROOT)
• R (muchísimos paquetes)
• python (nltk, scikit-learn)
Conclusiones
• Existen muchos problemas en las más diversas áreas
que se pueden atacar usando las mismas técnicas.
• El análisis de datos predictivo, en particular los métodos
estadísticos de clasificación están en auge, y serán
usados cada vez más en problemas cada vez más
complicados.
• Recomendación: exploren y aprendan cada nueva
técnica y paquete que se les presente. En cualquier
momento puede llegar el problema que se puede
solucionar con dicha técnica.
Gracias por su
atención!

Más contenido relacionado

Similar a Machine Learning: una muestra de distintas aplicaciones. (8)

Fundamentos Minería Datos
Fundamentos Minería DatosFundamentos Minería Datos
Fundamentos Minería Datos
 
Mineria1 2010
Mineria1 2010Mineria1 2010
Mineria1 2010
 
Data mining
Data miningData mining
Data mining
 
Data mining
Data miningData mining
Data mining
 
Minería de Procesos y de Reglas de Negocio
Minería de Procesos y de Reglas de NegocioMinería de Procesos y de Reglas de Negocio
Minería de Procesos y de Reglas de Negocio
 
Nivel de Servicios de TIC
Nivel de Servicios de TICNivel de Servicios de TIC
Nivel de Servicios de TIC
 
Presentación high availability servers
Presentación high availability serversPresentación high availability servers
Presentación high availability servers
 
Market Analytics by Reporte Inmobiliario
Market Analytics by Reporte InmobiliarioMarket Analytics by Reporte Inmobiliario
Market Analytics by Reporte Inmobiliario
 

Último

Cuaderno de trabajo Matemática 3 tercer grado.pdf
Cuaderno de trabajo Matemática 3 tercer grado.pdfCuaderno de trabajo Matemática 3 tercer grado.pdf
Cuaderno de trabajo Matemática 3 tercer grado.pdf
NancyLoaa
 
6.-Como-Atraer-El-Amor-01-Lain-Garcia-Calvo.pdf
6.-Como-Atraer-El-Amor-01-Lain-Garcia-Calvo.pdf6.-Como-Atraer-El-Amor-01-Lain-Garcia-Calvo.pdf
6.-Como-Atraer-El-Amor-01-Lain-Garcia-Calvo.pdf
MiNeyi1
 
NUEVAS DIAPOSITIVAS POSGRADO Gestion Publica.pdf
NUEVAS DIAPOSITIVAS POSGRADO Gestion Publica.pdfNUEVAS DIAPOSITIVAS POSGRADO Gestion Publica.pdf
NUEVAS DIAPOSITIVAS POSGRADO Gestion Publica.pdf
UPTAIDELTACHIRA
 
La empresa sostenible: Principales Características, Barreras para su Avance y...
La empresa sostenible: Principales Características, Barreras para su Avance y...La empresa sostenible: Principales Características, Barreras para su Avance y...
La empresa sostenible: Principales Características, Barreras para su Avance y...
JonathanCovena1
 

Último (20)

SELECCIÓN DE LA MUESTRA Y MUESTREO EN INVESTIGACIÓN CUALITATIVA.pdf
SELECCIÓN DE LA MUESTRA Y MUESTREO EN INVESTIGACIÓN CUALITATIVA.pdfSELECCIÓN DE LA MUESTRA Y MUESTREO EN INVESTIGACIÓN CUALITATIVA.pdf
SELECCIÓN DE LA MUESTRA Y MUESTREO EN INVESTIGACIÓN CUALITATIVA.pdf
 
proyecto de mayo inicial 5 añitos aprender es bueno para tu niño
proyecto de mayo inicial 5 añitos aprender es bueno para tu niñoproyecto de mayo inicial 5 añitos aprender es bueno para tu niño
proyecto de mayo inicial 5 añitos aprender es bueno para tu niño
 
SEXTO SEGUNDO PERIODO EMPRENDIMIENTO.pptx
SEXTO SEGUNDO PERIODO EMPRENDIMIENTO.pptxSEXTO SEGUNDO PERIODO EMPRENDIMIENTO.pptx
SEXTO SEGUNDO PERIODO EMPRENDIMIENTO.pptx
 
Estrategia de prompts, primeras ideas para su construcción
Estrategia de prompts, primeras ideas para su construcciónEstrategia de prompts, primeras ideas para su construcción
Estrategia de prompts, primeras ideas para su construcción
 
Cuaderno de trabajo Matemática 3 tercer grado.pdf
Cuaderno de trabajo Matemática 3 tercer grado.pdfCuaderno de trabajo Matemática 3 tercer grado.pdf
Cuaderno de trabajo Matemática 3 tercer grado.pdf
 
6.-Como-Atraer-El-Amor-01-Lain-Garcia-Calvo.pdf
6.-Como-Atraer-El-Amor-01-Lain-Garcia-Calvo.pdf6.-Como-Atraer-El-Amor-01-Lain-Garcia-Calvo.pdf
6.-Como-Atraer-El-Amor-01-Lain-Garcia-Calvo.pdf
 
NUEVAS DIAPOSITIVAS POSGRADO Gestion Publica.pdf
NUEVAS DIAPOSITIVAS POSGRADO Gestion Publica.pdfNUEVAS DIAPOSITIVAS POSGRADO Gestion Publica.pdf
NUEVAS DIAPOSITIVAS POSGRADO Gestion Publica.pdf
 
Tema 8.- PROTECCION DE LOS SISTEMAS DE INFORMACIÓN.pdf
Tema 8.- PROTECCION DE LOS SISTEMAS DE INFORMACIÓN.pdfTema 8.- PROTECCION DE LOS SISTEMAS DE INFORMACIÓN.pdf
Tema 8.- PROTECCION DE LOS SISTEMAS DE INFORMACIÓN.pdf
 
La empresa sostenible: Principales Características, Barreras para su Avance y...
La empresa sostenible: Principales Características, Barreras para su Avance y...La empresa sostenible: Principales Características, Barreras para su Avance y...
La empresa sostenible: Principales Características, Barreras para su Avance y...
 
Dinámica florecillas a María en el mes d
Dinámica florecillas a María en el mes dDinámica florecillas a María en el mes d
Dinámica florecillas a María en el mes d
 
INSTRUCCION PREPARATORIA DE TIRO .pptx
INSTRUCCION PREPARATORIA DE TIRO   .pptxINSTRUCCION PREPARATORIA DE TIRO   .pptx
INSTRUCCION PREPARATORIA DE TIRO .pptx
 
LA LITERATURA DEL BARROCO 2023-2024pptx.pptx
LA LITERATURA DEL BARROCO 2023-2024pptx.pptxLA LITERATURA DEL BARROCO 2023-2024pptx.pptx
LA LITERATURA DEL BARROCO 2023-2024pptx.pptx
 
Registro Auxiliar - Primaria 2024 (1).pptx
Registro Auxiliar - Primaria  2024 (1).pptxRegistro Auxiliar - Primaria  2024 (1).pptx
Registro Auxiliar - Primaria 2024 (1).pptx
 
ACERTIJO DE LA BANDERA OLÍMPICA CON ECUACIONES DE LA CIRCUNFERENCIA. Por JAVI...
ACERTIJO DE LA BANDERA OLÍMPICA CON ECUACIONES DE LA CIRCUNFERENCIA. Por JAVI...ACERTIJO DE LA BANDERA OLÍMPICA CON ECUACIONES DE LA CIRCUNFERENCIA. Por JAVI...
ACERTIJO DE LA BANDERA OLÍMPICA CON ECUACIONES DE LA CIRCUNFERENCIA. Por JAVI...
 
PINTURA DEL RENACIMIENTO EN ESPAÑA (SIGLO XVI).ppt
PINTURA DEL RENACIMIENTO EN ESPAÑA (SIGLO XVI).pptPINTURA DEL RENACIMIENTO EN ESPAÑA (SIGLO XVI).ppt
PINTURA DEL RENACIMIENTO EN ESPAÑA (SIGLO XVI).ppt
 
Unidad 3 | Metodología de la Investigación
Unidad 3 | Metodología de la InvestigaciónUnidad 3 | Metodología de la Investigación
Unidad 3 | Metodología de la Investigación
 
Qué es la Inteligencia artificial generativa
Qué es la Inteligencia artificial generativaQué es la Inteligencia artificial generativa
Qué es la Inteligencia artificial generativa
 
CALENDARIZACION DE MAYO / RESPONSABILIDAD
CALENDARIZACION DE MAYO / RESPONSABILIDADCALENDARIZACION DE MAYO / RESPONSABILIDAD
CALENDARIZACION DE MAYO / RESPONSABILIDAD
 
ACERTIJO DE POSICIÓN DE CORREDORES EN LA OLIMPIADA. Por JAVIER SOLIS NOYOLA
ACERTIJO DE POSICIÓN DE CORREDORES EN LA OLIMPIADA. Por JAVIER SOLIS NOYOLAACERTIJO DE POSICIÓN DE CORREDORES EN LA OLIMPIADA. Por JAVIER SOLIS NOYOLA
ACERTIJO DE POSICIÓN DE CORREDORES EN LA OLIMPIADA. Por JAVIER SOLIS NOYOLA
 
Feliz Día de la Madre - 5 de Mayo, 2024.pdf
Feliz Día de la Madre - 5 de Mayo, 2024.pdfFeliz Día de la Madre - 5 de Mayo, 2024.pdf
Feliz Día de la Madre - 5 de Mayo, 2024.pdf
 

Machine Learning: una muestra de distintas aplicaciones.

  • 1. Análisis de datos: una breve muestra de sus aplicaciones Jorge Martínez Ortega Diciembre 10, 2015
  • 2. ¿Qué tienen en común? • Un experimento de Altas Energías • Una Startup dedicada a las microfinanzas • El gobierno
  • 3. Respuesta • Que utilizan métodos estadísticos de clasificación para mejorar sus procesos. (Machine Learning)
  • 5. Problema 1 • 1.7M de colisiones por segundo • 50 eventos relevantes por segundo guardados • 5M de eventos después de hacer un preselección en parámetros físicos. • 7K señal, 5M ruido. • Encontrar una muestra suficientemente limpia para permitir hacer mediciones precisión. pureza ~ 5%, con 5K+ eventos de señal.
  • 6. ¿Qué se quería medir? • Se quería medir las propiedades del mesón B0 s. En particular sus parámetros de violación CP. • Los parámetros de violación de CP indican qué tan distinto es el comportamiento de la materia y la antimateria. • La teoría predecía pequeña violación de CP. Sin embargo, medir un efecto significaría medir un nuevo fenómeno de la naturaleza.
  • 7. Solución • Se generaron muestras MC con las propiedades de la señal, y los diferentes tipos de ruido (2 tipos: combinatorio y de decaimientos similares). • Se entrenaron dos Random Forests para clasificar cada tipo de ruido. • Después de aplicaron ambos entrenamientos a la muestra real (5M de eventos), y se logro obtener 6k+ eventos de señal por 100k eventos de ruido.
  • 8. Resultado • El resultado se obtuvo consistente con la teoría. • Se disminuyó a la mitad la incertidumbre de la medición con respecto a la última medición del experimento. • LHCb mejoró la medición un años después. (Con un detector optimizado para este tipo de física),
  • 9. Problema 2 • Una startup con menos de 700 préstamos otorgados. • 70% de impago. • Se necesita reducir el impago a 20% para que la empresa pueda ser viable.
  • 10. ¿Qué se necesita medir? • Obtener alguna calificación que se pueda traducir a riesgo crediticio, es decir, a probabilidad de incumplimiento. • Para esto se usó información tradicional como Historial Crediticio y una Forma llenada en linea; así como información no tradicional como: Información de Redes Sociales, Huella en Linea, Grafo Social, Técnicas de Identificación de Dispositivos.
  • 11. ¿Qué se usó? • Desde modelos tradicionales como regresiones lineales logísticas • Modelos bayesianos • Random Forests • k-Nearest Neighbours • Combinados con una red neuronal.
  • 12. Resultados • Se logró reducir el impago a niveles del 20% en el primer préstamo. • La empresa acaba de cumplir su tercer año. • Ha recibido más de 5M de dólares de inversión. • Sigue creciendo en número de clientes y con finanzas saludables
  • 13. Problema 3 • El gobierno Federal está obligado a responder las solicitudes de atención ciudadana. • Al recibirlas, una persona debe leerlas y clasificarlas conforme a qué dependencia debe atender la solicitud. • ¿Se puede automatizar esta tarea?
  • 14. Status • Usando técnicas de NLP se hace un análisis del texto recibido. • Cada palabra representa una característica del documento. • Usando un Random Forest se puede predecir a qué dependencia debe dirigirse la solicitud. • La solución 0 ya está, pero el desarrollo sigue activo.
  • 15. Lenguajes y Paquetes Usados: • C++ (TMVA/ Cern ROOT) • R (muchísimos paquetes) • python (nltk, scikit-learn)
  • 16. Conclusiones • Existen muchos problemas en las más diversas áreas que se pueden atacar usando las mismas técnicas. • El análisis de datos predictivo, en particular los métodos estadísticos de clasificación están en auge, y serán usados cada vez más en problemas cada vez más complicados. • Recomendación: exploren y aprendan cada nueva técnica y paquete que se les presente. En cualquier momento puede llegar el problema que se puede solucionar con dicha técnica.