Aplicaciones de minería de
          datos

                Por:
    M.C. Leopoldo González Rosas
         www.cnys.com.mx
   campodeEncinos.wordpress.com
Agenda
• Presentación
• Motivación
• ¿qué es minería de datos?
  – Disciplinas involucradas
• Aplicaciones
  – Bibliotecas
  – Universidades
  – otras
• ¿cómo funciona?
  – Arquitectura de inteligencia de negocios
Agenda (cont.)
  – Metodología: El proceso de descubrimiento de
    conocimiento en bases de datos (KDD)
  – Recolección/preparación de datos
  – Algoritmos
  – Modelo predictivo y su interpretación
  – Utilizando los resultados
     • Toma de decisiones
     • Sistemas operacionales
• Software de minería de datos
• Minería de datos y ética
• Conclusión
Presentación
 Yo:
   Formación académica:
         Licenciatura en Ciencias de la computación – BUAP FCC
         Maestría en Ciencias con especialidad en Ingeniería en Sistemas - UDLAP
   Experiencia profesional
        CNyS S.C. - Consultoría (BI, BD, PM, desarrollo de software)
        gedas VW (BI, preventas, consultoría, LP)
        BBVA Bancomer (BI, LP)
        SFA Puebla (soporte técnico BD)
   Experiencia académica
     Programación
     Bases de datos / Inteligencia de negocios
     Universidades: UDLAP, UPAEP, BUAP
   Áreas de interés
     Bases de datos e inteligencia de negocios
     Desarrollo de software
     Proceso de enseñanza - aprendizaje
Motivación
• “Knowing is not enough; we must apply.
  Willing is not enough; we must do.”.
  Goethe
 Generamos datos de manera exponencial
   Era de información
 Obtener el conocimiento
  oculto en esos datos
   Datos  información  conocimiento
 Competir en este mundo de
  negocios globalizado
¿qué es minería de datos?
• Minería LA PREDICCION PARAproceso por el cual
      USAR
           de datos es el MEJORAR Y GANAR EN LOS
  generamos un modelo que sirva para la
                       NEGOCIOS
  predicción,
  – este modelo se genera a partir de datos
    aplicándoles algún algoritmo que construye el
    modelo.
• El modelo se evalúa para saber que tan
  certero será respecto a sus predicciones y
  posteriormente
• se utiliza para predecir el comportamiento
  de cualquier dato nuevo
¿qué es minería de datos? (cont.)
• Es la extracción de información
  implícita, previamente desconocida y
  potencialmente útil a partir de datos
  [Witten I.H. et al, 2011]
• Es una disciplina joven y de rápido
  crecimiento, conocida como KDD, …
  DM como la evolución de TI. [Han J. et
  al, 2012]
• Es la extracción automatizada de
  información escondida a partir de
  (grandes) bases de datos. Te permite
  ser proactivo. Prospectivo en lugar de
  retrospectivo[Thearling K.]
Minería de datos - disciplinas
ejemplo: reglas if-then
if tasaProducciónLagrimas = reducida
  then recomendacion = ninguna
Else
   if edad=joven and astigmatismo=no
   then recomendación = suaves
ejemplo: árbol de decisión
Aplicación en bibliotecas MBA
ID          PRODUCTOS

OCT-1   1   QA      QB

OCT-1   2   QC      QD

OCT-1   3   QE      QA

OCT-1   4   QB      QC

OCT-1   5   QD      QE   QA

OCT-2   6   QB      QC

OCT-2   7   QD      QE

OCT-2   8   QA      QB

OCT-2   9   QC      QA   QB

OCT-2   10 QC       QA   QB

OCT-2   11 QC       QA   QB

OCT-2   12 QC       QD   QE
Aplicación en bibliotecas DT
Aplicación en universidades
Aplicación universidades
Otras aplicaciones
• Marketing
• Predicción de ventas, precios, acciones e índices
  financieros.
• Detección de fraudes en tarjetas de crédito
• Clasificación y filtrado de documentos, e-mails y
  noticias.
• Análisis de llamadas en Centros de atención
  telefónica.
• Clasificación automática de Quejas y
  Sugerencias de Clientes.
Arquitectura de inteligencia de
             negocios
• Software del sistema (system software)
  – Sistemas operativos, DBMS, compiladores
• Software de aplicación (app software)
  – Operacional
    • OLTP y batch
    • Office, nomina, ventas, ERP
  – Para la toma de decisiones -> inteligencia
    de negocios
Arquitectura
Metodología: KDD
Metodología (cont.)
1) Establecer de manera precisa el problema a resolver
    - No gastes dinero, antes de comprar un software
       primero establece que es lo que quieres resolver
2) Exploración inicial
    -preparación y limpieza de datos
    -transformaciones de datos
    - Probar con estadística descriptiva para conocer datos
3) Construcción del modelo y validación
    - Probar algunos modelos y elegir el mejor para el
       problema que se está resolviendo
4) Liberación
    - Una vez construido el modelo se puede usar muchas
       veces
    - Los árboles de decisión son fáciles de liberar
Recolección/preparación de datos

• Extraer, transformar, cargar
  – Posiblemente ya existe un almacén de datos
• Limpieza / calidad de datos
• Transformaciones para la minería
  – “Discretizar” (ejemplo: E B R M)
• Muestra(s) -> vistas minables
  – Cómo se obtiene
  – Tamaño de la muestra
Algoritmos de minería de datos
• Clasificación – predicen una o más variables discretas,
  basandose en los otros atributos en el conjunto de datos.
  Ejemplo: árboles de decisión
• Regresion – predice una o más variables continuas, como
  perdida o ganancia, basandose en los otros atributos en el
  conjunto de datos.
• Segmentación – divide datos en grupos o clusters de
  articulos que tienen propiedades similares.
• Asociación - encuentran correlaciones entre los diferentes
  atributos de un conjunto de datos. Sirven para crear reglas
  de asociación por ejemplo para MBA.
• Análisis de secuencia – encuentra secuencias frecuentes o
  episodios en datos, como en un flujo de rutas Web.
Modelo predictivo y su interpretación



If temperatura = agradable then humedad = normal
Utilizando los resultados
• Se recorre el modelo cada vez que se desea
  predecir
  – Por ejemplo para decidir a quien otorgarle un
    apoyo adicional
  – Por ejemplo para decidir si se le presta o no
    dinero a alguien
• El modelo se puede usar para calificar a los
  datos de los sistemas operacionales para:
  – Por ejemplo: identificar “Preferentes”
  – Por ejemplo: identificar “ evasores fiscales”
Software de DM
•   Weka y pentaho
•   Rapid Miner
•   Microsoft SQL Server 2008 R2
•   sas enterprise miner
•   IBM spss
•   Oracle data mining
Minería de datos y ética
•Es difícil hacer que los datos sean “anónimos”
   – 85% de la gente puede ser identificada por su
     C.P., fecha de nacimiento y genero
•La minería de datos se usa para discriminar
  •Ejemplo: aplicación de prestamos: usar información como sexo,
  religión o raza no es ético
•La situación etica depende de la aplicación
  •Ejemplo: la misma información esta bien en aplicaciones medicas
•Los atributos pueden contener información
problematica
  –Ejemplo: el CP se puede correlacionar con la raza
Conclusiones
• Minería de datos se ha venido estudiando e
  investigando pero no se esta aplicando en los
  diversos problemas de nuestro país
  – Educación, salud, el campo, eliminar la pobreza
• Mientras tenemos científicos trabajando en este
  tema, debemos preparar a las personas que lo
  aplicarán. (astrónomos y astronautas)
• Es una tecnología que ya está al alcance de todo
  el mundo
• ¿Y el e-commerce? ¿Y la nube? ¿y las iPads? …
GRACIAS POR SU ATENCIÓN




  lgr811@cnys.com.mx
   lgr811@yahoo.com
Bibliografía
• campodeEncinos.wordpress.com
• http://catarina.udlap.mx/u_dl_a/tales/documentos/msp/gonzalez
  _r_l/
• http://www.uppuebla.edu.mx/Revista/revista10.pdf
• http://hmi.ucsd.edu/pdf/HMI_2009_ConsumerReport_Dec9_2009
  .pdf
• http://www.cs.waikato.ac.nz/~ml/weka/book.html
• Mark Hall, Eibe Frank, Geoffrey Holmes, Bernhard Pfahringer,
  Peter Reutemann, Ian H. Witten (2009); The WEKA Data Mining
  Software: An Update; SIGKDD Explorations, Volume 11, Issue 1
• Kiron D. et al. Analytics:the widening divide – how companies are
  achieving competitive advantage through analytics. MIT
  Sloan/IBM research report fall 2011
• http://www.kdnuggets.com/software/suites.html
• http://ccita2010.utmetropolitana.edu.mx/recursos/Recursos_digit
  ales.pdf

aplicaciones de minería de datos

  • 1.
    Aplicaciones de mineríade datos Por: M.C. Leopoldo González Rosas www.cnys.com.mx campodeEncinos.wordpress.com
  • 2.
    Agenda • Presentación • Motivación •¿qué es minería de datos? – Disciplinas involucradas • Aplicaciones – Bibliotecas – Universidades – otras • ¿cómo funciona? – Arquitectura de inteligencia de negocios
  • 3.
    Agenda (cont.) – Metodología: El proceso de descubrimiento de conocimiento en bases de datos (KDD) – Recolección/preparación de datos – Algoritmos – Modelo predictivo y su interpretación – Utilizando los resultados • Toma de decisiones • Sistemas operacionales • Software de minería de datos • Minería de datos y ética • Conclusión
  • 4.
    Presentación  Yo:  Formación académica:  Licenciatura en Ciencias de la computación – BUAP FCC  Maestría en Ciencias con especialidad en Ingeniería en Sistemas - UDLAP  Experiencia profesional  CNyS S.C. - Consultoría (BI, BD, PM, desarrollo de software)  gedas VW (BI, preventas, consultoría, LP)  BBVA Bancomer (BI, LP)  SFA Puebla (soporte técnico BD)  Experiencia académica  Programación  Bases de datos / Inteligencia de negocios  Universidades: UDLAP, UPAEP, BUAP  Áreas de interés  Bases de datos e inteligencia de negocios  Desarrollo de software  Proceso de enseñanza - aprendizaje
  • 5.
    Motivación • “Knowing isnot enough; we must apply. Willing is not enough; we must do.”. Goethe  Generamos datos de manera exponencial  Era de información  Obtener el conocimiento oculto en esos datos  Datos  información  conocimiento  Competir en este mundo de negocios globalizado
  • 6.
    ¿qué es mineríade datos? • Minería LA PREDICCION PARAproceso por el cual USAR de datos es el MEJORAR Y GANAR EN LOS generamos un modelo que sirva para la NEGOCIOS predicción, – este modelo se genera a partir de datos aplicándoles algún algoritmo que construye el modelo. • El modelo se evalúa para saber que tan certero será respecto a sus predicciones y posteriormente • se utiliza para predecir el comportamiento de cualquier dato nuevo
  • 7.
    ¿qué es mineríade datos? (cont.) • Es la extracción de información implícita, previamente desconocida y potencialmente útil a partir de datos [Witten I.H. et al, 2011] • Es una disciplina joven y de rápido crecimiento, conocida como KDD, … DM como la evolución de TI. [Han J. et al, 2012] • Es la extracción automatizada de información escondida a partir de (grandes) bases de datos. Te permite ser proactivo. Prospectivo en lugar de retrospectivo[Thearling K.]
  • 8.
    Minería de datos- disciplinas
  • 9.
    ejemplo: reglas if-then iftasaProducciónLagrimas = reducida then recomendacion = ninguna Else if edad=joven and astigmatismo=no then recomendación = suaves
  • 10.
  • 11.
    Aplicación en bibliotecasMBA ID PRODUCTOS OCT-1 1 QA QB OCT-1 2 QC QD OCT-1 3 QE QA OCT-1 4 QB QC OCT-1 5 QD QE QA OCT-2 6 QB QC OCT-2 7 QD QE OCT-2 8 QA QB OCT-2 9 QC QA QB OCT-2 10 QC QA QB OCT-2 11 QC QA QB OCT-2 12 QC QD QE
  • 12.
  • 13.
  • 14.
  • 15.
    Otras aplicaciones • Marketing •Predicción de ventas, precios, acciones e índices financieros. • Detección de fraudes en tarjetas de crédito • Clasificación y filtrado de documentos, e-mails y noticias. • Análisis de llamadas en Centros de atención telefónica. • Clasificación automática de Quejas y Sugerencias de Clientes.
  • 16.
    Arquitectura de inteligenciade negocios • Software del sistema (system software) – Sistemas operativos, DBMS, compiladores • Software de aplicación (app software) – Operacional • OLTP y batch • Office, nomina, ventas, ERP – Para la toma de decisiones -> inteligencia de negocios
  • 17.
  • 18.
  • 19.
    Metodología (cont.) 1) Establecerde manera precisa el problema a resolver - No gastes dinero, antes de comprar un software primero establece que es lo que quieres resolver 2) Exploración inicial -preparación y limpieza de datos -transformaciones de datos - Probar con estadística descriptiva para conocer datos 3) Construcción del modelo y validación - Probar algunos modelos y elegir el mejor para el problema que se está resolviendo 4) Liberación - Una vez construido el modelo se puede usar muchas veces - Los árboles de decisión son fáciles de liberar
  • 20.
    Recolección/preparación de datos •Extraer, transformar, cargar – Posiblemente ya existe un almacén de datos • Limpieza / calidad de datos • Transformaciones para la minería – “Discretizar” (ejemplo: E B R M) • Muestra(s) -> vistas minables – Cómo se obtiene – Tamaño de la muestra
  • 21.
    Algoritmos de mineríade datos • Clasificación – predicen una o más variables discretas, basandose en los otros atributos en el conjunto de datos. Ejemplo: árboles de decisión • Regresion – predice una o más variables continuas, como perdida o ganancia, basandose en los otros atributos en el conjunto de datos. • Segmentación – divide datos en grupos o clusters de articulos que tienen propiedades similares. • Asociación - encuentran correlaciones entre los diferentes atributos de un conjunto de datos. Sirven para crear reglas de asociación por ejemplo para MBA. • Análisis de secuencia – encuentra secuencias frecuentes o episodios en datos, como en un flujo de rutas Web.
  • 22.
    Modelo predictivo ysu interpretación If temperatura = agradable then humedad = normal
  • 23.
    Utilizando los resultados •Se recorre el modelo cada vez que se desea predecir – Por ejemplo para decidir a quien otorgarle un apoyo adicional – Por ejemplo para decidir si se le presta o no dinero a alguien • El modelo se puede usar para calificar a los datos de los sistemas operacionales para: – Por ejemplo: identificar “Preferentes” – Por ejemplo: identificar “ evasores fiscales”
  • 24.
    Software de DM • Weka y pentaho • Rapid Miner • Microsoft SQL Server 2008 R2 • sas enterprise miner • IBM spss • Oracle data mining
  • 25.
    Minería de datosy ética •Es difícil hacer que los datos sean “anónimos” – 85% de la gente puede ser identificada por su C.P., fecha de nacimiento y genero •La minería de datos se usa para discriminar •Ejemplo: aplicación de prestamos: usar información como sexo, religión o raza no es ético •La situación etica depende de la aplicación •Ejemplo: la misma información esta bien en aplicaciones medicas •Los atributos pueden contener información problematica –Ejemplo: el CP se puede correlacionar con la raza
  • 26.
    Conclusiones • Minería dedatos se ha venido estudiando e investigando pero no se esta aplicando en los diversos problemas de nuestro país – Educación, salud, el campo, eliminar la pobreza • Mientras tenemos científicos trabajando en este tema, debemos preparar a las personas que lo aplicarán. (astrónomos y astronautas) • Es una tecnología que ya está al alcance de todo el mundo • ¿Y el e-commerce? ¿Y la nube? ¿y las iPads? …
  • 27.
    GRACIAS POR SUATENCIÓN lgr811@cnys.com.mx lgr811@yahoo.com
  • 28.
    Bibliografía • campodeEncinos.wordpress.com • http://catarina.udlap.mx/u_dl_a/tales/documentos/msp/gonzalez _r_l/ • http://www.uppuebla.edu.mx/Revista/revista10.pdf • http://hmi.ucsd.edu/pdf/HMI_2009_ConsumerReport_Dec9_2009 .pdf • http://www.cs.waikato.ac.nz/~ml/weka/book.html • Mark Hall, Eibe Frank, Geoffrey Holmes, Bernhard Pfahringer, Peter Reutemann, Ian H. Witten (2009); The WEKA Data Mining Software: An Update; SIGKDD Explorations, Volume 11, Issue 1 • Kiron D. et al. Analytics:the widening divide – how companies are achieving competitive advantage through analytics. MIT Sloan/IBM research report fall 2011 • http://www.kdnuggets.com/software/suites.html • http://ccita2010.utmetropolitana.edu.mx/recursos/Recursos_digit ales.pdf