MINERÍA DE DATOS
BASE DE DATOS AVANZADAS
QUE ES LA MINERÍA DE DATOS?
Aplicaciones
DD (Knowledge Discovery in Databases)
El proceso de extracción de conocimiento
Carácter multidisciplinar
Técnicas de minería de datos
Modelos descriptivos y modelos predictivos
Clasificaci6n de las técnicas de minería de datos
Fuentes de datos
Evaluaci6n de resultados
Sistemas de minería de datos
2
¿QUÉ ES LA MINERÍA DE DATOS?
3
APLICACIONES:
4
KDD (KNOWLEDGE DISCOVERY IN DATABASES)
5
EL PROCESO DE EXTRACCIÓN
DE CONOCIMIENTO
Limpieza de datos
 (eliminación de ruido e inconsistencias)
Integración de datos
 (combinación de múltiples fuentes de datos)
Reducción/Selección de datos
 (identificación de datos relevantes para el problema)
Transformación de datos
 (preparación de los datos para su análisis)
Minería de datos
 (técnicas de extracción de patrones y medidas de
interés)
Presentación de resultados
 (técnicas de visualización y de representación del
conocimiento) 6
KDD (KNOWLEDGE DISCOVERY IN DATABASES)
7
KDD (KNOWLEDGE DISCOVERY IN DATABASES)
8
KDD (KNOWLEDGE DISCOVERY IN DATABASES)
9
KDD (KNOWLEDGE DISCOVERY IN DATABASES)
KDD (KNOWLEDGE DISCOVERY IN DATABASES)
KDD (KNOWLEDGE DISCOVERY IN DATABASES)
KDD (KNOWLEDGE DISCOVERY IN DATABASES)
Clasificación de los modelos de minería de datos
En función de su propósito general:
13
Modelos descriptivos
• (describen el comportamiento de los datos de forma
que sea interpretable por un usuario experto).
Modelos predictivos
• (además de describir los datos, se utilizan para
predecir el valor de algún atributo desconocido).
TÉCNICAS DE MINERÍA DE DATOS:
EJEMPLOS
▪Reglas de asociación (modelo descriptivo)
▪Los compradores de pañales también suelen comprar cerveza.
▪Clustering (modelo descriptivo): Segmentación de los clientes de un
hipermercado:
▪ Clientes ocasionales que gastan mucho.
▪ Clientes habituales con presupuesto limitado.
▪ Clientes ocasionales con presupuesto limitado.
▪Clasificación (modelo predictivo):
▪ Datagramas que corresponden a intentos de intrusión.
▪ Perfil de un cliente de alto riesgo para préstamos bancarios.
19 de junio de 2023 REVISIÓN ANUAL 14
ALGUNAS TÉCNICAS DE MINERÍA DE DATOS
Caracterización o
resumen
Discriminación o
contraste
Patrones
frecuentes,
asociaciones y
correlaciones
Clasificación y
predicción
Detección de
agrupamientos
(clustering)
Detección de
anomalías
(outliers)
Análisis de
tendencias (series
temporales)
15
técnicas de minería de datos
TÉCNICAS DE MINERÍA DE DATOS
Las técnicas de minería de datos también se pueden clasificar
atendiendo a…
16
el tipo de datos que hay que analizar
el tipo de “conocimiento” que se obtiene
el tipo de herramienta que se utiliza
el dominio de aplicación
FUENTES DE DATOS
17
FUENTES DE DATOS
▪Bases de datos relacionales
▪Bases de datos multidimensionales (DW)
▪Bases de datos transaccionales
▪Series temporales, secuencias y data streams
▪Datos estructurados (grafos, redes sociales)
▪Datos espaciales y espaciotemporales
▪Textos e hipertextos (p.ej. Web)
▪Bases de datos multimedia (p.ej. Imágenes)
18
EVALUACIÓN DE RESULTADOS
19
EVALUACIÓN DE RESULTADOS
▪Un resultado es interesante si…
▪es comprensible (por seres humanos)
▪es válido con cierto grado de certeza
▪es potencialmente útil
▪es novedoso o sirve para validar una hipótesis
▪El interés de los resultados se puede evaluar
▪objetivamente (criterios estadísticos)
▪subjetivamente (perspectiva del usuario)
20
SISTEMAS DE MINERÍA DE DATOS
21
SISTEMAS DE MINERÍA DE DATOS: DESCRIPCIÓN
DE UNA TAREA DE MINERÍA DE DATOS:
Datos relevantes:
• lo que hay que analizar
Tipo de conocimiento:
• lo que se desea obtener
Conocimiento previo:
• background knowledge, para guiar el proceso
Medidas de interés:
• para evaluar los resultados obtenidos
Técnicas de representación:
• para representar los resultados obtenidos
22
APLICACIONES DE LA MINERÍA DE DATOS:
▪Recuperación de Información
▪Sistemas Médicos
▪Análisis de genes y proteínas
▪Tráfico
▪Hábitos de compra
▪Identificación de patrones en recursos humanos
▪Comportamiento en Internet
▪Juegos
▪Terrorismo
Y en diversas áreas de la ciencia e Ingeniería en donde se requiera el procesamiento
de la información.
23
SOFTWARE DE MINERÍA DE DATOS:
KNIME
http://www.knime.org/
RapidMiner
http://rapidminer.com/
Weka
http://www.cs.waikato.ac.nz/ml/weka/
R
http://www.r-project.org/
SPSS Modeler
http://www.spss.com/software/modeler/
SAS Enterprise Miner
http://www.sas.com/
24
Weka:
ÁRBOL DE DECISIÓN?
El concepto de árbol de decisión nos describe que este es un modelo predictivo de
posibles resultados en base a la selección de alternativas. En otras palabras, un
árbol de decisión es un mapa de posibles resultados de una serie de decisiones que
se relacionan entre sí.
Es el algoritmo perfecto para clasificar información y, más adelante, evaluar los
diferentes escenarios. Por lo tanto, para realizar una predicción, los árboles de
decisión te ayudarán a evaluar opciones eficientemente. De esta manera, la decisión
que tomes no será infundada, ni tomada a la ligera.
Un tipo de modelo, basado en métodos estadísticos y de programación web,
utilizado para facilitar en gran medida la comprensión de diferentes opciones en
paralelo.
19 de junio de 2023 REVISIÓN ANUAL 26
ÁRBOL DE DECISIÓN?
Los árboles de decisión en minería de datos son, justamente, parte de estas técnicas
que se enfocan en la predicción de escenarios para que, las empresas que aplican la
minería de datos puedan tomar mejores decisiones en cuanto a sus procesos y
estrategias.
Con el correcto análisis de alternativas, utilizando el árbol de decisión en minería de
datos, por ejemplo, las empresas pueden observar cuál es la descripción de los
datos que han recolectado.
Básicamente, te ayudarán a visualizar muy bien el comportamiento de los datos que
tienen en tu base de información, para que puedas clasificarlas y, posteriormente,
analizarlas.
19 de junio de 2023 REVISIÓN ANUAL 27
UN EJEMPLO DE APLICACIÓN EN BUSINESS
ANALYTICS
¿debemos ofrecer a un cliente determinado un producto concreto?
Definición del tipo de cliente
Primero, se debe definir el tipo de cliente, en este caso, si el cliente es VIP o no y, en función
de la respuesta, habrá una serie de posibilidades.
Caso 1
▪En el caso de que el cliente sea VIP, se debe tener en cuenta de cuánto gasta dicho cliente. En
el caso de que el gasto sea mayor de 1000 sí se debe ofertar el producto, en caso contrario
no.
Caso 2
▪En el caso de que el cliente no sea VIP, para poder ofrecer el producto habrá que considerar
más posibilidades como si paga o no a tiempo o si sus ingresos son superiores a una cantidad
determinada.
28
UN EJEMPLO DE APLICACIÓN EN BUSINESS
ANALYTICS
29
EL ÁRBOL DE DECISIÓN ES UNA
ESTRUCTURA QUE ESTÁ FORMADA POR
RAMAS Y NODOS DE DISTINTOS TIPOS:
❖Los nodos internos representan cada una de las
características o propiedades a considerar para
tomar una decisión.
❖Las ramas representan la decisión en función de una
determinada condición (p. ej. probabilidad de
ocurrencia).
❖Los nodos finales representan el resultado de la
decisión.
30
HTTPS://WWW.YOUTUBE.COM/WATCH?V=T8MOEJTXAJK
31
HTTPS://WWW.YOUTUBE.COM/WATCH?V=GNYROZ4IUSO
32
ALGORITMOS DE LOS
ÁRBOLES DE DECISIÓN
ID3: los árboles de decisiones con este algoritmo se
orientan a buscar hipótesis o reglas en relación a
los datos analizados.
C4.5: los árboles de decisiones que utilizan este
algoritmo se enfocan en clasificar datos, de esta
manera, están asociados a la clasificación
estadística.
ACR: los árboles de decisiones este algoritmo se
centra en evitar problemas futuros, pues se utilizan
para detectar las causas que generan los defectos.
33
TALLER:
Determinemos las ventajas y
desventajas de utilizar arboles de
decision
34
EJEMPLO EN RAPIDMINER : BD GOLF
35
PYTHON FOR
MODELS: SKLEARN
Scikit-learn es uno de los open-source y
bibliotecas de aprendizaje automático más
populares en Python. La biblioteca scikit-
learn contiene muchas herramientas
eficientes para aprendizaje automático y
modelado estadístico, incluyendo
clasificación, regresión, agrupación, y
reducción de dimensionalidad.
Scikit-Learn ayuda en el preprocesamiento, la
reducción de dimensionalidad (selección de
parámetros), la clasificación, la regresión, la
agrupación y la selección de modelos.
19 de junio de 2023 36

Semana 8 - Mineria de Datos - Proceso KDD

  • 1.
    MINERÍA DE DATOS BASEDE DATOS AVANZADAS
  • 2.
    QUE ES LAMINERÍA DE DATOS? Aplicaciones DD (Knowledge Discovery in Databases) El proceso de extracción de conocimiento Carácter multidisciplinar Técnicas de minería de datos Modelos descriptivos y modelos predictivos Clasificaci6n de las técnicas de minería de datos Fuentes de datos Evaluaci6n de resultados Sistemas de minería de datos 2
  • 3.
    ¿QUÉ ES LAMINERÍA DE DATOS? 3
  • 4.
  • 5.
    KDD (KNOWLEDGE DISCOVERYIN DATABASES) 5
  • 6.
    EL PROCESO DEEXTRACCIÓN DE CONOCIMIENTO Limpieza de datos  (eliminación de ruido e inconsistencias) Integración de datos  (combinación de múltiples fuentes de datos) Reducción/Selección de datos  (identificación de datos relevantes para el problema) Transformación de datos  (preparación de los datos para su análisis) Minería de datos  (técnicas de extracción de patrones y medidas de interés) Presentación de resultados  (técnicas de visualización y de representación del conocimiento) 6
  • 7.
    KDD (KNOWLEDGE DISCOVERYIN DATABASES) 7
  • 8.
    KDD (KNOWLEDGE DISCOVERYIN DATABASES) 8
  • 9.
    KDD (KNOWLEDGE DISCOVERYIN DATABASES) 9
  • 10.
  • 11.
  • 12.
  • 13.
    KDD (KNOWLEDGE DISCOVERYIN DATABASES) Clasificación de los modelos de minería de datos En función de su propósito general: 13 Modelos descriptivos • (describen el comportamiento de los datos de forma que sea interpretable por un usuario experto). Modelos predictivos • (además de describir los datos, se utilizan para predecir el valor de algún atributo desconocido).
  • 14.
    TÉCNICAS DE MINERÍADE DATOS: EJEMPLOS ▪Reglas de asociación (modelo descriptivo) ▪Los compradores de pañales también suelen comprar cerveza. ▪Clustering (modelo descriptivo): Segmentación de los clientes de un hipermercado: ▪ Clientes ocasionales que gastan mucho. ▪ Clientes habituales con presupuesto limitado. ▪ Clientes ocasionales con presupuesto limitado. ▪Clasificación (modelo predictivo): ▪ Datagramas que corresponden a intentos de intrusión. ▪ Perfil de un cliente de alto riesgo para préstamos bancarios. 19 de junio de 2023 REVISIÓN ANUAL 14
  • 15.
    ALGUNAS TÉCNICAS DEMINERÍA DE DATOS Caracterización o resumen Discriminación o contraste Patrones frecuentes, asociaciones y correlaciones Clasificación y predicción Detección de agrupamientos (clustering) Detección de anomalías (outliers) Análisis de tendencias (series temporales) 15 técnicas de minería de datos
  • 16.
    TÉCNICAS DE MINERÍADE DATOS Las técnicas de minería de datos también se pueden clasificar atendiendo a… 16 el tipo de datos que hay que analizar el tipo de “conocimiento” que se obtiene el tipo de herramienta que se utiliza el dominio de aplicación
  • 17.
  • 18.
    FUENTES DE DATOS ▪Basesde datos relacionales ▪Bases de datos multidimensionales (DW) ▪Bases de datos transaccionales ▪Series temporales, secuencias y data streams ▪Datos estructurados (grafos, redes sociales) ▪Datos espaciales y espaciotemporales ▪Textos e hipertextos (p.ej. Web) ▪Bases de datos multimedia (p.ej. Imágenes) 18
  • 19.
  • 20.
    EVALUACIÓN DE RESULTADOS ▪Unresultado es interesante si… ▪es comprensible (por seres humanos) ▪es válido con cierto grado de certeza ▪es potencialmente útil ▪es novedoso o sirve para validar una hipótesis ▪El interés de los resultados se puede evaluar ▪objetivamente (criterios estadísticos) ▪subjetivamente (perspectiva del usuario) 20
  • 21.
  • 22.
    SISTEMAS DE MINERÍADE DATOS: DESCRIPCIÓN DE UNA TAREA DE MINERÍA DE DATOS: Datos relevantes: • lo que hay que analizar Tipo de conocimiento: • lo que se desea obtener Conocimiento previo: • background knowledge, para guiar el proceso Medidas de interés: • para evaluar los resultados obtenidos Técnicas de representación: • para representar los resultados obtenidos 22
  • 23.
    APLICACIONES DE LAMINERÍA DE DATOS: ▪Recuperación de Información ▪Sistemas Médicos ▪Análisis de genes y proteínas ▪Tráfico ▪Hábitos de compra ▪Identificación de patrones en recursos humanos ▪Comportamiento en Internet ▪Juegos ▪Terrorismo Y en diversas áreas de la ciencia e Ingeniería en donde se requiera el procesamiento de la información. 23
  • 24.
    SOFTWARE DE MINERÍADE DATOS: KNIME http://www.knime.org/ RapidMiner http://rapidminer.com/ Weka http://www.cs.waikato.ac.nz/ml/weka/ R http://www.r-project.org/ SPSS Modeler http://www.spss.com/software/modeler/ SAS Enterprise Miner http://www.sas.com/ 24
  • 25.
  • 26.
    ÁRBOL DE DECISIÓN? Elconcepto de árbol de decisión nos describe que este es un modelo predictivo de posibles resultados en base a la selección de alternativas. En otras palabras, un árbol de decisión es un mapa de posibles resultados de una serie de decisiones que se relacionan entre sí. Es el algoritmo perfecto para clasificar información y, más adelante, evaluar los diferentes escenarios. Por lo tanto, para realizar una predicción, los árboles de decisión te ayudarán a evaluar opciones eficientemente. De esta manera, la decisión que tomes no será infundada, ni tomada a la ligera. Un tipo de modelo, basado en métodos estadísticos y de programación web, utilizado para facilitar en gran medida la comprensión de diferentes opciones en paralelo. 19 de junio de 2023 REVISIÓN ANUAL 26
  • 27.
    ÁRBOL DE DECISIÓN? Losárboles de decisión en minería de datos son, justamente, parte de estas técnicas que se enfocan en la predicción de escenarios para que, las empresas que aplican la minería de datos puedan tomar mejores decisiones en cuanto a sus procesos y estrategias. Con el correcto análisis de alternativas, utilizando el árbol de decisión en minería de datos, por ejemplo, las empresas pueden observar cuál es la descripción de los datos que han recolectado. Básicamente, te ayudarán a visualizar muy bien el comportamiento de los datos que tienen en tu base de información, para que puedas clasificarlas y, posteriormente, analizarlas. 19 de junio de 2023 REVISIÓN ANUAL 27
  • 28.
    UN EJEMPLO DEAPLICACIÓN EN BUSINESS ANALYTICS ¿debemos ofrecer a un cliente determinado un producto concreto? Definición del tipo de cliente Primero, se debe definir el tipo de cliente, en este caso, si el cliente es VIP o no y, en función de la respuesta, habrá una serie de posibilidades. Caso 1 ▪En el caso de que el cliente sea VIP, se debe tener en cuenta de cuánto gasta dicho cliente. En el caso de que el gasto sea mayor de 1000 sí se debe ofertar el producto, en caso contrario no. Caso 2 ▪En el caso de que el cliente no sea VIP, para poder ofrecer el producto habrá que considerar más posibilidades como si paga o no a tiempo o si sus ingresos son superiores a una cantidad determinada. 28
  • 29.
    UN EJEMPLO DEAPLICACIÓN EN BUSINESS ANALYTICS 29
  • 30.
    EL ÁRBOL DEDECISIÓN ES UNA ESTRUCTURA QUE ESTÁ FORMADA POR RAMAS Y NODOS DE DISTINTOS TIPOS: ❖Los nodos internos representan cada una de las características o propiedades a considerar para tomar una decisión. ❖Las ramas representan la decisión en función de una determinada condición (p. ej. probabilidad de ocurrencia). ❖Los nodos finales representan el resultado de la decisión. 30
  • 31.
  • 32.
  • 33.
    ALGORITMOS DE LOS ÁRBOLESDE DECISIÓN ID3: los árboles de decisiones con este algoritmo se orientan a buscar hipótesis o reglas en relación a los datos analizados. C4.5: los árboles de decisiones que utilizan este algoritmo se enfocan en clasificar datos, de esta manera, están asociados a la clasificación estadística. ACR: los árboles de decisiones este algoritmo se centra en evitar problemas futuros, pues se utilizan para detectar las causas que generan los defectos. 33
  • 34.
    TALLER: Determinemos las ventajasy desventajas de utilizar arboles de decision 34
  • 35.
  • 36.
    PYTHON FOR MODELS: SKLEARN Scikit-learnes uno de los open-source y bibliotecas de aprendizaje automático más populares en Python. La biblioteca scikit- learn contiene muchas herramientas eficientes para aprendizaje automático y modelado estadístico, incluyendo clasificación, regresión, agrupación, y reducción de dimensionalidad. Scikit-Learn ayuda en el preprocesamiento, la reducción de dimensionalidad (selección de parámetros), la clasificación, la regresión, la agrupación y la selección de modelos. 19 de junio de 2023 36