QUE ES LAMINERÍA DE DATOS?
Aplicaciones
DD (Knowledge Discovery in Databases)
El proceso de extracción de conocimiento
Carácter multidisciplinar
Técnicas de minería de datos
Modelos descriptivos y modelos predictivos
Clasificaci6n de las técnicas de minería de datos
Fuentes de datos
Evaluaci6n de resultados
Sistemas de minería de datos
2
EL PROCESO DEEXTRACCIÓN
DE CONOCIMIENTO
Limpieza de datos
(eliminación de ruido e inconsistencias)
Integración de datos
(combinación de múltiples fuentes de datos)
Reducción/Selección de datos
(identificación de datos relevantes para el problema)
Transformación de datos
(preparación de los datos para su análisis)
Minería de datos
(técnicas de extracción de patrones y medidas de
interés)
Presentación de resultados
(técnicas de visualización y de representación del
conocimiento) 6
KDD (KNOWLEDGE DISCOVERYIN DATABASES)
Clasificación de los modelos de minería de datos
En función de su propósito general:
13
Modelos descriptivos
• (describen el comportamiento de los datos de forma
que sea interpretable por un usuario experto).
Modelos predictivos
• (además de describir los datos, se utilizan para
predecir el valor de algún atributo desconocido).
14.
TÉCNICAS DE MINERÍADE DATOS:
EJEMPLOS
▪Reglas de asociación (modelo descriptivo)
▪Los compradores de pañales también suelen comprar cerveza.
▪Clustering (modelo descriptivo): Segmentación de los clientes de un
hipermercado:
▪ Clientes ocasionales que gastan mucho.
▪ Clientes habituales con presupuesto limitado.
▪ Clientes ocasionales con presupuesto limitado.
▪Clasificación (modelo predictivo):
▪ Datagramas que corresponden a intentos de intrusión.
▪ Perfil de un cliente de alto riesgo para préstamos bancarios.
19 de junio de 2023 REVISIÓN ANUAL 14
15.
ALGUNAS TÉCNICAS DEMINERÍA DE DATOS
Caracterización o
resumen
Discriminación o
contraste
Patrones
frecuentes,
asociaciones y
correlaciones
Clasificación y
predicción
Detección de
agrupamientos
(clustering)
Detección de
anomalías
(outliers)
Análisis de
tendencias (series
temporales)
15
técnicas de minería de datos
16.
TÉCNICAS DE MINERÍADE DATOS
Las técnicas de minería de datos también se pueden clasificar
atendiendo a…
16
el tipo de datos que hay que analizar
el tipo de “conocimiento” que se obtiene
el tipo de herramienta que se utiliza
el dominio de aplicación
FUENTES DE DATOS
▪Basesde datos relacionales
▪Bases de datos multidimensionales (DW)
▪Bases de datos transaccionales
▪Series temporales, secuencias y data streams
▪Datos estructurados (grafos, redes sociales)
▪Datos espaciales y espaciotemporales
▪Textos e hipertextos (p.ej. Web)
▪Bases de datos multimedia (p.ej. Imágenes)
18
EVALUACIÓN DE RESULTADOS
▪Unresultado es interesante si…
▪es comprensible (por seres humanos)
▪es válido con cierto grado de certeza
▪es potencialmente útil
▪es novedoso o sirve para validar una hipótesis
▪El interés de los resultados se puede evaluar
▪objetivamente (criterios estadísticos)
▪subjetivamente (perspectiva del usuario)
20
SISTEMAS DE MINERÍADE DATOS: DESCRIPCIÓN
DE UNA TAREA DE MINERÍA DE DATOS:
Datos relevantes:
• lo que hay que analizar
Tipo de conocimiento:
• lo que se desea obtener
Conocimiento previo:
• background knowledge, para guiar el proceso
Medidas de interés:
• para evaluar los resultados obtenidos
Técnicas de representación:
• para representar los resultados obtenidos
22
23.
APLICACIONES DE LAMINERÍA DE DATOS:
▪Recuperación de Información
▪Sistemas Médicos
▪Análisis de genes y proteínas
▪Tráfico
▪Hábitos de compra
▪Identificación de patrones en recursos humanos
▪Comportamiento en Internet
▪Juegos
▪Terrorismo
Y en diversas áreas de la ciencia e Ingeniería en donde se requiera el procesamiento
de la información.
23
24.
SOFTWARE DE MINERÍADE DATOS:
KNIME
http://www.knime.org/
RapidMiner
http://rapidminer.com/
Weka
http://www.cs.waikato.ac.nz/ml/weka/
R
http://www.r-project.org/
SPSS Modeler
http://www.spss.com/software/modeler/
SAS Enterprise Miner
http://www.sas.com/
24
ÁRBOL DE DECISIÓN?
Elconcepto de árbol de decisión nos describe que este es un modelo predictivo de
posibles resultados en base a la selección de alternativas. En otras palabras, un
árbol de decisión es un mapa de posibles resultados de una serie de decisiones que
se relacionan entre sí.
Es el algoritmo perfecto para clasificar información y, más adelante, evaluar los
diferentes escenarios. Por lo tanto, para realizar una predicción, los árboles de
decisión te ayudarán a evaluar opciones eficientemente. De esta manera, la decisión
que tomes no será infundada, ni tomada a la ligera.
Un tipo de modelo, basado en métodos estadísticos y de programación web,
utilizado para facilitar en gran medida la comprensión de diferentes opciones en
paralelo.
19 de junio de 2023 REVISIÓN ANUAL 26
27.
ÁRBOL DE DECISIÓN?
Losárboles de decisión en minería de datos son, justamente, parte de estas técnicas
que se enfocan en la predicción de escenarios para que, las empresas que aplican la
minería de datos puedan tomar mejores decisiones en cuanto a sus procesos y
estrategias.
Con el correcto análisis de alternativas, utilizando el árbol de decisión en minería de
datos, por ejemplo, las empresas pueden observar cuál es la descripción de los
datos que han recolectado.
Básicamente, te ayudarán a visualizar muy bien el comportamiento de los datos que
tienen en tu base de información, para que puedas clasificarlas y, posteriormente,
analizarlas.
19 de junio de 2023 REVISIÓN ANUAL 27
28.
UN EJEMPLO DEAPLICACIÓN EN BUSINESS
ANALYTICS
¿debemos ofrecer a un cliente determinado un producto concreto?
Definición del tipo de cliente
Primero, se debe definir el tipo de cliente, en este caso, si el cliente es VIP o no y, en función
de la respuesta, habrá una serie de posibilidades.
Caso 1
▪En el caso de que el cliente sea VIP, se debe tener en cuenta de cuánto gasta dicho cliente. En
el caso de que el gasto sea mayor de 1000 sí se debe ofertar el producto, en caso contrario
no.
Caso 2
▪En el caso de que el cliente no sea VIP, para poder ofrecer el producto habrá que considerar
más posibilidades como si paga o no a tiempo o si sus ingresos son superiores a una cantidad
determinada.
28
EL ÁRBOL DEDECISIÓN ES UNA
ESTRUCTURA QUE ESTÁ FORMADA POR
RAMAS Y NODOS DE DISTINTOS TIPOS:
❖Los nodos internos representan cada una de las
características o propiedades a considerar para
tomar una decisión.
❖Las ramas representan la decisión en función de una
determinada condición (p. ej. probabilidad de
ocurrencia).
❖Los nodos finales representan el resultado de la
decisión.
30
ALGORITMOS DE LOS
ÁRBOLESDE DECISIÓN
ID3: los árboles de decisiones con este algoritmo se
orientan a buscar hipótesis o reglas en relación a
los datos analizados.
C4.5: los árboles de decisiones que utilizan este
algoritmo se enfocan en clasificar datos, de esta
manera, están asociados a la clasificación
estadística.
ACR: los árboles de decisiones este algoritmo se
centra en evitar problemas futuros, pues se utilizan
para detectar las causas que generan los defectos.
33
PYTHON FOR
MODELS: SKLEARN
Scikit-learnes uno de los open-source y
bibliotecas de aprendizaje automático más
populares en Python. La biblioteca scikit-
learn contiene muchas herramientas
eficientes para aprendizaje automático y
modelado estadístico, incluyendo
clasificación, regresión, agrupación, y
reducción de dimensionalidad.
Scikit-Learn ayuda en el preprocesamiento, la
reducción de dimensionalidad (selección de
parámetros), la clasificación, la regresión, la
agrupación y la selección de modelos.
19 de junio de 2023 36