SlideShare una empresa de Scribd logo
1 de 188
Descargar para leer sin conexión
1
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
MODULO
MINERIA DE DATOS
COD 201170
JOSE MIGUEL HERRAN SUAREZ
UNIVERSIDAD NACIONAL ABIERTA YA DISTANCIA – UNAD
PROGRAMA: INGENIERIA DE SISTEMAS
TUNJA. 2012
2
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
INDICE DE CONTENIDO
Contenido
INTRODUCCIÓN ...........................................................................................................................................7
UNIDAD 1: MINERIA DE DATOS....................................................................................................................9
1.1. Capitulo I:Conceptos Fundamentales............................................................................................... 9
Lección 1: Características de Mineria de Datos.................................................................................... 10
Artículo de Reflexión. La información digital crece a mas del doble cada año........................................ 13
Leccion 2. Disponibilidad de Software .................................................................................................. 17
Leccion 3. Ejemplos de aplicaciones de la Minería de Datos................................................................ 21
Leccion 4. Objetivos de la Minería de Datos .......................................................................................... 22
Lección 5. Minería de datos y la toma de decisiones............................................................................. 28
Actividad de cierre Capitulo I................................................................................................................... 28
1.2. Capitulo II KDD. ............................................................................................................................. 30
Lección 6. Proceso de Descubrimiento del Conocimiento en Bases de Datos ...................................... 30
Lección 7. Diagrama del Proceso de KDD ............................................................................................... 32
Leccion. 8. Etapas de abordaje. .............................................................................................................. 34
Leccion 9. Desarrollo del proceso de KDD.............................................................................................. 36
Leccion 10. Evaluación de Patrones........................................................................................................ 44
Actividad cierre Capitulo II Caso de Estudio. ........................................................................................... 45
1.3 Capitulo III Reglas de Asociación usadas en Minería de Datos............................................................. 49
Lección 11. Identificación de las reglas de asociación. .......................................................................... 49
Leccion 12. Algoritmos para la busqueda de reglas asociadas. .......................................................... 54
Leccion 13.Jerarquias.............................................................................................................................. 58
Leccion 13.Redes Bayesianas.................................................................................................................. 61
Leccion 14. Arboles de Decision. (Repaso)............................................................................................. 62
Leccion 15. AlgoritmoC.45 ...................................................................................................................... 64
Actividad de cierre Capitulo III................................................................................................................. 66
UNIDAD II PROCESO DE MINERIA DE DATOS............................................................................................. 67
2.1. CapituloIV: El Modelo de CRISP – DM. .................................................................................................. 67
Leccion 16. Generalidades ...................................................................................................................... 67
Leccion 17. Comprensión del Negocio.................................................................................................... 69
Leccion 18. Comprensión de los datos. .................................................................................................. 70
3
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
Leccion 19. Modelado............................................................................................................................. 72
Leccion 20. Evaluacion e Implantación................................................................................................... 73
Actividad de cierre Capitulo IV ................................................................................................................ 73
2.2 Capitulo V. Herramientas de Minería de Datos...................................................................................... 75
Leccion 21. WEKA.................................................................................................................................... 75
Leccion. 22. IlliMine. ............................................................................................................................... 77
Leccion. 23 Rattle.................................................................................................................................... 78
Leccion 24. Rapid Miner.......................................................................................................................... 78
Leccion. 25. Knime. ................................................................................................................................. 79
Actividad de Cierre Capitulo V................................................................................................................. 80
2.3. Capitulo VI Ambientes de Trabajo en Grid ............................................................................................ 80
Leccion 26. Grid WEKA............................................................................................................................ 80
Leccion 27. Discovery Net....................................................................................................................... 82
Leccion 28. Componentes de un Modelo GridMiner ............................................................................. 84
Lección 29. Mineria de Datos y Almacenes de Datos en ODM.............................................................. 86
Lección 30. Oracle DataMinig (ODM) ..................................................................................................... 87
Actividad de Cierre Capitulo VI................................................................................................................ 88
UNIDAD III. Contexto de la Mienría de Datos............................................................................................. 89
Capitulo VII. Causas de aplicación de la Minería de Datos. ......................................................................... 89
Leccion 31. WEB Mining y Text Mining .................................................................................................. 90
Leccion 32.OLTP Y OLAP.......................................................................................................................... 95
Leccion 33. Bases de datos de transacion ............................................................................................ 96
Leccion 34. Arquitectura de los Almacenes de Datos ............................................................................ 99
Leccion 35. Explotación de un Almacen de Datos................................................................................ 100
Actividad de cierre Capitulo VII ............................................................................................................. 108
Capitulo VIII. Otros tipos de DataMart....................................................................................................... 109
Leccion 36. Rolap- Molap...................................................................................................................... 109
Leccion 37. Almacen de Datos y Mineria de Datos ............................................................................. 112
Leccion 38. Exploracion y seleccion. El contexto de la vista minable................................................. 116
Leccion 39. Exploración mediante visualización. ................................................................................. 126
Leccion 40. Visualización Multidimensional......................................................................................... 130
Actividad de cierre Capitulo VIII ............................................................................................................ 141
Capitulo 9: Técnicas de Minería de Datos. ................................................................................................. 143
Leccion. 41. Redes Neuronales ............................................................................................................ 143
Leccion 42. Procesamiento analítico en linea .................................................................................... 151
Leccion 43. WEB Mining........................................................................................................................ 154
Lección 44. Disciplinas relacionadas...................................................................................................... 161
Leccion 45. Mineria de Textos .............................................................................................................. 166
ANEXOS ................................................................................................................................................... 171
Oracle SQL Developer................................................................................................................................. 171
Conectar Oracle SQL Developer con MySQL.......................................................................................... 172
4
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
Conectar Oracle SQL Developer con SQL Server y Sybase..................................................................... 174
Servidor virtual con Pentaho configurado............................................................................................. 175
La instalación de Pentaho .......................................................................................................................... 176
Las herramientas de Virtualización............................................................................................................ 178
VirtualBox .............................................................................................................................................. 178
VMware ................................................................................................................................................. 178
El Sistema Operativo.............................................................................................................................. 179
Oracle SQL Developer .............................................................................................................................. 180
Conectar Oracle SQL Developer con MySQL.......................................................................................... 182
Conectar Oracle SQL Developer con SQL Server y Sybase..................................................................... 184
Conclusiones............................................................................................................................................ 186
BIBLIOGRAFIA.......................................................................................................................................... 187
5
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
Listado de figuras
1. Figura 1. Análisis de datos
2. Figura 2. Distinto Enfoque
3. Figura3. Olap y consultas deductivas ⇒dirigidos por hipótesis
4. Figura 4. Disponibilidad de software comercial.
5. Figura 5: Jerarquía del conocimiento.
6. Figura 6: Proceso de KDD
7. Figura 7.etapas en el proceso de KDD.
8. Figura 8. Ejemplos de imagenes de células con leucemia.
9. Figura 9. Ejemplo de cómo transformar una imagen de una célula a una
tabla.
10.Figura 10. La Minería de Datos y su relación con otras áreas de
conocimiento.
11. figura 11. Clasificación de Leucemias agudas.
12.Figura 12. Taxonomía de una categoría.
13.Figura 13. Inserción en la relación de compras con una jerarquía.
14. figura 14. Contexto de bases de datos frente a data minimg.
15. figura 15. Explorador de weka.
16.figura 16. Grid weka, escenario de usos.
17. figura17. Componentes de discovery net.
18. figura 18. Componentes de gridminer.
19.Figura 19. Contexto de bases de datos frente a data minimg.
20. Figura 20 almacén de datos como integración de diferentes fuentes de
datos.
21.Figura 21. Topología de un clasificador Naive Bayes.
6
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
Listado de tablas
Tabla 1: Ejemplos de aplicaciones de la minería de datos.
Tabla 2. Fases de modelo crips-dm.
Tabla 3 Diferencia entre bases de datos transaccional y almacenes de datos
Tabla 4.Tabulacion de ventas con nombre_articuloy color
Tabla 5. Representación relacional de los datos.
Tabla 6. Tabulacion cruzada de ventas con la jerarquia
7
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
INTRODUCCIÓN
Este modulo pretende y busca dar una visión general de lo que son las técnicas de
análisis de los datos y el proceso de Minería de Datos, basándose en una gran
recolección de información de variadas fuentes, paginas de internet, artículos
científicos, foros de desarrollo y en especial en los libros (la gran mayoría en
ingles)… todos ellos citados para respetar la propiedad intelectual y brindar al
estudiante los conceptos y las técnicas de la manera mas entendible; de manera
tal que al estudiar el modulo en la soledad de su propia disciplina logre adquirir los
conocimientos sin problemas y no provoce un desanimo ni una apatía al area de
estudio, a la vez se debe tener en cuenta que cada semestre se actualizará el
modulo por lo tanto es importante bajarlo del repositorio para una mayor
concordancia con el curso en la plataforma. El tema que concierne es muy
complejo y hay mucha tela de donde cortar, por lo que se pretende sentar las
bases para una profundización en las diferentes areas de aplicación, y a la vez se
recomienda hacer un repaso jucioso de las tematicas revisadas en Bases de
Datos, Análisis y Diseño de Sistemas, Inteligencia Artificial (Redes Neuronales) y
Probabilidad.
Durante el desarrollo tecnológico podemos ver como una de las herramientas que
han sido de gran utilidad dentro del campo del manejo de volúmenes de
información la Mineria de Datos se ha venido abriendo campo en los diferentes
ámbitos laborales como son las aplicaciones científicas, de negocios y medios de
información gracias a ella se puede ver como esta interactuando y almacenando
datos en la mayoría de los casos, estas organizaciones tienden a construir
conjuntos de datos centralizados o almacenes de datos (Data warehouse) que
reúnen toda la información de sus liares dispersas geográficamente.
Es así que esta situación ha fomentado el desarrollo de herramientas para el
tratamiento de la información, dando lugar a una disciplina conocida como Mineria
8
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
de datos o (Data Mining), se define como un conjunto de técnicas y herramientas
aplicadas al proceso de extraer y presentar conocimiento implícito previamente
desconocido.
El objetivó de la implementación de este modulo el cual vale tiene un peso de tres
créditos es el abordaje de la tematica relacionada como sigue.
La temática de la unidad uno es Mineria de Datos, la Unidad dos Preapración de
los Datos, unidad tres Tecnicas de Mineria de Datos. Con la realización de este
modulo como material didáctico de consulta para tutores y estudiantes de la
UNAD.
9
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
UNIDAD 1: MINERIA DE DATOS
1.1. Capitulo I:Conceptos Fundamentales
La minería de datos está relacionada con la subárea de la estadística denominada
explorador de datos, que tiene objetivos parecidos y se basa en las medidas
estadísticas. También está estrechamente relacionada con las subáreas de la
inteligencia artificial denomina descubrimiento del conocimiento y aprendizaje de
la máquina. La característica importante de la minería de datos es que se usa
normalmente para el manejo de datos que están agrupados en grandes
volúmenes; aunque la idea de esta area de estudio relacionada sea aplicable a los
problemas de minería de datos, la escalabilidad con respecto al tamaño de los
datos es un criterio nuevo importante, que se debe tener en cuenta para el
proceso de aplicabilidad de los conceptos.
Un algoritmo es escalable y el tiempo de ejecución crece (linealmente) en
proporción al tamaño del conjunto de datos, lo que mantiene los recursos
disponibles del sistema (por ejemplo, la cantidad de memoria principal y la
velocidad el proceso de la UCP) constante, deben adaptar los algoritmos
antiguos o desarrollar otros nuevos para que se garantice la escalabilidad a la
hora de descubrir pautas en los datos.
La búsqueda de tendencias útiles en los conjuntos de datos es una definición
bastante imprecisa de la minería de datos: en cierto sentido se puede considerar
que todas las consultas a bases de datos hacen exactamente esto; pero en
realidad, hay un continuo uso de las herramientas de análisis y exploración, con
las consultas de SQL que crean mediante la algebra relacional (con algunas
extensiones), OLAP ofrece expresiones de consulta en nivel superior basadas en
el modelo de datos multidimensionales, y la minería de datos proporciona las
operaciones de análisis abstractas. Se puede pensar en las diferentes tareas de la
minería de datos como ―consultas‖ complejas especificadas en un nivel elevado,
con unos cuantos parámetros que son definibles por los usuarios, para las que se
implementan algoritmos especializados. SQL /MM: minería de datos SQL /MM.
10
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
La SQL /MM: data mining de la norma SQL: 1999 soporta cuatro tipos de modelos
de minería de datos:
 Conjuntos de elementos frecuentes y reglas de asociación
 Agrupaciones de registros
 Arboles de regresión
 Arboles de clasificación.
Se introduce entonces varios tipos de datos nuevos, estos tipos de datos
desempeñan varios papeles, algunos representan una clase de modelo concreta
(por ejemplo, DM_Regression model, DM_ClusteringModel); otros especifican los
parámetros de entrada de un algoritmo de minería (por ejemplo, DM_ RegTask,
DM_ClusTask); unos describen los datos de entrada (por ejemplo,
DM_LogicaDataSpec, DM, _MininData); y otros representan el resultado de la
ejecución de un algoritmo de minería (por ejemplo, DM_RegResult,
DM_ClusResult).
En conjunto estas clases y sus métodos ofrecen una interfaz normalizada para los
algoritmos de minería de datos que se pueden invocar desde cualquier sistema de
bases de datos SQL: en 1999. Los modelos de minería de datos se pueden
exportar en formato XML normalizado denominado lengua de marcas de
modelos predictivos (Predictive Model Markup Language, PMML); también se
pueden importar los modelos representados mediante PMML.
Lección 1: Características de Mineria de Datos.
Historia de la Minería de Datos
Extracción de patrones de información (implícitos, no triviales, desconocidos y
potencialmente útiles) a partir de grandes cantidades datos.
11
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
También conocido por: Descubrimiento del conocimiento en bases de datos
(KDD), extracción del conocimiento, análisis de datos/patrones, inteligencia de
negocios
Minería de datos NO es:
_ Procesamiento deductivo de consultas en BBDD
_ Un sistema experto o DSS
_ Análisis estadístico
_ Visualización de datos
_ Pequeños programas de aprendizaje
Muchas de las técnicas usadas en MD ya eran conocidas previamente, ¿a qué se
debe el boomactual?
En los 90‘s convergen los siguientes factores:
 Los datos se están produciendo
 Los datos se están almacenando
 La potencia computacional necesaria es abordable
 Existe una gran presión en la competitividad empresarial
 Las herramientas software de MD están disponibles
La MD sólo tiene sentido cuando se dispone de grandes volúmenes de datos?
Ahora los datos se producen en grandes cantidades: scanners de venta, tarjetas
de crédito, paper view, teletienda, ciencia, e-commerce, e-learning, e-business,
etc.Algunos ejemplos:
 El .log producido por Yahoo es de 10 GB cada hora.
12
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
 El .log de google es de 23 GB cada 33 minutos.
 Un Astrónomo instrumentista puede producir de 50 a 100 GB de datos en
una noche. ( Proyecto SETI)
 El genoma humano ocupa unos 300 TeraBytes.
 12 millones de personas poseen una tarjeta Master Card.
 Blockbuster Entertainment Corp... 36 millones de casas/familias como
clientes.
 Ebay, Mercadolibre, millones de transacciones cada día.
13
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
Artículo de Reflexión. La información digital crece a mas del doble cada año.
Para una documentación e ilustración más acorde, se acude a la URL
Fuente: Artículo Publicado en la url:
http://www.muycomputerpro.com/2011/08/03/informacion-digital-crece-doble-anos/
ECM publicó recientemente los resultados del estudio de IDC Digital Universe,
Extracting Value from Chaos, en el que se llega a la conclusión de que la
información digital en el mundo crece más del doble cada dos años, llegando a la
colosal cifra de 1,8 zettabytes creados y replicados en 2011.
La tecnología y el dinero son los encargados de impulsar las fuerzas que residen
detrás de este incesante crecimiento. Las nuevas tecnologías para la utilización
sencilla de la información están reduciendo el coste a la hora de crear, capturar,
gestionar y almacenar la información: un sexto del coste en 2011 respecto a 2005.
Además, desde 2005 las inversiones anuales de las empresas en el Universo
Digital han aumentado un 50%, alcanzando unos 4.000 millones de dólares.
El estudio señala que un crecimiento masivo de servidores, archivos y gestión de
datos no logra mantener el ritmo del crecimiento de personal: IDC señala que las
habilidades, experiencia y recursos para gestionar la avalancha de datos y
recursos sencillamente no sigue el ritmo de crecimiento de otras áreas. Durante la
próxima década, los departamentos de TI de todo el mundo experimentarán un
crecimiento de:
- 10 veces el número de servidores (virtuales y físicos).
- 50 veces la cantidad de información a gestionar.
- 75 veces el número de archivos o contenedores que encapsulan la información
en el universo digital, que crece incluso más rápido que la propia información,
como cada vez más los sistemas integrados tales como sensores en prendas de
vestir, en puentes o en dispositivos médicos.
- 1,5 veces el número de profesionales de TI disponibles para gestionar este
volumen.
A pesar de que la informática en la nube representa menos del 2% del gasto
actual en TI, IDC predice que en 2015 casi el 20% de la información “pasará por
las manos” de los proveedores de servicios de informática en la nube, lo que
14
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
significa que en alguna parte del viaje del byte, desde su origen a su eliminación,
la información se almacenará o procesará en la nube. Tal vez hasta un 10%
permanecerá en la nube.
El estudio también señala que la sombra digital tiene mente propia: la cantidad de
información que crean los particulares (escribiendo documentos, haciendo
fotografías, descargando música, etc.) es mucho menor que la cantidad de
información creada sobre ellos mismos en el universo digital. Además, la
responsabilidad legal o de cualquier otra naturaleza es de las empresas: a pesar
de que el 75% de la información en el universo digital la generan particulares, las
empresas son legalmente responsables del 80% de esta información en algún
punto de su vida digital.
Otros hallazgos clave
Las nuevas herramientas de captura, búsqueda, descubrimiento y análisis pueden
ayudar a las empresas a obtener una visión de los datos no estructurados, que
representan más de un 90% del universo digital. Estas herramientas pueden crear
datos sobre los datos de forma automática, al igual que las rutinas de
reconocimiento facial que ayudan a etiquetar las fotos en Facebook. El crecimiento
de los datos sobre los datos es dos veces más rápido que el del universo digital en
su conjunto.
Por otra parte, las herramientas de inteligencia empresarial tratan cada vez más
con datos en tiempo real, tanto si se trata de cargar primas de seguros de
automóviles en función de dónde se conduce, de la distribución de la energía a
través de la red inteligente o de cambiar mensajes sobre la marcha según las
respuestas de las redes sociales.
En cuanto a las herramientas de gestión de almacenamiento ayudan a reducir los
costes de la parte del universo digital que almacenamos, como la deduplicación, la
autoorganización en niveles y la virtualización, así como para ayudarnos a decidir
qué almacenamos exactamente, como las soluciones de gestión de contenidos.
Fuente: Artículo Publicado en la url:
http://www.muycomputerpro.com/2011/08/03/informacion-digital-crece-doble-anos/
La colección de datos orientadas a un dominio, integrado, no volátil y variable en
el tiempo que ayuda a la toma de decisiones de la empresa u organización, esa es
15
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
la información importante que se debe analizar y se debe tomar en cuenta para el
desarrollo de esta línea profesional en la TI.
El expediente de una empresa más allá de la información transaccional y
operacional, almacenado para favorecer el análisis y la divulgación eficientes de
datos, se subdivide a veces en unidades lógicas más pequeñas, llamadas los
centroscomerciales dependientes de los datos.
Generalmente, dos ideas básicas:
_ Integracion de los datos de bases de datos distribuidas y diferentemente
estructura, que facilita una descripción global y un análisis comprensivo en el
almacén de los datos.
_ Separacionde los datos usados en operaciones diarias, los datos usados en el
almacén de los datos para los propósitos de la divulgación, de la ayuda enla toma
de decisiones, para el análisis y para controlar algún ítem de proudccion o la oferta
de un articulo o la creación de uno nuevo en una empresa.
16
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
ESTRUCTURA DEL SISTEMA
FIGURA 2. DISTINTO ENFOQUE
FIGURA3. OLAP Y CONSULTAS DEDUCTIVAS ⇒ DIRIGIDOS POR HIPÓTESIS
Minería de datos ⇒ dirigido por los datos
17
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
Leccion 2. Disponibilidad de Software
Algoritmos y técnicas usadas:
Investigación —> software comercial —> aceptación
FIGURA 4. DISPONIBILIDAD DE SOFTWARE COMERCIAL
Fuente: Introduccion a la Mineria de Datos. José H. Orallo, Ma José Ramirez Q y Cesar F Ramirez.
Pearson.
SOFTWARE LIBRE WEKA
18
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
Weka (Waikato Environment for Knowledge Analysis - Entorno para Análisis del
Conocimiento de la Universidad de Waikato) es una plataforma de software para
aprendizaje automático y minería de datos escrito en Java y desarrollado en la
Universidad de Waikato. Weka es un software libre distribuido bajo licencia GNU-
GPL.
La minería de datos consiste en hallar tendencias o pautas interesantes en
conjuntos de datos de gran tamaño para orientar las decisiones sobre actividades
futuras. Hay una esperanza generalizada de que las herramientas de minería de
datos puedan identificar esas pautas de los datos con un aporte humano mínimo.
Las pautas identificadas por esas herramientas pueden ofrecer a los analistas de
datos una perspectiva útil e inesperada que posteriormente se puede investigar
con más detenimiento, quizás empleando otras herramientas de soporte a las
decisiones.
En el mundo real la minería de datos es mucho más aplicación de uno de estos
algoritmos. Los datos suelen tener ruido o estar incompletos y, a menos que esto
se comprenda y corrija, es probable que muchas pautas interesantes se pasen por
alto y a la fiabilidad de las detectadas sea baja.
Además el análisis debe decidir los tipos de algoritmos de minería que se invocan,
aplicarlos a un conjunto bien escogido de muestra de datos y de variables (es
decir, Tuplas y atributos), resumir los resultados, aplicar otras herramientas de
ayuda a la toma de decisiones y de minería e iterar el proceso para poderlo
ejecutar de la manera mas optima. Cabe mencionar en este punto que lamineria
de datos es una técnica que aborda y que pretende analizar datos y a partir de
ellos lograr predecir un estado de una variable.
Limitarse a almacenar información en un almacén de datos no proporciona los
beneficios que las organizaciones buscan a la hora de implantar este tipo de
sistemas; para conseguir sacar el máximo provecho de un almacén de datos, es
necesario extraer el conocimiento oculto dentro del almacén. sin embargo, a
19
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
medida que crece la cantidad y la complejidad de los datos contenidos en un
almacén de datos, se hace cada vez más fácil, si no imposible, para los analistas
de negocio identificar las tendencias y relaciones en los datos de manera
acertada, este proceso es muy complejo ya que deben usar herramientas
avanzadas de consulta y de generación de informes.
La minería de datos es una de las maneras de extraer patrones y tendencias
significativas de entre un enorme conjunto de datos. La mayoría de datos
descubre información dentro de los almacenes de datos que las consultas e
informes que no pueden hacer por métodos tradicionales de manera efectiva.
Existen numerosas definiciones sobre lo que és la minería de datos, desde
definiciones muy amplias que describen la minería de datos como cualquier
herramienta que permite a los usuarios acceder directamente a grandes
cantidades de datos, hasta definiciones más específicas, como la que afirma que
se trata de herramientas y aplicaciones que realizan análisis estadísticos sobre los
datos para detectar patrones.
Minería de datos: Es el proceso de extraer la información válida, previamente
desconocida, comprensible y útil de base de datos de gran tamaño y utilizar dicha
información para tomar decisiones de negocio cruciales.
La minería de datos se preocupa del análisis de los datos y de la utilización de
técnicas software para localizar patrones y relaciones ocultas e inesperadas
dentro de una serie de conjuntos de datos. El enfoque de laminería de datos
consiste en revelar información que esté oculta y sea inesperada, ya que no tiene
mucho sentido tratar de encontrar patrones y relaciones que resulten intuitivos por
sí mismos. Para identificar los patrones y relaciones ocultos se examinan las
reglas y características subyacentes a los datos.
20
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
El análisis de minería de datos tiende a trabajar comenzando por los propios datos
y progresando hacia arriba, y las técnicas que producen los resultados más
precisos requieren, normalmente, grandes volúmenes de datos para poder ofrecer
una conclusión fiable.
El proceso de análisis comienza desarrollando una representación óptima de la
estructura de una serie de datos de ejemplo, adquiriéndose uno ciertos
conocimientos durante esta fase. Dichos conocimientos se amplían posteriormente
a conjuntos de datos de mayor tamaño, trabajando con la suposición de que esos
conjuntos de datos de mayor tamaño tienen una estructura similar a la de los
datos de muestra.
La minería de datos puede reportar enormes beneficios a las empresas que hayan
hecho una inversión de significativa en tecnologías de almacén de datos. Aunque
la minería de datos es una tecnología relativamente nueva, ya se utilizan diversos
sectores. La tabla indica diversos ejemplos de aplicaciones de laminería de datos
en comercio al por menos/marketing, banca, seguros y medicina.
21
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
Leccion 3. Ejemplos de aplicaciones de la Minería de Datos.
Fuente: Autor
Comercio al por menor/marketing
 Identificación de los patrones de compra de los clientes.
 Determinación de asociaciones entre las características demográficas de
los clientes.
 Predicción de la respuesta a las campañas de publicidad por correo análisis
de cesta de la compra.
Banca
 Detección de patrones de uso fraudulento de tarjetas de crédito.
22
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
 Identificación de clientes leales.
 Predicción de clientes que tienen probabilidad de cambiar de banco
suministrador de tarjeta de crédito determinación de los casos realizados
por ciertos grupos de clientes con la tarjeta de crédito.
Seguros
 Análisis de partes.
 Predicción de los clientes que suscribe nuevas polizas.
Medicina
 Caracterización del comportamiento de los pacientes para predecir las
visitas quirúrgicas.
 Identificación de terapias medicas adecuadas para diferentes
enfermedades.
Leccion 4. Objetivos de la Minería de Datos
Objetivo General
 Descubrir patrones, perfiles, y tendencias a través del análisis de datos con
tecnologías de reconocimiento de patrones, redes neuronales, lógica difusa,
algoritmos genéticos y otras técnicas estadísticas avanzadas del análisis
multivariante de datos.
Objetivos Específicos de la Minería de Datos
 La Minería de Datos como parte de los sistemas de apoyo a las decisiones,
a partir de un análisis comparativo entre la teoría y la investigación de
campo, para obtener conclusiones que permitan identificar cómo
23
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
implementar y utilizar adecuadamente la Minería de Datos en la toma de
decisiones.
 Identificar cuáles son las características de los productos de Minería de
Datos más relevantes a nivel mundial.
 Explorar los datos que se encuentran en las profundidades de las bases de
datos, como los almacenes de datos, que algunas veces contienen
información almacenada durante varios años.
En algunos casos, los datos se consolidan en un almacén de datos y en market de
datos; en otros, se mantienen en servidores de Internet e Intranet.
El entorno de la minería de datos suele tener una arquitectura cliente servidor.
Las herramientas de la minería de datos ayudan a extraer el mineral (objeto de
datos) de la información enterrada en archivos corporativos o en registros
públicos, archivados
El minero es, muchas veces un usuario final con poca o ninguna habilidad de
programación, facultado por barrenadoras de datos (formatos de registro de datos)
y otras poderosas herramientas indagatorias para efectuar preguntas y obtener
rápidamente respuestas.
Hurgar y sacudir a menudo implica el descubrimiento de resultados valiosos e
inesperados. ( hacer análisis de la información y tratar de evitar la redundancia)
Las herramientas de la minería de datos se combinan fácilmente y pueden
analizarse y procesar rápidamente.
24
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
Debido a la gran cantidad de datos, algunas veces resulta necesario usar
procesamiento en paralelo para la minería de datos.
• La minería de datos produce cinco tipos de información:
a. Asociaciones.
b. Secuencias.
c. Clasificaciones.
d. Agrupamientos.
e. Pronósticos.
• Los mineros de datos usan varias herramientas y técnicas.
La minería de datos es un proceso que invierte la dinámica del método científico
en el siguiente sentido:
En el método científico, primero se formula la hipótesis y luego se diseña el
experimento para coleccionar los datos que confirmen o refuten la hipótesis.
Si esto se hace con la formalidad adecuada (cuidando cuáles son las variables
controladas y cuáles experimentales), se obtiene un nuevo conocimiento.
En la minería de datos, se coleccionan los datos y se espera que de ellos emerjan
hipótesis. Se busca que los datos describan o indiquen por qué son como son.
Luego entonces, se valida esa hipótesis inspirada por los datos en los datos
mismos, será numéricamente significativa, pero experimentalmente inválida. De
ahí que la minería de datos debe presentar un enfoque exploratorio, y no
confirmador. Usar la minería de datos para confirmar las hipótesis formuladas
puede ser peligroso, pues se está haciendo una inferencia poco válida.
25
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
La minería de datos es una tecnología compuesta por etapas que integra varias
áreas y que no se debe confundir con un gran software. Durante el desarrollo de
un proyecto de este tipo se usan diferentes aplicaciones software en cada etapa
que pueden ser estadísticas, de visualización de datos o de inteligencia artificial,
principalmente. Actualmente existen aplicaciones o herramientas comerciales de
minería de datos muy poderosas que contienen un sinfín de utilerías que facilitan
el desarrollo de un proyecto. Sin embargo, casi siempre acaban
complementándose con otra herramienta.
Fundamentos del Data Mining.
Las técnicas de Data Mining son el resultado de un largo proceso de investigación
y desarrollo de productos. Esta evolución comenzó cuando los datos de negocios
fueron almacenados por primera vez en computadoras, y continuó con mejoras en
el acceso a los datos, y más recientemente con tecnologías generadas para
permitir a los usuarios navegar a través de los datos en tiempo real. Data Mining
toma este proceso de evolución más allá del acceso y navegación retrospectiva de
los datos, hacia la entrega de información prospectiva y proactiva. Data Mining
está lista para su aplicación en la comunidad de negocios porque está soportado
por tres tecnologías que ya están suficientemente maduras:
• Recolección masiva de datos.
• Potentes computadoras con multiprocesadores.
• Algoritmos de Data Mining.
Las bases de datos comerciales están creciendo a un ritmo sin precedentes.
26
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
Un reciente estudio del META GROUP sobre los proyectos de Data Warehouse
encontró que el 19% de los que contestaron están por encima del nivel de los 50
Gigabytes, mientras que el 59% espera alcanzarlo en el segundo trimestre de
1997. En algunas industrias, tales como ventas al por menor (retal), estos
números pueden ser aún mayores. MCI Telecommunications Corp. cuenta con
una base de datos de 3 terabytes + 1 terabyte de índices y overhead corriendo en
MVS sobre IBM SP2. La necesidad paralela de motores computacionales
mejorados puede ahora alcanzarse de forma más costo - efectiva con tecnología
de computadoras con multiprocesamiento paralelo. Los algoritmos de Data Mining
utilizan técnicas que han existido por lo menos desde hace 10 años, pero que sólo
han sido implementadas recientemente como herramientas maduras, confiables,
entendibles que consistentemente son más performantes que métodos
estadísticos clásicos.
En la evolución desde los datos de negocios a información de negocios, cada
nuevo paso se basa en el previo. Por ejemplo, l es crítica para Data Mining.
Los componentes esenciales de la tecnología de Data Mining han estado bajo
desarrollo por décadas, en áreas de investigación como estadísticas, inteligencia
artificial y aprendizaje de máquinas. Hoy, la madurez de estas técnicas, junto con
los motores de bases de datos relacionales de alta performance, hicieron que
estas tecnologías fueran prácticas para los entornos de data warehouse actuales.
Alcance de Data Mining.
El nombre de Data Mining deriva de las similitudes entre buscar valiosa
información de negocios en grandes bases de datos - por ej.: encontrar
información de la venta de un producto entre grandes montos de Gigabytes
almacenados - y minar una montaña para encontrar una veta de metales valiosos.
Ambos procesos requieren examinar una inmensa cantidad de material, o
27
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
investigar inteligentemente hasta encontrar exactamente donde residen los
valores.
Dadas bases de datos de sucinte tamaño y calidad, la tecnología de Data Mining
puede generar nuevas oportunidades de negocios al proveer estas capacidades:
• Predicción automatizada de tendencias y comportamientos. Data Mining
automatiza el proceso de encontrar información predecible en grandes bases de
datos. Preguntas que tradicionalmente requerían un intenso análisis manual,
ahora pueden ser contestadas directa y rápidamente desde los datos. Un típico
ejemplo de problema predecible es el marketing apuntado a objetivos (tarjetead
marketing). Data Mining usa datos en maulina promocionales anteriores para
idéntica posibles objetivos para maximizar los resultados de la inversión en futuros
maulina.
Otros problemas predecibles incluyen pronósticos de problemas financieros
futuros y otras formas de incumplimiento, e idéntica segmentos de población que
probablemente respondan similarmente a eventos dados.
• Descubrimiento automatizado de modelos previamente desconocidos. Las
herramientas de Data Mining barren las bases de datos e idéntifica modelos
previamente desconocidos en un sólo paso. Otros problemas de descubrimiento
de modelos incluyen detectar transacciones fraudulentas de tarjetas de créditos e
idéntifica datos anormales que pueden representar errores en la carga de datos.
Las técnicas de Data Mining pueden revisar los beneficios de automatización y
transaccion en las plataformas de hardware y software existentes y puede ser
implementada en sistemas nuevos a medida que las plataformas existentes se
actualizan y nuevos productos sean desarrollados. Cuando las herramientas de
Data Mining son implementadas en sistemas de procesamiento paralelo de alto
performance, pueden analizar bases de datos masivas en minutos. Procesamiento
28
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
más rápido, significado que los usuarios pueden automáticamente experimentar
con más modelos para entender datos complejos. Alta velocidad hace que sea
práctico para los usuarios analizar inmensas cantidades de datos.
Grandes bases de datos, a su vez, producen mejores predicciones.
Lección 5. Minería de datos y la toma de decisiones.
En el desarrollo de la conceptualización que hasta el momento se ha desarrollado
en el modulo se ha mencionado hasta aquí una gran cantidad de elementos que
se deben aplicar y analizar para poder hacer un ejercicio acorde a la realidad y
que sea concomitante tanto con las teorías estudiadas, como a la vez con las
necesidades de información de la entidad o empresa en la que se vaya a realizar
una aplicación de minería de datos.
El acceso a la información para el departamento gerencial o administrativo de una
empresa, debe estar enmarcado con una serie de características como la
eficiencia de la información, la claridad en la misma, la sistematicidad de su
estructura, la correspondencia con la realidad, etc. Es por ello que para poder
seguir adelante en el desarrollo y como cierre del capitulo I se deberán acudir a
direferentes fuentes, tanto externas como internas para documentarse sobre la
importancia misma de la minería de datos y ante todo en el apoyo a la toma de
decisiones.
Actividad de cierre Capitulo I
Se debe:
Realizar una lectura juiciosa de artículos científicos indexados sobre la importancia
de la mineria de datos.
29
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
Que aspectos considera importantes que se deben evaluar para el desarrollo de
un análisis de información bajo el enfoque de la minería de datos.
Realizar una ruta de planeación de un proyecto en una empresa con criterios y
etapas de la minería de datos.
Construir con una herramienta (ej. Cmaptools) una estructura que explique el
desarrollo de la planeación del punto anterior.
Hacer un cuadro informativo con el siguiente formato para documentar lo que
hasta el momento ha aprendido el estudiante.
Primer acercamiento a una aplicación con MD en una empresa
Nombre de la empresa
Objeto de la empresa
Actividades a
desarrollar
Nombre de la Etapa
Descripcion de la
etapa Responsable
Producto a
entregar
Es importante mencionar que para este punto, el estudiante esta en libertad de
agregar tantas etapas con lo considere ya que este punto (a diferencia de los
anteriores), lo que pretende es servir de entrenamiento de lo aprendido y hacer
una aplicabilidad de los conceptos.
30
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
1.2. Capitulo II KDD.
Lección 6. Proceso de Descubrimiento del Conocimiento en Bases de Datos
6.1 Proceso de Descubrimiento del Conocimiento (KDD)
En los últimos años, ha existido un gran crecimiento en nuestras capacidades de
generar y colectar datos, debido básicamente al gran poder de procesamiento de
las máquinas como a su bajo costo de almacenamiento.
Sin embargo, dentro de estas enormes masas de datos existe una gran cantidad
de información oculta, de gran importancia estratégica, a la que no se puede
acceder por las técnicas clásicas de recuperación de la información.
El descubrimiento de esta información oculta es posible gracias a la Minería de
Datos (Data Mining), que entre otras técnicas aplica la inteligencia artificial para
encontrar patrones y relaciones dentro de los datos permitiendo la creación de
modelos, es decir, representaciones abstractas de la realidad, pero es el
descubrimiento del conocimiento (KDD, por sus siglas en inglés) que se encarga
de la preparación de los datos y la interpretación de los resultados obtenidos, los
cuales dan un significado a estos patrones encontrados.
Así el valor real de los datos reside en la información que se puede extraer de
ellos, información que ayude a tomar decisiones o mejorar nuestra comprensión
de los fenómenos que nos rodean. Hoy, más que nunca, los métodos analíticos
avanzados son el arma secreta de muchos negocios exitosos.
Empleando métodos analíticos avanzados para la explotación de datos, los
negocios incrementan sus ganancias, maximizan la esencia operativa, reducen
costos y mejoran la satisfacción del cliente De forma general, los datos son la
31
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
materia prima bruta. En el momento que el usuario les atribuye algún significado
especial pasan a convertirse en información. Cuando los especialistas elaboran o
encuentran un modelo, haciendo que la interpretación de la información y ese
modelo representen un valor agregado, entonces nos referimos al conocimiento.
En el desarrollo del proceso se analiza e ilustra la jerarquía que existe en una
base de datos entre los datos, información y conocimiento. Se observa igualmente
el volumen que presenta en cada nivel y el valor que los responsables de las
decisiones le dan en esa jerarquía. El área interna dentro del triángulo representa
los objetivos que se han propuesto. La separación del triángulo representa la
estrecha unión entre dato e información, no así entre la información y el
conocimiento.
La capacidad de generar y almacenar información creció considerablemente en
los últimos tiempos, se ha estimado que la cantidad de datos en el mundo
almacenados en bases de datos se duplica cada 20 meses. Es así que hoy las
organizaciones tienen gran cantidad de datos almacenados y organizados, pero a
los cuales no les pueden analizar escientemente en su totalidad.
Con las sentencias SQL se puede realizar un primer análisis, aproximadamente el
80% de la información se obtiene con estas técnicas. El 20% restante, que la
mayoría de las veces, contiene la información más importante, requiere la
utilización de técnicas más avanzadas.
El Descubrimiento de Conocimiento en Bases de Datos (KDD) apunta a procesar
automáticamente grandes cantidades de datos para encontrar conocimiento útil en
ellos, de esta manera permitirá al usuario el uso de esta información valiosa para
su conveniencia.
El KDD es el Proceso no trivial de idéntica patrones válidos, novedosos,
potencialmente útiles y, en última instancia, comprensibles a partir de los datos.
(Fallad et al., 1996) El objetivo fundamental del KDD es encontrar conocimiento
útil, válido, relevante y nuevo sobre un fenómeno o actividad mediante algoritmos
encientes, dadas las crecientes órdenes de magnitud en los datos. Al mismo
32
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
tiempo hay un profundo interés por presentar los resultados de manera visual o al
menos de manera que su interpretación sea muy clara. Otro aspecto es que la
interacción humano-máquina deberá ser accesible, dinámica y colaboradora.
El resultado de la exploración deberá ser interesante y su calidad no debe ser
afectada por mayores volúmenes de datos o por ruido en los datos. En este
sentido, los algoritmos de descubrimiento de información deben ser altamente
robustos.
FIGURA 5: JERARQUÍA DEL CONOCIMIENTO.
Lección 7. Diagrama del Proceso de KDD
El proceso de KDD consiste en usar métodos de minería de datos (algoritmos)
para extraer (identifica) lo que se considera como conocimiento de acuerdo a la
especificación de ciertos parámetros usando una base de datos junto con
reprocesamientos y post-procesamientos.
33
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
Fuente: Introduccion a la Mineria de Datos. José H. Orallo, Ma José Ramirez Q y Cesar F Ramirez.
Pearson.
Figura 6: Proceso de KDD
Se estima que la extracción de patrones (minería) de los datos ocupa solo el 15%
al 20% del esfuerzo total del proceso de KDD.El proceso de descubrimiento de
conocimiento en bases de datos involucra varios pasos:
Determinar las fuentes de información: que pueden ser útiles, dónde conseguirlas
y como accederlas.
Diseñar el esquema de un almacén de datos (Data Warehouse) que consiga
unificar de manera operativa toda la información recogida.
34
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
Implantación del almacén de datos: que permita la navegación y visualización
previa de sus datos, para discernir qué aspectos puede interesar que sean
estudiados. Esta es la etapa que puede llegar a consumir el mayor tiempo.
Selección, limpieza y transformación de los datos que se van a analizar: la
selección incluye tanto la filtración o fusión horizontal (tablas) como vertical
(atributos).La limpieza y reprocesamiento de datos se logra diseñando una
estrategia adecuada para manejar ruido, valores incompletos, secuencias de
tiempo, casos extremos (si es necesario), etc.
Seleccionar y aplicar el método de minería de datos apropiado, esto incluye:
 La selección de la tarea de descubrimiento a realizar, por ejemplo,
clasificación,agrupamiento o clustering, regresión, etc.
 La selección de él o de los algoritmos a utilizar.
 La transformación de los datos al formato requerido por el algoritmo
específico de minería de datos.
 Llevar a cabo el proceso de minería de datos.
Se buscan patrones que puedan expresarse como un modelo o simplemente que
expresen dependencias de los datos, el modelo encontrado depende de su
función (clasificación) y de su forma de representarlo (árboles de decisión, reglas
de asociación, etc.), se tiene que específicar con criterio de preferencia para
seleccionar un modelo dentro de un conjunto posible de modelos, se tiene definir
la estrategia de búsqueda a utilizar (normalmente está predeterminada en el
algoritmo de minería).
Leccion. 8. Etapas de abordaje.
35
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
Evaluación, interpretación, transformación y representación de los patrones
extraídos:
Evaluacion de los datos.
Se debe hacer un acercaiento real y muy especifico a la información que se
maneja en la base de datos, esto con el fin de entender claramente el tipo de
información que manje, el flujo de la misma, la dinámica de actualización, los
procesos que se desarrollan y por supuesto cuales son las verianles que se tienen
y que en el momento no se están teniendo en cuenta. Este es quizá una de las
etapas mas simples pero de mayor importancia, el 73% de las ocasiones en la
que se fracasa en la aplicación de la mineria de datos, esta en la falta de previsión
y de atención especial al desarrollo de esta etapa ya que de no ser abordada de
manera acertiva todo el proceso será un fracaso.
Interpretar los resultados y posiblemente regresar a los pasos anteriores.
Esto puede involucrar repetir el proceso, quizás con otros datos, otros algoritmos,
otras metas y otras estrategias. Este es un paso crucial en donde se requiere
tener conocimiento del dominio. La interpretación puede beneficiarse de procesos
de visualización, y sirve también para borrar patrones redundantes oirrelevantes.
Difusión y uso del nuevo conocimiento.
Incorporar el conocimiento descubierto al sistema (normalmente para mejorarlo) lo
cual puede incluir resolver conflictos potenciales con el conocimiento existente.
El conocimiento se obtiene para realizar acciones, ya sea incorporándolo dentro
de un sistema de desempeño o simplemente para almacenarlo y reportarlo a las
personas interesadas.
36
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
En este sentido, KDD implica un proceso interactivo e iterativo involucrando la
aplicación de varios algoritmos de minería de datos.
Metas del KDD
Procesar automáticamente grandes cantidades de datos crudos.
Idéntica los patrones más significativos y relevantes.
Presentarlos como conocimiento apropiado para satisfacer las metas del usuario.
Leccion 9. Desarrollo del proceso de KDD
El Preprocesamiento.
El proceso KDD, ilustrado en la Figura 1, está dividido en una serie de pasos,
desde la selección y limpieza de la BD hasta la evaluación e interpretación de los
Resultados.
FIGURA 7.ETAPAS EN EL PROCESO DE KDD.
37
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
En la Figura 7 se observa que las primeras etapas del proceso KDD se dedican a
limpiar, preparar, seleccionar y formatear a los datos de acuerdo a los patrones a
buscar y el algoritmo de Minería de Datos a utilizar. A esta etapa se le conoce
como pre procesamiento.
Posteriormente, aparece la etapa de minería de datos, en la cual se buscan o
descubren los patrones ocultos en los datos, los cuales pasan a una etapa de
evaluación, en donde se determina la validez y confiabilidad de dichos patrones. Al
final de todo este proceso, se obtienen una serie de patrones llamados
conocimiento.
A continuación se describen a mayor detalle cada una de las etapas.
En esta etapa los datos son preparados para el proceso de Minería de Datos.
Dicha etapa se divide en tres pasos básicos.
Selección y Limpieza
En el mundo real, existen muchas bases de datos que tienen diversos problemas,
como son valores faltantes, ruido (valores que por alguna causa no son correctos),
Inconsistencias (valores que no corresponden a los dominios de los atributos ó
que son contradictorios con otros datos de la misma BD), errores de captura,
errores en la fuente de información, errores provocados por los sistemas de
cómputo, entre otros. Estos problemas deben eliminarse antes de cualquier
proceso de minería de datos, ya que pueden afectar a la precisión de los
resultados o incluso, el algoritmo de minería puede construir patrones a partir de
un conjunto de datos incorrectos.
38
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
Para estos casos, se deben de implementar una serie de estrategias que corrijan
tales problemas.
Lamentablemente no existe una única solución, ya que dependiendo del tipo de
datos será la estrategia a implementar. Por ejemplo, considere una tabla R con ―n‖
registros definida sobre un conjunto de atributos {A1,…, Am} en donde existe un
registro σ <v1,…, vs-1, vs, vs+1,…, vn> en el cual el valor del atributo ―s‖ es
desconocido (es decir, vs =?). Una estrategia para solucionar este problema sería
simplemente eliminar dicho registro σ. Sin embargo, en el caso de que éste
registro sea muy valioso o significativo, se buscaría otra forma de solucionar el
problema, como por ejemplo, estimar el posible valor para vs a través de la media.
FIG. 8 EJEMPLOS DE IMAGENES DE CÉLULAS CON LEUCEMIA.
Fuente: http://es.scribd.com/doc/93421745/Caso-de-Exito-Mineria-de-Datos
Otro problema común que se presenta en un conjunto de datos es el ruido. Por
ejemplo, considere una BD de imágenes médicas tomadas a través de un
microscopio óptico. La calidad de las imágenes depende de muchos factores,
como es la preparación de las muestras, la óptica del microscopio, la calidad de la
cámara digital, entre otros. Dependiendo de estas variables, se pueden obtener
imágenes como la mostrada en la Figura 8 izquierda), en donde aparecen
manchas que no son propias de las características de las células. En estos casos
se deben de buscar filtros (dentro del área del procesamiento digital de imágenes)
que permitan remover estas imperfecciones, de tal manera que al momento de
39
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
trabajar con las células, estas imperfecciones no alteren al proceso de minería de
datos.
Por otro lado, la selección es una estrategia útil cuando la dimensión de la BD es
muy alta. Entre más grande sea una BD, los tiempos de respuesta pueden llegar a
ser prohibitivos. En estos casos se opta por no trabajar directamente con todos los
datos, sino con un subconjunto de los datos originales, llamada muestra o datos
de entrenamiento.
El problema con esta estrategia es garantizar que los datos contenidos en la
muestra sean representativos con respecto al total del conjunto. Lamentablemente
esta condición no es fácil de garantizar, por lo que se ha optado por construir no
solo una, sino un conjunto de muestras con las cuales trabajar (construidas a
través de un proceso aleatorio). Como consecuencia, por cada muestra se
obtendrá un conjunto de patrones, los cuales tendrán que compararse y evaluarse
con respecto a los resultados encontrados a partir de otras muestras.
Preparación de Datos
En esta etapa del proceso KDD se busca eliminar todos aquellos datos que no
serán relevantes para el proceso de minería de datos. Por ejemplo, considere la
imagen de la Figura 8 derecha), donde la tarea consiste en identificar
características específicas de las células que representan leucemia. En este caso,
toda la imagen como tal no nos interesa, sólo la región que delimita a la célula
(región de interés). Por tanto, es necesario extraer esta región del resto de la
imagen, a través de técnicas de segmentación.
Es importante mencionar que no todas las bases de datos requerirán aplicar cada
uno de los pasos mencionados en el proceso KDD. Por ejemplo, para la base de
datos representada por la tabla R, si todos los atributos son importantes y además,
40
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
todos los registros son significativos, después de eliminar cualquier inconsistencia
o ruido el proceso se brincaría a la siguiente etapa, sin pasar por la preparación de
datos.
Transformación de Datos
Cada algoritmo que se desarrolla siempre establece el tipo y estructura de los
datos que admite. Por ejemplo, un algoritmo de ordenamiento como quicksort
admite con entrada un arreglo de números, por lo que no es posible utilizarlo para
ordenar imágenes. De la misma forma, los algoritmos de minería de datos siempre
Definen un formato y estructura para sus entradas.
Si para la tarea que se está resolviendo se determina utilizar un algoritmo de
minería de datos y los datos no coinciden con la entrada admitida por el algoritmo,
entonces se procede a transformarlos. No obstante en cualquier proceso de
transformación, cierta cantidad de la información de los datos originales se pierde.
Por tanto, un punto fundamental en este proceso es perder la menor cantidad de
la información de los datos.
Por ejemplo, considere que se utilizará un algoritmo de clasificación como C4.5
para construir un árbol que permita clasificar a las células como linfoblásticas y
mieloblásticas (las dos familias de leucemia). Dado que el algoritmo C4.5 admite
como entrada una tabla, se requerirá transformar a las células a este formato. Esta
Transformación no es trivial, ya que en primera instancia no existe ningún tipo de
relación natural entre una imagen y una tabla. Sin embargo, si se analiza las
características de cualquier célula, se podrá observar que estas tienen
propiedades como un área (en pixeles), un diámetro, convexidad, gama de color,
un número de grumos entre otras.
41
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
Estas propiedades se pueden utilizar como atributos de una tabla, donde cada
registro correspondería a una célula específica, así como se ilustra en la Figura 9.
42
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
FIG. 9 EJEMPLO DE CÓMO TRANSFORMAR UNA IMAGEN DE UNA CÉLULA
A UNA TABLA.
La MD es la parte central del proceso KDD, en la cual se buscan o encuentran
patrones de interés para el usuario. Los patrones descubiertos pueden ser
singrafos, reglas de asociación, árboles de clasificación, una red neuronal
entrenada, entre otros.
Para entender el alcance de la MD, hay que comprender qué tipo de tareas se
pueden realizar. Para ello, se identifican características comunes que sirven para
Agrupar las tareas de MD, que son:
 Tipos de BD sobre las que se hace MD: aquí se identifica sobre qué tipos
de bases de datos se trabaja, como data warehouse, bases de datos
relacionales, espaciales, temporales, secuenciales, entre otras. Esto
permite identificar la estructura de los datos a trabajar.
 Tipo de conocimiento minado: se determina la estructura del conocimiento a
identificar, que pueden ser caracterizaciones, reglas de asociación, árboles
de clasificación, redes neuronales. Los patrones descubiertos pueden ser
descriptivos, es decir, muestran la serie de hechos bajo los cuales se
43
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
sustenta el patrón, como son los árboles de clasificación, reglas de
clasificación, entre otros.
Sin embargo, existen métodos que no son descriptivos, simplemente dan el
resultado final sin que el usuario pueda conocer el porqué del resultado. Ejemplo
de estos sistemas son las redes neuronales (a estos sistemas se les ve como
cajas negras, se conoce la entrada y la salida pero no se entiende que pasa en el
interior).
 Tipo de técnica utilizada: aquí se define si se utilizan técnicas estadísticas ó
de aprendizaje automático.
 Dominios de aplicación: clasificación basada en los dominios de trabajo,
que pueden ser químicos, biológicos como el DNA, teóricos, entre otros.
Otro aspecto importante en toda tarea de MD es identificar si se van a buscar
odescubrir patrones. En un proceso de búsqueda, la minería de datos parte de un
conjunto de datos D y un patrón a buscar S. La tarea consiste en identificar si
existen subestructuras en D que sean idénticas o similares a S. Por otro lado, si la
tarea se aboca a descubrir patrones ocultos, entonces se parte de un conjunto de
datos D y a partir de estos datos, se identifican características comunes en los
mismos.
Debido a que la MD emplea conocimientos que se han desarrollado en diferentes
áreas de investigación, se ha convertido en un área multidisciplinaria, en la que
intervienen conceptos de bases de datos, inteligencia artificial, aprendizaje
automático, entre otras, tal como se ilustra en la Figura 10.
44
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
FIG. 10. LA MINERÍA DE DATOS Y SU RELACIÓN CON OTRAS ÁREAS DE
CONOCIMIENTO.
Leccion 10. Evaluación de Patrones
En la etapa de evaluación se extraen los patrones con mayor importancia para el
usuario final. Para lograrlo, es necesario establecer parámetros que nos permitan
comparar la calidad de un patrón con respecto a otro.
La medida más usual para evaluar patrones es el porcentaje de precisión, en el
cual dado un conjunto de datos D y un patrón P, se determina el porcentaje de
casos en donde el patrón P es válido ó correcto con respecto al total de casos en
D. Por ejemplo, considere el caso de una escuela con 200 alumnos, en los cuales
se ha encontrado una regla de clasificación que dice: ―si el alumno tiene un
promedio superior a 8 y tiene como máximo 3 faltas en un cuatrimestre, entonces
es un alumno que no reprueba ninguna materia‖. Para verificar la validez de esta
regla, es necesario determinar para cuantos alumnos en D aplicaría la regla, es
decir, cuantos alumnos tienen un promedio mayor a 8, no faltan más de 3 veces y
no reprueban (soporte) y del número obtenido, determinar en cuantos dado el
antecedente, se cumple la consecuencia (confianza). Para este ejemplo, si existen
45 alumnos que cumplen con un promedio superior a 8, no faltan más de 3 veces
en un cuatrimestre y 50 alumnos que además no reprueban, entonces el soporte
45
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
de la regla es de 50/200 = 25%. Por otro lado, si de ellos solo 45 alumnos
cumplenque si tienen promedio superior a 8 y no faltan más de 3 veces, entonces
no reprueban, se obtendría una confianza de 45/50 = 90%.
Otro aspecto muy importante en todo proceso de evaluación de patrones es
determinar el umbral a partir del cual un patrón es válido. Por ejemplo, para el
ejemplo de la BD de la escuela, un 90% de confianza puede resultar muy bueno
para detectar a los alumnos que difícilmente reprueban. Sin embargo, si
cambiamos de dominio de trabajo ese mismo 90% puede ser malo.
Por ejemplo, considere el caso en el cual se está tratando de construir un modelo
que permita predecir si un paciente, a partir de su cuadro clínico, es susceptible a
sufrir algún tipo de cáncer. Para este tipo de dominios, un 90% no es suficiente,
requiriéndose niveles muy cercanos al 100%. Por tanto, la exigencia en la
precisión de los resultados está sujeta al dominio de trabajo y el uso que se le
dará al conocimiento minado.
Actividad cierre Capitulo II Caso de Estudio.
Tomado Fuente: http://es.scribd.com/doc/31587475/Ejemplos-de-Mineria-de-Datos
En la siguiente sección se presenta un caso real en el cual se ha aplicado con
éxito el proceso de minería de datos.
Clasificación de Leucemias Agudas empleandoMinería de Datos
La Leucemia es una enfermedad que se caracteriza por alterar el proceso
madurativo de las células que conforman a la sangre (glóbulos rojos, glóbulos
blancos, plaquetas y plasma), provocando una proliferación descontrolada de
46
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
células sanguíneas inmaduras. Esta proliferación se origina a nivel de la médula
ósea.
En la actualidad, para detectar si un paciente padece de esta enfermedad se sigue
la siguiente metodología. El estudio inicia con un análisis morfológico de las
muestras por medio del experto, el cual identifica ciertas características que le
hagan sospechar si el paciente sufre de la enfermedad. Si es el caso, entonces las
muestras son turnadas a un estudio de cartometría de flujo, el cual sirve para
definir el tipo de leucemia (leucemia linfoblásticas –LLA- o mieloblásticas -LMA) y
el subtipo (L1, L2 L3 y MO, M1, M2, M3, M4, M5, M6 y M7). Con base en los
resultados obtenidos, el experto en el dominio prescribe un tratamiento acorde a
las características de la enfermedad.
Lamentablemente este procedimiento sufre de varios inconvenientes: el análisis
por observación es un proceso susceptible a errores, ya que la capacidad de la
visión humana para detectar detalles pequeños es limitada. Aunado a esto,
factores como el cansancio, condiciones de luz, problemas visuales en el experto,
entre otros, lo que disminuye la precisión del diagnóstico inicial.
Por otro lado, un estudio de cartometría de flujo no es barato, lo que provoca que
en países en desarrollo como Colombia los estudios en ocasiones no se puedan
llevar a cabo. Por lo anterior surge la necesidad de desarrollar herramientas de
apoyo al diagnóstico médico que sean confiables y además, de bajo costo.
Con respuesta a esta necesidad, se está desarrollando una investigación en el
cual participan investigadores del INAOE – IMSS – UPP para crear una
herramienta para la detección de leucemia aguda a partir de un análisis
morfológico de imágenes digitales. En este sistema, el objetivo es extraer
características de las células que permitan construir modelos que sirvan para
clasificar nuevas muestras.
47
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
Para lograrlo, se propuso una metodología basada en el proceso KDD, así como
se muestra en la Figura 11
FIG. 11 CLASIFICACIÓN DE LEUCEMIAS AGUDAS.
El proceso inicia capturando las imágenes a través de un microscopio óptico de
alta calidad, el cual cuenta con una cámara digital. De este proceso se obtiene una
Base de imágenes, en donde se seleccionan las de mayor calidad (que contengan
características representativas de la enfermedad). Ese proceso es realizado en
conjunto con los expertos del dominio.
Una vez seleccionadas las imágenes, se procede a limpiarlas, empleando una
serie de filtros que disminuyen imperfecciones. Finalizado este proceso, se
procede a una etapa de segmentación, en la cual se extraen exclusivamente las
regiones de interés de cada imagen. Cabe hacer mención que en este proceso
48
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
intervienen los expertos, ya que una imagen puede contener diferentes tipos de
células donde no todas son representativas de la leucemia. Al mismo tiempo, los
expertos en el domino realizaron un proceso de clasificación, identificando el tipo y
subtipo de la muestra. Esta información fue de gran utilidad para el proceso de
minería de datos.
Después de la segmentación, se transformaron las células a un formato de tabla
(selección de características, Figura 5), donde se extrajeron características como
el diámetro, media de los valores en tonos de gris, entropía, anisotropía,
correlación, área, convexidad, entre otros parámetros. Esta transformación fue
necesaria, ya que diversos algoritmos de clasificación, como redes neuronales,
árboles de clasificación como C4.5 requieren este formato.
A partir de las características extraídas, se probaron diferentes algoritmos. Es
importante mencionar que se utilizaron tanto algoritmos descriptivos como no
descriptivos, ya que los expertos en el dominio no solo estaban interesados en
conocer las clases, sino además, en identificar las características de definen a
cada clase.
Este procedimiento se pudo llevar a cabo gracias a la clasificación de las muestras
que realizaron los expertos en el proceso de selección.
Actualmente, el proyecto se encuentra en la fase de evaluación de resultados, en
donde se han alcanzado clasificaciones con una precisión promedio superior al
90% (para familias como subfamilias). De acerado a los expertos, estos resultados
son muy alentadores, considerando que la precisión alcanzada por los expertos a
través de un análisis morfológico ronda el 40%.
Este es un claro ejemplo en el cual el proceso KDD y la minería de datos se han
usado para identificar patrones complejos, que pueden llegar a tener un fuerte
impacto en la sociedad.
49
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
1.3 Capitulo III Reglas de Asociación usadas en Minería de Datos.
Lección 11. Identificación de las reglas de asociación.
Se usará la relación compras para ilustrar las reglas de asociación. Mediante el
examen del conjunto de transacciones de compras se pueden identificar reglas de
la forma:
{Pluma}  {Tinta}
Esta regla se debe leer de la manera siguiente: ―si en una transacción se compra
una pluma, es probable que también se compre tinta en esa transacción.‖ Es una
afirmación que describen las transacciones de la base de datos; la extrapolación a
transacciones futuras debe hacerse con cautela, como se analiza en las reglas de
asociación tiene la forma Izq.  Der, donde tanto Izq. como Der. Son conjuntos
de elementos.
La interpretación de esta regla es que si se compran en una misma transacción
todos los artículos de Izq., entonces es probable que también se compren los
artículos de Der.
Soporte. El soporte de un conjunto de artículos es el porcentaje de transacciones
que contienen todos esos artículos.
El soporte de la regla IzqDer es el soporte del conjunto de artículos Izq. U Der.
Por ejemplo, considérese la regla {pluma}  {tinta}. El soporte de esta regla es el
soporte del C lote {pluma, tinta}, que es 75 %.
50
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
Confianza. Considérense transacciones que contengan todos los artículos de izq.
La confianza de la regla Izq.  Der es porcentaje de esas transacciones que
contienen también todos los artículos de Der. Más exactamente, de a sea sop
(Izq.) el porcentaje de transacciones que contienen Izq. y Sop (Izq. U Der) el
porcentaje de transacciones que contienen tanto Izq. como Der. Entonces, la
confianza de la regla Izq.  Der es Sop (Izq. U Der/sop (Izq.). La confianza de
cada regla es una indicación de su fortaleza. Por ejemplo, considérese
nuevamente la regla {Pluma}  {Tinta}... La confianza de esta regla es 75%; el 75
% de las transacciones que contienen el lote {pluma} contienen también el lote
{Tinta}.
Principales funciones del data mining: Reglas de Asociación (Asociación rules)
Reglas fuertes: Así se denomina a aquellas reglas que satisfacen un soporte
mínimo (min_sup) y una confianza o confidencia mínima (min_conf).
_ Frecuencia de ocurrencia de un intense (conjunto de ítems): es el número de
transacciones que contienen el intense.
_ Un intense satisface un soporte mínimo si y solo si su frecuencia de ocurrencia
es superior o igual a min_sup e inferior o igual al número de transacciones en D.
_ Si el intense satisface el soporte mínimo entonces se lo denomina ‗intense
frecuente‘.
_ Principio ‗A priori‘: Cualquier de sus Principales funciones del data mining:
Reglas de asociación (Asociación rules).
Ejemplos de reglas
 Basadas en un tipo de valor :
Compra (X,‘CD‘) y Compra (X,‘Reproductor de CD‘) => Compra
(X,‘Reproductor MP3‘)
51
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
 Basadas en la dimensión del dato asociado :
Edad (X,‘25…40‘) e Ingreso (X,‘24k…48k‘) => Compra (X,‘Palm‘)
 Basada en niveles de atracción edad(X,‘25…40‘) =>
Compra(X,‘Notebooks‘) edad(X,‘25…40‘) => Compra(X,‘Computadoras‘)
 Se tiene diferentes niveles de granularidad en las reglas.
 Se dispone de una jerarquía de conceptos (productos para el ejemplo).
 Los ítems de niveles inferiores dispondrán de menos soporte.
 Principales funciones del data mining: Reglas de asociación (Asociación
rules).
- Si exige que las reglas expuestas posean igual soporte en todos los niveles:
 Cuanto más descienda en la jerarquía, menos soporte dispondrá. Esto
implica que perder algunas reglas pero aquellas que cumplan las
condiciones valdrían en un contexto general.
- Si accede a menores soportes en los niveles inferiores:
 Se corre el riesgo de que la regla no sirva para el contexto general.
- Una regla es redundante si su soporte está cercano a un valor esperado Basado
en la regla de un ancestro. En otras palabras, si bien desciende en el Nivel de
granularidad de la información, esta no se traduce en el incremento del
conocimiento. E
Principales funciones de la data mining: Concepto de patrones secuenciales
(Secuencial patterns)
Una secuencia es una lista ordenada de itemsets;
 Una secuencia es maximal si no es contenida por otra
52
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
 Cada secuencia maximal es un patrón secuencial
 Series temporales son un caso particular de los patrones secuenciales. La
secuencia está dada por algunos parámetros asociados al tiempo.
 Aplicaciones específicas:
 Retención de clientes
 Marketing focalizado
Clasificación y predicción:
Clasificación versus Predicción: Predice etiquetas de clases. Categóricas mientras
que la predicción se basa en modelos de Funciones evaluadas-continuas.
Clasificación:
 Método supervisado
 Se compone de 2 etapas:
1. Construcción (Entrenamiento)
2. Poda (Pruning).
1. Overfitting
2. Objetivo del pruning
 Función de splitting
 Frena la construcción del árbol si:
_ No existen más atributos que analizar o
_ No existen más ejemplos que procesar o
_ Todos los ejemplos para un nodo determinado poseen igual clase Predicción:
_ Predice el valor para una variable continua
_ Modelos de funciones evaluadas continuas
_ Ejemplos:
_ Regresión lineal simple [Y= Bo. + B1*X]
_ Regresión lineal múltiple [Y= Bo. + B1*x1+ B2*x2 + … + Bn*Xn]
53
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
_ Entre otros
Agrupamiento (Clustering):
―Conjunto de datos u objetos reunidos bajo una misma agrupación en función de
alguna medida para asimila y evaluar lavarianza entre grupos y la minimizarla
dentro del mismo‖
 No supervisado
 Tipo de acercamientos
_ Orientados al aprisionamiento:
_ K-means:
_ Relativamente eficiente
_ Necesita que se especifique el ‗k‘ (cantidad de grupos a armar o estudiar)
_ No es capaz de manejar ruido y outliers (Efecto similar a la media aritmética)
_ K-medoids Algoritms
_ No escalable
Tipo de acercamientos:
Continua Orientados al aprisionamiento:
 La principal diferencia entre K-means y k-medoids, es que en el primero el
centro del clúster no necesariamente es un elemento, mientras que el
segundo requiere que el centro sea un elemento representativo del grupo.
- Jerárquico
 Tiene la ventaja de no necesitar especificar la cantidad de grupos a
generar.
 Emplea una matriz de distancia entre los registros, para ‗n‘ datos genera
una matriz non que contiene dichas distancias y cuya diagonal principal es
‗0‘
Existen dos variantes:
54
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
 Aglomérativo: Va reuniendo elementos desde lo más particular hasta
obtener el conjunto de datos completo
 Divisivo: Va particionado el conjunto de datos completo hasta llegar a la
división mínima de los mismos.
 Otros acercamientos: Basados en densidad, basados en grilla (detalles a
diferentes niveles de granularidad), etc.
Leccion 12. Algoritmos para la busqueda de reglas asociadas.
Un usuario puede pedir todas las reglas de asociación que tengan un soporte
mínimo determinado (spin) y una confianza mínima (confmin), y sean desarrollado
varios algoritmos para hallar esas reglas de manera eficiente. Esos algoritmos
trabajan en dos etapas. En la primera etapa se calcula todos los lotes frecuentes
con el soporte mínimo especificando por el usuario. En la segunda etapa se
generan reglas empleando como datos los lotes frecuentes.
Una vez identificados los lotes frecuentes, la generación de todas las reglas
posibles con el soporte mínimo especificado por el usuario es sencilla.
Considérese el lote frecuente X con el soporte Sx identificando en la primera
etapa del algoritmo. Para generar a una regla a partir de X se divide X en dos
lotes, Izq. y Der. La confianza de la regla Izq. Der es Sx/S izq., la relación entre
soporte de X y el de Izq. A partir de la propiedad a priori se sabe que el soporte
de Izq. es mayor que spin y, por tanto, se han calculado de soporte de Izq. en la
primera etapa del algoritmo. Los valores de confianza de la posible regla se
pueden obtener calculando la relación Sop (X) / Sop (Izq.) y, luego, comparando
su relación.
En General, la etapa más costosa del algoritmo es el cálculo de los lotes
frecuentes, y se han desarrollado muchos algoritmos diferentes para llevar a cabo
de manera eficiente. La generación de reglas es dada por la capacidadad de
55
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
porder identificar todos los lotes frecuentes y larelacion que cada una de ellas
tiene.
Algoritmo de Ordenamiento Quicksort.
Fuente url: http://lc.fie.umich.mx/~calderon/programacion/notas/Quicksort.html
Sea x un arreglo y n el número de elementos en arreglo que se debe ordenar.
Elegir un elemento a de una posición especifica en el arreglo (por ejemplo, a
puede elegirse como el primer elemento del arreglo. Suponer que los elemento de
x están separados de manera que a está colocado en la posición j y se cumplen
las siguientes condiciones.
1.- Cada uno de los elementos en las posiciones de 0 a j-1 es menor o igual que a.
2.- Cada uno de los elementos en las posiciones j+1 a n-1 es mayor o igual que a.
Observe que si se cumplen esas dos condiciones para una a y j particulares, a es
el j-ésimo menor elemento de x, de manera que a se mantiene en su posición j
cuando el arreglo está ordenado en su totalidad. Si se repite este procedimiento
con los subarreglos que van de x[0] a x[j-1] y de x[j+1] a x[n-1] y con todos los
subarreglos creados mediante este proceso, el resultado final será un archivo
ordenado.
Ilustremos el quicksort con un ejemplo. Si un arreglo esta dado por:
x = [25 57 48 37 12 92 86 33]
y el primer elemento se coloca en su posición correcta, el arreglo resultante es:
56
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
x = [12 25 57 48 37 92 86 33]
En este punto 25 esta en su posición correcta por lo cual podemos dividir el
arreglo en
x = [12] 25 [57 48 37 92 86 33]
Ahora repetimos el procedimiento con los dos subarreglos
x = 12 25 [48 37 33] 57 [92 86]
x = 12 25 33 [37 48] 57 [86] [92]
x = 12 25 33 [37 48] 57 86 92
x = 12 25 33 37 48 57 86 92
El procedimiento es entonces.
Buscar la partición del arreglo j.
Ordenar el subarreglo x[0] a x[j-1]
Ordenar el subarreglo x[j+1] a x[n-1]
57
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
Su implementación en Java es:
/************************************
public void quiksort(int x[],int lo,int ho)
{
int t, l=lo, h=ho, mid;
if(ho>lo)
{
mid=x[(lo+ho)/2];
while(l<h)
{
while((l<ho)&&(x[l]<mid)) ++l;
while((h>lo)&&(x[h]>mid)) --h;
if(l<=h)
{
58
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
t = x[l];
x[l] = x[h];
x[h] = t;
++l;
--h;
}
}
if(lo<h) quiksort(x,lo,h);
if(l<ho) quiksort(x,l,ho);
}
}
Fuente url: http://lc.fie.umich.mx/~calderon/programacion/notas/Quicksort.html
Leccion 13.Jerarquias.
En muchos casos se imponen una jerarquía, la jerarquía categórica hace
referencia al conjunto de artículos. En presencia de jerarquías cada transacción
contienen implícitamente, para cada uno de sus artículos, todos los ancestros de
esos artículos en la jerarquía. Por ejemplo, considérese la jerarquía de categorías,
dada esta jerarquía, la relación compras se incrementan conceptualmente con los
ocho registros es decir, la relación compras tiene todas las Tuplas..
La jerarquía permite detectar las relaciones entre artículos de diferentes niveles
de la jerarquía. Por ejemplo, el soporte del lote {tinta, Jugo} es del 50%, pero si se
sustituye jugo por la categoría más General bebidas, el soporte del lote resultante
{tinta, bebidas} aumenta en 75%. En General, el soporte de cada lote solo puede
59
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
aumentar y se sustituye un artículo por alguno de sus ancestros de la jerarquía
ES.
Es de anotar que el artículo en este caso es jugo, pero se debe tener en cuenta
que su ancestro es la categoría bebidas.
Suponiendo que se añaden físicamente la verdad los ocho registros de la
relación compras, se puede emplear cualquier algoritmo para el cálculo de los
lotes frecuentes de la base de datos incrementada... Suponiendo que la jerarquía
quepa en memoria principal, también se puede llevar a cabo la expresión sobre la
marcha mientras examinan las bases de D a datos, a modo de optimización.
60
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
Papelería Bebidas
Figura 12. Taxonomía de una categoría ES.
IDTRANS IDCLI FECHA PRODUCTO CANTIDAD
111 201 5/1/99 PAPELERIA 3
111 201 5/1/99 BEBIDAS 9
112 105 6/3/99 PAPELERIA 2
112 105 6/3/99 BEBIDAS 1
113 106 5/10/99 PAPELERIA 1
113 106 5/10/99 BEBIDAS 1
114 201 6/1/99 PAPELERIA 4
114 201 6/1/99 BEBIDAS 5
FIGURA 13. INSERCIÓN EN LA RELACIÓN COMPRAS CON UNA JERARQUÍA.
TintaPluma LecheJugo
61
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
Leccion 13.Redes Bayesianas.
La búsqueda de relaciones causales suponen un desafío, si determinamos
sucesos están relacionados, hay muchas explicaciones posibles. Por ejemplo,
Supóngase que las plumas, los lápices y la tinta se compran juntos con frecuencia.
Pudiera ser que la compra de uno de estos artículos (por ejemplo, la tinta)
dependiera casualmente de la compra de otro (por ejemplo, las plumas). O bien
pudieran ser que la compra de uno de esos artículos (por ejemplo, las plumas)
estuviese fuertemente correlacionado con la compra de otro de ellos (por ejemplo,
los lápices) debido a algún fenómeno subyacente (por ejemplo, la tendencia de los
usuarios a pensar a los instrumentos de escritura conjuntamente) que influyen
casualmente en ambas compras. ¿Cómo se identifican las relaciones casuales
que se cumplen realmente entre estos sucesos en el mundo real?
Un enfoque que se puede considerar para una posible combinación de relaciones
casuales entre las variables de los sucesos de interés y evaluar la posibilidad de
cada combinación con base en los datos disponibles. Sí se consideran cada
combinación de relaciones causales como un modelo del mundo real subyacente
a los datos recolectados, se pueden asignar una puntuación a cada modelo
considerando su consistencia (frecuencia; en términos de probabilidades, con
algunas suposiciones simplificadoras) con los datos observados. /***Para una
mejor documentación se debe hacerun repaso de las tematicas como las Redes
Bayesianas, Teoria de Grafos, Arboles de decisión, Algoritmos de Quickshortetc;
ya que no son el objetivo del curso) sin embargo se hace un resumen con la
fuente para que el estudiante realice un repaso allí o donde lo requiera***/
Las redes bayesianas son grafos que se pueden utilizar para escribir una clase de
estos modelos, con un nodo por variable o suceso y arcos entre los nodos para
62
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
indicar la casualidad. Por ejemplo, un buen modelo de ejemplo de plumas, lápices
y tinta puede verse en lafigura14en General, el número de modelos posibles es
exponencial en el número de variables, y considerar todos los modelos resulta
costoso, por lo que se evalúa algún subconjunto de todos los modelos posibles.
FIGURA 14. GENERALIDAD DE UNA RED BAYESIANA
Leccion 14. Arboles de Decision. (Repaso)
Fuente: http://www.mitecnologico.com/Main/ArbolesDeDecision
El árbol de decisión es un diagrama que representan en forma secuencial
condiciones y acciones; muestra qué condiciones se consideran en primer lugar,
en segundo lugar y así sucesivamente. Este método permite mostrar la relación
que existe entre cada condición y el grupo de acciones permisibles asociado con
ella.
Un árbol de decisión sirve para modelar funciones discretas, en las que el objetivo
es determinar el valor combinado de un conjunto de variables, y basándose en el
valor de cada una de ellas, determinar la acción a ser tomada.
Los árboles de decisión son normalmente construidos a partir de la descripción de
la narrativa de un problema. Ellos proveen una visión gráfica de la toma de
decisión necesaria, especifican las variables que son evaluadas, qué acciones
deben ser tomadas y el orden en la cual la toma de decisión será efectuada. Cada
Pensar en
instrumentos de
escritura Comprar
lápices
Comprar
plumasplplu
mas plumas
plumas
Comprar
tinta
63
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
vez que se ejecuta un árbol de decisión, solo un camino será seguido
dependiendo del valor actual de la variable evaluada.
Se recomienda el uso del árbol de decisión cuando el número de acciones es
pequeño y no son posibles todas las combinaciones.
Uso de árboles decisiones.
El desarrollo de árboles de decisión beneficia al analista en dos formas. Primero
que todo, la necesidad de describir condiciones y acciones llevan a los analistas a
identificar de manera formal las decisiones que actualmente deben tomarse. De
esta forma, es difícil para ellos pasar por alto cualquier etapa del proceso de
decisión, sin importar que este dependa de variables cuantitativas o cualitativas.
Los árboles también obligan a los analistas a considerar la consecuencia de las
decisiones.
Se ha demostrado que los árboles de decisión son eficaces cuando es necesario
describir problemas con más de una dimensión o condición. También son útiles
para identificar los requerimientos de datos críticos que rodean al proceso de
decisión, es decir, los árboles indican los conjuntos de datos que la gerencia
requiere para formular decisiones o tomar acciones. El analista debe identificar y
elaborar una lista de todos los datos utilizados en el proceso de decisión,
aunque el árbol de decisión no muestra todo los datos.
Si los árboles de decisión se construyen después de completar el análisis de flujo
de datos, entonces es posible que los datos críticos se encuentren definidos en el
diccionario de datos (Tener en cuenta lo aprendido en el curso de Base de Datos
respecto a este aspecto), el cual describe los datos utilizados por el sistema y
donde se emplean. Si únicamente se usan árboles de decisiones, entonces el
analista debe tener la certeza de identificar con precisión cada dato necesario para
tomar la decisión.
Los árboles de decisión no siempre son la mejor herramienta para el análisis de
decisiones. El árbol de decisiones de un sistema complejo con muchas secuencias
de pasos y combinaciones de condiciones puede tener un tamaño considerable. El
gran número de ramas que pertenecen a varias trayectorias constituye más un
problema que una ayuda para el análisis. En estos casos los analistas corren el
riesgo de no determinar qué políticas o estrategias de la empresa son la guía para
64
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
la toma de decisiones específicas. Cuando aparecen estos problemas, entonces
es momento de considerar las tablas de decision.
Leccion 15. AlgoritmoC.45
Fuentes:
1. http://es.scribd.com/doc/57484779/Algoritmo-c45-Arboles-de-Decision
2. https://docs.google.com/a/unad.edu.co/viewer?a=v&q=cache:pr7QuqiJ4VgJ:su
bversion.assembla.com/svn/easy7550/material/apuntes/AlgoritmoC4.5%28200
5-II-
B%29.pdf+&hl=es&gl=co&pid=bl&srcid=ADGEESh_udX77m_hQeRfpIS7It_OD
oZ2LhuaxOEEijoBFgU-
m5gS5NWlf41aS0zbbrxKqRFn7NziFq6NMSzDOqDbUHeWpfYGw2yW1k7BWI
0cIyC9-
zf3OwWb2Zc3NFuXxajFfl1U9btp&sig=AHIEtbRQX530TyZ_qKL8fcQxYl-
ARFrbjA&pli=1
Algoritmo C4.5. : J.R. QUINLAN (1994): C4.5 para atributos continuos y discretos.
J.R. Quinlan propone una mejora, una extensión del algoritmo ID3, al que
denomina C4.5, estealgoritmo genera un árbol de decisión a partir de los datos
mediante participaciones realizadasrecursivamente. El árbol se construye
mediante la estrategia de profundidad primero (depth first).El algoritmo C4.5 utiliza
una técnica heurística conocida como proporción de ganancia (gainratio). Es una
medida basada en información que considera diferentes números y
diferentesprobabilidades de los resultados de las pruebas.El algoritmo considera
todas las pruebas posibles que pueden dividir el conjunto de datos y selecciona la
prueba que le haya generado la mayor ganancia de información. Para cada
atributodiscreto, se considera una prueba con n resultados, siendo n el número de
valores posibles quepuede tomar el atributo. Para cada atributo continuo, se
realiza una prueba binaria (1,0) sobrecada uno de los valores que toma el atributo
en los datos. En cada nodo, el sistema debe decidircual prueba escoge para dividir
los datos.Según Espino (2005) los tres tipos de pruebas posibles propuestas para
el C4.5 son:
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones
Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones

Más contenido relacionado

La actualidad más candente

Tesis análisis sobre el uso, beneficios y limitaciones de las herramientas de...
Tesis análisis sobre el uso, beneficios y limitaciones de las herramientas de...Tesis análisis sobre el uso, beneficios y limitaciones de las herramientas de...
Tesis análisis sobre el uso, beneficios y limitaciones de las herramientas de...Luis Ernesto Silva Solano
 
Evaluación de riesgos: Motoserrista
Evaluación de riesgos: MotoserristaEvaluación de riesgos: Motoserrista
Evaluación de riesgos: MotoserristaAna Paula Casco
 
Tesis Automatizacion
Tesis AutomatizacionTesis Automatizacion
Tesis AutomatizacionAlan Miranda
 
MANUAL DE PRACTICAS DE TOPOGRAFIA
MANUAL DE PRACTICAS DE TOPOGRAFIAMANUAL DE PRACTICAS DE TOPOGRAFIA
MANUAL DE PRACTICAS DE TOPOGRAFIAYAJAIRA CARDENAS
 
Manual de prácticas de topografía y cartografía by jacinto santamaría peña te...
Manual de prácticas de topografía y cartografía by jacinto santamaría peña te...Manual de prácticas de topografía y cartografía by jacinto santamaría peña te...
Manual de prácticas de topografía y cartografía by jacinto santamaría peña te...CadenaEdwin
 

La actualidad más candente (12)

Manual i para maquinas herramientas
Manual i para maquinas herramientasManual i para maquinas herramientas
Manual i para maquinas herramientas
 
Quimica
QuimicaQuimica
Quimica
 
Tesis análisis sobre el uso, beneficios y limitaciones de las herramientas de...
Tesis análisis sobre el uso, beneficios y limitaciones de las herramientas de...Tesis análisis sobre el uso, beneficios y limitaciones de las herramientas de...
Tesis análisis sobre el uso, beneficios y limitaciones de las herramientas de...
 
310118 borrador proy_retie_instalaciones
310118 borrador proy_retie_instalaciones310118 borrador proy_retie_instalaciones
310118 borrador proy_retie_instalaciones
 
Evaluación de riesgos: Motoserrista
Evaluación de riesgos: MotoserristaEvaluación de riesgos: Motoserrista
Evaluación de riesgos: Motoserrista
 
Tesis Automatizacion
Tesis AutomatizacionTesis Automatizacion
Tesis Automatizacion
 
T circuitos
T circuitosT circuitos
T circuitos
 
Industrias de procesos
Industrias de procesosIndustrias de procesos
Industrias de procesos
 
Proyecto de cableado estructurado
Proyecto de cableado estructuradoProyecto de cableado estructurado
Proyecto de cableado estructurado
 
MANUAL DE PRACTICAS DE TOPOGRAFIA
MANUAL DE PRACTICAS DE TOPOGRAFIAMANUAL DE PRACTICAS DE TOPOGRAFIA
MANUAL DE PRACTICAS DE TOPOGRAFIA
 
Manual de prácticas de topografía y cartografía by jacinto santamaría peña te...
Manual de prácticas de topografía y cartografía by jacinto santamaría peña te...Manual de prácticas de topografía y cartografía by jacinto santamaría peña te...
Manual de prácticas de topografía y cartografía by jacinto santamaría peña te...
 
21222
2122221222
21222
 

Destacado

Mini manual de r commander, comandos, ventanas y aplicaciones del software en...
Mini manual de r commander, comandos, ventanas y aplicaciones del software en...Mini manual de r commander, comandos, ventanas y aplicaciones del software en...
Mini manual de r commander, comandos, ventanas y aplicaciones del software en...daniel segura
 
Actividad No. 1.8: Análisis del protocolo MySQL
Actividad No. 1.8: Análisis del protocolo MySQLActividad No. 1.8: Análisis del protocolo MySQL
Actividad No. 1.8: Análisis del protocolo MySQLFrancisco Medina
 
Sistemas de informacion gernecial
Sistemas de informacion gernecialSistemas de informacion gernecial
Sistemas de informacion gernecialAnyeni Garay
 
Proyecto de base de datos
Proyecto de base de datosProyecto de base de datos
Proyecto de base de datosLissette Alerak
 
Mineria de Datos
Mineria de DatosMineria de Datos
Mineria de Datos04071977
 

Destacado (8)

Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Mini manual de r commander, comandos, ventanas y aplicaciones del software en...
Mini manual de r commander, comandos, ventanas y aplicaciones del software en...Mini manual de r commander, comandos, ventanas y aplicaciones del software en...
Mini manual de r commander, comandos, ventanas y aplicaciones del software en...
 
Actividad No. 1.8: Análisis del protocolo MySQL
Actividad No. 1.8: Análisis del protocolo MySQLActividad No. 1.8: Análisis del protocolo MySQL
Actividad No. 1.8: Análisis del protocolo MySQL
 
Dm 01
Dm 01Dm 01
Dm 01
 
Sistemas de informacion gernecial
Sistemas de informacion gernecialSistemas de informacion gernecial
Sistemas de informacion gernecial
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Proyecto de base de datos
Proyecto de base de datosProyecto de base de datos
Proyecto de base de datos
 
Mineria de Datos
Mineria de DatosMineria de Datos
Mineria de Datos
 

Similar a Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones

Proyecto pasaje al instanste.v (7)
Proyecto pasaje al instanste.v (7)Proyecto pasaje al instanste.v (7)
Proyecto pasaje al instanste.v (7)Tory Ventura Choque
 
Compendio de Lenguaje de Programación
Compendio de Lenguaje de ProgramaciónCompendio de Lenguaje de Programación
Compendio de Lenguaje de ProgramaciónVictor Zapata
 
Folleto ie1 cb-2020
Folleto ie1  cb-2020Folleto ie1  cb-2020
Folleto ie1 cb-2020Alumic S.A
 
Manual de Photoshop para Nivel Primario 2018
Manual de Photoshop para Nivel Primario 2018Manual de Photoshop para Nivel Primario 2018
Manual de Photoshop para Nivel Primario 2018DEMETRIO JOSEPH DIAZ COBA
 
Anexo 06 sc equipos e inst electromecanicas
Anexo 06  sc equipos e inst electromecanicasAnexo 06  sc equipos e inst electromecanicas
Anexo 06 sc equipos e inst electromecanicasscarpin alexis
 
Serie aprender a investigar 1
Serie aprender a investigar 1Serie aprender a investigar 1
Serie aprender a investigar 1JCASTINI
 
Modulo 1 ciencia_tecnologia_sociedad_y_desarrollo
Modulo 1 ciencia_tecnologia_sociedad_y_desarrolloModulo 1 ciencia_tecnologia_sociedad_y_desarrollo
Modulo 1 ciencia_tecnologia_sociedad_y_desarrolloRudver Hermosa Camacho
 
Investigación 2014 - Propuesta Desarrollo Competencias TIC FEDU
Investigación 2014 - Propuesta Desarrollo Competencias TIC FEDUInvestigación 2014 - Propuesta Desarrollo Competencias TIC FEDU
Investigación 2014 - Propuesta Desarrollo Competencias TIC FEDUdidacticayevaluacionudla
 
100201 módulo herramientas telemáticas 2011
100201 módulo herramientas telemáticas 2011100201 módulo herramientas telemáticas 2011
100201 módulo herramientas telemáticas 2011Mario Trujillo
 
Modulo Planeación y control de la producción
Modulo Planeación y control de la producciónModulo Planeación y control de la producción
Modulo Planeación y control de la producciónDavid Ramirez
 
Calculo de desvio
Calculo de desvioCalculo de desvio
Calculo de desviojfloresf1
 

Similar a Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones (20)

Proyecto pasaje al instanste.v (7)
Proyecto pasaje al instanste.v (7)Proyecto pasaje al instanste.v (7)
Proyecto pasaje al instanste.v (7)
 
Complexivo 3
Complexivo 3Complexivo 3
Complexivo 3
 
Compendio de Lenguaje de Programación
Compendio de Lenguaje de ProgramaciónCompendio de Lenguaje de Programación
Compendio de Lenguaje de Programación
 
Folleto ie1 cb-2020
Folleto ie1  cb-2020Folleto ie1  cb-2020
Folleto ie1 cb-2020
 
Electromecanica
ElectromecanicaElectromecanica
Electromecanica
 
Electromecanica
ElectromecanicaElectromecanica
Electromecanica
 
Electromecanica
ElectromecanicaElectromecanica
Electromecanica
 
Tesis pre - grado
Tesis pre - gradoTesis pre - grado
Tesis pre - grado
 
Manual de Photoshop para Nivel Primario 2018
Manual de Photoshop para Nivel Primario 2018Manual de Photoshop para Nivel Primario 2018
Manual de Photoshop para Nivel Primario 2018
 
Domotica
DomoticaDomotica
Domotica
 
Anexo 06 sc equipos e inst electromecanicas
Anexo 06  sc equipos e inst electromecanicasAnexo 06  sc equipos e inst electromecanicas
Anexo 06 sc equipos e inst electromecanicas
 
Serie aprender a investigar 1
Serie aprender a investigar 1Serie aprender a investigar 1
Serie aprender a investigar 1
 
Modulo 1 ciencia_tecnologia_sociedad_y_desarrollo
Modulo 1 ciencia_tecnologia_sociedad_y_desarrolloModulo 1 ciencia_tecnologia_sociedad_y_desarrollo
Modulo 1 ciencia_tecnologia_sociedad_y_desarrollo
 
Investigación 2014 - Propuesta Desarrollo Competencias TIC FEDU
Investigación 2014 - Propuesta Desarrollo Competencias TIC FEDUInvestigación 2014 - Propuesta Desarrollo Competencias TIC FEDU
Investigación 2014 - Propuesta Desarrollo Competencias TIC FEDU
 
Tesis vf hospital lazarte final (1)
Tesis  vf   hospital lazarte final (1)Tesis  vf   hospital lazarte final (1)
Tesis vf hospital lazarte final (1)
 
100201 módulo herramientas telemáticas 2011
100201 módulo herramientas telemáticas 2011100201 módulo herramientas telemáticas 2011
100201 módulo herramientas telemáticas 2011
 
Tic 1504
Tic 1504Tic 1504
Tic 1504
 
Modulo Planeación y control de la producción
Modulo Planeación y control de la producciónModulo Planeación y control de la producción
Modulo Planeación y control de la producción
 
Calculo de desvio
Calculo de desvioCalculo de desvio
Calculo de desvio
 
Enunciado lcel1213 v1.0
Enunciado lcel1213 v1.0Enunciado lcel1213 v1.0
Enunciado lcel1213 v1.0
 

Curso de Minería de Datos de la UNAD: conceptos, procesos, herramientas y aplicaciones

  • 1. 1 UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD Escuela de Ciencias Básicas Tecnología e Ingeniería Curso Minería de Datos MODULO MINERIA DE DATOS COD 201170 JOSE MIGUEL HERRAN SUAREZ UNIVERSIDAD NACIONAL ABIERTA YA DISTANCIA – UNAD PROGRAMA: INGENIERIA DE SISTEMAS TUNJA. 2012
  • 2. 2 UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD Escuela de Ciencias Básicas Tecnología e Ingeniería Curso Minería de Datos INDICE DE CONTENIDO Contenido INTRODUCCIÓN ...........................................................................................................................................7 UNIDAD 1: MINERIA DE DATOS....................................................................................................................9 1.1. Capitulo I:Conceptos Fundamentales............................................................................................... 9 Lección 1: Características de Mineria de Datos.................................................................................... 10 Artículo de Reflexión. La información digital crece a mas del doble cada año........................................ 13 Leccion 2. Disponibilidad de Software .................................................................................................. 17 Leccion 3. Ejemplos de aplicaciones de la Minería de Datos................................................................ 21 Leccion 4. Objetivos de la Minería de Datos .......................................................................................... 22 Lección 5. Minería de datos y la toma de decisiones............................................................................. 28 Actividad de cierre Capitulo I................................................................................................................... 28 1.2. Capitulo II KDD. ............................................................................................................................. 30 Lección 6. Proceso de Descubrimiento del Conocimiento en Bases de Datos ...................................... 30 Lección 7. Diagrama del Proceso de KDD ............................................................................................... 32 Leccion. 8. Etapas de abordaje. .............................................................................................................. 34 Leccion 9. Desarrollo del proceso de KDD.............................................................................................. 36 Leccion 10. Evaluación de Patrones........................................................................................................ 44 Actividad cierre Capitulo II Caso de Estudio. ........................................................................................... 45 1.3 Capitulo III Reglas de Asociación usadas en Minería de Datos............................................................. 49 Lección 11. Identificación de las reglas de asociación. .......................................................................... 49 Leccion 12. Algoritmos para la busqueda de reglas asociadas. .......................................................... 54 Leccion 13.Jerarquias.............................................................................................................................. 58 Leccion 13.Redes Bayesianas.................................................................................................................. 61 Leccion 14. Arboles de Decision. (Repaso)............................................................................................. 62 Leccion 15. AlgoritmoC.45 ...................................................................................................................... 64 Actividad de cierre Capitulo III................................................................................................................. 66 UNIDAD II PROCESO DE MINERIA DE DATOS............................................................................................. 67 2.1. CapituloIV: El Modelo de CRISP – DM. .................................................................................................. 67 Leccion 16. Generalidades ...................................................................................................................... 67 Leccion 17. Comprensión del Negocio.................................................................................................... 69 Leccion 18. Comprensión de los datos. .................................................................................................. 70
  • 3. 3 UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD Escuela de Ciencias Básicas Tecnología e Ingeniería Curso Minería de Datos Leccion 19. Modelado............................................................................................................................. 72 Leccion 20. Evaluacion e Implantación................................................................................................... 73 Actividad de cierre Capitulo IV ................................................................................................................ 73 2.2 Capitulo V. Herramientas de Minería de Datos...................................................................................... 75 Leccion 21. WEKA.................................................................................................................................... 75 Leccion. 22. IlliMine. ............................................................................................................................... 77 Leccion. 23 Rattle.................................................................................................................................... 78 Leccion 24. Rapid Miner.......................................................................................................................... 78 Leccion. 25. Knime. ................................................................................................................................. 79 Actividad de Cierre Capitulo V................................................................................................................. 80 2.3. Capitulo VI Ambientes de Trabajo en Grid ............................................................................................ 80 Leccion 26. Grid WEKA............................................................................................................................ 80 Leccion 27. Discovery Net....................................................................................................................... 82 Leccion 28. Componentes de un Modelo GridMiner ............................................................................. 84 Lección 29. Mineria de Datos y Almacenes de Datos en ODM.............................................................. 86 Lección 30. Oracle DataMinig (ODM) ..................................................................................................... 87 Actividad de Cierre Capitulo VI................................................................................................................ 88 UNIDAD III. Contexto de la Mienría de Datos............................................................................................. 89 Capitulo VII. Causas de aplicación de la Minería de Datos. ......................................................................... 89 Leccion 31. WEB Mining y Text Mining .................................................................................................. 90 Leccion 32.OLTP Y OLAP.......................................................................................................................... 95 Leccion 33. Bases de datos de transacion ............................................................................................ 96 Leccion 34. Arquitectura de los Almacenes de Datos ............................................................................ 99 Leccion 35. Explotación de un Almacen de Datos................................................................................ 100 Actividad de cierre Capitulo VII ............................................................................................................. 108 Capitulo VIII. Otros tipos de DataMart....................................................................................................... 109 Leccion 36. Rolap- Molap...................................................................................................................... 109 Leccion 37. Almacen de Datos y Mineria de Datos ............................................................................. 112 Leccion 38. Exploracion y seleccion. El contexto de la vista minable................................................. 116 Leccion 39. Exploración mediante visualización. ................................................................................. 126 Leccion 40. Visualización Multidimensional......................................................................................... 130 Actividad de cierre Capitulo VIII ............................................................................................................ 141 Capitulo 9: Técnicas de Minería de Datos. ................................................................................................. 143 Leccion. 41. Redes Neuronales ............................................................................................................ 143 Leccion 42. Procesamiento analítico en linea .................................................................................... 151 Leccion 43. WEB Mining........................................................................................................................ 154 Lección 44. Disciplinas relacionadas...................................................................................................... 161 Leccion 45. Mineria de Textos .............................................................................................................. 166 ANEXOS ................................................................................................................................................... 171 Oracle SQL Developer................................................................................................................................. 171 Conectar Oracle SQL Developer con MySQL.......................................................................................... 172
  • 4. 4 UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD Escuela de Ciencias Básicas Tecnología e Ingeniería Curso Minería de Datos Conectar Oracle SQL Developer con SQL Server y Sybase..................................................................... 174 Servidor virtual con Pentaho configurado............................................................................................. 175 La instalación de Pentaho .......................................................................................................................... 176 Las herramientas de Virtualización............................................................................................................ 178 VirtualBox .............................................................................................................................................. 178 VMware ................................................................................................................................................. 178 El Sistema Operativo.............................................................................................................................. 179 Oracle SQL Developer .............................................................................................................................. 180 Conectar Oracle SQL Developer con MySQL.......................................................................................... 182 Conectar Oracle SQL Developer con SQL Server y Sybase..................................................................... 184 Conclusiones............................................................................................................................................ 186 BIBLIOGRAFIA.......................................................................................................................................... 187
  • 5. 5 UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD Escuela de Ciencias Básicas Tecnología e Ingeniería Curso Minería de Datos Listado de figuras 1. Figura 1. Análisis de datos 2. Figura 2. Distinto Enfoque 3. Figura3. Olap y consultas deductivas ⇒dirigidos por hipótesis 4. Figura 4. Disponibilidad de software comercial. 5. Figura 5: Jerarquía del conocimiento. 6. Figura 6: Proceso de KDD 7. Figura 7.etapas en el proceso de KDD. 8. Figura 8. Ejemplos de imagenes de células con leucemia. 9. Figura 9. Ejemplo de cómo transformar una imagen de una célula a una tabla. 10.Figura 10. La Minería de Datos y su relación con otras áreas de conocimiento. 11. figura 11. Clasificación de Leucemias agudas. 12.Figura 12. Taxonomía de una categoría. 13.Figura 13. Inserción en la relación de compras con una jerarquía. 14. figura 14. Contexto de bases de datos frente a data minimg. 15. figura 15. Explorador de weka. 16.figura 16. Grid weka, escenario de usos. 17. figura17. Componentes de discovery net. 18. figura 18. Componentes de gridminer. 19.Figura 19. Contexto de bases de datos frente a data minimg. 20. Figura 20 almacén de datos como integración de diferentes fuentes de datos. 21.Figura 21. Topología de un clasificador Naive Bayes.
  • 6. 6 UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD Escuela de Ciencias Básicas Tecnología e Ingeniería Curso Minería de Datos Listado de tablas Tabla 1: Ejemplos de aplicaciones de la minería de datos. Tabla 2. Fases de modelo crips-dm. Tabla 3 Diferencia entre bases de datos transaccional y almacenes de datos Tabla 4.Tabulacion de ventas con nombre_articuloy color Tabla 5. Representación relacional de los datos. Tabla 6. Tabulacion cruzada de ventas con la jerarquia
  • 7. 7 UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD Escuela de Ciencias Básicas Tecnología e Ingeniería Curso Minería de Datos INTRODUCCIÓN Este modulo pretende y busca dar una visión general de lo que son las técnicas de análisis de los datos y el proceso de Minería de Datos, basándose en una gran recolección de información de variadas fuentes, paginas de internet, artículos científicos, foros de desarrollo y en especial en los libros (la gran mayoría en ingles)… todos ellos citados para respetar la propiedad intelectual y brindar al estudiante los conceptos y las técnicas de la manera mas entendible; de manera tal que al estudiar el modulo en la soledad de su propia disciplina logre adquirir los conocimientos sin problemas y no provoce un desanimo ni una apatía al area de estudio, a la vez se debe tener en cuenta que cada semestre se actualizará el modulo por lo tanto es importante bajarlo del repositorio para una mayor concordancia con el curso en la plataforma. El tema que concierne es muy complejo y hay mucha tela de donde cortar, por lo que se pretende sentar las bases para una profundización en las diferentes areas de aplicación, y a la vez se recomienda hacer un repaso jucioso de las tematicas revisadas en Bases de Datos, Análisis y Diseño de Sistemas, Inteligencia Artificial (Redes Neuronales) y Probabilidad. Durante el desarrollo tecnológico podemos ver como una de las herramientas que han sido de gran utilidad dentro del campo del manejo de volúmenes de información la Mineria de Datos se ha venido abriendo campo en los diferentes ámbitos laborales como son las aplicaciones científicas, de negocios y medios de información gracias a ella se puede ver como esta interactuando y almacenando datos en la mayoría de los casos, estas organizaciones tienden a construir conjuntos de datos centralizados o almacenes de datos (Data warehouse) que reúnen toda la información de sus liares dispersas geográficamente. Es así que esta situación ha fomentado el desarrollo de herramientas para el tratamiento de la información, dando lugar a una disciplina conocida como Mineria
  • 8. 8 UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD Escuela de Ciencias Básicas Tecnología e Ingeniería Curso Minería de Datos de datos o (Data Mining), se define como un conjunto de técnicas y herramientas aplicadas al proceso de extraer y presentar conocimiento implícito previamente desconocido. El objetivó de la implementación de este modulo el cual vale tiene un peso de tres créditos es el abordaje de la tematica relacionada como sigue. La temática de la unidad uno es Mineria de Datos, la Unidad dos Preapración de los Datos, unidad tres Tecnicas de Mineria de Datos. Con la realización de este modulo como material didáctico de consulta para tutores y estudiantes de la UNAD.
  • 9. 9 UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD Escuela de Ciencias Básicas Tecnología e Ingeniería Curso Minería de Datos UNIDAD 1: MINERIA DE DATOS 1.1. Capitulo I:Conceptos Fundamentales La minería de datos está relacionada con la subárea de la estadística denominada explorador de datos, que tiene objetivos parecidos y se basa en las medidas estadísticas. También está estrechamente relacionada con las subáreas de la inteligencia artificial denomina descubrimiento del conocimiento y aprendizaje de la máquina. La característica importante de la minería de datos es que se usa normalmente para el manejo de datos que están agrupados en grandes volúmenes; aunque la idea de esta area de estudio relacionada sea aplicable a los problemas de minería de datos, la escalabilidad con respecto al tamaño de los datos es un criterio nuevo importante, que se debe tener en cuenta para el proceso de aplicabilidad de los conceptos. Un algoritmo es escalable y el tiempo de ejecución crece (linealmente) en proporción al tamaño del conjunto de datos, lo que mantiene los recursos disponibles del sistema (por ejemplo, la cantidad de memoria principal y la velocidad el proceso de la UCP) constante, deben adaptar los algoritmos antiguos o desarrollar otros nuevos para que se garantice la escalabilidad a la hora de descubrir pautas en los datos. La búsqueda de tendencias útiles en los conjuntos de datos es una definición bastante imprecisa de la minería de datos: en cierto sentido se puede considerar que todas las consultas a bases de datos hacen exactamente esto; pero en realidad, hay un continuo uso de las herramientas de análisis y exploración, con las consultas de SQL que crean mediante la algebra relacional (con algunas extensiones), OLAP ofrece expresiones de consulta en nivel superior basadas en el modelo de datos multidimensionales, y la minería de datos proporciona las operaciones de análisis abstractas. Se puede pensar en las diferentes tareas de la minería de datos como ―consultas‖ complejas especificadas en un nivel elevado, con unos cuantos parámetros que son definibles por los usuarios, para las que se implementan algoritmos especializados. SQL /MM: minería de datos SQL /MM.
  • 10. 10 UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD Escuela de Ciencias Básicas Tecnología e Ingeniería Curso Minería de Datos La SQL /MM: data mining de la norma SQL: 1999 soporta cuatro tipos de modelos de minería de datos:  Conjuntos de elementos frecuentes y reglas de asociación  Agrupaciones de registros  Arboles de regresión  Arboles de clasificación. Se introduce entonces varios tipos de datos nuevos, estos tipos de datos desempeñan varios papeles, algunos representan una clase de modelo concreta (por ejemplo, DM_Regression model, DM_ClusteringModel); otros especifican los parámetros de entrada de un algoritmo de minería (por ejemplo, DM_ RegTask, DM_ClusTask); unos describen los datos de entrada (por ejemplo, DM_LogicaDataSpec, DM, _MininData); y otros representan el resultado de la ejecución de un algoritmo de minería (por ejemplo, DM_RegResult, DM_ClusResult). En conjunto estas clases y sus métodos ofrecen una interfaz normalizada para los algoritmos de minería de datos que se pueden invocar desde cualquier sistema de bases de datos SQL: en 1999. Los modelos de minería de datos se pueden exportar en formato XML normalizado denominado lengua de marcas de modelos predictivos (Predictive Model Markup Language, PMML); también se pueden importar los modelos representados mediante PMML. Lección 1: Características de Mineria de Datos. Historia de la Minería de Datos Extracción de patrones de información (implícitos, no triviales, desconocidos y potencialmente útiles) a partir de grandes cantidades datos.
  • 11. 11 UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD Escuela de Ciencias Básicas Tecnología e Ingeniería Curso Minería de Datos También conocido por: Descubrimiento del conocimiento en bases de datos (KDD), extracción del conocimiento, análisis de datos/patrones, inteligencia de negocios Minería de datos NO es: _ Procesamiento deductivo de consultas en BBDD _ Un sistema experto o DSS _ Análisis estadístico _ Visualización de datos _ Pequeños programas de aprendizaje Muchas de las técnicas usadas en MD ya eran conocidas previamente, ¿a qué se debe el boomactual? En los 90‘s convergen los siguientes factores:  Los datos se están produciendo  Los datos se están almacenando  La potencia computacional necesaria es abordable  Existe una gran presión en la competitividad empresarial  Las herramientas software de MD están disponibles La MD sólo tiene sentido cuando se dispone de grandes volúmenes de datos? Ahora los datos se producen en grandes cantidades: scanners de venta, tarjetas de crédito, paper view, teletienda, ciencia, e-commerce, e-learning, e-business, etc.Algunos ejemplos:  El .log producido por Yahoo es de 10 GB cada hora.
  • 12. 12 UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD Escuela de Ciencias Básicas Tecnología e Ingeniería Curso Minería de Datos  El .log de google es de 23 GB cada 33 minutos.  Un Astrónomo instrumentista puede producir de 50 a 100 GB de datos en una noche. ( Proyecto SETI)  El genoma humano ocupa unos 300 TeraBytes.  12 millones de personas poseen una tarjeta Master Card.  Blockbuster Entertainment Corp... 36 millones de casas/familias como clientes.  Ebay, Mercadolibre, millones de transacciones cada día.
  • 13. 13 UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD Escuela de Ciencias Básicas Tecnología e Ingeniería Curso Minería de Datos Artículo de Reflexión. La información digital crece a mas del doble cada año. Para una documentación e ilustración más acorde, se acude a la URL Fuente: Artículo Publicado en la url: http://www.muycomputerpro.com/2011/08/03/informacion-digital-crece-doble-anos/ ECM publicó recientemente los resultados del estudio de IDC Digital Universe, Extracting Value from Chaos, en el que se llega a la conclusión de que la información digital en el mundo crece más del doble cada dos años, llegando a la colosal cifra de 1,8 zettabytes creados y replicados en 2011. La tecnología y el dinero son los encargados de impulsar las fuerzas que residen detrás de este incesante crecimiento. Las nuevas tecnologías para la utilización sencilla de la información están reduciendo el coste a la hora de crear, capturar, gestionar y almacenar la información: un sexto del coste en 2011 respecto a 2005. Además, desde 2005 las inversiones anuales de las empresas en el Universo Digital han aumentado un 50%, alcanzando unos 4.000 millones de dólares. El estudio señala que un crecimiento masivo de servidores, archivos y gestión de datos no logra mantener el ritmo del crecimiento de personal: IDC señala que las habilidades, experiencia y recursos para gestionar la avalancha de datos y recursos sencillamente no sigue el ritmo de crecimiento de otras áreas. Durante la próxima década, los departamentos de TI de todo el mundo experimentarán un crecimiento de: - 10 veces el número de servidores (virtuales y físicos). - 50 veces la cantidad de información a gestionar. - 75 veces el número de archivos o contenedores que encapsulan la información en el universo digital, que crece incluso más rápido que la propia información, como cada vez más los sistemas integrados tales como sensores en prendas de vestir, en puentes o en dispositivos médicos. - 1,5 veces el número de profesionales de TI disponibles para gestionar este volumen. A pesar de que la informática en la nube representa menos del 2% del gasto actual en TI, IDC predice que en 2015 casi el 20% de la información “pasará por las manos” de los proveedores de servicios de informática en la nube, lo que
  • 14. 14 UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD Escuela de Ciencias Básicas Tecnología e Ingeniería Curso Minería de Datos significa que en alguna parte del viaje del byte, desde su origen a su eliminación, la información se almacenará o procesará en la nube. Tal vez hasta un 10% permanecerá en la nube. El estudio también señala que la sombra digital tiene mente propia: la cantidad de información que crean los particulares (escribiendo documentos, haciendo fotografías, descargando música, etc.) es mucho menor que la cantidad de información creada sobre ellos mismos en el universo digital. Además, la responsabilidad legal o de cualquier otra naturaleza es de las empresas: a pesar de que el 75% de la información en el universo digital la generan particulares, las empresas son legalmente responsables del 80% de esta información en algún punto de su vida digital. Otros hallazgos clave Las nuevas herramientas de captura, búsqueda, descubrimiento y análisis pueden ayudar a las empresas a obtener una visión de los datos no estructurados, que representan más de un 90% del universo digital. Estas herramientas pueden crear datos sobre los datos de forma automática, al igual que las rutinas de reconocimiento facial que ayudan a etiquetar las fotos en Facebook. El crecimiento de los datos sobre los datos es dos veces más rápido que el del universo digital en su conjunto. Por otra parte, las herramientas de inteligencia empresarial tratan cada vez más con datos en tiempo real, tanto si se trata de cargar primas de seguros de automóviles en función de dónde se conduce, de la distribución de la energía a través de la red inteligente o de cambiar mensajes sobre la marcha según las respuestas de las redes sociales. En cuanto a las herramientas de gestión de almacenamiento ayudan a reducir los costes de la parte del universo digital que almacenamos, como la deduplicación, la autoorganización en niveles y la virtualización, así como para ayudarnos a decidir qué almacenamos exactamente, como las soluciones de gestión de contenidos. Fuente: Artículo Publicado en la url: http://www.muycomputerpro.com/2011/08/03/informacion-digital-crece-doble-anos/ La colección de datos orientadas a un dominio, integrado, no volátil y variable en el tiempo que ayuda a la toma de decisiones de la empresa u organización, esa es
  • 15. 15 UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD Escuela de Ciencias Básicas Tecnología e Ingeniería Curso Minería de Datos la información importante que se debe analizar y se debe tomar en cuenta para el desarrollo de esta línea profesional en la TI. El expediente de una empresa más allá de la información transaccional y operacional, almacenado para favorecer el análisis y la divulgación eficientes de datos, se subdivide a veces en unidades lógicas más pequeñas, llamadas los centroscomerciales dependientes de los datos. Generalmente, dos ideas básicas: _ Integracion de los datos de bases de datos distribuidas y diferentemente estructura, que facilita una descripción global y un análisis comprensivo en el almacén de los datos. _ Separacionde los datos usados en operaciones diarias, los datos usados en el almacén de los datos para los propósitos de la divulgación, de la ayuda enla toma de decisiones, para el análisis y para controlar algún ítem de proudccion o la oferta de un articulo o la creación de uno nuevo en una empresa.
  • 16. 16 UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD Escuela de Ciencias Básicas Tecnología e Ingeniería Curso Minería de Datos ESTRUCTURA DEL SISTEMA FIGURA 2. DISTINTO ENFOQUE FIGURA3. OLAP Y CONSULTAS DEDUCTIVAS ⇒ DIRIGIDOS POR HIPÓTESIS Minería de datos ⇒ dirigido por los datos
  • 17. 17 UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD Escuela de Ciencias Básicas Tecnología e Ingeniería Curso Minería de Datos Leccion 2. Disponibilidad de Software Algoritmos y técnicas usadas: Investigación —> software comercial —> aceptación FIGURA 4. DISPONIBILIDAD DE SOFTWARE COMERCIAL Fuente: Introduccion a la Mineria de Datos. José H. Orallo, Ma José Ramirez Q y Cesar F Ramirez. Pearson. SOFTWARE LIBRE WEKA
  • 18. 18 UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD Escuela de Ciencias Básicas Tecnología e Ingeniería Curso Minería de Datos Weka (Waikato Environment for Knowledge Analysis - Entorno para Análisis del Conocimiento de la Universidad de Waikato) es una plataforma de software para aprendizaje automático y minería de datos escrito en Java y desarrollado en la Universidad de Waikato. Weka es un software libre distribuido bajo licencia GNU- GPL. La minería de datos consiste en hallar tendencias o pautas interesantes en conjuntos de datos de gran tamaño para orientar las decisiones sobre actividades futuras. Hay una esperanza generalizada de que las herramientas de minería de datos puedan identificar esas pautas de los datos con un aporte humano mínimo. Las pautas identificadas por esas herramientas pueden ofrecer a los analistas de datos una perspectiva útil e inesperada que posteriormente se puede investigar con más detenimiento, quizás empleando otras herramientas de soporte a las decisiones. En el mundo real la minería de datos es mucho más aplicación de uno de estos algoritmos. Los datos suelen tener ruido o estar incompletos y, a menos que esto se comprenda y corrija, es probable que muchas pautas interesantes se pasen por alto y a la fiabilidad de las detectadas sea baja. Además el análisis debe decidir los tipos de algoritmos de minería que se invocan, aplicarlos a un conjunto bien escogido de muestra de datos y de variables (es decir, Tuplas y atributos), resumir los resultados, aplicar otras herramientas de ayuda a la toma de decisiones y de minería e iterar el proceso para poderlo ejecutar de la manera mas optima. Cabe mencionar en este punto que lamineria de datos es una técnica que aborda y que pretende analizar datos y a partir de ellos lograr predecir un estado de una variable. Limitarse a almacenar información en un almacén de datos no proporciona los beneficios que las organizaciones buscan a la hora de implantar este tipo de sistemas; para conseguir sacar el máximo provecho de un almacén de datos, es necesario extraer el conocimiento oculto dentro del almacén. sin embargo, a
  • 19. 19 UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD Escuela de Ciencias Básicas Tecnología e Ingeniería Curso Minería de Datos medida que crece la cantidad y la complejidad de los datos contenidos en un almacén de datos, se hace cada vez más fácil, si no imposible, para los analistas de negocio identificar las tendencias y relaciones en los datos de manera acertada, este proceso es muy complejo ya que deben usar herramientas avanzadas de consulta y de generación de informes. La minería de datos es una de las maneras de extraer patrones y tendencias significativas de entre un enorme conjunto de datos. La mayoría de datos descubre información dentro de los almacenes de datos que las consultas e informes que no pueden hacer por métodos tradicionales de manera efectiva. Existen numerosas definiciones sobre lo que és la minería de datos, desde definiciones muy amplias que describen la minería de datos como cualquier herramienta que permite a los usuarios acceder directamente a grandes cantidades de datos, hasta definiciones más específicas, como la que afirma que se trata de herramientas y aplicaciones que realizan análisis estadísticos sobre los datos para detectar patrones. Minería de datos: Es el proceso de extraer la información válida, previamente desconocida, comprensible y útil de base de datos de gran tamaño y utilizar dicha información para tomar decisiones de negocio cruciales. La minería de datos se preocupa del análisis de los datos y de la utilización de técnicas software para localizar patrones y relaciones ocultas e inesperadas dentro de una serie de conjuntos de datos. El enfoque de laminería de datos consiste en revelar información que esté oculta y sea inesperada, ya que no tiene mucho sentido tratar de encontrar patrones y relaciones que resulten intuitivos por sí mismos. Para identificar los patrones y relaciones ocultos se examinan las reglas y características subyacentes a los datos.
  • 20. 20 UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD Escuela de Ciencias Básicas Tecnología e Ingeniería Curso Minería de Datos El análisis de minería de datos tiende a trabajar comenzando por los propios datos y progresando hacia arriba, y las técnicas que producen los resultados más precisos requieren, normalmente, grandes volúmenes de datos para poder ofrecer una conclusión fiable. El proceso de análisis comienza desarrollando una representación óptima de la estructura de una serie de datos de ejemplo, adquiriéndose uno ciertos conocimientos durante esta fase. Dichos conocimientos se amplían posteriormente a conjuntos de datos de mayor tamaño, trabajando con la suposición de que esos conjuntos de datos de mayor tamaño tienen una estructura similar a la de los datos de muestra. La minería de datos puede reportar enormes beneficios a las empresas que hayan hecho una inversión de significativa en tecnologías de almacén de datos. Aunque la minería de datos es una tecnología relativamente nueva, ya se utilizan diversos sectores. La tabla indica diversos ejemplos de aplicaciones de laminería de datos en comercio al por menos/marketing, banca, seguros y medicina.
  • 21. 21 UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD Escuela de Ciencias Básicas Tecnología e Ingeniería Curso Minería de Datos Leccion 3. Ejemplos de aplicaciones de la Minería de Datos. Fuente: Autor Comercio al por menor/marketing  Identificación de los patrones de compra de los clientes.  Determinación de asociaciones entre las características demográficas de los clientes.  Predicción de la respuesta a las campañas de publicidad por correo análisis de cesta de la compra. Banca  Detección de patrones de uso fraudulento de tarjetas de crédito.
  • 22. 22 UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD Escuela de Ciencias Básicas Tecnología e Ingeniería Curso Minería de Datos  Identificación de clientes leales.  Predicción de clientes que tienen probabilidad de cambiar de banco suministrador de tarjeta de crédito determinación de los casos realizados por ciertos grupos de clientes con la tarjeta de crédito. Seguros  Análisis de partes.  Predicción de los clientes que suscribe nuevas polizas. Medicina  Caracterización del comportamiento de los pacientes para predecir las visitas quirúrgicas.  Identificación de terapias medicas adecuadas para diferentes enfermedades. Leccion 4. Objetivos de la Minería de Datos Objetivo General  Descubrir patrones, perfiles, y tendencias a través del análisis de datos con tecnologías de reconocimiento de patrones, redes neuronales, lógica difusa, algoritmos genéticos y otras técnicas estadísticas avanzadas del análisis multivariante de datos. Objetivos Específicos de la Minería de Datos  La Minería de Datos como parte de los sistemas de apoyo a las decisiones, a partir de un análisis comparativo entre la teoría y la investigación de campo, para obtener conclusiones que permitan identificar cómo
  • 23. 23 UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD Escuela de Ciencias Básicas Tecnología e Ingeniería Curso Minería de Datos implementar y utilizar adecuadamente la Minería de Datos en la toma de decisiones.  Identificar cuáles son las características de los productos de Minería de Datos más relevantes a nivel mundial.  Explorar los datos que se encuentran en las profundidades de las bases de datos, como los almacenes de datos, que algunas veces contienen información almacenada durante varios años. En algunos casos, los datos se consolidan en un almacén de datos y en market de datos; en otros, se mantienen en servidores de Internet e Intranet. El entorno de la minería de datos suele tener una arquitectura cliente servidor. Las herramientas de la minería de datos ayudan a extraer el mineral (objeto de datos) de la información enterrada en archivos corporativos o en registros públicos, archivados El minero es, muchas veces un usuario final con poca o ninguna habilidad de programación, facultado por barrenadoras de datos (formatos de registro de datos) y otras poderosas herramientas indagatorias para efectuar preguntas y obtener rápidamente respuestas. Hurgar y sacudir a menudo implica el descubrimiento de resultados valiosos e inesperados. ( hacer análisis de la información y tratar de evitar la redundancia) Las herramientas de la minería de datos se combinan fácilmente y pueden analizarse y procesar rápidamente.
  • 24. 24 UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD Escuela de Ciencias Básicas Tecnología e Ingeniería Curso Minería de Datos Debido a la gran cantidad de datos, algunas veces resulta necesario usar procesamiento en paralelo para la minería de datos. • La minería de datos produce cinco tipos de información: a. Asociaciones. b. Secuencias. c. Clasificaciones. d. Agrupamientos. e. Pronósticos. • Los mineros de datos usan varias herramientas y técnicas. La minería de datos es un proceso que invierte la dinámica del método científico en el siguiente sentido: En el método científico, primero se formula la hipótesis y luego se diseña el experimento para coleccionar los datos que confirmen o refuten la hipótesis. Si esto se hace con la formalidad adecuada (cuidando cuáles son las variables controladas y cuáles experimentales), se obtiene un nuevo conocimiento. En la minería de datos, se coleccionan los datos y se espera que de ellos emerjan hipótesis. Se busca que los datos describan o indiquen por qué son como son. Luego entonces, se valida esa hipótesis inspirada por los datos en los datos mismos, será numéricamente significativa, pero experimentalmente inválida. De ahí que la minería de datos debe presentar un enfoque exploratorio, y no confirmador. Usar la minería de datos para confirmar las hipótesis formuladas puede ser peligroso, pues se está haciendo una inferencia poco válida.
  • 25. 25 UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD Escuela de Ciencias Básicas Tecnología e Ingeniería Curso Minería de Datos La minería de datos es una tecnología compuesta por etapas que integra varias áreas y que no se debe confundir con un gran software. Durante el desarrollo de un proyecto de este tipo se usan diferentes aplicaciones software en cada etapa que pueden ser estadísticas, de visualización de datos o de inteligencia artificial, principalmente. Actualmente existen aplicaciones o herramientas comerciales de minería de datos muy poderosas que contienen un sinfín de utilerías que facilitan el desarrollo de un proyecto. Sin embargo, casi siempre acaban complementándose con otra herramienta. Fundamentos del Data Mining. Las técnicas de Data Mining son el resultado de un largo proceso de investigación y desarrollo de productos. Esta evolución comenzó cuando los datos de negocios fueron almacenados por primera vez en computadoras, y continuó con mejoras en el acceso a los datos, y más recientemente con tecnologías generadas para permitir a los usuarios navegar a través de los datos en tiempo real. Data Mining toma este proceso de evolución más allá del acceso y navegación retrospectiva de los datos, hacia la entrega de información prospectiva y proactiva. Data Mining está lista para su aplicación en la comunidad de negocios porque está soportado por tres tecnologías que ya están suficientemente maduras: • Recolección masiva de datos. • Potentes computadoras con multiprocesadores. • Algoritmos de Data Mining. Las bases de datos comerciales están creciendo a un ritmo sin precedentes.
  • 26. 26 UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD Escuela de Ciencias Básicas Tecnología e Ingeniería Curso Minería de Datos Un reciente estudio del META GROUP sobre los proyectos de Data Warehouse encontró que el 19% de los que contestaron están por encima del nivel de los 50 Gigabytes, mientras que el 59% espera alcanzarlo en el segundo trimestre de 1997. En algunas industrias, tales como ventas al por menor (retal), estos números pueden ser aún mayores. MCI Telecommunications Corp. cuenta con una base de datos de 3 terabytes + 1 terabyte de índices y overhead corriendo en MVS sobre IBM SP2. La necesidad paralela de motores computacionales mejorados puede ahora alcanzarse de forma más costo - efectiva con tecnología de computadoras con multiprocesamiento paralelo. Los algoritmos de Data Mining utilizan técnicas que han existido por lo menos desde hace 10 años, pero que sólo han sido implementadas recientemente como herramientas maduras, confiables, entendibles que consistentemente son más performantes que métodos estadísticos clásicos. En la evolución desde los datos de negocios a información de negocios, cada nuevo paso se basa en el previo. Por ejemplo, l es crítica para Data Mining. Los componentes esenciales de la tecnología de Data Mining han estado bajo desarrollo por décadas, en áreas de investigación como estadísticas, inteligencia artificial y aprendizaje de máquinas. Hoy, la madurez de estas técnicas, junto con los motores de bases de datos relacionales de alta performance, hicieron que estas tecnologías fueran prácticas para los entornos de data warehouse actuales. Alcance de Data Mining. El nombre de Data Mining deriva de las similitudes entre buscar valiosa información de negocios en grandes bases de datos - por ej.: encontrar información de la venta de un producto entre grandes montos de Gigabytes almacenados - y minar una montaña para encontrar una veta de metales valiosos. Ambos procesos requieren examinar una inmensa cantidad de material, o
  • 27. 27 UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD Escuela de Ciencias Básicas Tecnología e Ingeniería Curso Minería de Datos investigar inteligentemente hasta encontrar exactamente donde residen los valores. Dadas bases de datos de sucinte tamaño y calidad, la tecnología de Data Mining puede generar nuevas oportunidades de negocios al proveer estas capacidades: • Predicción automatizada de tendencias y comportamientos. Data Mining automatiza el proceso de encontrar información predecible en grandes bases de datos. Preguntas que tradicionalmente requerían un intenso análisis manual, ahora pueden ser contestadas directa y rápidamente desde los datos. Un típico ejemplo de problema predecible es el marketing apuntado a objetivos (tarjetead marketing). Data Mining usa datos en maulina promocionales anteriores para idéntica posibles objetivos para maximizar los resultados de la inversión en futuros maulina. Otros problemas predecibles incluyen pronósticos de problemas financieros futuros y otras formas de incumplimiento, e idéntica segmentos de población que probablemente respondan similarmente a eventos dados. • Descubrimiento automatizado de modelos previamente desconocidos. Las herramientas de Data Mining barren las bases de datos e idéntifica modelos previamente desconocidos en un sólo paso. Otros problemas de descubrimiento de modelos incluyen detectar transacciones fraudulentas de tarjetas de créditos e idéntifica datos anormales que pueden representar errores en la carga de datos. Las técnicas de Data Mining pueden revisar los beneficios de automatización y transaccion en las plataformas de hardware y software existentes y puede ser implementada en sistemas nuevos a medida que las plataformas existentes se actualizan y nuevos productos sean desarrollados. Cuando las herramientas de Data Mining son implementadas en sistemas de procesamiento paralelo de alto performance, pueden analizar bases de datos masivas en minutos. Procesamiento
  • 28. 28 UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD Escuela de Ciencias Básicas Tecnología e Ingeniería Curso Minería de Datos más rápido, significado que los usuarios pueden automáticamente experimentar con más modelos para entender datos complejos. Alta velocidad hace que sea práctico para los usuarios analizar inmensas cantidades de datos. Grandes bases de datos, a su vez, producen mejores predicciones. Lección 5. Minería de datos y la toma de decisiones. En el desarrollo de la conceptualización que hasta el momento se ha desarrollado en el modulo se ha mencionado hasta aquí una gran cantidad de elementos que se deben aplicar y analizar para poder hacer un ejercicio acorde a la realidad y que sea concomitante tanto con las teorías estudiadas, como a la vez con las necesidades de información de la entidad o empresa en la que se vaya a realizar una aplicación de minería de datos. El acceso a la información para el departamento gerencial o administrativo de una empresa, debe estar enmarcado con una serie de características como la eficiencia de la información, la claridad en la misma, la sistematicidad de su estructura, la correspondencia con la realidad, etc. Es por ello que para poder seguir adelante en el desarrollo y como cierre del capitulo I se deberán acudir a direferentes fuentes, tanto externas como internas para documentarse sobre la importancia misma de la minería de datos y ante todo en el apoyo a la toma de decisiones. Actividad de cierre Capitulo I Se debe: Realizar una lectura juiciosa de artículos científicos indexados sobre la importancia de la mineria de datos.
  • 29. 29 UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD Escuela de Ciencias Básicas Tecnología e Ingeniería Curso Minería de Datos Que aspectos considera importantes que se deben evaluar para el desarrollo de un análisis de información bajo el enfoque de la minería de datos. Realizar una ruta de planeación de un proyecto en una empresa con criterios y etapas de la minería de datos. Construir con una herramienta (ej. Cmaptools) una estructura que explique el desarrollo de la planeación del punto anterior. Hacer un cuadro informativo con el siguiente formato para documentar lo que hasta el momento ha aprendido el estudiante. Primer acercamiento a una aplicación con MD en una empresa Nombre de la empresa Objeto de la empresa Actividades a desarrollar Nombre de la Etapa Descripcion de la etapa Responsable Producto a entregar Es importante mencionar que para este punto, el estudiante esta en libertad de agregar tantas etapas con lo considere ya que este punto (a diferencia de los anteriores), lo que pretende es servir de entrenamiento de lo aprendido y hacer una aplicabilidad de los conceptos.
  • 30. 30 UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD Escuela de Ciencias Básicas Tecnología e Ingeniería Curso Minería de Datos 1.2. Capitulo II KDD. Lección 6. Proceso de Descubrimiento del Conocimiento en Bases de Datos 6.1 Proceso de Descubrimiento del Conocimiento (KDD) En los últimos años, ha existido un gran crecimiento en nuestras capacidades de generar y colectar datos, debido básicamente al gran poder de procesamiento de las máquinas como a su bajo costo de almacenamiento. Sin embargo, dentro de estas enormes masas de datos existe una gran cantidad de información oculta, de gran importancia estratégica, a la que no se puede acceder por las técnicas clásicas de recuperación de la información. El descubrimiento de esta información oculta es posible gracias a la Minería de Datos (Data Mining), que entre otras técnicas aplica la inteligencia artificial para encontrar patrones y relaciones dentro de los datos permitiendo la creación de modelos, es decir, representaciones abstractas de la realidad, pero es el descubrimiento del conocimiento (KDD, por sus siglas en inglés) que se encarga de la preparación de los datos y la interpretación de los resultados obtenidos, los cuales dan un significado a estos patrones encontrados. Así el valor real de los datos reside en la información que se puede extraer de ellos, información que ayude a tomar decisiones o mejorar nuestra comprensión de los fenómenos que nos rodean. Hoy, más que nunca, los métodos analíticos avanzados son el arma secreta de muchos negocios exitosos. Empleando métodos analíticos avanzados para la explotación de datos, los negocios incrementan sus ganancias, maximizan la esencia operativa, reducen costos y mejoran la satisfacción del cliente De forma general, los datos son la
  • 31. 31 UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD Escuela de Ciencias Básicas Tecnología e Ingeniería Curso Minería de Datos materia prima bruta. En el momento que el usuario les atribuye algún significado especial pasan a convertirse en información. Cuando los especialistas elaboran o encuentran un modelo, haciendo que la interpretación de la información y ese modelo representen un valor agregado, entonces nos referimos al conocimiento. En el desarrollo del proceso se analiza e ilustra la jerarquía que existe en una base de datos entre los datos, información y conocimiento. Se observa igualmente el volumen que presenta en cada nivel y el valor que los responsables de las decisiones le dan en esa jerarquía. El área interna dentro del triángulo representa los objetivos que se han propuesto. La separación del triángulo representa la estrecha unión entre dato e información, no así entre la información y el conocimiento. La capacidad de generar y almacenar información creció considerablemente en los últimos tiempos, se ha estimado que la cantidad de datos en el mundo almacenados en bases de datos se duplica cada 20 meses. Es así que hoy las organizaciones tienen gran cantidad de datos almacenados y organizados, pero a los cuales no les pueden analizar escientemente en su totalidad. Con las sentencias SQL se puede realizar un primer análisis, aproximadamente el 80% de la información se obtiene con estas técnicas. El 20% restante, que la mayoría de las veces, contiene la información más importante, requiere la utilización de técnicas más avanzadas. El Descubrimiento de Conocimiento en Bases de Datos (KDD) apunta a procesar automáticamente grandes cantidades de datos para encontrar conocimiento útil en ellos, de esta manera permitirá al usuario el uso de esta información valiosa para su conveniencia. El KDD es el Proceso no trivial de idéntica patrones válidos, novedosos, potencialmente útiles y, en última instancia, comprensibles a partir de los datos. (Fallad et al., 1996) El objetivo fundamental del KDD es encontrar conocimiento útil, válido, relevante y nuevo sobre un fenómeno o actividad mediante algoritmos encientes, dadas las crecientes órdenes de magnitud en los datos. Al mismo
  • 32. 32 UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD Escuela de Ciencias Básicas Tecnología e Ingeniería Curso Minería de Datos tiempo hay un profundo interés por presentar los resultados de manera visual o al menos de manera que su interpretación sea muy clara. Otro aspecto es que la interacción humano-máquina deberá ser accesible, dinámica y colaboradora. El resultado de la exploración deberá ser interesante y su calidad no debe ser afectada por mayores volúmenes de datos o por ruido en los datos. En este sentido, los algoritmos de descubrimiento de información deben ser altamente robustos. FIGURA 5: JERARQUÍA DEL CONOCIMIENTO. Lección 7. Diagrama del Proceso de KDD El proceso de KDD consiste en usar métodos de minería de datos (algoritmos) para extraer (identifica) lo que se considera como conocimiento de acuerdo a la especificación de ciertos parámetros usando una base de datos junto con reprocesamientos y post-procesamientos.
  • 33. 33 UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD Escuela de Ciencias Básicas Tecnología e Ingeniería Curso Minería de Datos Fuente: Introduccion a la Mineria de Datos. José H. Orallo, Ma José Ramirez Q y Cesar F Ramirez. Pearson. Figura 6: Proceso de KDD Se estima que la extracción de patrones (minería) de los datos ocupa solo el 15% al 20% del esfuerzo total del proceso de KDD.El proceso de descubrimiento de conocimiento en bases de datos involucra varios pasos: Determinar las fuentes de información: que pueden ser útiles, dónde conseguirlas y como accederlas. Diseñar el esquema de un almacén de datos (Data Warehouse) que consiga unificar de manera operativa toda la información recogida.
  • 34. 34 UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD Escuela de Ciencias Básicas Tecnología e Ingeniería Curso Minería de Datos Implantación del almacén de datos: que permita la navegación y visualización previa de sus datos, para discernir qué aspectos puede interesar que sean estudiados. Esta es la etapa que puede llegar a consumir el mayor tiempo. Selección, limpieza y transformación de los datos que se van a analizar: la selección incluye tanto la filtración o fusión horizontal (tablas) como vertical (atributos).La limpieza y reprocesamiento de datos se logra diseñando una estrategia adecuada para manejar ruido, valores incompletos, secuencias de tiempo, casos extremos (si es necesario), etc. Seleccionar y aplicar el método de minería de datos apropiado, esto incluye:  La selección de la tarea de descubrimiento a realizar, por ejemplo, clasificación,agrupamiento o clustering, regresión, etc.  La selección de él o de los algoritmos a utilizar.  La transformación de los datos al formato requerido por el algoritmo específico de minería de datos.  Llevar a cabo el proceso de minería de datos. Se buscan patrones que puedan expresarse como un modelo o simplemente que expresen dependencias de los datos, el modelo encontrado depende de su función (clasificación) y de su forma de representarlo (árboles de decisión, reglas de asociación, etc.), se tiene que específicar con criterio de preferencia para seleccionar un modelo dentro de un conjunto posible de modelos, se tiene definir la estrategia de búsqueda a utilizar (normalmente está predeterminada en el algoritmo de minería). Leccion. 8. Etapas de abordaje.
  • 35. 35 UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD Escuela de Ciencias Básicas Tecnología e Ingeniería Curso Minería de Datos Evaluación, interpretación, transformación y representación de los patrones extraídos: Evaluacion de los datos. Se debe hacer un acercaiento real y muy especifico a la información que se maneja en la base de datos, esto con el fin de entender claramente el tipo de información que manje, el flujo de la misma, la dinámica de actualización, los procesos que se desarrollan y por supuesto cuales son las verianles que se tienen y que en el momento no se están teniendo en cuenta. Este es quizá una de las etapas mas simples pero de mayor importancia, el 73% de las ocasiones en la que se fracasa en la aplicación de la mineria de datos, esta en la falta de previsión y de atención especial al desarrollo de esta etapa ya que de no ser abordada de manera acertiva todo el proceso será un fracaso. Interpretar los resultados y posiblemente regresar a los pasos anteriores. Esto puede involucrar repetir el proceso, quizás con otros datos, otros algoritmos, otras metas y otras estrategias. Este es un paso crucial en donde se requiere tener conocimiento del dominio. La interpretación puede beneficiarse de procesos de visualización, y sirve también para borrar patrones redundantes oirrelevantes. Difusión y uso del nuevo conocimiento. Incorporar el conocimiento descubierto al sistema (normalmente para mejorarlo) lo cual puede incluir resolver conflictos potenciales con el conocimiento existente. El conocimiento se obtiene para realizar acciones, ya sea incorporándolo dentro de un sistema de desempeño o simplemente para almacenarlo y reportarlo a las personas interesadas.
  • 36. 36 UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD Escuela de Ciencias Básicas Tecnología e Ingeniería Curso Minería de Datos En este sentido, KDD implica un proceso interactivo e iterativo involucrando la aplicación de varios algoritmos de minería de datos. Metas del KDD Procesar automáticamente grandes cantidades de datos crudos. Idéntica los patrones más significativos y relevantes. Presentarlos como conocimiento apropiado para satisfacer las metas del usuario. Leccion 9. Desarrollo del proceso de KDD El Preprocesamiento. El proceso KDD, ilustrado en la Figura 1, está dividido en una serie de pasos, desde la selección y limpieza de la BD hasta la evaluación e interpretación de los Resultados. FIGURA 7.ETAPAS EN EL PROCESO DE KDD.
  • 37. 37 UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD Escuela de Ciencias Básicas Tecnología e Ingeniería Curso Minería de Datos En la Figura 7 se observa que las primeras etapas del proceso KDD se dedican a limpiar, preparar, seleccionar y formatear a los datos de acuerdo a los patrones a buscar y el algoritmo de Minería de Datos a utilizar. A esta etapa se le conoce como pre procesamiento. Posteriormente, aparece la etapa de minería de datos, en la cual se buscan o descubren los patrones ocultos en los datos, los cuales pasan a una etapa de evaluación, en donde se determina la validez y confiabilidad de dichos patrones. Al final de todo este proceso, se obtienen una serie de patrones llamados conocimiento. A continuación se describen a mayor detalle cada una de las etapas. En esta etapa los datos son preparados para el proceso de Minería de Datos. Dicha etapa se divide en tres pasos básicos. Selección y Limpieza En el mundo real, existen muchas bases de datos que tienen diversos problemas, como son valores faltantes, ruido (valores que por alguna causa no son correctos), Inconsistencias (valores que no corresponden a los dominios de los atributos ó que son contradictorios con otros datos de la misma BD), errores de captura, errores en la fuente de información, errores provocados por los sistemas de cómputo, entre otros. Estos problemas deben eliminarse antes de cualquier proceso de minería de datos, ya que pueden afectar a la precisión de los resultados o incluso, el algoritmo de minería puede construir patrones a partir de un conjunto de datos incorrectos.
  • 38. 38 UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD Escuela de Ciencias Básicas Tecnología e Ingeniería Curso Minería de Datos Para estos casos, se deben de implementar una serie de estrategias que corrijan tales problemas. Lamentablemente no existe una única solución, ya que dependiendo del tipo de datos será la estrategia a implementar. Por ejemplo, considere una tabla R con ―n‖ registros definida sobre un conjunto de atributos {A1,…, Am} en donde existe un registro σ <v1,…, vs-1, vs, vs+1,…, vn> en el cual el valor del atributo ―s‖ es desconocido (es decir, vs =?). Una estrategia para solucionar este problema sería simplemente eliminar dicho registro σ. Sin embargo, en el caso de que éste registro sea muy valioso o significativo, se buscaría otra forma de solucionar el problema, como por ejemplo, estimar el posible valor para vs a través de la media. FIG. 8 EJEMPLOS DE IMAGENES DE CÉLULAS CON LEUCEMIA. Fuente: http://es.scribd.com/doc/93421745/Caso-de-Exito-Mineria-de-Datos Otro problema común que se presenta en un conjunto de datos es el ruido. Por ejemplo, considere una BD de imágenes médicas tomadas a través de un microscopio óptico. La calidad de las imágenes depende de muchos factores, como es la preparación de las muestras, la óptica del microscopio, la calidad de la cámara digital, entre otros. Dependiendo de estas variables, se pueden obtener imágenes como la mostrada en la Figura 8 izquierda), en donde aparecen manchas que no son propias de las características de las células. En estos casos se deben de buscar filtros (dentro del área del procesamiento digital de imágenes) que permitan remover estas imperfecciones, de tal manera que al momento de
  • 39. 39 UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD Escuela de Ciencias Básicas Tecnología e Ingeniería Curso Minería de Datos trabajar con las células, estas imperfecciones no alteren al proceso de minería de datos. Por otro lado, la selección es una estrategia útil cuando la dimensión de la BD es muy alta. Entre más grande sea una BD, los tiempos de respuesta pueden llegar a ser prohibitivos. En estos casos se opta por no trabajar directamente con todos los datos, sino con un subconjunto de los datos originales, llamada muestra o datos de entrenamiento. El problema con esta estrategia es garantizar que los datos contenidos en la muestra sean representativos con respecto al total del conjunto. Lamentablemente esta condición no es fácil de garantizar, por lo que se ha optado por construir no solo una, sino un conjunto de muestras con las cuales trabajar (construidas a través de un proceso aleatorio). Como consecuencia, por cada muestra se obtendrá un conjunto de patrones, los cuales tendrán que compararse y evaluarse con respecto a los resultados encontrados a partir de otras muestras. Preparación de Datos En esta etapa del proceso KDD se busca eliminar todos aquellos datos que no serán relevantes para el proceso de minería de datos. Por ejemplo, considere la imagen de la Figura 8 derecha), donde la tarea consiste en identificar características específicas de las células que representan leucemia. En este caso, toda la imagen como tal no nos interesa, sólo la región que delimita a la célula (región de interés). Por tanto, es necesario extraer esta región del resto de la imagen, a través de técnicas de segmentación. Es importante mencionar que no todas las bases de datos requerirán aplicar cada uno de los pasos mencionados en el proceso KDD. Por ejemplo, para la base de datos representada por la tabla R, si todos los atributos son importantes y además,
  • 40. 40 UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD Escuela de Ciencias Básicas Tecnología e Ingeniería Curso Minería de Datos todos los registros son significativos, después de eliminar cualquier inconsistencia o ruido el proceso se brincaría a la siguiente etapa, sin pasar por la preparación de datos. Transformación de Datos Cada algoritmo que se desarrolla siempre establece el tipo y estructura de los datos que admite. Por ejemplo, un algoritmo de ordenamiento como quicksort admite con entrada un arreglo de números, por lo que no es posible utilizarlo para ordenar imágenes. De la misma forma, los algoritmos de minería de datos siempre Definen un formato y estructura para sus entradas. Si para la tarea que se está resolviendo se determina utilizar un algoritmo de minería de datos y los datos no coinciden con la entrada admitida por el algoritmo, entonces se procede a transformarlos. No obstante en cualquier proceso de transformación, cierta cantidad de la información de los datos originales se pierde. Por tanto, un punto fundamental en este proceso es perder la menor cantidad de la información de los datos. Por ejemplo, considere que se utilizará un algoritmo de clasificación como C4.5 para construir un árbol que permita clasificar a las células como linfoblásticas y mieloblásticas (las dos familias de leucemia). Dado que el algoritmo C4.5 admite como entrada una tabla, se requerirá transformar a las células a este formato. Esta Transformación no es trivial, ya que en primera instancia no existe ningún tipo de relación natural entre una imagen y una tabla. Sin embargo, si se analiza las características de cualquier célula, se podrá observar que estas tienen propiedades como un área (en pixeles), un diámetro, convexidad, gama de color, un número de grumos entre otras.
  • 41. 41 UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD Escuela de Ciencias Básicas Tecnología e Ingeniería Curso Minería de Datos Estas propiedades se pueden utilizar como atributos de una tabla, donde cada registro correspondería a una célula específica, así como se ilustra en la Figura 9.
  • 42. 42 UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD Escuela de Ciencias Básicas Tecnología e Ingeniería Curso Minería de Datos FIG. 9 EJEMPLO DE CÓMO TRANSFORMAR UNA IMAGEN DE UNA CÉLULA A UNA TABLA. La MD es la parte central del proceso KDD, en la cual se buscan o encuentran patrones de interés para el usuario. Los patrones descubiertos pueden ser singrafos, reglas de asociación, árboles de clasificación, una red neuronal entrenada, entre otros. Para entender el alcance de la MD, hay que comprender qué tipo de tareas se pueden realizar. Para ello, se identifican características comunes que sirven para Agrupar las tareas de MD, que son:  Tipos de BD sobre las que se hace MD: aquí se identifica sobre qué tipos de bases de datos se trabaja, como data warehouse, bases de datos relacionales, espaciales, temporales, secuenciales, entre otras. Esto permite identificar la estructura de los datos a trabajar.  Tipo de conocimiento minado: se determina la estructura del conocimiento a identificar, que pueden ser caracterizaciones, reglas de asociación, árboles de clasificación, redes neuronales. Los patrones descubiertos pueden ser descriptivos, es decir, muestran la serie de hechos bajo los cuales se
  • 43. 43 UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD Escuela de Ciencias Básicas Tecnología e Ingeniería Curso Minería de Datos sustenta el patrón, como son los árboles de clasificación, reglas de clasificación, entre otros. Sin embargo, existen métodos que no son descriptivos, simplemente dan el resultado final sin que el usuario pueda conocer el porqué del resultado. Ejemplo de estos sistemas son las redes neuronales (a estos sistemas se les ve como cajas negras, se conoce la entrada y la salida pero no se entiende que pasa en el interior).  Tipo de técnica utilizada: aquí se define si se utilizan técnicas estadísticas ó de aprendizaje automático.  Dominios de aplicación: clasificación basada en los dominios de trabajo, que pueden ser químicos, biológicos como el DNA, teóricos, entre otros. Otro aspecto importante en toda tarea de MD es identificar si se van a buscar odescubrir patrones. En un proceso de búsqueda, la minería de datos parte de un conjunto de datos D y un patrón a buscar S. La tarea consiste en identificar si existen subestructuras en D que sean idénticas o similares a S. Por otro lado, si la tarea se aboca a descubrir patrones ocultos, entonces se parte de un conjunto de datos D y a partir de estos datos, se identifican características comunes en los mismos. Debido a que la MD emplea conocimientos que se han desarrollado en diferentes áreas de investigación, se ha convertido en un área multidisciplinaria, en la que intervienen conceptos de bases de datos, inteligencia artificial, aprendizaje automático, entre otras, tal como se ilustra en la Figura 10.
  • 44. 44 UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD Escuela de Ciencias Básicas Tecnología e Ingeniería Curso Minería de Datos FIG. 10. LA MINERÍA DE DATOS Y SU RELACIÓN CON OTRAS ÁREAS DE CONOCIMIENTO. Leccion 10. Evaluación de Patrones En la etapa de evaluación se extraen los patrones con mayor importancia para el usuario final. Para lograrlo, es necesario establecer parámetros que nos permitan comparar la calidad de un patrón con respecto a otro. La medida más usual para evaluar patrones es el porcentaje de precisión, en el cual dado un conjunto de datos D y un patrón P, se determina el porcentaje de casos en donde el patrón P es válido ó correcto con respecto al total de casos en D. Por ejemplo, considere el caso de una escuela con 200 alumnos, en los cuales se ha encontrado una regla de clasificación que dice: ―si el alumno tiene un promedio superior a 8 y tiene como máximo 3 faltas en un cuatrimestre, entonces es un alumno que no reprueba ninguna materia‖. Para verificar la validez de esta regla, es necesario determinar para cuantos alumnos en D aplicaría la regla, es decir, cuantos alumnos tienen un promedio mayor a 8, no faltan más de 3 veces y no reprueban (soporte) y del número obtenido, determinar en cuantos dado el antecedente, se cumple la consecuencia (confianza). Para este ejemplo, si existen 45 alumnos que cumplen con un promedio superior a 8, no faltan más de 3 veces en un cuatrimestre y 50 alumnos que además no reprueban, entonces el soporte
  • 45. 45 UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD Escuela de Ciencias Básicas Tecnología e Ingeniería Curso Minería de Datos de la regla es de 50/200 = 25%. Por otro lado, si de ellos solo 45 alumnos cumplenque si tienen promedio superior a 8 y no faltan más de 3 veces, entonces no reprueban, se obtendría una confianza de 45/50 = 90%. Otro aspecto muy importante en todo proceso de evaluación de patrones es determinar el umbral a partir del cual un patrón es válido. Por ejemplo, para el ejemplo de la BD de la escuela, un 90% de confianza puede resultar muy bueno para detectar a los alumnos que difícilmente reprueban. Sin embargo, si cambiamos de dominio de trabajo ese mismo 90% puede ser malo. Por ejemplo, considere el caso en el cual se está tratando de construir un modelo que permita predecir si un paciente, a partir de su cuadro clínico, es susceptible a sufrir algún tipo de cáncer. Para este tipo de dominios, un 90% no es suficiente, requiriéndose niveles muy cercanos al 100%. Por tanto, la exigencia en la precisión de los resultados está sujeta al dominio de trabajo y el uso que se le dará al conocimiento minado. Actividad cierre Capitulo II Caso de Estudio. Tomado Fuente: http://es.scribd.com/doc/31587475/Ejemplos-de-Mineria-de-Datos En la siguiente sección se presenta un caso real en el cual se ha aplicado con éxito el proceso de minería de datos. Clasificación de Leucemias Agudas empleandoMinería de Datos La Leucemia es una enfermedad que se caracteriza por alterar el proceso madurativo de las células que conforman a la sangre (glóbulos rojos, glóbulos blancos, plaquetas y plasma), provocando una proliferación descontrolada de
  • 46. 46 UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD Escuela de Ciencias Básicas Tecnología e Ingeniería Curso Minería de Datos células sanguíneas inmaduras. Esta proliferación se origina a nivel de la médula ósea. En la actualidad, para detectar si un paciente padece de esta enfermedad se sigue la siguiente metodología. El estudio inicia con un análisis morfológico de las muestras por medio del experto, el cual identifica ciertas características que le hagan sospechar si el paciente sufre de la enfermedad. Si es el caso, entonces las muestras son turnadas a un estudio de cartometría de flujo, el cual sirve para definir el tipo de leucemia (leucemia linfoblásticas –LLA- o mieloblásticas -LMA) y el subtipo (L1, L2 L3 y MO, M1, M2, M3, M4, M5, M6 y M7). Con base en los resultados obtenidos, el experto en el dominio prescribe un tratamiento acorde a las características de la enfermedad. Lamentablemente este procedimiento sufre de varios inconvenientes: el análisis por observación es un proceso susceptible a errores, ya que la capacidad de la visión humana para detectar detalles pequeños es limitada. Aunado a esto, factores como el cansancio, condiciones de luz, problemas visuales en el experto, entre otros, lo que disminuye la precisión del diagnóstico inicial. Por otro lado, un estudio de cartometría de flujo no es barato, lo que provoca que en países en desarrollo como Colombia los estudios en ocasiones no se puedan llevar a cabo. Por lo anterior surge la necesidad de desarrollar herramientas de apoyo al diagnóstico médico que sean confiables y además, de bajo costo. Con respuesta a esta necesidad, se está desarrollando una investigación en el cual participan investigadores del INAOE – IMSS – UPP para crear una herramienta para la detección de leucemia aguda a partir de un análisis morfológico de imágenes digitales. En este sistema, el objetivo es extraer características de las células que permitan construir modelos que sirvan para clasificar nuevas muestras.
  • 47. 47 UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD Escuela de Ciencias Básicas Tecnología e Ingeniería Curso Minería de Datos Para lograrlo, se propuso una metodología basada en el proceso KDD, así como se muestra en la Figura 11 FIG. 11 CLASIFICACIÓN DE LEUCEMIAS AGUDAS. El proceso inicia capturando las imágenes a través de un microscopio óptico de alta calidad, el cual cuenta con una cámara digital. De este proceso se obtiene una Base de imágenes, en donde se seleccionan las de mayor calidad (que contengan características representativas de la enfermedad). Ese proceso es realizado en conjunto con los expertos del dominio. Una vez seleccionadas las imágenes, se procede a limpiarlas, empleando una serie de filtros que disminuyen imperfecciones. Finalizado este proceso, se procede a una etapa de segmentación, en la cual se extraen exclusivamente las regiones de interés de cada imagen. Cabe hacer mención que en este proceso
  • 48. 48 UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD Escuela de Ciencias Básicas Tecnología e Ingeniería Curso Minería de Datos intervienen los expertos, ya que una imagen puede contener diferentes tipos de células donde no todas son representativas de la leucemia. Al mismo tiempo, los expertos en el domino realizaron un proceso de clasificación, identificando el tipo y subtipo de la muestra. Esta información fue de gran utilidad para el proceso de minería de datos. Después de la segmentación, se transformaron las células a un formato de tabla (selección de características, Figura 5), donde se extrajeron características como el diámetro, media de los valores en tonos de gris, entropía, anisotropía, correlación, área, convexidad, entre otros parámetros. Esta transformación fue necesaria, ya que diversos algoritmos de clasificación, como redes neuronales, árboles de clasificación como C4.5 requieren este formato. A partir de las características extraídas, se probaron diferentes algoritmos. Es importante mencionar que se utilizaron tanto algoritmos descriptivos como no descriptivos, ya que los expertos en el dominio no solo estaban interesados en conocer las clases, sino además, en identificar las características de definen a cada clase. Este procedimiento se pudo llevar a cabo gracias a la clasificación de las muestras que realizaron los expertos en el proceso de selección. Actualmente, el proyecto se encuentra en la fase de evaluación de resultados, en donde se han alcanzado clasificaciones con una precisión promedio superior al 90% (para familias como subfamilias). De acerado a los expertos, estos resultados son muy alentadores, considerando que la precisión alcanzada por los expertos a través de un análisis morfológico ronda el 40%. Este es un claro ejemplo en el cual el proceso KDD y la minería de datos se han usado para identificar patrones complejos, que pueden llegar a tener un fuerte impacto en la sociedad.
  • 49. 49 UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD Escuela de Ciencias Básicas Tecnología e Ingeniería Curso Minería de Datos 1.3 Capitulo III Reglas de Asociación usadas en Minería de Datos. Lección 11. Identificación de las reglas de asociación. Se usará la relación compras para ilustrar las reglas de asociación. Mediante el examen del conjunto de transacciones de compras se pueden identificar reglas de la forma: {Pluma}  {Tinta} Esta regla se debe leer de la manera siguiente: ―si en una transacción se compra una pluma, es probable que también se compre tinta en esa transacción.‖ Es una afirmación que describen las transacciones de la base de datos; la extrapolación a transacciones futuras debe hacerse con cautela, como se analiza en las reglas de asociación tiene la forma Izq.  Der, donde tanto Izq. como Der. Son conjuntos de elementos. La interpretación de esta regla es que si se compran en una misma transacción todos los artículos de Izq., entonces es probable que también se compren los artículos de Der. Soporte. El soporte de un conjunto de artículos es el porcentaje de transacciones que contienen todos esos artículos. El soporte de la regla IzqDer es el soporte del conjunto de artículos Izq. U Der. Por ejemplo, considérese la regla {pluma}  {tinta}. El soporte de esta regla es el soporte del C lote {pluma, tinta}, que es 75 %.
  • 50. 50 UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD Escuela de Ciencias Básicas Tecnología e Ingeniería Curso Minería de Datos Confianza. Considérense transacciones que contengan todos los artículos de izq. La confianza de la regla Izq.  Der es porcentaje de esas transacciones que contienen también todos los artículos de Der. Más exactamente, de a sea sop (Izq.) el porcentaje de transacciones que contienen Izq. y Sop (Izq. U Der) el porcentaje de transacciones que contienen tanto Izq. como Der. Entonces, la confianza de la regla Izq.  Der es Sop (Izq. U Der/sop (Izq.). La confianza de cada regla es una indicación de su fortaleza. Por ejemplo, considérese nuevamente la regla {Pluma}  {Tinta}... La confianza de esta regla es 75%; el 75 % de las transacciones que contienen el lote {pluma} contienen también el lote {Tinta}. Principales funciones del data mining: Reglas de Asociación (Asociación rules) Reglas fuertes: Así se denomina a aquellas reglas que satisfacen un soporte mínimo (min_sup) y una confianza o confidencia mínima (min_conf). _ Frecuencia de ocurrencia de un intense (conjunto de ítems): es el número de transacciones que contienen el intense. _ Un intense satisface un soporte mínimo si y solo si su frecuencia de ocurrencia es superior o igual a min_sup e inferior o igual al número de transacciones en D. _ Si el intense satisface el soporte mínimo entonces se lo denomina ‗intense frecuente‘. _ Principio ‗A priori‘: Cualquier de sus Principales funciones del data mining: Reglas de asociación (Asociación rules). Ejemplos de reglas  Basadas en un tipo de valor : Compra (X,‘CD‘) y Compra (X,‘Reproductor de CD‘) => Compra (X,‘Reproductor MP3‘)
  • 51. 51 UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD Escuela de Ciencias Básicas Tecnología e Ingeniería Curso Minería de Datos  Basadas en la dimensión del dato asociado : Edad (X,‘25…40‘) e Ingreso (X,‘24k…48k‘) => Compra (X,‘Palm‘)  Basada en niveles de atracción edad(X,‘25…40‘) => Compra(X,‘Notebooks‘) edad(X,‘25…40‘) => Compra(X,‘Computadoras‘)  Se tiene diferentes niveles de granularidad en las reglas.  Se dispone de una jerarquía de conceptos (productos para el ejemplo).  Los ítems de niveles inferiores dispondrán de menos soporte.  Principales funciones del data mining: Reglas de asociación (Asociación rules). - Si exige que las reglas expuestas posean igual soporte en todos los niveles:  Cuanto más descienda en la jerarquía, menos soporte dispondrá. Esto implica que perder algunas reglas pero aquellas que cumplan las condiciones valdrían en un contexto general. - Si accede a menores soportes en los niveles inferiores:  Se corre el riesgo de que la regla no sirva para el contexto general. - Una regla es redundante si su soporte está cercano a un valor esperado Basado en la regla de un ancestro. En otras palabras, si bien desciende en el Nivel de granularidad de la información, esta no se traduce en el incremento del conocimiento. E Principales funciones de la data mining: Concepto de patrones secuenciales (Secuencial patterns) Una secuencia es una lista ordenada de itemsets;  Una secuencia es maximal si no es contenida por otra
  • 52. 52 UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD Escuela de Ciencias Básicas Tecnología e Ingeniería Curso Minería de Datos  Cada secuencia maximal es un patrón secuencial  Series temporales son un caso particular de los patrones secuenciales. La secuencia está dada por algunos parámetros asociados al tiempo.  Aplicaciones específicas:  Retención de clientes  Marketing focalizado Clasificación y predicción: Clasificación versus Predicción: Predice etiquetas de clases. Categóricas mientras que la predicción se basa en modelos de Funciones evaluadas-continuas. Clasificación:  Método supervisado  Se compone de 2 etapas: 1. Construcción (Entrenamiento) 2. Poda (Pruning). 1. Overfitting 2. Objetivo del pruning  Función de splitting  Frena la construcción del árbol si: _ No existen más atributos que analizar o _ No existen más ejemplos que procesar o _ Todos los ejemplos para un nodo determinado poseen igual clase Predicción: _ Predice el valor para una variable continua _ Modelos de funciones evaluadas continuas _ Ejemplos: _ Regresión lineal simple [Y= Bo. + B1*X] _ Regresión lineal múltiple [Y= Bo. + B1*x1+ B2*x2 + … + Bn*Xn]
  • 53. 53 UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD Escuela de Ciencias Básicas Tecnología e Ingeniería Curso Minería de Datos _ Entre otros Agrupamiento (Clustering): ―Conjunto de datos u objetos reunidos bajo una misma agrupación en función de alguna medida para asimila y evaluar lavarianza entre grupos y la minimizarla dentro del mismo‖  No supervisado  Tipo de acercamientos _ Orientados al aprisionamiento: _ K-means: _ Relativamente eficiente _ Necesita que se especifique el ‗k‘ (cantidad de grupos a armar o estudiar) _ No es capaz de manejar ruido y outliers (Efecto similar a la media aritmética) _ K-medoids Algoritms _ No escalable Tipo de acercamientos: Continua Orientados al aprisionamiento:  La principal diferencia entre K-means y k-medoids, es que en el primero el centro del clúster no necesariamente es un elemento, mientras que el segundo requiere que el centro sea un elemento representativo del grupo. - Jerárquico  Tiene la ventaja de no necesitar especificar la cantidad de grupos a generar.  Emplea una matriz de distancia entre los registros, para ‗n‘ datos genera una matriz non que contiene dichas distancias y cuya diagonal principal es ‗0‘ Existen dos variantes:
  • 54. 54 UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD Escuela de Ciencias Básicas Tecnología e Ingeniería Curso Minería de Datos  Aglomérativo: Va reuniendo elementos desde lo más particular hasta obtener el conjunto de datos completo  Divisivo: Va particionado el conjunto de datos completo hasta llegar a la división mínima de los mismos.  Otros acercamientos: Basados en densidad, basados en grilla (detalles a diferentes niveles de granularidad), etc. Leccion 12. Algoritmos para la busqueda de reglas asociadas. Un usuario puede pedir todas las reglas de asociación que tengan un soporte mínimo determinado (spin) y una confianza mínima (confmin), y sean desarrollado varios algoritmos para hallar esas reglas de manera eficiente. Esos algoritmos trabajan en dos etapas. En la primera etapa se calcula todos los lotes frecuentes con el soporte mínimo especificando por el usuario. En la segunda etapa se generan reglas empleando como datos los lotes frecuentes. Una vez identificados los lotes frecuentes, la generación de todas las reglas posibles con el soporte mínimo especificado por el usuario es sencilla. Considérese el lote frecuente X con el soporte Sx identificando en la primera etapa del algoritmo. Para generar a una regla a partir de X se divide X en dos lotes, Izq. y Der. La confianza de la regla Izq. Der es Sx/S izq., la relación entre soporte de X y el de Izq. A partir de la propiedad a priori se sabe que el soporte de Izq. es mayor que spin y, por tanto, se han calculado de soporte de Izq. en la primera etapa del algoritmo. Los valores de confianza de la posible regla se pueden obtener calculando la relación Sop (X) / Sop (Izq.) y, luego, comparando su relación. En General, la etapa más costosa del algoritmo es el cálculo de los lotes frecuentes, y se han desarrollado muchos algoritmos diferentes para llevar a cabo de manera eficiente. La generación de reglas es dada por la capacidadad de
  • 55. 55 UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD Escuela de Ciencias Básicas Tecnología e Ingeniería Curso Minería de Datos porder identificar todos los lotes frecuentes y larelacion que cada una de ellas tiene. Algoritmo de Ordenamiento Quicksort. Fuente url: http://lc.fie.umich.mx/~calderon/programacion/notas/Quicksort.html Sea x un arreglo y n el número de elementos en arreglo que se debe ordenar. Elegir un elemento a de una posición especifica en el arreglo (por ejemplo, a puede elegirse como el primer elemento del arreglo. Suponer que los elemento de x están separados de manera que a está colocado en la posición j y se cumplen las siguientes condiciones. 1.- Cada uno de los elementos en las posiciones de 0 a j-1 es menor o igual que a. 2.- Cada uno de los elementos en las posiciones j+1 a n-1 es mayor o igual que a. Observe que si se cumplen esas dos condiciones para una a y j particulares, a es el j-ésimo menor elemento de x, de manera que a se mantiene en su posición j cuando el arreglo está ordenado en su totalidad. Si se repite este procedimiento con los subarreglos que van de x[0] a x[j-1] y de x[j+1] a x[n-1] y con todos los subarreglos creados mediante este proceso, el resultado final será un archivo ordenado. Ilustremos el quicksort con un ejemplo. Si un arreglo esta dado por: x = [25 57 48 37 12 92 86 33] y el primer elemento se coloca en su posición correcta, el arreglo resultante es:
  • 56. 56 UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD Escuela de Ciencias Básicas Tecnología e Ingeniería Curso Minería de Datos x = [12 25 57 48 37 92 86 33] En este punto 25 esta en su posición correcta por lo cual podemos dividir el arreglo en x = [12] 25 [57 48 37 92 86 33] Ahora repetimos el procedimiento con los dos subarreglos x = 12 25 [48 37 33] 57 [92 86] x = 12 25 33 [37 48] 57 [86] [92] x = 12 25 33 [37 48] 57 86 92 x = 12 25 33 37 48 57 86 92 El procedimiento es entonces. Buscar la partición del arreglo j. Ordenar el subarreglo x[0] a x[j-1] Ordenar el subarreglo x[j+1] a x[n-1]
  • 57. 57 UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD Escuela de Ciencias Básicas Tecnología e Ingeniería Curso Minería de Datos Su implementación en Java es: /************************************ public void quiksort(int x[],int lo,int ho) { int t, l=lo, h=ho, mid; if(ho>lo) { mid=x[(lo+ho)/2]; while(l<h) { while((l<ho)&&(x[l]<mid)) ++l; while((h>lo)&&(x[h]>mid)) --h; if(l<=h) {
  • 58. 58 UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD Escuela de Ciencias Básicas Tecnología e Ingeniería Curso Minería de Datos t = x[l]; x[l] = x[h]; x[h] = t; ++l; --h; } } if(lo<h) quiksort(x,lo,h); if(l<ho) quiksort(x,l,ho); } } Fuente url: http://lc.fie.umich.mx/~calderon/programacion/notas/Quicksort.html Leccion 13.Jerarquias. En muchos casos se imponen una jerarquía, la jerarquía categórica hace referencia al conjunto de artículos. En presencia de jerarquías cada transacción contienen implícitamente, para cada uno de sus artículos, todos los ancestros de esos artículos en la jerarquía. Por ejemplo, considérese la jerarquía de categorías, dada esta jerarquía, la relación compras se incrementan conceptualmente con los ocho registros es decir, la relación compras tiene todas las Tuplas.. La jerarquía permite detectar las relaciones entre artículos de diferentes niveles de la jerarquía. Por ejemplo, el soporte del lote {tinta, Jugo} es del 50%, pero si se sustituye jugo por la categoría más General bebidas, el soporte del lote resultante {tinta, bebidas} aumenta en 75%. En General, el soporte de cada lote solo puede
  • 59. 59 UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD Escuela de Ciencias Básicas Tecnología e Ingeniería Curso Minería de Datos aumentar y se sustituye un artículo por alguno de sus ancestros de la jerarquía ES. Es de anotar que el artículo en este caso es jugo, pero se debe tener en cuenta que su ancestro es la categoría bebidas. Suponiendo que se añaden físicamente la verdad los ocho registros de la relación compras, se puede emplear cualquier algoritmo para el cálculo de los lotes frecuentes de la base de datos incrementada... Suponiendo que la jerarquía quepa en memoria principal, también se puede llevar a cabo la expresión sobre la marcha mientras examinan las bases de D a datos, a modo de optimización.
  • 60. 60 UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD Escuela de Ciencias Básicas Tecnología e Ingeniería Curso Minería de Datos Papelería Bebidas Figura 12. Taxonomía de una categoría ES. IDTRANS IDCLI FECHA PRODUCTO CANTIDAD 111 201 5/1/99 PAPELERIA 3 111 201 5/1/99 BEBIDAS 9 112 105 6/3/99 PAPELERIA 2 112 105 6/3/99 BEBIDAS 1 113 106 5/10/99 PAPELERIA 1 113 106 5/10/99 BEBIDAS 1 114 201 6/1/99 PAPELERIA 4 114 201 6/1/99 BEBIDAS 5 FIGURA 13. INSERCIÓN EN LA RELACIÓN COMPRAS CON UNA JERARQUÍA. TintaPluma LecheJugo
  • 61. 61 UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD Escuela de Ciencias Básicas Tecnología e Ingeniería Curso Minería de Datos Leccion 13.Redes Bayesianas. La búsqueda de relaciones causales suponen un desafío, si determinamos sucesos están relacionados, hay muchas explicaciones posibles. Por ejemplo, Supóngase que las plumas, los lápices y la tinta se compran juntos con frecuencia. Pudiera ser que la compra de uno de estos artículos (por ejemplo, la tinta) dependiera casualmente de la compra de otro (por ejemplo, las plumas). O bien pudieran ser que la compra de uno de esos artículos (por ejemplo, las plumas) estuviese fuertemente correlacionado con la compra de otro de ellos (por ejemplo, los lápices) debido a algún fenómeno subyacente (por ejemplo, la tendencia de los usuarios a pensar a los instrumentos de escritura conjuntamente) que influyen casualmente en ambas compras. ¿Cómo se identifican las relaciones casuales que se cumplen realmente entre estos sucesos en el mundo real? Un enfoque que se puede considerar para una posible combinación de relaciones casuales entre las variables de los sucesos de interés y evaluar la posibilidad de cada combinación con base en los datos disponibles. Sí se consideran cada combinación de relaciones causales como un modelo del mundo real subyacente a los datos recolectados, se pueden asignar una puntuación a cada modelo considerando su consistencia (frecuencia; en términos de probabilidades, con algunas suposiciones simplificadoras) con los datos observados. /***Para una mejor documentación se debe hacerun repaso de las tematicas como las Redes Bayesianas, Teoria de Grafos, Arboles de decisión, Algoritmos de Quickshortetc; ya que no son el objetivo del curso) sin embargo se hace un resumen con la fuente para que el estudiante realice un repaso allí o donde lo requiera***/ Las redes bayesianas son grafos que se pueden utilizar para escribir una clase de estos modelos, con un nodo por variable o suceso y arcos entre los nodos para
  • 62. 62 UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD Escuela de Ciencias Básicas Tecnología e Ingeniería Curso Minería de Datos indicar la casualidad. Por ejemplo, un buen modelo de ejemplo de plumas, lápices y tinta puede verse en lafigura14en General, el número de modelos posibles es exponencial en el número de variables, y considerar todos los modelos resulta costoso, por lo que se evalúa algún subconjunto de todos los modelos posibles. FIGURA 14. GENERALIDAD DE UNA RED BAYESIANA Leccion 14. Arboles de Decision. (Repaso) Fuente: http://www.mitecnologico.com/Main/ArbolesDeDecision El árbol de decisión es un diagrama que representan en forma secuencial condiciones y acciones; muestra qué condiciones se consideran en primer lugar, en segundo lugar y así sucesivamente. Este método permite mostrar la relación que existe entre cada condición y el grupo de acciones permisibles asociado con ella. Un árbol de decisión sirve para modelar funciones discretas, en las que el objetivo es determinar el valor combinado de un conjunto de variables, y basándose en el valor de cada una de ellas, determinar la acción a ser tomada. Los árboles de decisión son normalmente construidos a partir de la descripción de la narrativa de un problema. Ellos proveen una visión gráfica de la toma de decisión necesaria, especifican las variables que son evaluadas, qué acciones deben ser tomadas y el orden en la cual la toma de decisión será efectuada. Cada Pensar en instrumentos de escritura Comprar lápices Comprar plumasplplu mas plumas plumas Comprar tinta
  • 63. 63 UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD Escuela de Ciencias Básicas Tecnología e Ingeniería Curso Minería de Datos vez que se ejecuta un árbol de decisión, solo un camino será seguido dependiendo del valor actual de la variable evaluada. Se recomienda el uso del árbol de decisión cuando el número de acciones es pequeño y no son posibles todas las combinaciones. Uso de árboles decisiones. El desarrollo de árboles de decisión beneficia al analista en dos formas. Primero que todo, la necesidad de describir condiciones y acciones llevan a los analistas a identificar de manera formal las decisiones que actualmente deben tomarse. De esta forma, es difícil para ellos pasar por alto cualquier etapa del proceso de decisión, sin importar que este dependa de variables cuantitativas o cualitativas. Los árboles también obligan a los analistas a considerar la consecuencia de las decisiones. Se ha demostrado que los árboles de decisión son eficaces cuando es necesario describir problemas con más de una dimensión o condición. También son útiles para identificar los requerimientos de datos críticos que rodean al proceso de decisión, es decir, los árboles indican los conjuntos de datos que la gerencia requiere para formular decisiones o tomar acciones. El analista debe identificar y elaborar una lista de todos los datos utilizados en el proceso de decisión, aunque el árbol de decisión no muestra todo los datos. Si los árboles de decisión se construyen después de completar el análisis de flujo de datos, entonces es posible que los datos críticos se encuentren definidos en el diccionario de datos (Tener en cuenta lo aprendido en el curso de Base de Datos respecto a este aspecto), el cual describe los datos utilizados por el sistema y donde se emplean. Si únicamente se usan árboles de decisiones, entonces el analista debe tener la certeza de identificar con precisión cada dato necesario para tomar la decisión. Los árboles de decisión no siempre son la mejor herramienta para el análisis de decisiones. El árbol de decisiones de un sistema complejo con muchas secuencias de pasos y combinaciones de condiciones puede tener un tamaño considerable. El gran número de ramas que pertenecen a varias trayectorias constituye más un problema que una ayuda para el análisis. En estos casos los analistas corren el riesgo de no determinar qué políticas o estrategias de la empresa son la guía para
  • 64. 64 UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD Escuela de Ciencias Básicas Tecnología e Ingeniería Curso Minería de Datos la toma de decisiones específicas. Cuando aparecen estos problemas, entonces es momento de considerar las tablas de decision. Leccion 15. AlgoritmoC.45 Fuentes: 1. http://es.scribd.com/doc/57484779/Algoritmo-c45-Arboles-de-Decision 2. https://docs.google.com/a/unad.edu.co/viewer?a=v&q=cache:pr7QuqiJ4VgJ:su bversion.assembla.com/svn/easy7550/material/apuntes/AlgoritmoC4.5%28200 5-II- B%29.pdf+&hl=es&gl=co&pid=bl&srcid=ADGEESh_udX77m_hQeRfpIS7It_OD oZ2LhuaxOEEijoBFgU- m5gS5NWlf41aS0zbbrxKqRFn7NziFq6NMSzDOqDbUHeWpfYGw2yW1k7BWI 0cIyC9- zf3OwWb2Zc3NFuXxajFfl1U9btp&sig=AHIEtbRQX530TyZ_qKL8fcQxYl- ARFrbjA&pli=1 Algoritmo C4.5. : J.R. QUINLAN (1994): C4.5 para atributos continuos y discretos. J.R. Quinlan propone una mejora, una extensión del algoritmo ID3, al que denomina C4.5, estealgoritmo genera un árbol de decisión a partir de los datos mediante participaciones realizadasrecursivamente. El árbol se construye mediante la estrategia de profundidad primero (depth first).El algoritmo C4.5 utiliza una técnica heurística conocida como proporción de ganancia (gainratio). Es una medida basada en información que considera diferentes números y diferentesprobabilidades de los resultados de las pruebas.El algoritmo considera todas las pruebas posibles que pueden dividir el conjunto de datos y selecciona la prueba que le haya generado la mayor ganancia de información. Para cada atributodiscreto, se considera una prueba con n resultados, siendo n el número de valores posibles quepuede tomar el atributo. Para cada atributo continuo, se realiza una prueba binaria (1,0) sobrecada uno de los valores que toma el atributo en los datos. En cada nodo, el sistema debe decidircual prueba escoge para dividir los datos.Según Espino (2005) los tres tipos de pruebas posibles propuestas para el C4.5 son: