SlideShare una empresa de Scribd logo
Minería de Datos
Base de Datos I
Minería o exploración de datos es un campo de la ciencia de computación
referido al proceso que intenta descubrir patrones en grandes volúmenes de
conjuntos de datos. Utiliza los métodos de la inteligencia artificial,
aprendizaje automático, estadística y sistemas de bases de datos.
Introducción
También está definido por ser el proceso de detectar patrones significativos en
los datos. La minería de datos es un complemento natural al proceso de
explorar y entender los datos. Los algoritmos automáticos pueden procesar
cantidades de datos muy grandes y detectar patrones y tendencias que, de
lo contrario, estarían ocultos.
- Con la llegada de la era de la computación, el mundo moderno ha
experimentado un crecimiento en la cantidad de información disponible
sin precedentes en la historia.
- Distintos proyectos pueden generar varios Terabytes de información
(incluso en algunos casos, diaria).
- Estas bases de datos necesitan poder organizar de manera oportuna y
adecuada todos los datos almacenados en las mismas, además de facilitar
el acceso a esta información para todos los usuarios y, desde un punto de
vista económico / ecológico ahorrativo.
Algo de historia...
Skycat: Clasificación automática de
objetos del firmamento.
Gráficos y cifras respecto de la información y datos
almacenados en las Bases de datos en
aproximadamente los últimos 20 años.
 Como anteriormente vimos los datos y el volumen de los mismos son enormes de modo que es bastante
complicado poder analizar todos los datos de forma manual. Es por esta necesidad que nacen las técnicas
automáticas de exploración de datos.
 Los requisitos principales de estas técnicas son:
 - Extracción de conocimiento en grandes bases de datos.
- No triviales
- Implícito
- Previamente desconocido
- Potencialmente útil

…Historia e inicios…
 Es desarrollar una forma de pensar (teoría) y técnicas computacionales que permitan procesar y aprender de esta
información:
 1.- Reducción de dimensión.
 2.- Extracción de señales (filtrar el ruido).
 3.- Visualización.
 4.- Aprender sobre problemas de interés (inferencia).
 5.- Predecir (clasificar).
 6.- Detectar anomalías.
 El marco conceptual de la minería de datos es la teoría de aprendizaje estadístico.
Retos de la Minería de Datos:
- Convertir los datos en conocimiento para tomar decisiones
- Extraer información de un conjunto de datos y transformarla en una estructura comprensible para su uso
posterior.
- Frecuentemente el término de minería de Datos es mal utilizado para referirse a cualquier forma de datos a gran
escala o procesamiento de la información (recolección, extracción, almacenamiento, análisis y estadísticas).
- La palabra clave de este término es el descubrimiento, comúnmente se define como "la detección de algo
nuevo«.
Objetivos de la Minería de Datos
 El proceso de extracción de conocimientos en las Bases de Datos es:
- Limpieza de Datos (eliminación de ruido e inconsistencias)
- Integración de Datos (combinación de múltiples fuentes de datos)
- Reducción / Selección de Datos (identificación de datos relevantes)
- Transformación de Datos (preparación de los Datos para su análisis)
- Minería de Datos (técnicas de extracción de patrones y medias de interés)
- Presentación de resultados (técnicas de visualización y representación del conocimiento).
KDD (Knowledge Discovery in Databases)
 La principal tarea de la Minería de Datos real es el análisis automático o semi automático de grandes cantidades
de datos para extraer patrones interesantes hasta ahora desconocidos, como los grupos de registros de datos
(análisis clúster), registros poco usuales (la detección de anomalías) y dependencias (minería por reglas de
asociación).
 Los términos relacionados con la obtención de datos, la pesca de datos y espionaje de los datos se refieren a la
utilización de métodos de minería de
 Datos.
Tareas:
 Podemos agrupar algunas tareas mencionadas anteriormente y otras en:
- Predicción:
o Clasificación
o Regresión
- Asociación
- Agrupación (clustering)
…Tareas…
 La Minería de Datos típicamente se emplea en casos como:
- Predecir si un paciente va a ser hospitalizado con base en su historia clínica.
- Clasificación de dígitos (códigos) escritos a mano.
- Comprensión de información (imágenes).
- Determinantes de una enfermedad (síntomas y posología)
- Clasificación de clientes (instituciones financieras)
- Detección de anomalías y fraudes (sector financiero).
Problemas típicos:
 Dependiendo de la técnica, la minería de Datos se aplica:
 (técnica de carácter horizontal)
- Financieras y Banca
o Obtención de patrones de uso fraudulento de tarjetas de crédito
o Predicción de morosidad
- Análisis de mercado
o Análisis de la cesta de compra
o Segmentación de mercado
- Seguros y salud privada
o Determinación de clientes potencialmente caros.
Aplicaciones de la Minería de Datos
- Educación
o Detección de abandonos
- Medicina
o Diagnóstico de enfermedades
- Ciencia
o Predecir si un compuesto químico causa cáncer
o Predecir si una persona puede tener potencialmente una enfermedad a partir de su ADN.
o Clasificación de los cuerpos celestes (SKYCAT)
- Detección de Spam
- Web
o Asociación de compras en línea (AMAZON)
… aplicaciones…
- Web
o Clasificación automática de páginas web para directorios
- Reconocimiento de caracteres, voz, texto, etc.
- Predicción de la demanda de servicios (eléctrico, agua, gas, etc).
 Podemos mencionar también que existen herramientas de software que nos ayudan a desarrollar modelos de
minería de datos, por ejemplo:
- dVelox de APARA - KXEN - KNIME
- Neural Designer - OpenNN - Orange
- Powerhouse - Quiterian - RapidMiner
- SAS Enterprise Miner - SPSS Clementine - R
- STATISTICA Data Miner - Weka - KEEL
… más aplicaciones…
CLAVES OCULTAS EN LOS DATOS
 Es poco costoso
guardar datos del
funcionamiento de
nuestros procesos, o
de nuestros sistemas
de venta, o de
nuestros clientes,
etc., por lo que
nuestras bases de
datos crecen hasta
límites
insospechados.
Estructuración de los datos
 Para poder analizar nuestros datos con fiabilidad es necesario que
exista una cierta estructuración y coherencia entre los mismos.
 Diferentes tipos de datos representando el mismo concepto: un
ejemplo que ha provocado uno de los mayores problemas
informáticos es la representación de la fecha, donde el año se
puede guardar con 2 o con 4 dígitos.
 Diferentes claves para representar el mismo elemento: un mismo
cliente puede ser representado por un código de cliente propio o
por su NIF.
La cuestión no es sencilla, y se agrava cuando los
diferentes ficheros se encuentran en sistemas
informáticos y soportes diferentes.
Punto de partida
 Data Mining está listo para su aplicación en la comunidad de negocios
porque está soportado por tres tecnologías que ya están suficientemente
maduras:
1. Recolección masiva de datos.
2. Potentes computadoras con multiprocesadores.
3. Algoritmos de Data Mining.
Características y objetivos
1. Explorar los datos se encuentran en las profundidades de las bases de datos,
como los almacenes de datos, que algunas veces contienen información
almacenada durante varios años.
2. El entorno de la minería de datos suele tener una arquitectura cliente-servidor.
3. El minero es, muchas veces un usuario final con poca o ninguna habilidad de
programación, facultado por barrenadoras de datos y otras poderosas
herramientas indagatorias para efectuar preguntas adhoc y obtener rápidamente
respuestas.
4. La minería de datos produce cinco tipos de información:
1. Asociaciones.
2. Secuencias.
3. Clasificaciones.
4. Agrupamientos.
5. Pronósticos.
Fases de un proceso de minería de datos
 El proceso de minería de datos pasa por las siguientes fases:
1. Filtrado de datos.
2. Selección de Variables.
3. Extracción de Conocimiento.
4. Interpretación y Evaluación.
 FILTRADO DE DATOS
 Mediante el preprocesado, se filtran los datos (de forma que se eliminan
valores incorrectos, no válidos, desconocidos... según las necesidades y el
algoritmo a usar), se obtienen muestras de los mismos (en busca de una
mayor velocidad de respuesta del proceso), o se reducen el número de
valores posibles (mediante redondeo, clustering,...).
 SELECCIÓN DE VARIABLES
 Los métodos para la selección de características son
básicamente dos:
1. Aquellos basados en la elección de los mejores atributos
del problema,
2. Y aquellos que buscan variables independientes
mediante tests de sensibilidad, algoritmos de distancia o
heurísticos.
 ALGORITMOS DE EXTRACCIÓN DE CONOCIMIENTO
 Mediante una técnica de minería de datos, se obtiene un
modelo de conocimiento, que representa patrones de
comportamiento observados en los valores de las
variables del problema o relaciones de asociación entre
dichas variables.
 INTERPRETACIÓN Y EVALUACIÓN
 Una vez obtenido el modelo, se debe proceder a su
validación, comprobando que las conclusiones que
arroja son válidas y suficientemente satisfactorias.
 Si ninguno de los modelos alcanza los resultados
esperados, debe alterarse alguno de los pasos anteriores
para generar nuevos modelos.
PRINCIPALES
TÉCNICAS
Las técnicas más relevantes se pueden clasificar según el tipo de
problema que se estudia.
 Análisis supervisado:
1. Clasificación: logístico, arboles, boosting de arboles,
redes neuronales.
2. Regresión: regresión lineal, shrinkage, redes neuronales,
kernels.
 Análisis no supervisado:
1. Conglomerados.
2. Reglas de asociación.
3. Análisis digital
Supongamos y ∈ 0,1. El modelo de clasificación logístico supone
que:
donde P(y = 1|x) es la probabilidad de que el resultado sea 1 cuando
las características observadas son x.
La forma de estimar β es mediante el método de máxima
verosimilitud. La idea es maximizar:
LOGÍSTICO
La idea es hacer separaciones secuenciales de los datos de acuerdo
a cada variable independiente.
CART, BOOSTING DE
ÁRBOLES
 La idea es hacer separaciones secuenciales de los datos de
acuerdo a cada variable independiente.
 Sean R1,….., RM un conjunto de regiones.
 Cada región la clasificamos como cero o uno dependiendo de
la proporción de datos observados con resultado cero o uno.
 Sea p(m,1) La cantidad de unos en la región m como
proporción de la cantidad de observaciones en esa región.
 Sea k(m) = 1 si p(m,1) > p(m,0).
 Definimos el error de clasificación como
Ahora repetimos el siguiente algoritmo.
1. Para determinar el primer nodo, la variable que hace
separación es aquella que minimiza el error de
clasificación.
2. En cada nodo se elige la variable (entre las que no se han
usado para separar anteriormente) que minimiza el error de
clasificación.
3. Se continua hasta completar M nodos.
 Un excelente clasificador cuando se combina con boosting
La característica principal es que permite introducir no linealidades
REGRESIONE
S
 El problema es describir la distribución las variables
independientes.
 Permite detectar asociaciones entre variables cuando estas son
poco frecuentes.
Los conceptos claves son:
1. El soporte de un conjunto de variables es la probabilidad de
encontrar esos valores entre los valores de las
variables independientes.
2. Una regla A  B se le asigna una confianza igual a la
probabilidad
condicional de B dado A.
Típicamente se busca un soporte bajo y una confianza alta.
Objetivos complementarios en un problema de minería de datos.
1. Selección de modelos.
2. Evaluación de modelo.
En ambientes ricos en información esto se puede operacionalizar
dividiendo aleatoriamente los datos observados.
PRINCIPALES TÉCNICAS
VALIDACIÓN CRUZADA
VALIDACIÓN CRUZADA
Fuentes de Datos
Bases de datos relacionales
Una Base de Datos Relacional, es una base de datos que cumple con el modelo
relacional el cual es el modelo más utilizado en la actualidad para implementar
bases de datos ya planificadas.
Bases de datos multidimensionales
 Estas bases de datos se utilizan para crear aplicaciones muy específicas, por
ejemplo para crear cubos estas bases de datos se pueden representar por
medio de tablas
Bases de datos transaccionales
 Un sistema transaccional debe controlar las transacciones para mantener la
seguridad y consistencia de los datos involucrados. Los sistemas
transaccionales automatizan tareas operáticas en una organización
permitiendo ahorrar en personal.
Evaluación de resultados
 Un resultado es interesante si:
 Es comprensible
 Es valido con cierto grado de certeza
 Es potencialmente útil
 Es novedoso o sirve para validar una hipótesis
El interés de los resultados se puede
evaluar:
 Objetivamente (criterios estadísticos)
 Subjetivamente (perspectiva del usuario)
Presentacion data mining (mineria de datos)- base de datos

Más contenido relacionado

La actualidad más candente

Lenguajes de bases de datos
Lenguajes de bases de datosLenguajes de bases de datos
Lenguajes de bases de datos
ralbarracin
 
Etapas en el diseño de Base de Datos
Etapas en el diseño de Base de DatosEtapas en el diseño de Base de Datos
Etapas en el diseño de Base de Datos
Anielka Reyes
 
APRENDIZAJE SUPERVISADO Y APRENDIZAJE NO SUPERVISADO
APRENDIZAJE SUPERVISADO Y APRENDIZAJE NO SUPERVISADOAPRENDIZAJE SUPERVISADO Y APRENDIZAJE NO SUPERVISADO
APRENDIZAJE SUPERVISADO Y APRENDIZAJE NO SUPERVISADO
systemprisoners
 
Mineria de Datos
Mineria de DatosMineria de Datos
Mineria de Datos
04071977
 
Diseño de entraday_salida
Diseño de entraday_salidaDiseño de entraday_salida
Diseño de entraday_salida
Jorge Garcia
 
Cuadro comparativo analisis estructurado y orientado a objeto
Cuadro comparativo analisis estructurado y orientado a objeto Cuadro comparativo analisis estructurado y orientado a objeto
Cuadro comparativo analisis estructurado y orientado a objeto
Freddy Rosales
 
Los Sistemas De Informacion
Los Sistemas De InformacionLos Sistemas De Informacion
Los Sistemas De Informacion
Alba Patricia Guzman Duque
 
Tecnicas y herramientas para el desarrollo de software
Tecnicas y herramientas para el desarrollo de softwareTecnicas y herramientas para el desarrollo de software
Tecnicas y herramientas para el desarrollo de software
Reynaldo Mayz
 
Técnicas para la Obtención de Requerimientos
Técnicas para la Obtención de RequerimientosTécnicas para la Obtención de Requerimientos
Técnicas para la Obtención de Requerimientos
Juan Carlos Olivares Rojas
 
Unidad 1 conceptos generales del diseño de sistemas
Unidad 1  conceptos generales del diseño de sistemasUnidad 1  conceptos generales del diseño de sistemas
Unidad 1 conceptos generales del diseño de sistemas
yenny enriquez
 
Minería de datos Presentación
Minería de datos PresentaciónMinería de datos Presentación
Minería de datos Presentación
edmaga
 
Proyecto de software
Proyecto de softwareProyecto de software
Proyecto de software
monik1002
 
Factibilidad operativa
Factibilidad operativaFactibilidad operativa
Factibilidad operativa
Gabriel Rafael Lacayo Saballos
 
1. modelo entidad relacion ejemplo
1. modelo entidad relacion   ejemplo1. modelo entidad relacion   ejemplo
1. modelo entidad relacion ejemplo
univ of pamplona
 
Técnicas más usadas en la mineria de datos
Técnicas más usadas en la mineria de datosTécnicas más usadas en la mineria de datos
Técnicas más usadas en la mineria de datos
Valeria Gavilanes
 
Técnicas de minería de datos
Técnicas de minería de datosTécnicas de minería de datos
Técnicas de minería de datos
Bryan Barragan
 
Analisis y diseño de sistemas preguntas de repaso
Analisis y diseño de sistemas preguntas de repasoAnalisis y diseño de sistemas preguntas de repaso
Analisis y diseño de sistemas preguntas de repaso
Alejandro Rivera Santander
 
Diseño de salidas del sistema
Diseño de salidas del sistemaDiseño de salidas del sistema
Diseño de salidas del sistema
cidbauniquindio
 
Introducción a los modelos de datos
Introducción a los modelos de datosIntroducción a los modelos de datos
Introducción a los modelos de datos
Galo Anzules
 
Requerimientos del software
Requerimientos del software Requerimientos del software
Requerimientos del software
Rosa Virginia Ortega Loaiza
 

La actualidad más candente (20)

Lenguajes de bases de datos
Lenguajes de bases de datosLenguajes de bases de datos
Lenguajes de bases de datos
 
Etapas en el diseño de Base de Datos
Etapas en el diseño de Base de DatosEtapas en el diseño de Base de Datos
Etapas en el diseño de Base de Datos
 
APRENDIZAJE SUPERVISADO Y APRENDIZAJE NO SUPERVISADO
APRENDIZAJE SUPERVISADO Y APRENDIZAJE NO SUPERVISADOAPRENDIZAJE SUPERVISADO Y APRENDIZAJE NO SUPERVISADO
APRENDIZAJE SUPERVISADO Y APRENDIZAJE NO SUPERVISADO
 
Mineria de Datos
Mineria de DatosMineria de Datos
Mineria de Datos
 
Diseño de entraday_salida
Diseño de entraday_salidaDiseño de entraday_salida
Diseño de entraday_salida
 
Cuadro comparativo analisis estructurado y orientado a objeto
Cuadro comparativo analisis estructurado y orientado a objeto Cuadro comparativo analisis estructurado y orientado a objeto
Cuadro comparativo analisis estructurado y orientado a objeto
 
Los Sistemas De Informacion
Los Sistemas De InformacionLos Sistemas De Informacion
Los Sistemas De Informacion
 
Tecnicas y herramientas para el desarrollo de software
Tecnicas y herramientas para el desarrollo de softwareTecnicas y herramientas para el desarrollo de software
Tecnicas y herramientas para el desarrollo de software
 
Técnicas para la Obtención de Requerimientos
Técnicas para la Obtención de RequerimientosTécnicas para la Obtención de Requerimientos
Técnicas para la Obtención de Requerimientos
 
Unidad 1 conceptos generales del diseño de sistemas
Unidad 1  conceptos generales del diseño de sistemasUnidad 1  conceptos generales del diseño de sistemas
Unidad 1 conceptos generales del diseño de sistemas
 
Minería de datos Presentación
Minería de datos PresentaciónMinería de datos Presentación
Minería de datos Presentación
 
Proyecto de software
Proyecto de softwareProyecto de software
Proyecto de software
 
Factibilidad operativa
Factibilidad operativaFactibilidad operativa
Factibilidad operativa
 
1. modelo entidad relacion ejemplo
1. modelo entidad relacion   ejemplo1. modelo entidad relacion   ejemplo
1. modelo entidad relacion ejemplo
 
Técnicas más usadas en la mineria de datos
Técnicas más usadas en la mineria de datosTécnicas más usadas en la mineria de datos
Técnicas más usadas en la mineria de datos
 
Técnicas de minería de datos
Técnicas de minería de datosTécnicas de minería de datos
Técnicas de minería de datos
 
Analisis y diseño de sistemas preguntas de repaso
Analisis y diseño de sistemas preguntas de repasoAnalisis y diseño de sistemas preguntas de repaso
Analisis y diseño de sistemas preguntas de repaso
 
Diseño de salidas del sistema
Diseño de salidas del sistemaDiseño de salidas del sistema
Diseño de salidas del sistema
 
Introducción a los modelos de datos
Introducción a los modelos de datosIntroducción a los modelos de datos
Introducción a los modelos de datos
 
Requerimientos del software
Requerimientos del software Requerimientos del software
Requerimientos del software
 

Destacado

Data Mining
Data MiningData Mining
Data Mining
brobelo
 
Minería de datos y kdd
Minería de datos y kddMinería de datos y kdd
Minería de datos y kdd
Yaz_Cuapio
 
Minería de datos
Minería de datosMinería de datos
Minería de datos
anag catal
 
Make Growth Happen for all Employees
Make Growth Happen for all EmployeesMake Growth Happen for all Employees
Make Growth Happen for all Employees
Talent Innovations
 
Minería de datos en redes sociales
Minería de datos en redes socialesMinería de datos en redes sociales
Minería de datos en redes sociales
María Muñoz Parra
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
Zeus Ruiz Montilla
 
Minería de datos
Minería de datosMinería de datos
Minería de datos
Software Guru
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
MONICA MONTOYA CORDERO
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
Arnoldo Gil
 
Mapa conceptual mineria de datos 1
Mapa conceptual mineria de datos 1Mapa conceptual mineria de datos 1
Mapa conceptual mineria de datos 1
diana marcela alegria escobar
 
mineria de datos
mineria de datosmineria de datos
mineria de datos
Washington Bastidas
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
Departamento de Redes UNL
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
elsemieni
 
Diapositivas
DiapositivasDiapositivas
Diapositivas
Yenny López
 
Minería de datos
Minería de datosMinería de datos
Minería de datos
Antonio Soto
 
mineria de datos
mineria de datosmineria de datos
MIneria de datos
MIneria de datosMIneria de datos
MIneria de datos
Juan Flores
 
Mineria De Datos
Mineria De DatosMineria De Datos
Mineria De Datos
Janett Julca Flores
 
Técnicas e Instrumentos de Recolección de Datos
Técnicas e Instrumentos de Recolección de DatosTécnicas e Instrumentos de Recolección de Datos
Técnicas e Instrumentos de Recolección de Datos
Universidad Pedagógica Experimental Libertador
 

Destacado (19)

Data Mining
Data MiningData Mining
Data Mining
 
Minería de datos y kdd
Minería de datos y kddMinería de datos y kdd
Minería de datos y kdd
 
Minería de datos
Minería de datosMinería de datos
Minería de datos
 
Make Growth Happen for all Employees
Make Growth Happen for all EmployeesMake Growth Happen for all Employees
Make Growth Happen for all Employees
 
Minería de datos en redes sociales
Minería de datos en redes socialesMinería de datos en redes sociales
Minería de datos en redes sociales
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Minería de datos
Minería de datosMinería de datos
Minería de datos
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Mapa conceptual mineria de datos 1
Mapa conceptual mineria de datos 1Mapa conceptual mineria de datos 1
Mapa conceptual mineria de datos 1
 
mineria de datos
mineria de datosmineria de datos
mineria de datos
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Diapositivas
DiapositivasDiapositivas
Diapositivas
 
Minería de datos
Minería de datosMinería de datos
Minería de datos
 
mineria de datos
mineria de datosmineria de datos
mineria de datos
 
MIneria de datos
MIneria de datosMIneria de datos
MIneria de datos
 
Mineria De Datos
Mineria De DatosMineria De Datos
Mineria De Datos
 
Técnicas e Instrumentos de Recolección de Datos
Técnicas e Instrumentos de Recolección de DatosTécnicas e Instrumentos de Recolección de Datos
Técnicas e Instrumentos de Recolección de Datos
 

Similar a Presentacion data mining (mineria de datos)- base de datos

Exposicion mineria de datos - Franklin Rodríguez
Exposicion mineria de datos - Franklin Rodríguez Exposicion mineria de datos - Franklin Rodríguez
Exposicion mineria de datos - Franklin Rodríguez
Ana Delgado
 
Monografia Data Mining
Monografia Data Mining   Monografia Data Mining
Monografia Data Mining
PabloMolina111
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
Néstor González
 
Marisela labrador
Marisela labradorMarisela labrador
Marisela labrador
mariselalabrador2006
 
Mineria de datos ok
Mineria de datos okMineria de datos ok
Mineria de datos ok
Armando Romani
 
Mineria de datos ensayo
Mineria de datos ensayoMineria de datos ensayo
Mineria de datos ensayo
carimi
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
Yolanda Uruchima
 
Tecnicas Mineria de Datos.ppt
Tecnicas Mineria de Datos.pptTecnicas Mineria de Datos.ppt
Tecnicas Mineria de Datos.ppt
VAOC1984
 
Minería de Datos - Unidad 1
Minería de Datos - Unidad 1Minería de Datos - Unidad 1
Minería de Datos - Unidad 1
Pedro Aaron
 
Data Mining Parte 1.pptx
Data Mining Parte 1.pptxData Mining Parte 1.pptx
Análisis de Sentimientos y otros retos del aprovechamiento inteligente de los...
Análisis de Sentimientos y otros retos del aprovechamiento inteligente de los...Análisis de Sentimientos y otros retos del aprovechamiento inteligente de los...
Análisis de Sentimientos y otros retos del aprovechamiento inteligente de los...
Facultad de Informática UCM
 
Minería de Datos. Introducción
Minería de Datos. IntroducciónMinería de Datos. Introducción
Minería de Datos. Introducción
travon1
 
Mineria de Datos
Mineria de DatosMineria de Datos
Mineria de Datos
Carlos Garces Cross
 
Data mining
Data miningData mining
Data mining
rubzabet
 
Data mining
Data miningData mining
Data mining
rubza
 
2023-T4-Analisis_Datos.ppsx
2023-T4-Analisis_Datos.ppsx2023-T4-Analisis_Datos.ppsx
2023-T4-Analisis_Datos.ppsx
Ricardo Lopez-Ruiz
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
Diana Rubiano
 
Mineria de datos-una_introduccion
Mineria de datos-una_introduccionMineria de datos-una_introduccion
Mineria de datos-una_introduccion
travon1
 
aplicaciones de minería de datos
aplicaciones de minería de datosaplicaciones de minería de datos
aplicaciones de minería de datos
Leopoldo Gonzalez Rosas
 
Datawarehouse y Datamining
Datawarehouse y DataminingDatawarehouse y Datamining
Datawarehouse y Datamining
dannoblack
 

Similar a Presentacion data mining (mineria de datos)- base de datos (20)

Exposicion mineria de datos - Franklin Rodríguez
Exposicion mineria de datos - Franklin Rodríguez Exposicion mineria de datos - Franklin Rodríguez
Exposicion mineria de datos - Franklin Rodríguez
 
Monografia Data Mining
Monografia Data Mining   Monografia Data Mining
Monografia Data Mining
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Marisela labrador
Marisela labradorMarisela labrador
Marisela labrador
 
Mineria de datos ok
Mineria de datos okMineria de datos ok
Mineria de datos ok
 
Mineria de datos ensayo
Mineria de datos ensayoMineria de datos ensayo
Mineria de datos ensayo
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Tecnicas Mineria de Datos.ppt
Tecnicas Mineria de Datos.pptTecnicas Mineria de Datos.ppt
Tecnicas Mineria de Datos.ppt
 
Minería de Datos - Unidad 1
Minería de Datos - Unidad 1Minería de Datos - Unidad 1
Minería de Datos - Unidad 1
 
Data Mining Parte 1.pptx
Data Mining Parte 1.pptxData Mining Parte 1.pptx
Data Mining Parte 1.pptx
 
Análisis de Sentimientos y otros retos del aprovechamiento inteligente de los...
Análisis de Sentimientos y otros retos del aprovechamiento inteligente de los...Análisis de Sentimientos y otros retos del aprovechamiento inteligente de los...
Análisis de Sentimientos y otros retos del aprovechamiento inteligente de los...
 
Minería de Datos. Introducción
Minería de Datos. IntroducciónMinería de Datos. Introducción
Minería de Datos. Introducción
 
Mineria de Datos
Mineria de DatosMineria de Datos
Mineria de Datos
 
Data mining
Data miningData mining
Data mining
 
Data mining
Data miningData mining
Data mining
 
2023-T4-Analisis_Datos.ppsx
2023-T4-Analisis_Datos.ppsx2023-T4-Analisis_Datos.ppsx
2023-T4-Analisis_Datos.ppsx
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Mineria de datos-una_introduccion
Mineria de datos-una_introduccionMineria de datos-una_introduccion
Mineria de datos-una_introduccion
 
aplicaciones de minería de datos
aplicaciones de minería de datosaplicaciones de minería de datos
aplicaciones de minería de datos
 
Datawarehouse y Datamining
Datawarehouse y DataminingDatawarehouse y Datamining
Datawarehouse y Datamining
 

Más de María Inés Cahuana Lázaro

Animatic
AnimaticAnimatic
El consumidor ecologico
El consumidor ecologicoEl consumidor ecologico
El consumidor ecologico
María Inés Cahuana Lázaro
 
Fuentes de datos
Fuentes de datosFuentes de datos
Platon el banquete
Platon   el banquetePlaton   el banquete
Platon el banquete
María Inés Cahuana Lázaro
 
Cinemática Directa e Inversa de un robot de 3 Grados de Libertad
Cinemática Directa e Inversa de un robot de 3 Grados de LibertadCinemática Directa e Inversa de un robot de 3 Grados de Libertad
Cinemática Directa e Inversa de un robot de 3 Grados de Libertad
María Inés Cahuana Lázaro
 
Marca País de Perú
Marca País de PerúMarca País de Perú
Marca País de Perú
María Inés Cahuana Lázaro
 
AUDITORÍA DE REDES
AUDITORÍA DE REDESAUDITORÍA DE REDES
AUDITORÍA DE REDES
María Inés Cahuana Lázaro
 
Mas alla de google
Mas alla de googleMas alla de google
Mas alla de google
María Inés Cahuana Lázaro
 
Proyecto Innovate mc donald
Proyecto Innovate mc donaldProyecto Innovate mc donald
Proyecto Innovate mc donald
María Inés Cahuana Lázaro
 
bases de datos ayer y hoy
bases de datos ayer y hoybases de datos ayer y hoy
bases de datos ayer y hoy
María Inés Cahuana Lázaro
 
Teoría de autómatas
Teoría de autómatasTeoría de autómatas
Teoría de autómatas
María Inés Cahuana Lázaro
 
Elaboración de prototipos
Elaboración de prototiposElaboración de prototipos
Elaboración de prototipos
María Inés Cahuana Lázaro
 
Filosofos cenando++
Filosofos cenando++Filosofos cenando++
Filosofos cenando++
María Inés Cahuana Lázaro
 
desarrollo ágil-ingenieria de softwaare
desarrollo ágil-ingenieria de softwaaredesarrollo ágil-ingenieria de softwaare
desarrollo ágil-ingenieria de softwaare
María Inés Cahuana Lázaro
 
Ingeniería de software modelo incremental
Ingeniería de software  modelo incrementalIngeniería de software  modelo incremental
Ingeniería de software modelo incremental
María Inés Cahuana Lázaro
 
Modelos de proceso evolutivos – prototipos
Modelos de proceso evolutivos – prototiposModelos de proceso evolutivos – prototipos
Modelos de proceso evolutivos – prototipos
María Inés Cahuana Lázaro
 
Principios de domótica
Principios de domóticaPrincipios de domótica
Principios de domótica
María Inés Cahuana Lázaro
 
Administración de memoria el linux
Administración de memoria el linuxAdministración de memoria el linux
Administración de memoria el linux
María Inés Cahuana Lázaro
 

Más de María Inés Cahuana Lázaro (18)

Animatic
AnimaticAnimatic
Animatic
 
El consumidor ecologico
El consumidor ecologicoEl consumidor ecologico
El consumidor ecologico
 
Fuentes de datos
Fuentes de datosFuentes de datos
Fuentes de datos
 
Platon el banquete
Platon   el banquetePlaton   el banquete
Platon el banquete
 
Cinemática Directa e Inversa de un robot de 3 Grados de Libertad
Cinemática Directa e Inversa de un robot de 3 Grados de LibertadCinemática Directa e Inversa de un robot de 3 Grados de Libertad
Cinemática Directa e Inversa de un robot de 3 Grados de Libertad
 
Marca País de Perú
Marca País de PerúMarca País de Perú
Marca País de Perú
 
AUDITORÍA DE REDES
AUDITORÍA DE REDESAUDITORÍA DE REDES
AUDITORÍA DE REDES
 
Mas alla de google
Mas alla de googleMas alla de google
Mas alla de google
 
Proyecto Innovate mc donald
Proyecto Innovate mc donaldProyecto Innovate mc donald
Proyecto Innovate mc donald
 
bases de datos ayer y hoy
bases de datos ayer y hoybases de datos ayer y hoy
bases de datos ayer y hoy
 
Teoría de autómatas
Teoría de autómatasTeoría de autómatas
Teoría de autómatas
 
Elaboración de prototipos
Elaboración de prototiposElaboración de prototipos
Elaboración de prototipos
 
Filosofos cenando++
Filosofos cenando++Filosofos cenando++
Filosofos cenando++
 
desarrollo ágil-ingenieria de softwaare
desarrollo ágil-ingenieria de softwaaredesarrollo ágil-ingenieria de softwaare
desarrollo ágil-ingenieria de softwaare
 
Ingeniería de software modelo incremental
Ingeniería de software  modelo incrementalIngeniería de software  modelo incremental
Ingeniería de software modelo incremental
 
Modelos de proceso evolutivos – prototipos
Modelos de proceso evolutivos – prototiposModelos de proceso evolutivos – prototipos
Modelos de proceso evolutivos – prototipos
 
Principios de domótica
Principios de domóticaPrincipios de domótica
Principios de domótica
 
Administración de memoria el linux
Administración de memoria el linuxAdministración de memoria el linux
Administración de memoria el linux
 

Último

Tríptico sr de sipanxdxdxdxdxdxdxdx.docx
Tríptico sr de sipanxdxdxdxdxdxdxdx.docxTríptico sr de sipanxdxdxdxdxdxdxdx.docx
Tríptico sr de sipanxdxdxdxdxdxdxdx.docx
FRESCIAJULIANAHERRER
 
Presidentes de la Reserva Federal en el período neoliberal (1980-2024).pdf
Presidentes de la Reserva Federal en el período neoliberal (1980-2024).pdfPresidentes de la Reserva Federal en el período neoliberal (1980-2024).pdf
Presidentes de la Reserva Federal en el período neoliberal (1980-2024).pdf
JC Díaz Herrera
 
CALCULO DE PERSONAL EN EL ÁREA DE GESTION DE ENFERMERÍA
CALCULO DE PERSONAL EN EL ÁREA DE GESTION DE ENFERMERÍACALCULO DE PERSONAL EN EL ÁREA DE GESTION DE ENFERMERÍA
CALCULO DE PERSONAL EN EL ÁREA DE GESTION DE ENFERMERÍA
SharisOlvera
 
Guía para la visualización de datos_ VOSviewer.pdf
Guía para la visualización de datos_ VOSviewer.pdfGuía para la visualización de datos_ VOSviewer.pdf
Guía para la visualización de datos_ VOSviewer.pdf
omoreno1
 
AVANCE TECNOLOGICO AREAS DE IMPACTO DEL AVANCE TECNOLOGICO
AVANCE TECNOLOGICO AREAS DE IMPACTO DEL AVANCE TECNOLOGICOAVANCE TECNOLOGICO AREAS DE IMPACTO DEL AVANCE TECNOLOGICO
AVANCE TECNOLOGICO AREAS DE IMPACTO DEL AVANCE TECNOLOGICO
ronaldomarca1999
 
Regiones del mundo por posesión de vivienda particular (2024).pdf
Regiones del mundo por posesión de vivienda particular (2024).pdfRegiones del mundo por posesión de vivienda particular (2024).pdf
Regiones del mundo por posesión de vivienda particular (2024).pdf
JC Díaz Herrera
 
PLAN DE MANEJO AMBIENTAL.docx...................................................
PLAN DE MANEJO AMBIENTAL.docx...................................................PLAN DE MANEJO AMBIENTAL.docx...................................................
PLAN DE MANEJO AMBIENTAL.docx...................................................
AlinaTicllaDiaz2
 
introducción análisis de información sena
introducción análisis de información senaintroducción análisis de información sena
introducción análisis de información sena
AndresZambranoDiaz1
 
REPORTE-HEMEROGRÁFICO-MAYO 2024-IRAPUATO.pdf
REPORTE-HEMEROGRÁFICO-MAYO 2024-IRAPUATO.pdfREPORTE-HEMEROGRÁFICO-MAYO 2024-IRAPUATO.pdf
REPORTE-HEMEROGRÁFICO-MAYO 2024-IRAPUATO.pdf
IrapuatoCmovamos
 
Presentación simple corporativa degradado en violeta blanco.pptx
Presentación simple corporativa degradado en violeta blanco.pptxPresentación simple corporativa degradado en violeta blanco.pptx
Presentación simple corporativa degradado en violeta blanco.pptx
eleandroth
 
INTELIGENCIA ARTIFICIAL monografia02.pdf
INTELIGENCIA ARTIFICIAL monografia02.pdfINTELIGENCIA ARTIFICIAL monografia02.pdf
INTELIGENCIA ARTIFICIAL monografia02.pdf
YulEz1
 
Extracción automática de texto estructurado en PDFs
Extracción automática de texto estructurado en PDFsExtracción automática de texto estructurado en PDFs
Extracción automática de texto estructurado en PDFs
oscar104275
 
utadeigraduandos2020documentopubñico0.pptx
utadeigraduandos2020documentopubñico0.pptxutadeigraduandos2020documentopubñico0.pptx
utadeigraduandos2020documentopubñico0.pptx
AndrsMartinez54
 
La importancia de las tecnologías de la comunicación en el hogar, en la educ...
La importancia de las tecnologías de la comunicación  en el hogar, en la educ...La importancia de las tecnologías de la comunicación  en el hogar, en la educ...
La importancia de las tecnologías de la comunicación en el hogar, en la educ...
241557574
 
Grupo 04: Dispersión y absorción de luz.pdf
Grupo 04: Dispersión y absorción de luz.pdfGrupo 04: Dispersión y absorción de luz.pdf
Grupo 04: Dispersión y absorción de luz.pdf
naticlas0
 
presentacion del scop osinergmin ppt para informacion
presentacion del scop osinergmin ppt para informacionpresentacion del scop osinergmin ppt para informacion
presentacion del scop osinergmin ppt para informacion
supervisionelcentena
 
MONOGRAFIA DEL BUSCADOR YAHOO! APSTI1"A"
MONOGRAFIA DEL BUSCADOR YAHOO! APSTI1"A"MONOGRAFIA DEL BUSCADOR YAHOO! APSTI1"A"
MONOGRAFIA DEL BUSCADOR YAHOO! APSTI1"A"
darkskills2011
 
resumen de manual de organizacion y funciones de TI
resumen de manual de organizacion y funciones de TIresumen de manual de organizacion y funciones de TI
resumen de manual de organizacion y funciones de TI
riveroarlett5b
 
Resumen----_------Ejecutivo. universidad
Resumen----_------Ejecutivo. universidadResumen----_------Ejecutivo. universidad
Resumen----_------Ejecutivo. universidad
lilyv195
 
analisis de datos sistemas de informacion
analisis de datos sistemas de informacionanalisis de datos sistemas de informacion
analisis de datos sistemas de informacion
AndresZambranoDiaz1
 

Último (20)

Tríptico sr de sipanxdxdxdxdxdxdxdx.docx
Tríptico sr de sipanxdxdxdxdxdxdxdx.docxTríptico sr de sipanxdxdxdxdxdxdxdx.docx
Tríptico sr de sipanxdxdxdxdxdxdxdx.docx
 
Presidentes de la Reserva Federal en el período neoliberal (1980-2024).pdf
Presidentes de la Reserva Federal en el período neoliberal (1980-2024).pdfPresidentes de la Reserva Federal en el período neoliberal (1980-2024).pdf
Presidentes de la Reserva Federal en el período neoliberal (1980-2024).pdf
 
CALCULO DE PERSONAL EN EL ÁREA DE GESTION DE ENFERMERÍA
CALCULO DE PERSONAL EN EL ÁREA DE GESTION DE ENFERMERÍACALCULO DE PERSONAL EN EL ÁREA DE GESTION DE ENFERMERÍA
CALCULO DE PERSONAL EN EL ÁREA DE GESTION DE ENFERMERÍA
 
Guía para la visualización de datos_ VOSviewer.pdf
Guía para la visualización de datos_ VOSviewer.pdfGuía para la visualización de datos_ VOSviewer.pdf
Guía para la visualización de datos_ VOSviewer.pdf
 
AVANCE TECNOLOGICO AREAS DE IMPACTO DEL AVANCE TECNOLOGICO
AVANCE TECNOLOGICO AREAS DE IMPACTO DEL AVANCE TECNOLOGICOAVANCE TECNOLOGICO AREAS DE IMPACTO DEL AVANCE TECNOLOGICO
AVANCE TECNOLOGICO AREAS DE IMPACTO DEL AVANCE TECNOLOGICO
 
Regiones del mundo por posesión de vivienda particular (2024).pdf
Regiones del mundo por posesión de vivienda particular (2024).pdfRegiones del mundo por posesión de vivienda particular (2024).pdf
Regiones del mundo por posesión de vivienda particular (2024).pdf
 
PLAN DE MANEJO AMBIENTAL.docx...................................................
PLAN DE MANEJO AMBIENTAL.docx...................................................PLAN DE MANEJO AMBIENTAL.docx...................................................
PLAN DE MANEJO AMBIENTAL.docx...................................................
 
introducción análisis de información sena
introducción análisis de información senaintroducción análisis de información sena
introducción análisis de información sena
 
REPORTE-HEMEROGRÁFICO-MAYO 2024-IRAPUATO.pdf
REPORTE-HEMEROGRÁFICO-MAYO 2024-IRAPUATO.pdfREPORTE-HEMEROGRÁFICO-MAYO 2024-IRAPUATO.pdf
REPORTE-HEMEROGRÁFICO-MAYO 2024-IRAPUATO.pdf
 
Presentación simple corporativa degradado en violeta blanco.pptx
Presentación simple corporativa degradado en violeta blanco.pptxPresentación simple corporativa degradado en violeta blanco.pptx
Presentación simple corporativa degradado en violeta blanco.pptx
 
INTELIGENCIA ARTIFICIAL monografia02.pdf
INTELIGENCIA ARTIFICIAL monografia02.pdfINTELIGENCIA ARTIFICIAL monografia02.pdf
INTELIGENCIA ARTIFICIAL monografia02.pdf
 
Extracción automática de texto estructurado en PDFs
Extracción automática de texto estructurado en PDFsExtracción automática de texto estructurado en PDFs
Extracción automática de texto estructurado en PDFs
 
utadeigraduandos2020documentopubñico0.pptx
utadeigraduandos2020documentopubñico0.pptxutadeigraduandos2020documentopubñico0.pptx
utadeigraduandos2020documentopubñico0.pptx
 
La importancia de las tecnologías de la comunicación en el hogar, en la educ...
La importancia de las tecnologías de la comunicación  en el hogar, en la educ...La importancia de las tecnologías de la comunicación  en el hogar, en la educ...
La importancia de las tecnologías de la comunicación en el hogar, en la educ...
 
Grupo 04: Dispersión y absorción de luz.pdf
Grupo 04: Dispersión y absorción de luz.pdfGrupo 04: Dispersión y absorción de luz.pdf
Grupo 04: Dispersión y absorción de luz.pdf
 
presentacion del scop osinergmin ppt para informacion
presentacion del scop osinergmin ppt para informacionpresentacion del scop osinergmin ppt para informacion
presentacion del scop osinergmin ppt para informacion
 
MONOGRAFIA DEL BUSCADOR YAHOO! APSTI1"A"
MONOGRAFIA DEL BUSCADOR YAHOO! APSTI1"A"MONOGRAFIA DEL BUSCADOR YAHOO! APSTI1"A"
MONOGRAFIA DEL BUSCADOR YAHOO! APSTI1"A"
 
resumen de manual de organizacion y funciones de TI
resumen de manual de organizacion y funciones de TIresumen de manual de organizacion y funciones de TI
resumen de manual de organizacion y funciones de TI
 
Resumen----_------Ejecutivo. universidad
Resumen----_------Ejecutivo. universidadResumen----_------Ejecutivo. universidad
Resumen----_------Ejecutivo. universidad
 
analisis de datos sistemas de informacion
analisis de datos sistemas de informacionanalisis de datos sistemas de informacion
analisis de datos sistemas de informacion
 

Presentacion data mining (mineria de datos)- base de datos

  • 2. Minería o exploración de datos es un campo de la ciencia de computación referido al proceso que intenta descubrir patrones en grandes volúmenes de conjuntos de datos. Utiliza los métodos de la inteligencia artificial, aprendizaje automático, estadística y sistemas de bases de datos. Introducción
  • 3. También está definido por ser el proceso de detectar patrones significativos en los datos. La minería de datos es un complemento natural al proceso de explorar y entender los datos. Los algoritmos automáticos pueden procesar cantidades de datos muy grandes y detectar patrones y tendencias que, de lo contrario, estarían ocultos.
  • 4. - Con la llegada de la era de la computación, el mundo moderno ha experimentado un crecimiento en la cantidad de información disponible sin precedentes en la historia. - Distintos proyectos pueden generar varios Terabytes de información (incluso en algunos casos, diaria). - Estas bases de datos necesitan poder organizar de manera oportuna y adecuada todos los datos almacenados en las mismas, además de facilitar el acceso a esta información para todos los usuarios y, desde un punto de vista económico / ecológico ahorrativo. Algo de historia...
  • 5. Skycat: Clasificación automática de objetos del firmamento.
  • 6. Gráficos y cifras respecto de la información y datos almacenados en las Bases de datos en aproximadamente los últimos 20 años.
  • 7.  Como anteriormente vimos los datos y el volumen de los mismos son enormes de modo que es bastante complicado poder analizar todos los datos de forma manual. Es por esta necesidad que nacen las técnicas automáticas de exploración de datos.  Los requisitos principales de estas técnicas son:  - Extracción de conocimiento en grandes bases de datos. - No triviales - Implícito - Previamente desconocido - Potencialmente útil  …Historia e inicios…
  • 8.
  • 9.
  • 10.  Es desarrollar una forma de pensar (teoría) y técnicas computacionales que permitan procesar y aprender de esta información:  1.- Reducción de dimensión.  2.- Extracción de señales (filtrar el ruido).  3.- Visualización.  4.- Aprender sobre problemas de interés (inferencia).  5.- Predecir (clasificar).  6.- Detectar anomalías.  El marco conceptual de la minería de datos es la teoría de aprendizaje estadístico. Retos de la Minería de Datos:
  • 11. - Convertir los datos en conocimiento para tomar decisiones - Extraer información de un conjunto de datos y transformarla en una estructura comprensible para su uso posterior. - Frecuentemente el término de minería de Datos es mal utilizado para referirse a cualquier forma de datos a gran escala o procesamiento de la información (recolección, extracción, almacenamiento, análisis y estadísticas). - La palabra clave de este término es el descubrimiento, comúnmente se define como "la detección de algo nuevo«. Objetivos de la Minería de Datos
  • 12.  El proceso de extracción de conocimientos en las Bases de Datos es: - Limpieza de Datos (eliminación de ruido e inconsistencias) - Integración de Datos (combinación de múltiples fuentes de datos) - Reducción / Selección de Datos (identificación de datos relevantes) - Transformación de Datos (preparación de los Datos para su análisis) - Minería de Datos (técnicas de extracción de patrones y medias de interés) - Presentación de resultados (técnicas de visualización y representación del conocimiento). KDD (Knowledge Discovery in Databases)
  • 13.
  • 14.  La principal tarea de la Minería de Datos real es el análisis automático o semi automático de grandes cantidades de datos para extraer patrones interesantes hasta ahora desconocidos, como los grupos de registros de datos (análisis clúster), registros poco usuales (la detección de anomalías) y dependencias (minería por reglas de asociación).  Los términos relacionados con la obtención de datos, la pesca de datos y espionaje de los datos se refieren a la utilización de métodos de minería de  Datos. Tareas:
  • 15.  Podemos agrupar algunas tareas mencionadas anteriormente y otras en: - Predicción: o Clasificación o Regresión - Asociación - Agrupación (clustering) …Tareas…
  • 16.  La Minería de Datos típicamente se emplea en casos como: - Predecir si un paciente va a ser hospitalizado con base en su historia clínica. - Clasificación de dígitos (códigos) escritos a mano. - Comprensión de información (imágenes). - Determinantes de una enfermedad (síntomas y posología) - Clasificación de clientes (instituciones financieras) - Detección de anomalías y fraudes (sector financiero). Problemas típicos:
  • 17.  Dependiendo de la técnica, la minería de Datos se aplica:  (técnica de carácter horizontal) - Financieras y Banca o Obtención de patrones de uso fraudulento de tarjetas de crédito o Predicción de morosidad - Análisis de mercado o Análisis de la cesta de compra o Segmentación de mercado - Seguros y salud privada o Determinación de clientes potencialmente caros. Aplicaciones de la Minería de Datos
  • 18. - Educación o Detección de abandonos - Medicina o Diagnóstico de enfermedades - Ciencia o Predecir si un compuesto químico causa cáncer o Predecir si una persona puede tener potencialmente una enfermedad a partir de su ADN. o Clasificación de los cuerpos celestes (SKYCAT) - Detección de Spam - Web o Asociación de compras en línea (AMAZON) … aplicaciones…
  • 19. - Web o Clasificación automática de páginas web para directorios - Reconocimiento de caracteres, voz, texto, etc. - Predicción de la demanda de servicios (eléctrico, agua, gas, etc).  Podemos mencionar también que existen herramientas de software que nos ayudan a desarrollar modelos de minería de datos, por ejemplo: - dVelox de APARA - KXEN - KNIME - Neural Designer - OpenNN - Orange - Powerhouse - Quiterian - RapidMiner - SAS Enterprise Miner - SPSS Clementine - R - STATISTICA Data Miner - Weka - KEEL … más aplicaciones…
  • 20. CLAVES OCULTAS EN LOS DATOS  Es poco costoso guardar datos del funcionamiento de nuestros procesos, o de nuestros sistemas de venta, o de nuestros clientes, etc., por lo que nuestras bases de datos crecen hasta límites insospechados.
  • 21. Estructuración de los datos  Para poder analizar nuestros datos con fiabilidad es necesario que exista una cierta estructuración y coherencia entre los mismos.  Diferentes tipos de datos representando el mismo concepto: un ejemplo que ha provocado uno de los mayores problemas informáticos es la representación de la fecha, donde el año se puede guardar con 2 o con 4 dígitos.  Diferentes claves para representar el mismo elemento: un mismo cliente puede ser representado por un código de cliente propio o por su NIF. La cuestión no es sencilla, y se agrava cuando los diferentes ficheros se encuentran en sistemas informáticos y soportes diferentes.
  • 22. Punto de partida  Data Mining está listo para su aplicación en la comunidad de negocios porque está soportado por tres tecnologías que ya están suficientemente maduras: 1. Recolección masiva de datos. 2. Potentes computadoras con multiprocesadores. 3. Algoritmos de Data Mining.
  • 23. Características y objetivos 1. Explorar los datos se encuentran en las profundidades de las bases de datos, como los almacenes de datos, que algunas veces contienen información almacenada durante varios años. 2. El entorno de la minería de datos suele tener una arquitectura cliente-servidor. 3. El minero es, muchas veces un usuario final con poca o ninguna habilidad de programación, facultado por barrenadoras de datos y otras poderosas herramientas indagatorias para efectuar preguntas adhoc y obtener rápidamente respuestas. 4. La minería de datos produce cinco tipos de información: 1. Asociaciones. 2. Secuencias. 3. Clasificaciones. 4. Agrupamientos. 5. Pronósticos.
  • 24. Fases de un proceso de minería de datos  El proceso de minería de datos pasa por las siguientes fases: 1. Filtrado de datos. 2. Selección de Variables. 3. Extracción de Conocimiento. 4. Interpretación y Evaluación.
  • 25.  FILTRADO DE DATOS  Mediante el preprocesado, se filtran los datos (de forma que se eliminan valores incorrectos, no válidos, desconocidos... según las necesidades y el algoritmo a usar), se obtienen muestras de los mismos (en busca de una mayor velocidad de respuesta del proceso), o se reducen el número de valores posibles (mediante redondeo, clustering,...).  SELECCIÓN DE VARIABLES  Los métodos para la selección de características son básicamente dos: 1. Aquellos basados en la elección de los mejores atributos del problema, 2. Y aquellos que buscan variables independientes mediante tests de sensibilidad, algoritmos de distancia o heurísticos.
  • 26.  ALGORITMOS DE EXTRACCIÓN DE CONOCIMIENTO  Mediante una técnica de minería de datos, se obtiene un modelo de conocimiento, que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociación entre dichas variables.  INTERPRETACIÓN Y EVALUACIÓN  Una vez obtenido el modelo, se debe proceder a su validación, comprobando que las conclusiones que arroja son válidas y suficientemente satisfactorias.  Si ninguno de los modelos alcanza los resultados esperados, debe alterarse alguno de los pasos anteriores para generar nuevos modelos.
  • 28. Las técnicas más relevantes se pueden clasificar según el tipo de problema que se estudia.  Análisis supervisado: 1. Clasificación: logístico, arboles, boosting de arboles, redes neuronales. 2. Regresión: regresión lineal, shrinkage, redes neuronales, kernels.  Análisis no supervisado: 1. Conglomerados. 2. Reglas de asociación. 3. Análisis digital
  • 29. Supongamos y ∈ 0,1. El modelo de clasificación logístico supone que: donde P(y = 1|x) es la probabilidad de que el resultado sea 1 cuando las características observadas son x. La forma de estimar β es mediante el método de máxima verosimilitud. La idea es maximizar: LOGÍSTICO
  • 30. La idea es hacer separaciones secuenciales de los datos de acuerdo a cada variable independiente. CART, BOOSTING DE ÁRBOLES
  • 31.
  • 32.  La idea es hacer separaciones secuenciales de los datos de acuerdo a cada variable independiente.  Sean R1,….., RM un conjunto de regiones.  Cada región la clasificamos como cero o uno dependiendo de la proporción de datos observados con resultado cero o uno.  Sea p(m,1) La cantidad de unos en la región m como proporción de la cantidad de observaciones en esa región.  Sea k(m) = 1 si p(m,1) > p(m,0).
  • 33.  Definimos el error de clasificación como Ahora repetimos el siguiente algoritmo. 1. Para determinar el primer nodo, la variable que hace separación es aquella que minimiza el error de clasificación. 2. En cada nodo se elige la variable (entre las que no se han usado para separar anteriormente) que minimiza el error de clasificación. 3. Se continua hasta completar M nodos.
  • 34.  Un excelente clasificador cuando se combina con boosting
  • 35. La característica principal es que permite introducir no linealidades REGRESIONE S
  • 36.  El problema es describir la distribución las variables independientes.  Permite detectar asociaciones entre variables cuando estas son poco frecuentes. Los conceptos claves son: 1. El soporte de un conjunto de variables es la probabilidad de encontrar esos valores entre los valores de las variables independientes. 2. Una regla A  B se le asigna una confianza igual a la probabilidad condicional de B dado A. Típicamente se busca un soporte bajo y una confianza alta.
  • 37. Objetivos complementarios en un problema de minería de datos. 1. Selección de modelos. 2. Evaluación de modelo. En ambientes ricos en información esto se puede operacionalizar dividiendo aleatoriamente los datos observados. PRINCIPALES TÉCNICAS
  • 41. Bases de datos relacionales Una Base de Datos Relacional, es una base de datos que cumple con el modelo relacional el cual es el modelo más utilizado en la actualidad para implementar bases de datos ya planificadas.
  • 42. Bases de datos multidimensionales  Estas bases de datos se utilizan para crear aplicaciones muy específicas, por ejemplo para crear cubos estas bases de datos se pueden representar por medio de tablas
  • 43. Bases de datos transaccionales  Un sistema transaccional debe controlar las transacciones para mantener la seguridad y consistencia de los datos involucrados. Los sistemas transaccionales automatizan tareas operáticas en una organización permitiendo ahorrar en personal.
  • 44. Evaluación de resultados  Un resultado es interesante si:  Es comprensible  Es valido con cierto grado de certeza  Es potencialmente útil  Es novedoso o sirve para validar una hipótesis
  • 45. El interés de los resultados se puede evaluar:  Objetivamente (criterios estadísticos)  Subjetivamente (perspectiva del usuario)