SlideShare una empresa de Scribd logo
1 de 24
Descargar para leer sin conexión
Minería de datos
Ruben Egiguren
18/06/2013
● Introducción
● KDD: Proceso de Extracción de conocimiento
● Procesos de un proyecto de minería de datos
● Técnicas de minería de datos
● Ciclo de un Proyecto de Minería de Datos
Índice
De donde venimos y hacia dónde
vamos
● La minería de datos (DM, Data Mining) consiste en la
extracción no trivial de información que reside de
manera implícita en los datos. Dicha información era
previamente desconocida y podrá resultar útil para
algún proceso. En otras palabras, la minería de datos
prepara, sondea y explora los datos para sacar la
información oculta en ellos.
¿Qué es la Minería de Datos?
Fuente: wikipedia
● Deducir conocimiento examinando los datos y realizando
predicciones
○ «examinar datos» examinar ejemplos de hechos conocidos
sobre «casos» utilizando sus atributos – «variables»
○ «conocimiento»: Patrones, Clusters, Reglas, Árboles de
Decisión, Redes Neuronales, Reglas de Asociación,….
● OLAP: Análisis orientado al modelo
● DM: Análisis orientado al dato
● Nombres alternativos: Análisis Predictivo
¿Qué es la Minería de Datos?
● La minería de datos (es la etapa de análisis de "Knowledge Discovery in
Databases" o KDD)
● Proceso de detectar la información procesable de los conjuntos
grandes de datos.
● Utiliza el análisis matemático para deducir los patrones y tendencias
que existen en los datos.
● Estos patrones no se pueden detectar mediante la exploración
tradicional de los datos porque las relaciones son demasiado complejas o
porque hay demasiado datos.
● Estos patrones y tendencias se pueden recopilar y definir como un
modelo de minería de datos.
¿Qué es la Minería de Datos?
KDD: Proceso de Extracción de
conocimiento
Como muestra la figura, las etapas del proceso KDD se
dividen en 5 fases y son:
1. Selección de datos
2. Preprocesamiento
3. Transformación
4. Data Mining
5. Interpretación y Evaluación
Como muestra la figura anterior, las etapas del proceso KDD se dividen en 5 fases y son:
1. Selección de datos. En esta etapa se determinan las fuentes de datos y el tipo de información
a utilizar. Es la etapa donde los datos relevantes para el análisis son extraídos desde la o las
fuentes de datos.
2. Preprocesamiento. Esta etapa consiste en la preparación y limpieza de los datos extraídos
desde las distintas fuentes de datos en una forma manejable, necesaria para las fases
posteriores. En esta etapa se utilizan diversas estrategias para manejar datos faltantes o en
blanco, datos inconsistentes o que están fuera de rango, obteniéndose al final una estructura de
datos adecuada para su posterior transformación.
3. Transformación. Consiste en el tratamiento preliminar de los datos, transformación y
generación de nuevas variables a partir de las ya existentes con una estructura de datos
apropiada. Aquí se realizan operaciones de agregación o normalización, consolidando los
datos de una forma necesaria para la fase siguiente.
4. Data Mining. Es la fase de modelamiento propiamente tal, en donde métodos inteligentes son
aplicados con el objetivo de extraer patrones previamente desconocidos, válidos, nuevos,
potencialmente útiles y comprensibles y que están contenidos u “ocultos” en los datos.
5. Interpretación y Evaluación. Se identifican los patrones obtenidos y que son realmente
interesantes, basándose en algunas medidas y se realiza una evaluación de los resultados
obtenidos.
KDD: Proceso de Extracción de
conocimiento
Un proyecto de minería de datos tiene varias fases
necesarias que son, esencialmente:
● Comprensión del negocio y del problema que se quiere
resolver.
● Determinación, obtención y limpieza de los datos
necesarios.
● Creación de modelos matemáticos.
● Validación, comunicación, etc. de los resultados
obtenidos.
● Integración, si procede, de los resultados en un
sistema transaccional o similar.
Procesos de un proyecto de minería
de datos
● La relación entre todas estas fases sólo es
lineal sobre el papel. En realidad, es mucho
más compleja y esconde toda una jerarquía
de subfases. A través de la experiencia
acumulada en proyectos de minería de
datos se han ido desarrollando
metodologías que permiten gestionar esta
complejidad de una manera más o menos
uniforme.
Procesos de un proyecto de minería
de datos
● Generación de Recomendaciones
○ ¿Qué productos o servicios deberíamos de ofrecer a nuestros
clientes?
● Detección de anomalías
○ Detección de fraude
● Análisis de Rotación
○ ¿Qué clientes son más proclives de irse a la competencia?
● Gestión de Riesgos
○ ¿Debería de concederse el crédito?
● Segmentación de clientes
○ Clasificación de nuestros clientes
● Anuncios Orientados
○ Personalización de anuncios, contenido,…
Procesos de un proyecto de minería
de datos
● Previsión
○ ¿Cuánto venderemos el próximo semestre?
● Clasificación
○ Se asigna una categoría a cada caso. Cada caso tiene un conjunto de
atributos uno de ellos es el atributo clase.
○ Se busca un modelo que describa el atributo clase como una función
de los atributos de salida
● Agrupación
○ También conocido como segmentación
○ Identifica grupos naturales basándose en un conjunto de atributos
● Asociación
○ También conocido como análisis de cesta de la compra
● Regresión
○ Similar a clasificación pero con el objetivo de buscar patrones para
determinar un valor numérico
○ Ej.: Predicción de la velocidad del viento basada en temperatura
Procesos de un proyecto de minería
de datos
Las técnicas de la minería de datos provienen
de la Inteligencia artificial y de la estadística,
dichas técnicas, no son más que algoritmos,
más o menos sofisticados que se aplican sobre
un conjunto de datos para obtener unos
resultados.
Técnicas de minería de datos
Las técnicas más representativas son
● Redes neuronales
● Árboles de decisión
● Modelos estadísticos
● Agrupamiento o Clustering
● Algoritmos supervisados (o predictivos)
● Algoritmos no supervisados (o del descubrimiento
del conocimiento)
Técnicas de minería de datos
Redes neuronales
Son un paradigma de aprendizaje y procesamiento
automático inspirado en la forma en que funciona el
sistema nervioso de los animales. Se trata de un sistema
de interconexión de neuronas en una red que colabora
para producir un estímulo de salida. Algunos ejemplos de
red neuronal son:
● El Perceptrón
● El Perceptrón multicapa.
● Los Mapas Autoorganizados, también conocidos como
redes de Kohonen.
Técnicas de minería de datos
Árboles de decisión
Un árbol de decisión es un modelo de predicción utilizado
en el ámbito de la inteligencia artificial, dada una base de
datos se construyen estos diagramas de construcciones
lógicas, muy similares a los sistemas de predicción
basados en reglas, que sirven para representar y
categorizar una serie de condiciones que suceden de
forma sucesiva, para la resolución de un problema.
Ejemplos:
● Algoritmo ID3.
● Algoritmo C4.5.
Técnicas de minería de datos
Modelos estadísticos
● Es una expresión simbólica en forma de
igualdad o ecuación que se emplea en todos
los diseños experimentales y en la regresión
para indicar los diferentes factores que
modifican la variable de respuesta.
Técnicas de minería de datos
Agrupamiento o Clustering
Es un procedimiento de agrupación de una serie de
vectores según criterios habitualmente de distancia; se
tratará de disponer los vectores de entrada de forma que
estén más cercanos aquellos que tengan características
comunes.
Ejemplos:
● Algoritmo K-means.
● Algoritmo K-medoids.
Técnicas de minería de datos
Según el objetivo del análisis de los datos, los
algoritmos utilizados se clasifican en supervisados y
no supervisados (Weiss y Indurkhya, 1998):
● Algoritmos supervisados (o predictivos)
○ Predicen un dato (o un conjunto de ellos)
desconocido a priori, a partir de otros conocidos.
● Algoritmos no supervisados (o del descubrimiento del
conocimiento)
○ Se descubren patrones y tendencias en los datos.
Técnicas de minería de datos
Técnicas de minería de datos
Ejemplo
Comprador potencial de bicis:
Provincia Ciudad Edad Coche Distancia trabajo Bici
Ciclo de un Proyecto de Minería de
Datos
Muchas gracias por
vuestra atención
● dVelox
● KXEN
● KNIME
● Orange
● Powerhouse
● Quiterian
● RapidMiner
● R
● SPSS Clementine
● SAS Enterprise Miner
● STATISTICA Data Miner
● KEEL
● mahout
● Weka
Algunas herramientas
Referencias
● http://www.slideshare.net/antoniosql/minera-de-datos
● http://msdn.microsoft.com/es-es/library/ms174949.aspx
● http://es.wikipedia.org/wiki/Miner%C3%ADa_de_datos
● http://www.slideshare.net/04071977/mineria-de-datos
● http://mahout.apache.org/
● https://www.youtube.com/watch?v=43mS9M1ZjU8

Más contenido relacionado

La actualidad más candente

Métodos predictivos y Descriptivos - MINERÍA DE DATOS
Métodos predictivos y Descriptivos - MINERÍA DE DATOSMétodos predictivos y Descriptivos - MINERÍA DE DATOS
Métodos predictivos y Descriptivos - MINERÍA DE DATOSlalopg
 
Sistema de apoyo a la toma de decisiones
Sistema de apoyo a la toma de decisionesSistema de apoyo a la toma de decisiones
Sistema de apoyo a la toma de decisionesJavierMartinez702
 
La minería de datos en el proceso de KDD
La minería de datos en el proceso de KDD La minería de datos en el proceso de KDD
La minería de datos en el proceso de KDD travon1
 
NoSQL bases de datos no relacionales
NoSQL bases de datos no relacionalesNoSQL bases de datos no relacionales
NoSQL bases de datos no relacionalesAndrés Londoño
 
Introducción al Big Data
Introducción al Big DataIntroducción al Big Data
Introducción al Big DataDavid Alayón
 
Apache Cassandra
Apache CassandraApache Cassandra
Apache CassandraLuis Ojeda
 
mongoDB - Arquitectura y Componentes
mongoDB - Arquitectura y ComponentesmongoDB - Arquitectura y Componentes
mongoDB - Arquitectura y Componentesomenar
 
Bigdata trabajo de investigacion
Bigdata trabajo de investigacion Bigdata trabajo de investigacion
Bigdata trabajo de investigacion Ris Fernandez
 
Tipos de Modelos de Datos : Ventajas y Desventajas
Tipos de Modelos de Datos : Ventajas y DesventajasTipos de Modelos de Datos : Ventajas y Desventajas
Tipos de Modelos de Datos : Ventajas y DesventajasJuanMiguelCustodioMo
 
Técnicas de minería de datos
Técnicas de minería de datosTécnicas de minería de datos
Técnicas de minería de datosBryan Barragan
 
Ciclo de vida de un sistema de información
Ciclo de vida de un sistema de informaciónCiclo de vida de un sistema de información
Ciclo de vida de un sistema de informaciónSandra Moncayo
 
Mapa Conceptual del Concepto de BigData
Mapa Conceptual del Concepto de BigDataMapa Conceptual del Concepto de BigData
Mapa Conceptual del Concepto de BigDataJosé Rosales
 
Educación y datos masivos (Big Data)
Educación y datos masivos (Big Data)Educación y datos masivos (Big Data)
Educación y datos masivos (Big Data)Fernando Santamaría
 
DATAWAREHOUSE
DATAWAREHOUSEDATAWAREHOUSE
DATAWAREHOUSEnestor
 

La actualidad más candente (20)

Métodos predictivos y Descriptivos - MINERÍA DE DATOS
Métodos predictivos y Descriptivos - MINERÍA DE DATOSMétodos predictivos y Descriptivos - MINERÍA DE DATOS
Métodos predictivos y Descriptivos - MINERÍA DE DATOS
 
Big data presentación
Big data presentaciónBig data presentación
Big data presentación
 
MongoDB: la BBDD NoSQL más popular del mercado
MongoDB: la BBDD NoSQL más popular del mercadoMongoDB: la BBDD NoSQL más popular del mercado
MongoDB: la BBDD NoSQL más popular del mercado
 
Sistema de apoyo a la toma de decisiones
Sistema de apoyo a la toma de decisionesSistema de apoyo a la toma de decisiones
Sistema de apoyo a la toma de decisiones
 
Bases de Datos No Relacionales (NoSQL): Cassandra, CouchDB, MongoDB y Neo4j
Bases de Datos No Relacionales (NoSQL): Cassandra, CouchDB, MongoDB y Neo4jBases de Datos No Relacionales (NoSQL): Cassandra, CouchDB, MongoDB y Neo4j
Bases de Datos No Relacionales (NoSQL): Cassandra, CouchDB, MongoDB y Neo4j
 
Data mart
Data martData mart
Data mart
 
La minería de datos en el proceso de KDD
La minería de datos en el proceso de KDD La minería de datos en el proceso de KDD
La minería de datos en el proceso de KDD
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
ETL
ETLETL
ETL
 
NoSQL bases de datos no relacionales
NoSQL bases de datos no relacionalesNoSQL bases de datos no relacionales
NoSQL bases de datos no relacionales
 
Introducción al Big Data
Introducción al Big DataIntroducción al Big Data
Introducción al Big Data
 
Apache Cassandra
Apache CassandraApache Cassandra
Apache Cassandra
 
mongoDB - Arquitectura y Componentes
mongoDB - Arquitectura y ComponentesmongoDB - Arquitectura y Componentes
mongoDB - Arquitectura y Componentes
 
Bigdata trabajo de investigacion
Bigdata trabajo de investigacion Bigdata trabajo de investigacion
Bigdata trabajo de investigacion
 
Tipos de Modelos de Datos : Ventajas y Desventajas
Tipos de Modelos de Datos : Ventajas y DesventajasTipos de Modelos de Datos : Ventajas y Desventajas
Tipos de Modelos de Datos : Ventajas y Desventajas
 
Técnicas de minería de datos
Técnicas de minería de datosTécnicas de minería de datos
Técnicas de minería de datos
 
Ciclo de vida de un sistema de información
Ciclo de vida de un sistema de informaciónCiclo de vida de un sistema de información
Ciclo de vida de un sistema de información
 
Mapa Conceptual del Concepto de BigData
Mapa Conceptual del Concepto de BigDataMapa Conceptual del Concepto de BigData
Mapa Conceptual del Concepto de BigData
 
Educación y datos masivos (Big Data)
Educación y datos masivos (Big Data)Educación y datos masivos (Big Data)
Educación y datos masivos (Big Data)
 
DATAWAREHOUSE
DATAWAREHOUSEDATAWAREHOUSE
DATAWAREHOUSE
 

Destacado (18)

Mapa conceptual mineria de datos 1
Mapa conceptual mineria de datos 1Mapa conceptual mineria de datos 1
Mapa conceptual mineria de datos 1
 
Minería de datos
Minería de datosMinería de datos
Minería de datos
 
Minería de datos en redes sociales
Minería de datos en redes socialesMinería de datos en redes sociales
Minería de datos en redes sociales
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
mineria de datos
mineria de datosmineria de datos
mineria de datos
 
Make Growth Happen for all Employees
Make Growth Happen for all EmployeesMake Growth Happen for all Employees
Make Growth Happen for all Employees
 
Minería de datos
Minería de datosMinería de datos
Minería de datos
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Minería de datos y kdd
Minería de datos y kddMinería de datos y kdd
Minería de datos y kdd
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Diapositivas
DiapositivasDiapositivas
Diapositivas
 
Minería de datos Presentación
Minería de datos PresentaciónMinería de datos Presentación
Minería de datos Presentación
 
Minería de datos
Minería de datosMinería de datos
Minería de datos
 
MIneria de datos
MIneria de datosMIneria de datos
MIneria de datos
 
Mineria De Datos
Mineria De DatosMineria De Datos
Mineria De Datos
 
mineria de datos
mineria de datosmineria de datos
mineria de datos
 

Similar a Minería de datos (20)

Data Mining Parte 1.pptx
Data Mining Parte 1.pptxData Mining Parte 1.pptx
Data Mining Parte 1.pptx
 
Tecnicas de minería de datos
Tecnicas de minería de datosTecnicas de minería de datos
Tecnicas de minería de datos
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Parte1
Parte1Parte1
Parte1
 
Data science. todo lo que necesitas saber
Data science. todo lo que necesitas saberData science. todo lo que necesitas saber
Data science. todo lo que necesitas saber
 
Data mining
Data miningData mining
Data mining
 
Data mining
Data miningData mining
Data mining
 
Data mining
Data miningData mining
Data mining
 
Data mining
Data miningData mining
Data mining
 
Data mining
Data miningData mining
Data mining
 
Exposicion mineria de datos - Franklin Rodríguez
Exposicion mineria de datos - Franklin Rodríguez Exposicion mineria de datos - Franklin Rodríguez
Exposicion mineria de datos - Franklin Rodríguez
 
Introduccin_a_la_Minera_de_Datos_M_cc_v2.pptx
Introduccin_a_la_Minera_de_Datos_M_cc_v2.pptxIntroduccin_a_la_Minera_de_Datos_M_cc_v2.pptx
Introduccin_a_la_Minera_de_Datos_M_cc_v2.pptx
 
Electiva iii parcial 2 - 02-minería de datos
Electiva iii   parcial 2 - 02-minería de datosElectiva iii   parcial 2 - 02-minería de datos
Electiva iii parcial 2 - 02-minería de datos
 
Mineria y modelado de datos
Mineria y modelado de datosMineria y modelado de datos
Mineria y modelado de datos
 
Mineria de datos ok
Mineria de datos okMineria de datos ok
Mineria de datos ok
 
Mineria de datos secuenciales
Mineria de datos secuencialesMineria de datos secuenciales
Mineria de datos secuenciales
 
SEMANA4_APUNTE_S4.pdf
SEMANA4_APUNTE_S4.pdfSEMANA4_APUNTE_S4.pdf
SEMANA4_APUNTE_S4.pdf
 
La Minería de Datos en la Analítica Predictiva
La Minería de Datos en la Analítica PredictivaLa Minería de Datos en la Analítica Predictiva
La Minería de Datos en la Analítica Predictiva
 
Mineria de datos ensayo
Mineria de datos ensayoMineria de datos ensayo
Mineria de datos ensayo
 
Mineria de Datos Dialnet.pdf
Mineria de Datos Dialnet.pdfMineria de Datos Dialnet.pdf
Mineria de Datos Dialnet.pdf
 

Más de Keopx

[DrupalCampSpain2023] Introducción al desarrollo de módulos en Drupal 10
[DrupalCampSpain2023] Introducción al desarrollo de módulos en Drupal 10[DrupalCampSpain2023] Introducción al desarrollo de módulos en Drupal 10
[DrupalCampSpain2023] Introducción al desarrollo de módulos en Drupal 10Keopx
 
[DrupalCampSpain2022] Introducción al desarrollo de módulos en Drupal 9
[DrupalCampSpain2022] Introducción al desarrollo de módulos en Drupal 9[DrupalCampSpain2022] Introducción al desarrollo de módulos en Drupal 9
[DrupalCampSpain2022] Introducción al desarrollo de módulos en Drupal 9Keopx
 
Fucking copyright
Fucking copyrightFucking copyright
Fucking copyrightKeopx
 
Segurtasuna sarean
Segurtasuna sareanSegurtasuna sarean
Segurtasuna sareanKeopx
 
[DrupalCampSpain2018] CircleCI
[DrupalCampSpain2018] CircleCI[DrupalCampSpain2018] CircleCI
[DrupalCampSpain2018] CircleCIKeopx
 
[DrupalCampSpain2018] Trabajando en remoto
[DrupalCampSpain2018] Trabajando en remoto[DrupalCampSpain2018] Trabajando en remoto
[DrupalCampSpain2018] Trabajando en remotoKeopx
 
[DrupalCampSpain2018] Contribuir a Drupal
[DrupalCampSpain2018] Contribuir a Drupal[DrupalCampSpain2018] Contribuir a Drupal
[DrupalCampSpain2018] Contribuir a DrupalKeopx
 
DrupalDay Bilbao 2014: Publica tu proyecto en drupal.org
DrupalDay Bilbao 2014: Publica tu proyecto en drupal.orgDrupalDay Bilbao 2014: Publica tu proyecto en drupal.org
DrupalDay Bilbao 2014: Publica tu proyecto en drupal.orgKeopx
 
El poder de webform (antes yaml form)
El poder de webform (antes yaml form)El poder de webform (antes yaml form)
El poder de webform (antes yaml form)Keopx
 
Docker - Entorno de trabajo configurado en 1 minuto [WCBilbao]
Docker - Entorno de trabajo configurado en 1 minuto [WCBilbao]Docker - Entorno de trabajo configurado en 1 minuto [WCBilbao]
Docker - Entorno de trabajo configurado en 1 minuto [WCBilbao]Keopx
 
[Drupal campspain2017] Contribuir a Drupal, de 0 a 100
[Drupal campspain2017] Contribuir a Drupal, de 0 a 100[Drupal campspain2017] Contribuir a Drupal, de 0 a 100
[Drupal campspain2017] Contribuir a Drupal, de 0 a 100Keopx
 
Contribuir a Drupal
Contribuir a DrupalContribuir a Drupal
Contribuir a DrupalKeopx
 
Contribuir a Drupal - Entorno
Contribuir a Drupal - EntornoContribuir a Drupal - Entorno
Contribuir a Drupal - EntornoKeopx
 
Uso practico de git
Uso practico de gitUso practico de git
Uso practico de gitKeopx
 
WorkShop: Introducción a GIT
WorkShop: Introducción a GITWorkShop: Introducción a GIT
WorkShop: Introducción a GITKeopx
 
Drupal 8 WorkShop - e-Ghost 2015
Drupal 8 WorkShop - e-Ghost 2015  Drupal 8 WorkShop - e-Ghost 2015
Drupal 8 WorkShop - e-Ghost 2015 Keopx
 
Drupal 8 WorkShop
Drupal 8 WorkShopDrupal 8 WorkShop
Drupal 8 WorkShopKeopx
 
Herramientas de trabajo para entorno LAMP
Herramientas de trabajo para entorno LAMPHerramientas de trabajo para entorno LAMP
Herramientas de trabajo para entorno LAMPKeopx
 
Drupal Day Bilbao 2014 - Sesión de cierre
Drupal Day Bilbao 2014 - Sesión de cierreDrupal Day Bilbao 2014 - Sesión de cierre
Drupal Day Bilbao 2014 - Sesión de cierreKeopx
 
Drupal Day Bilbao 2014 - Sesión de apertura
Drupal Day Bilbao 2014 - Sesión de aperturaDrupal Day Bilbao 2014 - Sesión de apertura
Drupal Day Bilbao 2014 - Sesión de aperturaKeopx
 

Más de Keopx (20)

[DrupalCampSpain2023] Introducción al desarrollo de módulos en Drupal 10
[DrupalCampSpain2023] Introducción al desarrollo de módulos en Drupal 10[DrupalCampSpain2023] Introducción al desarrollo de módulos en Drupal 10
[DrupalCampSpain2023] Introducción al desarrollo de módulos en Drupal 10
 
[DrupalCampSpain2022] Introducción al desarrollo de módulos en Drupal 9
[DrupalCampSpain2022] Introducción al desarrollo de módulos en Drupal 9[DrupalCampSpain2022] Introducción al desarrollo de módulos en Drupal 9
[DrupalCampSpain2022] Introducción al desarrollo de módulos en Drupal 9
 
Fucking copyright
Fucking copyrightFucking copyright
Fucking copyright
 
Segurtasuna sarean
Segurtasuna sareanSegurtasuna sarean
Segurtasuna sarean
 
[DrupalCampSpain2018] CircleCI
[DrupalCampSpain2018] CircleCI[DrupalCampSpain2018] CircleCI
[DrupalCampSpain2018] CircleCI
 
[DrupalCampSpain2018] Trabajando en remoto
[DrupalCampSpain2018] Trabajando en remoto[DrupalCampSpain2018] Trabajando en remoto
[DrupalCampSpain2018] Trabajando en remoto
 
[DrupalCampSpain2018] Contribuir a Drupal
[DrupalCampSpain2018] Contribuir a Drupal[DrupalCampSpain2018] Contribuir a Drupal
[DrupalCampSpain2018] Contribuir a Drupal
 
DrupalDay Bilbao 2014: Publica tu proyecto en drupal.org
DrupalDay Bilbao 2014: Publica tu proyecto en drupal.orgDrupalDay Bilbao 2014: Publica tu proyecto en drupal.org
DrupalDay Bilbao 2014: Publica tu proyecto en drupal.org
 
El poder de webform (antes yaml form)
El poder de webform (antes yaml form)El poder de webform (antes yaml form)
El poder de webform (antes yaml form)
 
Docker - Entorno de trabajo configurado en 1 minuto [WCBilbao]
Docker - Entorno de trabajo configurado en 1 minuto [WCBilbao]Docker - Entorno de trabajo configurado en 1 minuto [WCBilbao]
Docker - Entorno de trabajo configurado en 1 minuto [WCBilbao]
 
[Drupal campspain2017] Contribuir a Drupal, de 0 a 100
[Drupal campspain2017] Contribuir a Drupal, de 0 a 100[Drupal campspain2017] Contribuir a Drupal, de 0 a 100
[Drupal campspain2017] Contribuir a Drupal, de 0 a 100
 
Contribuir a Drupal
Contribuir a DrupalContribuir a Drupal
Contribuir a Drupal
 
Contribuir a Drupal - Entorno
Contribuir a Drupal - EntornoContribuir a Drupal - Entorno
Contribuir a Drupal - Entorno
 
Uso practico de git
Uso practico de gitUso practico de git
Uso practico de git
 
WorkShop: Introducción a GIT
WorkShop: Introducción a GITWorkShop: Introducción a GIT
WorkShop: Introducción a GIT
 
Drupal 8 WorkShop - e-Ghost 2015
Drupal 8 WorkShop - e-Ghost 2015  Drupal 8 WorkShop - e-Ghost 2015
Drupal 8 WorkShop - e-Ghost 2015
 
Drupal 8 WorkShop
Drupal 8 WorkShopDrupal 8 WorkShop
Drupal 8 WorkShop
 
Herramientas de trabajo para entorno LAMP
Herramientas de trabajo para entorno LAMPHerramientas de trabajo para entorno LAMP
Herramientas de trabajo para entorno LAMP
 
Drupal Day Bilbao 2014 - Sesión de cierre
Drupal Day Bilbao 2014 - Sesión de cierreDrupal Day Bilbao 2014 - Sesión de cierre
Drupal Day Bilbao 2014 - Sesión de cierre
 
Drupal Day Bilbao 2014 - Sesión de apertura
Drupal Day Bilbao 2014 - Sesión de aperturaDrupal Day Bilbao 2014 - Sesión de apertura
Drupal Day Bilbao 2014 - Sesión de apertura
 

Último

Tipos de Educacion en diferentes partes del mundo.pptx
Tipos de Educacion en diferentes partes del mundo.pptxTipos de Educacion en diferentes partes del mundo.pptx
Tipos de Educacion en diferentes partes del mundo.pptxMiguelPerz4
 
Novelas Turcas vs Series de EUA en audiencia (2024).pdf
Novelas Turcas vs Series de EUA en audiencia  (2024).pdfNovelas Turcas vs Series de EUA en audiencia  (2024).pdf
Novelas Turcas vs Series de EUA en audiencia (2024).pdfJC Díaz Herrera
 
Triptico-del-Bullying qué es, cómo detectarlo, donde acudir
Triptico-del-Bullying qué es, cómo detectarlo, donde acudirTriptico-del-Bullying qué es, cómo detectarlo, donde acudir
Triptico-del-Bullying qué es, cómo detectarlo, donde acudirluis809799
 
Alfredo Gabriel Rodriguez Yajure Tarea#1
Alfredo Gabriel Rodriguez Yajure Tarea#1Alfredo Gabriel Rodriguez Yajure Tarea#1
Alfredo Gabriel Rodriguez Yajure Tarea#1alfredo130306
 
metodo SOAP utilizado para evaluar el estado de un paciente
metodo SOAP utilizado para evaluar el estado de un pacientemetodo SOAP utilizado para evaluar el estado de un paciente
metodo SOAP utilizado para evaluar el estado de un pacienteMedicinaInternaresid1
 
Posiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdf
Posiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdfPosiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdf
Posiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdfJC Díaz Herrera
 
Los países por porcentaje de población blanca europea en AL (2024).pdf
Los países por porcentaje de población blanca europea en AL (2024).pdfLos países por porcentaje de población blanca europea en AL (2024).pdf
Los países por porcentaje de población blanca europea en AL (2024).pdfJC Díaz Herrera
 
Análisis del Modo y Efecto de Fallas AMEF.ppt
Análisis del Modo y Efecto de Fallas AMEF.pptAnálisis del Modo y Efecto de Fallas AMEF.ppt
Análisis del Modo y Efecto de Fallas AMEF.pptProduvisaCursos
 
llllllllllllllllllllllllllllllllllllllllllllllllllllllllll
llllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllll
llllllllllllllllllllllllllllllllllllllllllllllllllllllllllJulietaCarbajalOsis
 
Posiciones del IDH a nivel global en México (1982-2024).pdf
Posiciones del IDH a nivel global en México (1982-2024).pdfPosiciones del IDH a nivel global en México (1982-2024).pdf
Posiciones del IDH a nivel global en México (1982-2024).pdfJC Díaz Herrera
 
EPIDEMIO CANCER PULMON resumen nnn.pptx
EPIDEMIO CANCER PULMON  resumen nnn.pptxEPIDEMIO CANCER PULMON  resumen nnn.pptx
EPIDEMIO CANCER PULMON resumen nnn.pptxJEFFERSONMEDRANOCHAV
 
Las familias más ricas del sionismo en el siglo XXI.pdf
Las familias más ricas del sionismo en el siglo XXI.pdfLas familias más ricas del sionismo en el siglo XXI.pdf
Las familias más ricas del sionismo en el siglo XXI.pdfJC Díaz Herrera
 
ETICA EN LA CADENAS la cadena de suministro
ETICA EN LA CADENAS la cadena de suministroETICA EN LA CADENAS la cadena de suministro
ETICA EN LA CADENAS la cadena de suministroIrisMoreno27
 
Panorama Sociodemográfico de México 2020: GUANAJUATO
Panorama Sociodemográfico de México 2020: GUANAJUATOPanorama Sociodemográfico de México 2020: GUANAJUATO
Panorama Sociodemográfico de México 2020: GUANAJUATOJuan Carlos Fonseca Mata
 
Conversacion.pptx en guarani boliviano latino
Conversacion.pptx en guarani boliviano latinoConversacion.pptx en guarani boliviano latino
Conversacion.pptx en guarani boliviano latinoBESTTech1
 
PLAN ANUAL DE PROYECTO 2020. para mejorar
PLAN ANUAL DE PROYECTO 2020. para mejorarPLAN ANUAL DE PROYECTO 2020. para mejorar
PLAN ANUAL DE PROYECTO 2020. para mejorarCelesteRolon2
 
Trabajo Final de Powerbi DMC Indicadores.pptx
Trabajo Final de Powerbi DMC Indicadores.pptxTrabajo Final de Powerbi DMC Indicadores.pptx
Trabajo Final de Powerbi DMC Indicadores.pptxlleonm
 
Letra de cambio definición y características.ppt
Letra de cambio definición y características.pptLetra de cambio definición y características.ppt
Letra de cambio definición y características.pptssuserbdc329
 
diseño de una linea de produccion de jabon liquido.pptx
diseño de una linea de produccion de jabon liquido.pptxdiseño de una linea de produccion de jabon liquido.pptx
diseño de una linea de produccion de jabon liquido.pptxHhJhv
 
Investigacion cualitativa y cuantitativa....pdf
Investigacion cualitativa y cuantitativa....pdfInvestigacion cualitativa y cuantitativa....pdf
Investigacion cualitativa y cuantitativa....pdfalexanderleonyonange
 

Último (20)

Tipos de Educacion en diferentes partes del mundo.pptx
Tipos de Educacion en diferentes partes del mundo.pptxTipos de Educacion en diferentes partes del mundo.pptx
Tipos de Educacion en diferentes partes del mundo.pptx
 
Novelas Turcas vs Series de EUA en audiencia (2024).pdf
Novelas Turcas vs Series de EUA en audiencia  (2024).pdfNovelas Turcas vs Series de EUA en audiencia  (2024).pdf
Novelas Turcas vs Series de EUA en audiencia (2024).pdf
 
Triptico-del-Bullying qué es, cómo detectarlo, donde acudir
Triptico-del-Bullying qué es, cómo detectarlo, donde acudirTriptico-del-Bullying qué es, cómo detectarlo, donde acudir
Triptico-del-Bullying qué es, cómo detectarlo, donde acudir
 
Alfredo Gabriel Rodriguez Yajure Tarea#1
Alfredo Gabriel Rodriguez Yajure Tarea#1Alfredo Gabriel Rodriguez Yajure Tarea#1
Alfredo Gabriel Rodriguez Yajure Tarea#1
 
metodo SOAP utilizado para evaluar el estado de un paciente
metodo SOAP utilizado para evaluar el estado de un pacientemetodo SOAP utilizado para evaluar el estado de un paciente
metodo SOAP utilizado para evaluar el estado de un paciente
 
Posiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdf
Posiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdfPosiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdf
Posiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdf
 
Los países por porcentaje de población blanca europea en AL (2024).pdf
Los países por porcentaje de población blanca europea en AL (2024).pdfLos países por porcentaje de población blanca europea en AL (2024).pdf
Los países por porcentaje de población blanca europea en AL (2024).pdf
 
Análisis del Modo y Efecto de Fallas AMEF.ppt
Análisis del Modo y Efecto de Fallas AMEF.pptAnálisis del Modo y Efecto de Fallas AMEF.ppt
Análisis del Modo y Efecto de Fallas AMEF.ppt
 
llllllllllllllllllllllllllllllllllllllllllllllllllllllllll
llllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllll
llllllllllllllllllllllllllllllllllllllllllllllllllllllllll
 
Posiciones del IDH a nivel global en México (1982-2024).pdf
Posiciones del IDH a nivel global en México (1982-2024).pdfPosiciones del IDH a nivel global en México (1982-2024).pdf
Posiciones del IDH a nivel global en México (1982-2024).pdf
 
EPIDEMIO CANCER PULMON resumen nnn.pptx
EPIDEMIO CANCER PULMON  resumen nnn.pptxEPIDEMIO CANCER PULMON  resumen nnn.pptx
EPIDEMIO CANCER PULMON resumen nnn.pptx
 
Las familias más ricas del sionismo en el siglo XXI.pdf
Las familias más ricas del sionismo en el siglo XXI.pdfLas familias más ricas del sionismo en el siglo XXI.pdf
Las familias más ricas del sionismo en el siglo XXI.pdf
 
ETICA EN LA CADENAS la cadena de suministro
ETICA EN LA CADENAS la cadena de suministroETICA EN LA CADENAS la cadena de suministro
ETICA EN LA CADENAS la cadena de suministro
 
Panorama Sociodemográfico de México 2020: GUANAJUATO
Panorama Sociodemográfico de México 2020: GUANAJUATOPanorama Sociodemográfico de México 2020: GUANAJUATO
Panorama Sociodemográfico de México 2020: GUANAJUATO
 
Conversacion.pptx en guarani boliviano latino
Conversacion.pptx en guarani boliviano latinoConversacion.pptx en guarani boliviano latino
Conversacion.pptx en guarani boliviano latino
 
PLAN ANUAL DE PROYECTO 2020. para mejorar
PLAN ANUAL DE PROYECTO 2020. para mejorarPLAN ANUAL DE PROYECTO 2020. para mejorar
PLAN ANUAL DE PROYECTO 2020. para mejorar
 
Trabajo Final de Powerbi DMC Indicadores.pptx
Trabajo Final de Powerbi DMC Indicadores.pptxTrabajo Final de Powerbi DMC Indicadores.pptx
Trabajo Final de Powerbi DMC Indicadores.pptx
 
Letra de cambio definición y características.ppt
Letra de cambio definición y características.pptLetra de cambio definición y características.ppt
Letra de cambio definición y características.ppt
 
diseño de una linea de produccion de jabon liquido.pptx
diseño de una linea de produccion de jabon liquido.pptxdiseño de una linea de produccion de jabon liquido.pptx
diseño de una linea de produccion de jabon liquido.pptx
 
Investigacion cualitativa y cuantitativa....pdf
Investigacion cualitativa y cuantitativa....pdfInvestigacion cualitativa y cuantitativa....pdf
Investigacion cualitativa y cuantitativa....pdf
 

Minería de datos

  • 1. Minería de datos Ruben Egiguren 18/06/2013
  • 2. ● Introducción ● KDD: Proceso de Extracción de conocimiento ● Procesos de un proyecto de minería de datos ● Técnicas de minería de datos ● Ciclo de un Proyecto de Minería de Datos Índice
  • 3. De donde venimos y hacia dónde vamos
  • 4. ● La minería de datos (DM, Data Mining) consiste en la extracción no trivial de información que reside de manera implícita en los datos. Dicha información era previamente desconocida y podrá resultar útil para algún proceso. En otras palabras, la minería de datos prepara, sondea y explora los datos para sacar la información oculta en ellos. ¿Qué es la Minería de Datos? Fuente: wikipedia
  • 5. ● Deducir conocimiento examinando los datos y realizando predicciones ○ «examinar datos» examinar ejemplos de hechos conocidos sobre «casos» utilizando sus atributos – «variables» ○ «conocimiento»: Patrones, Clusters, Reglas, Árboles de Decisión, Redes Neuronales, Reglas de Asociación,…. ● OLAP: Análisis orientado al modelo ● DM: Análisis orientado al dato ● Nombres alternativos: Análisis Predictivo ¿Qué es la Minería de Datos?
  • 6. ● La minería de datos (es la etapa de análisis de "Knowledge Discovery in Databases" o KDD) ● Proceso de detectar la información procesable de los conjuntos grandes de datos. ● Utiliza el análisis matemático para deducir los patrones y tendencias que existen en los datos. ● Estos patrones no se pueden detectar mediante la exploración tradicional de los datos porque las relaciones son demasiado complejas o porque hay demasiado datos. ● Estos patrones y tendencias se pueden recopilar y definir como un modelo de minería de datos. ¿Qué es la Minería de Datos?
  • 7. KDD: Proceso de Extracción de conocimiento Como muestra la figura, las etapas del proceso KDD se dividen en 5 fases y son: 1. Selección de datos 2. Preprocesamiento 3. Transformación 4. Data Mining 5. Interpretación y Evaluación
  • 8. Como muestra la figura anterior, las etapas del proceso KDD se dividen en 5 fases y son: 1. Selección de datos. En esta etapa se determinan las fuentes de datos y el tipo de información a utilizar. Es la etapa donde los datos relevantes para el análisis son extraídos desde la o las fuentes de datos. 2. Preprocesamiento. Esta etapa consiste en la preparación y limpieza de los datos extraídos desde las distintas fuentes de datos en una forma manejable, necesaria para las fases posteriores. En esta etapa se utilizan diversas estrategias para manejar datos faltantes o en blanco, datos inconsistentes o que están fuera de rango, obteniéndose al final una estructura de datos adecuada para su posterior transformación. 3. Transformación. Consiste en el tratamiento preliminar de los datos, transformación y generación de nuevas variables a partir de las ya existentes con una estructura de datos apropiada. Aquí se realizan operaciones de agregación o normalización, consolidando los datos de una forma necesaria para la fase siguiente. 4. Data Mining. Es la fase de modelamiento propiamente tal, en donde métodos inteligentes son aplicados con el objetivo de extraer patrones previamente desconocidos, válidos, nuevos, potencialmente útiles y comprensibles y que están contenidos u “ocultos” en los datos. 5. Interpretación y Evaluación. Se identifican los patrones obtenidos y que son realmente interesantes, basándose en algunas medidas y se realiza una evaluación de los resultados obtenidos. KDD: Proceso de Extracción de conocimiento
  • 9. Un proyecto de minería de datos tiene varias fases necesarias que son, esencialmente: ● Comprensión del negocio y del problema que se quiere resolver. ● Determinación, obtención y limpieza de los datos necesarios. ● Creación de modelos matemáticos. ● Validación, comunicación, etc. de los resultados obtenidos. ● Integración, si procede, de los resultados en un sistema transaccional o similar. Procesos de un proyecto de minería de datos
  • 10. ● La relación entre todas estas fases sólo es lineal sobre el papel. En realidad, es mucho más compleja y esconde toda una jerarquía de subfases. A través de la experiencia acumulada en proyectos de minería de datos se han ido desarrollando metodologías que permiten gestionar esta complejidad de una manera más o menos uniforme. Procesos de un proyecto de minería de datos
  • 11. ● Generación de Recomendaciones ○ ¿Qué productos o servicios deberíamos de ofrecer a nuestros clientes? ● Detección de anomalías ○ Detección de fraude ● Análisis de Rotación ○ ¿Qué clientes son más proclives de irse a la competencia? ● Gestión de Riesgos ○ ¿Debería de concederse el crédito? ● Segmentación de clientes ○ Clasificación de nuestros clientes ● Anuncios Orientados ○ Personalización de anuncios, contenido,… Procesos de un proyecto de minería de datos
  • 12. ● Previsión ○ ¿Cuánto venderemos el próximo semestre? ● Clasificación ○ Se asigna una categoría a cada caso. Cada caso tiene un conjunto de atributos uno de ellos es el atributo clase. ○ Se busca un modelo que describa el atributo clase como una función de los atributos de salida ● Agrupación ○ También conocido como segmentación ○ Identifica grupos naturales basándose en un conjunto de atributos ● Asociación ○ También conocido como análisis de cesta de la compra ● Regresión ○ Similar a clasificación pero con el objetivo de buscar patrones para determinar un valor numérico ○ Ej.: Predicción de la velocidad del viento basada en temperatura Procesos de un proyecto de minería de datos
  • 13. Las técnicas de la minería de datos provienen de la Inteligencia artificial y de la estadística, dichas técnicas, no son más que algoritmos, más o menos sofisticados que se aplican sobre un conjunto de datos para obtener unos resultados. Técnicas de minería de datos
  • 14. Las técnicas más representativas son ● Redes neuronales ● Árboles de decisión ● Modelos estadísticos ● Agrupamiento o Clustering ● Algoritmos supervisados (o predictivos) ● Algoritmos no supervisados (o del descubrimiento del conocimiento) Técnicas de minería de datos
  • 15. Redes neuronales Son un paradigma de aprendizaje y procesamiento automático inspirado en la forma en que funciona el sistema nervioso de los animales. Se trata de un sistema de interconexión de neuronas en una red que colabora para producir un estímulo de salida. Algunos ejemplos de red neuronal son: ● El Perceptrón ● El Perceptrón multicapa. ● Los Mapas Autoorganizados, también conocidos como redes de Kohonen. Técnicas de minería de datos
  • 16. Árboles de decisión Un árbol de decisión es un modelo de predicción utilizado en el ámbito de la inteligencia artificial, dada una base de datos se construyen estos diagramas de construcciones lógicas, muy similares a los sistemas de predicción basados en reglas, que sirven para representar y categorizar una serie de condiciones que suceden de forma sucesiva, para la resolución de un problema. Ejemplos: ● Algoritmo ID3. ● Algoritmo C4.5. Técnicas de minería de datos
  • 17. Modelos estadísticos ● Es una expresión simbólica en forma de igualdad o ecuación que se emplea en todos los diseños experimentales y en la regresión para indicar los diferentes factores que modifican la variable de respuesta. Técnicas de minería de datos
  • 18. Agrupamiento o Clustering Es un procedimiento de agrupación de una serie de vectores según criterios habitualmente de distancia; se tratará de disponer los vectores de entrada de forma que estén más cercanos aquellos que tengan características comunes. Ejemplos: ● Algoritmo K-means. ● Algoritmo K-medoids. Técnicas de minería de datos
  • 19. Según el objetivo del análisis de los datos, los algoritmos utilizados se clasifican en supervisados y no supervisados (Weiss y Indurkhya, 1998): ● Algoritmos supervisados (o predictivos) ○ Predicen un dato (o un conjunto de ellos) desconocido a priori, a partir de otros conocidos. ● Algoritmos no supervisados (o del descubrimiento del conocimiento) ○ Se descubren patrones y tendencias en los datos. Técnicas de minería de datos
  • 20. Técnicas de minería de datos Ejemplo Comprador potencial de bicis: Provincia Ciudad Edad Coche Distancia trabajo Bici
  • 21. Ciclo de un Proyecto de Minería de Datos
  • 23. ● dVelox ● KXEN ● KNIME ● Orange ● Powerhouse ● Quiterian ● RapidMiner ● R ● SPSS Clementine ● SAS Enterprise Miner ● STATISTICA Data Miner ● KEEL ● mahout ● Weka Algunas herramientas
  • 24. Referencias ● http://www.slideshare.net/antoniosql/minera-de-datos ● http://msdn.microsoft.com/es-es/library/ms174949.aspx ● http://es.wikipedia.org/wiki/Miner%C3%ADa_de_datos ● http://www.slideshare.net/04071977/mineria-de-datos ● http://mahout.apache.org/ ● https://www.youtube.com/watch?v=43mS9M1ZjU8