SlideShare una empresa de Scribd logo
1 de 17
Descargar para leer sin conexión
Electiva III
FACULTAD DE CIENCIAS MATEMÁTICAS Y FÍSICAS
Carrera de Ingeniería en Sistemas Computacionales
2020 - 2021 CII
Modalidad Virtual
Docente: Lsi. María Isabel Galarza S., Mg.
UNIDAD 3
Minería de Datos
Concepto de Minería
Es un proceso que es parte de la estadística y
de las ciencias de la computación, permite:
• Analizar información de un gran conjunto
de datos.
• Extraer patrones hasta ahora
desconocidos: análisis clúster, detección
de anomalías, minería por reglas de
asociación
• Realizar aprendizaje automático o análisis
predictivo de los patrones encontrados.
Características
• Permite explorar datos que se encuentran inmersos en profundas bases de datos.
• Suele tener una arquitectura cliente-servidor.
• Ayudan a extraer la información que se encuentran almacenados en archivos corporativos
o registros públicos.
• Permiten el análisis y procesamiento de la información de forma ágil.
• Permite la producción de 5 tipos de información (asociaciones, secuencia, clasificaciones,
agrupamiento, pronóstico).
Proceso
Selección del conjunto de datos
Tanto de variables objetivo(utilizadas para predecir, calcular o inferir, así como variables independientes(para
utilizar en cálculo o proceso).
Análisis de las propiedades de los datos
En especial los histogramas, diagramas de dispersión, presencia de valores atípicos y ausencia de datos (valores
nulos).
Transformación del conjunto de datos de entrada
Conocida como preprocesamiento. Cuando se encuentra texto en inglés, se realiza simplificación antes de iniciar
con el proceso, realizando conversión a inglés básico.
Selección y aplicación de la técnica de minería de datos
Se construye el modelo predictivo, de clasificación o segmentación.
Extracción de conocimiento
Se puede obtener una o varias técnicas para generar patrones de comportamiento.
Interpretación y evaluación de datos
Validación y comprobación de las conclusiones.
Técnicas(I)
Redes neuronales
Maneja un sistema de interconexión de neuronas en una red que
colabora para producir un estímulo de salida.
Regresión lineal
Rápida y eficaz pero insuficiente en espacios multidimensionales
donde puedan relacionarse más de 2 variables.
Árboles de decisión
A partir de una base de datos se crean diagramas de construcciones
lógicas que sirven para representar y categorizar una serie de
condiciones que suceden de forma sucesiva, para la resolución de
un problema.
Técnicas(II)
Modelos estadísticos
Es una expresión simbólica en forma de igualdad, utilizado para indicar los diferentes factores que
modifican la variable de respuesta.
Agrupamiento o clustering
Procedimiento de agrupación de una serie de vectores y los dispone de manera que estén más
cercanos aquellos que tengan características comunes.
Reglas de asociación
Utilizadas para descubrir hechos que ocurren en común dentro de un determinado conjunto de
datos.
Clasificación de las
técnicas según el
análisis de los
datos
Supervisados
Predicen un dato a partir de otros conocidos.
No Supervisados
Se descubren patrones y tendencias en los datos.
Metodología CRISP-DM (CRoss-Industry Standard
Process for Data Mining)
Es una metodología de Minería de datos para desarrollo de proyectos
analíticos.
Tiene cuatro niveles de abstracción:
• Fase
• Tareas generales
• Tareas específicas
• Instancias de proceso
Ciclo de vida (I)
Análisis del problema
Se centra en el análisis de los objetivos y requisitos desde una perspectiva
comercial, posteriormente se diseña un plan preliminar para el logro de los
objetivos.
Análisis de los datos
Inicia con la obtención de los datos para identificar problemas de calidad,
descubrir relaciones entre ellos o detectar subconjuntos de datos y formular
hipótesis de información desconocida.
Preparación de los datos
Realiza selección de cuadro de datos, registros y atributos, además su
transformación para aplicar los modelos.
Ciclo de vida (II)
Modelado
Se aplican varias técnicas, algunas de ellas necesitan que los datos estén preparados de cierta forma
para aplicarse, de lo contrario es necesario volver a la fase de preparación de los datos.
Evaluación
Se valida el rendimiento del modelo y la integridad de todos los pasos , es importante verificar que
se han incluido todos los objetivos del negocio o investigación.
Desarrollo
Es importante documentar y presentar los resultados de manera comprensible. De ser posible, se
debe confirmar el mantenimiento de la aplicación y la difusión de los resultados.
Metodología SEMMA
Desarrollada por el instituto SAS.
Acrónimo de SAMPLE, EXPLORE, MODIFY,
MODEL, ASSESS.
A partir de una muestra representativa de los
datos, se aplican técnicas estadísticas de
exploración y visualización, se seleccionan y
transforman variables, se modela con las
variables para predecirlos y se evalúa la
exactitud del modelo.
Ciclo de vida (I)
Muestreo de los datos
Se extrae un subconjunto significativo con información relevante rápida de manipular.
Si existen patrones generales, serán detectados en la muestra representativa.
También se pueden realizar particiones de los datos de la siguiente forma:
• Entrenamiento, se utiliza para ajustar el modelo
• Validación, se emplea para evaluar y para evitar el sobre y sub-ajuste
• Prueba, se aprovecha para obtener una evaluación honesta del modelo en general.
Exploración de datos
Esta fase ayuda a refinar el proceso de descubrimiento. Se utilizan técnicas visuales, estadísticas incluyendo
análisis factorial, análisis de correspondencias y la segmentación.
Modificación de datos
A través de la creación, selección y transformación de las variables para dirigir el proceso de modelado. Se
utiliza para encontrar valores atípicos, reducir el número de variables y seleccionar las más significativas.
Ciclo de vida (II)
Modelado de datos
Los algoritmos buscan un subconjunto de datos que predicen los resultados esperados. Entre técnicas de
Minería de Datos están: las redes neuronales, árboles de decisiones, regresión logística, series temporales, y
análisis en componentes principales.
Evaluación de datos
Se observa la fiabilidad y se calcula la eficiencia de los modelos. Se reserva con frecuencia una partición de
los datos la cual es considerada hasta estos momentos. Si el modelo es estable debe tener un nivel de
predicción aceptable para estos datos, de esta forma se evalúa.
Modelo Predictivo
Consiste en plantear un proceso analítico sobre datos históricos para
estimar comportamientos futuros desconocidos.
En este proceso intervienen disciplinas como la minería de datos,
el machine learning, la inteligencia artificial y la estadística.
Permite analizar tendencias y calcular, estadísticamente, las
consecuencias de sus próximos movimientos.
Esta estimación les permite optimizar y agilizar la toma de decisiones.
Precisamente por ello, la implantación de herramientas analíticas y de
business intelligence en las empresas es cada vez más frecuente.
Métodos del Modelo Predicitivo
Forecasting:
Permite hacer predicciones sobre series temporales.
Esta funcionalidad usa el algoritmo ‘exponential smooth’
(supervised learning.
La variable principal es de formato ‘date’.
En pocas palabras, es una herramienta que permite planificar la
demanda. Es decir, ayuda a predecir la demanda de productos
por parte del cliente
Modelo Predictivo - Forecasting
Proyectar datos para el futuro.

Más contenido relacionado

La actualidad más candente

Sistema De Informacion
Sistema De InformacionSistema De Informacion
Sistema De Informacion
erikamolina
 
Ut[1] 18 Sistemas De Informaci%F3n Computarizados
Ut[1] 18 Sistemas De Informaci%F3n ComputarizadosUt[1] 18 Sistemas De Informaci%F3n Computarizados
Ut[1] 18 Sistemas De Informaci%F3n Computarizados
Daylimar Godoy
 
Introduccion Administracion De Un Centro De Computo
Introduccion Administracion De Un Centro De ComputoIntroduccion Administracion De Un Centro De Computo
Introduccion Administracion De Un Centro De Computo
djelektro
 
Sistemas de informacion gerencial
Sistemas de informacion gerencialSistemas de informacion gerencial
Sistemas de informacion gerencial
Danilo Vargas
 

La actualidad más candente (20)

Ciclo de vida de un sistema de informacion
Ciclo de vida de un sistema de informacionCiclo de vida de un sistema de informacion
Ciclo de vida de un sistema de informacion
 
Generalidades de los Sistemas de Información. Presentación diseñada por el MT...
Generalidades de los Sistemas de Información. Presentación diseñada por el MT...Generalidades de los Sistemas de Información. Presentación diseñada por el MT...
Generalidades de los Sistemas de Información. Presentación diseñada por el MT...
 
Sistema De Informacion
Sistema De InformacionSistema De Informacion
Sistema De Informacion
 
Desarrollo De Sistemas De InformacióN
Desarrollo De  Sistemas De  InformacióNDesarrollo De  Sistemas De  InformacióN
Desarrollo De Sistemas De InformacióN
 
Componentes y definiciones de un SI
Componentes y definiciones de un SIComponentes y definiciones de un SI
Componentes y definiciones de un SI
 
Ut[1] 18 Sistemas De Informaci%F3n Computarizados
Ut[1] 18 Sistemas De Informaci%F3n ComputarizadosUt[1] 18 Sistemas De Informaci%F3n Computarizados
Ut[1] 18 Sistemas De Informaci%F3n Computarizados
 
Procesos operacion-centro-computo-p3
Procesos operacion-centro-computo-p3Procesos operacion-centro-computo-p3
Procesos operacion-centro-computo-p3
 
Unidad II Sistemas de Informacion
Unidad II Sistemas de InformacionUnidad II Sistemas de Informacion
Unidad II Sistemas de Informacion
 
Introduccion Administracion De Un Centro De Computo
Introduccion Administracion De Un Centro De ComputoIntroduccion Administracion De Un Centro De Computo
Introduccion Administracion De Un Centro De Computo
 
Sistemas de informacion gerencial
Sistemas de informacion gerencialSistemas de informacion gerencial
Sistemas de informacion gerencial
 
Analisis y diseño, Ejemplo de Sistemas de informacion
Analisis y diseño, Ejemplo de Sistemas de informacion Analisis y diseño, Ejemplo de Sistemas de informacion
Analisis y diseño, Ejemplo de Sistemas de informacion
 
Ciencias de la Informática
Ciencias de la InformáticaCiencias de la Informática
Ciencias de la Informática
 
Fundamentos y metodos analisis de requerimiento
Fundamentos y metodos analisis de requerimientoFundamentos y metodos analisis de requerimiento
Fundamentos y metodos analisis de requerimiento
 
Proyecto
ProyectoProyecto
Proyecto
 
Proyecto
ProyectoProyecto
Proyecto
 
Proyecto: Herramientas de Informática I.
Proyecto: Herramientas de Informática I.Proyecto: Herramientas de Informática I.
Proyecto: Herramientas de Informática I.
 
511307
511307511307
511307
 
Administracion De Centros De InformacióN
Administracion De Centros De InformacióNAdministracion De Centros De InformacióN
Administracion De Centros De InformacióN
 
Que es Administración de centros de información
Que es Administración de centros de informaciónQue es Administración de centros de información
Que es Administración de centros de información
 
Sistemas de informacion 1
Sistemas de informacion 1Sistemas de informacion 1
Sistemas de informacion 1
 

Similar a Electiva iii parcial 2 - 02-minería de datos

Exposicion mineria de datos - Franklin Rodríguez
Exposicion mineria de datos - Franklin Rodríguez Exposicion mineria de datos - Franklin Rodríguez
Exposicion mineria de datos - Franklin Rodríguez
Ana Delgado
 
Presentacion mineria
Presentacion mineriaPresentacion mineria
Presentacion mineria
viktor93
 

Similar a Electiva iii parcial 2 - 02-minería de datos (20)

Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Data mining
Data miningData mining
Data mining
 
Data mining
Data miningData mining
Data mining
 
Data mining
Data miningData mining
Data mining
 
Data mining
Data miningData mining
Data mining
 
Data mining
Data miningData mining
Data mining
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Minería de datos
Minería de datosMinería de datos
Minería de datos
 
Mineria de datos ok
Mineria de datos okMineria de datos ok
Mineria de datos ok
 
Mineria y modelado de datos
Mineria y modelado de datosMineria y modelado de datos
Mineria y modelado de datos
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Exposicion mineria de datos - Franklin Rodríguez
Exposicion mineria de datos - Franklin Rodríguez Exposicion mineria de datos - Franklin Rodríguez
Exposicion mineria de datos - Franklin Rodríguez
 
Técnicas de minería de datos
Técnicas de minería de datosTécnicas de minería de datos
Técnicas de minería de datos
 
Presentacion mineria
Presentacion mineriaPresentacion mineria
Presentacion mineria
 
Big data & data mining
Big data & data miningBig data & data mining
Big data & data mining
 
Métodos predictivos y Descriptivos - MINERÍA DE DATOS
Métodos predictivos y Descriptivos - MINERÍA DE DATOSMétodos predictivos y Descriptivos - MINERÍA DE DATOS
Métodos predictivos y Descriptivos - MINERÍA DE DATOS
 
Marisela labrador
Marisela labradorMarisela labrador
Marisela labrador
 
Mineria de datos ensayo
Mineria de datos ensayoMineria de datos ensayo
Mineria de datos ensayo
 
Mineria de Datos
Mineria de DatosMineria de Datos
Mineria de Datos
 
Mineria de Datos Dialnet.pdf
Mineria de Datos Dialnet.pdfMineria de Datos Dialnet.pdf
Mineria de Datos Dialnet.pdf
 

Más de Arlin11 (11)

El fraude
El fraudeEl fraude
El fraude
 
Ejercicio de saltos
Ejercicio de saltosEjercicio de saltos
Ejercicio de saltos
 
Dokumen.site ejercicios resueltos-sqlpdf
Dokumen.site ejercicios resueltos-sqlpdfDokumen.site ejercicios resueltos-sqlpdf
Dokumen.site ejercicios resueltos-sqlpdf
 
Distribuciones probabilidad
Distribuciones probabilidadDistribuciones probabilidad
Distribuciones probabilidad
 
Electiva dashboard
Electiva dashboard Electiva dashboard
Electiva dashboard
 
El fraude
El fraudeEl fraude
El fraude
 
Cuadro comparativo legislacion
Cuadro comparativo legislacion Cuadro comparativo legislacion
Cuadro comparativo legislacion
 
Caso gatorade
Caso gatoradeCaso gatorade
Caso gatorade
 
Arquitectura procesadores
Arquitectura procesadoresArquitectura procesadores
Arquitectura procesadores
 
Exposicion apache
Exposicion apacheExposicion apache
Exposicion apache
 
Exposicion apache kafka
Exposicion apache kafkaExposicion apache kafka
Exposicion apache kafka
 

Último

LA APLICACIÓN DE LAS PROPIEDADES TEXTUALES A LOS TEXTOS.pdf
LA APLICACIÓN DE LAS PROPIEDADES TEXTUALES A LOS TEXTOS.pdfLA APLICACIÓN DE LAS PROPIEDADES TEXTUALES A LOS TEXTOS.pdf
LA APLICACIÓN DE LAS PROPIEDADES TEXTUALES A LOS TEXTOS.pdf
bcondort
 
CLASe número 4 fotogrametria Y PARALAJE.pptx
CLASe número 4 fotogrametria Y PARALAJE.pptxCLASe número 4 fotogrametria Y PARALAJE.pptx
CLASe número 4 fotogrametria Y PARALAJE.pptx
bingoscarlet
 

Último (20)

ECONOMIA APLICADA SEMANA 555555555555555555.pdf
ECONOMIA APLICADA SEMANA 555555555555555555.pdfECONOMIA APLICADA SEMANA 555555555555555555.pdf
ECONOMIA APLICADA SEMANA 555555555555555555.pdf
 
Controladores Lógicos Programables Usos y Ventajas
Controladores Lógicos Programables Usos y VentajasControladores Lógicos Programables Usos y Ventajas
Controladores Lógicos Programables Usos y Ventajas
 
Comite Operativo Ciberseguridad 012020.pptx
Comite Operativo Ciberseguridad 012020.pptxComite Operativo Ciberseguridad 012020.pptx
Comite Operativo Ciberseguridad 012020.pptx
 
Propuesta para la creación de un Centro de Innovación para la Refundación ...
Propuesta para la creación de un Centro de Innovación para la Refundación ...Propuesta para la creación de un Centro de Innovación para la Refundación ...
Propuesta para la creación de un Centro de Innovación para la Refundación ...
 
Principales aportes de la carrera de William Edwards Deming
Principales aportes de la carrera de William Edwards DemingPrincipales aportes de la carrera de William Edwards Deming
Principales aportes de la carrera de William Edwards Deming
 
Quimica Raymond Chang 12va Edicion___pdf
Quimica Raymond Chang 12va Edicion___pdfQuimica Raymond Chang 12va Edicion___pdf
Quimica Raymond Chang 12va Edicion___pdf
 
PostgreSQL on Kubernetes Using GitOps and ArgoCD
PostgreSQL on Kubernetes Using GitOps and ArgoCDPostgreSQL on Kubernetes Using GitOps and ArgoCD
PostgreSQL on Kubernetes Using GitOps and ArgoCD
 
Falla de san andres y el gran cañon : enfoque integral
Falla de san andres y el gran cañon : enfoque integralFalla de san andres y el gran cañon : enfoque integral
Falla de san andres y el gran cañon : enfoque integral
 
01 MATERIALES AERONAUTICOS VARIOS clase 1.ppt
01 MATERIALES AERONAUTICOS VARIOS clase 1.ppt01 MATERIALES AERONAUTICOS VARIOS clase 1.ppt
01 MATERIALES AERONAUTICOS VARIOS clase 1.ppt
 
osciloscopios Mediciones Electricas ingenieria.pdf
osciloscopios Mediciones Electricas ingenieria.pdfosciloscopios Mediciones Electricas ingenieria.pdf
osciloscopios Mediciones Electricas ingenieria.pdf
 
CALCULO DE ENGRANAJES RECTOS SB-2024.pptx
CALCULO DE ENGRANAJES RECTOS SB-2024.pptxCALCULO DE ENGRANAJES RECTOS SB-2024.pptx
CALCULO DE ENGRANAJES RECTOS SB-2024.pptx
 
DOCUMENTO PLAN DE RESPUESTA A EMERGENCIAS MINERAS
DOCUMENTO PLAN DE RESPUESTA A EMERGENCIAS MINERASDOCUMENTO PLAN DE RESPUESTA A EMERGENCIAS MINERAS
DOCUMENTO PLAN DE RESPUESTA A EMERGENCIAS MINERAS
 
aCARGA y FUERZA UNI 19 marzo 2024-22.ppt
aCARGA y FUERZA UNI 19 marzo 2024-22.pptaCARGA y FUERZA UNI 19 marzo 2024-22.ppt
aCARGA y FUERZA UNI 19 marzo 2024-22.ppt
 
CAPITULO 4 ANODIZADO DE ALUMINIO ,OBTENCION Y PROCESO
CAPITULO 4 ANODIZADO DE ALUMINIO ,OBTENCION Y PROCESOCAPITULO 4 ANODIZADO DE ALUMINIO ,OBTENCION Y PROCESO
CAPITULO 4 ANODIZADO DE ALUMINIO ,OBTENCION Y PROCESO
 
COMPEDIOS ESTADISTICOS DE PERU EN EL 2023
COMPEDIOS ESTADISTICOS DE PERU EN EL 2023COMPEDIOS ESTADISTICOS DE PERU EN EL 2023
COMPEDIOS ESTADISTICOS DE PERU EN EL 2023
 
CARGAS VIVAS Y CARGAS MUERTASEXPOCI.pptx
CARGAS VIVAS Y CARGAS MUERTASEXPOCI.pptxCARGAS VIVAS Y CARGAS MUERTASEXPOCI.pptx
CARGAS VIVAS Y CARGAS MUERTASEXPOCI.pptx
 
Obras paralizadas en el sector construcción
Obras paralizadas en el sector construcciónObras paralizadas en el sector construcción
Obras paralizadas en el sector construcción
 
LA APLICACIÓN DE LAS PROPIEDADES TEXTUALES A LOS TEXTOS.pdf
LA APLICACIÓN DE LAS PROPIEDADES TEXTUALES A LOS TEXTOS.pdfLA APLICACIÓN DE LAS PROPIEDADES TEXTUALES A LOS TEXTOS.pdf
LA APLICACIÓN DE LAS PROPIEDADES TEXTUALES A LOS TEXTOS.pdf
 
CLASe número 4 fotogrametria Y PARALAJE.pptx
CLASe número 4 fotogrametria Y PARALAJE.pptxCLASe número 4 fotogrametria Y PARALAJE.pptx
CLASe número 4 fotogrametria Y PARALAJE.pptx
 
Magnetismo y electromagnetismo principios
Magnetismo y electromagnetismo principiosMagnetismo y electromagnetismo principios
Magnetismo y electromagnetismo principios
 

Electiva iii parcial 2 - 02-minería de datos

  • 1. Electiva III FACULTAD DE CIENCIAS MATEMÁTICAS Y FÍSICAS Carrera de Ingeniería en Sistemas Computacionales 2020 - 2021 CII Modalidad Virtual Docente: Lsi. María Isabel Galarza S., Mg. UNIDAD 3 Minería de Datos
  • 2. Concepto de Minería Es un proceso que es parte de la estadística y de las ciencias de la computación, permite: • Analizar información de un gran conjunto de datos. • Extraer patrones hasta ahora desconocidos: análisis clúster, detección de anomalías, minería por reglas de asociación • Realizar aprendizaje automático o análisis predictivo de los patrones encontrados.
  • 3. Características • Permite explorar datos que se encuentran inmersos en profundas bases de datos. • Suele tener una arquitectura cliente-servidor. • Ayudan a extraer la información que se encuentran almacenados en archivos corporativos o registros públicos. • Permiten el análisis y procesamiento de la información de forma ágil. • Permite la producción de 5 tipos de información (asociaciones, secuencia, clasificaciones, agrupamiento, pronóstico).
  • 5. Selección del conjunto de datos Tanto de variables objetivo(utilizadas para predecir, calcular o inferir, así como variables independientes(para utilizar en cálculo o proceso). Análisis de las propiedades de los datos En especial los histogramas, diagramas de dispersión, presencia de valores atípicos y ausencia de datos (valores nulos). Transformación del conjunto de datos de entrada Conocida como preprocesamiento. Cuando se encuentra texto en inglés, se realiza simplificación antes de iniciar con el proceso, realizando conversión a inglés básico. Selección y aplicación de la técnica de minería de datos Se construye el modelo predictivo, de clasificación o segmentación. Extracción de conocimiento Se puede obtener una o varias técnicas para generar patrones de comportamiento. Interpretación y evaluación de datos Validación y comprobación de las conclusiones.
  • 6. Técnicas(I) Redes neuronales Maneja un sistema de interconexión de neuronas en una red que colabora para producir un estímulo de salida. Regresión lineal Rápida y eficaz pero insuficiente en espacios multidimensionales donde puedan relacionarse más de 2 variables. Árboles de decisión A partir de una base de datos se crean diagramas de construcciones lógicas que sirven para representar y categorizar una serie de condiciones que suceden de forma sucesiva, para la resolución de un problema.
  • 7. Técnicas(II) Modelos estadísticos Es una expresión simbólica en forma de igualdad, utilizado para indicar los diferentes factores que modifican la variable de respuesta. Agrupamiento o clustering Procedimiento de agrupación de una serie de vectores y los dispone de manera que estén más cercanos aquellos que tengan características comunes. Reglas de asociación Utilizadas para descubrir hechos que ocurren en común dentro de un determinado conjunto de datos.
  • 8. Clasificación de las técnicas según el análisis de los datos Supervisados Predicen un dato a partir de otros conocidos. No Supervisados Se descubren patrones y tendencias en los datos.
  • 9. Metodología CRISP-DM (CRoss-Industry Standard Process for Data Mining) Es una metodología de Minería de datos para desarrollo de proyectos analíticos. Tiene cuatro niveles de abstracción: • Fase • Tareas generales • Tareas específicas • Instancias de proceso
  • 10. Ciclo de vida (I) Análisis del problema Se centra en el análisis de los objetivos y requisitos desde una perspectiva comercial, posteriormente se diseña un plan preliminar para el logro de los objetivos. Análisis de los datos Inicia con la obtención de los datos para identificar problemas de calidad, descubrir relaciones entre ellos o detectar subconjuntos de datos y formular hipótesis de información desconocida. Preparación de los datos Realiza selección de cuadro de datos, registros y atributos, además su transformación para aplicar los modelos.
  • 11. Ciclo de vida (II) Modelado Se aplican varias técnicas, algunas de ellas necesitan que los datos estén preparados de cierta forma para aplicarse, de lo contrario es necesario volver a la fase de preparación de los datos. Evaluación Se valida el rendimiento del modelo y la integridad de todos los pasos , es importante verificar que se han incluido todos los objetivos del negocio o investigación. Desarrollo Es importante documentar y presentar los resultados de manera comprensible. De ser posible, se debe confirmar el mantenimiento de la aplicación y la difusión de los resultados.
  • 12. Metodología SEMMA Desarrollada por el instituto SAS. Acrónimo de SAMPLE, EXPLORE, MODIFY, MODEL, ASSESS. A partir de una muestra representativa de los datos, se aplican técnicas estadísticas de exploración y visualización, se seleccionan y transforman variables, se modela con las variables para predecirlos y se evalúa la exactitud del modelo.
  • 13. Ciclo de vida (I) Muestreo de los datos Se extrae un subconjunto significativo con información relevante rápida de manipular. Si existen patrones generales, serán detectados en la muestra representativa. También se pueden realizar particiones de los datos de la siguiente forma: • Entrenamiento, se utiliza para ajustar el modelo • Validación, se emplea para evaluar y para evitar el sobre y sub-ajuste • Prueba, se aprovecha para obtener una evaluación honesta del modelo en general. Exploración de datos Esta fase ayuda a refinar el proceso de descubrimiento. Se utilizan técnicas visuales, estadísticas incluyendo análisis factorial, análisis de correspondencias y la segmentación. Modificación de datos A través de la creación, selección y transformación de las variables para dirigir el proceso de modelado. Se utiliza para encontrar valores atípicos, reducir el número de variables y seleccionar las más significativas.
  • 14. Ciclo de vida (II) Modelado de datos Los algoritmos buscan un subconjunto de datos que predicen los resultados esperados. Entre técnicas de Minería de Datos están: las redes neuronales, árboles de decisiones, regresión logística, series temporales, y análisis en componentes principales. Evaluación de datos Se observa la fiabilidad y se calcula la eficiencia de los modelos. Se reserva con frecuencia una partición de los datos la cual es considerada hasta estos momentos. Si el modelo es estable debe tener un nivel de predicción aceptable para estos datos, de esta forma se evalúa.
  • 15. Modelo Predictivo Consiste en plantear un proceso analítico sobre datos históricos para estimar comportamientos futuros desconocidos. En este proceso intervienen disciplinas como la minería de datos, el machine learning, la inteligencia artificial y la estadística. Permite analizar tendencias y calcular, estadísticamente, las consecuencias de sus próximos movimientos. Esta estimación les permite optimizar y agilizar la toma de decisiones. Precisamente por ello, la implantación de herramientas analíticas y de business intelligence en las empresas es cada vez más frecuente.
  • 16. Métodos del Modelo Predicitivo Forecasting: Permite hacer predicciones sobre series temporales. Esta funcionalidad usa el algoritmo ‘exponential smooth’ (supervised learning. La variable principal es de formato ‘date’. En pocas palabras, es una herramienta que permite planificar la demanda. Es decir, ayuda a predecir la demanda de productos por parte del cliente
  • 17. Modelo Predictivo - Forecasting Proyectar datos para el futuro.