SlideShare una empresa de Scribd logo
1 de 24
TECNOLÓGICO NACIONAL DE MÉXICO.
INSTITUTO TECNOLÓGICO DE ACAPULCO.
TECNOLÓGICO NACIONAL DE MÉXICO.
INSTITUTO TECNOLÓGICO DE ACAPULCO.
MINERÍA DE DATOS.
Unidad 2.
Preprocesamiento de Datos.
Tema 2.1
Limpieza de Datos.
CONTENIDO
2.1 Limpieza de Datos. 2.1.1 Valores Faltantes. 2.1.2 Ruido en los Datos.
Introducción.
Calidad de Datos.
Bibliografía Créditos.
Proceso de Limpieza de
Datos.
Métodos más usados.
Visión General.
Valores Faltantes. Ruido en los Datos.
Ejemplo
Acciones sobre Datos
Faltantes.
¿Cómo tratar los datos
con ruidos?
2.1 LIMPIEZA DE DATOS.
Volver al menú.
INTRODUCCIÓN
La limpieza de datos (en inglés data
cleansing o data scrubbing) es el acto de
descubrimiento y corrección o eliminación de
registros de datos erróneos de
una tabla o base de datos.
La limpieza de datos se diferencia de
la validación de datos, que casi siempre
cumple la función de rechazar los registros
erróneos durante la entrada al sistema y no
en lotes de data.
El proceso de limpieza de datos incluye la
validación y además la corrección de datos,
para alcanzar datos de calidad.
Volver al menú.
CALIDAD DE DATOS
La calidad de datos debe cumplir con los siguientes requisitos:
 Exactitud: Los datos deben cumplir los requisitos de integridad, consistencia y densidad.
 Integridad: Los datos deben cumplir los requisitos de entereza y validez.
 Entereza: Alcanzado por la corrección de datos que contienen anomalías.
 Validez: Alcanzado por la cantidad de datos que satisfacen las restricciones de integridad.
 Consistencia: Alcanzado por la corrección de contradicciones y anomalías sintácticas.
 Uniformidad: Relacionado con irregularidades.
 Densidad: Conocer el cociente de valores omitidos sobre el número de valores totales.
 Unicidad: Relacionado con datos duplicados.
Volver al menú.
PROCESO DE LIMPIEZA DE DATOS
1. Auditoría de Datos: Los datos son revisados con el
empleo de métodos estadísticos de descubrir
anomalías y contradicciones.
2. Definición de Workflow (Flujo de Trabajo): La
detección y el retiro de anomalías son realizados por
una secuencia de operaciones sobre los datos sabidos
como el workflow. Para alcanzar un workflow
apropiado, se debe identificar las causas de las
anomalías y errores.
Volver al menú.
PROCESO DE LIMPIEZA DE DATOS
3. Ejecución de Workflow: En esta etapa, el
workflow es ejecutado después de que su
especificación es completa y su corrección es
verificada.
4. Post-Proceso y Control: Los datos que no
podían ser corregidos durante la ejecución del
workflow deberán ser corregidos manualmente,
de ser posible.
El resultado es un nuevo ciclo en el proceso de
limpieza de datos donde los datos son revisados
nuevamente para ajustarse a las especificaciones de
un workflow adicional y realizar un tratamiento
automático.
Volver al menú.
MÉTODOS MÁS USADOS
 Análisis: El análisis en la limpieza de datos, es
realizado para la detección de errores de
sintaxis.
 Transformación de Datos: La
Transformación de Datos permite al trazar un
mapa de datos, en el formato esperado. Esto
incluye conversiones de valor o funciones de
traducción, así como normalización de
valores numéricos para conformarse a valores
mínimos y máximos.
Volver al menú.
MÉTODOS MÁS USADOS
 Eliminación de duplicados: La detección
de duplicados requiere un algoritmo para
determinar si los datos contienen
representaciones dobles de la misma
entidad.
 Método Estadístico: Incluye analizar los
datos usando promedios, desviación
estándar, rangos, o algoritmos de clúster,
este análisis se realiza por expertos que
identifican errores.
Volver al menú.
VISIÓN GENERAL
Limpieza de
Datos
Falta de datos
Omitir la tupla
Poner el valor
manual
Utilizar una
constante
Poner el valor
promedio
Poner el valor
medio
Utilizar el valor
mas probable
Datos con ruido
Binning
Clustering
Equipo e
inspección
humana
Regresión
Datos
incoherentes
Referencias
externas
Integración y
eliminación de
datos
Volver al menú.
2.1.1 VALORES FALTANTES.
Volver al menú.
2.1.1 VALORES FALTANTES
Los valores faltantes, perdidos o ausentes (missing values) pueden ser
reemplazados por varias razones.
 En primer lugar, el método de minería de datos que utilicemos puede no tratar
bien los campos faltantes.
 En segundo lugar, podemos querer agregar los datos (especialmente los
numéricos) para realizar otras vistas minables y que los valores faltantes no nos
permitan agregar correctamente (totales, medias, etc.).
 En tercer lugar, si el método es capaz de tratar campos faltantes es posible que
ignore todo el ejemplo (produciendo un sesgo) o es posible que tenga un
método de sustitución de campos faltantes que no sea adecuado debido a que
no conoce el contexto asociado al atributo faltante.
Volver al menú.
2.1.1 VALORES FALTANTES
Tanto para la detección, como para su tratamiento
posterior, es importante saber el porqué de los
valores faltantes.
 Algunos valores expresan características
relevantes.
 Valores no existentes.
 Datos incompletos
Volver al menú.
ACCIONES SOBRE DATOS FALTANTES
Las posibles acciones sobre datos faltantes son:
1. Ignorar (dejar pasar); algunos algoritmos son robustos a datos faltantes
(por ejemplos arboles de decisión).
2. Eliminar (filtrar o reemplazar) toda la columna (es decir quitar el
atributo para todos los ejemplos): solución extrema, pero a veces la
proporción de nulos están alta que la columna no tiene arreglo.
3. Filtrar la fila: claramente sesga los datos, porque muchas veces las
causas de un dato faltante están relacionadas con casos o tipos
especiales.
Volver al menú.
ACCIONES SOBRE DATOS FALTANTES
3. Reemplazar el valor: se puede intentar reemplazar el valor manualmente
(en el caso de que no haya muchos) o automáticamente por un valor que
preserve la media o la varianza (globales o por clases/grupos), en el caso
de valores numéricos, o por el valor moda, en el caso de valores
nominales
4. Segmentar: se segmentan las tuplas por los valores que tienen
disponibles. Se obtienen modelos diferentes para cada segmento y luego
se combinan.
5. Modificar: la política de calidad de datos y esperar hasta que los datos
faltantes estén disponibles.
Volver al menú.
2.1.2 RUIDO EN LOS DATOS.
Volver al menú.
2.1.2 RUIDO EN LOS DATOS
El ruido en los datos puede estar atribuido a errores en la
medida, transmisión de datos, características inherentes a
los sistemas de los cuales se obtienen los datos, etc.
El ruido en los datos, es el error aleatorio o varianza en una
variable medida, los valores de atributos incorrectos se
deben a:
 Instrumentos de medición erróneos.
 Problemas en la entrada de datos.
 Problemas en la transmisión.
 Limitaciones tecnológicas.
Volver al menú.
2.1.2 RUIDO EN LOS DATOS
El ruido en los datos, es el error aleatorio o varianza en una variable medida,
los valores de atributos incorrectos se deben a:
 Instrumentos de medición erróneos.
 Problemas en la entrada de datos.
 Problemas en la transmisión.
 Limitaciones tecnológicas.
Volver al menú.
EJEMPLO
Supongamos que tenemos la siguiente
relación entre dos variables
y = x2 – x + 2
Si graficamos esta relación veremos
que para cada valor de X existe
solamente un valor de Y posible.
Volver al menú.
EJEMPLO
 Supongamos ahora que los datos tienen
la siguiente particularidad: para un
mismo valor de X pueden existir varios
valores de Y. O sea, ahora si existen
varias filas en donde X es 5, no
necesariamente el valor de Y será en
todas ellas 22. Podría ser que en algunas
sea 20, en otras 22 y en otras 30.
 Estos nuevos datos
contienen ruido porque para una misma
señal (en nuestro ejemplo la señal es el
valor de X) existen distintos valores que
puede tomar la variable a predecir.
Volver al menú.
¿CÓMO TRATAR LOS DATOS CON RUIDOS?
Existen varios métodos como:
 Método de cubas (Binning method): el cual ordena primeros los datos y
los particiona en cubas de igual profundidad, luego se suaviza por medias
de cubas, frontera de cubas, etc.
 Clustering: Detecta y remueve “outliers”.
 Inspección combinada humano-computadora: Detecta valores
sospechosos automáticamente y los contrasta con opinión humana.
 Regresión: Ajusta los datos a través de funciones de regresión.
Volver al menú.
BIBLIOGRAFÍA
 García, S., Ramírez Gallego, S., Luengo, J., & Herrera, F. (s.f.). Big Data:
Preprocesamiento y calidad de datos.
 Hernández Orallo, J., Ramírez Quintana, M. J., & Ferri Ramírez, C. (2004).
Introducción a la Minería de Datos. Pearson.
Volver al menú.
Esperamos con esto tener una buena aprobación por todos
Nos vemos en un próximo proyecto.
Todos los derechos reservados Hawkanime® 2018
Toda reproducción parcial o total de estas diapositivas, sin nuestro
consentimiento esta completamente prohibido, pero como no tenemos
dinero para registrar los derechos de autor no les podemos hacer nada
así que piratas aprovechen.
¿Siguen aquí?
Ya Dale clic al botón de Salir!!! (Era el de la casita)
Volver a la
Portada
Bueno, dale a este:

Más contenido relacionado

La actualidad más candente

Diapositivas base de datos
Diapositivas base de datosDiapositivas base de datos
Diapositivas base de datoscatherine4ad
 
Big data diapositivas
Big data diapositivasBig data diapositivas
Big data diapositivassgcuadrado
 
6 casos de uso de analytics
6 casos de uso de analytics6 casos de uso de analytics
6 casos de uso de analyticsHernán Giraudo
 
Minería de datos Presentación
Minería de datos PresentaciónMinería de datos Presentación
Minería de datos Presentaciónedmaga
 
Etapas de la Investigación Estadística
Etapas de la Investigación EstadísticaEtapas de la Investigación Estadística
Etapas de la Investigación Estadísticamilacastroreyes
 
Tema2. pronosticos de demanda
Tema2. pronosticos de demandaTema2. pronosticos de demanda
Tema2. pronosticos de demandaingRobertoBriceno
 
IN Unidad 1: Introducción a la inteligencia de negocios
IN Unidad 1: Introducción a la inteligencia de negociosIN Unidad 1: Introducción a la inteligencia de negocios
IN Unidad 1: Introducción a la inteligencia de negociosFranklin Parrales Bravo
 
Investigacion experimetal-y-no-experimental
Investigacion experimetal-y-no-experimentalInvestigacion experimetal-y-no-experimental
Investigacion experimetal-y-no-experimentalKevin Mera
 
Inteligencia de Negocios BI
Inteligencia de Negocios BIInteligencia de Negocios BI
Inteligencia de Negocios BIfabian fernandez
 
Data Visualization
Data VisualizationData Visualization
Data Visualizationsimonwandrew
 
BASE DE DATOS RELACIONALES, DISTRIBUIDAS, ORIENTADA.pptx
BASE DE DATOS RELACIONALES, DISTRIBUIDAS, ORIENTADA.pptxBASE DE DATOS RELACIONALES, DISTRIBUIDAS, ORIENTADA.pptx
BASE DE DATOS RELACIONALES, DISTRIBUIDAS, ORIENTADA.pptxJose walter Vega Acebey
 
Taller 3 Tecnica De RecoleccióN De Datos
Taller 3 Tecnica De RecoleccióN De Datos Taller 3 Tecnica De RecoleccióN De Datos
Taller 3 Tecnica De RecoleccióN De Datos Maria Angélica
 
Sistemas de Gestión de Bases de datos
Sistemas de Gestión de Bases de datosSistemas de Gestión de Bases de datos
Sistemas de Gestión de Bases de datosJesús Tramullas
 

La actualidad más candente (20)

Diapositivas base de datos
Diapositivas base de datosDiapositivas base de datos
Diapositivas base de datos
 
Ciencia de datos en 20'
Ciencia de datos en 20'Ciencia de datos en 20'
Ciencia de datos en 20'
 
Big data diapositivas
Big data diapositivasBig data diapositivas
Big data diapositivas
 
6 casos de uso de analytics
6 casos de uso de analytics6 casos de uso de analytics
6 casos de uso de analytics
 
Tipos y clases de investigación
Tipos y clases de investigaciónTipos y clases de investigación
Tipos y clases de investigación
 
Minería de datos Presentación
Minería de datos PresentaciónMinería de datos Presentación
Minería de datos Presentación
 
Big data aplicado el negocio CRISP-DM
Big data aplicado el negocio CRISP-DMBig data aplicado el negocio CRISP-DM
Big data aplicado el negocio CRISP-DM
 
Etapas de la Investigación Estadística
Etapas de la Investigación EstadísticaEtapas de la Investigación Estadística
Etapas de la Investigación Estadística
 
Diseño metodologico
Diseño metodologicoDiseño metodologico
Diseño metodologico
 
Reglas de Codd
Reglas de CoddReglas de Codd
Reglas de Codd
 
Tema2. pronosticos de demanda
Tema2. pronosticos de demandaTema2. pronosticos de demanda
Tema2. pronosticos de demanda
 
Censo
CensoCenso
Censo
 
IN Unidad 1: Introducción a la inteligencia de negocios
IN Unidad 1: Introducción a la inteligencia de negociosIN Unidad 1: Introducción a la inteligencia de negocios
IN Unidad 1: Introducción a la inteligencia de negocios
 
Investigacion experimetal-y-no-experimental
Investigacion experimetal-y-no-experimentalInvestigacion experimetal-y-no-experimental
Investigacion experimetal-y-no-experimental
 
Inteligencia de Negocios BI
Inteligencia de Negocios BIInteligencia de Negocios BI
Inteligencia de Negocios BI
 
Data Visualization
Data VisualizationData Visualization
Data Visualization
 
BASE DE DATOS RELACIONALES, DISTRIBUIDAS, ORIENTADA.pptx
BASE DE DATOS RELACIONALES, DISTRIBUIDAS, ORIENTADA.pptxBASE DE DATOS RELACIONALES, DISTRIBUIDAS, ORIENTADA.pptx
BASE DE DATOS RELACIONALES, DISTRIBUIDAS, ORIENTADA.pptx
 
Ii.1 diseños mixtos
Ii.1 diseños mixtosIi.1 diseños mixtos
Ii.1 diseños mixtos
 
Taller 3 Tecnica De RecoleccióN De Datos
Taller 3 Tecnica De RecoleccióN De Datos Taller 3 Tecnica De RecoleccióN De Datos
Taller 3 Tecnica De RecoleccióN De Datos
 
Sistemas de Gestión de Bases de datos
Sistemas de Gestión de Bases de datosSistemas de Gestión de Bases de datos
Sistemas de Gestión de Bases de datos
 

Similar a Limpieza de datos en minería

Proyecto Final Base De Datos
Proyecto Final Base De DatosProyecto Final Base De Datos
Proyecto Final Base De Datosguestcde16b
 
5 Semana Analisis Multivariante Parte I
5 Semana Analisis Multivariante Parte I5 Semana Analisis Multivariante Parte I
5 Semana Analisis Multivariante Parte Ijpgv84
 
La minería de datos en el proceso de KDD
La minería de datos en el proceso de KDD La minería de datos en el proceso de KDD
La minería de datos en el proceso de KDD travon1
 
Cuadro comparativo jesus
Cuadro comparativo jesusCuadro comparativo jesus
Cuadro comparativo jesusjesulopez
 
Capitulo02
Capitulo02Capitulo02
Capitulo02mtveiga
 
Fundamentos de normalizacion
Fundamentos de normalizacionFundamentos de normalizacion
Fundamentos de normalizacionvinceq
 
Spss primeros pasos para estadistica
Spss primeros pasos para estadisticaSpss primeros pasos para estadistica
Spss primeros pasos para estadisticaubaldopuma
 
Presentación de Estadística 1
Presentación de Estadística 1Presentación de Estadística 1
Presentación de Estadística 1RicardoNoheda
 
_Mundo de los Datos (1).pdf
_Mundo de los Datos  (1).pdf_Mundo de los Datos  (1).pdf
_Mundo de los Datos (1).pdfKamZee1
 
Introducción spss
Introducción spssIntroducción spss
Introducción spsspatriciax
 

Similar a Limpieza de datos en minería (20)

Proyecto Final Base De Datos
Proyecto Final Base De DatosProyecto Final Base De Datos
Proyecto Final Base De Datos
 
5 Semana Analisis Multivariante Parte I
5 Semana Analisis Multivariante Parte I5 Semana Analisis Multivariante Parte I
5 Semana Analisis Multivariante Parte I
 
La minería de datos en el proceso de KDD
La minería de datos en el proceso de KDD La minería de datos en el proceso de KDD
La minería de datos en el proceso de KDD
 
Cuadro comparativo jesus
Cuadro comparativo jesusCuadro comparativo jesus
Cuadro comparativo jesus
 
Capitulo02
Capitulo02Capitulo02
Capitulo02
 
Maria jose presentacion
Maria jose presentacionMaria jose presentacion
Maria jose presentacion
 
Clases 1 - spss
Clases 1     - spssClases 1     - spss
Clases 1 - spss
 
Cuadro dalia
Cuadro daliaCuadro dalia
Cuadro dalia
 
Fundamentos de normalizacion
Fundamentos de normalizacionFundamentos de normalizacion
Fundamentos de normalizacion
 
Spss iniciacion
Spss iniciacionSpss iniciacion
Spss iniciacion
 
Spss primeros pasos para estadistica
Spss primeros pasos para estadisticaSpss primeros pasos para estadistica
Spss primeros pasos para estadistica
 
Spss iniciacion
Spss iniciacionSpss iniciacion
Spss iniciacion
 
SPSS INTRODUCCIÓN
SPSS INTRODUCCIÓNSPSS INTRODUCCIÓN
SPSS INTRODUCCIÓN
 
Presentación de Estadística 1
Presentación de Estadística 1Presentación de Estadística 1
Presentación de Estadística 1
 
Electiva2
Electiva2 Electiva2
Electiva2
 
_Mundo de los Datos (1).pdf
_Mundo de los Datos  (1).pdf_Mundo de los Datos  (1).pdf
_Mundo de los Datos (1).pdf
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Normalización
NormalizaciónNormalización
Normalización
 
Introducción spss
Introducción spssIntroducción spss
Introducción spss
 
Analisis y mineriadedatos
Analisis y mineriadedatosAnalisis y mineriadedatos
Analisis y mineriadedatos
 

Último

PREGRADO-PRESENCIAL-FASE-C-202401 (1).pdf
PREGRADO-PRESENCIAL-FASE-C-202401 (1).pdfPREGRADO-PRESENCIAL-FASE-C-202401 (1).pdf
PREGRADO-PRESENCIAL-FASE-C-202401 (1).pdfluisccollana
 
tipos de organización y sus objetivos y aplicación
tipos de organización y sus objetivos y aplicacióntipos de organización y sus objetivos y aplicación
tipos de organización y sus objetivos y aplicaciónJonathanAntonioMaldo
 
CUESTIONARIO A ADICCION A REDES SOCIALES.pdf
CUESTIONARIO A ADICCION A REDES SOCIALES.pdfCUESTIONARIO A ADICCION A REDES SOCIALES.pdf
CUESTIONARIO A ADICCION A REDES SOCIALES.pdfEDUARDO MAMANI MAMANI
 
17 PRACTICAS - MODALIDAAD FAMILIAAR.docx
17 PRACTICAS - MODALIDAAD FAMILIAAR.docx17 PRACTICAS - MODALIDAAD FAMILIAAR.docx
17 PRACTICAS - MODALIDAAD FAMILIAAR.docxmarthaarroyo16
 
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdfREPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdfIrapuatoCmovamos
 
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,juberrodasflores
 
SUNEDU - Superintendencia Nacional de Educación superior Universitaria
SUNEDU - Superintendencia Nacional de Educación superior UniversitariaSUNEDU - Superintendencia Nacional de Educación superior Universitaria
SUNEDU - Superintendencia Nacional de Educación superior Universitariachayananazcosimeon
 
El Teatro musical (qué es, cuál es su historia y trayectoria...)
El Teatro musical (qué es, cuál es su historia y trayectoria...)El Teatro musical (qué es, cuál es su historia y trayectoria...)
El Teatro musical (qué es, cuál es su historia y trayectoria...)estebancitoherrera
 
que son los planes de ordenamiento predial POP.pptx
que son los planes de ordenamiento predial  POP.pptxque son los planes de ordenamiento predial  POP.pptx
que son los planes de ordenamiento predial POP.pptxSergiothaine2
 
La importancia de las pruebas de producto para tu empresa
La importancia de las pruebas de producto para tu empresaLa importancia de las pruebas de producto para tu empresa
La importancia de las pruebas de producto para tu empresamerca6
 
HABILESASAMBLEA Para negocios independientes.pdf
HABILESASAMBLEA Para negocios independientes.pdfHABILESASAMBLEA Para negocios independientes.pdf
HABILESASAMBLEA Para negocios independientes.pdfGEINER22
 
2024 2024 202420242024PPT SESIÓN 03.pptx
2024 2024 202420242024PPT SESIÓN 03.pptx2024 2024 202420242024PPT SESIÓN 03.pptx
2024 2024 202420242024PPT SESIÓN 03.pptxccordovato
 
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdf
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdfREPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdf
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdfIrapuatoCmovamos
 
CAPACITACION_higiene_industrial (1).ppt...
CAPACITACION_higiene_industrial (1).ppt...CAPACITACION_higiene_industrial (1).ppt...
CAPACITACION_higiene_industrial (1).ppt...jhoecabanillas12
 
Data Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datosData Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datosssuser948499
 
LA LEY DE LAS XII TABLAS en el curso de derecho
LA LEY DE LAS XII TABLAS en el curso de derechoLA LEY DE LAS XII TABLAS en el curso de derecho
LA LEY DE LAS XII TABLAS en el curso de derechojuliosabino1
 
bases-cye-2024(2) una sola descarga en base de feria de
bases-cye-2024(2) una sola descarga en base de feria debases-cye-2024(2) una sola descarga en base de feria de
bases-cye-2024(2) una sola descarga en base de feria deCalet Cáceres Vergara
 

Último (17)

PREGRADO-PRESENCIAL-FASE-C-202401 (1).pdf
PREGRADO-PRESENCIAL-FASE-C-202401 (1).pdfPREGRADO-PRESENCIAL-FASE-C-202401 (1).pdf
PREGRADO-PRESENCIAL-FASE-C-202401 (1).pdf
 
tipos de organización y sus objetivos y aplicación
tipos de organización y sus objetivos y aplicacióntipos de organización y sus objetivos y aplicación
tipos de organización y sus objetivos y aplicación
 
CUESTIONARIO A ADICCION A REDES SOCIALES.pdf
CUESTIONARIO A ADICCION A REDES SOCIALES.pdfCUESTIONARIO A ADICCION A REDES SOCIALES.pdf
CUESTIONARIO A ADICCION A REDES SOCIALES.pdf
 
17 PRACTICAS - MODALIDAAD FAMILIAAR.docx
17 PRACTICAS - MODALIDAAD FAMILIAAR.docx17 PRACTICAS - MODALIDAAD FAMILIAAR.docx
17 PRACTICAS - MODALIDAAD FAMILIAAR.docx
 
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdfREPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
 
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,
 
SUNEDU - Superintendencia Nacional de Educación superior Universitaria
SUNEDU - Superintendencia Nacional de Educación superior UniversitariaSUNEDU - Superintendencia Nacional de Educación superior Universitaria
SUNEDU - Superintendencia Nacional de Educación superior Universitaria
 
El Teatro musical (qué es, cuál es su historia y trayectoria...)
El Teatro musical (qué es, cuál es su historia y trayectoria...)El Teatro musical (qué es, cuál es su historia y trayectoria...)
El Teatro musical (qué es, cuál es su historia y trayectoria...)
 
que son los planes de ordenamiento predial POP.pptx
que son los planes de ordenamiento predial  POP.pptxque son los planes de ordenamiento predial  POP.pptx
que son los planes de ordenamiento predial POP.pptx
 
La importancia de las pruebas de producto para tu empresa
La importancia de las pruebas de producto para tu empresaLa importancia de las pruebas de producto para tu empresa
La importancia de las pruebas de producto para tu empresa
 
HABILESASAMBLEA Para negocios independientes.pdf
HABILESASAMBLEA Para negocios independientes.pdfHABILESASAMBLEA Para negocios independientes.pdf
HABILESASAMBLEA Para negocios independientes.pdf
 
2024 2024 202420242024PPT SESIÓN 03.pptx
2024 2024 202420242024PPT SESIÓN 03.pptx2024 2024 202420242024PPT SESIÓN 03.pptx
2024 2024 202420242024PPT SESIÓN 03.pptx
 
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdf
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdfREPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdf
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdf
 
CAPACITACION_higiene_industrial (1).ppt...
CAPACITACION_higiene_industrial (1).ppt...CAPACITACION_higiene_industrial (1).ppt...
CAPACITACION_higiene_industrial (1).ppt...
 
Data Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datosData Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datos
 
LA LEY DE LAS XII TABLAS en el curso de derecho
LA LEY DE LAS XII TABLAS en el curso de derechoLA LEY DE LAS XII TABLAS en el curso de derecho
LA LEY DE LAS XII TABLAS en el curso de derecho
 
bases-cye-2024(2) una sola descarga en base de feria de
bases-cye-2024(2) una sola descarga en base de feria debases-cye-2024(2) una sola descarga en base de feria de
bases-cye-2024(2) una sola descarga en base de feria de
 

Limpieza de datos en minería

  • 1. TECNOLÓGICO NACIONAL DE MÉXICO. INSTITUTO TECNOLÓGICO DE ACAPULCO.
  • 2. TECNOLÓGICO NACIONAL DE MÉXICO. INSTITUTO TECNOLÓGICO DE ACAPULCO. MINERÍA DE DATOS. Unidad 2. Preprocesamiento de Datos. Tema 2.1 Limpieza de Datos.
  • 3. CONTENIDO 2.1 Limpieza de Datos. 2.1.1 Valores Faltantes. 2.1.2 Ruido en los Datos. Introducción. Calidad de Datos. Bibliografía Créditos. Proceso de Limpieza de Datos. Métodos más usados. Visión General. Valores Faltantes. Ruido en los Datos. Ejemplo Acciones sobre Datos Faltantes. ¿Cómo tratar los datos con ruidos?
  • 4. 2.1 LIMPIEZA DE DATOS. Volver al menú.
  • 5. INTRODUCCIÓN La limpieza de datos (en inglés data cleansing o data scrubbing) es el acto de descubrimiento y corrección o eliminación de registros de datos erróneos de una tabla o base de datos. La limpieza de datos se diferencia de la validación de datos, que casi siempre cumple la función de rechazar los registros erróneos durante la entrada al sistema y no en lotes de data. El proceso de limpieza de datos incluye la validación y además la corrección de datos, para alcanzar datos de calidad. Volver al menú.
  • 6. CALIDAD DE DATOS La calidad de datos debe cumplir con los siguientes requisitos:  Exactitud: Los datos deben cumplir los requisitos de integridad, consistencia y densidad.  Integridad: Los datos deben cumplir los requisitos de entereza y validez.  Entereza: Alcanzado por la corrección de datos que contienen anomalías.  Validez: Alcanzado por la cantidad de datos que satisfacen las restricciones de integridad.  Consistencia: Alcanzado por la corrección de contradicciones y anomalías sintácticas.  Uniformidad: Relacionado con irregularidades.  Densidad: Conocer el cociente de valores omitidos sobre el número de valores totales.  Unicidad: Relacionado con datos duplicados. Volver al menú.
  • 7. PROCESO DE LIMPIEZA DE DATOS 1. Auditoría de Datos: Los datos son revisados con el empleo de métodos estadísticos de descubrir anomalías y contradicciones. 2. Definición de Workflow (Flujo de Trabajo): La detección y el retiro de anomalías son realizados por una secuencia de operaciones sobre los datos sabidos como el workflow. Para alcanzar un workflow apropiado, se debe identificar las causas de las anomalías y errores. Volver al menú.
  • 8. PROCESO DE LIMPIEZA DE DATOS 3. Ejecución de Workflow: En esta etapa, el workflow es ejecutado después de que su especificación es completa y su corrección es verificada. 4. Post-Proceso y Control: Los datos que no podían ser corregidos durante la ejecución del workflow deberán ser corregidos manualmente, de ser posible. El resultado es un nuevo ciclo en el proceso de limpieza de datos donde los datos son revisados nuevamente para ajustarse a las especificaciones de un workflow adicional y realizar un tratamiento automático. Volver al menú.
  • 9. MÉTODOS MÁS USADOS  Análisis: El análisis en la limpieza de datos, es realizado para la detección de errores de sintaxis.  Transformación de Datos: La Transformación de Datos permite al trazar un mapa de datos, en el formato esperado. Esto incluye conversiones de valor o funciones de traducción, así como normalización de valores numéricos para conformarse a valores mínimos y máximos. Volver al menú.
  • 10. MÉTODOS MÁS USADOS  Eliminación de duplicados: La detección de duplicados requiere un algoritmo para determinar si los datos contienen representaciones dobles de la misma entidad.  Método Estadístico: Incluye analizar los datos usando promedios, desviación estándar, rangos, o algoritmos de clúster, este análisis se realiza por expertos que identifican errores. Volver al menú.
  • 11. VISIÓN GENERAL Limpieza de Datos Falta de datos Omitir la tupla Poner el valor manual Utilizar una constante Poner el valor promedio Poner el valor medio Utilizar el valor mas probable Datos con ruido Binning Clustering Equipo e inspección humana Regresión Datos incoherentes Referencias externas Integración y eliminación de datos Volver al menú.
  • 13. 2.1.1 VALORES FALTANTES Los valores faltantes, perdidos o ausentes (missing values) pueden ser reemplazados por varias razones.  En primer lugar, el método de minería de datos que utilicemos puede no tratar bien los campos faltantes.  En segundo lugar, podemos querer agregar los datos (especialmente los numéricos) para realizar otras vistas minables y que los valores faltantes no nos permitan agregar correctamente (totales, medias, etc.).  En tercer lugar, si el método es capaz de tratar campos faltantes es posible que ignore todo el ejemplo (produciendo un sesgo) o es posible que tenga un método de sustitución de campos faltantes que no sea adecuado debido a que no conoce el contexto asociado al atributo faltante. Volver al menú.
  • 14. 2.1.1 VALORES FALTANTES Tanto para la detección, como para su tratamiento posterior, es importante saber el porqué de los valores faltantes.  Algunos valores expresan características relevantes.  Valores no existentes.  Datos incompletos Volver al menú.
  • 15. ACCIONES SOBRE DATOS FALTANTES Las posibles acciones sobre datos faltantes son: 1. Ignorar (dejar pasar); algunos algoritmos son robustos a datos faltantes (por ejemplos arboles de decisión). 2. Eliminar (filtrar o reemplazar) toda la columna (es decir quitar el atributo para todos los ejemplos): solución extrema, pero a veces la proporción de nulos están alta que la columna no tiene arreglo. 3. Filtrar la fila: claramente sesga los datos, porque muchas veces las causas de un dato faltante están relacionadas con casos o tipos especiales. Volver al menú.
  • 16. ACCIONES SOBRE DATOS FALTANTES 3. Reemplazar el valor: se puede intentar reemplazar el valor manualmente (en el caso de que no haya muchos) o automáticamente por un valor que preserve la media o la varianza (globales o por clases/grupos), en el caso de valores numéricos, o por el valor moda, en el caso de valores nominales 4. Segmentar: se segmentan las tuplas por los valores que tienen disponibles. Se obtienen modelos diferentes para cada segmento y luego se combinan. 5. Modificar: la política de calidad de datos y esperar hasta que los datos faltantes estén disponibles. Volver al menú.
  • 17. 2.1.2 RUIDO EN LOS DATOS. Volver al menú.
  • 18. 2.1.2 RUIDO EN LOS DATOS El ruido en los datos puede estar atribuido a errores en la medida, transmisión de datos, características inherentes a los sistemas de los cuales se obtienen los datos, etc. El ruido en los datos, es el error aleatorio o varianza en una variable medida, los valores de atributos incorrectos se deben a:  Instrumentos de medición erróneos.  Problemas en la entrada de datos.  Problemas en la transmisión.  Limitaciones tecnológicas. Volver al menú.
  • 19. 2.1.2 RUIDO EN LOS DATOS El ruido en los datos, es el error aleatorio o varianza en una variable medida, los valores de atributos incorrectos se deben a:  Instrumentos de medición erróneos.  Problemas en la entrada de datos.  Problemas en la transmisión.  Limitaciones tecnológicas. Volver al menú.
  • 20. EJEMPLO Supongamos que tenemos la siguiente relación entre dos variables y = x2 – x + 2 Si graficamos esta relación veremos que para cada valor de X existe solamente un valor de Y posible. Volver al menú.
  • 21. EJEMPLO  Supongamos ahora que los datos tienen la siguiente particularidad: para un mismo valor de X pueden existir varios valores de Y. O sea, ahora si existen varias filas en donde X es 5, no necesariamente el valor de Y será en todas ellas 22. Podría ser que en algunas sea 20, en otras 22 y en otras 30.  Estos nuevos datos contienen ruido porque para una misma señal (en nuestro ejemplo la señal es el valor de X) existen distintos valores que puede tomar la variable a predecir. Volver al menú.
  • 22. ¿CÓMO TRATAR LOS DATOS CON RUIDOS? Existen varios métodos como:  Método de cubas (Binning method): el cual ordena primeros los datos y los particiona en cubas de igual profundidad, luego se suaviza por medias de cubas, frontera de cubas, etc.  Clustering: Detecta y remueve “outliers”.  Inspección combinada humano-computadora: Detecta valores sospechosos automáticamente y los contrasta con opinión humana.  Regresión: Ajusta los datos a través de funciones de regresión. Volver al menú.
  • 23. BIBLIOGRAFÍA  García, S., Ramírez Gallego, S., Luengo, J., & Herrera, F. (s.f.). Big Data: Preprocesamiento y calidad de datos.  Hernández Orallo, J., Ramírez Quintana, M. J., & Ferri Ramírez, C. (2004). Introducción a la Minería de Datos. Pearson. Volver al menú.
  • 24. Esperamos con esto tener una buena aprobación por todos Nos vemos en un próximo proyecto. Todos los derechos reservados Hawkanime® 2018 Toda reproducción parcial o total de estas diapositivas, sin nuestro consentimiento esta completamente prohibido, pero como no tenemos dinero para registrar los derechos de autor no les podemos hacer nada así que piratas aprovechen. ¿Siguen aquí? Ya Dale clic al botón de Salir!!! (Era el de la casita) Volver a la Portada Bueno, dale a este: