2. TECNOLÓGICO NACIONAL DE MÉXICO.
INSTITUTO TECNOLÓGICO DE ACAPULCO.
MINERÍA DE DATOS.
Unidad 2.
Preprocesamiento de Datos.
Tema 2.1
Limpieza de Datos.
3. CONTENIDO
2.1 Limpieza de Datos. 2.1.1 Valores Faltantes. 2.1.2 Ruido en los Datos.
Introducción.
Calidad de Datos.
Bibliografía Créditos.
Proceso de Limpieza de
Datos.
Métodos más usados.
Visión General.
Valores Faltantes. Ruido en los Datos.
Ejemplo
Acciones sobre Datos
Faltantes.
¿Cómo tratar los datos
con ruidos?
5. INTRODUCCIÓN
La limpieza de datos (en inglés data
cleansing o data scrubbing) es el acto de
descubrimiento y corrección o eliminación de
registros de datos erróneos de
una tabla o base de datos.
La limpieza de datos se diferencia de
la validación de datos, que casi siempre
cumple la función de rechazar los registros
erróneos durante la entrada al sistema y no
en lotes de data.
El proceso de limpieza de datos incluye la
validación y además la corrección de datos,
para alcanzar datos de calidad.
Volver al menú.
6. CALIDAD DE DATOS
La calidad de datos debe cumplir con los siguientes requisitos:
Exactitud: Los datos deben cumplir los requisitos de integridad, consistencia y densidad.
Integridad: Los datos deben cumplir los requisitos de entereza y validez.
Entereza: Alcanzado por la corrección de datos que contienen anomalías.
Validez: Alcanzado por la cantidad de datos que satisfacen las restricciones de integridad.
Consistencia: Alcanzado por la corrección de contradicciones y anomalías sintácticas.
Uniformidad: Relacionado con irregularidades.
Densidad: Conocer el cociente de valores omitidos sobre el número de valores totales.
Unicidad: Relacionado con datos duplicados.
Volver al menú.
7. PROCESO DE LIMPIEZA DE DATOS
1. Auditoría de Datos: Los datos son revisados con el
empleo de métodos estadísticos de descubrir
anomalías y contradicciones.
2. Definición de Workflow (Flujo de Trabajo): La
detección y el retiro de anomalías son realizados por
una secuencia de operaciones sobre los datos sabidos
como el workflow. Para alcanzar un workflow
apropiado, se debe identificar las causas de las
anomalías y errores.
Volver al menú.
8. PROCESO DE LIMPIEZA DE DATOS
3. Ejecución de Workflow: En esta etapa, el
workflow es ejecutado después de que su
especificación es completa y su corrección es
verificada.
4. Post-Proceso y Control: Los datos que no
podían ser corregidos durante la ejecución del
workflow deberán ser corregidos manualmente,
de ser posible.
El resultado es un nuevo ciclo en el proceso de
limpieza de datos donde los datos son revisados
nuevamente para ajustarse a las especificaciones de
un workflow adicional y realizar un tratamiento
automático.
Volver al menú.
9. MÉTODOS MÁS USADOS
Análisis: El análisis en la limpieza de datos, es
realizado para la detección de errores de
sintaxis.
Transformación de Datos: La
Transformación de Datos permite al trazar un
mapa de datos, en el formato esperado. Esto
incluye conversiones de valor o funciones de
traducción, así como normalización de
valores numéricos para conformarse a valores
mínimos y máximos.
Volver al menú.
10. MÉTODOS MÁS USADOS
Eliminación de duplicados: La detección
de duplicados requiere un algoritmo para
determinar si los datos contienen
representaciones dobles de la misma
entidad.
Método Estadístico: Incluye analizar los
datos usando promedios, desviación
estándar, rangos, o algoritmos de clúster,
este análisis se realiza por expertos que
identifican errores.
Volver al menú.
11. VISIÓN GENERAL
Limpieza de
Datos
Falta de datos
Omitir la tupla
Poner el valor
manual
Utilizar una
constante
Poner el valor
promedio
Poner el valor
medio
Utilizar el valor
mas probable
Datos con ruido
Binning
Clustering
Equipo e
inspección
humana
Regresión
Datos
incoherentes
Referencias
externas
Integración y
eliminación de
datos
Volver al menú.
13. 2.1.1 VALORES FALTANTES
Los valores faltantes, perdidos o ausentes (missing values) pueden ser
reemplazados por varias razones.
En primer lugar, el método de minería de datos que utilicemos puede no tratar
bien los campos faltantes.
En segundo lugar, podemos querer agregar los datos (especialmente los
numéricos) para realizar otras vistas minables y que los valores faltantes no nos
permitan agregar correctamente (totales, medias, etc.).
En tercer lugar, si el método es capaz de tratar campos faltantes es posible que
ignore todo el ejemplo (produciendo un sesgo) o es posible que tenga un
método de sustitución de campos faltantes que no sea adecuado debido a que
no conoce el contexto asociado al atributo faltante.
Volver al menú.
14. 2.1.1 VALORES FALTANTES
Tanto para la detección, como para su tratamiento
posterior, es importante saber el porqué de los
valores faltantes.
Algunos valores expresan características
relevantes.
Valores no existentes.
Datos incompletos
Volver al menú.
15. ACCIONES SOBRE DATOS FALTANTES
Las posibles acciones sobre datos faltantes son:
1. Ignorar (dejar pasar); algunos algoritmos son robustos a datos faltantes
(por ejemplos arboles de decisión).
2. Eliminar (filtrar o reemplazar) toda la columna (es decir quitar el
atributo para todos los ejemplos): solución extrema, pero a veces la
proporción de nulos están alta que la columna no tiene arreglo.
3. Filtrar la fila: claramente sesga los datos, porque muchas veces las
causas de un dato faltante están relacionadas con casos o tipos
especiales.
Volver al menú.
16. ACCIONES SOBRE DATOS FALTANTES
3. Reemplazar el valor: se puede intentar reemplazar el valor manualmente
(en el caso de que no haya muchos) o automáticamente por un valor que
preserve la media o la varianza (globales o por clases/grupos), en el caso
de valores numéricos, o por el valor moda, en el caso de valores
nominales
4. Segmentar: se segmentan las tuplas por los valores que tienen
disponibles. Se obtienen modelos diferentes para cada segmento y luego
se combinan.
5. Modificar: la política de calidad de datos y esperar hasta que los datos
faltantes estén disponibles.
Volver al menú.
18. 2.1.2 RUIDO EN LOS DATOS
El ruido en los datos puede estar atribuido a errores en la
medida, transmisión de datos, características inherentes a
los sistemas de los cuales se obtienen los datos, etc.
El ruido en los datos, es el error aleatorio o varianza en una
variable medida, los valores de atributos incorrectos se
deben a:
Instrumentos de medición erróneos.
Problemas en la entrada de datos.
Problemas en la transmisión.
Limitaciones tecnológicas.
Volver al menú.
19. 2.1.2 RUIDO EN LOS DATOS
El ruido en los datos, es el error aleatorio o varianza en una variable medida,
los valores de atributos incorrectos se deben a:
Instrumentos de medición erróneos.
Problemas en la entrada de datos.
Problemas en la transmisión.
Limitaciones tecnológicas.
Volver al menú.
20. EJEMPLO
Supongamos que tenemos la siguiente
relación entre dos variables
y = x2 – x + 2
Si graficamos esta relación veremos
que para cada valor de X existe
solamente un valor de Y posible.
Volver al menú.
21. EJEMPLO
Supongamos ahora que los datos tienen
la siguiente particularidad: para un
mismo valor de X pueden existir varios
valores de Y. O sea, ahora si existen
varias filas en donde X es 5, no
necesariamente el valor de Y será en
todas ellas 22. Podría ser que en algunas
sea 20, en otras 22 y en otras 30.
Estos nuevos datos
contienen ruido porque para una misma
señal (en nuestro ejemplo la señal es el
valor de X) existen distintos valores que
puede tomar la variable a predecir.
Volver al menú.
22. ¿CÓMO TRATAR LOS DATOS CON RUIDOS?
Existen varios métodos como:
Método de cubas (Binning method): el cual ordena primeros los datos y
los particiona en cubas de igual profundidad, luego se suaviza por medias
de cubas, frontera de cubas, etc.
Clustering: Detecta y remueve “outliers”.
Inspección combinada humano-computadora: Detecta valores
sospechosos automáticamente y los contrasta con opinión humana.
Regresión: Ajusta los datos a través de funciones de regresión.
Volver al menú.
23. BIBLIOGRAFÍA
García, S., Ramírez Gallego, S., Luengo, J., & Herrera, F. (s.f.). Big Data:
Preprocesamiento y calidad de datos.
Hernández Orallo, J., Ramírez Quintana, M. J., & Ferri Ramírez, C. (2004).
Introducción a la Minería de Datos. Pearson.
Volver al menú.
24. Esperamos con esto tener una buena aprobación por todos
Nos vemos en un próximo proyecto.
Todos los derechos reservados Hawkanime® 2018
Toda reproducción parcial o total de estas diapositivas, sin nuestro
consentimiento esta completamente prohibido, pero como no tenemos
dinero para registrar los derechos de autor no les podemos hacer nada
así que piratas aprovechen.
¿Siguen aquí?
Ya Dale clic al botón de Salir!!! (Era el de la casita)
Volver a la
Portada
Bueno, dale a este: