2. Introducción
Generalmente es necesario realizar alguna
transformación a los datos para obtener materia
prima adecuada.
El éxito de un proceso de minería de datos depende
de tener datos íntegros, completos y consistentes.
Eliminar información incorrecta o inconsistente.
3. Integración y limpieza
La integración generalmente se realiza durante el
proceso de recopilación o carga de datos.
La limpieza de datos puede detectar y solucionar
problemas de datos no resueltos durante la
integración.
Evita problemas como datos faltantes, valores
duplicados y datos incorrectos.
4. Integración
Se puede dar de dos maneras:
Unificar dos o más objetos.
Separar un objeto en dos o más.
Ejemplos:
Separar personas por número de cédula nacional,
extranjera y pasaporte.
Unificar formatos: sexo, estado civil, fechas.
5. Reconocimiento
Consiste en realizar un resumen de las
características y observar el modelo para verificar
errores.
Algunos aspectos pueden salir a simple vista
Cinco valores para el sexo.
Otros aspectos son más difíciles de encontrar, para
ellos se usan otras herramientas:
Histogramas
Gráficas de dispersión
6. Valores faltantes
Causas:
Faltan valores relevantes porque no se pudieron
obtener.
No existen los valores.
Datos incompletos (varios orígenes).
Tratamiento
Ignorarlos.
Eliminar toda la columna.
Remplazar el valor.
Segmentar
7. Valores erróneos
Algunas veces no es un proceso trivial, clasificar
y agrupar pueden ayudar.
Tratamiento:
Ignorar.
Eliminar.
Filtrar.
Remplazar.
Discretizar.
8. Transformación
Es cualquier proceso que modifique la forma de
los datos.
Crear nuevos atributos derivados
Cambiar el tipo de un atributo
Cambiar total o parcial una tabla.
9. Discretización
Conversión de un valor numérico en un valor
nominal ordenado.
Ejemplo: convertir un nota de 0 a 100 en aprobado
y reprobado.
Se realiza cuando el error en la medida puede
ser grande o existen ciertos umbrales
significativos.
10. Numerización
Conversión de un valor nominal en un valor
numérico.
Ejemplo: el nivel de estudio de una persona (sin
estudio, primaria, secundaria, universidad) se
puede convertir en 0, 1, 2, 4.
11. Normalización de rango
Transformar todos los datos respetando un
mismo rango.
Se define un mínimo y un máximo y todos los
valores deben respetarlo.
Ejemplo:
Normalizar las distancias recorridas entre ciudades.
12. Sistema ETL
Proceso de extracción, transformación y carga.
Permiten extraer datos de algún origen,
transformarlo si es necesario y cargarlo en un
destino.
Cada organización debe crear su propio sistema
ETL.
Existen herramientas que facilitan la creación de
procesos ETL.
13. Tareas ETL
Lectura de datos transaccionales mediante
consultas SQL.
Incorporación de datos externos como hojas de
cálculo, archivos de texto y XML.
Integración de los datos de diversas fuentes
Limpieza y transformación de los datos.
Crear metadatos que describan el proceso ETL
14. Tareas ETL
Identificación de cambios en el origen para
actualizar el destino.
Planificar la carga y mantenimiento, respetar
restricciones de integridad, no saturar las BD
Crear índices y llaves primarias sobre datos
relevantes o únicos.
Realizar pruebas de calidad en los datos
almacenados.