Limpieza y Transformación de los
             Datos




                       Carlos Lobo Valerio
                Alexander Jiménez Palacios
Introducción
 Generalmente es necesario realizar alguna
  transformación a los datos para obtener materia
  prima adecuada.
 El éxito de un proceso de minería de datos depende
  de tener datos íntegros, completos y consistentes.
 Eliminar información incorrecta o inconsistente.
Integración y limpieza
 La integración generalmente se realiza durante el
  proceso de recopilación o carga de datos.
 La limpieza de datos puede detectar y solucionar
  problemas de datos no resueltos durante la
  integración.
 Evita problemas como datos faltantes, valores
  duplicados y datos incorrectos.
Integración
 Se puede dar de dos maneras:
   Unificar dos o más objetos.
   Separar un objeto en dos o más.
 Ejemplos:
   Separar personas por número de cédula nacional,
    extranjera y pasaporte.
   Unificar formatos: sexo, estado civil, fechas.
Reconocimiento
 Consiste en realizar un resumen de las
  características y observar el modelo para verificar
  errores.
 Algunos aspectos pueden salir a simple vista
   Cinco valores para el sexo.
 Otros aspectos son más difíciles de encontrar, para
 ellos se usan otras herramientas:
   Histogramas
   Gráficas de dispersión
Valores faltantes
 Causas:
  Faltan valores relevantes porque no se pudieron
   obtener.
  No existen los valores.
  Datos incompletos (varios orígenes).
 Tratamiento
  Ignorarlos.
  Eliminar toda la columna.
  Remplazar el valor.
  Segmentar
Valores erróneos
 Algunas veces no es un proceso trivial, clasificar
  y agrupar pueden ayudar.
 Tratamiento:
   Ignorar.
   Eliminar.
   Filtrar.
   Remplazar.
   Discretizar.
Transformación
 Es cualquier proceso que modifique la forma de
 los datos.
   Crear nuevos atributos derivados
   Cambiar el tipo de un atributo
   Cambiar total o parcial una tabla.
Discretización
 Conversión de un valor numérico en un valor
 nominal ordenado.
   Ejemplo: convertir un nota de 0 a 100 en aprobado
   y reprobado.
 Se realiza cuando el error en la medida puede
 ser grande o existen ciertos umbrales
 significativos.
Numerización
 Conversión de un valor nominal en un valor
 numérico.
   Ejemplo: el nivel de estudio de una persona (sin
   estudio, primaria, secundaria, universidad) se
   puede convertir en 0, 1, 2, 4.
Normalización de rango
 Transformar todos los datos respetando un
  mismo rango.
 Se define un mínimo y un máximo y todos los
  valores deben respetarlo.
 Ejemplo:
   Normalizar las distancias recorridas entre ciudades.
Sistema ETL
 Proceso de extracción, transformación y carga.
 Permiten extraer datos de algún origen,
  transformarlo si es necesario y cargarlo en un
  destino.
 Cada organización debe crear su propio sistema
  ETL.
 Existen herramientas que facilitan la creación de
  procesos ETL.
Tareas ETL
 Lectura de datos transaccionales mediante
    consultas SQL.
   Incorporación de datos externos como hojas de
    cálculo, archivos de texto y XML.
   Integración de los datos de diversas fuentes
   Limpieza y transformación de los datos.
   Crear metadatos que describan el proceso ETL
Tareas ETL
 Identificación de cambios en el origen para
  actualizar el destino.
 Planificar la carga y mantenimiento, respetar
  restricciones de integridad, no saturar las BD
 Crear índices y llaves primarias sobre datos
  relevantes o únicos.
 Realizar pruebas de calidad en los datos
  almacenados.
Diagrama ETL
Herramientas ETL
 Microsoft Integratios Services
 XMLoader
 Pentaho Data Integration
 Benetl
 MySQL Migration Toolkit
 Oracle Warehouse Builder
 Scriptella ETL

1. limpieza y transformación de datos

  • 1.
    Limpieza y Transformaciónde los Datos Carlos Lobo Valerio Alexander Jiménez Palacios
  • 2.
    Introducción  Generalmente esnecesario realizar alguna transformación a los datos para obtener materia prima adecuada.  El éxito de un proceso de minería de datos depende de tener datos íntegros, completos y consistentes.  Eliminar información incorrecta o inconsistente.
  • 3.
    Integración y limpieza La integración generalmente se realiza durante el proceso de recopilación o carga de datos.  La limpieza de datos puede detectar y solucionar problemas de datos no resueltos durante la integración.  Evita problemas como datos faltantes, valores duplicados y datos incorrectos.
  • 4.
    Integración  Se puededar de dos maneras:  Unificar dos o más objetos.  Separar un objeto en dos o más.  Ejemplos:  Separar personas por número de cédula nacional, extranjera y pasaporte.  Unificar formatos: sexo, estado civil, fechas.
  • 5.
    Reconocimiento  Consiste enrealizar un resumen de las características y observar el modelo para verificar errores.  Algunos aspectos pueden salir a simple vista  Cinco valores para el sexo.  Otros aspectos son más difíciles de encontrar, para ellos se usan otras herramientas:  Histogramas  Gráficas de dispersión
  • 6.
    Valores faltantes  Causas:  Faltan valores relevantes porque no se pudieron obtener.  No existen los valores.  Datos incompletos (varios orígenes).  Tratamiento  Ignorarlos.  Eliminar toda la columna.  Remplazar el valor.  Segmentar
  • 7.
    Valores erróneos  Algunasveces no es un proceso trivial, clasificar y agrupar pueden ayudar.  Tratamiento:  Ignorar.  Eliminar.  Filtrar.  Remplazar.  Discretizar.
  • 8.
    Transformación  Es cualquierproceso que modifique la forma de los datos.  Crear nuevos atributos derivados  Cambiar el tipo de un atributo  Cambiar total o parcial una tabla.
  • 9.
    Discretización  Conversión deun valor numérico en un valor nominal ordenado.  Ejemplo: convertir un nota de 0 a 100 en aprobado y reprobado.  Se realiza cuando el error en la medida puede ser grande o existen ciertos umbrales significativos.
  • 10.
    Numerización  Conversión deun valor nominal en un valor numérico.  Ejemplo: el nivel de estudio de una persona (sin estudio, primaria, secundaria, universidad) se puede convertir en 0, 1, 2, 4.
  • 11.
    Normalización de rango Transformar todos los datos respetando un mismo rango.  Se define un mínimo y un máximo y todos los valores deben respetarlo.  Ejemplo:  Normalizar las distancias recorridas entre ciudades.
  • 12.
    Sistema ETL  Procesode extracción, transformación y carga.  Permiten extraer datos de algún origen, transformarlo si es necesario y cargarlo en un destino.  Cada organización debe crear su propio sistema ETL.  Existen herramientas que facilitan la creación de procesos ETL.
  • 13.
    Tareas ETL  Lecturade datos transaccionales mediante consultas SQL.  Incorporación de datos externos como hojas de cálculo, archivos de texto y XML.  Integración de los datos de diversas fuentes  Limpieza y transformación de los datos.  Crear metadatos que describan el proceso ETL
  • 14.
    Tareas ETL  Identificaciónde cambios en el origen para actualizar el destino.  Planificar la carga y mantenimiento, respetar restricciones de integridad, no saturar las BD  Crear índices y llaves primarias sobre datos relevantes o únicos.  Realizar pruebas de calidad en los datos almacenados.
  • 15.
  • 16.
    Herramientas ETL  MicrosoftIntegratios Services  XMLoader  Pentaho Data Integration  Benetl  MySQL Migration Toolkit  Oracle Warehouse Builder  Scriptella ETL