SlideShare una empresa de Scribd logo
1 de 16
Limpieza y Transformación de los
             Datos




                       Carlos Lobo Valerio
                Alexander Jiménez Palacios
Introducción
 Generalmente es necesario realizar alguna
  transformación a los datos para obtener materia
  prima adecuada.
 El éxito de un proceso de minería de datos depende
  de tener datos íntegros, completos y consistentes.
 Eliminar información incorrecta o inconsistente.
Integración y limpieza
 La integración generalmente se realiza durante el
  proceso de recopilación o carga de datos.
 La limpieza de datos puede detectar y solucionar
  problemas de datos no resueltos durante la
  integración.
 Evita problemas como datos faltantes, valores
  duplicados y datos incorrectos.
Integración
 Se puede dar de dos maneras:
   Unificar dos o más objetos.
   Separar un objeto en dos o más.
 Ejemplos:
   Separar personas por número de cédula nacional,
    extranjera y pasaporte.
   Unificar formatos: sexo, estado civil, fechas.
Reconocimiento
 Consiste en realizar un resumen de las
  características y observar el modelo para verificar
  errores.
 Algunos aspectos pueden salir a simple vista
   Cinco valores para el sexo.
 Otros aspectos son más difíciles de encontrar, para
 ellos se usan otras herramientas:
   Histogramas
   Gráficas de dispersión
Valores faltantes
 Causas:
  Faltan valores relevantes porque no se pudieron
   obtener.
  No existen los valores.
  Datos incompletos (varios orígenes).
 Tratamiento
  Ignorarlos.
  Eliminar toda la columna.
  Remplazar el valor.
  Segmentar
Valores erróneos
 Algunas veces no es un proceso trivial, clasificar
  y agrupar pueden ayudar.
 Tratamiento:
   Ignorar.
   Eliminar.
   Filtrar.
   Remplazar.
   Discretizar.
Transformación
 Es cualquier proceso que modifique la forma de
 los datos.
   Crear nuevos atributos derivados
   Cambiar el tipo de un atributo
   Cambiar total o parcial una tabla.
Discretización
 Conversión de un valor numérico en un valor
 nominal ordenado.
   Ejemplo: convertir un nota de 0 a 100 en aprobado
   y reprobado.
 Se realiza cuando el error en la medida puede
 ser grande o existen ciertos umbrales
 significativos.
Numerización
 Conversión de un valor nominal en un valor
 numérico.
   Ejemplo: el nivel de estudio de una persona (sin
   estudio, primaria, secundaria, universidad) se
   puede convertir en 0, 1, 2, 4.
Normalización de rango
 Transformar todos los datos respetando un
  mismo rango.
 Se define un mínimo y un máximo y todos los
  valores deben respetarlo.
 Ejemplo:
   Normalizar las distancias recorridas entre ciudades.
Sistema ETL
 Proceso de extracción, transformación y carga.
 Permiten extraer datos de algún origen,
  transformarlo si es necesario y cargarlo en un
  destino.
 Cada organización debe crear su propio sistema
  ETL.
 Existen herramientas que facilitan la creación de
  procesos ETL.
Tareas ETL
 Lectura de datos transaccionales mediante
    consultas SQL.
   Incorporación de datos externos como hojas de
    cálculo, archivos de texto y XML.
   Integración de los datos de diversas fuentes
   Limpieza y transformación de los datos.
   Crear metadatos que describan el proceso ETL
Tareas ETL
 Identificación de cambios en el origen para
  actualizar el destino.
 Planificar la carga y mantenimiento, respetar
  restricciones de integridad, no saturar las BD
 Crear índices y llaves primarias sobre datos
  relevantes o únicos.
 Realizar pruebas de calidad en los datos
  almacenados.
Diagrama ETL
Herramientas ETL
 Microsoft Integratios Services
 XMLoader
 Pentaho Data Integration
 Benetl
 MySQL Migration Toolkit
 Oracle Warehouse Builder
 Scriptella ETL

Más contenido relacionado

La actualidad más candente

Modelos de Base de Datos
Modelos de Base de DatosModelos de Base de Datos
Modelos de Base de Datos
Axel Mérida
 
Bases de Datos Relacionales
Bases de Datos RelacionalesBases de Datos Relacionales
Bases de Datos Relacionales
Arnulfo Gomez
 
Modelo entidad relacion
Modelo entidad relacionModelo entidad relacion
Modelo entidad relacion
danielglot
 
Sistemas de informacion administrativa
Sistemas de informacion administrativaSistemas de informacion administrativa
Sistemas de informacion administrativa
Aime Rodriguez
 

La actualidad más candente (20)

Md unidad 2 2.1 limpieza de datos
Md unidad 2   2.1 limpieza de datosMd unidad 2   2.1 limpieza de datos
Md unidad 2 2.1 limpieza de datos
 
Modelos de Base de Datos
Modelos de Base de DatosModelos de Base de Datos
Modelos de Base de Datos
 
Funciones del DBA, SA Y DA
Funciones del DBA, SA Y DAFunciones del DBA, SA Y DA
Funciones del DBA, SA Y DA
 
Bases de Datos Relacionales
Bases de Datos RelacionalesBases de Datos Relacionales
Bases de Datos Relacionales
 
Técnicas mineria de datos
Técnicas mineria de datosTécnicas mineria de datos
Técnicas mineria de datos
 
Presentacion bases de datos
Presentacion bases de datosPresentacion bases de datos
Presentacion bases de datos
 
Sistema De Gestión De Base De Datos
Sistema De Gestión De Base De DatosSistema De Gestión De Base De Datos
Sistema De Gestión De Base De Datos
 
Inteligencia de Negocios presentacion
Inteligencia de Negocios presentacionInteligencia de Negocios presentacion
Inteligencia de Negocios presentacion
 
Calidad de datos. Preparación y limpieza de los datos
Calidad de datos. Preparación y limpieza de los datosCalidad de datos. Preparación y limpieza de los datos
Calidad de datos. Preparación y limpieza de los datos
 
Modelo entidad relacion
Modelo entidad relacionModelo entidad relacion
Modelo entidad relacion
 
1. Modelo de Datos
1. Modelo de Datos1. Modelo de Datos
1. Modelo de Datos
 
Modelo relacional
Modelo relacionalModelo relacional
Modelo relacional
 
Unidad 1. introducción a las tecnologías de información
Unidad 1. introducción a las tecnologías de informaciónUnidad 1. introducción a las tecnologías de información
Unidad 1. introducción a las tecnologías de información
 
Diseño de entradas para sistemas de información
Diseño de entradas para sistemas de informaciónDiseño de entradas para sistemas de información
Diseño de entradas para sistemas de información
 
cuadro comparativo jerarquico vs democratico
cuadro comparativo jerarquico vs democraticocuadro comparativo jerarquico vs democratico
cuadro comparativo jerarquico vs democratico
 
Conclusión sistemas de informacion
Conclusión sistemas de informacionConclusión sistemas de informacion
Conclusión sistemas de informacion
 
Cuestionario procesos
Cuestionario procesos Cuestionario procesos
Cuestionario procesos
 
Sistemas de informacion administrativa
Sistemas de informacion administrativaSistemas de informacion administrativa
Sistemas de informacion administrativa
 
Algoritmos de busqueda
Algoritmos de busquedaAlgoritmos de busqueda
Algoritmos de busqueda
 
BASES DE DATOS
BASES DE DATOSBASES DE DATOS
BASES DE DATOS
 

Destacado

Procesamiento De Datos
Procesamiento De DatosProcesamiento De Datos
Procesamiento De Datos
Ana kristell
 

Destacado (20)

Transformación de Datos en SPSS
Transformación de Datos en SPSSTransformación de Datos en SPSS
Transformación de Datos en SPSS
 
Informatica Pentaho Etl Tools Comparison
Informatica Pentaho Etl Tools ComparisonInformatica Pentaho Etl Tools Comparison
Informatica Pentaho Etl Tools Comparison
 
Limpieza y transformación de datos
Limpieza y transformación de datosLimpieza y transformación de datos
Limpieza y transformación de datos
 
Mineria de Datos
Mineria de DatosMineria de Datos
Mineria de Datos
 
Data Warehouse Offload
Data Warehouse OffloadData Warehouse Offload
Data Warehouse Offload
 
Transformar en spss
Transformar en spssTransformar en spss
Transformar en spss
 
Integración de Oracle Data Integrator con Oracle GoldenGate 12c
Integración de Oracle Data Integrator  con Oracle GoldenGate 12cIntegración de Oracle Data Integrator  con Oracle GoldenGate 12c
Integración de Oracle Data Integrator con Oracle GoldenGate 12c
 
SolidQ SSIS Framework
SolidQ SSIS FrameworkSolidQ SSIS Framework
SolidQ SSIS Framework
 
ETL: Logging y auditoría en SSIS
ETL: Logging y auditoría en SSISETL: Logging y auditoría en SSIS
ETL: Logging y auditoría en SSIS
 
Webinar: Oracle Data Integrator 12c (25-02-2015)
Webinar: Oracle Data Integrator 12c (25-02-2015)Webinar: Oracle Data Integrator 12c (25-02-2015)
Webinar: Oracle Data Integrator 12c (25-02-2015)
 
Procesamiento De Datos
Procesamiento De DatosProcesamiento De Datos
Procesamiento De Datos
 
Management in Informatica Power Center
Management in Informatica Power CenterManagement in Informatica Power Center
Management in Informatica Power Center
 
Principios de diseño para procesos de ETL
Principios de diseño para procesos de ETLPrincipios de diseño para procesos de ETL
Principios de diseño para procesos de ETL
 
Almacen de datos
Almacen de datosAlmacen de datos
Almacen de datos
 
Competidores y productos de mercado de ETL
Competidores y productos de mercado de ETLCompetidores y productos de mercado de ETL
Competidores y productos de mercado de ETL
 
Etl extracción transformación y carga de datos
Etl extracción transformación y carga de datosEtl extracción transformación y carga de datos
Etl extracción transformación y carga de datos
 
Designing and implementing_an_etl_framework
Designing and implementing_an_etl_frameworkDesigning and implementing_an_etl_framework
Designing and implementing_an_etl_framework
 
Transformación de la información en conocimiento
Transformación de la información en conocimientoTransformación de la información en conocimiento
Transformación de la información en conocimiento
 
Minería de datos
Minería de datosMinería de datos
Minería de datos
 
Manual Scilab
Manual ScilabManual Scilab
Manual Scilab
 

Similar a 1. limpieza y transformación de datos

Calidad de datos (data quality)
Calidad de datos (data quality)Calidad de datos (data quality)
Calidad de datos (data quality)
Sergio Sanchez
 
Unidad vii esp parte 3 clase de inteligencia de negocios (datawarehouse)
Unidad vii esp parte 3 clase de inteligencia de negocios (datawarehouse)Unidad vii esp parte 3 clase de inteligencia de negocios (datawarehouse)
Unidad vii esp parte 3 clase de inteligencia de negocios (datawarehouse)
Titiushko Jazz
 
Unidad vii esp parte 3 clase de inteligencia de negocios (datawarehouse)
Unidad vii esp parte 3 clase de inteligencia de negocios (datawarehouse)Unidad vii esp parte 3 clase de inteligencia de negocios (datawarehouse)
Unidad vii esp parte 3 clase de inteligencia de negocios (datawarehouse)
Titiushko Jazz
 

Similar a 1. limpieza y transformación de datos (20)

Limpieza de datos - Tech Cívica
Limpieza de datos - Tech CívicaLimpieza de datos - Tech Cívica
Limpieza de datos - Tech Cívica
 
ETL
ETLETL
ETL
 
Etl
EtlEtl
Etl
 
Conceptos de minería de datos
Conceptos de minería de datosConceptos de minería de datos
Conceptos de minería de datos
 
Trabajo final
Trabajo finalTrabajo final
Trabajo final
 
Proceso ETL 1.pptx
Proceso ETL 1.pptxProceso ETL 1.pptx
Proceso ETL 1.pptx
 
Calidad de datos (data quality)
Calidad de datos (data quality)Calidad de datos (data quality)
Calidad de datos (data quality)
 
Unidad vii esp parte 3 clase de inteligencia de negocios (datawarehouse)
Unidad vii esp parte 3 clase de inteligencia de negocios (datawarehouse)Unidad vii esp parte 3 clase de inteligencia de negocios (datawarehouse)
Unidad vii esp parte 3 clase de inteligencia de negocios (datawarehouse)
 
Unidad vii esp parte 3 clase de inteligencia de negocios (datawarehouse)
Unidad vii esp parte 3 clase de inteligencia de negocios (datawarehouse)Unidad vii esp parte 3 clase de inteligencia de negocios (datawarehouse)
Unidad vii esp parte 3 clase de inteligencia de negocios (datawarehouse)
 
Microsoft sql server 2008 - ETL
Microsoft sql server 2008 - ETL Microsoft sql server 2008 - ETL
Microsoft sql server 2008 - ETL
 
5 Db2 Etl Cubos
5 Db2 Etl Cubos5 Db2 Etl Cubos
5 Db2 Etl Cubos
 
OpenAnalytics - Taller de Talend 13/02/2014
OpenAnalytics - Taller de Talend 13/02/2014 OpenAnalytics - Taller de Talend 13/02/2014
OpenAnalytics - Taller de Talend 13/02/2014
 
Modelos de bdd y modelos de datos Rafael Olivares
Modelos de bdd y modelos de datos Rafael OlivaresModelos de bdd y modelos de datos Rafael Olivares
Modelos de bdd y modelos de datos Rafael Olivares
 
Presentacion base de datos
Presentacion base de datosPresentacion base de datos
Presentacion base de datos
 
Unidad DidáCtica Iv DiseñO De Bases De Datos Relacionales
Unidad DidáCtica Iv DiseñO De Bases De Datos RelacionalesUnidad DidáCtica Iv DiseñO De Bases De Datos Relacionales
Unidad DidáCtica Iv DiseñO De Bases De Datos Relacionales
 
Base de datos sin601
Base de datos sin601Base de datos sin601
Base de datos sin601
 
Datos e informacion
Datos e informacionDatos e informacion
Datos e informacion
 
Proyecto Final Base De Datos
Proyecto Final Base De DatosProyecto Final Base De Datos
Proyecto Final Base De Datos
 
Resumen fila 4
Resumen  fila 4Resumen  fila 4
Resumen fila 4
 
Resumen fila 4
Resumen  fila 4Resumen  fila 4
Resumen fila 4
 

1. limpieza y transformación de datos

  • 1. Limpieza y Transformación de los Datos Carlos Lobo Valerio Alexander Jiménez Palacios
  • 2. Introducción  Generalmente es necesario realizar alguna transformación a los datos para obtener materia prima adecuada.  El éxito de un proceso de minería de datos depende de tener datos íntegros, completos y consistentes.  Eliminar información incorrecta o inconsistente.
  • 3. Integración y limpieza  La integración generalmente se realiza durante el proceso de recopilación o carga de datos.  La limpieza de datos puede detectar y solucionar problemas de datos no resueltos durante la integración.  Evita problemas como datos faltantes, valores duplicados y datos incorrectos.
  • 4. Integración  Se puede dar de dos maneras:  Unificar dos o más objetos.  Separar un objeto en dos o más.  Ejemplos:  Separar personas por número de cédula nacional, extranjera y pasaporte.  Unificar formatos: sexo, estado civil, fechas.
  • 5. Reconocimiento  Consiste en realizar un resumen de las características y observar el modelo para verificar errores.  Algunos aspectos pueden salir a simple vista  Cinco valores para el sexo.  Otros aspectos son más difíciles de encontrar, para ellos se usan otras herramientas:  Histogramas  Gráficas de dispersión
  • 6. Valores faltantes  Causas:  Faltan valores relevantes porque no se pudieron obtener.  No existen los valores.  Datos incompletos (varios orígenes).  Tratamiento  Ignorarlos.  Eliminar toda la columna.  Remplazar el valor.  Segmentar
  • 7. Valores erróneos  Algunas veces no es un proceso trivial, clasificar y agrupar pueden ayudar.  Tratamiento:  Ignorar.  Eliminar.  Filtrar.  Remplazar.  Discretizar.
  • 8. Transformación  Es cualquier proceso que modifique la forma de los datos.  Crear nuevos atributos derivados  Cambiar el tipo de un atributo  Cambiar total o parcial una tabla.
  • 9. Discretización  Conversión de un valor numérico en un valor nominal ordenado.  Ejemplo: convertir un nota de 0 a 100 en aprobado y reprobado.  Se realiza cuando el error en la medida puede ser grande o existen ciertos umbrales significativos.
  • 10. Numerización  Conversión de un valor nominal en un valor numérico.  Ejemplo: el nivel de estudio de una persona (sin estudio, primaria, secundaria, universidad) se puede convertir en 0, 1, 2, 4.
  • 11. Normalización de rango  Transformar todos los datos respetando un mismo rango.  Se define un mínimo y un máximo y todos los valores deben respetarlo.  Ejemplo:  Normalizar las distancias recorridas entre ciudades.
  • 12. Sistema ETL  Proceso de extracción, transformación y carga.  Permiten extraer datos de algún origen, transformarlo si es necesario y cargarlo en un destino.  Cada organización debe crear su propio sistema ETL.  Existen herramientas que facilitan la creación de procesos ETL.
  • 13. Tareas ETL  Lectura de datos transaccionales mediante consultas SQL.  Incorporación de datos externos como hojas de cálculo, archivos de texto y XML.  Integración de los datos de diversas fuentes  Limpieza y transformación de los datos.  Crear metadatos que describan el proceso ETL
  • 14. Tareas ETL  Identificación de cambios en el origen para actualizar el destino.  Planificar la carga y mantenimiento, respetar restricciones de integridad, no saturar las BD  Crear índices y llaves primarias sobre datos relevantes o únicos.  Realizar pruebas de calidad en los datos almacenados.
  • 16. Herramientas ETL  Microsoft Integratios Services  XMLoader  Pentaho Data Integration  Benetl  MySQL Migration Toolkit  Oracle Warehouse Builder  Scriptella ETL