SlideShare una empresa de Scribd logo
1 de 19
Limpieza de datos
la etapa previa al interrogatorio
Según wikipedia
Limpieza de datos: es el acto de descubrimiento, corrección o eliminación de
datos erróneos de una base de datos.
Transformación de datos: En estadística, la transformación de datos se efectúa
para asegurarse así de que tienen una distribución normal (un remedio para los
valores atípicos, fallas de la normalidad, la linealidad, y homocedasticidad).
Un excel sucio no causa
desastres...
¿o sí?
http://www.cnnexpansion.com/finanzas-personales/2012/01/04/londres-2012-sobrevende-10000-entradas
Historias de horror
Los errores en los datos y en el
manejo de herramientas son tan
comunes que incluso existe una
organización llamada Grupo europeo
de evaluación de riesgos para hojas
de cálculo (ESRIG, por sus siglas en
inglés) y que hace recomendaciones
al usuario para evitar errores cuando
se usa una hoja de cálculo.
La ESRIG se encarga de rastrear
historias trágicas en el manejo de
datos. Si quieres saber más, visita
data errors in spreadsheets have led
to real consequences.
http://www.eusprig.org
“Dirty Data”
Generalmente es necesario realizar alguna limpieza a los
datos para obtener materia prima adecuada.
Reconocimiento
Consiste en realizar un resumen de las características y observar el
modelo para verificar errores.
● Algunos aspectos pueden salir a simple vista
○ Cinco valores para el sexo
● Otros aspectos son más difíciles de encontrar, para ellos se usan
otras herramientas:
○ Histogramas, gráficas de dispersión
Valores faltantes
Causas:
Faltan valores relevantes porque no se
pudieron obtener
No existen los valores
Datos incompletos (varios orígenes)
Tratamiento
Ignorarlos
Eliminar toda la columna
Reemplazar el valor
Segmentar
Limpieza, integración y transformación
Evitar problemas ocasionados por datos faltantes, valores duplicados y datos incorrectos
Valores erróneos
Algunas veces no es un proceso trivial,
clasificar y agrupar pueden ayudar
Tratamiento:
Ignorar
Eliminar
Filtrar
Reemplazar
Discretizar
Integración
Se puede dar de dos maneras:
Unificar dos o más objetos
Separar un objeto en dos o más
Ejemplos
Separar (nombres, apellidos)
Unificar formatos de fechas, sexo, estado
civil
Limpieza, integración y transformación
Transformación
Es cualquier proceso que modifique la forma
de los datos
Crear nuevos atributos
Cambiar tipo de dato
Cambiar total o parcialmente una tabla
Ejemplos
convertir columna en tipo número o fecha
agregar columna edad basado en fecha de
nacimiento
nivel de estudio de una persona (sin estudio,
Tipos de datos
Carácter
por ejemplo para definir sexo (F,M)
Texto
el más común de todos
Boolean
(si, no), (verdadero, falso), (0,1)
Control de flujo
según la opción se toman unos u otros
datos
Número
se puede hacer operaciones con ellos
no siempre es lo que parece
Siempre lleva una
bitácora con todos los
cambios
mantén una copia del archivo original
Pero Phi…
mi base tiene miles de
registros...
¿y ahora qué hago?
Hora de ensuciarse las manos
Veamos algunos ejemplos
OpenRefine
la lavadora de los datos
OpenRefine
http://openrefine.org
Ahora sí a torturar esos datos
hasta que nos digan la verdad
Conclusiones
¿qué opinas? ¿alguna duda?
Esta obra está bajo una Licencia Creative Commons Atribución-CompartirIgual 4.0 Internacional.
http://goo.gl/qupgNz

Más contenido relacionado

La actualidad más candente

TARSecurity : Análisis de Impacto al Negocio (BIA)
TARSecurity : Análisis de Impacto al Negocio (BIA) TARSecurity : Análisis de Impacto al Negocio (BIA)
TARSecurity : Análisis de Impacto al Negocio (BIA) TAR Security
 
Data Warehouse Testing in the Pharmaceutical Industry
Data Warehouse Testing in the Pharmaceutical IndustryData Warehouse Testing in the Pharmaceutical Industry
Data Warehouse Testing in the Pharmaceutical IndustryRTTS
 
Chapter 4: Data Architecture Management
Chapter 4: Data Architecture ManagementChapter 4: Data Architecture Management
Chapter 4: Data Architecture ManagementAhmed Alorage
 
Bring your data to life with Power BI
Bring your data to life with Power BIBring your data to life with Power BI
Bring your data to life with Power BIMicrosoft Österreich
 
Analytics, Business Intelligence, and Data Science - What's the Progression?
Analytics, Business Intelligence, and Data Science - What's the Progression?Analytics, Business Intelligence, and Data Science - What's the Progression?
Analytics, Business Intelligence, and Data Science - What's the Progression?DATAVERSITY
 
Maquinas de vectores
Maquinas de vectoresMaquinas de vectores
Maquinas de vectoresJose Sanchez
 
Data Warehouse Testing: It’s All about the Planning
Data Warehouse Testing: It’s All about the PlanningData Warehouse Testing: It’s All about the Planning
Data Warehouse Testing: It’s All about the PlanningTechWell
 
Check list cuestionario_auditoria_iso_14001
Check list cuestionario_auditoria_iso_14001Check list cuestionario_auditoria_iso_14001
Check list cuestionario_auditoria_iso_14001teenrobin22
 
Etkin Yetki Yönetimi - SAP GRC Access Control
Etkin Yetki Yönetimi - SAP GRC Access ControlEtkin Yetki Yönetimi - SAP GRC Access Control
Etkin Yetki Yönetimi - SAP GRC Access ControlArtius Consulting
 
Creating a Data validation and Testing Strategy
Creating a Data validation and Testing StrategyCreating a Data validation and Testing Strategy
Creating a Data validation and Testing StrategyRTTS
 
Minería de datos
Minería de datosMinería de datos
Minería de datosKeopx
 
Matriz de reconocimiento
Matriz de reconocimientoMatriz de reconocimiento
Matriz de reconocimientoFerchito55
 
1.Unidad1. Fundamentos DataScience.pptx
1.Unidad1. Fundamentos DataScience.pptx1.Unidad1. Fundamentos DataScience.pptx
1.Unidad1. Fundamentos DataScience.pptxRupertoCisneros3
 

La actualidad más candente (20)

TARSecurity : Análisis de Impacto al Negocio (BIA)
TARSecurity : Análisis de Impacto al Negocio (BIA) TARSecurity : Análisis de Impacto al Negocio (BIA)
TARSecurity : Análisis de Impacto al Negocio (BIA)
 
Calidad de datos
Calidad de datos Calidad de datos
Calidad de datos
 
Pruebas De Software
Pruebas De SoftwarePruebas De Software
Pruebas De Software
 
Data Warehouse Testing in the Pharmaceutical Industry
Data Warehouse Testing in the Pharmaceutical IndustryData Warehouse Testing in the Pharmaceutical Industry
Data Warehouse Testing in the Pharmaceutical Industry
 
Chapter 4: Data Architecture Management
Chapter 4: Data Architecture ManagementChapter 4: Data Architecture Management
Chapter 4: Data Architecture Management
 
Data Management for Dummies
Data Management for DummiesData Management for Dummies
Data Management for Dummies
 
Bring your data to life with Power BI
Bring your data to life with Power BIBring your data to life with Power BI
Bring your data to life with Power BI
 
Analytics, Business Intelligence, and Data Science - What's the Progression?
Analytics, Business Intelligence, and Data Science - What's the Progression?Analytics, Business Intelligence, and Data Science - What's the Progression?
Analytics, Business Intelligence, and Data Science - What's the Progression?
 
Power BI - Parte I
Power BI - Parte IPower BI - Parte I
Power BI - Parte I
 
Norma Iso 27001
Norma Iso 27001Norma Iso 27001
Norma Iso 27001
 
Maquinas de vectores
Maquinas de vectoresMaquinas de vectores
Maquinas de vectores
 
Data Warehouse Testing: It’s All about the Planning
Data Warehouse Testing: It’s All about the PlanningData Warehouse Testing: It’s All about the Planning
Data Warehouse Testing: It’s All about the Planning
 
Aprendizaje no supervisado
Aprendizaje no supervisadoAprendizaje no supervisado
Aprendizaje no supervisado
 
Check list cuestionario_auditoria_iso_14001
Check list cuestionario_auditoria_iso_14001Check list cuestionario_auditoria_iso_14001
Check list cuestionario_auditoria_iso_14001
 
Etkin Yetki Yönetimi - SAP GRC Access Control
Etkin Yetki Yönetimi - SAP GRC Access ControlEtkin Yetki Yönetimi - SAP GRC Access Control
Etkin Yetki Yönetimi - SAP GRC Access Control
 
Creating a Data validation and Testing Strategy
Creating a Data validation and Testing StrategyCreating a Data validation and Testing Strategy
Creating a Data validation and Testing Strategy
 
Minería de datos
Minería de datosMinería de datos
Minería de datos
 
Curso Básico SPSS
Curso Básico SPSSCurso Básico SPSS
Curso Básico SPSS
 
Matriz de reconocimiento
Matriz de reconocimientoMatriz de reconocimiento
Matriz de reconocimiento
 
1.Unidad1. Fundamentos DataScience.pptx
1.Unidad1. Fundamentos DataScience.pptx1.Unidad1. Fundamentos DataScience.pptx
1.Unidad1. Fundamentos DataScience.pptx
 

Similar a Limpieza de datos.

Presentación Slideshare Organización de Datos
Presentación Slideshare Organización de DatosPresentación Slideshare Organización de Datos
Presentación Slideshare Organización de Datosdianacanache
 
Presentación Slideshare Organización de Datos
Presentación Slideshare Organización de Datos Presentación Slideshare Organización de Datos
Presentación Slideshare Organización de Datos dianacanache
 
Organización de datos
Organización de datos Organización de datos
Organización de datos RosangelGarca
 
Estrategias fuentes y herramientas para recopilar organizar interpretar y usa...
Estrategias fuentes y herramientas para recopilar organizar interpretar y usa...Estrategias fuentes y herramientas para recopilar organizar interpretar y usa...
Estrategias fuentes y herramientas para recopilar organizar interpretar y usa...Eva Lopez
 
Organización de los Datos(Estadística)
Organización de los Datos(Estadística)Organización de los Datos(Estadística)
Organización de los Datos(Estadística)DuglibethRodriguez
 
Organizacion de datos saia
Organizacion de datos saiaOrganizacion de datos saia
Organizacion de datos saiaanyelaabate
 
Organización de la estadistica
Organización de la estadisticaOrganización de la estadistica
Organización de la estadisticaestef2
 
B Datos _MICELI
B Datos _MICELIB Datos _MICELI
B Datos _MICELImiceli
 
Presentación Organización De Datos
Presentación  Organización De DatosPresentación  Organización De Datos
Presentación Organización De DatosAnyelinaortiz3
 
Asignación#1-Análisis-de-Datos-y-Toma-de-Decisiones-para-Computación.pptx
Asignación#1-Análisis-de-Datos-y-Toma-de-Decisiones-para-Computación.pptxAsignación#1-Análisis-de-Datos-y-Toma-de-Decisiones-para-Computación.pptx
Asignación#1-Análisis-de-Datos-y-Toma-de-Decisiones-para-Computación.pptxssuser2cf2593
 
Dato - Qué es, concepto, ejemplos y tipos de datos.pdf
Dato - Qué es, concepto, ejemplos y tipos de datos.pdfDato - Qué es, concepto, ejemplos y tipos de datos.pdf
Dato - Qué es, concepto, ejemplos y tipos de datos.pdfRichard Daniel Coro Arcayne
 
organización de datos
organización de datosorganización de datos
organización de datosjosegrecova
 
Procesamiento de datos
Procesamiento de datosProcesamiento de datos
Procesamiento de datosSaulen Taicho
 
Calidad de datos (data quality)
Calidad de datos (data quality)Calidad de datos (data quality)
Calidad de datos (data quality)Sergio Sanchez
 
Breve introducción a la estadística descriptiva
Breve introducción a la estadística descriptivaBreve introducción a la estadística descriptiva
Breve introducción a la estadística descriptivaMarcos Torres
 

Similar a Limpieza de datos. (20)

Presentación Slideshare Organización de Datos
Presentación Slideshare Organización de DatosPresentación Slideshare Organización de Datos
Presentación Slideshare Organización de Datos
 
Presentación Slideshare Organización de Datos
Presentación Slideshare Organización de Datos Presentación Slideshare Organización de Datos
Presentación Slideshare Organización de Datos
 
Organización de datos
Organización de datos Organización de datos
Organización de datos
 
Workshop Manipulacion de Datos con R
Workshop Manipulacion de Datos con RWorkshop Manipulacion de Datos con R
Workshop Manipulacion de Datos con R
 
Estrategias fuentes y herramientas para recopilar organizar interpretar y usa...
Estrategias fuentes y herramientas para recopilar organizar interpretar y usa...Estrategias fuentes y herramientas para recopilar organizar interpretar y usa...
Estrategias fuentes y herramientas para recopilar organizar interpretar y usa...
 
Organización de los Datos(Estadística)
Organización de los Datos(Estadística)Organización de los Datos(Estadística)
Organización de los Datos(Estadística)
 
Organizacion de datos saia
Organizacion de datos saiaOrganizacion de datos saia
Organizacion de datos saia
 
Md unidad 2 2.1 limpieza de datos
Md unidad 2   2.1 limpieza de datosMd unidad 2   2.1 limpieza de datos
Md unidad 2 2.1 limpieza de datos
 
Organización de la estadistica
Organización de la estadisticaOrganización de la estadistica
Organización de la estadistica
 
Organizacion de datos
Organizacion de datosOrganizacion de datos
Organizacion de datos
 
B Datos _MICELI
B Datos _MICELIB Datos _MICELI
B Datos _MICELI
 
Organizacion de datos
Organizacion de datosOrganizacion de datos
Organizacion de datos
 
Presentación Organización De Datos
Presentación  Organización De DatosPresentación  Organización De Datos
Presentación Organización De Datos
 
Asignación#1-Análisis-de-Datos-y-Toma-de-Decisiones-para-Computación.pptx
Asignación#1-Análisis-de-Datos-y-Toma-de-Decisiones-para-Computación.pptxAsignación#1-Análisis-de-Datos-y-Toma-de-Decisiones-para-Computación.pptx
Asignación#1-Análisis-de-Datos-y-Toma-de-Decisiones-para-Computación.pptx
 
Dato - Qué es, concepto, ejemplos y tipos de datos.pdf
Dato - Qué es, concepto, ejemplos y tipos de datos.pdfDato - Qué es, concepto, ejemplos y tipos de datos.pdf
Dato - Qué es, concepto, ejemplos y tipos de datos.pdf
 
organización de datos
organización de datosorganización de datos
organización de datos
 
Procesamiento de datos
Procesamiento de datosProcesamiento de datos
Procesamiento de datos
 
Calidad de datos (data quality)
Calidad de datos (data quality)Calidad de datos (data quality)
Calidad de datos (data quality)
 
Organización de datos
Organización de datosOrganización de datos
Organización de datos
 
Breve introducción a la estadística descriptiva
Breve introducción a la estadística descriptivaBreve introducción a la estadística descriptiva
Breve introducción a la estadística descriptiva
 

Último

My loft y ciencia uso de My loft. Explica cómo usar My loft para la ucv.
My loft y ciencia uso de My loft. Explica cómo usar My loft para la ucv.My loft y ciencia uso de My loft. Explica cómo usar My loft para la ucv.
My loft y ciencia uso de My loft. Explica cómo usar My loft para la ucv.FeliGamarra1
 
XNXX.pptxjsjssjsjsjjsjsjsjsjjsjejejejkdkdk
XNXX.pptxjsjssjsjsjjsjsjsjsjjsjejejejkdkdkXNXX.pptxjsjssjsjsjjsjsjsjsjjsjejejejkdkdk
XNXX.pptxjsjssjsjsjjsjsjsjsjjsjejejejkdkdkJuanmanuelYapitamani
 
Seguridad y privacidad (1).pptx OdayYoah
Seguridad y privacidad (1).pptx OdayYoahSeguridad y privacidad (1).pptx OdayYoah
Seguridad y privacidad (1).pptx OdayYoahodalisnicoles
 
Estudio Índice de Igualdad 2024 de Ipsos
Estudio Índice de Igualdad 2024 de IpsosEstudio Índice de Igualdad 2024 de Ipsos
Estudio Índice de Igualdad 2024 de IpsosEmisor Digital
 
Análisis comparativo del olivo en los mercados de Noruega, España y Perú
Análisis comparativo del olivo en los mercados de Noruega, España y PerúAnálisis comparativo del olivo en los mercados de Noruega, España y Perú
Análisis comparativo del olivo en los mercados de Noruega, España y PerúDiegoFranciscoLarrea
 
La semiología se encarga de estudiar los síntomas
La semiología se encarga de estudiar los síntomasLa semiología se encarga de estudiar los síntomas
La semiología se encarga de estudiar los síntomascarmenachullahuamani1
 
Pobreza porcentual por etnia para el año (2024).pdf
Pobreza porcentual por etnia para el año (2024).pdfPobreza porcentual por etnia para el año (2024).pdf
Pobreza porcentual por etnia para el año (2024).pdfJC Díaz Herrera
 
Paisajismo Chino - Vegetacion y su historia
Paisajismo Chino - Vegetacion y su historiaPaisajismo Chino - Vegetacion y su historia
Paisajismo Chino - Vegetacion y su historiaAlexander VA
 
Guía rápida del uso del paquete estadístico Jamovi
Guía rápida del uso del paquete estadístico JamoviGuía rápida del uso del paquete estadístico Jamovi
Guía rápida del uso del paquete estadístico JamoviHugoSSalinas
 
¿Qué es el texto científico? Presentación para la clase de comunicación escri...
¿Qué es el texto científico? Presentación para la clase de comunicación escri...¿Qué es el texto científico? Presentación para la clase de comunicación escri...
¿Qué es el texto científico? Presentación para la clase de comunicación escri...Daniela Márquez Sena
 
Países con mayores líneas de trenes de alta velocidad (2021).pdf
Países con  mayores líneas de trenes de alta velocidad  (2021).pdfPaíses con  mayores líneas de trenes de alta velocidad  (2021).pdf
Países con mayores líneas de trenes de alta velocidad (2021).pdfJC Díaz Herrera
 
La Inteligencia Artificial -AnaliticayDatos-BeatrizGarcia-Abril2024-D.pdf
La Inteligencia Artificial -AnaliticayDatos-BeatrizGarcia-Abril2024-D.pdfLa Inteligencia Artificial -AnaliticayDatos-BeatrizGarcia-Abril2024-D.pdf
La Inteligencia Artificial -AnaliticayDatos-BeatrizGarcia-Abril2024-D.pdfanaliticaydatos
 
CARTA DE ATENAS 1931 - Infografia Patrimonio
CARTA DE ATENAS 1931 - Infografia PatrimonioCARTA DE ATENAS 1931 - Infografia Patrimonio
CARTA DE ATENAS 1931 - Infografia PatrimonioAlexander VA
 
Análisis integral de puesto de trabajo AFRO.pdf
Análisis integral de puesto de trabajo AFRO.pdfAnálisis integral de puesto de trabajo AFRO.pdf
Análisis integral de puesto de trabajo AFRO.pdfJulioCesarRubianoArc1
 
Posición global del PIB per cápita Israelí (1948-2024).pdf
Posición global  del PIB per cápita  Israelí  (1948-2024).pdfPosición global  del PIB per cápita  Israelí  (1948-2024).pdf
Posición global del PIB per cápita Israelí (1948-2024).pdfJC Díaz Herrera
 

Último (15)

My loft y ciencia uso de My loft. Explica cómo usar My loft para la ucv.
My loft y ciencia uso de My loft. Explica cómo usar My loft para la ucv.My loft y ciencia uso de My loft. Explica cómo usar My loft para la ucv.
My loft y ciencia uso de My loft. Explica cómo usar My loft para la ucv.
 
XNXX.pptxjsjssjsjsjjsjsjsjsjjsjejejejkdkdk
XNXX.pptxjsjssjsjsjjsjsjsjsjjsjejejejkdkdkXNXX.pptxjsjssjsjsjjsjsjsjsjjsjejejejkdkdk
XNXX.pptxjsjssjsjsjjsjsjsjsjjsjejejejkdkdk
 
Seguridad y privacidad (1).pptx OdayYoah
Seguridad y privacidad (1).pptx OdayYoahSeguridad y privacidad (1).pptx OdayYoah
Seguridad y privacidad (1).pptx OdayYoah
 
Estudio Índice de Igualdad 2024 de Ipsos
Estudio Índice de Igualdad 2024 de IpsosEstudio Índice de Igualdad 2024 de Ipsos
Estudio Índice de Igualdad 2024 de Ipsos
 
Análisis comparativo del olivo en los mercados de Noruega, España y Perú
Análisis comparativo del olivo en los mercados de Noruega, España y PerúAnálisis comparativo del olivo en los mercados de Noruega, España y Perú
Análisis comparativo del olivo en los mercados de Noruega, España y Perú
 
La semiología se encarga de estudiar los síntomas
La semiología se encarga de estudiar los síntomasLa semiología se encarga de estudiar los síntomas
La semiología se encarga de estudiar los síntomas
 
Pobreza porcentual por etnia para el año (2024).pdf
Pobreza porcentual por etnia para el año (2024).pdfPobreza porcentual por etnia para el año (2024).pdf
Pobreza porcentual por etnia para el año (2024).pdf
 
Paisajismo Chino - Vegetacion y su historia
Paisajismo Chino - Vegetacion y su historiaPaisajismo Chino - Vegetacion y su historia
Paisajismo Chino - Vegetacion y su historia
 
Guía rápida del uso del paquete estadístico Jamovi
Guía rápida del uso del paquete estadístico JamoviGuía rápida del uso del paquete estadístico Jamovi
Guía rápida del uso del paquete estadístico Jamovi
 
¿Qué es el texto científico? Presentación para la clase de comunicación escri...
¿Qué es el texto científico? Presentación para la clase de comunicación escri...¿Qué es el texto científico? Presentación para la clase de comunicación escri...
¿Qué es el texto científico? Presentación para la clase de comunicación escri...
 
Países con mayores líneas de trenes de alta velocidad (2021).pdf
Países con  mayores líneas de trenes de alta velocidad  (2021).pdfPaíses con  mayores líneas de trenes de alta velocidad  (2021).pdf
Países con mayores líneas de trenes de alta velocidad (2021).pdf
 
La Inteligencia Artificial -AnaliticayDatos-BeatrizGarcia-Abril2024-D.pdf
La Inteligencia Artificial -AnaliticayDatos-BeatrizGarcia-Abril2024-D.pdfLa Inteligencia Artificial -AnaliticayDatos-BeatrizGarcia-Abril2024-D.pdf
La Inteligencia Artificial -AnaliticayDatos-BeatrizGarcia-Abril2024-D.pdf
 
CARTA DE ATENAS 1931 - Infografia Patrimonio
CARTA DE ATENAS 1931 - Infografia PatrimonioCARTA DE ATENAS 1931 - Infografia Patrimonio
CARTA DE ATENAS 1931 - Infografia Patrimonio
 
Análisis integral de puesto de trabajo AFRO.pdf
Análisis integral de puesto de trabajo AFRO.pdfAnálisis integral de puesto de trabajo AFRO.pdf
Análisis integral de puesto de trabajo AFRO.pdf
 
Posición global del PIB per cápita Israelí (1948-2024).pdf
Posición global  del PIB per cápita  Israelí  (1948-2024).pdfPosición global  del PIB per cápita  Israelí  (1948-2024).pdf
Posición global del PIB per cápita Israelí (1948-2024).pdf
 

Limpieza de datos.

  • 1. Limpieza de datos la etapa previa al interrogatorio
  • 2. Según wikipedia Limpieza de datos: es el acto de descubrimiento, corrección o eliminación de datos erróneos de una base de datos. Transformación de datos: En estadística, la transformación de datos se efectúa para asegurarse así de que tienen una distribución normal (un remedio para los valores atípicos, fallas de la normalidad, la linealidad, y homocedasticidad).
  • 3. Un excel sucio no causa desastres... ¿o sí?
  • 5. Historias de horror Los errores en los datos y en el manejo de herramientas son tan comunes que incluso existe una organización llamada Grupo europeo de evaluación de riesgos para hojas de cálculo (ESRIG, por sus siglas en inglés) y que hace recomendaciones al usuario para evitar errores cuando se usa una hoja de cálculo. La ESRIG se encarga de rastrear historias trágicas en el manejo de datos. Si quieres saber más, visita data errors in spreadsheets have led to real consequences. http://www.eusprig.org
  • 6. “Dirty Data” Generalmente es necesario realizar alguna limpieza a los datos para obtener materia prima adecuada.
  • 7. Reconocimiento Consiste en realizar un resumen de las características y observar el modelo para verificar errores. ● Algunos aspectos pueden salir a simple vista ○ Cinco valores para el sexo ● Otros aspectos son más difíciles de encontrar, para ellos se usan otras herramientas: ○ Histogramas, gráficas de dispersión
  • 8.
  • 9. Valores faltantes Causas: Faltan valores relevantes porque no se pudieron obtener No existen los valores Datos incompletos (varios orígenes) Tratamiento Ignorarlos Eliminar toda la columna Reemplazar el valor Segmentar Limpieza, integración y transformación Evitar problemas ocasionados por datos faltantes, valores duplicados y datos incorrectos Valores erróneos Algunas veces no es un proceso trivial, clasificar y agrupar pueden ayudar Tratamiento: Ignorar Eliminar Filtrar Reemplazar Discretizar
  • 10. Integración Se puede dar de dos maneras: Unificar dos o más objetos Separar un objeto en dos o más Ejemplos Separar (nombres, apellidos) Unificar formatos de fechas, sexo, estado civil Limpieza, integración y transformación Transformación Es cualquier proceso que modifique la forma de los datos Crear nuevos atributos Cambiar tipo de dato Cambiar total o parcialmente una tabla Ejemplos convertir columna en tipo número o fecha agregar columna edad basado en fecha de nacimiento nivel de estudio de una persona (sin estudio,
  • 11. Tipos de datos Carácter por ejemplo para definir sexo (F,M) Texto el más común de todos Boolean (si, no), (verdadero, falso), (0,1) Control de flujo según la opción se toman unos u otros datos Número se puede hacer operaciones con ellos no siempre es lo que parece
  • 12. Siempre lleva una bitácora con todos los cambios mantén una copia del archivo original
  • 13. Pero Phi… mi base tiene miles de registros... ¿y ahora qué hago?
  • 14. Hora de ensuciarse las manos Veamos algunos ejemplos
  • 17. Ahora sí a torturar esos datos hasta que nos digan la verdad
  • 19. Esta obra está bajo una Licencia Creative Commons Atribución-CompartirIgual 4.0 Internacional. http://goo.gl/qupgNz