SlideShare una empresa de Scribd logo
1 de 1
Descargar para leer sin conexión
-
- -
-
...
...
['17
--
■
datos.gob.es
►
[fü~ ra
[[~ 1 1111
P,3~
•
•
-
ra
•
.o
01
/!
J
•
- ' 1 ,
..
ANÁLISIS EXPLORATORIO DE DATOS (EDA)
Guía Práctica de Introducción al Análisis Exploratorio de Datos
1¿QUÉ ES?
Conjunto de técnicas estadísticas dirigidas a explorar,
describir y resumir la información que contienen los
datos, maximizando su comprensión.
Gracias a ello puedes:
Realizar un Identificar
análisis descriptivo posibles errores
Revelar la presencia Comprobar la relación
de datos atípicos entre las variables
¿POR QUÉ ES
IMPORTANTE?
Las técnicas estadísticas de análisis de datos y el machine learning
presuponen el cumplimiento de unas condiciones previas para
garantizar la objetividad e interoperabilidad de los datos.
El EDA es esencial para garantizar que los resultados de
cualquier análisis estadístico sean consistentes y veraces.
¿CUÁLES SON LOS
PASOS A SEGUIR?
2 Fuente: Se ha tomado como referencia
el libro R for Data Science de
Wickman y Grolemund (2017)
DATOS BRUTOS CONCLUSIONES
ANÁLISIS EXPLORATORIO
DE DATOS (EDA)
ANÁLISIS
DESCRIPTIVO
AJUSTE DE
TIPOS DE
VARIABLES
DETECCIÓN
Y TRATAMIENTO
DE DATOS
AUSENTES
IDENTIFICACIÓN
DE DATOS
ATÍPICOS
CORRELACIÓN
DE VARIABLES
ANÁLISIS DESCRIPTIVO
• ¿Qué es? Síntesis de la información que proporciona el
conjunto de datos, extrayendo sus características más
representativas.
• ¿Por qué es necesario? Permite conocer los tipos de
datos, descubrir patrones y preparar los datos para futuros
análisis.
• Tratamiento: Aplicar funciones de estadística descriptiva
para explorar la estructura del conjunto de datos, examinar
los datos y las variables que presenta.
RE-AJUSTE DE LOS
TIPOS DE VARIABLES
1 2
• ¿Qué es? Verificar que las variables se han almacenado con el tipo
de valor correspondiente.
• ¿Por qué es necesario? Una mala codificación de las variables
puede influir negativamente en la agrupación de los datos o los
resultados de los análisis.
• Tratamiento: Aplicar la codificación apropiada para cada una de
las variables.
DETECCIÓN Y TRATAMIENTO
DE DATOS AUSENTES
¿Qué es? Identificar la falta de algunos de los datos en
la variable.
• ¿Por qué es necesario? Los datos ausentes pueden
generar problemas a la hora de aplicar técnicas de
machine learning, elaborar modelos predictivos, realizar
análisis estadísticos o generar representaciones gráficas.
• Tratamiento: Existen varias maneras de tratar los
valores ausentes, como por ejemplo sustituirlos por la
media o la mediana, o completar los valores faltantes
con el valor anterior o posterior de la columna.
DETECCIÓN Y TRATAMIENTO
DE DATOS ATÍPICOS
3 4
5
• ¿Qué es? Identificar datos con valores significativamente distintos
a los que presenta la variable.
• ¿Por qué es necesario su tratamiento? Pueden modificar los
resultados y restar potencia a los análisis estadísticos o técnicas de
machine learning aplicadas.
• Tratamiento: Disminuir su influencia en análisis posteriores o, en
casos muy extremos, eliminarlos del conjunto de datos.
ANÁLISIS DE CORRELACIÓN
DE VARIABLES
¿Qué es? Analizar la relación entre dos o más variables.
• ¿Por qué es necesario? Entre otras razones, para descartar
posibles variables que aporten información redundante en
el conjunto de datos, ocasionando ruido en los análisis.
• Tratamiento: Calcular los coeficientes de correlación para
las variables para detectar coeficientes cercanos a 1 o -1.
-
[§J
(1---,'. Oi
'
-~_y -{>
{>-
(í~✓
)<{
..'1, ..
- -
, '
,,,
•
• •
•
L' -
/V
-
0
º0
□
¿, ~
e
.. , 1 , ..
, '
, "
o
3 ¿QUIERES SABER MÁS?
Descubre la “Guía Práctica
de Introducción al Análisis
Exploratorio de Datos”
Aprende las técnicas anteriores mediante
el desarrollo de un caso práctico.
Metodología para el ejemplo práctico:
•Conjunto de datos utilizado: registro de la calidad del
aire en Castilla y León.
•Herramientas utilizadas: código R en el entorno de
programación RStudio

Más contenido relacionado

La actualidad más candente

Five Things I Wish I Knew the First Day I Used Tableau
Five Things I Wish I Knew the First Day I Used TableauFive Things I Wish I Knew the First Day I Used Tableau
Five Things I Wish I Knew the First Day I Used TableauRyan Sleeper
 
Introduction of Data Science
Introduction of Data ScienceIntroduction of Data Science
Introduction of Data ScienceJason Geng
 
Importance of Data Analytics
 Importance of Data Analytics Importance of Data Analytics
Importance of Data AnalyticsProduct School
 
Data Wrangling_1.pptx
Data Wrangling_1.pptxData Wrangling_1.pptx
Data Wrangling_1.pptxPallabiSahoo5
 
Exploratory data analysis with Python
Exploratory data analysis with PythonExploratory data analysis with Python
Exploratory data analysis with PythonDavis David
 
AstraZeneca - Re-imagining the Data Landscape in Compound Synthesis & Management
AstraZeneca - Re-imagining the Data Landscape in Compound Synthesis & ManagementAstraZeneca - Re-imagining the Data Landscape in Compound Synthesis & Management
AstraZeneca - Re-imagining the Data Landscape in Compound Synthesis & ManagementNeo4j
 
Data Analytics For Beginners | Introduction To Data Analytics | Data Analytic...
Data Analytics For Beginners | Introduction To Data Analytics | Data Analytic...Data Analytics For Beginners | Introduction To Data Analytics | Data Analytic...
Data Analytics For Beginners | Introduction To Data Analytics | Data Analytic...Edureka!
 
Brief introduction to data visualization
Brief introduction to data visualizationBrief introduction to data visualization
Brief introduction to data visualizationZach Gemignani
 
Introduction of Knowledge Graphs
Introduction of Knowledge GraphsIntroduction of Knowledge Graphs
Introduction of Knowledge GraphsJeff Z. Pan
 
Data Analaytics.04. Data visualization
Data Analaytics.04. Data visualizationData Analaytics.04. Data visualization
Data Analaytics.04. Data visualizationAlex Rayón Jerez
 
Visualization For Data Science
Visualization For Data ScienceVisualization For Data Science
Visualization For Data ScienceAngela Zoss
 
Introducción a la Ciencia de Datos
Introducción a la Ciencia de DatosIntroducción a la Ciencia de Datos
Introducción a la Ciencia de DatosEsteban Vallejo
 
Data Modeling Fundamentals
Data Modeling FundamentalsData Modeling Fundamentals
Data Modeling FundamentalsDATAVERSITY
 
Understanding Retail Catchment Areas with Human Mobility Data
Understanding Retail Catchment Areas with Human Mobility DataUnderstanding Retail Catchment Areas with Human Mobility Data
Understanding Retail Catchment Areas with Human Mobility DataCARTO
 
The Importance of Data Visualization
The Importance of Data VisualizationThe Importance of Data Visualization
The Importance of Data VisualizationCenterline Digital
 
QlikView Tutorial For Beginners | What Is QlikView | Qlikview Tutorial | Qlik...
QlikView Tutorial For Beginners | What Is QlikView | Qlikview Tutorial | Qlik...QlikView Tutorial For Beginners | What Is QlikView | Qlikview Tutorial | Qlik...
QlikView Tutorial For Beginners | What Is QlikView | Qlikview Tutorial | Qlik...Edureka!
 

La actualidad más candente (20)

Five Things I Wish I Knew the First Day I Used Tableau
Five Things I Wish I Knew the First Day I Used TableauFive Things I Wish I Knew the First Day I Used Tableau
Five Things I Wish I Knew the First Day I Used Tableau
 
Introduction of Data Science
Introduction of Data ScienceIntroduction of Data Science
Introduction of Data Science
 
Importance of Data Analytics
 Importance of Data Analytics Importance of Data Analytics
Importance of Data Analytics
 
Data Wrangling_1.pptx
Data Wrangling_1.pptxData Wrangling_1.pptx
Data Wrangling_1.pptx
 
Data Science Chapter3.pdf
Data Science Chapter3.pdfData Science Chapter3.pdf
Data Science Chapter3.pdf
 
Exploratory data analysis with Python
Exploratory data analysis with PythonExploratory data analysis with Python
Exploratory data analysis with Python
 
Introduccion a PowerBI
Introduccion a PowerBIIntroduccion a PowerBI
Introduccion a PowerBI
 
AstraZeneca - Re-imagining the Data Landscape in Compound Synthesis & Management
AstraZeneca - Re-imagining the Data Landscape in Compound Synthesis & ManagementAstraZeneca - Re-imagining the Data Landscape in Compound Synthesis & Management
AstraZeneca - Re-imagining the Data Landscape in Compound Synthesis & Management
 
Data Analytics For Beginners | Introduction To Data Analytics | Data Analytic...
Data Analytics For Beginners | Introduction To Data Analytics | Data Analytic...Data Analytics For Beginners | Introduction To Data Analytics | Data Analytic...
Data Analytics For Beginners | Introduction To Data Analytics | Data Analytic...
 
Brief introduction to data visualization
Brief introduction to data visualizationBrief introduction to data visualization
Brief introduction to data visualization
 
Introduction of Knowledge Graphs
Introduction of Knowledge GraphsIntroduction of Knowledge Graphs
Introduction of Knowledge Graphs
 
Data Analaytics.04. Data visualization
Data Analaytics.04. Data visualizationData Analaytics.04. Data visualization
Data Analaytics.04. Data visualization
 
Visualization For Data Science
Visualization For Data ScienceVisualization For Data Science
Visualization For Data Science
 
Data preprocessing
Data preprocessingData preprocessing
Data preprocessing
 
Introducción a la Ciencia de Datos
Introducción a la Ciencia de DatosIntroducción a la Ciencia de Datos
Introducción a la Ciencia de Datos
 
Data Modeling Fundamentals
Data Modeling FundamentalsData Modeling Fundamentals
Data Modeling Fundamentals
 
Understanding Retail Catchment Areas with Human Mobility Data
Understanding Retail Catchment Areas with Human Mobility DataUnderstanding Retail Catchment Areas with Human Mobility Data
Understanding Retail Catchment Areas with Human Mobility Data
 
The Importance of Data Visualization
The Importance of Data VisualizationThe Importance of Data Visualization
The Importance of Data Visualization
 
QlikView Tutorial For Beginners | What Is QlikView | Qlikview Tutorial | Qlik...
QlikView Tutorial For Beginners | What Is QlikView | Qlikview Tutorial | Qlik...QlikView Tutorial For Beginners | What Is QlikView | Qlikview Tutorial | Qlik...
QlikView Tutorial For Beginners | What Is QlikView | Qlikview Tutorial | Qlik...
 
Data preprocessing ng
Data preprocessing   ngData preprocessing   ng
Data preprocessing ng
 

Similar a Guía Práctica de Introducción al Análisis Exploratorio de Datos

_Mundo de los Datos (1).pdf
_Mundo de los Datos  (1).pdf_Mundo de los Datos  (1).pdf
_Mundo de los Datos (1).pdfKamZee1
 
Qué, cómo y por qué del análisis descriptivo e inferencial y la prueba hipoté...
Qué, cómo y por qué del análisis descriptivo e inferencial y la prueba hipoté...Qué, cómo y por qué del análisis descriptivo e inferencial y la prueba hipoté...
Qué, cómo y por qué del análisis descriptivo e inferencial y la prueba hipoté...Noelia Fernandez
 
5 Semana Analisis Multivariante Parte I
5 Semana Analisis Multivariante Parte I5 Semana Analisis Multivariante Parte I
5 Semana Analisis Multivariante Parte Ijpgv84
 
Electiva iii parcial 2 - 02-minería de datos
Electiva iii   parcial 2 - 02-minería de datosElectiva iii   parcial 2 - 02-minería de datos
Electiva iii parcial 2 - 02-minería de datosArlin11
 
MATERIALES ,METODOS, PLAN DE ANALISIS.pptx
MATERIALES ,METODOS, PLAN DE ANALISIS.pptxMATERIALES ,METODOS, PLAN DE ANALISIS.pptx
MATERIALES ,METODOS, PLAN DE ANALISIS.pptxNataliaVelasquez34
 
procesamientoyanalisisdedatos-140404003900-phpapp02 (1).pptx
procesamientoyanalisisdedatos-140404003900-phpapp02 (1).pptxprocesamientoyanalisisdedatos-140404003900-phpapp02 (1).pptx
procesamientoyanalisisdedatos-140404003900-phpapp02 (1).pptxShelemMartinezRuiz
 
Analisis de datos cuantitativos
Analisis de datos cuantitativosAnalisis de datos cuantitativos
Analisis de datos cuantitativosCarmen Fuentes
 
Procesamiento y analisis de datos
Procesamiento y analisis de datosProcesamiento y analisis de datos
Procesamiento y analisis de datosfelixeguzman
 
El Análisis de Datos en la Analítica Predictiva
El Análisis de Datos en la Analítica PredictivaEl Análisis de Datos en la Analítica Predictiva
El Análisis de Datos en la Analítica PredictivaLPI ONG
 
513967605-Analisis-de-los-datos-cuantitativos-Diapo.pptx
513967605-Analisis-de-los-datos-cuantitativos-Diapo.pptx513967605-Analisis-de-los-datos-cuantitativos-Diapo.pptx
513967605-Analisis-de-los-datos-cuantitativos-Diapo.pptxLuzMaryBastidasCastr
 
Parte_04_HerCal.ppt
Parte_04_HerCal.pptParte_04_HerCal.ppt
Parte_04_HerCal.pptjgarciambt
 
Blog, conceptos de programación, métodos estadísticos
Blog, conceptos de programación, métodos estadísticosBlog, conceptos de programación, métodos estadísticos
Blog, conceptos de programación, métodos estadísticosLauraOspina49
 
Blog, conceptos de programación, métodos estadísticos
Blog, conceptos de programación, métodos estadísticosBlog, conceptos de programación, métodos estadísticos
Blog, conceptos de programación, métodos estadísticosdaniela515873
 
Blog, conceptos de programación, métodos estadísticos
Blog, conceptos de programación, métodos estadísticosBlog, conceptos de programación, métodos estadísticos
Blog, conceptos de programación, métodos estadísticoslauraflorez65
 
herramientas de la calidad estadisticas .pdf
herramientas de la calidad estadisticas .pdfherramientas de la calidad estadisticas .pdf
herramientas de la calidad estadisticas .pdfARACELIGINESZARATE1
 
Analisis presentacioninterpretaciondiscusionconcluusionesyrecomendaciones
Analisis presentacioninterpretaciondiscusionconcluusionesyrecomendacionesAnalisis presentacioninterpretaciondiscusionconcluusionesyrecomendaciones
Analisis presentacioninterpretaciondiscusionconcluusionesyrecomendacionesVíctor Javier Benites Canessa
 

Similar a Guía Práctica de Introducción al Análisis Exploratorio de Datos (20)

_Mundo de los Datos (1).pdf
_Mundo de los Datos  (1).pdf_Mundo de los Datos  (1).pdf
_Mundo de los Datos (1).pdf
 
Qué, cómo y por qué del análisis descriptivo e inferencial y la prueba hipoté...
Qué, cómo y por qué del análisis descriptivo e inferencial y la prueba hipoté...Qué, cómo y por qué del análisis descriptivo e inferencial y la prueba hipoté...
Qué, cómo y por qué del análisis descriptivo e inferencial y la prueba hipoté...
 
5 Semana Analisis Multivariante Parte I
5 Semana Analisis Multivariante Parte I5 Semana Analisis Multivariante Parte I
5 Semana Analisis Multivariante Parte I
 
Electiva iii parcial 2 - 02-minería de datos
Electiva iii   parcial 2 - 02-minería de datosElectiva iii   parcial 2 - 02-minería de datos
Electiva iii parcial 2 - 02-minería de datos
 
MATERIALES ,METODOS, PLAN DE ANALISIS.pptx
MATERIALES ,METODOS, PLAN DE ANALISIS.pptxMATERIALES ,METODOS, PLAN DE ANALISIS.pptx
MATERIALES ,METODOS, PLAN DE ANALISIS.pptx
 
Modulo 1 - Modulo 2 (subir).pptx
Modulo 1 - Modulo 2 (subir).pptxModulo 1 - Modulo 2 (subir).pptx
Modulo 1 - Modulo 2 (subir).pptx
 
procesamientoyanalisisdedatos-140404003900-phpapp02 (1).pptx
procesamientoyanalisisdedatos-140404003900-phpapp02 (1).pptxprocesamientoyanalisisdedatos-140404003900-phpapp02 (1).pptx
procesamientoyanalisisdedatos-140404003900-phpapp02 (1).pptx
 
Analisis de datos cuantitativos
Analisis de datos cuantitativosAnalisis de datos cuantitativos
Analisis de datos cuantitativos
 
Estadistica aed
Estadistica aedEstadistica aed
Estadistica aed
 
Procesamiento y analisis de datos
Procesamiento y analisis de datosProcesamiento y analisis de datos
Procesamiento y analisis de datos
 
El Análisis de Datos en la Analítica Predictiva
El Análisis de Datos en la Analítica PredictivaEl Análisis de Datos en la Analítica Predictiva
El Análisis de Datos en la Analítica Predictiva
 
Herramientas De Calidad
Herramientas De CalidadHerramientas De Calidad
Herramientas De Calidad
 
513967605-Analisis-de-los-datos-cuantitativos-Diapo.pptx
513967605-Analisis-de-los-datos-cuantitativos-Diapo.pptx513967605-Analisis-de-los-datos-cuantitativos-Diapo.pptx
513967605-Analisis-de-los-datos-cuantitativos-Diapo.pptx
 
Parte_04_HerCal.ppt
Parte_04_HerCal.pptParte_04_HerCal.ppt
Parte_04_HerCal.ppt
 
Blog, conceptos de programación, métodos estadísticos
Blog, conceptos de programación, métodos estadísticosBlog, conceptos de programación, métodos estadísticos
Blog, conceptos de programación, métodos estadísticos
 
Blog, conceptos de programación, métodos estadísticos
Blog, conceptos de programación, métodos estadísticosBlog, conceptos de programación, métodos estadísticos
Blog, conceptos de programación, métodos estadísticos
 
Blog, conceptos de programación, métodos estadísticos
Blog, conceptos de programación, métodos estadísticosBlog, conceptos de programación, métodos estadísticos
Blog, conceptos de programación, métodos estadísticos
 
herramientas de la calidad estadisticas .pdf
herramientas de la calidad estadisticas .pdfherramientas de la calidad estadisticas .pdf
herramientas de la calidad estadisticas .pdf
 
Analisis presentacioninterpretaciondiscusionconcluusionesyrecomendaciones
Analisis presentacioninterpretaciondiscusionconcluusionesyrecomendacionesAnalisis presentacioninterpretaciondiscusionconcluusionesyrecomendaciones
Analisis presentacioninterpretaciondiscusionconcluusionesyrecomendaciones
 
Rolinvestigacion
RolinvestigacionRolinvestigacion
Rolinvestigacion
 

Más de Datos.gob.es

Cómo crear un plan de medidas para impulsar la apertura y reutilización de da...
Cómo crear un plan de medidas para impulsar la apertura y reutilización de da...Cómo crear un plan de medidas para impulsar la apertura y reutilización de da...
Cómo crear un plan de medidas para impulsar la apertura y reutilización de da...Datos.gob.es
 
8 guías para mejorar la publicación y el tratamiento del dato
8 guías para mejorar la publicación y el tratamiento del dato8 guías para mejorar la publicación y el tratamiento del dato
8 guías para mejorar la publicación y el tratamiento del datoDatos.gob.es
 
Pautas para asegurar la calidad usando formatos específicos de datos
Pautas para asegurar la calidad usando formatos específicos de datosPautas para asegurar la calidad usando formatos específicos de datos
Pautas para asegurar la calidad usando formatos específicos de datosDatos.gob.es
 
Pautas generales para garantizar la calidad de los datos abiertos
Pautas generales para garantizar la calidad de los datos abiertos Pautas generales para garantizar la calidad de los datos abiertos
Pautas generales para garantizar la calidad de los datos abiertos Datos.gob.es
 
LegalTech: Potencial transformador de los servicios jurídicos
LegalTech: Potencial transformador de los servicios jurídicosLegalTech: Potencial transformador de los servicios jurídicos
LegalTech: Potencial transformador de los servicios jurídicosDatos.gob.es
 
Impacto de los datos abiertos en la economía
Impacto de los datos abiertos en la economíaImpacto de los datos abiertos en la economía
Impacto de los datos abiertos en la economíaDatos.gob.es
 
finalistas de la IV edición del Desafío Aporta
finalistas de la IV edición del Desafío Aportafinalistas de la IV edición del Desafío Aporta
finalistas de la IV edición del Desafío AportaDatos.gob.es
 
Normas técnicas para un correcto gobierno del dato
Normas técnicas para un correcto gobierno del dato Normas técnicas para un correcto gobierno del dato
Normas técnicas para un correcto gobierno del dato Datos.gob.es
 
Gaia-X y los espacios de datos europeos
Gaia-X y los espacios de datos europeos Gaia-X y los espacios de datos europeos
Gaia-X y los espacios de datos europeos Datos.gob.es
 
APIS para el acceso y descarga de datos de turismo
APIS para el acceso y descarga de datos de turismo APIS para el acceso y descarga de datos de turismo
APIS para el acceso y descarga de datos de turismo Datos.gob.es
 
APIs para el acceso a datos abiertos
APIs para el acceso a datos abiertos APIs para el acceso a datos abiertos
APIs para el acceso a datos abiertos Datos.gob.es
 
Balance de la Iniciativa Aporta 2021
Balance de la Iniciativa Aporta 2021 Balance de la Iniciativa Aporta 2021
Balance de la Iniciativa Aporta 2021 Datos.gob.es
 
¿Cómo se utilizan los datos abiertos en el sector salud y bienestar?
¿Cómo se utilizan los datos abiertos en el sector salud y bienestar? ¿Cómo se utilizan los datos abiertos en el sector salud y bienestar?
¿Cómo se utilizan los datos abiertos en el sector salud y bienestar? Datos.gob.es
 
Los conjuntos de datos más demandados publicados por entidades locales
Los conjuntos de datos más demandados publicados por entidades locales Los conjuntos de datos más demandados publicados por entidades locales
Los conjuntos de datos más demandados publicados por entidades locales Datos.gob.es
 
Las Estrategias de Gobierno Abierto y Datos Públicos de las Comunidades Autón...
Las Estrategias de Gobierno Abierto y Datos Públicos de las Comunidades Autón...Las Estrategias de Gobierno Abierto y Datos Públicos de las Comunidades Autón...
Las Estrategias de Gobierno Abierto y Datos Públicos de las Comunidades Autón...Datos.gob.es
 
Los conjuntos de datos publicados por CC.AA. más valorados
Los conjuntos de datos publicados por CC.AA. más valoradosLos conjuntos de datos publicados por CC.AA. más valorados
Los conjuntos de datos publicados por CC.AA. más valoradosDatos.gob.es
 
Tecnologías emergentes y datos abiertos: analítica predictiva
Tecnologías emergentes y datos abiertos: analítica predictivaTecnologías emergentes y datos abiertos: analítica predictiva
Tecnologías emergentes y datos abiertos: analítica predictivaDatos.gob.es
 
Desvelamos los 10 finalistas de la III edición del Desafío Aporta
Desvelamos los 10 finalistas de la III edición del Desafío Aporta Desvelamos los 10 finalistas de la III edición del Desafío Aporta
Desvelamos los 10 finalistas de la III edición del Desafío Aporta Datos.gob.es
 
Las estrategias relacionadas con los datos que marcarán 2021
Las estrategias relacionadas con los datos que marcarán 2021 Las estrategias relacionadas con los datos que marcarán 2021
Las estrategias relacionadas con los datos que marcarán 2021 Datos.gob.es
 
Balance de la iniciativa Aporta 2020
Balance de la iniciativa Aporta 2020 Balance de la iniciativa Aporta 2020
Balance de la iniciativa Aporta 2020 Datos.gob.es
 

Más de Datos.gob.es (20)

Cómo crear un plan de medidas para impulsar la apertura y reutilización de da...
Cómo crear un plan de medidas para impulsar la apertura y reutilización de da...Cómo crear un plan de medidas para impulsar la apertura y reutilización de da...
Cómo crear un plan de medidas para impulsar la apertura y reutilización de da...
 
8 guías para mejorar la publicación y el tratamiento del dato
8 guías para mejorar la publicación y el tratamiento del dato8 guías para mejorar la publicación y el tratamiento del dato
8 guías para mejorar la publicación y el tratamiento del dato
 
Pautas para asegurar la calidad usando formatos específicos de datos
Pautas para asegurar la calidad usando formatos específicos de datosPautas para asegurar la calidad usando formatos específicos de datos
Pautas para asegurar la calidad usando formatos específicos de datos
 
Pautas generales para garantizar la calidad de los datos abiertos
Pautas generales para garantizar la calidad de los datos abiertos Pautas generales para garantizar la calidad de los datos abiertos
Pautas generales para garantizar la calidad de los datos abiertos
 
LegalTech: Potencial transformador de los servicios jurídicos
LegalTech: Potencial transformador de los servicios jurídicosLegalTech: Potencial transformador de los servicios jurídicos
LegalTech: Potencial transformador de los servicios jurídicos
 
Impacto de los datos abiertos en la economía
Impacto de los datos abiertos en la economíaImpacto de los datos abiertos en la economía
Impacto de los datos abiertos en la economía
 
finalistas de la IV edición del Desafío Aporta
finalistas de la IV edición del Desafío Aportafinalistas de la IV edición del Desafío Aporta
finalistas de la IV edición del Desafío Aporta
 
Normas técnicas para un correcto gobierno del dato
Normas técnicas para un correcto gobierno del dato Normas técnicas para un correcto gobierno del dato
Normas técnicas para un correcto gobierno del dato
 
Gaia-X y los espacios de datos europeos
Gaia-X y los espacios de datos europeos Gaia-X y los espacios de datos europeos
Gaia-X y los espacios de datos europeos
 
APIS para el acceso y descarga de datos de turismo
APIS para el acceso y descarga de datos de turismo APIS para el acceso y descarga de datos de turismo
APIS para el acceso y descarga de datos de turismo
 
APIs para el acceso a datos abiertos
APIs para el acceso a datos abiertos APIs para el acceso a datos abiertos
APIs para el acceso a datos abiertos
 
Balance de la Iniciativa Aporta 2021
Balance de la Iniciativa Aporta 2021 Balance de la Iniciativa Aporta 2021
Balance de la Iniciativa Aporta 2021
 
¿Cómo se utilizan los datos abiertos en el sector salud y bienestar?
¿Cómo se utilizan los datos abiertos en el sector salud y bienestar? ¿Cómo se utilizan los datos abiertos en el sector salud y bienestar?
¿Cómo se utilizan los datos abiertos en el sector salud y bienestar?
 
Los conjuntos de datos más demandados publicados por entidades locales
Los conjuntos de datos más demandados publicados por entidades locales Los conjuntos de datos más demandados publicados por entidades locales
Los conjuntos de datos más demandados publicados por entidades locales
 
Las Estrategias de Gobierno Abierto y Datos Públicos de las Comunidades Autón...
Las Estrategias de Gobierno Abierto y Datos Públicos de las Comunidades Autón...Las Estrategias de Gobierno Abierto y Datos Públicos de las Comunidades Autón...
Las Estrategias de Gobierno Abierto y Datos Públicos de las Comunidades Autón...
 
Los conjuntos de datos publicados por CC.AA. más valorados
Los conjuntos de datos publicados por CC.AA. más valoradosLos conjuntos de datos publicados por CC.AA. más valorados
Los conjuntos de datos publicados por CC.AA. más valorados
 
Tecnologías emergentes y datos abiertos: analítica predictiva
Tecnologías emergentes y datos abiertos: analítica predictivaTecnologías emergentes y datos abiertos: analítica predictiva
Tecnologías emergentes y datos abiertos: analítica predictiva
 
Desvelamos los 10 finalistas de la III edición del Desafío Aporta
Desvelamos los 10 finalistas de la III edición del Desafío Aporta Desvelamos los 10 finalistas de la III edición del Desafío Aporta
Desvelamos los 10 finalistas de la III edición del Desafío Aporta
 
Las estrategias relacionadas con los datos que marcarán 2021
Las estrategias relacionadas con los datos que marcarán 2021 Las estrategias relacionadas con los datos que marcarán 2021
Las estrategias relacionadas con los datos que marcarán 2021
 
Balance de la iniciativa Aporta 2020
Balance de la iniciativa Aporta 2020 Balance de la iniciativa Aporta 2020
Balance de la iniciativa Aporta 2020
 

Último

herramientas web para estudiantes interesados en el tema
herramientas web para estudiantes interesados en el temaherramientas web para estudiantes interesados en el tema
herramientas web para estudiantes interesados en el temaJadeVilcscordova
 
Introduccion-a-la-electronica-industrial.pptx
Introduccion-a-la-electronica-industrial.pptxIntroduccion-a-la-electronica-industrial.pptx
Introduccion-a-la-electronica-industrial.pptxcj12paz
 
VelderrainPerez_Paola_M1C1G63-097.pptx. LAS TiC
VelderrainPerez_Paola_M1C1G63-097.pptx. LAS TiCVelderrainPerez_Paola_M1C1G63-097.pptx. LAS TiC
VelderrainPerez_Paola_M1C1G63-097.pptx. LAS TiC6dwwcgtpfx
 
Desarrollo del Dominio del Internet - Estrada
Desarrollo del Dominio del Internet - EstradaDesarrollo del Dominio del Internet - Estrada
Desarrollo del Dominio del Internet - EstradaRicardoEstrada90
 
Navegadores de internet - Nuevas Tecnologías de la Información y la Comunicación
Navegadores de internet - Nuevas Tecnologías de la Información y la ComunicaciónNavegadores de internet - Nuevas Tecnologías de la Información y la Comunicación
Navegadores de internet - Nuevas Tecnologías de la Información y la ComunicaciónAntonia Yamilet Perez Palomares
 
JORNADA INTELIGENCIA ARTIFICIAL Y REALIDAD VIRTUAL
JORNADA INTELIGENCIA ARTIFICIAL Y REALIDAD VIRTUALJORNADA INTELIGENCIA ARTIFICIAL Y REALIDAD VIRTUAL
JORNADA INTELIGENCIA ARTIFICIAL Y REALIDAD VIRTUALGuadalinfoHuscarGuad
 
De Olmos Santiago_Dolores _ M1S3AI6.pptx
De Olmos Santiago_Dolores _ M1S3AI6.pptxDe Olmos Santiago_Dolores _ M1S3AI6.pptx
De Olmos Santiago_Dolores _ M1S3AI6.pptxdoloresolmosantiago
 
Chat GPT para la educación Latinoamerica
Chat GPT para la educación LatinoamericaChat GPT para la educación Latinoamerica
Chat GPT para la educación LatinoamericaEdwinGarca59
 
Ejercicio 1 periodo 2 de Tecnología 2024
Ejercicio 1 periodo 2 de Tecnología 2024Ejercicio 1 periodo 2 de Tecnología 2024
Ejercicio 1 periodo 2 de Tecnología 2024NicolleAndrade7
 
Electricidad Libro compendio de temas estudiados.docx
Electricidad Libro compendio de temas estudiados.docxElectricidad Libro compendio de temas estudiados.docx
Electricidad Libro compendio de temas estudiados.docxCsarNlsonMrquezContr
 
Tipos de Datos de Microsoft Access-JOEL GARCIA.pptx
Tipos de Datos de Microsoft Access-JOEL GARCIA.pptxTipos de Datos de Microsoft Access-JOEL GARCIA.pptx
Tipos de Datos de Microsoft Access-JOEL GARCIA.pptxJOELGARCIA849853
 
BUSCADORES DE INTERNET (Universidad de Sonora).
BUSCADORES DE INTERNET (Universidad de Sonora).BUSCADORES DE INTERNET (Universidad de Sonora).
BUSCADORES DE INTERNET (Universidad de Sonora).jcaballerosamayoa
 
innovacion banking & warehouse 2024 blog
innovacion banking & warehouse 2024 bloginnovacion banking & warehouse 2024 blog
innovacion banking & warehouse 2024 blogManuel Diaz
 
Tipos de datos en Microsoft Access de Base de Datos
Tipos de datos en Microsoft Access de Base de DatosTipos de datos en Microsoft Access de Base de Datos
Tipos de datos en Microsoft Access de Base de DatosYOMIRAVILLARREAL1
 
PRÁCTICA Nº 4: “Análisis de secuencias del ADN con el software BioEdit y uso ...
PRÁCTICA Nº 4: “Análisis de secuencias del ADN con el software BioEdit y uso ...PRÁCTICA Nº 4: “Análisis de secuencias del ADN con el software BioEdit y uso ...
PRÁCTICA Nº 4: “Análisis de secuencias del ADN con el software BioEdit y uso ...dramosbrise1403
 
el uso de las TIC en la vida cotidiana.pptx
el uso de las TIC en la vida cotidiana.pptxel uso de las TIC en la vida cotidiana.pptx
el uso de las TIC en la vida cotidiana.pptx221112876
 
Redes Neuronales profundas convolucionales CNN ́s-1.pdf
Redes Neuronales profundas convolucionales CNN ́s-1.pdfRedes Neuronales profundas convolucionales CNN ́s-1.pdf
Redes Neuronales profundas convolucionales CNN ́s-1.pdfJosAndrRosarioVzquez
 
avancestecnologicossigloveintiunoprofetengohambreayuda
avancestecnologicossigloveintiunoprofetengohambreayudaavancestecnologicossigloveintiunoprofetengohambreayuda
avancestecnologicossigloveintiunoprofetengohambreayudadocente
 
Imágenes digitales: Calidad de la información
Imágenes digitales: Calidad de la informaciónImágenes digitales: Calidad de la información
Imágenes digitales: Calidad de la informaciónUniversidad de Sonora
 
Actividad 6/Las TIC en la Vida Cotidiana.
Actividad 6/Las TIC en la Vida Cotidiana.Actividad 6/Las TIC en la Vida Cotidiana.
Actividad 6/Las TIC en la Vida Cotidiana.241534381
 

Último (20)

herramientas web para estudiantes interesados en el tema
herramientas web para estudiantes interesados en el temaherramientas web para estudiantes interesados en el tema
herramientas web para estudiantes interesados en el tema
 
Introduccion-a-la-electronica-industrial.pptx
Introduccion-a-la-electronica-industrial.pptxIntroduccion-a-la-electronica-industrial.pptx
Introduccion-a-la-electronica-industrial.pptx
 
VelderrainPerez_Paola_M1C1G63-097.pptx. LAS TiC
VelderrainPerez_Paola_M1C1G63-097.pptx. LAS TiCVelderrainPerez_Paola_M1C1G63-097.pptx. LAS TiC
VelderrainPerez_Paola_M1C1G63-097.pptx. LAS TiC
 
Desarrollo del Dominio del Internet - Estrada
Desarrollo del Dominio del Internet - EstradaDesarrollo del Dominio del Internet - Estrada
Desarrollo del Dominio del Internet - Estrada
 
Navegadores de internet - Nuevas Tecnologías de la Información y la Comunicación
Navegadores de internet - Nuevas Tecnologías de la Información y la ComunicaciónNavegadores de internet - Nuevas Tecnologías de la Información y la Comunicación
Navegadores de internet - Nuevas Tecnologías de la Información y la Comunicación
 
JORNADA INTELIGENCIA ARTIFICIAL Y REALIDAD VIRTUAL
JORNADA INTELIGENCIA ARTIFICIAL Y REALIDAD VIRTUALJORNADA INTELIGENCIA ARTIFICIAL Y REALIDAD VIRTUAL
JORNADA INTELIGENCIA ARTIFICIAL Y REALIDAD VIRTUAL
 
De Olmos Santiago_Dolores _ M1S3AI6.pptx
De Olmos Santiago_Dolores _ M1S3AI6.pptxDe Olmos Santiago_Dolores _ M1S3AI6.pptx
De Olmos Santiago_Dolores _ M1S3AI6.pptx
 
Chat GPT para la educación Latinoamerica
Chat GPT para la educación LatinoamericaChat GPT para la educación Latinoamerica
Chat GPT para la educación Latinoamerica
 
Ejercicio 1 periodo 2 de Tecnología 2024
Ejercicio 1 periodo 2 de Tecnología 2024Ejercicio 1 periodo 2 de Tecnología 2024
Ejercicio 1 periodo 2 de Tecnología 2024
 
Electricidad Libro compendio de temas estudiados.docx
Electricidad Libro compendio de temas estudiados.docxElectricidad Libro compendio de temas estudiados.docx
Electricidad Libro compendio de temas estudiados.docx
 
Tipos de Datos de Microsoft Access-JOEL GARCIA.pptx
Tipos de Datos de Microsoft Access-JOEL GARCIA.pptxTipos de Datos de Microsoft Access-JOEL GARCIA.pptx
Tipos de Datos de Microsoft Access-JOEL GARCIA.pptx
 
BUSCADORES DE INTERNET (Universidad de Sonora).
BUSCADORES DE INTERNET (Universidad de Sonora).BUSCADORES DE INTERNET (Universidad de Sonora).
BUSCADORES DE INTERNET (Universidad de Sonora).
 
innovacion banking & warehouse 2024 blog
innovacion banking & warehouse 2024 bloginnovacion banking & warehouse 2024 blog
innovacion banking & warehouse 2024 blog
 
Tipos de datos en Microsoft Access de Base de Datos
Tipos de datos en Microsoft Access de Base de DatosTipos de datos en Microsoft Access de Base de Datos
Tipos de datos en Microsoft Access de Base de Datos
 
PRÁCTICA Nº 4: “Análisis de secuencias del ADN con el software BioEdit y uso ...
PRÁCTICA Nº 4: “Análisis de secuencias del ADN con el software BioEdit y uso ...PRÁCTICA Nº 4: “Análisis de secuencias del ADN con el software BioEdit y uso ...
PRÁCTICA Nº 4: “Análisis de secuencias del ADN con el software BioEdit y uso ...
 
el uso de las TIC en la vida cotidiana.pptx
el uso de las TIC en la vida cotidiana.pptxel uso de las TIC en la vida cotidiana.pptx
el uso de las TIC en la vida cotidiana.pptx
 
Redes Neuronales profundas convolucionales CNN ́s-1.pdf
Redes Neuronales profundas convolucionales CNN ́s-1.pdfRedes Neuronales profundas convolucionales CNN ́s-1.pdf
Redes Neuronales profundas convolucionales CNN ́s-1.pdf
 
avancestecnologicossigloveintiunoprofetengohambreayuda
avancestecnologicossigloveintiunoprofetengohambreayudaavancestecnologicossigloveintiunoprofetengohambreayuda
avancestecnologicossigloveintiunoprofetengohambreayuda
 
Imágenes digitales: Calidad de la información
Imágenes digitales: Calidad de la informaciónImágenes digitales: Calidad de la información
Imágenes digitales: Calidad de la información
 
Actividad 6/Las TIC en la Vida Cotidiana.
Actividad 6/Las TIC en la Vida Cotidiana.Actividad 6/Las TIC en la Vida Cotidiana.
Actividad 6/Las TIC en la Vida Cotidiana.
 

Guía Práctica de Introducción al Análisis Exploratorio de Datos

  • 1. - - - - ... ... ['17 -- ■ datos.gob.es ► [fü~ ra [[~ 1 1111 P,3~ • • - ra • .o 01 /! J • - ' 1 , .. ANÁLISIS EXPLORATORIO DE DATOS (EDA) Guía Práctica de Introducción al Análisis Exploratorio de Datos 1¿QUÉ ES? Conjunto de técnicas estadísticas dirigidas a explorar, describir y resumir la información que contienen los datos, maximizando su comprensión. Gracias a ello puedes: Realizar un Identificar análisis descriptivo posibles errores Revelar la presencia Comprobar la relación de datos atípicos entre las variables ¿POR QUÉ ES IMPORTANTE? Las técnicas estadísticas de análisis de datos y el machine learning presuponen el cumplimiento de unas condiciones previas para garantizar la objetividad e interoperabilidad de los datos. El EDA es esencial para garantizar que los resultados de cualquier análisis estadístico sean consistentes y veraces. ¿CUÁLES SON LOS PASOS A SEGUIR? 2 Fuente: Se ha tomado como referencia el libro R for Data Science de Wickman y Grolemund (2017) DATOS BRUTOS CONCLUSIONES ANÁLISIS EXPLORATORIO DE DATOS (EDA) ANÁLISIS DESCRIPTIVO AJUSTE DE TIPOS DE VARIABLES DETECCIÓN Y TRATAMIENTO DE DATOS AUSENTES IDENTIFICACIÓN DE DATOS ATÍPICOS CORRELACIÓN DE VARIABLES ANÁLISIS DESCRIPTIVO • ¿Qué es? Síntesis de la información que proporciona el conjunto de datos, extrayendo sus características más representativas. • ¿Por qué es necesario? Permite conocer los tipos de datos, descubrir patrones y preparar los datos para futuros análisis. • Tratamiento: Aplicar funciones de estadística descriptiva para explorar la estructura del conjunto de datos, examinar los datos y las variables que presenta. RE-AJUSTE DE LOS TIPOS DE VARIABLES 1 2 • ¿Qué es? Verificar que las variables se han almacenado con el tipo de valor correspondiente. • ¿Por qué es necesario? Una mala codificación de las variables puede influir negativamente en la agrupación de los datos o los resultados de los análisis. • Tratamiento: Aplicar la codificación apropiada para cada una de las variables. DETECCIÓN Y TRATAMIENTO DE DATOS AUSENTES ¿Qué es? Identificar la falta de algunos de los datos en la variable. • ¿Por qué es necesario? Los datos ausentes pueden generar problemas a la hora de aplicar técnicas de machine learning, elaborar modelos predictivos, realizar análisis estadísticos o generar representaciones gráficas. • Tratamiento: Existen varias maneras de tratar los valores ausentes, como por ejemplo sustituirlos por la media o la mediana, o completar los valores faltantes con el valor anterior o posterior de la columna. DETECCIÓN Y TRATAMIENTO DE DATOS ATÍPICOS 3 4 5 • ¿Qué es? Identificar datos con valores significativamente distintos a los que presenta la variable. • ¿Por qué es necesario su tratamiento? Pueden modificar los resultados y restar potencia a los análisis estadísticos o técnicas de machine learning aplicadas. • Tratamiento: Disminuir su influencia en análisis posteriores o, en casos muy extremos, eliminarlos del conjunto de datos. ANÁLISIS DE CORRELACIÓN DE VARIABLES ¿Qué es? Analizar la relación entre dos o más variables. • ¿Por qué es necesario? Entre otras razones, para descartar posibles variables que aporten información redundante en el conjunto de datos, ocasionando ruido en los análisis. • Tratamiento: Calcular los coeficientes de correlación para las variables para detectar coeficientes cercanos a 1 o -1. - [§J (1---,'. Oi ' -~_y -{> {>- (í~✓ )<{ ..'1, .. - - , ' ,,, • • • • L' - /V - 0 º0 □ ¿, ~ e .. , 1 , .. , ' , " o 3 ¿QUIERES SABER MÁS? Descubre la “Guía Práctica de Introducción al Análisis Exploratorio de Datos” Aprende las técnicas anteriores mediante el desarrollo de un caso práctico. Metodología para el ejemplo práctico: •Conjunto de datos utilizado: registro de la calidad del aire en Castilla y León. •Herramientas utilizadas: código R en el entorno de programación RStudio