SlideShare una empresa de Scribd logo
Especialización
Analítica de Big
Data
Asignatura: Visualización de la
Información
MODULO 1:
Introducción a la
visualización
Tipos de
datos
Modulo 1. Introducción a la visualización
Discretos
Continuos
Cuantitativos
Nominales
Ordinales
Cualitativos -
Categóricos
Estética y tipos de datos
Tipos de datos
Modulo 1. Introducción a la visualización – Estética y tipo de datos
ORDINALES
INTERVALOS
NOMINALES
PROPORCIÓN
Deudatotal
(M.€)
%
Deudatotal
(M.€)
%
2020 155.795 65,66% 350.918 102,79%
2019 151.219 52,40% 358.539 88,84%
2018 151.673 53,58% 378.730 85,25%
2017 136.810 49,44% 325.798 57,03%
Colombia Argentina
Peso % Deudasobre PIB
Año
Fuentes de datos
Los datos son la condición necesaria para un ejercicio de visualización. Por lo tanto, resulta fundamental
hacer un ejercicio de reflexión para conocer cuáles son los datos que vamos a necesitar, dónde se
encuentran y cómo están estructurados.
Es muy importante identificar, valorar y analizar los datos
que realmente tengan potencial para generar información
interesante y descartar aquellos que no contribuyan.
El volumen de datos se está incrementado de forma
exponencial y, además, está aumentando la complejidad
para extraerlos, dada la heterogeneidad de los dispositivos
que los captan. En este contexto se hace necesario
determinar cuáles son las categorías de datos que existen
y cuáles son las fuentes de origen de estos.
Modulo 1. Introducción a la visualización – Estética y tipo de datos
Categorías de datos existentes:
Estructurados
• Son los que presentan un formato claramente definido y
bien especificado; algunos ejemplos son las bases de
datos, hojas de cálculos, entre otros.
No
Estructurados
• Son los más frecuentes en el entorno Big Data actual. Este tipo de datos requiere uso de herramientas
como Hadoop o bases de datos NosQL.
• Algunos ejemplos de datos no estructurados son los archivos de audio, vídeo, fotografías, formatos
de texto, correos electrónicos, las búsquedas que realizamos en buscadores web tipo Google o Bing o
las publicaciones en las redes sociales, etc.
Semiestructurados
• Si bien éstos no tienen formatos fijos, sí contienen etiquetas u
otros marcadores que permiten su comprensión. Ejemplo: las
etiquetas XML y HTML.dcp
Modulo 1. Introducción a la visualización – Estética y tipo de datos
Tipos de conexiones en Power BI
Power Bi permite conectarnos a una gran variedad de fuentes de datos, desde archivos Excel, bases de
datos en SQL, hasta sitios en la web.
•Lecturas desde SSAS
o desde un conjunto
de datos de Power BI
Service.
•Combina las
tecnologías de
importación y Direct
Query. Usar múltiples
conjuntos de datos.
•Los datos no se copian,
pues cada interacción
solicita una consulta a
la base de datos.
•Los datos se copian de
manera local dentro del
modelo de Power BI (es
el tipo más común).
Importación Direct Query
Live
Connection o
Dinámica
Modelos
Compuestos
Modulo 1. Introducción a la visualización – Estética y tipo de datos
Preguntas Quiz
Modulo 1. Introducción a la visualización – Estética y tipo de datos
1. Mencione uno de los tres objetivos de la visualización, vistos la clase pasada
2. Cual fue el creador del gráfico circular:
3. Las decisiones en las organizaciones que corresponden a estrategias de mediano plazo, enfocadas en
planeación, análisis y producción de proyectos; son las decisiones a nivel:
4. Falso o verdadero:
El visualizador de información es un híbrido entre un diseñador y un estadístico ( )
5. Cual de las siguientes características no pertenece a los KPIs:
a) Los objetivos cambian cada ciclo
b) Mide la estabilidad y los puntos de referencia
c) Números que indican el progreso de los objetivos del negocio
d) Herramienta de evaluación del rendimiento
a. Edward Tufte
b. William PlayFair
c. Florence Nightingale
Ejemplo y actividad práctica
Modulo 1. Introducción a la visualización – Estética y tipo de datos
MODULO 2:
Proceso hacia la
visualización de datos
Modulo 2. Proceso hacia la visualización de datos
EDA (Análisis exploratorio de datos)
El análisis exploratorio de datos (EDA) fue desarrollado inicialmente por John Tukey, un matemático de
nacionalidad estadounidense en los años 70 y actualmente sigue siendo empleado como método de
descubrimiento de data.
El EDA es utilizado para analizar e investigar conjuntos
de datos, principalmente para descubrir más
información más allá del modelamiento de datos y de
ensayo de hipótesis; además de facilitar una mayor
comprensión de las variables y sus relaciones.
Por otra parte, ésta herramienta ayuda analizar y
clasificar la viabilidad de las técnicas estadísticas
implementadas en un análisis de data.
Modulo 2. Proceso hacia la visualización de datos
¿Por qué es importante el uso de EDA?
La importancia del EDA radica principalmente en servir como herramienta en el estudio adecuado de los
datos para anteponerse a supuestos. Además, por ser una herramienta tan importante y ampliamente útil,
a continuación se enumerarán varias de sus usos.
• Ayuda a identificar errores obvios en el análisis de datos.
• Posibilitar mayor comprensión de los patrones dentro de los datos.
• Revelar valores o comportamientos extraños en la data.
• Hallar relaciones interesantes entre las variables.
Otros usos más generales son:
• Demostrar que los resultados producidos son efectivos y aplicables a los objetivos empresariales del
cliente.
• Ayudar a confirmar que las preguntas realizadas por los stakeholders son las preguntas correctas.
• Responder cuestiones acerca de desviaciones estándar, intervalos de confianza y variables categóricas.
• Por ultimo, una vez que el Análisis exploratorio de datos se haya realizado por completo y se hayan
extraído sus resultados, se pueden utilizar para un modelado de datos más elaborado como machine
learning.
Modulo 2. Proceso hacia la visualización de datos
Funciones y técnicas estadísticas de EDA
•Creación de visualizaciones gráficas de datos de alta dimensión con muchas variables, gracias a la reducción
de dimensiones a través de EDA.
•Visualización univariante de cada campo en el conjunto de datos sin formato, con estadísticas de resumen.
•Visualizaciones bivariantes y estadísticas de resumen que le permiten evaluar la relación entre cada variable
del conjunto de datos y la variable de destino que desea.
•Visualizaciones multivariantes para correlacionar y comprender interacciones entre diferentes campos en los
datos.
•Agrupación K-means (K-medias en español), un método de agrupación en clúster en aprendizaje no
supervisado donde los puntos de datos se asignan a grupos K, es decir, el número de clústeres, basándose
en la distancia del centroide de cada grupo. Los puntos de datos más próximos a un centroide determinado
se agruparán en la misma categoría. La agrupación K-means se utiliza habitualmente en la segmentación del
mercado, el reconocimiento de patrones y la compresión de imágenes.
•Los modelos predictivos como, por ejemplo, la regresión lineal, utilizan estadísticas y datos para predecir
los resultados.
Modulo 2. Proceso hacia la visualización de datos
Tipos de análisis exploratorio de datos
Tipos principales de EDA:
Esta es la forma más simple de análisis de datos, donde los datos que se analizan solo contienen una
variable. Ya que es una sola variable, no se ocupa de las causas o relaciones. El objetivo principal del
análisis univariante es describir los datos e identificar los patrones.
Hay tres tipos comunes de gráficos univariantes, que son:
• Diagramas de tallo y hojas, que muestran todos los valores de datos y la forma de la distribución.
• Histogramas, diagramas de barras en los que cada barra representa la frecuencia (recuento) o la proporción (recuento/recuento total)
de casos para un rango de valores.
• Diagramas de caja, que representan gráficamente el resumen de cinco números de mínimo, primer cuartil, mediana, tercer cuartil y
máximo.
No gráfico
univariante:
Gráfico
univariante:
Modulo 2. Proceso hacia la visualización de datos
Tipos de análisis exploratorio de datos.
Gráficos univariantes:
Diagrama de tallo y hojas
Histograma y diagrama de barras
Diagrama de caja
Modulo 2. Proceso hacia la visualización de datos
Tipos de análisis exploratorio de datos.
Tipos principales de EDA:
Se obtienen datos multivariantes de más de una variable. Las técnicas de EDA no gráficas y multivariantes generalmente
muestran la relación entre dos o más variables de los datos a través de la tabulación cruzada o las estadísticas.
Los datos multivariantes utilizan gráficos para mostrar relaciones entre dos o más conjuntos de datos. El gráfico más utilizado es un diagrama
de barras agrupadas donde cada grupo representa un nivel de una de las variables y cada barra dentro de un grupo representa los niveles de
la otra variable.
Otros tipos comunes de gráficos multivariantes incluyen:
• Diagrama de dispersión, que se utiliza para graficar puntos de datos en un eje horizontal y uno vertical para mostrar cuánto afecta una
variable a otra.
• Gráfico multivariante, que es una representación gráfica de las relaciones entre los factores y una respuesta.
• Diagrama de comportamiento, que es un gráfico de líneas de datos a lo largo del tiempo.
• Gráfico de burbujas, que es una visualización de datos que muestra varios círculos (burbujas) en un gráfico de dos dimensiones.
• Mapa de calor, que es una representación gráfica de datos donde los valores se representan por color.
No gráfico
multivariante:
Gráfico
multivariante:
Modulo 2. Proceso hacia la visualización de datos
Tipos de análisis exploratorio de datos.
Gráficos multivariantes:
Diagrama de barras agrupadas. Diagrama de dispersión.
Diagrama de comportamientos.
Gráfico multivariante.
Gráfico de líneas de datos.
Gráfico de Burbujas.
Mapa de color.
Conceptos del modelamiento de datos
Modelado de datos:
1. Cargar tabla de datos
2. Relacionar tabla de datos
3. Transformar los datos (DAX)
Dentro del flujo de Power BI, nos encontramos con el modelado de datos. El modelado de datos es el
conjunto de fuentes de datos y/o conjunto de distintas tablas, que al relacionarlas, nos permiten realizar
un análisis más profundo sobre diferentes procesos de negocios.
CARGA DE DATOS – Entidad de negocio
La carga de datos la vamos a abarcar desde la estructura de Entidad de negocio. Cada entidad de negocio será
una tabla.
Ejemplo:
• Hospitales: Las entidades de negocio podrías ser – Visitas, quejas, hospitales, pacientes, doctores,
medicamentos, etc.
• Colegios: Asistencia, calificaciones, colegios, estudiantes, profesores, materias, exámenes, etc.
Modulo 2. Proceso hacia la visualización de datos
RELACIONAR TABLAS – tipo de modelos
Los modelos de datos en BI, se consideran básicamente de tres tipos: Modelo en estrella, Modelo en copo de nieve y Modelo
constelación.
I. Modelo estrella: El modelo dimensional de estrella se basa en una tabla fact (hechos), y varias tablas dimensiones que lo
complementan y se acomodan a su alrededor en forma de estrella.
II. Modelo copo de nieve: Bajo este modelo, la tabla de hecho no está relacionada directamente a todas las tablas que
componen el modelo de datos. Tablas dimensiones complementan otras.
III. Modelo constelación: Un esquema de constelación es una combinación de un esquema de estrella y un esquema de copo
de nieve. Puede tener dos tablas fact y varias de dimensiones, con diferentes relaciones.
Tabla de
hechos
Tabla de
dimensiones
Eventos medidos.
1. Ejemplo hospitales: Visitas, quejas.
2. Ejemplo colegios: Asistencias,
calificaciones
Segmentar tablas (Qué, quién, cómo,
cuando, dónde).
1. Ejemplo hospitales: Hospitales,
pacientes, doctores, etc.
2. Ejemplo colegios: Estudiantes,
profesores, materias, etc.
Modulo 2. Proceso hacia la visualización de datos – Conceptos de modelamiento de datos
Modulo 2. Proceso hacia la visualización de datos – Conceptos de modelamiento de datos
Esquema estrella
Esquema Copo de nieve
Esquema de constelación
Tipos de relaciones
Gracias

Más contenido relacionado

Similar a Modulo 1 - Modulo 2 (subir).pptx

Capitulo i
Capitulo iCapitulo i
Capitulo i
Eve Mora
 
Blog, conceptos de programación, métodos estadísticos
Blog, conceptos de programación, métodos estadísticosBlog, conceptos de programación, métodos estadísticos
Blog, conceptos de programación, métodos estadísticos
lauraflorez65
 

Similar a Modulo 1 - Modulo 2 (subir).pptx (20)

Capitulo i
Capitulo iCapitulo i
Capitulo i
 
Capitulo i (2)
Capitulo i (2)Capitulo i (2)
Capitulo i (2)
 
Capitulo i
Capitulo iCapitulo i
Capitulo i
 
Capitulo i
Capitulo iCapitulo i
Capitulo i
 
Capitulo i (1)
Capitulo i (1)Capitulo i (1)
Capitulo i (1)
 
Capitulo i
Capitulo iCapitulo i
Capitulo i
 
Capitulo i
Capitulo iCapitulo i
Capitulo i
 
Capitulo i
Capitulo iCapitulo i
Capitulo i
 
Capitulo i
Capitulo iCapitulo i
Capitulo i
 
Capitulo i
Capitulo iCapitulo i
Capitulo i
 
Capitulo i
Capitulo iCapitulo i
Capitulo i
 
Capitulo i
Capitulo iCapitulo i
Capitulo i
 
Capitulo i (1)
Capitulo i (1)Capitulo i (1)
Capitulo i (1)
 
Blog, conceptos de programación, métodos estadísticos
Blog, conceptos de programación, métodos estadísticosBlog, conceptos de programación, métodos estadísticos
Blog, conceptos de programación, métodos estadísticos
 
Blog, conceptos de programación, métodos estadísticos
Blog, conceptos de programación, métodos estadísticosBlog, conceptos de programación, métodos estadísticos
Blog, conceptos de programación, métodos estadísticos
 
Blog, conceptos de programación, métodos estadísticos
Blog, conceptos de programación, métodos estadísticosBlog, conceptos de programación, métodos estadísticos
Blog, conceptos de programación, métodos estadísticos
 
Charla informativa modulo_de_razonamiento_cuantitativo
Charla informativa modulo_de_razonamiento_cuantitativoCharla informativa modulo_de_razonamiento_cuantitativo
Charla informativa modulo_de_razonamiento_cuantitativo
 
Analisis de datos - Javier Mauricio Forero Forero.pptx
Analisis de datos  - Javier Mauricio Forero Forero.pptxAnalisis de datos  - Javier Mauricio Forero Forero.pptx
Analisis de datos - Javier Mauricio Forero Forero.pptx
 
Programación y métodos de estadística
Programación y métodos de estadísticaProgramación y métodos de estadística
Programación y métodos de estadística
 
Trabajo de Tecnología Pseint
Trabajo de Tecnología PseintTrabajo de Tecnología Pseint
Trabajo de Tecnología Pseint
 

Último

PETROLEO triptico para estudiantes de educacion
PETROLEO triptico para estudiantes de educacionPETROLEO triptico para estudiantes de educacion
PETROLEO triptico para estudiantes de educacion
ctrlc3
 
matematicas en la ingenieria de la construccion
matematicas en la ingenieria de la construccionmatematicas en la ingenieria de la construccion
matematicas en la ingenieria de la construccion
alberto891871
 
MODULO DE MATEMATICAS BÁSICAS universidad UNAD.pdf
MODULO DE MATEMATICAS  BÁSICAS universidad UNAD.pdfMODULO DE MATEMATICAS  BÁSICAS universidad UNAD.pdf
MODULO DE MATEMATICAS BÁSICAS universidad UNAD.pdf
frankysteven
 

Último (20)

Becas de UOC _ Caja Ingenieros 2024-25.pdf
Becas de UOC _ Caja Ingenieros 2024-25.pdfBecas de UOC _ Caja Ingenieros 2024-25.pdf
Becas de UOC _ Caja Ingenieros 2024-25.pdf
 
Los vidrios eléctricos en un automóvil.pptx
Los vidrios eléctricos en un automóvil.pptxLos vidrios eléctricos en un automóvil.pptx
Los vidrios eléctricos en un automóvil.pptx
 
PETROLEO triptico para estudiantes de educacion
PETROLEO triptico para estudiantes de educacionPETROLEO triptico para estudiantes de educacion
PETROLEO triptico para estudiantes de educacion
 
GUIA DE SEGURIDAD PARA MAQUINAS Y HERRAMIENTAS
GUIA DE SEGURIDAD PARA MAQUINAS Y HERRAMIENTASGUIA DE SEGURIDAD PARA MAQUINAS Y HERRAMIENTAS
GUIA DE SEGURIDAD PARA MAQUINAS Y HERRAMIENTAS
 
Efecto. Fotovoltaico y paneles.pdf
Efecto.     Fotovoltaico  y  paneles.pdfEfecto.     Fotovoltaico  y  paneles.pdf
Efecto. Fotovoltaico y paneles.pdf
 
DESVIACION
DESVIACION DESVIACION
DESVIACION
 
Criterios de la primera y segunda derivada
Criterios de la primera y segunda derivadaCriterios de la primera y segunda derivada
Criterios de la primera y segunda derivada
 
DISEÑO DE LOSAS EN UNA DIRECCION (CONCRETO ARMADO II )
DISEÑO DE LOSAS EN UNA DIRECCION  (CONCRETO ARMADO II )DISEÑO DE LOSAS EN UNA DIRECCION  (CONCRETO ARMADO II )
DISEÑO DE LOSAS EN UNA DIRECCION (CONCRETO ARMADO II )
 
IMPORTANCIA DE LOS LIPIDOS EN FARMACIA.pdf
IMPORTANCIA DE LOS LIPIDOS EN FARMACIA.pdfIMPORTANCIA DE LOS LIPIDOS EN FARMACIA.pdf
IMPORTANCIA DE LOS LIPIDOS EN FARMACIA.pdf
 
matematicas en la ingenieria de la construccion
matematicas en la ingenieria de la construccionmatematicas en la ingenieria de la construccion
matematicas en la ingenieria de la construccion
 
TEMA 11. FLUIDOS-HIDROSTATICA.TEORIApptx
TEMA 11.  FLUIDOS-HIDROSTATICA.TEORIApptxTEMA 11.  FLUIDOS-HIDROSTATICA.TEORIApptx
TEMA 11. FLUIDOS-HIDROSTATICA.TEORIApptx
 
14. DISEÑO LOSA ALIGERADA MOD G VOLADO.pdf
14. DISEÑO LOSA ALIGERADA MOD G VOLADO.pdf14. DISEÑO LOSA ALIGERADA MOD G VOLADO.pdf
14. DISEÑO LOSA ALIGERADA MOD G VOLADO.pdf
 
Mecánica de fluidos 1 universidad continental
Mecánica de fluidos 1 universidad continentalMecánica de fluidos 1 universidad continental
Mecánica de fluidos 1 universidad continental
 
Ergonomía_MÉTODO_ROSA. Evaluación de puesto de trabajo de oficina - coworking
Ergonomía_MÉTODO_ROSA. Evaluación de puesto de trabajo de oficina - coworkingErgonomía_MÉTODO_ROSA. Evaluación de puesto de trabajo de oficina - coworking
Ergonomía_MÉTODO_ROSA. Evaluación de puesto de trabajo de oficina - coworking
 
Joseph juran aportaciones al control de la calidad
Joseph juran aportaciones al control de la calidadJoseph juran aportaciones al control de la calidad
Joseph juran aportaciones al control de la calidad
 
Tasaciones Ñuñoa - La Reina - Las Condes
Tasaciones Ñuñoa - La Reina - Las CondesTasaciones Ñuñoa - La Reina - Las Condes
Tasaciones Ñuñoa - La Reina - Las Condes
 
Mecanismo de cuatro barras articuladas!!
Mecanismo de cuatro barras articuladas!!Mecanismo de cuatro barras articuladas!!
Mecanismo de cuatro barras articuladas!!
 
MODULO DE MATEMATICAS BÁSICAS universidad UNAD.pdf
MODULO DE MATEMATICAS  BÁSICAS universidad UNAD.pdfMODULO DE MATEMATICAS  BÁSICAS universidad UNAD.pdf
MODULO DE MATEMATICAS BÁSICAS universidad UNAD.pdf
 
Análisis Combinatorio ,EJERCICIOS Y PROBLEMAS RESUELTOS
Análisis Combinatorio ,EJERCICIOS Y PROBLEMAS RESUELTOSAnálisis Combinatorio ,EJERCICIOS Y PROBLEMAS RESUELTOS
Análisis Combinatorio ,EJERCICIOS Y PROBLEMAS RESUELTOS
 
Sistemas de posicionamiento global (G.P.S.).pdf
Sistemas de posicionamiento global (G.P.S.).pdfSistemas de posicionamiento global (G.P.S.).pdf
Sistemas de posicionamiento global (G.P.S.).pdf
 

Modulo 1 - Modulo 2 (subir).pptx

  • 1. Especialización Analítica de Big Data Asignatura: Visualización de la Información
  • 2. MODULO 1: Introducción a la visualización
  • 3. Tipos de datos Modulo 1. Introducción a la visualización Discretos Continuos Cuantitativos Nominales Ordinales Cualitativos - Categóricos Estética y tipos de datos
  • 4. Tipos de datos Modulo 1. Introducción a la visualización – Estética y tipo de datos ORDINALES INTERVALOS NOMINALES PROPORCIÓN Deudatotal (M.€) % Deudatotal (M.€) % 2020 155.795 65,66% 350.918 102,79% 2019 151.219 52,40% 358.539 88,84% 2018 151.673 53,58% 378.730 85,25% 2017 136.810 49,44% 325.798 57,03% Colombia Argentina Peso % Deudasobre PIB Año
  • 5. Fuentes de datos Los datos son la condición necesaria para un ejercicio de visualización. Por lo tanto, resulta fundamental hacer un ejercicio de reflexión para conocer cuáles son los datos que vamos a necesitar, dónde se encuentran y cómo están estructurados. Es muy importante identificar, valorar y analizar los datos que realmente tengan potencial para generar información interesante y descartar aquellos que no contribuyan. El volumen de datos se está incrementado de forma exponencial y, además, está aumentando la complejidad para extraerlos, dada la heterogeneidad de los dispositivos que los captan. En este contexto se hace necesario determinar cuáles son las categorías de datos que existen y cuáles son las fuentes de origen de estos. Modulo 1. Introducción a la visualización – Estética y tipo de datos
  • 6. Categorías de datos existentes: Estructurados • Son los que presentan un formato claramente definido y bien especificado; algunos ejemplos son las bases de datos, hojas de cálculos, entre otros. No Estructurados • Son los más frecuentes en el entorno Big Data actual. Este tipo de datos requiere uso de herramientas como Hadoop o bases de datos NosQL. • Algunos ejemplos de datos no estructurados son los archivos de audio, vídeo, fotografías, formatos de texto, correos electrónicos, las búsquedas que realizamos en buscadores web tipo Google o Bing o las publicaciones en las redes sociales, etc. Semiestructurados • Si bien éstos no tienen formatos fijos, sí contienen etiquetas u otros marcadores que permiten su comprensión. Ejemplo: las etiquetas XML y HTML.dcp Modulo 1. Introducción a la visualización – Estética y tipo de datos
  • 7. Tipos de conexiones en Power BI Power Bi permite conectarnos a una gran variedad de fuentes de datos, desde archivos Excel, bases de datos en SQL, hasta sitios en la web. •Lecturas desde SSAS o desde un conjunto de datos de Power BI Service. •Combina las tecnologías de importación y Direct Query. Usar múltiples conjuntos de datos. •Los datos no se copian, pues cada interacción solicita una consulta a la base de datos. •Los datos se copian de manera local dentro del modelo de Power BI (es el tipo más común). Importación Direct Query Live Connection o Dinámica Modelos Compuestos Modulo 1. Introducción a la visualización – Estética y tipo de datos
  • 8. Preguntas Quiz Modulo 1. Introducción a la visualización – Estética y tipo de datos 1. Mencione uno de los tres objetivos de la visualización, vistos la clase pasada 2. Cual fue el creador del gráfico circular: 3. Las decisiones en las organizaciones que corresponden a estrategias de mediano plazo, enfocadas en planeación, análisis y producción de proyectos; son las decisiones a nivel: 4. Falso o verdadero: El visualizador de información es un híbrido entre un diseñador y un estadístico ( ) 5. Cual de las siguientes características no pertenece a los KPIs: a) Los objetivos cambian cada ciclo b) Mide la estabilidad y los puntos de referencia c) Números que indican el progreso de los objetivos del negocio d) Herramienta de evaluación del rendimiento a. Edward Tufte b. William PlayFair c. Florence Nightingale
  • 9. Ejemplo y actividad práctica Modulo 1. Introducción a la visualización – Estética y tipo de datos
  • 10. MODULO 2: Proceso hacia la visualización de datos
  • 11. Modulo 2. Proceso hacia la visualización de datos EDA (Análisis exploratorio de datos) El análisis exploratorio de datos (EDA) fue desarrollado inicialmente por John Tukey, un matemático de nacionalidad estadounidense en los años 70 y actualmente sigue siendo empleado como método de descubrimiento de data. El EDA es utilizado para analizar e investigar conjuntos de datos, principalmente para descubrir más información más allá del modelamiento de datos y de ensayo de hipótesis; además de facilitar una mayor comprensión de las variables y sus relaciones. Por otra parte, ésta herramienta ayuda analizar y clasificar la viabilidad de las técnicas estadísticas implementadas en un análisis de data.
  • 12. Modulo 2. Proceso hacia la visualización de datos ¿Por qué es importante el uso de EDA? La importancia del EDA radica principalmente en servir como herramienta en el estudio adecuado de los datos para anteponerse a supuestos. Además, por ser una herramienta tan importante y ampliamente útil, a continuación se enumerarán varias de sus usos. • Ayuda a identificar errores obvios en el análisis de datos. • Posibilitar mayor comprensión de los patrones dentro de los datos. • Revelar valores o comportamientos extraños en la data. • Hallar relaciones interesantes entre las variables. Otros usos más generales son: • Demostrar que los resultados producidos son efectivos y aplicables a los objetivos empresariales del cliente. • Ayudar a confirmar que las preguntas realizadas por los stakeholders son las preguntas correctas. • Responder cuestiones acerca de desviaciones estándar, intervalos de confianza y variables categóricas. • Por ultimo, una vez que el Análisis exploratorio de datos se haya realizado por completo y se hayan extraído sus resultados, se pueden utilizar para un modelado de datos más elaborado como machine learning.
  • 13. Modulo 2. Proceso hacia la visualización de datos Funciones y técnicas estadísticas de EDA •Creación de visualizaciones gráficas de datos de alta dimensión con muchas variables, gracias a la reducción de dimensiones a través de EDA. •Visualización univariante de cada campo en el conjunto de datos sin formato, con estadísticas de resumen. •Visualizaciones bivariantes y estadísticas de resumen que le permiten evaluar la relación entre cada variable del conjunto de datos y la variable de destino que desea. •Visualizaciones multivariantes para correlacionar y comprender interacciones entre diferentes campos en los datos. •Agrupación K-means (K-medias en español), un método de agrupación en clúster en aprendizaje no supervisado donde los puntos de datos se asignan a grupos K, es decir, el número de clústeres, basándose en la distancia del centroide de cada grupo. Los puntos de datos más próximos a un centroide determinado se agruparán en la misma categoría. La agrupación K-means se utiliza habitualmente en la segmentación del mercado, el reconocimiento de patrones y la compresión de imágenes. •Los modelos predictivos como, por ejemplo, la regresión lineal, utilizan estadísticas y datos para predecir los resultados.
  • 14. Modulo 2. Proceso hacia la visualización de datos Tipos de análisis exploratorio de datos Tipos principales de EDA: Esta es la forma más simple de análisis de datos, donde los datos que se analizan solo contienen una variable. Ya que es una sola variable, no se ocupa de las causas o relaciones. El objetivo principal del análisis univariante es describir los datos e identificar los patrones. Hay tres tipos comunes de gráficos univariantes, que son: • Diagramas de tallo y hojas, que muestran todos los valores de datos y la forma de la distribución. • Histogramas, diagramas de barras en los que cada barra representa la frecuencia (recuento) o la proporción (recuento/recuento total) de casos para un rango de valores. • Diagramas de caja, que representan gráficamente el resumen de cinco números de mínimo, primer cuartil, mediana, tercer cuartil y máximo. No gráfico univariante: Gráfico univariante:
  • 15. Modulo 2. Proceso hacia la visualización de datos Tipos de análisis exploratorio de datos. Gráficos univariantes: Diagrama de tallo y hojas Histograma y diagrama de barras Diagrama de caja
  • 16. Modulo 2. Proceso hacia la visualización de datos Tipos de análisis exploratorio de datos. Tipos principales de EDA: Se obtienen datos multivariantes de más de una variable. Las técnicas de EDA no gráficas y multivariantes generalmente muestran la relación entre dos o más variables de los datos a través de la tabulación cruzada o las estadísticas. Los datos multivariantes utilizan gráficos para mostrar relaciones entre dos o más conjuntos de datos. El gráfico más utilizado es un diagrama de barras agrupadas donde cada grupo representa un nivel de una de las variables y cada barra dentro de un grupo representa los niveles de la otra variable. Otros tipos comunes de gráficos multivariantes incluyen: • Diagrama de dispersión, que se utiliza para graficar puntos de datos en un eje horizontal y uno vertical para mostrar cuánto afecta una variable a otra. • Gráfico multivariante, que es una representación gráfica de las relaciones entre los factores y una respuesta. • Diagrama de comportamiento, que es un gráfico de líneas de datos a lo largo del tiempo. • Gráfico de burbujas, que es una visualización de datos que muestra varios círculos (burbujas) en un gráfico de dos dimensiones. • Mapa de calor, que es una representación gráfica de datos donde los valores se representan por color. No gráfico multivariante: Gráfico multivariante:
  • 17. Modulo 2. Proceso hacia la visualización de datos Tipos de análisis exploratorio de datos. Gráficos multivariantes: Diagrama de barras agrupadas. Diagrama de dispersión. Diagrama de comportamientos. Gráfico multivariante. Gráfico de líneas de datos. Gráfico de Burbujas. Mapa de color.
  • 18. Conceptos del modelamiento de datos Modelado de datos: 1. Cargar tabla de datos 2. Relacionar tabla de datos 3. Transformar los datos (DAX) Dentro del flujo de Power BI, nos encontramos con el modelado de datos. El modelado de datos es el conjunto de fuentes de datos y/o conjunto de distintas tablas, que al relacionarlas, nos permiten realizar un análisis más profundo sobre diferentes procesos de negocios. CARGA DE DATOS – Entidad de negocio La carga de datos la vamos a abarcar desde la estructura de Entidad de negocio. Cada entidad de negocio será una tabla. Ejemplo: • Hospitales: Las entidades de negocio podrías ser – Visitas, quejas, hospitales, pacientes, doctores, medicamentos, etc. • Colegios: Asistencia, calificaciones, colegios, estudiantes, profesores, materias, exámenes, etc. Modulo 2. Proceso hacia la visualización de datos
  • 19. RELACIONAR TABLAS – tipo de modelos Los modelos de datos en BI, se consideran básicamente de tres tipos: Modelo en estrella, Modelo en copo de nieve y Modelo constelación. I. Modelo estrella: El modelo dimensional de estrella se basa en una tabla fact (hechos), y varias tablas dimensiones que lo complementan y se acomodan a su alrededor en forma de estrella. II. Modelo copo de nieve: Bajo este modelo, la tabla de hecho no está relacionada directamente a todas las tablas que componen el modelo de datos. Tablas dimensiones complementan otras. III. Modelo constelación: Un esquema de constelación es una combinación de un esquema de estrella y un esquema de copo de nieve. Puede tener dos tablas fact y varias de dimensiones, con diferentes relaciones. Tabla de hechos Tabla de dimensiones Eventos medidos. 1. Ejemplo hospitales: Visitas, quejas. 2. Ejemplo colegios: Asistencias, calificaciones Segmentar tablas (Qué, quién, cómo, cuando, dónde). 1. Ejemplo hospitales: Hospitales, pacientes, doctores, etc. 2. Ejemplo colegios: Estudiantes, profesores, materias, etc. Modulo 2. Proceso hacia la visualización de datos – Conceptos de modelamiento de datos
  • 20. Modulo 2. Proceso hacia la visualización de datos – Conceptos de modelamiento de datos Esquema estrella Esquema Copo de nieve Esquema de constelación Tipos de relaciones