Este documento presenta información sobre el proceso de visualización de datos, incluyendo tipos de datos, análisis exploratorio de datos (EDA), y conceptos de modelado de datos. Explica que EDA se utiliza para explorar y comprender datos a través de visualizaciones univariadas, bivariadas y multivariadas. También describe los tres tipos principales de modelado de datos - esquema en estrella, copo de nieve y constelación - y cómo se usan tablas de hechos y dimensiones para segmentar y analizar datos.
3. Tipos de
datos
Modulo 1. Introducción a la visualización
Discretos
Continuos
Cuantitativos
Nominales
Ordinales
Cualitativos -
Categóricos
Estética y tipos de datos
4. Tipos de datos
Modulo 1. Introducción a la visualización – Estética y tipo de datos
ORDINALES
INTERVALOS
NOMINALES
PROPORCIÓN
Deudatotal
(M.€)
%
Deudatotal
(M.€)
%
2020 155.795 65,66% 350.918 102,79%
2019 151.219 52,40% 358.539 88,84%
2018 151.673 53,58% 378.730 85,25%
2017 136.810 49,44% 325.798 57,03%
Colombia Argentina
Peso % Deudasobre PIB
Año
5. Fuentes de datos
Los datos son la condición necesaria para un ejercicio de visualización. Por lo tanto, resulta fundamental
hacer un ejercicio de reflexión para conocer cuáles son los datos que vamos a necesitar, dónde se
encuentran y cómo están estructurados.
Es muy importante identificar, valorar y analizar los datos
que realmente tengan potencial para generar información
interesante y descartar aquellos que no contribuyan.
El volumen de datos se está incrementado de forma
exponencial y, además, está aumentando la complejidad
para extraerlos, dada la heterogeneidad de los dispositivos
que los captan. En este contexto se hace necesario
determinar cuáles son las categorías de datos que existen
y cuáles son las fuentes de origen de estos.
Modulo 1. Introducción a la visualización – Estética y tipo de datos
6. Categorías de datos existentes:
Estructurados
• Son los que presentan un formato claramente definido y
bien especificado; algunos ejemplos son las bases de
datos, hojas de cálculos, entre otros.
No
Estructurados
• Son los más frecuentes en el entorno Big Data actual. Este tipo de datos requiere uso de herramientas
como Hadoop o bases de datos NosQL.
• Algunos ejemplos de datos no estructurados son los archivos de audio, vídeo, fotografías, formatos
de texto, correos electrónicos, las búsquedas que realizamos en buscadores web tipo Google o Bing o
las publicaciones en las redes sociales, etc.
Semiestructurados
• Si bien éstos no tienen formatos fijos, sí contienen etiquetas u
otros marcadores que permiten su comprensión. Ejemplo: las
etiquetas XML y HTML.dcp
Modulo 1. Introducción a la visualización – Estética y tipo de datos
7. Tipos de conexiones en Power BI
Power Bi permite conectarnos a una gran variedad de fuentes de datos, desde archivos Excel, bases de
datos en SQL, hasta sitios en la web.
•Lecturas desde SSAS
o desde un conjunto
de datos de Power BI
Service.
•Combina las
tecnologías de
importación y Direct
Query. Usar múltiples
conjuntos de datos.
•Los datos no se copian,
pues cada interacción
solicita una consulta a
la base de datos.
•Los datos se copian de
manera local dentro del
modelo de Power BI (es
el tipo más común).
Importación Direct Query
Live
Connection o
Dinámica
Modelos
Compuestos
Modulo 1. Introducción a la visualización – Estética y tipo de datos
8. Preguntas Quiz
Modulo 1. Introducción a la visualización – Estética y tipo de datos
1. Mencione uno de los tres objetivos de la visualización, vistos la clase pasada
2. Cual fue el creador del gráfico circular:
3. Las decisiones en las organizaciones que corresponden a estrategias de mediano plazo, enfocadas en
planeación, análisis y producción de proyectos; son las decisiones a nivel:
4. Falso o verdadero:
El visualizador de información es un híbrido entre un diseñador y un estadístico ( )
5. Cual de las siguientes características no pertenece a los KPIs:
a) Los objetivos cambian cada ciclo
b) Mide la estabilidad y los puntos de referencia
c) Números que indican el progreso de los objetivos del negocio
d) Herramienta de evaluación del rendimiento
a. Edward Tufte
b. William PlayFair
c. Florence Nightingale
9. Ejemplo y actividad práctica
Modulo 1. Introducción a la visualización – Estética y tipo de datos
11. Modulo 2. Proceso hacia la visualización de datos
EDA (Análisis exploratorio de datos)
El análisis exploratorio de datos (EDA) fue desarrollado inicialmente por John Tukey, un matemático de
nacionalidad estadounidense en los años 70 y actualmente sigue siendo empleado como método de
descubrimiento de data.
El EDA es utilizado para analizar e investigar conjuntos
de datos, principalmente para descubrir más
información más allá del modelamiento de datos y de
ensayo de hipótesis; además de facilitar una mayor
comprensión de las variables y sus relaciones.
Por otra parte, ésta herramienta ayuda analizar y
clasificar la viabilidad de las técnicas estadísticas
implementadas en un análisis de data.
12. Modulo 2. Proceso hacia la visualización de datos
¿Por qué es importante el uso de EDA?
La importancia del EDA radica principalmente en servir como herramienta en el estudio adecuado de los
datos para anteponerse a supuestos. Además, por ser una herramienta tan importante y ampliamente útil,
a continuación se enumerarán varias de sus usos.
• Ayuda a identificar errores obvios en el análisis de datos.
• Posibilitar mayor comprensión de los patrones dentro de los datos.
• Revelar valores o comportamientos extraños en la data.
• Hallar relaciones interesantes entre las variables.
Otros usos más generales son:
• Demostrar que los resultados producidos son efectivos y aplicables a los objetivos empresariales del
cliente.
• Ayudar a confirmar que las preguntas realizadas por los stakeholders son las preguntas correctas.
• Responder cuestiones acerca de desviaciones estándar, intervalos de confianza y variables categóricas.
• Por ultimo, una vez que el Análisis exploratorio de datos se haya realizado por completo y se hayan
extraído sus resultados, se pueden utilizar para un modelado de datos más elaborado como machine
learning.
13. Modulo 2. Proceso hacia la visualización de datos
Funciones y técnicas estadísticas de EDA
•Creación de visualizaciones gráficas de datos de alta dimensión con muchas variables, gracias a la reducción
de dimensiones a través de EDA.
•Visualización univariante de cada campo en el conjunto de datos sin formato, con estadísticas de resumen.
•Visualizaciones bivariantes y estadísticas de resumen que le permiten evaluar la relación entre cada variable
del conjunto de datos y la variable de destino que desea.
•Visualizaciones multivariantes para correlacionar y comprender interacciones entre diferentes campos en los
datos.
•Agrupación K-means (K-medias en español), un método de agrupación en clúster en aprendizaje no
supervisado donde los puntos de datos se asignan a grupos K, es decir, el número de clústeres, basándose
en la distancia del centroide de cada grupo. Los puntos de datos más próximos a un centroide determinado
se agruparán en la misma categoría. La agrupación K-means se utiliza habitualmente en la segmentación del
mercado, el reconocimiento de patrones y la compresión de imágenes.
•Los modelos predictivos como, por ejemplo, la regresión lineal, utilizan estadísticas y datos para predecir
los resultados.
14. Modulo 2. Proceso hacia la visualización de datos
Tipos de análisis exploratorio de datos
Tipos principales de EDA:
Esta es la forma más simple de análisis de datos, donde los datos que se analizan solo contienen una
variable. Ya que es una sola variable, no se ocupa de las causas o relaciones. El objetivo principal del
análisis univariante es describir los datos e identificar los patrones.
Hay tres tipos comunes de gráficos univariantes, que son:
• Diagramas de tallo y hojas, que muestran todos los valores de datos y la forma de la distribución.
• Histogramas, diagramas de barras en los que cada barra representa la frecuencia (recuento) o la proporción (recuento/recuento total)
de casos para un rango de valores.
• Diagramas de caja, que representan gráficamente el resumen de cinco números de mínimo, primer cuartil, mediana, tercer cuartil y
máximo.
No gráfico
univariante:
Gráfico
univariante:
15. Modulo 2. Proceso hacia la visualización de datos
Tipos de análisis exploratorio de datos.
Gráficos univariantes:
Diagrama de tallo y hojas
Histograma y diagrama de barras
Diagrama de caja
16. Modulo 2. Proceso hacia la visualización de datos
Tipos de análisis exploratorio de datos.
Tipos principales de EDA:
Se obtienen datos multivariantes de más de una variable. Las técnicas de EDA no gráficas y multivariantes generalmente
muestran la relación entre dos o más variables de los datos a través de la tabulación cruzada o las estadísticas.
Los datos multivariantes utilizan gráficos para mostrar relaciones entre dos o más conjuntos de datos. El gráfico más utilizado es un diagrama
de barras agrupadas donde cada grupo representa un nivel de una de las variables y cada barra dentro de un grupo representa los niveles de
la otra variable.
Otros tipos comunes de gráficos multivariantes incluyen:
• Diagrama de dispersión, que se utiliza para graficar puntos de datos en un eje horizontal y uno vertical para mostrar cuánto afecta una
variable a otra.
• Gráfico multivariante, que es una representación gráfica de las relaciones entre los factores y una respuesta.
• Diagrama de comportamiento, que es un gráfico de líneas de datos a lo largo del tiempo.
• Gráfico de burbujas, que es una visualización de datos que muestra varios círculos (burbujas) en un gráfico de dos dimensiones.
• Mapa de calor, que es una representación gráfica de datos donde los valores se representan por color.
No gráfico
multivariante:
Gráfico
multivariante:
17. Modulo 2. Proceso hacia la visualización de datos
Tipos de análisis exploratorio de datos.
Gráficos multivariantes:
Diagrama de barras agrupadas. Diagrama de dispersión.
Diagrama de comportamientos.
Gráfico multivariante.
Gráfico de líneas de datos.
Gráfico de Burbujas.
Mapa de color.
18. Conceptos del modelamiento de datos
Modelado de datos:
1. Cargar tabla de datos
2. Relacionar tabla de datos
3. Transformar los datos (DAX)
Dentro del flujo de Power BI, nos encontramos con el modelado de datos. El modelado de datos es el
conjunto de fuentes de datos y/o conjunto de distintas tablas, que al relacionarlas, nos permiten realizar
un análisis más profundo sobre diferentes procesos de negocios.
CARGA DE DATOS – Entidad de negocio
La carga de datos la vamos a abarcar desde la estructura de Entidad de negocio. Cada entidad de negocio será
una tabla.
Ejemplo:
• Hospitales: Las entidades de negocio podrías ser – Visitas, quejas, hospitales, pacientes, doctores,
medicamentos, etc.
• Colegios: Asistencia, calificaciones, colegios, estudiantes, profesores, materias, exámenes, etc.
Modulo 2. Proceso hacia la visualización de datos
19. RELACIONAR TABLAS – tipo de modelos
Los modelos de datos en BI, se consideran básicamente de tres tipos: Modelo en estrella, Modelo en copo de nieve y Modelo
constelación.
I. Modelo estrella: El modelo dimensional de estrella se basa en una tabla fact (hechos), y varias tablas dimensiones que lo
complementan y se acomodan a su alrededor en forma de estrella.
II. Modelo copo de nieve: Bajo este modelo, la tabla de hecho no está relacionada directamente a todas las tablas que
componen el modelo de datos. Tablas dimensiones complementan otras.
III. Modelo constelación: Un esquema de constelación es una combinación de un esquema de estrella y un esquema de copo
de nieve. Puede tener dos tablas fact y varias de dimensiones, con diferentes relaciones.
Tabla de
hechos
Tabla de
dimensiones
Eventos medidos.
1. Ejemplo hospitales: Visitas, quejas.
2. Ejemplo colegios: Asistencias,
calificaciones
Segmentar tablas (Qué, quién, cómo,
cuando, dónde).
1. Ejemplo hospitales: Hospitales,
pacientes, doctores, etc.
2. Ejemplo colegios: Estudiantes,
profesores, materias, etc.
Modulo 2. Proceso hacia la visualización de datos – Conceptos de modelamiento de datos
20. Modulo 2. Proceso hacia la visualización de datos – Conceptos de modelamiento de datos
Esquema estrella
Esquema Copo de nieve
Esquema de constelación
Tipos de relaciones