Este documento tiene como propósito cumplir con la práctica individual correspondiente al proyecto de evaluación entre pares, dentro del curso “Visualización de datos y Storytelling”, en la plataforma edx.org.
Proyecto visualización de datos y storytelling mpsf
1. Visualización de datos y Storytelling
Visualización
de datos y
Storytelling
Proyecto individual evaluado
por pares
Marco Polo Sánchez Farfán
2. Visualización de datos y Storytelling
1 | P á g i n a
Resumen
Este documento tiene como propósito cumplir con la práctica individual
correspondiente al proyecto de evaluación entre pares, dentro del curso
“Visualización de datos y Storytelling”, en la plataforma edx.org. Para tal efecto, se
analiza la información proporcionada en cuatro bases de datos de la empresa
denominada “Librería Iztaccíhuatl” y, con base en los conocimientos adquiridos en
el curso se presentan las respuestas a preguntas específicas para aplicar la
Ciencia de Datos.
De manera particular, el objetivo de este trabajo consiste en identificar las gráficas;
comparaciones; correlaciones y una posible predicción a través de una
visualización de datos como parte de un modelo basado en Ciencia de Datos para
el apoyo a la toma de decisiones para una organización
3. Visualización de datos y Storytelling
2 | P á g i n a
Contenido
Introducción....................................................................................................................... 1
Identificación y justificación de gráficas ............................................................................. 2
Predicciones ...................................................................................................................... 6
Historia de los datos .......................................................................................................... 8
Conclusiones ..................................................................................................................... 9
Bibliografía....................................................................................................................... 12
4. Visualización de datos y Storytelling
3 | P á g i n a
Lista de Figuras
Figura 1 Número de libros por idioma. Gráfica de barras................................................... 3
Figura 2 Ventas por Valor y Volumen, según fecha. Gráfica de líneas............................... 4
Figura 3 Frecuencia de calificaciones otorgadas por los usuarios. Histograma.................. 5
Figura 4 Los 10 libros con mayor número de recomendaciones. Gráfico de barras. .......... 6
Lista de Tablas
Tabla 1 Descripción de la base de datos books.csv........................................................... 2
Tabla 2 Descripción general de la base de datos top_books.csv ....................................... 3
Tabla 3 Descripción general de las bases de datos de la Librería Iztaccíhuatl................... 4
Tabla 4 Descripción general de la base de datos to_read.csv ........................................... 5
Tabla 5 Inconsistencias y adecuaciones a las bases de datos........................................... 6
5. Visualización de datos y Storytelling
1 | P á g i n a
Introducción
Para maximizar la comunicación efectiva de la información es necesario combinar de
forma adecuada los siguientes elementos: texto, tablas y gráficos. Según la forma en
que logren combinarse se podrá transmitir el mensaje deseado. Para alcanzar este fin,
existe una diversidad de herramientas y habilidades, así como métodos de
comunicación.
En lo que se refiere a la Ciencia de Datos, la recopilación de datos ya no es un
problema mayor, dada la gran cantidad de información que se genera de diferentes
fuentes y almacena en diversos medios. Ahora, el tema principal consiste en
representar esos datos para entenderlos y extraer conocimiento.
Derivado de lo anterior, toda vez que el presente documento tiene como objetivo
identificar las gráficas; comparaciones; correlaciones y una posible predicción a través
de una visualización de datos de la Librería Iztaccihuatl, es necesario profundizar en
algunos conceptos.
De acuerdo con la Real Academia Española, la visualización puede definirse como la
acción o efecto de formar en la mente una imagen visual de un concepto abstracto, así
como la de representar mediante imágenes ópticas fenómenos de otro carácter.1
En el área de la Ciencia de Datos, la definición más común en la literatura académica
es “el uso de representaciones visuales, interactivas, asistidas por computadoras de
datos para amplificar la adquisición o uso de conocimiento”.23
Por lo tanto, la visualización, además de crear representaciones gráficas de datos,
aporta valor a la información al favorecer la transmisión de mensajes complejos, facilitar
la identificación de hallazgos y la toma de decisiones.
En este sentido, para cumplir con el Proyecto individual evaluado por pares se utiliza la
información proporcionada en el material del curso “Visualización de datos y
Storytelling”, dentro de la plataforma edx.org, consistente en cuatro bases de datos
dentro de la carpeta denominada “datasets_books”, para dar respuesta a las siguientes
preguntas:
¿Qué gráficas se pueden realizar sobre el análisis de datos de la Librería
Iztaccihuatl?
1
https://dle.rae.es/visualizar
2
Adaptada de Khan y Khan (2011). Pág. 1.
3
Para otros efectos, de acuerdo con la Organización de las Naciones Unidas, la visualización de datos es la
representación visual de datos a través de gráficos y mapas interactivos animados, con el fin de comunicar
información de manera clara y efectiva y colocar las estadísticas a disposición de un público más amplio. Véase
http://libraryresources.unog.ch/c.php?g=462654&p=3162714.
6. Visualización de datos y Storytelling
2 | P á g i n a
¿Qué comparaciones se podrían realizar sobre los datos de la Librería
Iztaccihuatl?
¿Qué correlaciones se pueden tener de los datos de la Librería Iztaccihuatl para
poder realizar un análisis descriptivo?
¿Es posible realizar alguna predicción sobre los datos de la Librería Iztaccihuatl?
¿Qué historia se podría contar de las visualizaciones a los datos de la Librería
Iztaccihuatl?
En la siguiente sección, de acuerdo con los alcances del curso, se analiza la
información y se propone al menos una gráfica para cada una de las bases de datos
disponibles, además de dar respuesta a las posibles comparaciones, correlaciones y
predicciones. En una sección adicional se incluye la historia a contar con la
visualización de la información de la Librería Iztaccihuatl y, finalmente, se integra un
apartado con las conclusiones correspondientes.
Identificación y justificación de gráficas
Una gráfica es una representación visual de datos que son representados por símbolos
tales como como barras o líneas que permite mostrar la información de manera rápida y
sencilla, por lo que facilita la comparación, así como exhibir tendencias y relaciones
entre los datos.
En este sentido, toda vez que el proceso general para llevar a cabo la visualización de
datos es altamente iterativo y a menudo comienza con una pregunta, ya sea general o
específica, para identificar los tipos de gráficas que podrían utilizarse para el análisis y
comunicación, es necesario conocer los datos que con que se cuenta.
Por ello, se presenta una breve descripción de la base de datos y la información que
contienen, a efecto de explorar las opciones y presentar las gráficas elegidas en cada
caso.
Tabla 1
Descripción de la base de datos books.csv
Base de datos Descripción específica
books.csv Contiene 10,000 registros (libros), con número de identificación,
número de ediciones, autores, fecha de publicación original,
título, idioma, así como promedio de calificación de acuerdo con
las votaciones y compras del cliente.
De acuerdo con la información presentada, es posible representar las siguientes
gráficas:
7. Visualización de datos y Storytelling
3 | P á g i n a
Composición, para mostrar como las partes individuales integran un todo; por
ejemplo, los diferentes idiomas en que están disponibles los libros.
Figura 1
Número de libros por idioma. Gráfica de barras.
Tabla 2
Descripción general de la base de datos top_books.csv
Base de
datos
Descripción
top_books.csv Muestra 120 registros con la posición y título de los 20 libros
más vendidos según las categorías establecidas en el campo
‘classification’. Además, incluye el autor, imprenta, volumen de
ventas hasta 2010 y valor de ventas determinadas por el
volumen, precio recomendado para minoristas y precio promedio
para venta y tipo de encuadernación.
Correlación, para mostrar la evolución del volumen de venta y su valor por
periodo de tiempo.
8. Visualización de datos y Storytelling
4 | P á g i n a
Figura 2
Ventas por Valor y Volumen, según fecha. Gráfica de líneas.
Tabla 3
Descripción general de las bases de datos de la Librería Iztaccíhuatl
Base de
datos
Descripción
ratings.csv Contiene 981,75 registros con la calificación (rating) otorgada
por 53,426 usuarios a 10,000 títulos con que cuenta la librería.
Distribución, para presentar la estructura y rango de las calificaciones, por
usuario de esta colección de datos.
9. Visualización de datos y Storytelling
5 | P á g i n a
Figura 3
Frecuencia de calificaciones otorgadas por los usuarios. Histograma
Tabla 4
Descripción general de la base de datos to_read.csv
Base de
datos
Descripción
to_read.csv Recopila 912,705 registros con las recomendaciones de 48,871
usuarios del sitio web de la Librería Iztaccíhuatl, respecto a
9,986 títulos (libros).
Comparación, para identificar los títulos con el mayor número de
recomendaciones.
10. Visualización de datos y Storytelling
6 | P á g i n a
Figura 4
Los 10 libros con mayor número de recomendaciones. Gráfico de barras.
Predicciones
Dentro de los tipos de análisis de datos, la Analítica Predictiva destaca ya que se
pretende dar respuesta a la pregunta ¿qué puede pasar?, mediante el pronóstico de
resultados con base en las relaciones entre las variables explicativas o de entrada y las
variables de salida.
En el caso de la Librería Iztaccihuatl, al revisar detenidamente la información de las
bases de datos proporcionadas, se encontraron las inconsistencias señaladas en la
Tabla 5, por lo que deben realizarse tareas de selección, limpieza, estandarización,
cambio de formatos y, en su caso, generación de nuevas variables, para permitir su
procesamiento en la ejecución de análisis predictivos.
Tabla 5
Inconsistencias y adecuaciones a las bases de datos
Base de
datos
Inconsistencia Adecuaciones
books.csv El campo ‘original_publication_year’
muestra fechas desde 1750 a. C. Sin
embargo, es preciso señalar que la
mayoría de las publicaciones
“antiguas” corresponden a las
Establecer la fecha que corresponda
efectivamente a la publicación, ya
sea original o de la traducción
realizada
11. Visualización de datos y Storytelling
7 | P á g i n a
Base de
datos
Inconsistencia Adecuaciones
traducciones que se han realizado,
lo que se distingue según el campo
‘authors’.
books.csv Mismo dato en todos los registros
del campo ‘ISBN13’.
Integrar el ISBN correspondiente a
cada libro, mediante un catálogo
para evitar errores de registro
manual.
books.csv Se requiere precisar el nombre de
los campos ya que también existe el
campo ‘ISBN’ con información
diferente en cada registro, lo que
puede generar confusiones e
interpretación errónea de la
información.
Se requiere precisar el nombre de
los campos ya que también existe el
campo ‘ISBN’ con información
diferente en cada registro, lo que
puede generar confusiones e
interpretación errónea de la
información.
top_books.csv. Mismo dato en todos los registros
del campo ‘ISBN’
Identificar y establecer el mismo
nombre para los campos en
diferentes bases de datos que se
refieran a la misma información,
mediante un modelo de datos que
hagan referencia a una tabla única
para el campo deseado.
top_books.csv Solo tiene un registro para 1999,
2005 y 2006; no existe información
de 2000 a 2004, cinco registros para
2007, cuatro para 2008, 11 para
2009 y 97 para 2010.
Crear una base de datos con
información histórica completa con el
volumen y valor de ventas de 1999 a
la fecha.
top_books.csv Registros repetidos en todos los
campos, con excepción del campo
‘classification’. Lo anterior significa
que un mismo libro está registrado
con dos categorías diferentes en ese
campo: Original fiction y HB Fiction.
Establecer una categoría única para
cada libro.
top_books.csv Existen 30 registros en el campo
‘Publ Date’ que no corresponden con
el formato de fecha de los 90
registros restantes.
El campo deberá referirse a la fecha
de venta y no a la de publicación,
por lo que se requiere modificar toda
la base de datos e incorporar reglas
de validación para que la captura
cumpla con un formato único. En su
caso podría generarse un vínculo a
la base de datos de ventas que
contenga la fecha requerida.
ratings.csv Un mismo usuario evalúa dos o más
veces el mismo libro.
Conservar la última calificación
asignada por el usuario para cada
libro.
¿Qué predicciones se podrían obtener de los datos de la Librería Iztaccíhuatl?
12. Visualización de datos y Storytelling
8 | P á g i n a
Con base en los datos analizados se considera que podrían predecirse las
siguientes variables: Ingresos por ventas, mediante modelos de series de
tiempo; Volumen de ventas, mediante un modelo de clasificación de los libros
más vendidos; Recomendaciones, mediante sugerencias de acuerdo a las
compras por usuario; y Calificación, de acuerdo con el rating asignado por los
usuarios.
Historia de los datos
Para lograr una visualización de datos efectiva es necesario entender el contexto y la
necesidad que debe comunicarse con la información que se va a presentar, por lo que
deben considerarse los siguientes elementos:
Audiencia: a mayor conocimiento de la misma, se tendrá una mejor posición
para determinar un mejor impacto al comunicar la información.
Acción: definir qué se espera que la audiencia conozca o realice a través de la
visualización de datos, ya que el objetivo no es presentar únicamente
información.
Creación: una vez que se ha articulado la audiencia y la acción, es necesario
sostener con la evidencia de los datos la historia que habrá de construirse y
contar.
En el caso de la Librería Iztaccihuatl, al considerar que el storytelling estaría dirigido a
los clientes a través del portal de Internet o en anuncios dentro del local, de acuerdo
con la información de las bases de datos analizadas, se proponen los siguientes
tópicos:
La Librería Iztaccihuatl cuenta con 3,767 años de historia, ya que su acervo
contiene títulos cuya publicación original data desde 1750 a.C. y hasta 2017 a. C.
Los libros que sus clientes pueden encontrar están disponibles en 21 idiomas
diferentes.
Los 20 libros más vendidos corresponden a seis categorías o clasificaciones.
A través del portal de Internet, un total de 48,871 usuarios han hecho alguna
recomendación sobre 9,986 títulos.
El promedio de recomendaciones por usuario es de 18.7, en un rango desde 1
hasta 117 recomendaciones.
13. Visualización de datos y Storytelling
9 | P á g i n a
El rating promedio otorgado por los lectores a los 10,000 libros evaluados es de
3.86, en una escala de 1 a 5. El título con mejor calificación tiene 4.86 puntos.
Conclusiones
El trabajo desarrollado en este documento tuvo la finalidad de cumplir con la práctica
individual del proyecto de evaluación entre pares, correspondiente al curso
“Visualización de datos y storytelling”, dentro de la plataforma edx.org.
Para realizar la práctica, se revisaron las bases de datos de la Librería Iztaccihuatl, que
contienen la información señalada en la Tabla 6:
Tabla 6
Descripción de las bases de datos de la Librería Iztaccihuatl
Base de
datos
Descripción
books Contiene los datos generales de cada libro existente en la
librería y además menciona el promedio de clasificación de cada
libro de acuerdo a las votaciones y compras del cliente.
top_books Contiene el top 20 de los libros más vendidos de acuerdo a una
clasificación general.
to_read Contiene los datos de los libros más votados por los clientes
dentro del sitio web de la librería.
ratings Contiene las recomendaciones que cada cliente o usuario
realiza en el sitio web sobre libros para leer.
Para la generación de los gráficos se utilizó el programa Python 5.0.5, a través de la
plataforma Anaconda.
Con base en lo anterior, las respuestas a las preguntas planteadas en el proyecto
fueron las siguientes:
¿Qué gráficas se pueden realizar sobre el análisis de datos de la Librería
Iztaccihuatl?
o Gráficas de barras, para mostrar la composición de los títulos que integran la
colección de la Librería, según el idioma en que están publicados.
o Gráfica de líneas, para mostrar la correlación existente entre el volumen de
ventas y el valor de ventas en los periodos de tiempo.
o Histograma, para presentar la distribución de las calificaciones otorgadas por
los usuarios a la colección de libros.
14. Visualización de datos y Storytelling
10 | P á g i n a
¿Qué comparaciones se podrían realizar sobre los datos de la Librería
Iztaccihuatl?
o Con base en un gráfico de barras, se identificaron los 10 títulos con el mayor
número de recomendaciones efectuadas por los usuarios del portal de la
Librería Iztaccihuatl.
¿Qué correlaciones se pueden tener de los datos de la Librería Iztaccihuatl para
poder realizar un análisis descriptivo?
o De acuerdo con la información de la base top_book.csv es posible identificar la
correlación existente entre la categoría o género de los títulos con el volumen
y el valor de las ventas.
¿Es posible realizar alguna predicción sobre los datos de la Librería Iztaccihuatl?
o Según los datos analizados se considera que podrían predecirse las
siguientes variables: Ingresos por ventas, mediante modelos de series de
tiempo; Volumen de ventas, mediante un modelo de clasificación de los libros
más vendidos; Recomendaciones, mediante sugerencias de acuerdo a las
compras por usuario; y Calificación, de acuerdo con el rating asignado por los
usuarios.
¿Qué historia se podría contar de las visualizaciones a los datos de la Librería
Iztaccihuatl?
o El storytelling propuesto se dirigen a los clientes de la Librería con las
siguientes historias:
La Librería Iztaccihuatl cuenta con 3,767 años de historia, ya que su acervo
contiene títulos cuya publicación original data desde 1750 a.C. y hasta 2017
a. C.
Los libros que sus clientes pueden encontrar están disponibles en 21
idiomas diferentes.
Los 20 libros más vendidos corresponden a seis categorías o
clasificaciones.
A través del portal de Internet, un total de 48,871 usuarios han hecho
alguna recomendación sobre 9,986 títulos.
15. Visualización de datos y Storytelling
11 | P á g i n a
El promedio de recomendaciones por usuario es de 18.7, en un rango
desde 1 hasta 117 recomendaciones.
El rating promedio otorgado por los lectores a los 10,000 libros evaluados es
de 3.86, en una escala de 1 a 5. El título con mejor calificación tiene 4.86
puntos.
16. Visualización de datos y Storytelling
12 | P á g i n a
Bibliografía
Khan, M. y Khan, S. S. (2011). Data and Information Visualization Methods, and
Interactive Mechanisms: A Survey. International Journal of Computer Applications,
Volume 34– No.1.
Naciones Unidas. Comisión Económica para Europa (2009). Cómo hacer
comprensibles los datos. Parte 2. Una guía para presentar estadísticas.
Perfit, Janine T., Amézaga, Karla Yee y Muñoz-Ayala, Jorge E. (2019). Caja de
herramientas para la visualización de datos de las oficinas nacionales de estadística.
Banco Interamericano de Desarrollo.
Phillip Heita (28 abril 2019) Storytelling with data.
https://www.kaggle.com/phillipheita/storytelling-with-data
Prabhakaran, Selva (28 de noviembre de 2018). Top 50 matplotlib Visualizations – The
Master Plots (with full python code). https://www.machinelearningplus.com/plots/top-50-
matplotlib-visualizations-the-master-plots-python/
Wilke, Claus O. Fundamentals of Data Visualization.
https://clauswilke.com/dataviz/index.html