SlideShare una empresa de Scribd logo
1 de 16
Descargar para leer sin conexión
Visualización de datos y Storytelling
Visualización
de datos y
Storytelling
Proyecto individual evaluado
por pares
Marco Polo Sánchez Farfán
Visualización de datos y Storytelling
1 | P á g i n a
Resumen
Este documento tiene como propósito cumplir con la práctica individual
correspondiente al proyecto de evaluación entre pares, dentro del curso
“Visualización de datos y Storytelling”, en la plataforma edx.org. Para tal efecto, se
analiza la información proporcionada en cuatro bases de datos de la empresa
denominada “Librería Iztaccíhuatl” y, con base en los conocimientos adquiridos en
el curso se presentan las respuestas a preguntas específicas para aplicar la
Ciencia de Datos.
De manera particular, el objetivo de este trabajo consiste en identificar las gráficas;
comparaciones; correlaciones y una posible predicción a través de una
visualización de datos como parte de un modelo basado en Ciencia de Datos para
el apoyo a la toma de decisiones para una organización
Visualización de datos y Storytelling
2 | P á g i n a
Contenido
Introducción....................................................................................................................... 1
Identificación y justificación de gráficas ............................................................................. 2
Predicciones ...................................................................................................................... 6
Historia de los datos .......................................................................................................... 8
Conclusiones ..................................................................................................................... 9
Bibliografía....................................................................................................................... 12
Visualización de datos y Storytelling
3 | P á g i n a
Lista de Figuras
Figura 1 Número de libros por idioma. Gráfica de barras................................................... 3
Figura 2 Ventas por Valor y Volumen, según fecha. Gráfica de líneas............................... 4
Figura 3 Frecuencia de calificaciones otorgadas por los usuarios. Histograma.................. 5
Figura 4 Los 10 libros con mayor número de recomendaciones. Gráfico de barras. .......... 6
Lista de Tablas
Tabla 1 Descripción de la base de datos books.csv........................................................... 2
Tabla 2 Descripción general de la base de datos top_books.csv ....................................... 3
Tabla 3 Descripción general de las bases de datos de la Librería Iztaccíhuatl................... 4
Tabla 4 Descripción general de la base de datos to_read.csv ........................................... 5
Tabla 5 Inconsistencias y adecuaciones a las bases de datos........................................... 6
Visualización de datos y Storytelling
1 | P á g i n a
Introducción
Para maximizar la comunicación efectiva de la información es necesario combinar de
forma adecuada los siguientes elementos: texto, tablas y gráficos. Según la forma en
que logren combinarse se podrá transmitir el mensaje deseado. Para alcanzar este fin,
existe una diversidad de herramientas y habilidades, así como métodos de
comunicación.
En lo que se refiere a la Ciencia de Datos, la recopilación de datos ya no es un
problema mayor, dada la gran cantidad de información que se genera de diferentes
fuentes y almacena en diversos medios. Ahora, el tema principal consiste en
representar esos datos para entenderlos y extraer conocimiento.
Derivado de lo anterior, toda vez que el presente documento tiene como objetivo
identificar las gráficas; comparaciones; correlaciones y una posible predicción a través
de una visualización de datos de la Librería Iztaccihuatl, es necesario profundizar en
algunos conceptos.
De acuerdo con la Real Academia Española, la visualización puede definirse como la
acción o efecto de formar en la mente una imagen visual de un concepto abstracto, así
como la de representar mediante imágenes ópticas fenómenos de otro carácter.1
En el área de la Ciencia de Datos, la definición más común en la literatura académica
es “el uso de representaciones visuales, interactivas, asistidas por computadoras de
datos para amplificar la adquisición o uso de conocimiento”.23
Por lo tanto, la visualización, además de crear representaciones gráficas de datos,
aporta valor a la información al favorecer la transmisión de mensajes complejos, facilitar
la identificación de hallazgos y la toma de decisiones.
En este sentido, para cumplir con el Proyecto individual evaluado por pares se utiliza la
información proporcionada en el material del curso “Visualización de datos y
Storytelling”, dentro de la plataforma edx.org, consistente en cuatro bases de datos
dentro de la carpeta denominada “datasets_books”, para dar respuesta a las siguientes
preguntas:
 ¿Qué gráficas se pueden realizar sobre el análisis de datos de la Librería
Iztaccihuatl?
1
https://dle.rae.es/visualizar
2
Adaptada de Khan y Khan (2011). Pág. 1.
3
Para otros efectos, de acuerdo con la Organización de las Naciones Unidas, la visualización de datos es la
representación visual de datos a través de gráficos y mapas interactivos animados, con el fin de comunicar
información de manera clara y efectiva y colocar las estadísticas a disposición de un público más amplio. Véase
http://libraryresources.unog.ch/c.php?g=462654&p=3162714.
Visualización de datos y Storytelling
2 | P á g i n a
 ¿Qué comparaciones se podrían realizar sobre los datos de la Librería
Iztaccihuatl?
 ¿Qué correlaciones se pueden tener de los datos de la Librería Iztaccihuatl para
poder realizar un análisis descriptivo?
 ¿Es posible realizar alguna predicción sobre los datos de la Librería Iztaccihuatl?
 ¿Qué historia se podría contar de las visualizaciones a los datos de la Librería
Iztaccihuatl?
En la siguiente sección, de acuerdo con los alcances del curso, se analiza la
información y se propone al menos una gráfica para cada una de las bases de datos
disponibles, además de dar respuesta a las posibles comparaciones, correlaciones y
predicciones. En una sección adicional se incluye la historia a contar con la
visualización de la información de la Librería Iztaccihuatl y, finalmente, se integra un
apartado con las conclusiones correspondientes.
Identificación y justificación de gráficas
Una gráfica es una representación visual de datos que son representados por símbolos
tales como como barras o líneas que permite mostrar la información de manera rápida y
sencilla, por lo que facilita la comparación, así como exhibir tendencias y relaciones
entre los datos.
En este sentido, toda vez que el proceso general para llevar a cabo la visualización de
datos es altamente iterativo y a menudo comienza con una pregunta, ya sea general o
específica, para identificar los tipos de gráficas que podrían utilizarse para el análisis y
comunicación, es necesario conocer los datos que con que se cuenta.
Por ello, se presenta una breve descripción de la base de datos y la información que
contienen, a efecto de explorar las opciones y presentar las gráficas elegidas en cada
caso.
Tabla 1
Descripción de la base de datos books.csv
Base de datos Descripción específica
books.csv Contiene 10,000 registros (libros), con número de identificación,
número de ediciones, autores, fecha de publicación original,
título, idioma, así como promedio de calificación de acuerdo con
las votaciones y compras del cliente.
De acuerdo con la información presentada, es posible representar las siguientes
gráficas:
Visualización de datos y Storytelling
3 | P á g i n a
 Composición, para mostrar como las partes individuales integran un todo; por
ejemplo, los diferentes idiomas en que están disponibles los libros.
Figura 1
Número de libros por idioma. Gráfica de barras.
Tabla 2
Descripción general de la base de datos top_books.csv
Base de
datos
Descripción
top_books.csv Muestra 120 registros con la posición y título de los 20 libros
más vendidos según las categorías establecidas en el campo
‘classification’. Además, incluye el autor, imprenta, volumen de
ventas hasta 2010 y valor de ventas determinadas por el
volumen, precio recomendado para minoristas y precio promedio
para venta y tipo de encuadernación.
 Correlación, para mostrar la evolución del volumen de venta y su valor por
periodo de tiempo.
Visualización de datos y Storytelling
4 | P á g i n a
Figura 2
Ventas por Valor y Volumen, según fecha. Gráfica de líneas.
Tabla 3
Descripción general de las bases de datos de la Librería Iztaccíhuatl
Base de
datos
Descripción
ratings.csv Contiene 981,75 registros con la calificación (rating) otorgada
por 53,426 usuarios a 10,000 títulos con que cuenta la librería.
 Distribución, para presentar la estructura y rango de las calificaciones, por
usuario de esta colección de datos.
Visualización de datos y Storytelling
5 | P á g i n a
Figura 3
Frecuencia de calificaciones otorgadas por los usuarios. Histograma
Tabla 4
Descripción general de la base de datos to_read.csv
Base de
datos
Descripción
to_read.csv Recopila 912,705 registros con las recomendaciones de 48,871
usuarios del sitio web de la Librería Iztaccíhuatl, respecto a
9,986 títulos (libros).
 Comparación, para identificar los títulos con el mayor número de
recomendaciones.
Visualización de datos y Storytelling
6 | P á g i n a
Figura 4
Los 10 libros con mayor número de recomendaciones. Gráfico de barras.
Predicciones
Dentro de los tipos de análisis de datos, la Analítica Predictiva destaca ya que se
pretende dar respuesta a la pregunta ¿qué puede pasar?, mediante el pronóstico de
resultados con base en las relaciones entre las variables explicativas o de entrada y las
variables de salida.
En el caso de la Librería Iztaccihuatl, al revisar detenidamente la información de las
bases de datos proporcionadas, se encontraron las inconsistencias señaladas en la
Tabla 5, por lo que deben realizarse tareas de selección, limpieza, estandarización,
cambio de formatos y, en su caso, generación de nuevas variables, para permitir su
procesamiento en la ejecución de análisis predictivos.
Tabla 5
Inconsistencias y adecuaciones a las bases de datos
Base de
datos
Inconsistencia Adecuaciones
books.csv El campo ‘original_publication_year’
muestra fechas desde 1750 a. C. Sin
embargo, es preciso señalar que la
mayoría de las publicaciones
“antiguas” corresponden a las
Establecer la fecha que corresponda
efectivamente a la publicación, ya
sea original o de la traducción
realizada
Visualización de datos y Storytelling
7 | P á g i n a
Base de
datos
Inconsistencia Adecuaciones
traducciones que se han realizado,
lo que se distingue según el campo
‘authors’.
books.csv Mismo dato en todos los registros
del campo ‘ISBN13’.
Integrar el ISBN correspondiente a
cada libro, mediante un catálogo
para evitar errores de registro
manual.
books.csv Se requiere precisar el nombre de
los campos ya que también existe el
campo ‘ISBN’ con información
diferente en cada registro, lo que
puede generar confusiones e
interpretación errónea de la
información.
Se requiere precisar el nombre de
los campos ya que también existe el
campo ‘ISBN’ con información
diferente en cada registro, lo que
puede generar confusiones e
interpretación errónea de la
información.
top_books.csv. Mismo dato en todos los registros
del campo ‘ISBN’
Identificar y establecer el mismo
nombre para los campos en
diferentes bases de datos que se
refieran a la misma información,
mediante un modelo de datos que
hagan referencia a una tabla única
para el campo deseado.
top_books.csv Solo tiene un registro para 1999,
2005 y 2006; no existe información
de 2000 a 2004, cinco registros para
2007, cuatro para 2008, 11 para
2009 y 97 para 2010.
Crear una base de datos con
información histórica completa con el
volumen y valor de ventas de 1999 a
la fecha.
top_books.csv Registros repetidos en todos los
campos, con excepción del campo
‘classification’. Lo anterior significa
que un mismo libro está registrado
con dos categorías diferentes en ese
campo: Original fiction y HB Fiction.
Establecer una categoría única para
cada libro.
top_books.csv Existen 30 registros en el campo
‘Publ Date’ que no corresponden con
el formato de fecha de los 90
registros restantes.
El campo deberá referirse a la fecha
de venta y no a la de publicación,
por lo que se requiere modificar toda
la base de datos e incorporar reglas
de validación para que la captura
cumpla con un formato único. En su
caso podría generarse un vínculo a
la base de datos de ventas que
contenga la fecha requerida.
ratings.csv Un mismo usuario evalúa dos o más
veces el mismo libro.
Conservar la última calificación
asignada por el usuario para cada
libro.
 ¿Qué predicciones se podrían obtener de los datos de la Librería Iztaccíhuatl?
Visualización de datos y Storytelling
8 | P á g i n a
Con base en los datos analizados se considera que podrían predecirse las
siguientes variables: Ingresos por ventas, mediante modelos de series de
tiempo; Volumen de ventas, mediante un modelo de clasificación de los libros
más vendidos; Recomendaciones, mediante sugerencias de acuerdo a las
compras por usuario; y Calificación, de acuerdo con el rating asignado por los
usuarios.
Historia de los datos
Para lograr una visualización de datos efectiva es necesario entender el contexto y la
necesidad que debe comunicarse con la información que se va a presentar, por lo que
deben considerarse los siguientes elementos:
 Audiencia: a mayor conocimiento de la misma, se tendrá una mejor posición
para determinar un mejor impacto al comunicar la información.
 Acción: definir qué se espera que la audiencia conozca o realice a través de la
visualización de datos, ya que el objetivo no es presentar únicamente
información.
 Creación: una vez que se ha articulado la audiencia y la acción, es necesario
sostener con la evidencia de los datos la historia que habrá de construirse y
contar.
En el caso de la Librería Iztaccihuatl, al considerar que el storytelling estaría dirigido a
los clientes a través del portal de Internet o en anuncios dentro del local, de acuerdo
con la información de las bases de datos analizadas, se proponen los siguientes
tópicos:
 La Librería Iztaccihuatl cuenta con 3,767 años de historia, ya que su acervo
contiene títulos cuya publicación original data desde 1750 a.C. y hasta 2017 a. C.
 Los libros que sus clientes pueden encontrar están disponibles en 21 idiomas
diferentes.
 Los 20 libros más vendidos corresponden a seis categorías o clasificaciones.
 A través del portal de Internet, un total de 48,871 usuarios han hecho alguna
recomendación sobre 9,986 títulos.
 El promedio de recomendaciones por usuario es de 18.7, en un rango desde 1
hasta 117 recomendaciones.
Visualización de datos y Storytelling
9 | P á g i n a
 El rating promedio otorgado por los lectores a los 10,000 libros evaluados es de
3.86, en una escala de 1 a 5. El título con mejor calificación tiene 4.86 puntos.
Conclusiones
El trabajo desarrollado en este documento tuvo la finalidad de cumplir con la práctica
individual del proyecto de evaluación entre pares, correspondiente al curso
“Visualización de datos y storytelling”, dentro de la plataforma edx.org.
Para realizar la práctica, se revisaron las bases de datos de la Librería Iztaccihuatl, que
contienen la información señalada en la Tabla 6:
Tabla 6
Descripción de las bases de datos de la Librería Iztaccihuatl
Base de
datos
Descripción
books Contiene los datos generales de cada libro existente en la
librería y además menciona el promedio de clasificación de cada
libro de acuerdo a las votaciones y compras del cliente.
top_books Contiene el top 20 de los libros más vendidos de acuerdo a una
clasificación general.
to_read Contiene los datos de los libros más votados por los clientes
dentro del sitio web de la librería.
ratings Contiene las recomendaciones que cada cliente o usuario
realiza en el sitio web sobre libros para leer.
Para la generación de los gráficos se utilizó el programa Python 5.0.5, a través de la
plataforma Anaconda.
Con base en lo anterior, las respuestas a las preguntas planteadas en el proyecto
fueron las siguientes:
 ¿Qué gráficas se pueden realizar sobre el análisis de datos de la Librería
Iztaccihuatl?
o Gráficas de barras, para mostrar la composición de los títulos que integran la
colección de la Librería, según el idioma en que están publicados.
o Gráfica de líneas, para mostrar la correlación existente entre el volumen de
ventas y el valor de ventas en los periodos de tiempo.
o Histograma, para presentar la distribución de las calificaciones otorgadas por
los usuarios a la colección de libros.
Visualización de datos y Storytelling
10 | P á g i n a
 ¿Qué comparaciones se podrían realizar sobre los datos de la Librería
Iztaccihuatl?
o Con base en un gráfico de barras, se identificaron los 10 títulos con el mayor
número de recomendaciones efectuadas por los usuarios del portal de la
Librería Iztaccihuatl.
 ¿Qué correlaciones se pueden tener de los datos de la Librería Iztaccihuatl para
poder realizar un análisis descriptivo?
o De acuerdo con la información de la base top_book.csv es posible identificar la
correlación existente entre la categoría o género de los títulos con el volumen
y el valor de las ventas.
 ¿Es posible realizar alguna predicción sobre los datos de la Librería Iztaccihuatl?
o Según los datos analizados se considera que podrían predecirse las
siguientes variables: Ingresos por ventas, mediante modelos de series de
tiempo; Volumen de ventas, mediante un modelo de clasificación de los libros
más vendidos; Recomendaciones, mediante sugerencias de acuerdo a las
compras por usuario; y Calificación, de acuerdo con el rating asignado por los
usuarios.
 ¿Qué historia se podría contar de las visualizaciones a los datos de la Librería
Iztaccihuatl?
o El storytelling propuesto se dirigen a los clientes de la Librería con las
siguientes historias:
 La Librería Iztaccihuatl cuenta con 3,767 años de historia, ya que su acervo
contiene títulos cuya publicación original data desde 1750 a.C. y hasta 2017
a. C.
 Los libros que sus clientes pueden encontrar están disponibles en 21
idiomas diferentes.
 Los 20 libros más vendidos corresponden a seis categorías o
clasificaciones.
 A través del portal de Internet, un total de 48,871 usuarios han hecho
alguna recomendación sobre 9,986 títulos.
Visualización de datos y Storytelling
11 | P á g i n a
 El promedio de recomendaciones por usuario es de 18.7, en un rango
desde 1 hasta 117 recomendaciones.
 El rating promedio otorgado por los lectores a los 10,000 libros evaluados es
de 3.86, en una escala de 1 a 5. El título con mejor calificación tiene 4.86
puntos.
Visualización de datos y Storytelling
12 | P á g i n a
Bibliografía
Khan, M. y Khan, S. S. (2011). Data and Information Visualization Methods, and
Interactive Mechanisms: A Survey. International Journal of Computer Applications,
Volume 34– No.1.
Naciones Unidas. Comisión Económica para Europa (2009). Cómo hacer
comprensibles los datos. Parte 2. Una guía para presentar estadísticas.
Perfit, Janine T., Amézaga, Karla Yee y Muñoz-Ayala, Jorge E. (2019). Caja de
herramientas para la visualización de datos de las oficinas nacionales de estadística.
Banco Interamericano de Desarrollo.
Phillip Heita (28 abril 2019) Storytelling with data.
https://www.kaggle.com/phillipheita/storytelling-with-data
Prabhakaran, Selva (28 de noviembre de 2018). Top 50 matplotlib Visualizations – The
Master Plots (with full python code). https://www.machinelearningplus.com/plots/top-50-
matplotlib-visualizations-the-master-plots-python/
Wilke, Claus O. Fundamentals of Data Visualization.
https://clauswilke.com/dataviz/index.html

Más contenido relacionado

La actualidad más candente

Objetivos generales
Objetivos generalesObjetivos generales
Objetivos generalesEdwar Perez
 
Tablas dinámicas - Mariana Becerril Rojas
Tablas dinámicas - Mariana Becerril RojasTablas dinámicas - Mariana Becerril Rojas
Tablas dinámicas - Mariana Becerril RojasMariana Becerril Rojas
 
SECUENCIA DIDÁCTICA Nº 2
SECUENCIA DIDÁCTICA Nº 2SECUENCIA DIDÁCTICA Nº 2
SECUENCIA DIDÁCTICA Nº 2Marta Quintero
 
Basesdedatosrelacionales 140812150958-phpapp02 (1) (1)bv
Basesdedatosrelacionales 140812150958-phpapp02 (1) (1)bvBasesdedatosrelacionales 140812150958-phpapp02 (1) (1)bv
Basesdedatosrelacionales 140812150958-phpapp02 (1) (1)bvkelwinallen
 
herramientas dentro del metodo de prototipos
herramientas dentro del metodo de prototiposherramientas dentro del metodo de prototipos
herramientas dentro del metodo de prototiposCristobal Cabrera
 
Base de datos 2°parte
Base de datos 2°parteBase de datos 2°parte
Base de datos 2°partekendripinto
 
Alvarofabian
AlvarofabianAlvarofabian
AlvarofabianREYMIS820
 
SECUENCIA DIDÁCTICA Nº 3
SECUENCIA DIDÁCTICA Nº 3SECUENCIA DIDÁCTICA Nº 3
SECUENCIA DIDÁCTICA Nº 3Marta Quintero
 
Objetivo general a
Objetivo general aObjetivo general a
Objetivo general aavargasjair
 
Objetivo general
Objetivo general Objetivo general
Objetivo general avargasjair
 
Resumen de migmanager
Resumen de migmanagerResumen de migmanager
Resumen de migmanager1804388401
 
Bases de datos relacionales 1
Bases de datos relacionales 1Bases de datos relacionales 1
Bases de datos relacionales 1kelwinallen
 
Alvarofabian
AlvarofabianAlvarofabian
AlvarofabianREYMIS820
 

La actualidad más candente (18)

ACCESS 2010
ACCESS 2010ACCESS 2010
ACCESS 2010
 
Objetivos generales
Objetivos generalesObjetivos generales
Objetivos generales
 
Consultas
ConsultasConsultas
Consultas
 
Taller nº 1
Taller nº 1Taller nº 1
Taller nº 1
 
Tablas dinámicas - Mariana Becerril Rojas
Tablas dinámicas - Mariana Becerril RojasTablas dinámicas - Mariana Becerril Rojas
Tablas dinámicas - Mariana Becerril Rojas
 
SECUENCIA DIDÁCTICA Nº 2
SECUENCIA DIDÁCTICA Nº 2SECUENCIA DIDÁCTICA Nº 2
SECUENCIA DIDÁCTICA Nº 2
 
Basesdedatosrelacionales 140812150958-phpapp02 (1) (1)bv
Basesdedatosrelacionales 140812150958-phpapp02 (1) (1)bvBasesdedatosrelacionales 140812150958-phpapp02 (1) (1)bv
Basesdedatosrelacionales 140812150958-phpapp02 (1) (1)bv
 
herramientas dentro del metodo de prototipos
herramientas dentro del metodo de prototiposherramientas dentro del metodo de prototipos
herramientas dentro del metodo de prototipos
 
Base de datos 2°parte
Base de datos 2°parteBase de datos 2°parte
Base de datos 2°parte
 
Alvarofabian
AlvarofabianAlvarofabian
Alvarofabian
 
Mind manager
Mind managerMind manager
Mind manager
 
SECUENCIA DIDÁCTICA Nº 3
SECUENCIA DIDÁCTICA Nº 3SECUENCIA DIDÁCTICA Nº 3
SECUENCIA DIDÁCTICA Nº 3
 
Objetivo general a
Objetivo general aObjetivo general a
Objetivo general a
 
Objetivo general
Objetivo general Objetivo general
Objetivo general
 
Base de datos
Base de datosBase de datos
Base de datos
 
Resumen de migmanager
Resumen de migmanagerResumen de migmanager
Resumen de migmanager
 
Bases de datos relacionales 1
Bases de datos relacionales 1Bases de datos relacionales 1
Bases de datos relacionales 1
 
Alvarofabian
AlvarofabianAlvarofabian
Alvarofabian
 

Similar a Proyecto visualización de datos y storytelling mpsf

Proyecto herramientas para el análisis de big data
Proyecto herramientas para el análisis de big dataProyecto herramientas para el análisis de big data
Proyecto herramientas para el análisis de big dataMarcoPoloSanchez1
 
Proyecto evaluacion entre_pares_marco_polo_sanchez_farfan
Proyecto evaluacion entre_pares_marco_polo_sanchez_farfanProyecto evaluacion entre_pares_marco_polo_sanchez_farfan
Proyecto evaluacion entre_pares_marco_polo_sanchez_farfanMarcoPoloSanchez1
 
3 Visualización de Datos y Storytelling.pdf
3 Visualización de Datos y Storytelling.pdf3 Visualización de Datos y Storytelling.pdf
3 Visualización de Datos y Storytelling.pdfJuan José Triviño
 
Proyecto individual
Proyecto individualProyecto individual
Proyecto individualFernandoss2
 
NOCIONES FUNDAMENTALES DE ESTADÍSTICA
NOCIONES FUNDAMENTALES DE ESTADÍSTICANOCIONES FUNDAMENTALES DE ESTADÍSTICA
NOCIONES FUNDAMENTALES DE ESTADÍSTICAKevin Calero Alava
 
Proyecto individual - Introducción a la ciencia de datos
Proyecto individual - Introducción a la ciencia de datosProyecto individual - Introducción a la ciencia de datos
Proyecto individual - Introducción a la ciencia de datosRebecaHernandez59
 
Aplicando la Ciencia de Datos en una organización
Aplicando la Ciencia de Datos en una organización Aplicando la Ciencia de Datos en una organización
Aplicando la Ciencia de Datos en una organización JenniferTorres155
 
Bigdata Herramientas Caso Libreria Iztaccihuatl
Bigdata Herramientas Caso Libreria IztaccihuatlBigdata Herramientas Caso Libreria Iztaccihuatl
Bigdata Herramientas Caso Libreria IztaccihuatlPaola Quiroz Alvarez
 
Tecnicas de presentacion de Cubos de analisis OLAP.pptx
Tecnicas de presentacion de Cubos de analisis OLAP.pptxTecnicas de presentacion de Cubos de analisis OLAP.pptx
Tecnicas de presentacion de Cubos de analisis OLAP.pptxJUANCARLOSGALINDOPIR
 
EDUCATIONAL RESEARCH I (II Bimestre Abril agosto 2011)
EDUCATIONAL RESEARCH I (II Bimestre Abril agosto 2011)EDUCATIONAL RESEARCH I (II Bimestre Abril agosto 2011)
EDUCATIONAL RESEARCH I (II Bimestre Abril agosto 2011)Videoconferencias UTPL
 
Estadistica descriptiva, DATOS CUALITATIVOS
Estadistica descriptiva, DATOS CUALITATIVOSEstadistica descriptiva, DATOS CUALITATIVOS
Estadistica descriptiva, DATOS CUALITATIVOSCésar F. Serrano F.
 

Similar a Proyecto visualización de datos y storytelling mpsf (20)

Proyecto herramientas para el análisis de big data
Proyecto herramientas para el análisis de big dataProyecto herramientas para el análisis de big data
Proyecto herramientas para el análisis de big data
 
Proyecto Jaime Salinas
Proyecto Jaime SalinasProyecto Jaime Salinas
Proyecto Jaime Salinas
 
Proyecto Jaime Salinas
Proyecto Jaime SalinasProyecto Jaime Salinas
Proyecto Jaime Salinas
 
Proyecto evaluacion entre_pares_marco_polo_sanchez_farfan
Proyecto evaluacion entre_pares_marco_polo_sanchez_farfanProyecto evaluacion entre_pares_marco_polo_sanchez_farfan
Proyecto evaluacion entre_pares_marco_polo_sanchez_farfan
 
3 Visualización de Datos y Storytelling.pdf
3 Visualización de Datos y Storytelling.pdf3 Visualización de Datos y Storytelling.pdf
3 Visualización de Datos y Storytelling.pdf
 
secme-15326_1.pdf
secme-15326_1.pdfsecme-15326_1.pdf
secme-15326_1.pdf
 
Proyecto individual
Proyecto individualProyecto individual
Proyecto individual
 
NOCIONES FUNDAMENTALES DE ESTADÍSTICA
NOCIONES FUNDAMENTALES DE ESTADÍSTICANOCIONES FUNDAMENTALES DE ESTADÍSTICA
NOCIONES FUNDAMENTALES DE ESTADÍSTICA
 
Proyecto individual - Introducción a la ciencia de datos
Proyecto individual - Introducción a la ciencia de datosProyecto individual - Introducción a la ciencia de datos
Proyecto individual - Introducción a la ciencia de datos
 
Aplicando la Ciencia de Datos en una organización
Aplicando la Ciencia de Datos en una organización Aplicando la Ciencia de Datos en una organización
Aplicando la Ciencia de Datos en una organización
 
Bigdata Herramientas Caso Libreria Iztaccihuatl
Bigdata Herramientas Caso Libreria IztaccihuatlBigdata Herramientas Caso Libreria Iztaccihuatl
Bigdata Herramientas Caso Libreria Iztaccihuatl
 
Normas incontec
Normas incontecNormas incontec
Normas incontec
 
Normas incontec
Normas incontecNormas incontec
Normas incontec
 
incontec
incontecincontec
incontec
 
Tecnicas de presentacion de Cubos de analisis OLAP.pptx
Tecnicas de presentacion de Cubos de analisis OLAP.pptxTecnicas de presentacion de Cubos de analisis OLAP.pptx
Tecnicas de presentacion de Cubos de analisis OLAP.pptx
 
Reporte_practica_2.pdf
Reporte_practica_2.pdfReporte_practica_2.pdf
Reporte_practica_2.pdf
 
05 baeza cap1
05 baeza cap105 baeza cap1
05 baeza cap1
 
EDUCATIONAL RESEARCH I (II Bimestre Abril agosto 2011)
EDUCATIONAL RESEARCH I (II Bimestre Abril agosto 2011)EDUCATIONAL RESEARCH I (II Bimestre Abril agosto 2011)
EDUCATIONAL RESEARCH I (II Bimestre Abril agosto 2011)
 
Estadistica descriptiva, DATOS CUALITATIVOS
Estadistica descriptiva, DATOS CUALITATIVOSEstadistica descriptiva, DATOS CUALITATIVOS
Estadistica descriptiva, DATOS CUALITATIVOS
 
Metodologia iii
Metodologia iiiMetodologia iii
Metodologia iii
 

Último

triptico-de-las-drogas en la adolescencia
triptico-de-las-drogas en la adolescenciatriptico-de-las-drogas en la adolescencia
triptico-de-las-drogas en la adolescenciaferg6120
 
PANTEÓN DE Paris en historia de la arquitectura
PANTEÓN DE Paris en historia de la arquitecturaPANTEÓN DE Paris en historia de la arquitectura
PANTEÓN DE Paris en historia de la arquitecturaRosaHurtado26
 
Las familias más ricas del sionismo en el siglo XXI.pdf
Las familias más ricas del sionismo en el siglo XXI.pdfLas familias más ricas del sionismo en el siglo XXI.pdf
Las familias más ricas del sionismo en el siglo XXI.pdfJC Díaz Herrera
 
Los más ricos administradores de fondo de cobertura (1968-2024).pdf
Los más ricos administradores de fondo de cobertura (1968-2024).pdfLos más ricos administradores de fondo de cobertura (1968-2024).pdf
Los más ricos administradores de fondo de cobertura (1968-2024).pdfJC Díaz Herrera
 
Tipos de Educacion en diferentes partes del mundo.pptx
Tipos de Educacion en diferentes partes del mundo.pptxTipos de Educacion en diferentes partes del mundo.pptx
Tipos de Educacion en diferentes partes del mundo.pptxMiguelPerz4
 
Familias_más_ricas_de_AL_en_la_historia.pdf
Familias_más_ricas_de_AL_en_la_historia.pdfFamilias_más_ricas_de_AL_en_la_historia.pdf
Familias_más_ricas_de_AL_en_la_historia.pdfJC Díaz Herrera
 
Novelas Turcas vs Series de EUA en audiencia (2024).pdf
Novelas Turcas vs Series de EUA en audiencia  (2024).pdfNovelas Turcas vs Series de EUA en audiencia  (2024).pdf
Novelas Turcas vs Series de EUA en audiencia (2024).pdfJC Díaz Herrera
 
CNEB-CURRICULO NACIONAL DE EDUCACION BASICA
CNEB-CURRICULO NACIONAL DE EDUCACION BASICACNEB-CURRICULO NACIONAL DE EDUCACION BASICA
CNEB-CURRICULO NACIONAL DE EDUCACION BASICAYOSHELINSARAIMAMANIS2
 
Cuáles son las características biológicas que están marcadas en tu individual...
Cuáles son las características biológicas que están marcadas en tu individual...Cuáles son las características biológicas que están marcadas en tu individual...
Cuáles son las características biológicas que están marcadas en tu individual...israel garcia
 
Triptico-del-Bullying qué es, cómo detectarlo, donde acudir
Triptico-del-Bullying qué es, cómo detectarlo, donde acudirTriptico-del-Bullying qué es, cómo detectarlo, donde acudir
Triptico-del-Bullying qué es, cómo detectarlo, donde acudirluis809799
 
Presentacion-Prevencion-Incendios-Forestales.pdf
Presentacion-Prevencion-Incendios-Forestales.pdfPresentacion-Prevencion-Incendios-Forestales.pdf
Presentacion-Prevencion-Incendios-Forestales.pdfDodiAcuaArstica
 
Análisis de datos en acción: Optimizando el crecimiento de Cyclistic
Análisis de datos en acción: Optimizando el crecimiento de CyclisticAnálisis de datos en acción: Optimizando el crecimiento de Cyclistic
Análisis de datos en acción: Optimizando el crecimiento de CyclisticJamithGarcia1
 
Premios_nobel_por_grupo_racial_ (2024).pdf
Premios_nobel_por_grupo_racial_ (2024).pdfPremios_nobel_por_grupo_racial_ (2024).pdf
Premios_nobel_por_grupo_racial_ (2024).pdfJC Díaz Herrera
 
Los_países_con_la_mayor_cantidad_de_rascacielos (2023).pdf
Los_países_con_la_mayor_cantidad_de_rascacielos (2023).pdfLos_países_con_la_mayor_cantidad_de_rascacielos (2023).pdf
Los_países_con_la_mayor_cantidad_de_rascacielos (2023).pdfJC Díaz Herrera
 
Los artistas mexicanos con más ventas de discos en la historia (2024).pdf
Los artistas mexicanos con más ventas de discos en la historia (2024).pdfLos artistas mexicanos con más ventas de discos en la historia (2024).pdf
Los artistas mexicanos con más ventas de discos en la historia (2024).pdfJC Díaz Herrera
 
La importancia de las pruebas de producto para tu empresa
La importancia de las pruebas de producto para tu empresaLa importancia de las pruebas de producto para tu empresa
La importancia de las pruebas de producto para tu empresamerca6
 
Evolución de la fortuna de la familia Slim (1994-2024).pdf
Evolución de la fortuna de la familia Slim (1994-2024).pdfEvolución de la fortuna de la familia Slim (1994-2024).pdf
Evolución de la fortuna de la familia Slim (1994-2024).pdfJC Díaz Herrera
 
Técnica palatina baja, anestesiología dental
Técnica palatina baja, anestesiología dentalTécnica palatina baja, anestesiología dental
Técnica palatina baja, anestesiología dentalIngrid459352
 
Panorama Sociodemográfico de México 2020: GUANAJUATO
Panorama Sociodemográfico de México 2020: GUANAJUATOPanorama Sociodemográfico de México 2020: GUANAJUATO
Panorama Sociodemográfico de México 2020: GUANAJUATOJuan Carlos Fonseca Mata
 
Data Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datosData Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datosssuser948499
 

Último (20)

triptico-de-las-drogas en la adolescencia
triptico-de-las-drogas en la adolescenciatriptico-de-las-drogas en la adolescencia
triptico-de-las-drogas en la adolescencia
 
PANTEÓN DE Paris en historia de la arquitectura
PANTEÓN DE Paris en historia de la arquitecturaPANTEÓN DE Paris en historia de la arquitectura
PANTEÓN DE Paris en historia de la arquitectura
 
Las familias más ricas del sionismo en el siglo XXI.pdf
Las familias más ricas del sionismo en el siglo XXI.pdfLas familias más ricas del sionismo en el siglo XXI.pdf
Las familias más ricas del sionismo en el siglo XXI.pdf
 
Los más ricos administradores de fondo de cobertura (1968-2024).pdf
Los más ricos administradores de fondo de cobertura (1968-2024).pdfLos más ricos administradores de fondo de cobertura (1968-2024).pdf
Los más ricos administradores de fondo de cobertura (1968-2024).pdf
 
Tipos de Educacion en diferentes partes del mundo.pptx
Tipos de Educacion en diferentes partes del mundo.pptxTipos de Educacion en diferentes partes del mundo.pptx
Tipos de Educacion en diferentes partes del mundo.pptx
 
Familias_más_ricas_de_AL_en_la_historia.pdf
Familias_más_ricas_de_AL_en_la_historia.pdfFamilias_más_ricas_de_AL_en_la_historia.pdf
Familias_más_ricas_de_AL_en_la_historia.pdf
 
Novelas Turcas vs Series de EUA en audiencia (2024).pdf
Novelas Turcas vs Series de EUA en audiencia  (2024).pdfNovelas Turcas vs Series de EUA en audiencia  (2024).pdf
Novelas Turcas vs Series de EUA en audiencia (2024).pdf
 
CNEB-CURRICULO NACIONAL DE EDUCACION BASICA
CNEB-CURRICULO NACIONAL DE EDUCACION BASICACNEB-CURRICULO NACIONAL DE EDUCACION BASICA
CNEB-CURRICULO NACIONAL DE EDUCACION BASICA
 
Cuáles son las características biológicas que están marcadas en tu individual...
Cuáles son las características biológicas que están marcadas en tu individual...Cuáles son las características biológicas que están marcadas en tu individual...
Cuáles son las características biológicas que están marcadas en tu individual...
 
Triptico-del-Bullying qué es, cómo detectarlo, donde acudir
Triptico-del-Bullying qué es, cómo detectarlo, donde acudirTriptico-del-Bullying qué es, cómo detectarlo, donde acudir
Triptico-del-Bullying qué es, cómo detectarlo, donde acudir
 
Presentacion-Prevencion-Incendios-Forestales.pdf
Presentacion-Prevencion-Incendios-Forestales.pdfPresentacion-Prevencion-Incendios-Forestales.pdf
Presentacion-Prevencion-Incendios-Forestales.pdf
 
Análisis de datos en acción: Optimizando el crecimiento de Cyclistic
Análisis de datos en acción: Optimizando el crecimiento de CyclisticAnálisis de datos en acción: Optimizando el crecimiento de Cyclistic
Análisis de datos en acción: Optimizando el crecimiento de Cyclistic
 
Premios_nobel_por_grupo_racial_ (2024).pdf
Premios_nobel_por_grupo_racial_ (2024).pdfPremios_nobel_por_grupo_racial_ (2024).pdf
Premios_nobel_por_grupo_racial_ (2024).pdf
 
Los_países_con_la_mayor_cantidad_de_rascacielos (2023).pdf
Los_países_con_la_mayor_cantidad_de_rascacielos (2023).pdfLos_países_con_la_mayor_cantidad_de_rascacielos (2023).pdf
Los_países_con_la_mayor_cantidad_de_rascacielos (2023).pdf
 
Los artistas mexicanos con más ventas de discos en la historia (2024).pdf
Los artistas mexicanos con más ventas de discos en la historia (2024).pdfLos artistas mexicanos con más ventas de discos en la historia (2024).pdf
Los artistas mexicanos con más ventas de discos en la historia (2024).pdf
 
La importancia de las pruebas de producto para tu empresa
La importancia de las pruebas de producto para tu empresaLa importancia de las pruebas de producto para tu empresa
La importancia de las pruebas de producto para tu empresa
 
Evolución de la fortuna de la familia Slim (1994-2024).pdf
Evolución de la fortuna de la familia Slim (1994-2024).pdfEvolución de la fortuna de la familia Slim (1994-2024).pdf
Evolución de la fortuna de la familia Slim (1994-2024).pdf
 
Técnica palatina baja, anestesiología dental
Técnica palatina baja, anestesiología dentalTécnica palatina baja, anestesiología dental
Técnica palatina baja, anestesiología dental
 
Panorama Sociodemográfico de México 2020: GUANAJUATO
Panorama Sociodemográfico de México 2020: GUANAJUATOPanorama Sociodemográfico de México 2020: GUANAJUATO
Panorama Sociodemográfico de México 2020: GUANAJUATO
 
Data Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datosData Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datos
 

Proyecto visualización de datos y storytelling mpsf

  • 1. Visualización de datos y Storytelling Visualización de datos y Storytelling Proyecto individual evaluado por pares Marco Polo Sánchez Farfán
  • 2. Visualización de datos y Storytelling 1 | P á g i n a Resumen Este documento tiene como propósito cumplir con la práctica individual correspondiente al proyecto de evaluación entre pares, dentro del curso “Visualización de datos y Storytelling”, en la plataforma edx.org. Para tal efecto, se analiza la información proporcionada en cuatro bases de datos de la empresa denominada “Librería Iztaccíhuatl” y, con base en los conocimientos adquiridos en el curso se presentan las respuestas a preguntas específicas para aplicar la Ciencia de Datos. De manera particular, el objetivo de este trabajo consiste en identificar las gráficas; comparaciones; correlaciones y una posible predicción a través de una visualización de datos como parte de un modelo basado en Ciencia de Datos para el apoyo a la toma de decisiones para una organización
  • 3. Visualización de datos y Storytelling 2 | P á g i n a Contenido Introducción....................................................................................................................... 1 Identificación y justificación de gráficas ............................................................................. 2 Predicciones ...................................................................................................................... 6 Historia de los datos .......................................................................................................... 8 Conclusiones ..................................................................................................................... 9 Bibliografía....................................................................................................................... 12
  • 4. Visualización de datos y Storytelling 3 | P á g i n a Lista de Figuras Figura 1 Número de libros por idioma. Gráfica de barras................................................... 3 Figura 2 Ventas por Valor y Volumen, según fecha. Gráfica de líneas............................... 4 Figura 3 Frecuencia de calificaciones otorgadas por los usuarios. Histograma.................. 5 Figura 4 Los 10 libros con mayor número de recomendaciones. Gráfico de barras. .......... 6 Lista de Tablas Tabla 1 Descripción de la base de datos books.csv........................................................... 2 Tabla 2 Descripción general de la base de datos top_books.csv ....................................... 3 Tabla 3 Descripción general de las bases de datos de la Librería Iztaccíhuatl................... 4 Tabla 4 Descripción general de la base de datos to_read.csv ........................................... 5 Tabla 5 Inconsistencias y adecuaciones a las bases de datos........................................... 6
  • 5. Visualización de datos y Storytelling 1 | P á g i n a Introducción Para maximizar la comunicación efectiva de la información es necesario combinar de forma adecuada los siguientes elementos: texto, tablas y gráficos. Según la forma en que logren combinarse se podrá transmitir el mensaje deseado. Para alcanzar este fin, existe una diversidad de herramientas y habilidades, así como métodos de comunicación. En lo que se refiere a la Ciencia de Datos, la recopilación de datos ya no es un problema mayor, dada la gran cantidad de información que se genera de diferentes fuentes y almacena en diversos medios. Ahora, el tema principal consiste en representar esos datos para entenderlos y extraer conocimiento. Derivado de lo anterior, toda vez que el presente documento tiene como objetivo identificar las gráficas; comparaciones; correlaciones y una posible predicción a través de una visualización de datos de la Librería Iztaccihuatl, es necesario profundizar en algunos conceptos. De acuerdo con la Real Academia Española, la visualización puede definirse como la acción o efecto de formar en la mente una imagen visual de un concepto abstracto, así como la de representar mediante imágenes ópticas fenómenos de otro carácter.1 En el área de la Ciencia de Datos, la definición más común en la literatura académica es “el uso de representaciones visuales, interactivas, asistidas por computadoras de datos para amplificar la adquisición o uso de conocimiento”.23 Por lo tanto, la visualización, además de crear representaciones gráficas de datos, aporta valor a la información al favorecer la transmisión de mensajes complejos, facilitar la identificación de hallazgos y la toma de decisiones. En este sentido, para cumplir con el Proyecto individual evaluado por pares se utiliza la información proporcionada en el material del curso “Visualización de datos y Storytelling”, dentro de la plataforma edx.org, consistente en cuatro bases de datos dentro de la carpeta denominada “datasets_books”, para dar respuesta a las siguientes preguntas:  ¿Qué gráficas se pueden realizar sobre el análisis de datos de la Librería Iztaccihuatl? 1 https://dle.rae.es/visualizar 2 Adaptada de Khan y Khan (2011). Pág. 1. 3 Para otros efectos, de acuerdo con la Organización de las Naciones Unidas, la visualización de datos es la representación visual de datos a través de gráficos y mapas interactivos animados, con el fin de comunicar información de manera clara y efectiva y colocar las estadísticas a disposición de un público más amplio. Véase http://libraryresources.unog.ch/c.php?g=462654&p=3162714.
  • 6. Visualización de datos y Storytelling 2 | P á g i n a  ¿Qué comparaciones se podrían realizar sobre los datos de la Librería Iztaccihuatl?  ¿Qué correlaciones se pueden tener de los datos de la Librería Iztaccihuatl para poder realizar un análisis descriptivo?  ¿Es posible realizar alguna predicción sobre los datos de la Librería Iztaccihuatl?  ¿Qué historia se podría contar de las visualizaciones a los datos de la Librería Iztaccihuatl? En la siguiente sección, de acuerdo con los alcances del curso, se analiza la información y se propone al menos una gráfica para cada una de las bases de datos disponibles, además de dar respuesta a las posibles comparaciones, correlaciones y predicciones. En una sección adicional se incluye la historia a contar con la visualización de la información de la Librería Iztaccihuatl y, finalmente, se integra un apartado con las conclusiones correspondientes. Identificación y justificación de gráficas Una gráfica es una representación visual de datos que son representados por símbolos tales como como barras o líneas que permite mostrar la información de manera rápida y sencilla, por lo que facilita la comparación, así como exhibir tendencias y relaciones entre los datos. En este sentido, toda vez que el proceso general para llevar a cabo la visualización de datos es altamente iterativo y a menudo comienza con una pregunta, ya sea general o específica, para identificar los tipos de gráficas que podrían utilizarse para el análisis y comunicación, es necesario conocer los datos que con que se cuenta. Por ello, se presenta una breve descripción de la base de datos y la información que contienen, a efecto de explorar las opciones y presentar las gráficas elegidas en cada caso. Tabla 1 Descripción de la base de datos books.csv Base de datos Descripción específica books.csv Contiene 10,000 registros (libros), con número de identificación, número de ediciones, autores, fecha de publicación original, título, idioma, así como promedio de calificación de acuerdo con las votaciones y compras del cliente. De acuerdo con la información presentada, es posible representar las siguientes gráficas:
  • 7. Visualización de datos y Storytelling 3 | P á g i n a  Composición, para mostrar como las partes individuales integran un todo; por ejemplo, los diferentes idiomas en que están disponibles los libros. Figura 1 Número de libros por idioma. Gráfica de barras. Tabla 2 Descripción general de la base de datos top_books.csv Base de datos Descripción top_books.csv Muestra 120 registros con la posición y título de los 20 libros más vendidos según las categorías establecidas en el campo ‘classification’. Además, incluye el autor, imprenta, volumen de ventas hasta 2010 y valor de ventas determinadas por el volumen, precio recomendado para minoristas y precio promedio para venta y tipo de encuadernación.  Correlación, para mostrar la evolución del volumen de venta y su valor por periodo de tiempo.
  • 8. Visualización de datos y Storytelling 4 | P á g i n a Figura 2 Ventas por Valor y Volumen, según fecha. Gráfica de líneas. Tabla 3 Descripción general de las bases de datos de la Librería Iztaccíhuatl Base de datos Descripción ratings.csv Contiene 981,75 registros con la calificación (rating) otorgada por 53,426 usuarios a 10,000 títulos con que cuenta la librería.  Distribución, para presentar la estructura y rango de las calificaciones, por usuario de esta colección de datos.
  • 9. Visualización de datos y Storytelling 5 | P á g i n a Figura 3 Frecuencia de calificaciones otorgadas por los usuarios. Histograma Tabla 4 Descripción general de la base de datos to_read.csv Base de datos Descripción to_read.csv Recopila 912,705 registros con las recomendaciones de 48,871 usuarios del sitio web de la Librería Iztaccíhuatl, respecto a 9,986 títulos (libros).  Comparación, para identificar los títulos con el mayor número de recomendaciones.
  • 10. Visualización de datos y Storytelling 6 | P á g i n a Figura 4 Los 10 libros con mayor número de recomendaciones. Gráfico de barras. Predicciones Dentro de los tipos de análisis de datos, la Analítica Predictiva destaca ya que se pretende dar respuesta a la pregunta ¿qué puede pasar?, mediante el pronóstico de resultados con base en las relaciones entre las variables explicativas o de entrada y las variables de salida. En el caso de la Librería Iztaccihuatl, al revisar detenidamente la información de las bases de datos proporcionadas, se encontraron las inconsistencias señaladas en la Tabla 5, por lo que deben realizarse tareas de selección, limpieza, estandarización, cambio de formatos y, en su caso, generación de nuevas variables, para permitir su procesamiento en la ejecución de análisis predictivos. Tabla 5 Inconsistencias y adecuaciones a las bases de datos Base de datos Inconsistencia Adecuaciones books.csv El campo ‘original_publication_year’ muestra fechas desde 1750 a. C. Sin embargo, es preciso señalar que la mayoría de las publicaciones “antiguas” corresponden a las Establecer la fecha que corresponda efectivamente a la publicación, ya sea original o de la traducción realizada
  • 11. Visualización de datos y Storytelling 7 | P á g i n a Base de datos Inconsistencia Adecuaciones traducciones que se han realizado, lo que se distingue según el campo ‘authors’. books.csv Mismo dato en todos los registros del campo ‘ISBN13’. Integrar el ISBN correspondiente a cada libro, mediante un catálogo para evitar errores de registro manual. books.csv Se requiere precisar el nombre de los campos ya que también existe el campo ‘ISBN’ con información diferente en cada registro, lo que puede generar confusiones e interpretación errónea de la información. Se requiere precisar el nombre de los campos ya que también existe el campo ‘ISBN’ con información diferente en cada registro, lo que puede generar confusiones e interpretación errónea de la información. top_books.csv. Mismo dato en todos los registros del campo ‘ISBN’ Identificar y establecer el mismo nombre para los campos en diferentes bases de datos que se refieran a la misma información, mediante un modelo de datos que hagan referencia a una tabla única para el campo deseado. top_books.csv Solo tiene un registro para 1999, 2005 y 2006; no existe información de 2000 a 2004, cinco registros para 2007, cuatro para 2008, 11 para 2009 y 97 para 2010. Crear una base de datos con información histórica completa con el volumen y valor de ventas de 1999 a la fecha. top_books.csv Registros repetidos en todos los campos, con excepción del campo ‘classification’. Lo anterior significa que un mismo libro está registrado con dos categorías diferentes en ese campo: Original fiction y HB Fiction. Establecer una categoría única para cada libro. top_books.csv Existen 30 registros en el campo ‘Publ Date’ que no corresponden con el formato de fecha de los 90 registros restantes. El campo deberá referirse a la fecha de venta y no a la de publicación, por lo que se requiere modificar toda la base de datos e incorporar reglas de validación para que la captura cumpla con un formato único. En su caso podría generarse un vínculo a la base de datos de ventas que contenga la fecha requerida. ratings.csv Un mismo usuario evalúa dos o más veces el mismo libro. Conservar la última calificación asignada por el usuario para cada libro.  ¿Qué predicciones se podrían obtener de los datos de la Librería Iztaccíhuatl?
  • 12. Visualización de datos y Storytelling 8 | P á g i n a Con base en los datos analizados se considera que podrían predecirse las siguientes variables: Ingresos por ventas, mediante modelos de series de tiempo; Volumen de ventas, mediante un modelo de clasificación de los libros más vendidos; Recomendaciones, mediante sugerencias de acuerdo a las compras por usuario; y Calificación, de acuerdo con el rating asignado por los usuarios. Historia de los datos Para lograr una visualización de datos efectiva es necesario entender el contexto y la necesidad que debe comunicarse con la información que se va a presentar, por lo que deben considerarse los siguientes elementos:  Audiencia: a mayor conocimiento de la misma, se tendrá una mejor posición para determinar un mejor impacto al comunicar la información.  Acción: definir qué se espera que la audiencia conozca o realice a través de la visualización de datos, ya que el objetivo no es presentar únicamente información.  Creación: una vez que se ha articulado la audiencia y la acción, es necesario sostener con la evidencia de los datos la historia que habrá de construirse y contar. En el caso de la Librería Iztaccihuatl, al considerar que el storytelling estaría dirigido a los clientes a través del portal de Internet o en anuncios dentro del local, de acuerdo con la información de las bases de datos analizadas, se proponen los siguientes tópicos:  La Librería Iztaccihuatl cuenta con 3,767 años de historia, ya que su acervo contiene títulos cuya publicación original data desde 1750 a.C. y hasta 2017 a. C.  Los libros que sus clientes pueden encontrar están disponibles en 21 idiomas diferentes.  Los 20 libros más vendidos corresponden a seis categorías o clasificaciones.  A través del portal de Internet, un total de 48,871 usuarios han hecho alguna recomendación sobre 9,986 títulos.  El promedio de recomendaciones por usuario es de 18.7, en un rango desde 1 hasta 117 recomendaciones.
  • 13. Visualización de datos y Storytelling 9 | P á g i n a  El rating promedio otorgado por los lectores a los 10,000 libros evaluados es de 3.86, en una escala de 1 a 5. El título con mejor calificación tiene 4.86 puntos. Conclusiones El trabajo desarrollado en este documento tuvo la finalidad de cumplir con la práctica individual del proyecto de evaluación entre pares, correspondiente al curso “Visualización de datos y storytelling”, dentro de la plataforma edx.org. Para realizar la práctica, se revisaron las bases de datos de la Librería Iztaccihuatl, que contienen la información señalada en la Tabla 6: Tabla 6 Descripción de las bases de datos de la Librería Iztaccihuatl Base de datos Descripción books Contiene los datos generales de cada libro existente en la librería y además menciona el promedio de clasificación de cada libro de acuerdo a las votaciones y compras del cliente. top_books Contiene el top 20 de los libros más vendidos de acuerdo a una clasificación general. to_read Contiene los datos de los libros más votados por los clientes dentro del sitio web de la librería. ratings Contiene las recomendaciones que cada cliente o usuario realiza en el sitio web sobre libros para leer. Para la generación de los gráficos se utilizó el programa Python 5.0.5, a través de la plataforma Anaconda. Con base en lo anterior, las respuestas a las preguntas planteadas en el proyecto fueron las siguientes:  ¿Qué gráficas se pueden realizar sobre el análisis de datos de la Librería Iztaccihuatl? o Gráficas de barras, para mostrar la composición de los títulos que integran la colección de la Librería, según el idioma en que están publicados. o Gráfica de líneas, para mostrar la correlación existente entre el volumen de ventas y el valor de ventas en los periodos de tiempo. o Histograma, para presentar la distribución de las calificaciones otorgadas por los usuarios a la colección de libros.
  • 14. Visualización de datos y Storytelling 10 | P á g i n a  ¿Qué comparaciones se podrían realizar sobre los datos de la Librería Iztaccihuatl? o Con base en un gráfico de barras, se identificaron los 10 títulos con el mayor número de recomendaciones efectuadas por los usuarios del portal de la Librería Iztaccihuatl.  ¿Qué correlaciones se pueden tener de los datos de la Librería Iztaccihuatl para poder realizar un análisis descriptivo? o De acuerdo con la información de la base top_book.csv es posible identificar la correlación existente entre la categoría o género de los títulos con el volumen y el valor de las ventas.  ¿Es posible realizar alguna predicción sobre los datos de la Librería Iztaccihuatl? o Según los datos analizados se considera que podrían predecirse las siguientes variables: Ingresos por ventas, mediante modelos de series de tiempo; Volumen de ventas, mediante un modelo de clasificación de los libros más vendidos; Recomendaciones, mediante sugerencias de acuerdo a las compras por usuario; y Calificación, de acuerdo con el rating asignado por los usuarios.  ¿Qué historia se podría contar de las visualizaciones a los datos de la Librería Iztaccihuatl? o El storytelling propuesto se dirigen a los clientes de la Librería con las siguientes historias:  La Librería Iztaccihuatl cuenta con 3,767 años de historia, ya que su acervo contiene títulos cuya publicación original data desde 1750 a.C. y hasta 2017 a. C.  Los libros que sus clientes pueden encontrar están disponibles en 21 idiomas diferentes.  Los 20 libros más vendidos corresponden a seis categorías o clasificaciones.  A través del portal de Internet, un total de 48,871 usuarios han hecho alguna recomendación sobre 9,986 títulos.
  • 15. Visualización de datos y Storytelling 11 | P á g i n a  El promedio de recomendaciones por usuario es de 18.7, en un rango desde 1 hasta 117 recomendaciones.  El rating promedio otorgado por los lectores a los 10,000 libros evaluados es de 3.86, en una escala de 1 a 5. El título con mejor calificación tiene 4.86 puntos.
  • 16. Visualización de datos y Storytelling 12 | P á g i n a Bibliografía Khan, M. y Khan, S. S. (2011). Data and Information Visualization Methods, and Interactive Mechanisms: A Survey. International Journal of Computer Applications, Volume 34– No.1. Naciones Unidas. Comisión Económica para Europa (2009). Cómo hacer comprensibles los datos. Parte 2. Una guía para presentar estadísticas. Perfit, Janine T., Amézaga, Karla Yee y Muñoz-Ayala, Jorge E. (2019). Caja de herramientas para la visualización de datos de las oficinas nacionales de estadística. Banco Interamericano de Desarrollo. Phillip Heita (28 abril 2019) Storytelling with data. https://www.kaggle.com/phillipheita/storytelling-with-data Prabhakaran, Selva (28 de noviembre de 2018). Top 50 matplotlib Visualizations – The Master Plots (with full python code). https://www.machinelearningplus.com/plots/top-50- matplotlib-visualizations-the-master-plots-python/ Wilke, Claus O. Fundamentals of Data Visualization. https://clauswilke.com/dataviz/index.html