Este documento presenta un análisis visual de datos de la Librería Iztaccihuatl utilizando gráficas como tortas y barras para identificar las clasificaciones y autores con mayor volumen de ventas. Se identifican correlaciones entre variables como volumen y valor. También se realizan predicciones sobre qué libros se venderán más rápido según su autor o clasificación. Finalmente, se concluye que enfocarse en adquirir libros de autores y clasificaciones populares podría mejorar los niveles de ventas de la librería.
2. Indice
Introducción...................................................................3
Gráficas que se utilizarán en el proyecto.....................................4
Comparaciones..................................................................8
Correlaciones..................................................................9
Predicciones..................................................................10
Storytelling..................................................................11
Conclusiones..................................................................12
3. Introducción
La Librería Iztaccihuatl ubicada en la ciudad de Monterrey, Nuevo León, México ha decidido
desarrollar un proyecto basado en ciencia de datos para mejorar sus indicadores de desempeño
(KPI’s) y a la vez desarrollar una mejor estrategia en la toma de decisiones.
El presente trabajo tiene por objetivo:
Identificar las gráficas; comparaciones; correlaciones y una posible predicción a través de una
visualización de datos como parte de un modelo basado en Ciencia de Datos para el apoyo a la
toma de decisiones para una organización.
Y responder a las siguientes preguntas:
1. ¿Qué gráficas se pueden realizar sobre el análisis de datos de la Librería Iztaccihuatl?
2. ¿Qué comparaciones se podrían realizar sobre los datos de la Librería Iztaccihuatl?
3. ¿Qué correlaciones se pueden tener de los datos de la Librería Iztaccihuatl para poder
realizar un análisis descriptivo?
4. ¿Es posible realizar alguna predicción sobre los datos de la Librería Iztaccihuatl?
5. ¿Qué historia se podría contar de las visualizaciones a los datos de la Librería Iztaccihuatl?
3
4. Gráficas que se utilizarán en el proyecto
Un viejo refrán dice que una imagen vale mas que mil palabras y las graficas aplican perfectamente
en este sentido, cuando tratamos de comprender y encontrar relaciones en los datos. Por medio de
la visualización de datos se convierte información que puede llegar a ser aburrida en imágenes que
nuestro cerebro puede entender mas fácilmente.
Mi principal exploración se centro en el archivo top_books y en tratar de comprender como estan
compuestas de manera estática las variables “volumen de ventas” y “clasificación” en consecuencia
elegí una grafica tipo torta:
De la grafica se desprende que las clasificaciones PB Fiction, Childrens y HB Non Fiction totalizan el
75,8 % del volumen de las ventas.
Con la intención de ahondar un poco mas en el análisis, decidí crear los correspondientes graficas
de torta de estas tres clasificaciones, las mas significativas en cuanto a ventas
5. Como conclusión podemos deducir que de acuerdo a la variable “Product Class", las mas
significativas en cuento a volumen de ventas son:
• Crime,Thriller & Adventure
• General & Literacy Fiction
• Young Adult Fiction
• Children Fiction
• Food & Drink General
• Autobiography: the arts
5
6. Otra grafica que elegí aplicar es la de barras, ya que nos permite comprender como se compone la
variable “volumen de ventas” de acuerdo a la variable “autores”, y ver claramente cuales son los
autores con mayor volumen de ventas. Esta grafica también se elaboro a partir del archivo
top_books.
De 78 autores, estos 10 representan el 48 % de las ventas, en orden descendente son:
• Larsson, Stieg
• Meyer, Stephenie
• Oliver, Jamie
• Brown, Dan
• Sin Autor
• Child, Lee
• Mantel, Hilary
• Cole, Martina
• Smith, L.J.
• Kinsella, Sophie
La ultima y tercer tipo de grafica que aplique fue el histograma para visualizar como se distribuye
la variable "binding", del archivo top_books y podemos apreciar que PaperBack y HardBack se
distribuyen por igual.
8. Comparaciones
Ademas de las comparaciones que surgen en las distintas gráficas, considero que son interesantes
las siguientes:
Una comparación a realizarse es la relación entre los libros mas votados (ratings), los libros mas
recomendados (to_read) y los 20 libros mas vendidos (top_books). Sin embargo y
desafortunadamente , la clave primaria, book_id, de los archivos ratings y to_read, en muchos casos
no lleva al correspondiente registro en la tabla books, la integridad de los datos esta rota.
Tampoco existe la clave primaria book_id en la tabla top_books, como para profundizar aun mas.
9. Correlaciones
Para obtener las correlaciones que pueden existir en las tablas, python nos proporciona la función
pandas.DataFrame.corr , de la librería pandas.
Aplicada sobre la tabla books, nos arroja el grado de correlacion que existe entre las distintas
columas y como podemos apreciar este valor resulta significativo entre las variables volume/valor y
entre rrp/asp.
9
10. Predicciones
Como consecuencia del estudio anterior, me siento en posición de predecir lo siguiente:
1. Cualquier libro perteneciente a los 10 autores con mayor volumen de ventas se venderá
mas rápidamente que cualquier otro autor.
2. Cualquier libro que entre en la clasificación PB Fiction, Childrens y HB Non Fiction se
vendera mas que cualquier libro perteneciente a otra clasificación.
11. Storytelling
Finalmente, con esta visualización pretendemos resumir los gráficos elaborados en un principio y
mostrar nuestra interpretación de los datos, quienes son los autores con mayores ventas y la
Product Class y Classification a la que pertenecen. Creo que este resumen logra transmitir esa
información.
11
12. Conclusiones
Como comente en el titulo comparaciones, la integridad referencial esta rota entre las tablas y
ademas falta la tabla clientes/usuarios, esto me impidió realizar una análisis mas profundo y
esclarecedor.
Las distintas graficas han puesto al descubierto quienes son los autores y la clasificación a la que
pertenecen con mayores ventas, lo que me permite predecir con certeza que cualquier libro que
pertenezca a alguno de los autores señalados tendrá mas ventas que cualquier otro.
Así mismo el volumen de ventas por clasificación nos permite predecir que cualquier libro dentro
de PB Fiction, Childrens y HB Non Fiction tendra mayor preferencia entre los clientes sobre otras
clasificaciones.
Dicho esto, creo que aplicar estos criterios indicados a la hora de adquirir libros por parte de la
libreria Iztaccihuatl redundara en mantener su nivel de ventas e incluso mejorarlos.