1. Fernando Sandoya
HERRAMIENTAS PARA EL ANALISIS DE BIG DATA Tecnológico de Monterrey
APLICANDO LA CIENCIA DE
DATOS EN LA GESTIÓN
EFICIENTE DE UNA LIBRERÍA
2. 1
Aplicando la Ciencia de Datos en la gestión eficiente de una librería
Mat. Fernando Sandoya, PhD.
Contenido
Aplicando la Ciencia de Datos en la gestión eficiente de una librería..........................................................1
Tabla de figuras.............................................................................................................................................1
1. Objetivo:................................................................................................................................................2
2. Justificación:..........................................................................................................................................2
3. Fuentes de datos:..................................................................................................................................2
4. Introducción..........................................................................................................................................3
5. Preguntas ..............................................................................................................................................4
6. Indicadores............................................................................................................................................4
7. Conclusiones .........................................................................................................................................9
Bibliografía....................................................................................................................................................9
Tabla de figuras
fig. 1. Ventas determinadas por el volumen por autor.................................................................................5
fig. 2. Ventas determinadas por el volumen por editorial............................................................................5
fig. 3. Margen de ganancia para el minorista según editorial y clasificación del libro.................................5
fig. 4. Ventas según la clasificación del libro.................................................................................................7
fig. 5. Ventas según el tipo de libro...............................................................................................................7
fig. 6. Ventas por año....................................................................................................................................8
fig. 7. Ventas por trimestre...........................................................................................................................8
3. 2
1. Objetivo:
Identificar las gráficas; comparaciones; correlaciones y una posible predicción a través de una
visualización de datos como parte de un modelo basado en Ciencia de Datos para el apoyo a la toma de
decisiones para una organización.
2. Justificación:
La Librería Iztaccihuatl ubicada en la ciudad de Monterrey, Nuevo León, México ha decidido desarrollar
un proyecto basada en ciencia de datos para mejorar sus indicadores de desempeño (KPI’s) y a la vez
desarrollar una mejor estrategia en la toma de decisiones.
1. Preguntas de investigación:
Luego del análisis respectivo, se busca contestar las siguientes preguntas:
• ¿Qué gráficas se pueden realizar sobre el análisis de datos de la Librería Iztaccihuatl?
• ¿Qué comparaciones se podrían realizar sobre los datos de la Librería Iztaccihuatl?
• ¿Qué correlaciones se pueden tener de los datos de la Librería Iztaccihuatl para poder realizar un
análisis descriptivo?
• ¿Es posible realizar alguna predicción sobre los datos de la Librería Iztaccihuatl?
• ¿Qué historia se podría contar de las visualizaciones a los datos de la Librería Iztaccihuatl?.
2. Fuentes de datos:
Los datos sobre la actividad que ha generado la librería se encuentran en la carpeta denominada
“datasets_books”, la cual contiene los siguientes archivos: books; top_books; raitings; to_read.
1. El archivo “books” contiene los datos generales de cada libro existente en la librería y además
menciona el promedio de clasificación de cada libro de acuerdo a las votaciones y compras del
cliente.
2. El archivo “top_books” contiene el top 20 de los libros más vendidos de acuerdo a una clasificación
general.
3. El archivo “ratings” contiene los datos de los libros más votados por los clientes dentro del sitio
web de la librería.
4. El archivo “to_read” contiene las recomendaciones que cada cliente o usuario realiza en el sitio
web sobre libros para leer.
Mas específicamente, el archivo “books” contiene los siguientes datos:
• Id - Identificador del registro
• Book Id - Identificador del libro
• Number Editions - Número de ediciones
• ISBN - Clave estándar internacional del libro
• ISBN13 - Clave estándar extendida internacional del libro
4. 3
• Authors - Autor del libro
• Original Publication - Fecha de publicación
• Original Title - Título original del libro
• Title - Título del libro
• Language Code - Clave de idioma del libro
• Average Rating - Promedio de la clasificación del libro
• Image - Enlace a la imagen de la portada del libro
• Small Image - Enlace a la imagen en versión optimizada de la portada del libro.
El archivo “top_books” contiene los siguientes datos:
• Position - Posición del libro en la clasificación del libro
• ISBN - Clave estándar extendida internacional del libro
• Title - Título del libro
• Author - Autor del libro
• Imprint - Editorial
• Publisher Group - Grupo Editorial
• Volume - Volumen de ventas hasta el 2010
• Value - Ventas determinadas por el volumen
• RRP - Precio recomendado para minoristas
• ASP - Precio promedio para venta
• Binding - Tipo de encuadernación
• Publ Date - Fecha de publicación
• Product Class - Clasificación del libro
• Classification - Clasificación General del libro
El archivo “ratings” contiene los siguientes datos:
• Book Id - Identificador del libro
• User Id - Identificador del cliente/usuario que clasifico un libro
• Rating - Nivel de clasificación del libro.
El archivo “to_read” contiene los siguientes datos:
• User Id - Identificador del cliente/usuario que clasifico un libro
• Book Id - Identificador del libro
3. Introducción
En este estudio se analizan los principales indicadores de gestión de la librería, en base a la información
proporcionada en los archivos books; top_books; raitings; to_read. La idea central es responder algunas
5. 4
preguntas relacionadas con el procesamiento de los datos y como se puedan tomar buenas decisiones
basados en este análisis. Según (Jones, 2019) la ciencia de datos es un campo interdisciplinario que
involucra métodos científicos, procesos y sistemas para extraer conocimiento o un mejor entendimiento
de datos en sus diferentes formas, ya sea estructurados o no estructurados, lo cual es una continuación
de algunos campos de análisis de datos como la estadística, la minería de datos, el aprendizaje
automático, y la analítica predictiva. También se define como un concepto para unificar estadísticas,
análisis de datos, aprendizaje automático, y sus métodos relacionados, a efectos de comprender y analizar
los fenómenos reales, empleando técnicas y teorías extraídas de muchos campos dentro del contexto de
las matemáticas, la estadística, la ciencia de la información, y la informática.
4. Preguntas
1. ¿Qué gráficas se pueden realizar sobre el análisis de datos de la Librería Iztaccihuatl?
Se podría utilizar cualquier grafica para la descripción de distribuciones, correlaciones y
comparaciones de datos, en particular podrían ser útiles los histogramas, los diagramas de
dispersión y los diagramas de barras. En este documento se utiliza el programa Power Bi de
Microsoft para mostrar algunos resultados.
2. ¿Qué comparaciones se podrían realizar sobre los datos de la Librería Iztaccihuatl?
Se podrían comparar ventas de las respectivas editoriales, o por autor, o por género o tipo
literario.
3. ¿Qué correlaciones se pueden tener de los datos de la Librería Iztaccihuatl para poder realizar
un análisis descriptivo?
Habría que dar formato a algunos de los campos, en particular a las variables fechas: Publ Date,
Original Publication. Habría que corregir posibles datos anómalos, y otros procedimientos
propios del proceso de preparación de datos con el fin de tenerlos listos para un análisis
descriptivo. Las correlaciones podrían tenerse entre tipo de editorial y tipo de genero literario,
o entre ventas y genero literario.
4. ¿Es posible realizar alguna predicción sobre los datos de la Librería Iztaccihuatl?
Se podría predecir el volumen de ventas por año, para los años siguientes, pues se tiene el registro
histórico de las ventas en años anteriores. También se podrían predecir las ventas determinadas
por el volumen.
5. ¿Qué historia se podría contar de las visualizaciones a los datos de la Librería Iztaccihuatl?
Podría contarse la historia de las ventas, desagregada por tipo de libro, editorial, etc., haciendo
énfasis en tendencias y estacionalidades de las ventas.
5. Indicadores
A continuación se muestran algunos de los gráficos genrados, donde se sintetizan algunos indicadores
de ventas de los libros de la editorial en relación con variables relevantes como autor, editorial, tipo de
libro, etc.
6. 5
fig. 1. Ventas determinadas por el volumen por autor
fig. 2. Ventas determinadas por el volumen por editorial
fig. 3. Margen de ganancia para el minorista según editorial y clasificación del libro
10. 9
6. Conclusiones
• La analítica predictiva aporta una mayor comprensión al utilizar el presente y pasado de un
negocio para proyectar en el futuro variables importantes como ventas.
• En base a la información analizada se propone a la empresa realizar campañas de marketing,
promociones y otros incentivos para incrementar las ventas en los trimestres 1, 2 y 4, en los que
se observa una tendencia de ventas menores a las del trimestre 3.
• Se observa un gran incremento de las ventas de la empresa a partir del año 2009 con una mayor
diversificación de la cartera de productos. Se sugiere tomar medidas para garantizar que esta
tendencia creciente no se vea afectada.
• Hay un margen muy grande de ganancia para el minorista en los libros producidos por las
editoriales Bantam Press y Michael Joseph, que son 2 de las 3 editoriales que proporcional mayor
valor en ventas para la librería. En cuanto a la editorial ATOM aparece con un menor margen de
ganancias para los minorista pero con gran valor en ventas para la librería. Se sugiere negociar
con la editorial ATOM un mayor margen para minoristas.
Bibliografía
Jones, H. (2019). Ciencia de los datos: La guía definitiva sobre análisis de datos. Springer.