Este documento describe cómo la Librería Iztaccihuatl en Monterrey, México usará ciencia de datos para mejorar sus indicadores de desempeño y estrategias de toma de decisiones. Identifica tres indicadores clave (KPIs) basados en los archivos de datos de la librería y propone implementar una base de datos relacional y corregir errores en los datos para generar recomendaciones de libros personalizadas para cada cliente según sus intereses y preferencias.
2. Contenido
Introducción.................................................................................................................................. 3
Identificación de indicadores (KPIs).............................................................................................. 4
Tipo de análisis.............................................................................................................................. 5
Propuestas de decisiones.............................................................................................................. 5
Conclusiones ................................................................................................................................. 7
3. Introducción
La Librería Iztaccihuatl ubicada en la ciudad de Monterrey, Nuevo León, México ha decidido
desarrollar un proyecto basada en ciencia de datos para mejorar sus indicadores de desempeño
(KPI’s) y a la vez desarrollar una mejor estrategia en la toma de decisiones.
Para ello disponemos de los siguientes archivos de datos para su análisis:
- Archivo “books”: contiene los datos generales de cada libro existente en la librería y
además menciona el promedio de clasificación de cada libro de acuerdo a las
votaciones y compras del cliente.
- Archivo “top_books”: contiene el top 20 de los libros más vendidos de acuerdo a una
clasificación general.
- Archivo “ratings”: contiene los datos de los libros más votados por los clientes
dentro del sitio web de la librería.
- Archivo “to_read”: contiene las recomendaciones que cada cliente o usuario realiza
en el sitio web sobre libros para leer.
El archivo “books” contiene los siguientes datos:
- Id - Identificador del registro
- Book Id - Identificador del libro
- Number Editions - Número de ediciones
- ISBN - Clave estándar internacional del libro
- ISBN13 - Clave estándar extendida internacional del libro
- Authors - Autor del libro
- Original Publication - Fecha de publicación
- Original Title - Título original del libro
- Title - Título del libro
- Language Code - Clave de idioma del libro
- Average Rating - Promedio de la clasificación del libro
- Image - Enlace a la imagen de la portada del libro
- Small Image - Enlace a la imagen en versión optimizada de la portada del libro.
El archivo “top_books” contiene los siguientes datos:
- Position - Posición del libro en la clasificación del libro
- ISBN - Clave estándar extendida internacional del libro
- Title - Título del libro
- Author - Autor del libro
- Imprint - Editorial
- Publisher Group - Grupo Editorial
- Volume - Volumen de ventas hasta el 2010
- Value - Ventas determinadas por el volumen
- RRP - Precio recomendado para minoristas
- ASP - Precio promedio para venta
- Binding - Tipo de encuadernación
- Publ Date - Fecha de publicación
- Product Class - Clasificación del libro
- Classification - Clasificación General del libro
4. El archivo “ratings” contiene los siguientes datos:
- Book Id - Identificador del libro
- User Id - Identificador del cliente/usuario que clasifico un libro
- Rating - Nivel de clasificación del libro.
El archivo “to_read” contiene los siguientes datos:
- User Id - Identificador del cliente/usuario que clasifico un libro
- Book Id - Identificador del libro
Identificación de indicadores (KPIs)
Con el objetivo de mejorar la experiencia de compra del cliente debemos identificar aquellos
indicadores que, mediante su análisis, pueden servir para recomendar a los posibles
compradores aquellos libros que más puedan interesarles.
Para ello identificamos tres indicadores clave:
- Libro recomendado según wishlist: según la información que nos proporciona el
fichero “to_read” sobre libros que el cliente desea leer, sugeriremos dichos libros
según el promedio de clasificación que tengan obtenido en el fichero “books” ,
siempre ordenado por su clasificación, de mejor a peor valorado.
- Libro recomendado según género: podemos analizar a través de los libros valorados
por el cliente (fichero “ratings”) el tipo de libro que más suele gustar al cliente y así
ofrecerle aquellos libros más vendidos y que no haya leído de ese género (fichero
“top_books”), siempre ordenado por su clasificación, de mejor a peor valorado.
- Libro por descubrir: similar al anterior indicador, dentro de los libros del género que
más suele gustarle al cliente, podemos ofrecerle aquellos libros mejor clasificados
de ese género pero que no estén en el top_books, siempre ordenado por su
clasificación, de mejor a peor valorado.
5. Tipo de análisis
Para el objetivo de esta práctica se realizará un análisis prescriptivo de los datos con objeto de
proporcionar a los clientes consejos sobre sus futuras compras.
¿Por qué este tipo de análisis?
El análisis prescriptivo nos ofrece la posibilidad de realizar recomendaciones sobre las acciones
que se han de seguir para mejorar la experiencia del cliente, como es en nuestro caso. Se
analizarán los datos para encontrar cuál es la mejor recomendación entre todos los libros
posibles, atendiendo a una serie de criterios establecidos en los KPIs.
La tarea del análisis prescriptivo es optimizar recursos y aumentar la eficiencia operativa. Usa
técnicas de simulación y optimización, logrando señalar cuál es el camino que conviene
realmente elegir. En realidad informa acerca de lo que debiera suceder buscando mejorar el
resultado proporcionando recomendaciones para maximizar indicadores de negocio.
Propuestas de decisiones
Vamos a ver con un ejemplo cómo obtener los datos para un KPI y qué decisiones habría que
tomar para poder implementar una solución que nos ayude a obtener cada uno de los KPIs
establecidos.
Libro recomendado según wishlist
Se trata de evaluar los intereses que tienen nuestros clientes en base a la lista que han elaborado
y que obtenemos del archivo de datos “to_read”.
Veamos con un ejemplo cuáles son los intereses de uno de nuestros clientes para así ofrecerles
los libros que más puedan interesarles.
El cliente con id 11270 ha elaborado su propia lista de libros que le gustaría leer. Esta lista
contiene los siguientes 13 libros:
- “To Kill a Mockingbird”, de Harper Lee. Id 4
- “A Game of Thrones”, de George R.R. Martin. Id 39
- “Water for Elephants”, de Sara Gruen. Id 46
- “Bossypants”, de Tina Fey. Id 106
- “The Miserables”, de Victor Hugo, Lee Fahnestock, Norman MacAfee. Id 109
- “American Gods”, de Neil Gaiman. Id 167
- “Angela's Ashes: A Memoir”, de Frank McCourt. Id 179
- “The Trial”, de Franz Kafka, Edwin Muir, Willa Muir, Max Brod. Id 614
- “A Visit From the Goon Squad”, de Jennifer Egan. Id 638
- “Shantaram”, de Gregory David Roberts. Id 723
- “Winter Garden”, de Kristin Hannah. Id 1406
- “Sushi for Beginners”, de Marian Keyes. Id 1711
- “The Hangman's Daughter”, de Oliver Pötzsch, Lee Chadeayne. Id 1867
6. Según su lista de deseos y la definición de este KPI, vamos a ofrecer al cliente las siguientes
sugerencias de próximas compras en este orden:
Decisiones a tomar
Para obtener los indicadores establecidos y con los datos que tenemos actualmente sería
necesario implementar una serie de soluciones que ayudarán a obtener dichos KPIs:
- Volcado de los datos obtenidos a una base de datos relacional. Con ello
obtendríamos la relación de libros a sugerir al cliente según los criterios de cada KPI.
- Analizando los datos hemos podido ver que el fichero top_books tiene errores que
sería interesante resolver para la obtención de los KPIs:
o La identificación del libro se hace mediante el ISBN pero el formato del dato es
erróneo de manera que muestra el mismo ISBN para todos los libros.
Solución propuesta: modificar el tipo de dato para que coincida con el
del fichero books o bien, añadir en el fichero top_books una nueva
columna que tenga el id de registro del libro.
o Otros errores encontrados en dicho fichero pero que no afectarían al cálculo de
nuestros KPIs serían:
EL ASP de cada libro contiene como dato valores incoherentes que no
se corresponden a un precio real.
La columna Value tampoco muestra datos coherentes en arreglo a la
definición de dicho campo
- Analizando los datos hemos podido observar que sólo tenemos la clasificación o
género de los libros en el fichero top_books de manera que no tenemos el género
de todos los libros.
o Solución propuesta: establecer en el modelo relacional el género de cada libro
en el fichero books. Con esto obtendríamos qué libros según género podrían
interesarle al cliente.
book_id original_title authors average_rating
39 A Game of Thrones George R.R. Martin 4.45
723 Shantaram Gregory David Roberts 4.26
4 To Kill a Mockingbird Harper Lee 4.25
109 The Miserables Victor Hugo, Lee Fahnestock, Norman MacAfee 4.14
1406 Winter Garden Kristin Hannah 4.13
167 American Gods Neil Gaiman 4.11
46 Water for Elephants Sara Gruen 4.07
179 Angela's Ashes: A Memoir Frank McCourt 4.07
614 The Trial Franz Kafka, Edwin Muir, Willa Muir, Max Brod 3.98
106 Bossypants Tina Fey 3.94
1867 The Hangman's Daughter Oliver Pötzsch, Lee Chadeayne 3.71
1711 Sushi for Beginners Marian Keyes 3.69
638 A Visit From the Goon Squad Jennifer Egan 3.64
7. Conclusiones
Mejorar la experiencia de compra de los clientes de la librería Iztaccihuatl es posible gracias a la
Ciencia de Datos y el análisis prescriptivo que ésta ofrece con arreglo a los datos que tenemos
de la organización. Para ello se deberían realizar una serie de mejoras en los ficheros de datos y
la implementación barata y sencilla en un modelo de datos relacional que nos permitiría obtener
los KPIs establecidos de una forma rápida y precisa, mejorando con ello la experiencia de compra
del cliente y las ventas de libros de nuestra librería.