Este documento presenta una propuesta para utilizar la ciencia de datos para mejorar las decisiones y los indicadores de desempeño de la Librería Iztaccihuatl. Actualmente, la librería cuenta con 4 bases de datos sobre libros, calificaciones de usuarios, libros más vendidos y recomendaciones. La propuesta incluye analizar esta información, definir una estrategia de implementación con 7 acciones como vincular los datos y agregar géneros a los libros, y monitorear el éxito mediante 4 indicadores clave como las calificaciones promedio
Cuáles son las características biológicas que están marcadas en tu individual...
Análisis de datos para mejorar la estrategia y KPI de una librería
1. PORTADA
Tec de Monterrey en edX
Certificado Profesional en Ciencia de Datos
Curso: Introducción a la Ciencia de Datos y Big Data
Practica con Evaluación de Pares:
“Utilizando la Ciencia de Datos en una Organización:
Librería Iztaccihuatl ubicada en la ciudad de Monterrey, Nuevo León,
México”
Por: Ing. Alejandro Uribe Rodríguez
16 de febrero de 2020
2. Página 2 de 9
INDICE
Introducción
Ideas que se revisaron en el Proyecto ……………………………………………………………………… 3
Selección del tipo de análisis y justificación de su uso …………………………………………………………. 4
Propuesta de decisiones que la empresa podrá tomar en base a la información analizada
Descripción detallada de la estrategia de implementación ………………………………………. 6
Justificación de la estrategia de implementación ……………………………………………………… 7
Proceso de evaluación de la estrategia de implementación ……………………………………… 8
Buenas prácticas que se deben utilizar para lograr la estrategia descrita …………………. 8
Indicadores de desempeño (KPIs)
Identificación de Indicadores …………………………………………………………………………………… 8
Conclusiones
Resumen de las propuestas presentadas a la empresa ……………………………………………. 9
3. Página 3 de 9
INTRODUCCION
Ideas que se revisaron en el Proyecto
Desarrollar una mejor estrategia en la toma de decisiones, así como mejorar los indicadores de
desempeño (KPI’s) basándose en el desarrollo de un proyecto, fundamentado en ciencia de datos,
me llevo a considerar para la organización en cuestión, Librería Iztaccihuatl, los aspectos que por su
giro de negocios le impulsarían a alcanzar logros considerados como exitosos.
Actualmente, Librería Iztaccihuatl cuenta con 4 bases de datos con una jerarquización en Excel como
se describe a continuación:
El primer nivel (“books”) se relacionada con la información mínima suficiente para distinguir un
ejemplar (libro) de otro e incluye el Promedio de la clasificación del libro, ejercida por los lectores;
contiene los datos generales de cada libro existente en la librería y además menciona el promedio
de clasificación de cada libro de acuerdo con las votaciones y compras del cliente.
Una de las ideas consideradas en este nivel fué identificar el nivel de preferencia de los usuarios y
la dilución o dispersión entre las calificaciones alcanzadas (categorías de calificaciones). Es decir que
tanta aceptación tiene la cartera de libros ofrecida y cómo están focalizadas en la escala de
calificaciones las categorías de estas.
El segundo nivel (“top_books”) se refiere al top 20 de los libros más vendidos bajo una clasificación
general. Debido al giro de negocio, determinar que se vende más de acuerdo con un criterio de
preferencia de los usuarios por un género determinado de libro fue la idea central para este nivel
de información.
En el tercer nivel (“ratings”) se encuentra un distintivo de que libro es y quien lo califico y que
clasificación puntal alcanzó; contiene los datos de los libros más votados por los clientes dentro del
sitio web de la librería. Acceder a la experiencia del usuario respecto al libro me revelaría además
de la preferencia del usuario también que tanto está dispuesto a expresarla en una relación de
cliente-proveedor o usuario-Librería.
Y finalmente en el cuarto nivel (“to_read”) contiene las recomendaciones que cada cliente o usuario
realiza en el sitio web sobre libros para leer. La idea revisada aquí, como complemento del nivel de
datos anterior, es una segunda parte que se configura con la recomendación a terceros, es decir, a
otros usuarios.
4. Página 4 de 9
Selección del tipo de análisis y justificación de su uso
METODOLOGIA A DESPLEGAR
La metodología CRISP-DM (Cross Industry Standard Process) creado en 1999 por SPSS, NCR y
DaimlerChrysler, mantiene un proceso estándar de seis fases que fue concebido para el desarrollo
de proyectos de Data Mining (Minería de Datos), en donde se busca la recolección y análisis de
grandes volúmenes de datos y presenta con las siguientes fases:
1. Conocimiento del Negocio: En esta fase se identifican los objetivos a conseguir después de
un estudio pormenorizado del negocio, exigencias y necesidades del cliente. Crea un plan
estratégico para alcanzar dichos objetivos con unos requerimientos de fiabilidad y calidad
mínimos. Se debe tener en cuenta la regularización y normativas de ciberseguridad y
privacidad de datos y sistemas informáticos. ¿Cuál es el problema comercial que estamos
tratando de resolver?
2. Conocimiento de Datos: Identificar los datos necesarios para la consecución de los
objetivos. Reconocer las fuentes de datos. Describir los tipos de datos con los que vamos a
trabajar e identificar aquellos que realmente son necesarios. Reconocer problemas en la
calidad de estos, como por ejemplo si existen datos repetidos, incompletos, inconsistentes,
con errores, entre otros. ¿Cuáles serán los beneficios de la solución propuesta? Beneficio
vs. Costo.
3. Preparación de Datos: Procesar los flujos de datos, solventar problemas de datos faltantes,
controlar las inconsistencias de los flujos de datos y realizar la limpieza y estandarización de
los datos, generación de variables, integración de diferentes conjuntos de datos, etc.
¿Cuáles son las variables importantes que crees que deberíamos recopilar?
4. Modelado: Determinar qué modelo o técnica es el más apropiado para la resolución del
problema a tratar y que técnicas a aplicar de forma consistente atendiendo a los datos que
tenemos, los recursos y necesidades. Por lo general, se puede volver a la fase anterior para
trabajar con los datos y tener una entrada de estos, acorde a las necesidades del modelo.
En esta fase se debe crear las pruebas de evaluación y desempeño del sistema para estudiar
la calidad y fiabilidad de los resultados obtenidos con el modelo seleccionado y los objetivos
marcados. ¿La elección del modelo es adecuada para el problema comercial?
5. Evaluación: Visualización y análisis de los datos obtenidos y su correspondencia sobre los
objetivos, la fiabilidad y calidad deseada. ¿Existe una métrica de evaluación establecida por
la empresa y si es apropiada para resolver el problema comercial?
6. Implementación: Despliegue del Modelo: Se visualiza el conocimiento y los resultados
obtenidos y se muestran al cliente; y Operaciones: Realizar las acciones que el cliente vea
pertinentes acorde a los resultados obtenidos. Además, pasamos a una fase de seguimiento
y mantenimiento del modelo acorde por ejemplo al periodo de validez de los resultados o
5. Página 5 de 9
modelos utilizados, así como los objetivos de negocio que pueden variar con el tiempo.
Puede ocurrir que la fiabilidad de los resultados del modelo baje por lo que se debe retomar
el proyecto desde el principio.
Entre las ventajas de esta metodología que justifican su uso en el presente proyecto están:
1) Es la metodología más utilizada en el mercado, existen diferentes fabricantes que aportan
herramientas para el seguimiento del proyecto utilizando esta metodología, existiendo una
red mundial de utilización de esta metodología. Entre los fabricantes más destacados en
esta red se encuentran como Teradata, Sgi, DESPSS, IBM, OHRA y consultoras de prestigio
como Deloitte, ICL, ABB, etc.
2) Se centra en las necesidades y comprensión del negocio, más que orientarse al empleo de
estadísticos para el muestreo de los datos.
3) La evaluación de los resultados en CRIPS-DM se realiza en base al desempeño del modelo
elegido y los objetivos marcados, en lugar de sólo hacer referencia al desempeño del
modelo.
6. Página 6 de 9
Propuesta de decisiones que la empresa podrá tomar en base a la información analizada
Descripción detallada de la estrategia de implementación
ANALISIS DE LA INFORMACION
Del primer nivel (“books”) los ratings promedio por libro van desde 2.47 a 4.82, para los
10,000 ejemplares disponibles, su tasa de preferencia es como sigue, con un promedio
general de preferencia de 3.8:
2.47 a 2.98 = 0.13% del total de ejemplares
3.00 a 3.99 = 46.53% del total de ejemplares
4.00 a 4.82 = 53.34% del total de ejemplares
Se concluye que, de la escala de calificación del 1 al 5, alcanzar un promedio aritmético de
3.8 representa en apariencia una aceptación de 76% que ajustándolo a la escala usada por
los usuarios su conversión es a 79%.
En segundo nivel (“top_books”) se manejan 6 clasificaciones de género de libro que agrupa
a 120 ejemplares, hasta el 2010 cuentan con 23.3 millones de ejemplares vendidos con la
distribución por clasificación y ventas como sigue:
PB Fiction 37%
Childrens 20%
HB Non Fiction 19%
Original Fiction 9%
PB Non Fiction 8%
HB Fiction 7%
Total 100%
Se concluye que 120 ejemplares agrupados por género representan una categorización del
0.014% del total de ejemplares disponibles para los usuarios. Adicionalmente de los 120
libros el 11% (13 libros) cuenta con un identificador (key) de coincidencia para relacionarse
con las otras bases de datos del proyecto a través del campo “TITLE”.
Del tercer nivel (“ratings”), contiene los 10,000 ejemplares disponibles con el detalle de qué
calificación recibió de los 53,424 usuarios totales. Cuenta con hasta un máximo de 100
calificaciones-usuarios por libro. El usuario que más libros evaluó fue de 200 ejemplares y el
que menos fue de 2 ejemplares.
Se concluye que el nivel de participación máximo de los usuarios es de 2% (200
calificaciones-libros) con respecto al total de libros disponibles. Así mismo que el 2.2% (1167
usuarios) del total de los usuarios han realizado más 100 calificaciones-libros por usuario.
7. Página 7 de 9
Y finalmente, del cuarto nivel (“to_read”) De los 10,000 ejemplares calificados por los
usuarios en el archivo anterior denominado “ratings” 14 libros no fueron recomendados
para ser leídos, es decir, de 10,000 ejemplares el 99.9% (9,996 ejemplares) recibió al menos
1 recomendación y máximo 2,772 usuarios lo recomendaron para leer.
Se concluye el 5.2% del total de usuarios están dispuestos a brindar una recomendación a
otros usuarios.
Derivado de las necesidades de la Organización: i) desarrollar una mejor estrategia en la
toma de decisiones; ii) mejorar los indicadores de desempeño (KPI’s), y del análisis de
información, la estrategia de implementación estriba en las siguientes acciones:
1) Definir un campo enlace que permita relacionar las 4 bases de datos entre sí. Las bases
de datos “books”, “ratings” y “to_read” estan relacionadas por el campo “Book Id” y la
base de datos “top_books” no presenta forma consistente y confiable de relacionarse
con aquellas.
2) Asignar clasificación de genero a los 9,880 libros (10,000 totales menos 120 ya
clasificados).
3) Guardar registro de las calificaciones de los usuarios a los libros sin limitarlo a máximo
100 calificaciones por libro.
4) Guardar registro de las ventas de libros identificando al usuario que realiza la compra.
5) Definir incentivos en especie y simbólicos para los usuarios para incentivar el registro
de calificaciones a libros.
6) Asegurar una plataforma amigable y no burocrática para facilitar que los usuarios
realicen calificaciones a los libros.
7) Habilitar algoritmo de recomendación de libros a usuarios en base a su historial de
compra, calificaciones realizadas por otros usuarios y por la navegación del usuario.
Justificación de la estrategia de implementación
Las 7 acciones descritas en la estrategia de implementación del punto anterior están
dirigidas a propiciar la compra de libros a través de sugerir a los usuarios alternativas de
libros que cumplan en coincidencia con el genero de libros antes comprados y evaluados
por otros usuarios, así como con el historial de navegación del usuario y también en
incrementar el promedio general de aceptación del catálogo de libros existentes.
8. Página 8 de 9
Proceso de evaluación de la estrategia de implementación
Para la evaluación de la estrategia se han definido KPIs que se enlistan y explican en la
sección “Indicadores de desempeño (KPIs)” de la presente página.
Buenas prácticas que se deben utilizar para lograr la estrategia descrita
Se recomienda la revisión mensual de los KPIs así como definir e instrumentar un plan de
acción sobre las desviaciones identificadas.
Otra practica recomendada es la publicidad y promoción del portal de la librería a través de
navegadores como Google para aquellas personas que hagan búsquedas de libros en
internet.
Y finalmente, mantener apertura, registro y seguimiento de las sugerencias de usuarios en
temas como funcionalidad de la plataforma, servicio recibido y libros a incorporar al
catálogo (wishlist).
Indicadores de desempeño (KPIs)
Identificación de Indicadores
Los indicadores de desempeño definidos para el presente proyecto son:
1) Promedio ajustado de calificación general del catálogo disponible.
Con este indicador se estaría dando seguimiento al nivel de éxito o aceptación del
catálogo de libros.
2) Porcentaje de usuarios que hacen calificaciones de libros.
A través de este indicador se revisará la conexión que existe como relación usuario-
librería, a mayor porcentaje mayor identificación de los usuarios con la librería habrá y
se traducirá en fidelidad al producto y servicio brindado por la librería.
3) Porcentaje de usuarios que hacen recomendaciones de libros a otros usuarios.
Un mayor porcentaje de usuarios que se recomiendan a otros usuarios que leer se
traduce en publicidad de boca en boca y en compras.
4) Porcentaje de coincidencia de libros mas vendidos con libros más recomendados.
Esta relación revela la efectividad de ventas y de la estrategia de implementación.
9. Página 9 de 9
CONCLUSIONES
Resumen de las propuestas presentadas a la empresa
Las propuestas aquí presentadas se enfocan en aprovechar la estructura de información
actual y complementarla en estructura y modelación para propiciar tomar decisiones sobre
el éxito de ventas a través del monitoreo de indicadores claves que al implementarse un
plan de acción correctivo será posible realinear el desempeño de la Librería para dirigirla
hacia el logro de sus objetivos de ventas y preferencia de sus usuarios.