Este documento propone un modelo de ciencia de datos para una librería basado en cuatro bases de datos internas y externas. Identifica los tres principales indicadores clave de rendimiento como volumen de ventas, calificaciones y recomendaciones. Sugieren un análisis prescriptivo para recomendar qué libros y cantidad debería tener la librería en inventario para maximizar los ingresos y minimizar los costos de libros no vendidos. El modelo ayudaría a la librería a tomar mejores decisiones comerciales.
2. Índice
1. índice
2. Introducción
3. Identificar los indicadores
4. Tipo de análisis y justificación
5. Propuesta de decisiones
6. Conclusiones
1
3. Introducción
Se realiza este análisis de fuentes de información externas e internas de la Librería Iztaccihuatl
ubicada en la ciudad de Monterrey, Nuevo León, México con la finalidad de generar un modelo
basado en Ciencia de Datos para tomar mejores decisiones.
Descripción de la estrategia de implementación
Nos basaremos en el modelo CRISP-DM como nuestro estándar para realizar el Proceso de
Ciencia de Datos. Por lo que primero realizaremos un entendimiento del negocio para descubrir
necesidades específicas de la librería. Después analizaremos los datos proporcionados y
retornaremos a las necesidades de negocio para emparejar qué tipo de información conviene
analizar y así seleccionar nuestros tres KPI más importantes. Posteriormente detectaremos el tipo
de análisis que mejor le convenga a nuestro set de datos tomando en cuenta su modelación
para dar claridad a la empresa sobre nuestros análisis propuestos. Por último, dictaremos
algunos ejemplos de decisiones que se podrían tomar con base en los descubrimientos de
nuestro modelo de datos ya desarrollado.
Proceso de evaluación de la estrategia
❏ Reconocer todos los tipos de datos proporcionados y su formato
❏ Entender las necesidades del negocio y emparejarlas con los datos proporcionados
❏ Seleccionar los tres KPI más importantes
❏ Elegir el mejor tipo de análisis para nuestro set de datos
❏ Dictar decisiones de negocio relevantes que pueden ser tomadas con nuestro modelo
Buenas prácticas para lograr la estrategia
A continuación enlistamos una serie de acciones que debemos tener en cuenta para lograr una
estrategia de creación de modelo Data Science eficiente:
1. Intercambiar la metodología del ciclo con plazos razonables.
2. Reconocer que en un proyecto existen varias etapas a lo largo de su vida útil.
3. Reconocer que podemos regresar a etapas anteriores para probar nuevas ideas.
4. Dividir cada proyecto en entregables para cada etapa.
5. Asignar plazos suaves para cada etapa.
6. La lista de entregables puede cambiar a lo largo de la investigación.
2
4. Identificar los indicadores
Business understanding
En este proceso debemos analizar los tipos de objetivos que tiene la librería a corto, mediano y
largo plazo. Debido a que no contamos con este tipo de información para la actividad propuesta,
tomaremos por el momento el objetivo siguiente:
Aumentar el número de libros vendidos
Data understanding
Contamos con cuatro bases de datos en formato CSV, todas relacionadas con mínimo un
identificador único entre ellas. El schema de la relación sería el siguiente:
Tomando en cuenta la naturaleza de las bases de datos, podemos afirmar que books, ratings y
to_read son fuentes internas de la librería y que con su vinculación podemos responder a las
siguientes preguntas:
¿Cuáles son los libros que un usuario ha votado y cuáles ha recomendado para leer?
¿Cuáles son los autores mejor votados por los usuarios?
¿Cuáles son los autores con más recomendaciones para leer?
3
5. Mientras que top_books es una base de datos externa a la organización, relacionada con
nuestra base de datos books por el código único ISBN. Ahora bien, es importante aclarar que
nuestra base de datos puede no contener todos los libros de la base de datos externa, creando
así una nueva área de oportunidad.
Para evaluar el cruce de datos se realiza el siguiente esquema:
¿Qué identificadores serían los más importantes a determinar de acuerdo a la información
presentada?
En este diagrama se muestra que los ejes centrales o tres KPIs principales propuestos son:
volumen, rating y recomendación. Esto se propone debido a que todas las métricas secundarias
toman sentido si las cruzamos con estos KPIs principales tomando en cuenta que estamos
cruzando las cuatro bases de datos disponibles.
4
6. Tipo de análisis y justificación
¿Qué tipo de análisis sería el más adecuado y por qué?
De acuerdo a los datos disponibles y una vez que ya logramos definir nuestros tres KPIs
principales procederemos a elegir el análisis que mejor le convenga a la librería. A continuación
se analiza el impacto que tendría cada uno de los tres tipos de análisis en este negocio:
Análisis descriptivo: La librería podría identificar cuáles son los libros con mejor volumen de
ventas que no tiene en su inventario. Podría analizar cuáles son los autores mejor votados por
sus clientes así como los géneros mejor recomendados.
Análisis predictivo: Otra idea es poder analizar los precios a minoristas y el precio promedio de
venta para cruzarlos con las ventas y el volumen de los libros que nuestra librería tenga en stock,
y así poder realizar un modelo de análisis predictivo de ingresos generados por esos libros.
Análisis prescriptivo: Definitivamente contamos con pocas fuentes de datos para realizar un
análisis de esta magnitud, aunque lo más cercano al análisis predictivo podría desarrollarse
derivado del análisis de predicción de ventas e ingresos anterior, para que con ello podamos
obtener algunas recomendaciones de qué tipo de libros debemos tener en inventario para
aumentar los ingresos al máximo, considerando los 20 libros más vendidos en el mercado.
Justificación de la estrategia
Tomando en cuenta los tres tipos de análisis y su impacto, elegiremos un modelo complejo en su
desarrollo con pocas dimensiones para tratar de obtener el mayor impacto de negocio posible
con los datos disponibles. Es por ello que en esta actividad, elegiremos el Análisis Prescriptivo
como nuestra recomendación.
5
7. Propuesta de decisiones
¿Qué decisiones se podrían tomar basadas en los descubrimientos o inferencias de la
información analizada?
El modelo propuesto tiene que contestar una pregunta central:
¿Qué libros necesita la librería en su inventario para tener la mayor probabilidad de obtener el
mayor ingreso posible, así como la cantidad de libros necesaria que necesita para reducir el
costo de los libros que no se vendan y el gasto que conlleva su almacenaje?
En el desarrollo del proyecto (análisis descriptivo y predictivo) podremos contestar algunas
preguntas secundarias para tomar otro tipo de decisiones como:
¿Cuáles son los libros que un usuario ha votado y cuáles ha recomendado para leer?
¿Cuáles son los autores mejor votados por los usuarios?
¿Cuáles son los autores con más recomendaciones para leer?
6
8. Conclusiones
Como conclusión general podemos afirmar que el objetivo central de nuestro modelo de Ciencia
de Datos es indicarnos la cantidad y el ID de los libros que en su conjunto nos generen la mayor
probabilidad de incrementar al máximo los ingresos de la librería, así como la cantidad
aproximada de libros para reducir al máximo los egresos por excedentes de libros no vendidos,
así como el gasto de su almacenaje.
En segundo lugar, nuestro modelo podrá contestar algunas otras preguntas que nos servirán
para otro tipo de estrategias. Por ejemplo, el proceso del análisis descriptivo que se realice,
arrojará cuáles son los libros mejor vendidos en el sitio web con lo que se puede dar mayor
visibilidad a este tipo de literatura en el sitio. O utilizar las recomendaciones de lectura en una
campaña de remarketing para impactar a los usuarios que aún no compran el libro, pero tienen la
intención de hacerlo.
7