Este documento presenta un caso de estudio para analizar los datos de ventas de la librería Iztaccíhuat en Monterrey utilizando el modelo CRISP-DM de ciencia de datos. Se identifican las características de la empresa y el mercado. Luego, se describen las etapas del modelo CRISP-DM que incluyen el análisis de problemas, preparación y modelado de datos, evaluación mediante métricas clave de desempeño, y toma de decisiones. Finalmente, se justifica esta metodología por su sencillez y
1. Introducción a la Ciencia de
Datos y el Big Data
CASO DE ESTUDIO
LIBRERÍA IZTACCÍHUATL
Elaborado por: Franiel Ricóveri
2. 2
INTRODUCCIÓN
Toda organización, con el fin de alcanzar sus objetivos planteados en lapsos de tiempo determinados,
debe tomar decisiones basadas en los resultados arrojados por el análisis de datos obtenidos de fuentes de
información externas e internas, usando herramientas computacionales con base en la Ciencia de Datos. Este
reporte se centra en la información obtenida de la Librería Iztaccíhuatl, donde se busca desarrollar y mejorar la
estrategia de tomas de decisiones según los indicadores de desempeño de la empresa.
IDENTIFICACIÓN DE LA EMPRESA
Como paso inicial es necesario entender la organización, para que tanto el análisis como las estrategias
sean acordes a las características de la empresa y del mercado en el que se encuentra, para así maximizar las
posibilidades de éxito.
• Características de la Empresa: Librería Iztaccíhuatl, ubicada en Monterrey, Nuevo León. Venta de libros
físicos de cualquier tipo de género.
• Características del Mercado: Sus principales clientes son adultos aficionados a la lectura de libros tangibles.
Sus competidores son otras tiendas físicas en Monterrey y sitios de ventas online (Amazon o Ebay).
• Tendencias: Hay una posible tendencia negativa dado al crecimiento de la digitalización de libros, los cuales
son más económicos y pueden ser leídos en cualquier dispositivo electrónico. Adicionalmente, en el contexto
de la pandemia, los clientes pueden preferir hacer sus compras en sitios de ventas online donde el producto es
entregado en la puerta de sus casas.
• Datos provistos: La empresa ha provisto distintas bases de datos de donde, como características principales,
se puede rescatar las ventas y la clasificación de los libros según los clientes.
3. 3
ESTRATEGIA DE IMPLEMENTACIÓN
Este análisis se llevará a cabo usando la estrategia CRISP-DM, con la cual se enfoca en las necesidades
y comprensión del negocio, según los datos estudiados, para así definir los objetivos y evaluar si es posible
alcanzar los beneficios deseados. Este modelo se describe en la figura 1, posteriormente se establecerá cada una
de las fases según las características de la empresa.
Figura 1. Modelo CRISP-DM
• Análisis del problema: Primero se deben conocer las preferencias de los clientes y su evolución a
través del tiempo. Luego hay que hacer un estudio de mercado para conocer el volumen de ventas de
otras librerías y/o sitios de internet. Finalmente se necesitan definir los objetivos de la compañía, para
así poder crear un plan de minería de datos para establecer un proyecto acorde.
• Análisis de los datos: De la información provista por la compañía, donde se tienen distintos
identificadores de los libros como el nombre, autor, número y volumen de ventas y ratings, se tomarán
estas últimas características en combinación con los géneros de los productos. A partir de esto, se podrá
identificar cual segmento es el preferido por los clientes para así establecer mecanismos de acción y
objetivos.
4. 4
• Preparación de datos: Para poder identificar los datos necesarios, son segmentados los mismos en las
diferentes clases de producto, con el promedio de volumen de ventas y las ventas totales en cada
categoría. Adicionalmente, se filtran los datos según su clasificación, para facilitar la visualización de
las métricas.
• Modelado: La modelación de datos puede ser realizada tomando gráficos dinámicos para relacionar los
datos descritos en la preparación de los mismos. Como un ejemplo, se muestra en las figuras 2 y 3 el
promedio del volumen de ventas hasta el 2010 y las ventas totales por volumen de la categoría “HB
Fiction”, respectivamente.
Figura 2. Promedio del volumen de ventas hasta el 2010 de la categoría “HB Fiction”
Figura 2. Ventas totales por volumen de la categoría “HB Fiction”
0
20000
40000
60000
80000
100000
120000
F1.1 General &
Literary Fiction
F2.1 Crime,
Thriller &
Adventure
F2.2 Science
Fiction &
Fantasy
F2.3 Historical &
Mythological
Fiction
0
2000000
4000000
6000000
8000000
10000000
F1.1 General &
Literary Fiction
F2.1 Crime,
Thriller &
Adventure
F2.2 Science
Fiction & Fantasy
F2.3 Historical &
Mythological
Fiction
5. 5
• Evaluación: Para la evaluación, se tienen que tomar distintos indicadores de desempeño (KPI’s) para
comparar los datos con otras métricas internas y externas de otras tiendas o sitios de venta. Para esto hay
que tener en cuenta los tipos de analítica a usar (descriptiva, prescriptiva y predictiva), para seleccionar
los indicadores que mejor información pueden dar. Algunos de los indicadores a usar pueden ser:
o Ventas por Categoría: Para evaluar qué categorías presentan mejor o peor desempeño en un
plazo de tiempo.
o Rentabilidad y margen por Categoría: Lo que permite tomar decisiones a futuro si mantener
la venta de la categoría de estudio.
o Rotación de Inventario por categoría: Para tener información del tiempo que tarda el
inventario de una categoría en venderse.
o Posicionamiento en el mercado: Permitiendo comparar el volumen de ventas de la librería, con
otras en la ciudad de Monterrey. Así como estudiar si los clientes prefieren comprar libros en
tiendas físicas o en portales de venta online.
• Toma de decisiones y seguimiento: A partir de los resultados obtenidos en los indicadores, habría que
tomar decisiones que se alineen con los objetivos inicialmente planteados con la compañía.
Posteriormente, seguir estudiando los indicadores para comparar y determinar si existe una mejora
sustancial en los mismos.
PRÁCTICAS Y JUSTIFICACIÓN
Esta metodología permite un recolección y análisis de datos bastante sencilla, pues los datos pueden ser
obtenidos de manera orgánica y su estudio es bastante claro. Además, permite una iteración constante para
poder incrementar el número de KPI’s, profundizando el análisis y mejorando la toma de decisiones. Sin
embargo, es necesario que haya una comunicación constante en todos los niveles de la empresa sobre qué,
cómo, cuándo y el uso a dar de todas las mediciones a hacer, para obtener información más fiable.