202005 rrg proyecto individual con evaluacion por pares
1. 2. Ciclo de Vida de
Proyectos de Ciencia de
Datos
2.2 Metodologías para Proyectos de Ciencia de
Datos
Proyecto individual evaluado por pares.
Lic. René Rodríguez G.
06/05/2020
2. Proyecto de Ciencia de Datos – Librería Iztaccíhuatl Pág. 1
ÍNDICE
Pág.
1. Introducción ....................................................................................... 2
2. Desarrollo del Proyecto Individual ....................................................... 2
2.1 Antecedentes .....................................................................................2
2.2 Desarrollo del Proyecto de Ciencia de Datos ...........................................2
2.2.1 Entendimiento del Negocio .......................................................3
2.2.2 Adquisición de los Datos...........................................................3
2.2.3 Preparación de los Datos ..........................................................5
2.2.4 Modelación .............................................................................5
2.2.5 Evaluación e Interpretación ......................................................6
2.2.6 Despliegue del Modelo .............................................................7
2.2.7 Operaciones ...........................................................................7
3. Conclusión............................................................................................ 8
3. Proyecto de Ciencia de Datos – Librería Iztaccíhuatl Pág. 2
1. Introducción
El presente documento plasma el resultado de la práctica “Utilizando la Ciencia de
Datos en una Organización” del Curso: Introducción a la Ciencia de Datos y Big Data
(Tema 2. Ciclo de Vida de Proyectos de Ciencia de Datos Subtema 2.2. Metodologías
para proyectos de Ciencia de Datos) con objeto de poner en práctica los
conocimientos adquiridos sobre la implementación de un proyecto de Ciencia de Datos
específicamente para una librería situada en la ciudad de Monterrey, Nuevo León.
Una vez concluido el proyecto individual será cargado a la plataforma EDX para ser
evaluado por pares y con ello poder avanzar para tomar los siguientes temas del
curso.
2. Desarrollo del Proyecto Individual
2.1. Antecedentes
En un entorno difícil para la economía mexicana y dadas las circunstancias actuales, el
consejo de administración de la Librería Iztaccíhuatl fundada en el año 2015 en Monterrey,
Nuevo León ha autorizado presupuesto para ejecutar proyecto de Ciencia de Datos con
objeto de soportar una mejor toma de decisiones para lograr incrementar el volumen de
ventas mensuales en al menos un 35% de las cifras planeadas para este año 2020.
2.2 Desarrollo del Proyecto de Ciencia de Datos
Una vez autorizado presupuesto y tomada la decisión por el consejo de administración
y avalada por la dirección general de la Librería Iztaccíhuatl se procede con la
ejecución del Proyecto de Ciencia de Datos siguiendo cada una de los etapas que de
acuerdo a las buenas prácticas promueve la metodología CRISP-DM (Cross Industry
Estándar Process – Data Mining). Con ello se busca generar información relevante
para el negocio que respalde y promueva la oportuna toma de decisiones de sus
ejecutivos y todo orientado al logro del objetivo primordial que es “elevar al menos un
35% las ventas mensuales durante un año para promover el crecimiento y desarrollo
de la organización en 2021”. El análisis a emplear en este proyecto es de tipo
“prescriptivo” dado que se generan recomendaciones y consejos para la Librería
Iztaccíhuatl todo esto a partir de explotar, combinar y procesar fuentes de datos
internas y externas a la organización con técnicas de aprendizaje automático
(machine learning), de tal forma que se crean nuevas ideas y conceptos sobre
4. Proyecto de Ciencia de Datos – Librería Iztaccíhuatl Pág. 3
procesos de negocio, se identifican libros que valga la pena promover y comercializar
así como se pone foco en la percepción, el sentimiento y los comentarios de los
lectores o usuarios finales. A continuación se detallan las principales etapas de la
metodología mismas que conforman implícitamente el plan estratégico para lograr los
resultados esperados en la organización:
2.2.1 Entendimiento del Negocio
El negocio de la Librería Iztaccíhuatl se centraliza en la venta de libros
físicos para soportar el gusto por la lectura y la educación de estudiantes
y lectores de la región. Está localizado en el corazón de la ciudad de
Monterrey, N.L. y por ahora tiene como objetivo primordial incrementar
el volumen de ventas de la librería en al menos un 35% durante un año
para promover el desarrollo y crecimiento de la organización en el 2021.
El consejo de administración muestra preocupación dado que la empresa
ha caído en un estancamiento durante los dos últimos años limitando el
crecimiento y por consecuencia la expansión del negocio en otros estados
de la república mexicana, por tal motivo se autorizó el lanzamiento del
Proyecto de Ciencia de Datos con la premisa de promover la ética y los
valores respetando y salvaguardando la confidencialidad de datos de
clientes y proveedores.
2.2.2 Adquisición de los Datos
Fuentes de información interna: Se tiene considerado integrar el
almacenamiento de archivos e información histórica que ayudarán a
conocer el comportamiento histórico sobre clientes, volúmenes de venta
mensual, evaluaciones de libros, recomendaciones de lectura así como
tendencias. Los archivos a considerar son:
“books”: contiene los datos generales de cada libro existente en la
librería y además menciona el promedio de clasificación de cada libro
de acuerdo a las votaciones y compras del cliente. A continuación sus
campos:
o Id - Identificador del registro
o Book Id - Identificador del libro
o Number Editions - Número de ediciones
o ISBN - Clave estándar internacional del libro
o ISBN13 - Clave estándar extendida internacional del libro
o Authors - Autor del libro
5. Proyecto de Ciencia de Datos – Librería Iztaccíhuatl Pág. 4
o Original Publication - Fecha de publicación
o Original Title - Título original del libro
o Title - Título del libro
o Language Code - Clave de idioma del libro
o Average Rating - Promedio de la clasificación del libro
o Image - Enlace a la imagen de la portada del libro
o Small Image - Enlace a la imagen en versión optimizada de la
portada del libro.
“top_books”: el top 20 de los libros más vendidos de acuerdo a una
clasificación general. A continuación sus campos:
o Position - Posición del libro en la clasificación del libro
o ISBN - Clave estándar extendida internacional del libro
o Title - Título del libro
o Author - Autor del libro
o Imprint - Editorial
o Publisher Group - Grupo Editorial
o Volume - Volumen de ventas hasta el 2010
o Value - Ventas determinadas por el volumen
o RRP - Precio recomendado para minoristas
o ASP - Precio promedio para venta
o Binding - Tipo de encuadernación
o Publ Date - Fecha de publicación
o Product Class - Clasificación del libro
o Classification - Clasificación General del libro
“ratings”: contiene los datos de los libros más votados por los clientes
dentro del sitio web de la librería. A continuación sus campos:
o Book Id - Identificador del libro
o User Id - Identificador del cliente/usuario que clasifico un libro
o Rating - Nivel de clasificación del libro
“to_read”: contiene las recomendaciones que cada cliente o usuario
realiza en el sitio web sobre libros para leer. Sus campos son:
o User Id - Identificador del cliente/usuario que clasifico un libro
o Book Id - Identificador del libro
A la fecha estos archivos se encuentran disponibles en varios CD´s, 2
computadoras personales y otra parte alojada en un servidor por lo que
de inicio todos estos se deberán concentrar en un solo lugar para que la
nueva plataforma considere cargar dichos archivos históricos adicional a
los nuevos archivos que periódicamente se estarán generando con la
información actualizada al cierre del día hábil anterior y con cortes
mensuales para su procesamiento y análisis. Por otra parte se identificó
6. Proyecto de Ciencia de Datos – Librería Iztaccíhuatl Pág. 5
que hay información sobre volúmenes de venta que se tienen sólo hasta
el año 2010 (campo top_books.volume), por lo que se deberá considerar
el reprocesamiento de datos para actualizar la información, limpiarla,
estandarizarla y tenerla al día (top_books.volume).
Fuentes de información externa: se tiene considerado obtener las
principales búsquedas en internet y redes sociales sobre literatura y
libros por zona geográfica o entidad federativa para su concentración y
procesamiento. Adicionalmente también se buscará en redes cuales son
los libros más vendidos para siempre contar con ellos, aunado a conocer
anticipadamente nuevos libros que se vayan a publicar que presenten
expectativas de ser exitosos (en base al historial del autor).
2.2.3 Preparación de los Datos
Etapa donde se sientan las bases para que un grupo de procesos tomen
los archivos internos y externos de fuentes o dispositivos fijos con objeto
de centralizarlos en un repositorio residente en la nube para su limpieza,
estandarización, cálculo (de ser necesario) y formateo. Las fuentes
externas consideran datos de búsquedas que le interesan al negocio de
internet (Google) y redes sociales (ej. Búsquedas de libros, ventas,
nuevos libros próximos a publicarse).
2.2.4 Modelación
Etapa en la que se modelan los procesos para generar los principales
indicadores que ayudarán a la organización a tomar decisiones oportunas
y acertadas para el logro del objetivo principal que es incrementar el
volumen de ventas de la librería en al menos un 35% durante un año. Se
tiene considerado integrar técnicas de aprendizaje automático en la nube
haciendo uso de Google Cloud como herramienta principal. A partir de los
principales indicadores definidos se evaluará el desempeño de la librería.
En este mismo paso se realizan pruebas sobre performance, tiempos
requeridos de procesamiento y de calidad de datos para generar la
información sobre los principales indicadores a evaluar:
a) Volumen de ventas globales mensuales y por canal (vía telefónica,
tienda virtual o mostrador de los último año incluyendo mes en curso)
7. Proyecto de Ciencia de Datos – Librería Iztaccíhuatl Pág. 6
b) Los 10 Libros más vendidos por mes (en los últimos 6 meses)
c) Principales días de venta del último año (vacaciones, días de asueto,
días de quincena, fines de semana)
d) 10 libros con mayor tendencia en redes sociales y búsquedas a través
de Google (en los últimos 6 meses)
e) 20 libros con cero ventas acumuladas (en los últimos seis meses)
2.2.5 Evaluación e Interpretación
En esta etapa del proyecto se analiza detenidamente el contenido y la
información de los principales indicadores generados por el modelo
implementado, así como la forma en la cual toda esta información puede
ayudar a la Librería Iztaccíhuatl a lograr su objetivo principal. Cada uno
de los principales indicadores son detonantes de acciones o decisiones
mismas que a continuación se sugieren:
a) Indicador: Volumen de ventas globales mensuales y por canal (vía
telefónica, tienda virtual o mostrador de los último año incluyendo
mes en curso). Posibles decisiones:
1. Incentivar al personal si el volumen de ventas global mensual del
último mes en evaluación se cumple y se excede en un 15% se
tomará la decisión de ofrecer un bono sobre el 2% de las ventas
realizadas. El bono será acumulable y se entregará
semestralmente durante la sesión del comité de administración
como reconocimiento a la labor desempeñada. Asimismo, el
responsable del canal con mayores ventas durante el semestre se
hara acreedor a un 1% adicional sobre el importe de la venta
realizada.
2. Evaluar el desempeño de los canales mensualmente en relación a
sus ventas para identificar los de ventas más bajas del mes con
objeto de analizar la causa y ver la forma de apoyar para tratar
de no repetir comportamiento. Si es un tema recurrente evaluar
posible cambio de colaborador o ajuste de funciones de acuerdo a
su perfil.
b) Indicador: Los 10 Libros más vendidos por mes (en los últimos 6
meses). Posibles decisiones:
8. Proyecto de Ciencia de Datos – Librería Iztaccíhuatl Pág. 7
1. Con objeto de potenciar las ventas de ese grupo de libros se
sugiere promover campaña en redes sociales evaluando la opción
de otorgar algún descuento o beneficio para nuevos clientes y/o
clientes frecuentes
2. Contar con inventario suficiente para cubrir ventas o bien
contactar a la editorial proveedora para que pueda surtir el libro
en cuestión casi de manera inmediata para evitar perder ventas
c) Indicador: Principales días de venta del último año (vacaciones, días
de asueto, días de quincena, fines de semana). Posibles decisiones:
1. Poner alguna promoción o descuento en los periodos donde se
puedan potenciar las ventas o bien para promover la venta de
libros cuando ésta sea nula o escasa
d) Indicador: 10 libros con mayor tendencia en redes sociales y
búsquedas a través de Google (en los últimos 6 meses). Posibles
decisiones:
1. Con objeto de impulsar la ventas, hay que identificar e incorporar
a la librería aquellos títulos con tendencia en redes y búsquedas
en internet que en ese momento no se manejen. Esto a la par de
alguna posible campaña de marketing en dichas redes o en
Google por ejemplo para promover su desplazamiento.
e) Indicador: 20 libros con cero ventas acumuladas (en los últimos seis
meses). Posibles decisiones:
1. Evaluar la posibilidad de cambiar con la editorial proveedora ese
inventario de libros que no se mueve por libros que presenten
venta o movimiento o bien ponerlos en oferta para tratar de
rescatar flujos que ayuden a adquirir libros que estén
presentando buenas ventas o libros que próximamente vayan a
salir al mercado
2.2.6 Despliegue del Modelo
Durante la sesión del comité de administración de la Librería Iztaccíhuatl
se presentan resultados del proyecto de Ciencia de Datos y sus beneficios
orientados a incrementar al menos un 35% de las ventas como objetivo
9. Proyecto de Ciencia de Datos – Librería Iztaccíhuatl Pág. 8
primordial. Una vez teniendo la aprobación se para a la etapa final de
Operaciones
2.2.7 Operaciones
Se determina que el nuevo modelo de indicadores y decisiones se
implemente posterior a una presentación que considere al personal
involucrado con objeto de alinear a toda la organización para todos
colaborar en un solo sentido. No obstante el modelo mensualmente se
estará evaluando para revisar si se está generando impacto y buenos
resultados, o si el modelo requiere de algún ajuste para ponerlo a tono, o
bien si el objetivo principal de la organización cambio y hay que hacer un
replanteamiento o un nuevo proyecto de Ciencia de Datos aprovechando
la infraestructura con la que se cuenta.
3. Conclusión
Interesante proyecto de práctica individual en donde tuve la oportunidad de repasar
las distintas etapas que sigue la metodología CRISP-DM (Cross Industry Estándar
Process – Data Minery) para llevar a cabo proyectos de Ciencia de Datos.
Adicionalmente considero que esta práctica es de mucha utilidad ya que me ayuda a
tener una mejor comprensión del tema al trasladar la teoría a un ejercicio apegado a
la realidad.