SlideShare una empresa de Scribd logo
CasoCienciadeDatos
LibreríaIztaccihuatl
CursoIntroducciónalaCienciadeDatosyel
BigData
Autor : Mauricio Figueroa Colarte
<< Enero 2021 >>
Caso Librería Iztaccihuatl
Metodologías para proyectos de
ciencias de datos
Fecha Creación
21-01-2021
Página N°:
2 de 16
Clasificación:
Práctica con evaluación entre pares
Dirigido a:
Pares
INDICE
1 INTRODUCCIÓN .....................................................................................................................................................3
2 COMPRENSIÓN DEL NEGOCIO.......................................................................................................................3
2.1 Situación Actual...................................................................................................................................................5
2.1.1 KPI Calidad de Libros Ofertados según Rating...............................................................................5
2.1.2 KPI porcentaje de libros top de mayor por clasificación............................................................6
2.1.3 KPI cantidad de votos de clientes por libro .....................................................................................6
2.2 Propuesta e hipótesis del proyecto ...........................................................................................................7
3 COMPRENSIÓN DE LOS DATOS.....................................................................................................................7
3.1 Acerca de la fuente de datos........................................................................................................................7
3.2 Relacionamiento de los datos ...................................................................................................................10
3.3 Variable Objetivo .............................................................................................................................................10
4 PREPARACIÓN DE LOS DATOS .................................................................................................................... 11
4.1 Corrección de errores en la base de datos.........................................................................................11
4.2 Selección de campos .....................................................................................................................................12
4.3 Transformación de datos .............................................................................................................................13
5 MODELADO........................................................................................................................................................... 13
6 EVALUACIÓN......................................................................................................................................................... 14
7 DESPLIEGUE ........................................................................................................................................................... 15
8 CONCLUSIÓN GENERAL .................................................................................................................................. 16
Preparado por: Mauricio Figueroa Colarte
Caso Librería Iztaccihuatl
Metodologías para proyectos de
ciencias de datos
Fecha Creación
21-01-2021
Página N°:
3 de 16
Clasificación:
Práctica con evaluación entre pares
Dirigido a:
Pares
1 INTRODUCCIÓN
La problemática se da en el ámbito de la mejora de resultados de la Librería Iztaccihuatl,
ubicada en la ciudad de Monterrey, Nuevo León, México. Actualmente la librería cuenta con un
alto prestigio por la calidad de material bibliográfico que ofrece a sus clientes y además un
servicio de atención de alto nivel. Sin embargo, los Ejecutivos de esta organización han
decidido desarrollar un proyecto basado en ciencia de datos para mejorar sus indicadores de
desempeño (KPI’s) y a la vez desarrollar una mejor estrategia en la toma de decisiones.
En base al contexto descrito anteriormente, el principal objetivo de este proyecto es analizar
fuentes de información externas e internas de la organización a través de herramientas
computacionales para generar un modelo basado en Ciencia de Datos como apoyo a la toma
de decisiones.
Las herramientas tecnológicas a aplicar serán capaces de procesar fuentes de información
estructuradas para realiza análisis descriptivo que permita determinar el estado actual y por otra
parte proponer un modelo predictivo implementado con Machine Learning, con apoyo en la
metodología CRISP-DM, para predecir anticipadamente si determinados libros podrían llegar a
estar dentro de los top 20, lo cual asegurará una mejor satisfacción a los clientes y más ventas.
2 COMPRENSIÓN DEL NEGOCIO
En esta sección se desarrolla la comprensión del negocio, que corresponderá a la primera etapa
de un primer ciclo de la metodología CRISP-DM (Cross Industry Standard Process for Data
Mining) para el desarrollo del proyecto de Ciencia de Datos aplicada al pronóstico de libros top
de ventas de la Librería Iztaccihuatl.
Como contexto de negocio, la librería Iztaccihuatl pertenece al conglomerado de librerías
EDIMSA con asiento principal en Monterrey, Estado Nuevo León, México. Tiene sucursales en
Nuevo León, Coahuila, Quintana Roo y Tamaulipas.
Preparado por: Mauricio Figueroa Colarte
Caso Librería Iztaccihuatl
Metodologías para proyectos de
ciencias de datos
Fecha Creación
21-01-2021
Página N°:
4 de 16
Clasificación:
Práctica con evaluación entre pares
Dirigido a:
Pares
Misión
Hoy, con de más de 57 años en el mercado literario, reafirmamos nuestro compromiso con la
comunidad de crear experiencias únicas, impulsando la lectura, la cultura y la educación a nivel
nacional.
Visión
Ser líderes en la distribución y comercialización de material bibliográfico a nivel nacional y ser
una referencia cultural y de lectura mediante la difusión y apoyos a editoriales, autores,
asociaciones y eventos; siempre pensando en nuestra responsabilidad social hacia la
comunidad.
Valores
• Integridad
• Ética
• Respeto
• Innovación
• Servicio al cliente
• Trabajo en equipo
En lo sucesivo cada sección de este documento corresponderá al desarrollo de cada una de las
etapas de la metodología (Entendimiento de los Datos, Preparación de los Datos, Modelado,
Evaluación y Despliegue).
Preparado por: Mauricio Figueroa Colarte
Caso Librería Iztaccihuatl
Metodologías para proyectos de
ciencias de datos
Fecha Creación
21-01-2021
Página N°:
5 de 16
Clasificación:
Práctica con evaluación entre pares
Dirigido a:
Pares
2.1 Situación Actual
Actualmente la Librería Iztaccihuatl cuenta con una serie de sistemas transaccionales que
permiten llevar a cabo su operación diaria, con los cuales, las diversas unidades del negocio
conviven, atienden y resuelven las peticiones que se generan de forma interna y externa.
Particularmente, existen datos que dan cuenta de los principales KPIs actuales y que requieren
ser mejorados con este proyecto
2.1.1 KPI Calidad de Libros Ofertados según Rating
Preparado por: Mauricio Figueroa Colarte
Caso Librería Iztaccihuatl
Metodologías para proyectos de
ciencias de datos
Fecha Creación
21-01-2021
Página N°:
6 de 16
Clasificación:
Práctica con evaluación entre pares
Dirigido a:
Pares
2.1.2 KPI porcentaje de libros top de mayor por clasificación
2.1.3 KPI cantidad de votos de clientes por libro
Preparado por: Mauricio Figueroa Colarte
Caso Librería Iztaccihuatl
Metodologías para proyectos de
ciencias de datos
Fecha Creación
21-01-2021
Página N°:
7 de 16
Clasificación:
Práctica con evaluación entre pares
Dirigido a:
Pares
2.2 Propuesta e hipótesis del proyecto
Dado los KPIs definidos, las estrategias a implementar para el logro de los objetivos y los datos
con los que se cuenta, se propone mejorar el desempeño de la librería con un modelo
predictivo supervisado, que permita pronosticar si un determinado libro dentro de los
prospectos a ofrecer, tiene posibilidad de estar dentro de los top 20 más vendidos con una
exactitud promedio de al menos un 90%. En sentido podremos definir una variable objetivo
dicotómica que determine “TOP 20” (clase positiva) y “No TOP 20” (clase negativa)
3 COMPRENSIÓN DE LOS DATOS
Los datos que proveen la información necesaria para efectuar este estudio, se puede clasificar
en 4 grupos:
1) Catastro de libros: Inventario de libros que se posee para la venta
2) Libros top: Libros rankeados dentro de lo top 20 más vendidos de acuerdo a una
clasificación general.
3) Votaciones de los libros: Libros más votados por los clientes dentro del sitio web de la
librería
4) Recomendaciones por cliente: Recomendaciones que cada cliente o usuario realiza en
el sitio web sobre libros para leer.
3.1 Acerca de la fuente de datos
La fuente de datos son archivos separados por comas según la siguiente descripción:
El archivo “books.csv” contiene los datos generales de cada libro existente en la librería y
además menciona el promedio de clasificación de cada libro de acuerdo a las votaciones y
compras del cliente. Su estructura es la siguiente:
Preparado por: Mauricio Figueroa Colarte
Caso Librería Iztaccihuatl
Metodologías para proyectos de
ciencias de datos
Fecha Creación
21-01-2021
Página N°:
8 de 16
Clasificación:
Práctica con evaluación entre pares
Dirigido a:
Pares
• Id - Identificador del registro
• Book Id - Identificador del libro
• Number Editions - Número de ediciones
• ISBN - Clave estándar internacional del libro
• ISBN13 - Clave estándar extendida internacional del libro
• Authors - Autor del libro
• Original Publication - Fecha de publicación
• Original Title - Título original del libro
• Title - Título del libro
• Language Code - Clave de idioma del libro
• Average Rating - Promedio de la clasificación del libro
• Image - Enlace a la imagen de la portada del libro
• Small Image - Enlace a la imagen en versión optimizada de la portada del libro.
El archivo “top_books.csv” contiene el top 20 de los libros más vendidos de acuerdo a una
clasificación general. Su estructura es la siguiente:
• Position - Posición del libro en la clasificación del libro
• ISBN - Clave estándar extendida internacional del libro
• Title - Título del libro
• Author - Autor del libro
• Imprint - Editorial
• Publisher Group - Grupo Editorial
Preparado por: Mauricio Figueroa Colarte
Caso Librería Iztaccihuatl
Metodologías para proyectos de
ciencias de datos
Fecha Creación
21-01-2021
Página N°:
9 de 16
Clasificación:
Práctica con evaluación entre pares
Dirigido a:
Pares
• Volume - Volumen de ventas hasta el 2010
• Value - Ventas determinadas por el volumen
• RRP - Precio recomendado para minoristas
• ASP - Precio promedio para venta
• Binding - Tipo de encuadernación
• Publ Date - Fecha de publicación
• Product Class - Clasificación del libro
• Classification - Clasificación General del libro
El archivo “ratings.csv” contiene los datos de los libros más votados por los clientes dentro del
sitio web de la librería. Su estructura es la siguiente:
• Book Id - Identificador del libro
• User Id - Identificador del cliente/usuario que clasifico un libro
• Rating - Nivel de clasificación del libro.
El archivo “to_read.csv” contiene las recomendaciones que cada cliente o usuario realiza en el
sitio web sobre libros para leer. Su estructura es la siguiente:
• User Id - Identificador del cliente/usuario que clasifico un libro
• Book Id - Identificador del libro
Preparado por: Mauricio Figueroa Colarte
Caso Librería Iztaccihuatl
Metodologías para proyectos de
ciencias de datos
Fecha Creación
21-01-2021
Página N°:
10 de 16
Clasificación:
Práctica con evaluación entre pares
Dirigido a:
Pares
3.2 Relacionamiento de los datos
Los archivos entregados se relacionan de la siguiente forma para un entendimiento más integral
de la data
3.3 Variable Objetivo
La variable de supervisión o clase objetivo para este proyecto de ciencia de datos será el
campo denominado TOP 20 que se identificará en la fuente de datos con sus valores posibles
“SI TOP 20” y “NO TOP 20”.
Preparado por: Mauricio Figueroa Colarte
Caso Librería Iztaccihuatl
Metodologías para proyectos de
ciencias de datos
Fecha Creación
21-01-2021
Página N°:
11 de 16
Clasificación:
Práctica con evaluación entre pares
Dirigido a:
Pares
4 PREPARACIÓN DE LOS DATOS
Como se vio en la sección anterior, al considerarse datos integrados y que serán la clave para
obtener buenos resultados del pronóstico, se debe realizar un proceso de limpieza y
estandarización de los datos a utilizar. Durante el depurado y limpieza de la base de datos se
espera poder gestionar los valores perdidos y/o nulos y manejar las inconsistencias presentes
y/o campos incompletos que pudieran presentarse
4.1 Corrección de errores en la base de datos
La primera tarea dentro del pre-procesamiento debería ser analizar los valores perdidos o nulos.
Gracias a un análisis exploratorio preliminar realizado en Python se pueden encontrar algunos
casos que se pueden abordar.
Para el archivo books.csv
Para el archivo top_books.csv
Preparado por: Mauricio Figueroa Colarte
Caso Librería Iztaccihuatl
Metodologías para proyectos de
ciencias de datos
Fecha Creación
21-01-2021
Página N°:
12 de 16
Clasificación:
Práctica con evaluación entre pares
Dirigido a:
Pares
4.2 Selección de campos
Una vez estandarizado los campos y los datos, se debería proceder con la eliminación de
aquellas variables que se consideran como no relevantes para el modelo a desarrollar,
generalmente una primera aproximación se puede lograr a través de un análisis de correlación:
Para el archivo books.csv
Preparado por: Mauricio Figueroa Colarte
Caso Librería Iztaccihuatl
Metodologías para proyectos de
ciencias de datos
Fecha Creación
21-01-2021
Página N°:
13 de 16
Clasificación:
Práctica con evaluación entre pares
Dirigido a:
Pares
Para el archivo top_books.csv
4.3 Transformación de datos
Junto con la reclasificación de datos presentada en las secciones anteriores, es importante que
las variables categóricas sean transformadas a datos numéricos aplicando técnicas como:
1) Diseñar variables binarias o “dummies” para cada categoría de respuesta de una variable
nominal.
2) De esta manera el “0” representa la inexistencia de la variable y el “1” la existencia de la
misma, con lo que la variable toma así un sentido numérico.
3) En consecuencia, cada variable nominal estará representada en la base datos por tantas
variables (campos o columnas) como categorías tenga (bins).
5 MODELADO
En esta etapa se seleccionan se propone el uso técnicas de Machine Learning sobre los datos,
el diseño de la evaluación, la construcción y evaluación del modelo a través de experimentos.
La idea central de estos experimentos es hacer competir modelos considerados a priori como
candidatos idóneos según el tipo de problema y luego evaluarlos para determinar cuál es el
mejor para confirmar la hipótesis y solucionar la problemática de predicción de los libros top.
Preparado por: Mauricio Figueroa Colarte
Caso Librería Iztaccihuatl
Metodologías para proyectos de
ciencias de datos
Fecha Creación
21-01-2021
Página N°:
14 de 16
Clasificación:
Práctica con evaluación entre pares
Dirigido a:
Pares
Según la investigación realizada respecto de los modelos planteados en el estado del arte, la
mayoría de estos, sus variaciones aplican algoritmos supervisados sobre datos textuales y, es
por eso que para la realización de los experimentos de evaluación se utilizarán los siguientes
modelos de aprendizaje automático: KNN (K-Nearest Neighbors), Decision Tree, SVM (Support
Vector Machine), Random Forest, Neural Network (Multi-Layer Perceptron), Naive Bayes, Logistic
Regression y AdaBoost (Adaptive Boosting).
6 EVALUACIÓN
La evaluación del rendimiento del modelo predictivo seleccionado, por lo que desde el
conjunto de algoritmos del estado del arte presentados anteriormente se hará una evaluación
entre ellos y se seleccionará el de mejor precisión, y una vez seleccionado el mejor algoritmo,
se realizará la sensibilización de parámetros de éste para ajustarlo al máximo posible.
La herramienta que se utilizará para la evaluación
será la matriz de confusión como se muestra en
la tabla, de la que se pueden obtener métricas
que se utilizan comúnmente para evaluar el
rendimiento de los modelos supervisados, como
son: la exactitud predictiva (1) y el error de
clasificación (2).
Tabla 1: Matriz de confusión
Clase Real
Clase
pronosticada
Top 20 No Top 20
Top 20 VP
(Verdaderos
Positivos)
FP
(Falsos
Positivos)
No Top 20 FN
(Falsos
Negativos)
VN
(Verdaderos
Negativos)
(1) Exactitud = (2) Error =
Otras métricas que son utilizadas y que permiten medir el rendimiento sobre cada una de las
clases de manera independiente son la precisión (3) y la sensibilidad o recall (4), las cuales se
definen a partir de la matriz de confusión de la siguiente forma:
(3) Precisión = (4) Sensibilidad (recall) =
La precisión (3) es una medida de la exactitud que determina, de los ejemplos clasificados como
positivos, cuántos son clasificados correctamente. La sensibilidad o recall (4), es una medida de la
Preparado por: Mauricio Figueroa Colarte
Caso Librería Iztaccihuatl
Metodologías para proyectos de
ciencias de datos
Fecha Creación
21-01-2021
Página N°:
15 de 16
Clasificación:
Práctica con evaluación entre pares
Dirigido a:
Pares
completitud o exactitud positiva que indica cuántos ejemplos de la clase positiva fueron
clasificados correctamente.
Para complementar los indicadores anteriores, se pueden
expresar los resultados gráficamente para cada uno de los
modelos generados en el espacio ROC (Receiver Operating
Characteristic), usando la sensibilidad (Tasa de Verdaderos
Positivos) y especificidad (Tasa de Falsos Positivos) promedio
como parte de las coordenadas de cada modelo según
muestra la siguiente figura, donde a mayor área bajo la
curva mejor el modelo.
7 DESPLIEGUE
En esta etapa el modelo deberá ponerse en producción una vez que los Ejecutivos tengan la
certeza de que les agregará valor con el grado de exactitud buscado. Posteriormente, se deberá
evaluar el impacto real en las ventas y los KPIs para determinar si es necesario mejorar el
modelo o complementarlo con otro y comenzar un nuevo proyecto de ciencia de datos.
Figura 2: Curva ROC
Preparado por: Mauricio Figueroa Colarte
Caso Librería Iztaccihuatl
Metodologías para proyectos de
ciencias de datos
Fecha Creación
21-01-2021
Página N°:
16 de 16
Clasificación:
Práctica con evaluación entre pares
Dirigido a:
Pares
8 CONCLUSIÓN GENERAL
Según lo descrito en las secciones anterior, la librería Iztaccihuatl cuenta con datos apropiados
que servirán de insumo para lograr un modelo predictivo de libros top utilizando la
metodología CRISP-DM. Es altamente recomendable dedicar gran parte del tiempo del proyecto
a la preparación de los datos, ya que, se asegurará mejor calidad para alimentar a los modelos
matemáticos, y como consecuencia será más probable que obtengamos mejores métricas de
exactitud y precisión. Luego de seleccionar el modelo que mejores resultados nos entregue, por
ejemplo, Redes Neuronales Artificiales, antes de pasar a producción el modelo es altamente
recomendable instaurar un proceso de marcha blanca donde se hagan predicciones en
situaciones reales para validar en la realidad el modelo (scoring). En este sentido, es clave
determinar si las clases de predicción Top 20 y No Top 20 son determinadas por el modelo con
una alta precisión en forma independiente. Y finalmente, debemos recordar que el proceso de
CRISP-DM es iterativo, por lo que, toda aquella retroalimentación que tengamos en producción
deberá ser utilizada como insumo para mejorar continuamente el modelo.
Preparado por: Mauricio Figueroa Colarte

Más contenido relacionado

La actualidad más candente

Cuestionario e business
Cuestionario e businessCuestionario e business
Cuestionario e business
Al Cougar
 
Arquitectura Empresarial de referencia para Biblioteca Digital
Arquitectura Empresarial de referencia para Biblioteca DigitalArquitectura Empresarial de referencia para Biblioteca Digital
Arquitectura Empresarial de referencia para Biblioteca Digital
Diego Fernando González Cabezas
 
Normas generales para la auditoría de sistemas de información
Normas generales para la auditoría de sistemas de informaciónNormas generales para la auditoría de sistemas de información
Normas generales para la auditoría de sistemas de información
vryancceall
 
Arboles y reglas
Arboles y reglasArboles y reglas
Arboles y reglas
Jairo Acosta Solano
 
Metadatos
MetadatosMetadatos
Metadatos
Jimmy Alexander
 
proyecto de automatizacion de biblioteca de la facultad de ciencias economica...
proyecto de automatizacion de biblioteca de la facultad de ciencias economica...proyecto de automatizacion de biblioteca de la facultad de ciencias economica...
proyecto de automatizacion de biblioteca de la facultad de ciencias economica...
ernesto
 
Mcvs ad-05 documento de analisis y diseño de cus
Mcvs ad-05 documento de analisis y diseño de cusMcvs ad-05 documento de analisis y diseño de cus
Mcvs ad-05 documento de analisis y diseño de cus
lnavarros
 
Instrumentos auditoria informatica
Instrumentos auditoria informaticaInstrumentos auditoria informatica
Instrumentos auditoria informatica
Favio Meneses
 
Google Analytics for Dummies
Google Analytics for DummiesGoogle Analytics for Dummies
Google Analytics for Dummies
Tim Lelek
 
Fundamentos de la auditoria informatica
Fundamentos de la auditoria informaticaFundamentos de la auditoria informatica
Fundamentos de la auditoria informatica
mppc
 
Proceso de la auditoria de sistemas ti
Proceso de la auditoria de sistemas tiProceso de la auditoria de sistemas ti
Proceso de la auditoria de sistemas ti
Jose Alvarado Robles
 
Analisis y-diseño-farmacia-ximena
Analisis y-diseño-farmacia-ximenaAnalisis y-diseño-farmacia-ximena
Analisis y-diseño-farmacia-ximena
Milton Siles
 
Formato marc 21 terminos y definiciones
Formato marc 21 terminos y definicionesFormato marc 21 terminos y definiciones
Formato marc 21 terminos y definiciones
Exagono Bibliotecario
 
Walmart sales forecast
Walmart sales forecastWalmart sales forecast
Walmart sales forecast
Anurag Mukhopadhyay
 

La actualidad más candente (14)

Cuestionario e business
Cuestionario e businessCuestionario e business
Cuestionario e business
 
Arquitectura Empresarial de referencia para Biblioteca Digital
Arquitectura Empresarial de referencia para Biblioteca DigitalArquitectura Empresarial de referencia para Biblioteca Digital
Arquitectura Empresarial de referencia para Biblioteca Digital
 
Normas generales para la auditoría de sistemas de información
Normas generales para la auditoría de sistemas de informaciónNormas generales para la auditoría de sistemas de información
Normas generales para la auditoría de sistemas de información
 
Arboles y reglas
Arboles y reglasArboles y reglas
Arboles y reglas
 
Metadatos
MetadatosMetadatos
Metadatos
 
proyecto de automatizacion de biblioteca de la facultad de ciencias economica...
proyecto de automatizacion de biblioteca de la facultad de ciencias economica...proyecto de automatizacion de biblioteca de la facultad de ciencias economica...
proyecto de automatizacion de biblioteca de la facultad de ciencias economica...
 
Mcvs ad-05 documento de analisis y diseño de cus
Mcvs ad-05 documento de analisis y diseño de cusMcvs ad-05 documento de analisis y diseño de cus
Mcvs ad-05 documento de analisis y diseño de cus
 
Instrumentos auditoria informatica
Instrumentos auditoria informaticaInstrumentos auditoria informatica
Instrumentos auditoria informatica
 
Google Analytics for Dummies
Google Analytics for DummiesGoogle Analytics for Dummies
Google Analytics for Dummies
 
Fundamentos de la auditoria informatica
Fundamentos de la auditoria informaticaFundamentos de la auditoria informatica
Fundamentos de la auditoria informatica
 
Proceso de la auditoria de sistemas ti
Proceso de la auditoria de sistemas tiProceso de la auditoria de sistemas ti
Proceso de la auditoria de sistemas ti
 
Analisis y-diseño-farmacia-ximena
Analisis y-diseño-farmacia-ximenaAnalisis y-diseño-farmacia-ximena
Analisis y-diseño-farmacia-ximena
 
Formato marc 21 terminos y definiciones
Formato marc 21 terminos y definicionesFormato marc 21 terminos y definiciones
Formato marc 21 terminos y definiciones
 
Walmart sales forecast
Walmart sales forecastWalmart sales forecast
Walmart sales forecast
 

Similar a Caso ciencia de datos libreria iztaccihuatl mauricio figueroa

202005 rrg proyecto individual con evaluacion por pares
202005 rrg proyecto individual con evaluacion por pares202005 rrg proyecto individual con evaluacion por pares
202005 rrg proyecto individual con evaluacion por pares
RENE RGUEZ GLEZ
 
evaluacion por pares
evaluacion por paresevaluacion por pares
evaluacion por pares
Jonathan Hurtado
 
Utilizando la ciencia de datos en una organizacion
Utilizando la ciencia de datos en una organizacionUtilizando la ciencia de datos en una organizacion
Utilizando la ciencia de datos en una organizacion
Alejandro Uribe Rodriguez
 
Aplicando Ciencia de Datos en una Organización
Aplicando Ciencia de Datos en una OrganizaciónAplicando Ciencia de Datos en una Organización
Aplicando Ciencia de Datos en una Organización
CarlosMacarlup
 
Trabajo de pares
Trabajo de paresTrabajo de pares
Trabajo de pares
matiasgatica9
 
Erdozain, Diego.pdf
Erdozain, Diego.pdfErdozain, Diego.pdf
Erdozain, Diego.pdf
DiegoErdozainNavarro
 
Propuesta PROYECTO Iztaccíhuatl
Propuesta PROYECTO IztaccíhuatlPropuesta PROYECTO Iztaccíhuatl
Propuesta PROYECTO Iztaccíhuatl
Diego Avendaño
 
Aplicación de La ciencia de datos en una Organización
Aplicación de La ciencia de datos en una OrganizaciónAplicación de La ciencia de datos en una Organización
Aplicación de La ciencia de datos en una Organización
Fernando Aguada
 
Practica de metodologías para proyectos de ciencia de datos
Practica de metodologías para proyectos de ciencia de datosPractica de metodologías para proyectos de ciencia de datos
Practica de metodologías para proyectos de ciencia de datos
AngelGalindoQuintero
 
Proyecto herramientas para el análisis de big data
Proyecto herramientas para el análisis de big dataProyecto herramientas para el análisis de big data
Proyecto herramientas para el análisis de big data
MarcoPoloSanchez1
 
edx caso.docx
edx caso.docxedx caso.docx
edx caso.docx
EduardoCruzCastro1
 
Ciencia de datos
Ciencia de datosCiencia de datos
Ciencia de datos
Alejandro Hinojosa Medina
 
Reporte_practica_2.pdf
Reporte_practica_2.pdfReporte_practica_2.pdf
Reporte_practica_2.pdf
Juan José Triviño
 
Aplicando la Ciencia de Datos en una organización
Aplicando la Ciencia de Datos en una organización Aplicando la Ciencia de Datos en una organización
Aplicando la Ciencia de Datos en una organización
JenniferTorres155
 
Proyecto evaluacion entre_pares_marco_polo_sanchez_farfan
Proyecto evaluacion entre_pares_marco_polo_sanchez_farfanProyecto evaluacion entre_pares_marco_polo_sanchez_farfan
Proyecto evaluacion entre_pares_marco_polo_sanchez_farfan
MarcoPoloSanchez1
 
Accesibilidad web de Librerias en México
Accesibilidad web de Librerias en MéxicoAccesibilidad web de Librerias en México
Accesibilidad web de Librerias en México
Shizuky Himekane
 
Trabajo entre pares
Trabajo entre paresTrabajo entre pares
Trabajo entre pares
danielavalenciacebal
 
Recomendador de artículos científicos basado en metadatos de repositorios dig...
Recomendador de artículos científicos basado en metadatos de repositorios dig...Recomendador de artículos científicos basado en metadatos de repositorios dig...
Recomendador de artículos científicos basado en metadatos de repositorios dig...
Ricard de la Vega
 
Evaluacion entre pares - Ciencia de datos.
Evaluacion entre pares - Ciencia de datos.Evaluacion entre pares - Ciencia de datos.
Evaluacion entre pares - Ciencia de datos.
HugoCastro854432
 
Proyecto individual - Introducción a la ciencia de datos
Proyecto individual - Introducción a la ciencia de datosProyecto individual - Introducción a la ciencia de datos
Proyecto individual - Introducción a la ciencia de datos
RebecaHernandez59
 

Similar a Caso ciencia de datos libreria iztaccihuatl mauricio figueroa (20)

202005 rrg proyecto individual con evaluacion por pares
202005 rrg proyecto individual con evaluacion por pares202005 rrg proyecto individual con evaluacion por pares
202005 rrg proyecto individual con evaluacion por pares
 
evaluacion por pares
evaluacion por paresevaluacion por pares
evaluacion por pares
 
Utilizando la ciencia de datos en una organizacion
Utilizando la ciencia de datos en una organizacionUtilizando la ciencia de datos en una organizacion
Utilizando la ciencia de datos en una organizacion
 
Aplicando Ciencia de Datos en una Organización
Aplicando Ciencia de Datos en una OrganizaciónAplicando Ciencia de Datos en una Organización
Aplicando Ciencia de Datos en una Organización
 
Trabajo de pares
Trabajo de paresTrabajo de pares
Trabajo de pares
 
Erdozain, Diego.pdf
Erdozain, Diego.pdfErdozain, Diego.pdf
Erdozain, Diego.pdf
 
Propuesta PROYECTO Iztaccíhuatl
Propuesta PROYECTO IztaccíhuatlPropuesta PROYECTO Iztaccíhuatl
Propuesta PROYECTO Iztaccíhuatl
 
Aplicación de La ciencia de datos en una Organización
Aplicación de La ciencia de datos en una OrganizaciónAplicación de La ciencia de datos en una Organización
Aplicación de La ciencia de datos en una Organización
 
Practica de metodologías para proyectos de ciencia de datos
Practica de metodologías para proyectos de ciencia de datosPractica de metodologías para proyectos de ciencia de datos
Practica de metodologías para proyectos de ciencia de datos
 
Proyecto herramientas para el análisis de big data
Proyecto herramientas para el análisis de big dataProyecto herramientas para el análisis de big data
Proyecto herramientas para el análisis de big data
 
edx caso.docx
edx caso.docxedx caso.docx
edx caso.docx
 
Ciencia de datos
Ciencia de datosCiencia de datos
Ciencia de datos
 
Reporte_practica_2.pdf
Reporte_practica_2.pdfReporte_practica_2.pdf
Reporte_practica_2.pdf
 
Aplicando la Ciencia de Datos en una organización
Aplicando la Ciencia de Datos en una organización Aplicando la Ciencia de Datos en una organización
Aplicando la Ciencia de Datos en una organización
 
Proyecto evaluacion entre_pares_marco_polo_sanchez_farfan
Proyecto evaluacion entre_pares_marco_polo_sanchez_farfanProyecto evaluacion entre_pares_marco_polo_sanchez_farfan
Proyecto evaluacion entre_pares_marco_polo_sanchez_farfan
 
Accesibilidad web de Librerias en México
Accesibilidad web de Librerias en MéxicoAccesibilidad web de Librerias en México
Accesibilidad web de Librerias en México
 
Trabajo entre pares
Trabajo entre paresTrabajo entre pares
Trabajo entre pares
 
Recomendador de artículos científicos basado en metadatos de repositorios dig...
Recomendador de artículos científicos basado en metadatos de repositorios dig...Recomendador de artículos científicos basado en metadatos de repositorios dig...
Recomendador de artículos científicos basado en metadatos de repositorios dig...
 
Evaluacion entre pares - Ciencia de datos.
Evaluacion entre pares - Ciencia de datos.Evaluacion entre pares - Ciencia de datos.
Evaluacion entre pares - Ciencia de datos.
 
Proyecto individual - Introducción a la ciencia de datos
Proyecto individual - Introducción a la ciencia de datosProyecto individual - Introducción a la ciencia de datos
Proyecto individual - Introducción a la ciencia de datos
 

Último

Comunidades virtuales de aprendizaje o educativas E-LEARNING.pdf
Comunidades virtuales de aprendizaje  o educativas E-LEARNING.pdfComunidades virtuales de aprendizaje  o educativas E-LEARNING.pdf
Comunidades virtuales de aprendizaje o educativas E-LEARNING.pdf
brayansangar73
 
Que es una independización de inmueble o predio
Que es una independización de inmueble o predioQue es una independización de inmueble o predio
Que es una independización de inmueble o predio
laguilart
 
10 colonias - Análisis socio-demográfico 2024.pdf
10 colonias - Análisis socio-demográfico 2024.pdf10 colonias - Análisis socio-demográfico 2024.pdf
10 colonias - Análisis socio-demográfico 2024.pdf
IrapuatoCmovamos
 
TEMA 10_PROBABILIDADES_UCSM-Semana 12-FASE III.pptx
TEMA 10_PROBABILIDADES_UCSM-Semana 12-FASE III.pptxTEMA 10_PROBABILIDADES_UCSM-Semana 12-FASE III.pptx
TEMA 10_PROBABILIDADES_UCSM-Semana 12-FASE III.pptx
kdorianmen210
 
U3 y U4 PUD paquete contable - Tercero- nuevo formato.docx
U3 y U4 PUD paquete contable - Tercero- nuevo formato.docxU3 y U4 PUD paquete contable - Tercero- nuevo formato.docx
U3 y U4 PUD paquete contable - Tercero- nuevo formato.docx
ManoloCarrillo
 
DEFENSA NACIONAL.ppt muy fácil de entender
DEFENSA NACIONAL.ppt muy fácil de entenderDEFENSA NACIONAL.ppt muy fácil de entender
DEFENSA NACIONAL.ppt muy fácil de entender
mvargasleveau
 
MI CECTOR POSTE BLANCO - Paián .pdf
MI  CECTOR  POSTE  BLANCO - Paián   .pdfMI  CECTOR  POSTE  BLANCO - Paián   .pdf
MI CECTOR POSTE BLANCO - Paián .pdf
GustavoTello19
 
04 capital interes simple.pdf de la clase métodos cuantitativos
04 capital interes simple.pdf de la clase métodos cuantitativos04 capital interes simple.pdf de la clase métodos cuantitativos
04 capital interes simple.pdf de la clase métodos cuantitativos
MarcoPolo545324
 
ACOMPAÑAMIENTO INTEGRAL DE VALORES .pptx
ACOMPAÑAMIENTO INTEGRAL DE VALORES .pptxACOMPAÑAMIENTO INTEGRAL DE VALORES .pptx
ACOMPAÑAMIENTO INTEGRAL DE VALORES .pptx
MelanieYuksselleCarr
 
Estadísticas y Situación Dengue Iquitos 2022
Estadísticas y Situación Dengue Iquitos 2022Estadísticas y Situación Dengue Iquitos 2022
Estadísticas y Situación Dengue Iquitos 2022
bufalo421
 
Informe de violencia mayo 2024 - Multigremial Mayo.pdf
Informe de violencia mayo 2024 - Multigremial Mayo.pdfInforme de violencia mayo 2024 - Multigremial Mayo.pdf
Informe de violencia mayo 2024 - Multigremial Mayo.pdf
Emisor Digital
 
contraguerrilla.pdf sobre anti emboscadas
contraguerrilla.pdf sobre anti emboscadascontraguerrilla.pdf sobre anti emboscadas
contraguerrilla.pdf sobre anti emboscadas
DieguinhoSalazar
 
LINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIO
LINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIOLINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIO
LINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIO
AaronPleitez
 
Sistema informatico, power point asir 1 curso
Sistema informatico, power point asir 1 cursoSistema informatico, power point asir 1 curso
Sistema informatico, power point asir 1 curso
NereaMolina10
 
3-Modelamiento de Procesos usando BPMN.ppt
3-Modelamiento de Procesos usando BPMN.ppt3-Modelamiento de Procesos usando BPMN.ppt
3-Modelamiento de Procesos usando BPMN.ppt
nahumrondanurbano
 
sistema paralingüística fhdjsjsbsnnssnnsbs
sistema paralingüística fhdjsjsbsnnssnnsbssistema paralingüística fhdjsjsbsnnssnnsbs
sistema paralingüística fhdjsjsbsnnssnnsbs
SantiagoMejia99
 
Obligaciones_de_los_Municipios_y_Departamentos_en_los_Determinantes_Ambiental...
Obligaciones_de_los_Municipios_y_Departamentos_en_los_Determinantes_Ambiental...Obligaciones_de_los_Municipios_y_Departamentos_en_los_Determinantes_Ambiental...
Obligaciones_de_los_Municipios_y_Departamentos_en_los_Determinantes_Ambiental...
defola5717
 
REPORTE DE HOMICIDIO DOLOSO-MAYO 2024.pdf
REPORTE DE HOMICIDIO DOLOSO-MAYO 2024.pdfREPORTE DE HOMICIDIO DOLOSO-MAYO 2024.pdf
REPORTE DE HOMICIDIO DOLOSO-MAYO 2024.pdf
IrapuatoCmovamos
 
Minería de Datos e IA Conceptos, Fundamentos y Aplicaciones.pdf
Minería de Datos e IA  Conceptos, Fundamentos y Aplicaciones.pdfMinería de Datos e IA  Conceptos, Fundamentos y Aplicaciones.pdf
Minería de Datos e IA Conceptos, Fundamentos y Aplicaciones.pdf
MedTechBiz
 
e learning^.pptxdieguearmandozuñiga. Comhot
e learning^.pptxdieguearmandozuñiga. Comhote learning^.pptxdieguearmandozuñiga. Comhot
e learning^.pptxdieguearmandozuñiga. Comhot
diegozuniga768
 

Último (20)

Comunidades virtuales de aprendizaje o educativas E-LEARNING.pdf
Comunidades virtuales de aprendizaje  o educativas E-LEARNING.pdfComunidades virtuales de aprendizaje  o educativas E-LEARNING.pdf
Comunidades virtuales de aprendizaje o educativas E-LEARNING.pdf
 
Que es una independización de inmueble o predio
Que es una independización de inmueble o predioQue es una independización de inmueble o predio
Que es una independización de inmueble o predio
 
10 colonias - Análisis socio-demográfico 2024.pdf
10 colonias - Análisis socio-demográfico 2024.pdf10 colonias - Análisis socio-demográfico 2024.pdf
10 colonias - Análisis socio-demográfico 2024.pdf
 
TEMA 10_PROBABILIDADES_UCSM-Semana 12-FASE III.pptx
TEMA 10_PROBABILIDADES_UCSM-Semana 12-FASE III.pptxTEMA 10_PROBABILIDADES_UCSM-Semana 12-FASE III.pptx
TEMA 10_PROBABILIDADES_UCSM-Semana 12-FASE III.pptx
 
U3 y U4 PUD paquete contable - Tercero- nuevo formato.docx
U3 y U4 PUD paquete contable - Tercero- nuevo formato.docxU3 y U4 PUD paquete contable - Tercero- nuevo formato.docx
U3 y U4 PUD paquete contable - Tercero- nuevo formato.docx
 
DEFENSA NACIONAL.ppt muy fácil de entender
DEFENSA NACIONAL.ppt muy fácil de entenderDEFENSA NACIONAL.ppt muy fácil de entender
DEFENSA NACIONAL.ppt muy fácil de entender
 
MI CECTOR POSTE BLANCO - Paián .pdf
MI  CECTOR  POSTE  BLANCO - Paián   .pdfMI  CECTOR  POSTE  BLANCO - Paián   .pdf
MI CECTOR POSTE BLANCO - Paián .pdf
 
04 capital interes simple.pdf de la clase métodos cuantitativos
04 capital interes simple.pdf de la clase métodos cuantitativos04 capital interes simple.pdf de la clase métodos cuantitativos
04 capital interes simple.pdf de la clase métodos cuantitativos
 
ACOMPAÑAMIENTO INTEGRAL DE VALORES .pptx
ACOMPAÑAMIENTO INTEGRAL DE VALORES .pptxACOMPAÑAMIENTO INTEGRAL DE VALORES .pptx
ACOMPAÑAMIENTO INTEGRAL DE VALORES .pptx
 
Estadísticas y Situación Dengue Iquitos 2022
Estadísticas y Situación Dengue Iquitos 2022Estadísticas y Situación Dengue Iquitos 2022
Estadísticas y Situación Dengue Iquitos 2022
 
Informe de violencia mayo 2024 - Multigremial Mayo.pdf
Informe de violencia mayo 2024 - Multigremial Mayo.pdfInforme de violencia mayo 2024 - Multigremial Mayo.pdf
Informe de violencia mayo 2024 - Multigremial Mayo.pdf
 
contraguerrilla.pdf sobre anti emboscadas
contraguerrilla.pdf sobre anti emboscadascontraguerrilla.pdf sobre anti emboscadas
contraguerrilla.pdf sobre anti emboscadas
 
LINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIO
LINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIOLINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIO
LINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIO
 
Sistema informatico, power point asir 1 curso
Sistema informatico, power point asir 1 cursoSistema informatico, power point asir 1 curso
Sistema informatico, power point asir 1 curso
 
3-Modelamiento de Procesos usando BPMN.ppt
3-Modelamiento de Procesos usando BPMN.ppt3-Modelamiento de Procesos usando BPMN.ppt
3-Modelamiento de Procesos usando BPMN.ppt
 
sistema paralingüística fhdjsjsbsnnssnnsbs
sistema paralingüística fhdjsjsbsnnssnnsbssistema paralingüística fhdjsjsbsnnssnnsbs
sistema paralingüística fhdjsjsbsnnssnnsbs
 
Obligaciones_de_los_Municipios_y_Departamentos_en_los_Determinantes_Ambiental...
Obligaciones_de_los_Municipios_y_Departamentos_en_los_Determinantes_Ambiental...Obligaciones_de_los_Municipios_y_Departamentos_en_los_Determinantes_Ambiental...
Obligaciones_de_los_Municipios_y_Departamentos_en_los_Determinantes_Ambiental...
 
REPORTE DE HOMICIDIO DOLOSO-MAYO 2024.pdf
REPORTE DE HOMICIDIO DOLOSO-MAYO 2024.pdfREPORTE DE HOMICIDIO DOLOSO-MAYO 2024.pdf
REPORTE DE HOMICIDIO DOLOSO-MAYO 2024.pdf
 
Minería de Datos e IA Conceptos, Fundamentos y Aplicaciones.pdf
Minería de Datos e IA  Conceptos, Fundamentos y Aplicaciones.pdfMinería de Datos e IA  Conceptos, Fundamentos y Aplicaciones.pdf
Minería de Datos e IA Conceptos, Fundamentos y Aplicaciones.pdf
 
e learning^.pptxdieguearmandozuñiga. Comhot
e learning^.pptxdieguearmandozuñiga. Comhote learning^.pptxdieguearmandozuñiga. Comhot
e learning^.pptxdieguearmandozuñiga. Comhot
 

Caso ciencia de datos libreria iztaccihuatl mauricio figueroa

  • 2. Caso Librería Iztaccihuatl Metodologías para proyectos de ciencias de datos Fecha Creación 21-01-2021 Página N°: 2 de 16 Clasificación: Práctica con evaluación entre pares Dirigido a: Pares INDICE 1 INTRODUCCIÓN .....................................................................................................................................................3 2 COMPRENSIÓN DEL NEGOCIO.......................................................................................................................3 2.1 Situación Actual...................................................................................................................................................5 2.1.1 KPI Calidad de Libros Ofertados según Rating...............................................................................5 2.1.2 KPI porcentaje de libros top de mayor por clasificación............................................................6 2.1.3 KPI cantidad de votos de clientes por libro .....................................................................................6 2.2 Propuesta e hipótesis del proyecto ...........................................................................................................7 3 COMPRENSIÓN DE LOS DATOS.....................................................................................................................7 3.1 Acerca de la fuente de datos........................................................................................................................7 3.2 Relacionamiento de los datos ...................................................................................................................10 3.3 Variable Objetivo .............................................................................................................................................10 4 PREPARACIÓN DE LOS DATOS .................................................................................................................... 11 4.1 Corrección de errores en la base de datos.........................................................................................11 4.2 Selección de campos .....................................................................................................................................12 4.3 Transformación de datos .............................................................................................................................13 5 MODELADO........................................................................................................................................................... 13 6 EVALUACIÓN......................................................................................................................................................... 14 7 DESPLIEGUE ........................................................................................................................................................... 15 8 CONCLUSIÓN GENERAL .................................................................................................................................. 16 Preparado por: Mauricio Figueroa Colarte
  • 3. Caso Librería Iztaccihuatl Metodologías para proyectos de ciencias de datos Fecha Creación 21-01-2021 Página N°: 3 de 16 Clasificación: Práctica con evaluación entre pares Dirigido a: Pares 1 INTRODUCCIÓN La problemática se da en el ámbito de la mejora de resultados de la Librería Iztaccihuatl, ubicada en la ciudad de Monterrey, Nuevo León, México. Actualmente la librería cuenta con un alto prestigio por la calidad de material bibliográfico que ofrece a sus clientes y además un servicio de atención de alto nivel. Sin embargo, los Ejecutivos de esta organización han decidido desarrollar un proyecto basado en ciencia de datos para mejorar sus indicadores de desempeño (KPI’s) y a la vez desarrollar una mejor estrategia en la toma de decisiones. En base al contexto descrito anteriormente, el principal objetivo de este proyecto es analizar fuentes de información externas e internas de la organización a través de herramientas computacionales para generar un modelo basado en Ciencia de Datos como apoyo a la toma de decisiones. Las herramientas tecnológicas a aplicar serán capaces de procesar fuentes de información estructuradas para realiza análisis descriptivo que permita determinar el estado actual y por otra parte proponer un modelo predictivo implementado con Machine Learning, con apoyo en la metodología CRISP-DM, para predecir anticipadamente si determinados libros podrían llegar a estar dentro de los top 20, lo cual asegurará una mejor satisfacción a los clientes y más ventas. 2 COMPRENSIÓN DEL NEGOCIO En esta sección se desarrolla la comprensión del negocio, que corresponderá a la primera etapa de un primer ciclo de la metodología CRISP-DM (Cross Industry Standard Process for Data Mining) para el desarrollo del proyecto de Ciencia de Datos aplicada al pronóstico de libros top de ventas de la Librería Iztaccihuatl. Como contexto de negocio, la librería Iztaccihuatl pertenece al conglomerado de librerías EDIMSA con asiento principal en Monterrey, Estado Nuevo León, México. Tiene sucursales en Nuevo León, Coahuila, Quintana Roo y Tamaulipas. Preparado por: Mauricio Figueroa Colarte
  • 4. Caso Librería Iztaccihuatl Metodologías para proyectos de ciencias de datos Fecha Creación 21-01-2021 Página N°: 4 de 16 Clasificación: Práctica con evaluación entre pares Dirigido a: Pares Misión Hoy, con de más de 57 años en el mercado literario, reafirmamos nuestro compromiso con la comunidad de crear experiencias únicas, impulsando la lectura, la cultura y la educación a nivel nacional. Visión Ser líderes en la distribución y comercialización de material bibliográfico a nivel nacional y ser una referencia cultural y de lectura mediante la difusión y apoyos a editoriales, autores, asociaciones y eventos; siempre pensando en nuestra responsabilidad social hacia la comunidad. Valores • Integridad • Ética • Respeto • Innovación • Servicio al cliente • Trabajo en equipo En lo sucesivo cada sección de este documento corresponderá al desarrollo de cada una de las etapas de la metodología (Entendimiento de los Datos, Preparación de los Datos, Modelado, Evaluación y Despliegue). Preparado por: Mauricio Figueroa Colarte
  • 5. Caso Librería Iztaccihuatl Metodologías para proyectos de ciencias de datos Fecha Creación 21-01-2021 Página N°: 5 de 16 Clasificación: Práctica con evaluación entre pares Dirigido a: Pares 2.1 Situación Actual Actualmente la Librería Iztaccihuatl cuenta con una serie de sistemas transaccionales que permiten llevar a cabo su operación diaria, con los cuales, las diversas unidades del negocio conviven, atienden y resuelven las peticiones que se generan de forma interna y externa. Particularmente, existen datos que dan cuenta de los principales KPIs actuales y que requieren ser mejorados con este proyecto 2.1.1 KPI Calidad de Libros Ofertados según Rating Preparado por: Mauricio Figueroa Colarte
  • 6. Caso Librería Iztaccihuatl Metodologías para proyectos de ciencias de datos Fecha Creación 21-01-2021 Página N°: 6 de 16 Clasificación: Práctica con evaluación entre pares Dirigido a: Pares 2.1.2 KPI porcentaje de libros top de mayor por clasificación 2.1.3 KPI cantidad de votos de clientes por libro Preparado por: Mauricio Figueroa Colarte
  • 7. Caso Librería Iztaccihuatl Metodologías para proyectos de ciencias de datos Fecha Creación 21-01-2021 Página N°: 7 de 16 Clasificación: Práctica con evaluación entre pares Dirigido a: Pares 2.2 Propuesta e hipótesis del proyecto Dado los KPIs definidos, las estrategias a implementar para el logro de los objetivos y los datos con los que se cuenta, se propone mejorar el desempeño de la librería con un modelo predictivo supervisado, que permita pronosticar si un determinado libro dentro de los prospectos a ofrecer, tiene posibilidad de estar dentro de los top 20 más vendidos con una exactitud promedio de al menos un 90%. En sentido podremos definir una variable objetivo dicotómica que determine “TOP 20” (clase positiva) y “No TOP 20” (clase negativa) 3 COMPRENSIÓN DE LOS DATOS Los datos que proveen la información necesaria para efectuar este estudio, se puede clasificar en 4 grupos: 1) Catastro de libros: Inventario de libros que se posee para la venta 2) Libros top: Libros rankeados dentro de lo top 20 más vendidos de acuerdo a una clasificación general. 3) Votaciones de los libros: Libros más votados por los clientes dentro del sitio web de la librería 4) Recomendaciones por cliente: Recomendaciones que cada cliente o usuario realiza en el sitio web sobre libros para leer. 3.1 Acerca de la fuente de datos La fuente de datos son archivos separados por comas según la siguiente descripción: El archivo “books.csv” contiene los datos generales de cada libro existente en la librería y además menciona el promedio de clasificación de cada libro de acuerdo a las votaciones y compras del cliente. Su estructura es la siguiente: Preparado por: Mauricio Figueroa Colarte
  • 8. Caso Librería Iztaccihuatl Metodologías para proyectos de ciencias de datos Fecha Creación 21-01-2021 Página N°: 8 de 16 Clasificación: Práctica con evaluación entre pares Dirigido a: Pares • Id - Identificador del registro • Book Id - Identificador del libro • Number Editions - Número de ediciones • ISBN - Clave estándar internacional del libro • ISBN13 - Clave estándar extendida internacional del libro • Authors - Autor del libro • Original Publication - Fecha de publicación • Original Title - Título original del libro • Title - Título del libro • Language Code - Clave de idioma del libro • Average Rating - Promedio de la clasificación del libro • Image - Enlace a la imagen de la portada del libro • Small Image - Enlace a la imagen en versión optimizada de la portada del libro. El archivo “top_books.csv” contiene el top 20 de los libros más vendidos de acuerdo a una clasificación general. Su estructura es la siguiente: • Position - Posición del libro en la clasificación del libro • ISBN - Clave estándar extendida internacional del libro • Title - Título del libro • Author - Autor del libro • Imprint - Editorial • Publisher Group - Grupo Editorial Preparado por: Mauricio Figueroa Colarte
  • 9. Caso Librería Iztaccihuatl Metodologías para proyectos de ciencias de datos Fecha Creación 21-01-2021 Página N°: 9 de 16 Clasificación: Práctica con evaluación entre pares Dirigido a: Pares • Volume - Volumen de ventas hasta el 2010 • Value - Ventas determinadas por el volumen • RRP - Precio recomendado para minoristas • ASP - Precio promedio para venta • Binding - Tipo de encuadernación • Publ Date - Fecha de publicación • Product Class - Clasificación del libro • Classification - Clasificación General del libro El archivo “ratings.csv” contiene los datos de los libros más votados por los clientes dentro del sitio web de la librería. Su estructura es la siguiente: • Book Id - Identificador del libro • User Id - Identificador del cliente/usuario que clasifico un libro • Rating - Nivel de clasificación del libro. El archivo “to_read.csv” contiene las recomendaciones que cada cliente o usuario realiza en el sitio web sobre libros para leer. Su estructura es la siguiente: • User Id - Identificador del cliente/usuario que clasifico un libro • Book Id - Identificador del libro Preparado por: Mauricio Figueroa Colarte
  • 10. Caso Librería Iztaccihuatl Metodologías para proyectos de ciencias de datos Fecha Creación 21-01-2021 Página N°: 10 de 16 Clasificación: Práctica con evaluación entre pares Dirigido a: Pares 3.2 Relacionamiento de los datos Los archivos entregados se relacionan de la siguiente forma para un entendimiento más integral de la data 3.3 Variable Objetivo La variable de supervisión o clase objetivo para este proyecto de ciencia de datos será el campo denominado TOP 20 que se identificará en la fuente de datos con sus valores posibles “SI TOP 20” y “NO TOP 20”. Preparado por: Mauricio Figueroa Colarte
  • 11. Caso Librería Iztaccihuatl Metodologías para proyectos de ciencias de datos Fecha Creación 21-01-2021 Página N°: 11 de 16 Clasificación: Práctica con evaluación entre pares Dirigido a: Pares 4 PREPARACIÓN DE LOS DATOS Como se vio en la sección anterior, al considerarse datos integrados y que serán la clave para obtener buenos resultados del pronóstico, se debe realizar un proceso de limpieza y estandarización de los datos a utilizar. Durante el depurado y limpieza de la base de datos se espera poder gestionar los valores perdidos y/o nulos y manejar las inconsistencias presentes y/o campos incompletos que pudieran presentarse 4.1 Corrección de errores en la base de datos La primera tarea dentro del pre-procesamiento debería ser analizar los valores perdidos o nulos. Gracias a un análisis exploratorio preliminar realizado en Python se pueden encontrar algunos casos que se pueden abordar. Para el archivo books.csv Para el archivo top_books.csv Preparado por: Mauricio Figueroa Colarte
  • 12. Caso Librería Iztaccihuatl Metodologías para proyectos de ciencias de datos Fecha Creación 21-01-2021 Página N°: 12 de 16 Clasificación: Práctica con evaluación entre pares Dirigido a: Pares 4.2 Selección de campos Una vez estandarizado los campos y los datos, se debería proceder con la eliminación de aquellas variables que se consideran como no relevantes para el modelo a desarrollar, generalmente una primera aproximación se puede lograr a través de un análisis de correlación: Para el archivo books.csv Preparado por: Mauricio Figueroa Colarte
  • 13. Caso Librería Iztaccihuatl Metodologías para proyectos de ciencias de datos Fecha Creación 21-01-2021 Página N°: 13 de 16 Clasificación: Práctica con evaluación entre pares Dirigido a: Pares Para el archivo top_books.csv 4.3 Transformación de datos Junto con la reclasificación de datos presentada en las secciones anteriores, es importante que las variables categóricas sean transformadas a datos numéricos aplicando técnicas como: 1) Diseñar variables binarias o “dummies” para cada categoría de respuesta de una variable nominal. 2) De esta manera el “0” representa la inexistencia de la variable y el “1” la existencia de la misma, con lo que la variable toma así un sentido numérico. 3) En consecuencia, cada variable nominal estará representada en la base datos por tantas variables (campos o columnas) como categorías tenga (bins). 5 MODELADO En esta etapa se seleccionan se propone el uso técnicas de Machine Learning sobre los datos, el diseño de la evaluación, la construcción y evaluación del modelo a través de experimentos. La idea central de estos experimentos es hacer competir modelos considerados a priori como candidatos idóneos según el tipo de problema y luego evaluarlos para determinar cuál es el mejor para confirmar la hipótesis y solucionar la problemática de predicción de los libros top. Preparado por: Mauricio Figueroa Colarte
  • 14. Caso Librería Iztaccihuatl Metodologías para proyectos de ciencias de datos Fecha Creación 21-01-2021 Página N°: 14 de 16 Clasificación: Práctica con evaluación entre pares Dirigido a: Pares Según la investigación realizada respecto de los modelos planteados en el estado del arte, la mayoría de estos, sus variaciones aplican algoritmos supervisados sobre datos textuales y, es por eso que para la realización de los experimentos de evaluación se utilizarán los siguientes modelos de aprendizaje automático: KNN (K-Nearest Neighbors), Decision Tree, SVM (Support Vector Machine), Random Forest, Neural Network (Multi-Layer Perceptron), Naive Bayes, Logistic Regression y AdaBoost (Adaptive Boosting). 6 EVALUACIÓN La evaluación del rendimiento del modelo predictivo seleccionado, por lo que desde el conjunto de algoritmos del estado del arte presentados anteriormente se hará una evaluación entre ellos y se seleccionará el de mejor precisión, y una vez seleccionado el mejor algoritmo, se realizará la sensibilización de parámetros de éste para ajustarlo al máximo posible. La herramienta que se utilizará para la evaluación será la matriz de confusión como se muestra en la tabla, de la que se pueden obtener métricas que se utilizan comúnmente para evaluar el rendimiento de los modelos supervisados, como son: la exactitud predictiva (1) y el error de clasificación (2). Tabla 1: Matriz de confusión Clase Real Clase pronosticada Top 20 No Top 20 Top 20 VP (Verdaderos Positivos) FP (Falsos Positivos) No Top 20 FN (Falsos Negativos) VN (Verdaderos Negativos) (1) Exactitud = (2) Error = Otras métricas que son utilizadas y que permiten medir el rendimiento sobre cada una de las clases de manera independiente son la precisión (3) y la sensibilidad o recall (4), las cuales se definen a partir de la matriz de confusión de la siguiente forma: (3) Precisión = (4) Sensibilidad (recall) = La precisión (3) es una medida de la exactitud que determina, de los ejemplos clasificados como positivos, cuántos son clasificados correctamente. La sensibilidad o recall (4), es una medida de la Preparado por: Mauricio Figueroa Colarte
  • 15. Caso Librería Iztaccihuatl Metodologías para proyectos de ciencias de datos Fecha Creación 21-01-2021 Página N°: 15 de 16 Clasificación: Práctica con evaluación entre pares Dirigido a: Pares completitud o exactitud positiva que indica cuántos ejemplos de la clase positiva fueron clasificados correctamente. Para complementar los indicadores anteriores, se pueden expresar los resultados gráficamente para cada uno de los modelos generados en el espacio ROC (Receiver Operating Characteristic), usando la sensibilidad (Tasa de Verdaderos Positivos) y especificidad (Tasa de Falsos Positivos) promedio como parte de las coordenadas de cada modelo según muestra la siguiente figura, donde a mayor área bajo la curva mejor el modelo. 7 DESPLIEGUE En esta etapa el modelo deberá ponerse en producción una vez que los Ejecutivos tengan la certeza de que les agregará valor con el grado de exactitud buscado. Posteriormente, se deberá evaluar el impacto real en las ventas y los KPIs para determinar si es necesario mejorar el modelo o complementarlo con otro y comenzar un nuevo proyecto de ciencia de datos. Figura 2: Curva ROC Preparado por: Mauricio Figueroa Colarte
  • 16. Caso Librería Iztaccihuatl Metodologías para proyectos de ciencias de datos Fecha Creación 21-01-2021 Página N°: 16 de 16 Clasificación: Práctica con evaluación entre pares Dirigido a: Pares 8 CONCLUSIÓN GENERAL Según lo descrito en las secciones anterior, la librería Iztaccihuatl cuenta con datos apropiados que servirán de insumo para lograr un modelo predictivo de libros top utilizando la metodología CRISP-DM. Es altamente recomendable dedicar gran parte del tiempo del proyecto a la preparación de los datos, ya que, se asegurará mejor calidad para alimentar a los modelos matemáticos, y como consecuencia será más probable que obtengamos mejores métricas de exactitud y precisión. Luego de seleccionar el modelo que mejores resultados nos entregue, por ejemplo, Redes Neuronales Artificiales, antes de pasar a producción el modelo es altamente recomendable instaurar un proceso de marcha blanca donde se hagan predicciones en situaciones reales para validar en la realidad el modelo (scoring). En este sentido, es clave determinar si las clases de predicción Top 20 y No Top 20 son determinadas por el modelo con una alta precisión en forma independiente. Y finalmente, debemos recordar que el proceso de CRISP-DM es iterativo, por lo que, toda aquella retroalimentación que tengamos en producción deberá ser utilizada como insumo para mejorar continuamente el modelo. Preparado por: Mauricio Figueroa Colarte