EDX: Curso Herramientas para el Análisis de Big Data – Tecnológico de Monterrey PROYECTO INDIVIDUAL EVALUADO POR PARES Caso libreria iztaccihuatl Creado por: Paola Quiroz Alvarez Guayaquil - Ecuador
1. 1
Creado por: Paola Quiroz Alvarez
28 AGOSTO
Edx y Tecnológico de Monterrey
Curso: Herramientas para el Análisis de Big
Data
Aplicando la
Ciencia de Datos
en una
organización
2020
2. 2
Contenido
Aplicando la Ciencia de Datos en una organización.....................................................3
Introducción ..........................................................................................................3
Análisis..................................................................................................................3
Lenguaje De Programación.................................................................................5
Base de datos.....................................................................................................5
Tipo de Servicio en la nube.................................................................................5
Predicciones y Adecuaciones..............................................................................6
Conclusiones..........................................................................................................8
3. 3
Aplicando la Ciencia de Datos en una
organización
Introducción
La Librería Iztaccihuatl ubicada en la ciudad de Monterrey, Nuevo León, México ha
decidido desarrollar un proyecto basado en ciencia de datos para mejorar sus
indicadores de desempeño (KPI’s) y a la vez desarrollar una mejor estrategia en la toma
de decisiones.
El objetivo principal de este proyecto es identificar las herramientas necesarias para el
análisis; tipo de base de datos y servicios de la nube más adecuado para desarrollar un
modelo basado en Ciencia de Datos como apoyo a la toma de decisiones para la librería
mencionada. También identificaremos el lenguaje de programación para ciencia de datos
más apropiado para realizar el análisis, propondremos adecuaciones a las tablas para
tener mejores predicciones e identificaremos al menos tres predicciones con el diseño
de datos actual.
Análisis
Para el análisis tenemos 4 tablas que nos provee el caso de estudio que son:
El archivo “books” contiene los datos generales de cada libro existente en la
librería y además menciona el promedio de clasificación de cada libro de acuerdo
a las votaciones y compras del cliente.
El archivo “books” contiene los siguientes datos:
Id - Identificador del registro
Book Id - Identificador del libro
Number Editions - Número de ediciones
ISBN - Clave estándar internacional del libro
4. 4
ISBN13 - Clave estándar extendida internacional del libro
Authors - Autor del libro
Original Publication - Fecha de publicación
Original Title - Título original del libro
Title - Título del libro
Language Code - Clave de idioma del libro
Average Rating - Promedio de la clasificación del libro
Image - Enlace a la imagen de la portada del libro
Small Image - Enlace a la imagen en versión optimizada de la portada del libro.
El archivo “top_books” contiene el top 20 de los libros más vendidos de acuerdo a
una clasificación general.
El archivo “top_books” contiene los siguientes datos:
Position - Posición del libro en la clasificación del libro
ISBN - Clave estándar extendida internacional del libro
Title - Título del libro
Author - Autor del libro
Imprint - Editorial
Publisher Group - Grupo Editorial
Volume - Volumen de ventas hasta el 2010
Value - Ventas determinadas por el volumen
RRP - Precio recomendado para minoristas
ASP - Precio promedio para venta
Binding - Tipo de encuadernación
Publ Date - Fecha de publicación
Product Class - Clasificación del libro
Classification - Clasificación General del libro
El archivo “ratings” contiene los datos de los libros más votados por los clientes
dentro del sitio web de la librería.
El archivo “ratings” contiene los siguientes datos:
Book Id - Identificador del libro
User Id - Identificador del cliente/usuario que clasifico un libro
Rating - Nivel de clasificación del libro.
5. 5
El archivo “to_read” contiene las recomendaciones que cada cliente o usuario
realiza en el sitio web sobre libros para leer.
El archivo “to_read” contiene los siguientes datos:
User Id - Identificador del cliente/usuario que clasifico un libro
Book Id - Identificador del libro
Lenguaje De Programación
Existen dos lenguajes principales para el análisis de datos en ciencia de datos, hemos
preferido usar Python debido a la facilidad de programación, sobre todo fácil de entender
para principiantes. Y debido a que nos provee de reglas de estilos se puede escribir
código de forma más estandarizada de tal forma que sea más legible para los
compañeros que realizarán la evaluación de pares.
Otra razón es que el código en Python es multiplataforma por lo que podemos ejecutar
en diferentes sistemas operativos, lo que ayudará en caso que se necesite ejecutar en un
sistema operativo diferente al del creador.
Base de datos
Revisando los datos se detecta que corresponden a una base de datos relacional y para
alojar los análisis de los datos de la Librería Iztaccihuatl utilizaría también una base de
datos relacional, de preferencia usaría MySQL, que la obtengo en la nube por menor
costo.
Tipo de Servicio en la nube
Para el alcance de nuestro proyecto de ciencia de datos se prefiere usar PAAS (Platform
as a Service). Ya que esta modalidad nos permitirá desarrollar aplicaciones y servicios
con las herramientas que nos provee. Así mismo este tipo de servicios nos permitirá
6. 6
concentrarnos en nuestro proyecto de ciencia de datos, dejando al proveedor la
infraestructura física y su administración.
Predicciones y Adecuaciones
Con los datos proporcionados podemos realizar las siguiente predicciones:
Con ayuda de las recomendaciones en el archivo to_read relacionandolos a los
mejores calificados que están en el archivo ratings, podemos sacar los nombres de
los libros con mayor probabilidad de ser solicitados.
También esta información nos ayudaría a predecir si un nuevo libro tiene buena
probabilidad de ventas, si pertenece al mismo autor de libros que sean
recomendados y tengan mayor nivel de ventas.
Con ayuda de la tabla top_books podemos determinar que clasificación de libros
ha tenido mayor nivel de ventas y con ello podriamos predecir que nuevos libros
tendran buena probabilidad de ventas al pertenecer a esa clasificación. Más aun si
el autor tiene libros en la table to_read.
7. 7
Podemos recomendar también una mejora en el diseño de los archivos de datos, para
que incluyan la última fecha de ventas en el archivo books y la fecha de transacciones en
los archivos de ratings y to_read; y de esa forma poder realizar análisis periodales o
comparativos entre períodos. También incluir en la tabla principal de libros los datos
de ventas como cantidad y valor vendido, lo que nos ayudaría a tener kpi´s adicionales
para apoyar nuestros análisis y predicciones.
Las adecuaciones de las tablas que nos provee el caso de estudio serían:
El archivo “books” contiene los datos generales de cada libro existente en la
librería y además menciona el promedio de clasificación de cada libro de acuerdo
a las votaciones y compras del cliente.
Aumentar
LastSellDate.- Ultima fecha de venta
Volume - Volumen de ventas hasta el 2010
Value - Ventas determinadas por el volumen
El archivo “ratings” contiene los datos de los libros más votados por los clientes
dentro del sitio web de la librería.
Aumentar
Date.- Fecha de la votación
El archivo “to_read” contiene las recomendaciones que cada cliente o usuario
realiza en el sitio web sobre libros para leer.
Aumentar
Date.- Fecha de la recomendación
8. 8
Conclusiones
Aunque con los datos provistos podemos hacer ciertas predicciones, tendriamos mejores
oportunidades de predicción realizando las adecuaciones propuestas a las tablas que
nos ayudaran a tener informacion importante para realizar predicciones basadas en
tiempo.
También podemos recomendar como estrategia promocionar en la página web de la
Librería los nuevos libros que pertenezcan a los autores cuyos libros estan en la lista de
mas vendidos o de mas recomendados.