Proyecto Jaime Salinas

Aplicación de la Ciencia de Datos
“Librería Iztaccihuatl”
ELABORADO POR: Jaime N. Salinas Collao
Junio de 2020
Pág. 1

CONTENIDO
Introducción ……………………………………………………………………………………………. 3
Lenguaje de programación para realizar el análisis de datos……………………. 3
Predicciones que se podrían obtener de los datos…………………………………… 4
Adecuaciones sugeridas a los datos, para análisis predictivo…………………… 5
Tipo de base de datos para alojar el análisis de datos……………………………… 5
Tipo de servicio de la nube para alojar la información y el proyecto……….. 6
Conclusiones…………………………………………………………………………………………… 6
ANEXO: Modelado y despliegue (Análisis descriptivo)……………………………. 7
Pág. 2

Introducción
La Librería Iztaccihuatl ubicada en la ciudad de Monterrey, Nuevo León, México ha decidido
desarrollar un proyecto basada en ciencia de datos para mejorar sus indicadores de desempeño
y a la vez desarrollar una mejor estrategia en la toma de decisiones.
En un primer momento se realizo un análisis descriptivo con la información provista (books;
top_books; raitings; y to_read ) Te recomendamos utilizar la herramienta Python para analizar
los datos que se te proporcionan.
Ahora, identificamos las herramientas necesarias para el análisis; estructuras de datos y
servicios de la nube para desarrollar un modelo basado en Ciencia de Datos como apoyo a la
toma de decisiones para la empresa.
¿Qué lenguaje de programación para ciencia de datos
se utilizará para realizar el análisis de datos?
Lenguaje de programación para realizar el análisis de datos
Se utilizara Python, desde 1991 se ha convertido en un lenguaje
popular utilizado ampliamente en la comunidad de ciencia de datos, es fácil de aprender y
cuenta con una gama amplia de módulos. Robusto para el controlar flujos de ejecución y la
automatización de procesos.
Python encaja muy bien en el proceso de extracción, transformación y carga (ETL) de la ciencia
de datos. Para el aprendizaje automático (machine learning) junto a TensorFlow, la librería de
Google, hacen que Phyton sea una opción perfecta para esta área.
Pág. 3

¿Qué predicciones se podrían obtener de los datos ?
Predicciones que se podrían obtener de los datos
Utilizando Python, basados en la información y datos del análisis descriptivo podemos empezar
a obtener datos que son resultados de las funciones ejecutadas para un análisis predictivo,
entre las que podemos mencionar:
Regresión Lineal
La regresión lineal intenta calcular una linea recta que se ajuste lo mas posible al conjunto de
datos que disponemos. En nuestro caso podemos aplicarla a las ventas de los libros,
considerando de manera individual los diferentes autores, tipologías, recomendaciones,
idiomas y temporalidad. De esta forma podemos predecir la situación en adelante en cada uno
de los casos.
Regresión Multivariante
La regresión multivariante nos permite obtener predecir datos en función a mas de una
característica. En nuestro caso podemos considerar las ventas históricas incluyendo variables de
idioma y autor, todas ellas con escalas similares (normalizados). Será interesante la
comparativa de gráficos y datos de esta regresión respecto a la lineal, pues nos brindarán
recursos para enriquecer el análisis predictivo.
Regresión Polinómica
Cuando los datos disponibles no se ajustan a una linea recta, la regresión polinómica permite
ajustarlos a una curva mas, o menos compleja. Podremos utilizar este tipo de regresión luego
de ver la distribución de os datos de referencia. Un factor de error reducido, refleja que la curva
se ajusta a los datos de muestra pero no nos asegura la calidad de la predicción.
Pág. 4

Ejm. Regresión lineal y regresión múltiple
¿Qué adecuaciones se podría hacer a los datos
para poder realizar un análisis predictivo?
Adecuaciones sugeridas a los datos, para análisis predictivo
Se sugiere extraer y preparar listas y matrices para ejecutar las funciones que nos proveeran
datos para el análisis predictivo, mencionando pero no limitando a:
 Elaborar listados clasificadores para : tipología de Libros, precio, idioma y autor
 Matriz de ventas que incluya el día, mes, año, autor, precio, idioma y tipo de libro
 Relacionar las recomendaciones respecto a las ventas para extraer la matriz que incluya
cantidad de veces sugerido, mes de venta, mes de sugerencia, precio, autor, idioma y
tipo de libro
 Relacionar el ranking respecto a las ventas para extraer la matriz que incluya ranking,
mes de venta, mes de sugerencia, precio, autor, idioma y tipo de libro
 Establecer listas de referencia para calificar al autor, la tipología, el precio y el idioma
para generar datos de origen para regresiones multivariante.
Durante la ejecución de las funciones surgirán planteamientos y necesidad de datos de origen
en formatos específicos, para ello, deberemos moldear los datos fuentes para cubrir los
requerimientos.
¿Qué tipo de base de datos se utilizá
para alojar el análisis de los datos?
Tipo de base de datos para alojar el análisis de datos
Para almacenar toda la información de ventas, control de stock, información administrativa y
contable incluyendo todas las listas de referencia se recomienda utilizar una base de datos SQL.
Para almacenar el historial de consultas y vistas de libros por una parte y por otra, los perfiles
de los visitantes al sitio web, prospectos y clientes, se sugiere utilizar bases de datos No SQL, de
igual forma para mantener el registro de toda la actividad del sitio web.
Pág. 5

¿Qué tipo de servicio de la nube podría contratar
para alojar la información y el proyecto de ciencia de datos?
Tipo de servicio de la nube para alojar la información y el proyecto
Se contratará Slack para establecer un medio de comunicación transparente y transversal con
todo el equipo de trabajo y los ejecutivos de la librería.
HitLab sera utilizado cómo el repositorio de las versiones por las que vaya pasando el programa
en Python.
Para el almacenamiento de la información contrataremos Polybase para las bases SQL que se
enlazarán a Microsoft HDInsight que almacenarán las bases NoSQL.
Conclusiones
Definitivamente en la actualidad la ciencias de datos es un factor que marca la diferencia en el
futuro de las empresas, sobre todo, el análisis predictivo a través de los lenguajes cómo Python,
que brindan la posibilidad de procesar grandes cantidad de información. Por otra parte la
disponibilidad de infraestructura y tecnología en la nube le brindan a la mayoría de las
compañías la posibilidad de incluir la ciencia de datos dentro de sus modelos de negocio,
considerando además que a medida que pasa el tiempo los costos bajan y la escalabilidad es
prácticamente inmediata.
Bajo este escenario, la ética, responsabilidad, seriedad, objetividad de los científicos de datos
marcarán definitivamente la calidad en la obtención, procesamiento e interpretación de los
resultados y la inversión que realiza la “Librería Iztaccihuatl”se vera reflejada en las acciones y
decisiones oportunas de sus ejecutivos, que conducirán a la empresa, a conquistar mayor
participación en el segmento de mercado.
Pág. 6

Anexo: Modelado y despliegue (Análisis descriptivo)
Modelado
Para fines del presente proyecto el modelado de datos se realizó en base a estadística
descriptiva y frecuencias.
Libros por Idioma
Libros 10.000,00
Mínimo 1,00
Máximo 6.341,00
Promedio 384,62
Desviación estándar 1.269,43
Libros por Autor
Libros 10.000,00
Mínimo 1,00
Máximo 60,00
Promedio 2,14
Desviación estándar 3,41
Varianza 11,66
Rating a Libros
Cantidad 981.756,00
Mínimo 1,00
Máximo 53424,00
Promedio 25.616,76
Cantidad de Libros por Idioma
Libros 757.127,00
Mínimo 5,00
Máximo 555.166,00
Promedio 29.120,27
Cantidad de Libros por Autor
Libros 757.127,00
Mínimo 1,00
Máximo 9.284,00
Promedio 162,33
Desviación estándar 401,45
Varianza 161.166,10
Sugerencia de lectura de Libros
Cantidad 912.705,00
Mínimo 1,00
Máximo 53424,00
Promedio 27.668,98
Pág. 7

Despliegue
A continuación, presentamos la información analizada descriptivamente.
El 87,30% de libros se encuentran en inglés
8.730/10.000
Los libros en inglés, concentran el 90% del total
de stock disponible (681.884/757.127)
Mas del 25% de votaciones en rating entre 3 a5
puntos para libros en inglés.
8,7% de sugerencias para leer libros en inglés.
Mas de 825 mil sugerencias de lectura de libros
Libros en inglés por Autor
Pág. 8

que aun no están clasificados por idioma (84%)
Clasificación de libros más vendidos
Libros más vendidos por año
55,32% de los libros fueron publicados a partir
del año 2000
Pág. 9

Proyecto Jaime Salinas

Recomendados

Recomendados

Más contenido relacionado

Similar a Proyecto Jaime Salinas

Similar a Proyecto Jaime Salinas (20)

Último

Último (20)

Proyecto Jaime Salinas