SlideShare una empresa de Scribd logo
1 de 9
Descargar para leer sin conexión
Aplicación de la Ciencia de Datos
“Librería Iztaccihuatl”
ELABORADO POR: Jaime N. Salinas Collao
Junio de 2020
Pág. 1
CONTENIDO
Introducción ……………………………………………………………………………………………. 3
Lenguaje de programación para realizar el análisis de datos……………………. 3
Predicciones que se podrían obtener de los datos…………………………………… 4
Adecuaciones sugeridas a los datos, para análisis predictivo…………………… 5
Tipo de base de datos para alojar el análisis de datos……………………………… 5
Tipo de servicio de la nube para alojar la información y el proyecto……….. 6
Conclusiones…………………………………………………………………………………………… 6
ANEXO: Modelado y despliegue (Análisis descriptivo)……………………………. 7
Pág. 2
Introducción
La Librería Iztaccihuatl ubicada en la ciudad de Monterrey, Nuevo León, México ha decidido
desarrollar un proyecto basada en ciencia de datos para mejorar sus indicadores de desempeño
y a la vez desarrollar una mejor estrategia en la toma de decisiones.
En un primer momento se realizo un análisis descriptivo con la información provista (books;
top_books; raitings; y to_read ) Te recomendamos utilizar la herramienta Python para analizar
los datos que se te proporcionan.
Ahora, identificamos las herramientas necesarias para el análisis; estructuras de datos y
servicios de la nube para desarrollar un modelo basado en Ciencia de Datos como apoyo a la
toma de decisiones para la empresa.
¿Qué lenguaje de programación para ciencia de datos
se utilizará para realizar el análisis de datos?
Lenguaje de programación para realizar el análisis de datos
Se utilizara Python, desde 1991 se ha convertido en un lenguaje
popular utilizado ampliamente en la comunidad de ciencia de datos, es fácil de aprender y
cuenta con una gama amplia de módulos. Robusto para el controlar flujos de ejecución y la
automatización de procesos.
Python encaja muy bien en el proceso de extracción, transformación y carga (ETL) de la ciencia
de datos. Para el aprendizaje automático (machine learning) junto a TensorFlow, la librería de
Google, hacen que Phyton sea una opción perfecta para esta área.
Pág. 3
¿Qué predicciones se podrían obtener de los datos ?
Predicciones que se podrían obtener de los datos
Utilizando Python, basados en la información y datos del análisis descriptivo podemos empezar
a obtener datos que son resultados de las funciones ejecutadas para un análisis predictivo,
entre las que podemos mencionar:
Regresión Lineal
La regresión lineal intenta calcular una linea recta que se ajuste lo mas posible al conjunto de
datos que disponemos. En nuestro caso podemos aplicarla a las ventas de los libros,
considerando de manera individual los diferentes autores, tipologías, recomendaciones,
idiomas y temporalidad. De esta forma podemos predecir la situación en adelante en cada uno
de los casos.
Regresión Multivariante
La regresión multivariante nos permite obtener predecir datos en función a mas de una
característica. En nuestro caso podemos considerar las ventas históricas incluyendo variables de
idioma y autor, todas ellas con escalas similares (normalizados). Será interesante la
comparativa de gráficos y datos de esta regresión respecto a la lineal, pues nos brindarán
recursos para enriquecer el análisis predictivo.
Regresión Polinómica
Cuando los datos disponibles no se ajustan a una linea recta, la regresión polinómica permite
ajustarlos a una curva mas, o menos compleja. Podremos utilizar este tipo de regresión luego
de ver la distribución de os datos de referencia. Un factor de error reducido, refleja que la curva
se ajusta a los datos de muestra pero no nos asegura la calidad de la predicción.
Pág. 4
Ejm. Regresión lineal y regresión múltiple
¿Qué adecuaciones se podría hacer a los datos
para poder realizar un análisis predictivo?
Adecuaciones sugeridas a los datos, para análisis predictivo
Se sugiere extraer y preparar listas y matrices para ejecutar las funciones que nos proveeran
datos para el análisis predictivo, mencionando pero no limitando a:
 Elaborar listados clasificadores para : tipología de Libros, precio, idioma y autor
 Matriz de ventas que incluya el día, mes, año, autor, precio, idioma y tipo de libro
 Relacionar las recomendaciones respecto a las ventas para extraer la matriz que incluya
cantidad de veces sugerido, mes de venta, mes de sugerencia, precio, autor, idioma y
tipo de libro
 Relacionar el ranking respecto a las ventas para extraer la matriz que incluya ranking,
mes de venta, mes de sugerencia, precio, autor, idioma y tipo de libro
 Establecer listas de referencia para calificar al autor, la tipología, el precio y el idioma
para generar datos de origen para regresiones multivariante.
Durante la ejecución de las funciones surgirán planteamientos y necesidad de datos de origen
en formatos específicos, para ello, deberemos moldear los datos fuentes para cubrir los
requerimientos.
¿Qué tipo de base de datos se utilizá
para alojar el análisis de los datos?
Tipo de base de datos para alojar el análisis de datos
Para almacenar toda la información de ventas, control de stock, información administrativa y
contable incluyendo todas las listas de referencia se recomienda utilizar una base de datos SQL.
Para almacenar el historial de consultas y vistas de libros por una parte y por otra, los perfiles
de los visitantes al sitio web, prospectos y clientes, se sugiere utilizar bases de datos No SQL, de
igual forma para mantener el registro de toda la actividad del sitio web.
Pág. 5
¿Qué tipo de servicio de la nube podría contratar
para alojar la información y el proyecto de ciencia de datos?
Tipo de servicio de la nube para alojar la información y el proyecto
Se contratará Slack para establecer un medio de comunicación transparente y transversal con
todo el equipo de trabajo y los ejecutivos de la librería.
HitLab sera utilizado cómo el repositorio de las versiones por las que vaya pasando el programa
en Python.
Para el almacenamiento de la información contrataremos Polybase para las bases SQL que se
enlazarán a Microsoft HDInsight que almacenarán las bases NoSQL.
Conclusiones
Definitivamente en la actualidad la ciencias de datos es un factor que marca la diferencia en el
futuro de las empresas, sobre todo, el análisis predictivo a través de los lenguajes cómo Python,
que brindan la posibilidad de procesar grandes cantidad de información. Por otra parte la
disponibilidad de infraestructura y tecnología en la nube le brindan a la mayoría de las
compañías la posibilidad de incluir la ciencia de datos dentro de sus modelos de negocio,
considerando además que a medida que pasa el tiempo los costos bajan y la escalabilidad es
prácticamente inmediata.
Bajo este escenario, la ética, responsabilidad, seriedad, objetividad de los científicos de datos
marcarán definitivamente la calidad en la obtención, procesamiento e interpretación de los
resultados y la inversión que realiza la “Librería Iztaccihuatl”se vera reflejada en las acciones y
decisiones oportunas de sus ejecutivos, que conducirán a la empresa, a conquistar mayor
participación en el segmento de mercado.
Pág. 6
Anexo: Modelado y despliegue (Análisis descriptivo)
Modelado
Para fines del presente proyecto el modelado de datos se realizó en base a estadística
descriptiva y frecuencias.
Libros por Idioma
Libros 10.000,00
Mínimo 1,00
Máximo 6.341,00
Promedio 384,62
Desviación estándar 1.269,43
Libros por Autor
Libros 10.000,00
Mínimo 1,00
Máximo 60,00
Promedio 2,14
Desviación estándar 3,41
Varianza 11,66
Rating a Libros
Cantidad 981.756,00
Mínimo 1,00
Máximo 53424,00
Promedio 25.616,76
Desviación estándar 15.228,33
Cantidad de Libros por Idioma
Libros 757.127,00
Mínimo 5,00
Máximo 555.166,00
Promedio 29.120,27
Desviación estándar 107.911,07
Cantidad de Libros por Autor
Libros 757.127,00
Mínimo 1,00
Máximo 9.284,00
Promedio 162,33
Desviación estándar 401,45
Varianza 161.166,10
Sugerencia de lectura de Libros
Cantidad 912.705,00
Mínimo 1,00
Máximo 53424,00
Promedio 27.668,98
Desviación estándar 14.775,09
Pág. 7
Despliegue
A continuación, presentamos la información analizada descriptivamente.
El 87,30% de libros se encuentran en inglés
8.730/10.000
Los libros en inglés, concentran el 90% del total
de stock disponible (681.884/757.127)
Mas del 25% de votaciones en rating entre 3 a5
puntos para libros en inglés.
8,7% de sugerencias para leer libros en inglés.
Mas de 825 mil sugerencias de lectura de libros
Libros en inglés por Autor
Pág. 8
que aun no están clasificados por idioma (84%)
Clasificación de libros más vendidos
Libros más vendidos por año
55,32% de los libros fueron publicados a partir
del año 2000
Pág. 9

Más contenido relacionado

Similar a Proyecto Jaime Salinas

Similar a Proyecto Jaime Salinas (20)

APLICANDO LA CIENCIA DE DATOS EN UNA ORGANIZACIÓN - práctica.pdf
APLICANDO LA CIENCIA DE DATOS EN UNA ORGANIZACIÓN - práctica.pdfAPLICANDO LA CIENCIA DE DATOS EN UNA ORGANIZACIÓN - práctica.pdf
APLICANDO LA CIENCIA DE DATOS EN UNA ORGANIZACIÓN - práctica.pdf
 
Caso libreria - herramientas para el análisis de big data - edx
Caso libreria - herramientas para el análisis de big data - edxCaso libreria - herramientas para el análisis de big data - edx
Caso libreria - herramientas para el análisis de big data - edx
 
Proyecto visualización de datos y storytelling mpsf
Proyecto visualización de datos y storytelling mpsfProyecto visualización de datos y storytelling mpsf
Proyecto visualización de datos y storytelling mpsf
 
Proyecto individual
Proyecto individualProyecto individual
Proyecto individual
 
Trabajo ciencia de datos camilo sanhueza
Trabajo ciencia de datos camilo sanhuezaTrabajo ciencia de datos camilo sanhueza
Trabajo ciencia de datos camilo sanhueza
 
Proyecto herramientas para el análisis de big data
Proyecto herramientas para el análisis de big dataProyecto herramientas para el análisis de big data
Proyecto herramientas para el análisis de big data
 
Text mining
Text miningText mining
Text mining
 
Proyecto individual - Introducción a la ciencia de datos
Proyecto individual - Introducción a la ciencia de datosProyecto individual - Introducción a la ciencia de datos
Proyecto individual - Introducción a la ciencia de datos
 
Trabajo de herramientas para la ciencia de datos evaluado por pares
Trabajo de herramientas para la ciencia de datos evaluado por paresTrabajo de herramientas para la ciencia de datos evaluado por pares
Trabajo de herramientas para la ciencia de datos evaluado por pares
 
Aplicando Ciencia de Datos en una Organización
Aplicando Ciencia de Datos en una OrganizaciónAplicando Ciencia de Datos en una Organización
Aplicando Ciencia de Datos en una Organización
 
Aplicando la ciencia de datos en una organización
Aplicando la ciencia de datos en una organizaciónAplicando la ciencia de datos en una organización
Aplicando la ciencia de datos en una organización
 
Actividad 1 - Jesus Axel Dominguez Rocha
Actividad 1 - Jesus Axel Dominguez RochaActividad 1 - Jesus Axel Dominguez Rocha
Actividad 1 - Jesus Axel Dominguez Rocha
 
3 Visualización de Datos y Storytelling.pdf
3 Visualización de Datos y Storytelling.pdf3 Visualización de Datos y Storytelling.pdf
3 Visualización de Datos y Storytelling.pdf
 
Incorpora la analitica de texto mas avanzada a tus modelos predictivos - Mean...
Incorpora la analitica de texto mas avanzada a tus modelos predictivos - Mean...Incorpora la analitica de texto mas avanzada a tus modelos predictivos - Mean...
Incorpora la analitica de texto mas avanzada a tus modelos predictivos - Mean...
 
Aplicando La Ciencia de Datos en Una Organizacion
Aplicando La Ciencia de Datos en Una OrganizacionAplicando La Ciencia de Datos en Una Organizacion
Aplicando La Ciencia de Datos en Una Organizacion
 
Proyecto evaluado por pares
Proyecto evaluado por paresProyecto evaluado por pares
Proyecto evaluado por pares
 
libreria sistema.docx
libreria sistema.docxlibreria sistema.docx
libreria sistema.docx
 
capacitación Data science.pptx
capacitación Data science.pptxcapacitación Data science.pptx
capacitación Data science.pptx
 
Actividad individual big data
Actividad individual big dataActividad individual big data
Actividad individual big data
 
Evaluacion entre pares - Ciencia de datos.
Evaluacion entre pares - Ciencia de datos.Evaluacion entre pares - Ciencia de datos.
Evaluacion entre pares - Ciencia de datos.
 

Último

Los más ricos administradores de fondo de cobertura (1968-2024).pdf
Los más ricos administradores de fondo de cobertura (1968-2024).pdfLos más ricos administradores de fondo de cobertura (1968-2024).pdf
Los más ricos administradores de fondo de cobertura (1968-2024).pdf
JC Díaz Herrera
 
ETICA EN LA CADENAS la cadena de suministro
ETICA EN LA CADENAS la cadena de suministroETICA EN LA CADENAS la cadena de suministro
ETICA EN LA CADENAS la cadena de suministro
IrisMoreno27
 
REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024
REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024
REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024
IrapuatoCmovamos
 
Metodos de esterilizacion _20240418_181249_0000.pdf
Metodos de esterilizacion _20240418_181249_0000.pdfMetodos de esterilizacion _20240418_181249_0000.pdf
Metodos de esterilizacion _20240418_181249_0000.pdf
arteagaara
 
metodo SOAP utilizado para evaluar el estado de un paciente
metodo SOAP utilizado para evaluar el estado de un pacientemetodo SOAP utilizado para evaluar el estado de un paciente
metodo SOAP utilizado para evaluar el estado de un paciente
MedicinaInternaresid1
 
PLAN ANUAL DE PROYECTO 2020. para mejorar
PLAN ANUAL DE PROYECTO 2020. para mejorarPLAN ANUAL DE PROYECTO 2020. para mejorar
PLAN ANUAL DE PROYECTO 2020. para mejorar
CelesteRolon2
 

Último (20)

Los más ricos administradores de fondo de cobertura (1968-2024).pdf
Los más ricos administradores de fondo de cobertura (1968-2024).pdfLos más ricos administradores de fondo de cobertura (1968-2024).pdf
Los más ricos administradores de fondo de cobertura (1968-2024).pdf
 
La Guerra Biologica - Emiliano Paico Vilchez.pdf
La Guerra Biologica - Emiliano Paico Vilchez.pdfLa Guerra Biologica - Emiliano Paico Vilchez.pdf
La Guerra Biologica - Emiliano Paico Vilchez.pdf
 
ETICA EN LA CADENAS la cadena de suministro
ETICA EN LA CADENAS la cadena de suministroETICA EN LA CADENAS la cadena de suministro
ETICA EN LA CADENAS la cadena de suministro
 
diseño de una linea de produccion de jabon liquido.pptx
diseño de una linea de produccion de jabon liquido.pptxdiseño de una linea de produccion de jabon liquido.pptx
diseño de una linea de produccion de jabon liquido.pptx
 
Los idiomas más hablados en el mundo (2024).pdf
Los idiomas más hablados en el mundo  (2024).pdfLos idiomas más hablados en el mundo  (2024).pdf
Los idiomas más hablados en el mundo (2024).pdf
 
Análisis del Modo y Efecto de Fallas AMEF.ppt
Análisis del Modo y Efecto de Fallas AMEF.pptAnálisis del Modo y Efecto de Fallas AMEF.ppt
Análisis del Modo y Efecto de Fallas AMEF.ppt
 
REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024
REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024
REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024
 
Los primeros 60 países por IDH en el año (2024).pdf
Los primeros 60 países por IDH en el año (2024).pdfLos primeros 60 países por IDH en el año (2024).pdf
Los primeros 60 países por IDH en el año (2024).pdf
 
AMNIOS Y CORDON UMBILICAL en el 3 embarazo (1).docx
AMNIOS Y CORDON UMBILICAL en el 3 embarazo (1).docxAMNIOS Y CORDON UMBILICAL en el 3 embarazo (1).docx
AMNIOS Y CORDON UMBILICAL en el 3 embarazo (1).docx
 
COMUNICADO PARA TODO TIPO DE REUNIONES .
COMUNICADO PARA TODO TIPO DE REUNIONES .COMUNICADO PARA TODO TIPO DE REUNIONES .
COMUNICADO PARA TODO TIPO DE REUNIONES .
 
Metodos de esterilizacion _20240418_181249_0000.pdf
Metodos de esterilizacion _20240418_181249_0000.pdfMetodos de esterilizacion _20240418_181249_0000.pdf
Metodos de esterilizacion _20240418_181249_0000.pdf
 
metodo SOAP utilizado para evaluar el estado de un paciente
metodo SOAP utilizado para evaluar el estado de un pacientemetodo SOAP utilizado para evaluar el estado de un paciente
metodo SOAP utilizado para evaluar el estado de un paciente
 
Los países por porcentaje de población blanca europea en AL (2024).pdf
Los países por porcentaje de población blanca europea en AL (2024).pdfLos países por porcentaje de población blanca europea en AL (2024).pdf
Los países por porcentaje de población blanca europea en AL (2024).pdf
 
EPIDEMIO CANCER PULMON resumen nnn.pptx
EPIDEMIO CANCER PULMON  resumen nnn.pptxEPIDEMIO CANCER PULMON  resumen nnn.pptx
EPIDEMIO CANCER PULMON resumen nnn.pptx
 
Porcentaje de población blanca europea en Europa Occidental (1923-2024).pdf
Porcentaje de población blanca europea en Europa Occidental (1923-2024).pdfPorcentaje de población blanca europea en Europa Occidental (1923-2024).pdf
Porcentaje de población blanca europea en Europa Occidental (1923-2024).pdf
 
Las familias más ricas de África en el año (2024).pdf
Las familias más ricas de África en el año (2024).pdfLas familias más ricas de África en el año (2024).pdf
Las familias más ricas de África en el año (2024).pdf
 
Panorama Sociodemográfico de México 2020: GUANAJUATO
Panorama Sociodemográfico de México 2020: GUANAJUATOPanorama Sociodemográfico de México 2020: GUANAJUATO
Panorama Sociodemográfico de México 2020: GUANAJUATO
 
PLAN ANUAL DE PROYECTO 2020. para mejorar
PLAN ANUAL DE PROYECTO 2020. para mejorarPLAN ANUAL DE PROYECTO 2020. para mejorar
PLAN ANUAL DE PROYECTO 2020. para mejorar
 
Las marcas automotrices con más ventas de vehículos (2024).pdf
Las marcas automotrices con más ventas de vehículos (2024).pdfLas marcas automotrices con más ventas de vehículos (2024).pdf
Las marcas automotrices con más ventas de vehículos (2024).pdf
 
Reservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdf
Reservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdfReservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdf
Reservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdf
 

Proyecto Jaime Salinas

  • 1. Aplicación de la Ciencia de Datos “Librería Iztaccihuatl” ELABORADO POR: Jaime N. Salinas Collao Junio de 2020 Pág. 1
  • 2. CONTENIDO Introducción ……………………………………………………………………………………………. 3 Lenguaje de programación para realizar el análisis de datos……………………. 3 Predicciones que se podrían obtener de los datos…………………………………… 4 Adecuaciones sugeridas a los datos, para análisis predictivo…………………… 5 Tipo de base de datos para alojar el análisis de datos……………………………… 5 Tipo de servicio de la nube para alojar la información y el proyecto……….. 6 Conclusiones…………………………………………………………………………………………… 6 ANEXO: Modelado y despliegue (Análisis descriptivo)……………………………. 7 Pág. 2
  • 3. Introducción La Librería Iztaccihuatl ubicada en la ciudad de Monterrey, Nuevo León, México ha decidido desarrollar un proyecto basada en ciencia de datos para mejorar sus indicadores de desempeño y a la vez desarrollar una mejor estrategia en la toma de decisiones. En un primer momento se realizo un análisis descriptivo con la información provista (books; top_books; raitings; y to_read ) Te recomendamos utilizar la herramienta Python para analizar los datos que se te proporcionan. Ahora, identificamos las herramientas necesarias para el análisis; estructuras de datos y servicios de la nube para desarrollar un modelo basado en Ciencia de Datos como apoyo a la toma de decisiones para la empresa. ¿Qué lenguaje de programación para ciencia de datos se utilizará para realizar el análisis de datos? Lenguaje de programación para realizar el análisis de datos Se utilizara Python, desde 1991 se ha convertido en un lenguaje popular utilizado ampliamente en la comunidad de ciencia de datos, es fácil de aprender y cuenta con una gama amplia de módulos. Robusto para el controlar flujos de ejecución y la automatización de procesos. Python encaja muy bien en el proceso de extracción, transformación y carga (ETL) de la ciencia de datos. Para el aprendizaje automático (machine learning) junto a TensorFlow, la librería de Google, hacen que Phyton sea una opción perfecta para esta área. Pág. 3
  • 4. ¿Qué predicciones se podrían obtener de los datos ? Predicciones que se podrían obtener de los datos Utilizando Python, basados en la información y datos del análisis descriptivo podemos empezar a obtener datos que son resultados de las funciones ejecutadas para un análisis predictivo, entre las que podemos mencionar: Regresión Lineal La regresión lineal intenta calcular una linea recta que se ajuste lo mas posible al conjunto de datos que disponemos. En nuestro caso podemos aplicarla a las ventas de los libros, considerando de manera individual los diferentes autores, tipologías, recomendaciones, idiomas y temporalidad. De esta forma podemos predecir la situación en adelante en cada uno de los casos. Regresión Multivariante La regresión multivariante nos permite obtener predecir datos en función a mas de una característica. En nuestro caso podemos considerar las ventas históricas incluyendo variables de idioma y autor, todas ellas con escalas similares (normalizados). Será interesante la comparativa de gráficos y datos de esta regresión respecto a la lineal, pues nos brindarán recursos para enriquecer el análisis predictivo. Regresión Polinómica Cuando los datos disponibles no se ajustan a una linea recta, la regresión polinómica permite ajustarlos a una curva mas, o menos compleja. Podremos utilizar este tipo de regresión luego de ver la distribución de os datos de referencia. Un factor de error reducido, refleja que la curva se ajusta a los datos de muestra pero no nos asegura la calidad de la predicción. Pág. 4
  • 5. Ejm. Regresión lineal y regresión múltiple ¿Qué adecuaciones se podría hacer a los datos para poder realizar un análisis predictivo? Adecuaciones sugeridas a los datos, para análisis predictivo Se sugiere extraer y preparar listas y matrices para ejecutar las funciones que nos proveeran datos para el análisis predictivo, mencionando pero no limitando a:  Elaborar listados clasificadores para : tipología de Libros, precio, idioma y autor  Matriz de ventas que incluya el día, mes, año, autor, precio, idioma y tipo de libro  Relacionar las recomendaciones respecto a las ventas para extraer la matriz que incluya cantidad de veces sugerido, mes de venta, mes de sugerencia, precio, autor, idioma y tipo de libro  Relacionar el ranking respecto a las ventas para extraer la matriz que incluya ranking, mes de venta, mes de sugerencia, precio, autor, idioma y tipo de libro  Establecer listas de referencia para calificar al autor, la tipología, el precio y el idioma para generar datos de origen para regresiones multivariante. Durante la ejecución de las funciones surgirán planteamientos y necesidad de datos de origen en formatos específicos, para ello, deberemos moldear los datos fuentes para cubrir los requerimientos. ¿Qué tipo de base de datos se utilizá para alojar el análisis de los datos? Tipo de base de datos para alojar el análisis de datos Para almacenar toda la información de ventas, control de stock, información administrativa y contable incluyendo todas las listas de referencia se recomienda utilizar una base de datos SQL. Para almacenar el historial de consultas y vistas de libros por una parte y por otra, los perfiles de los visitantes al sitio web, prospectos y clientes, se sugiere utilizar bases de datos No SQL, de igual forma para mantener el registro de toda la actividad del sitio web. Pág. 5
  • 6. ¿Qué tipo de servicio de la nube podría contratar para alojar la información y el proyecto de ciencia de datos? Tipo de servicio de la nube para alojar la información y el proyecto Se contratará Slack para establecer un medio de comunicación transparente y transversal con todo el equipo de trabajo y los ejecutivos de la librería. HitLab sera utilizado cómo el repositorio de las versiones por las que vaya pasando el programa en Python. Para el almacenamiento de la información contrataremos Polybase para las bases SQL que se enlazarán a Microsoft HDInsight que almacenarán las bases NoSQL. Conclusiones Definitivamente en la actualidad la ciencias de datos es un factor que marca la diferencia en el futuro de las empresas, sobre todo, el análisis predictivo a través de los lenguajes cómo Python, que brindan la posibilidad de procesar grandes cantidad de información. Por otra parte la disponibilidad de infraestructura y tecnología en la nube le brindan a la mayoría de las compañías la posibilidad de incluir la ciencia de datos dentro de sus modelos de negocio, considerando además que a medida que pasa el tiempo los costos bajan y la escalabilidad es prácticamente inmediata. Bajo este escenario, la ética, responsabilidad, seriedad, objetividad de los científicos de datos marcarán definitivamente la calidad en la obtención, procesamiento e interpretación de los resultados y la inversión que realiza la “Librería Iztaccihuatl”se vera reflejada en las acciones y decisiones oportunas de sus ejecutivos, que conducirán a la empresa, a conquistar mayor participación en el segmento de mercado. Pág. 6
  • 7. Anexo: Modelado y despliegue (Análisis descriptivo) Modelado Para fines del presente proyecto el modelado de datos se realizó en base a estadística descriptiva y frecuencias. Libros por Idioma Libros 10.000,00 Mínimo 1,00 Máximo 6.341,00 Promedio 384,62 Desviación estándar 1.269,43 Libros por Autor Libros 10.000,00 Mínimo 1,00 Máximo 60,00 Promedio 2,14 Desviación estándar 3,41 Varianza 11,66 Rating a Libros Cantidad 981.756,00 Mínimo 1,00 Máximo 53424,00 Promedio 25.616,76 Desviación estándar 15.228,33 Cantidad de Libros por Idioma Libros 757.127,00 Mínimo 5,00 Máximo 555.166,00 Promedio 29.120,27 Desviación estándar 107.911,07 Cantidad de Libros por Autor Libros 757.127,00 Mínimo 1,00 Máximo 9.284,00 Promedio 162,33 Desviación estándar 401,45 Varianza 161.166,10 Sugerencia de lectura de Libros Cantidad 912.705,00 Mínimo 1,00 Máximo 53424,00 Promedio 27.668,98 Desviación estándar 14.775,09 Pág. 7
  • 8. Despliegue A continuación, presentamos la información analizada descriptivamente. El 87,30% de libros se encuentran en inglés 8.730/10.000 Los libros en inglés, concentran el 90% del total de stock disponible (681.884/757.127) Mas del 25% de votaciones en rating entre 3 a5 puntos para libros en inglés. 8,7% de sugerencias para leer libros en inglés. Mas de 825 mil sugerencias de lectura de libros Libros en inglés por Autor Pág. 8
  • 9. que aun no están clasificados por idioma (84%) Clasificación de libros más vendidos Libros más vendidos por año 55,32% de los libros fueron publicados a partir del año 2000 Pág. 9