Herramientas para el Análisis de Big Data

Herramientas para el Análisis de Big Data
Elaborado por: Julio Manuel Burgos Chinchay
2021

1. Proyecto individual evaluado por pares
El presente reporte tuvo como base la información suministrada para el curso EDX Herramientas para el
análisis de la Big Data, practica entre pares. El caso analiza los datos sobre la Librería Iztaccihuatl
Respuesta a las preguntas:
 ¿Qué lenguaje de programación para ciencia de datos utilizaría para realizar el análisis de datos
de la Librería Iztaccihuatl?
Para el análisis se usó en lenguaje R, pues es de código abierto y de libre uso. Además use la librería Dplyr
para facilitar el análisis de los datos.
 ¿Qué predicciones se podrían obtener de los datos de la Librería Iztaccihuatl?
La librería ofrece 10mil libros de los cuales alrededor de 8 mil están en ingles, eso quiere decir que sus
clientes son Anglohablantes.
Los libros mas recientes son del 2017.
La librería tiene libros de 4664 autores y el de mayor variedad son los de Stephen King.
En promedio los libros que venden tienen calificación de 4.02 estrellas lo cual indica que es aceptado por el
publico objetivo.

A pesar de que el registro indica que venden 10mil títulos, estos se reducen a 4664 si hacemos el filtro por
título original, la diferencia se debe a nuevas ediciones del mismo libro.
Sobre el archivo top_books, se encuentra que tiene información sobre los 120 libros más vendidos y esos
son suministrados por 21 editoriales.
El autor con más Best Seller es Meyer, Sthepanie con 6 libros.
El libro con mejor calificacióne es “The Complete Calvin and Hobbes” con 4.82.
El autor con mejor calificación es "Anonymous, Lane T. Dennis, Wayne A. Grudem" con 4.76.
 ¿Qué adecuaciones se podría hacer a los datos de la Librería Iztaccihuatlpara poderrealizar un
análisis predictivo?
Debería tener un registro de las ventas por id de libro, para analizar si el catalogo de libros logra las ventas
esperadas.
Debería tener fecha de ingreso a la librería para saber desde cuando no se vende el libro y así estimular las
ventas a través de promociones.

 ¿Qué tipo de base de datos se utilizaría para alojar los análisis de los datos de la Librería
Iztaccihuatl?
Los datos se conocen desde el inicio así que podemos usar una Base de datos SQL.
 ¿Qué tipo de servicio de la nube podría contratar la Librería Iztaccihuatl para alojar la
información y el proyectode ciencia de datos?
Todo el sistema de stocks, ventas, calificaciones y demás puede tenerlo en un servicio de almacenamiento
de GOOGLE CLOUD. Además puede contratar un servicio para diseñar un Dashboard que realice el análisis
de los datos, ejemplo: GOOGLE DATA STUDIO.
2. Predicciones
 Los clientes de la Librería Iztaccihuat son anglohablantes.
 La Librería Iztaccihuat, tiene un catálogo que es del gusto de sus clientes.
 La Librería Iztaccihuat tiene varias ediciones del mismo libro.
3. Conclusiones:
La información que brindan es de ayuda para entender de manera general el negocio de la librería, sin
embargo, se requiere diseñar indicadores de desempeño para identificar oportunidades del negocio.

4. Algoritmo usado
books <- read.csv(choose.files(),header = TRUE,sep = ",")
ratings <- read.csv(choose.files(),header = TRUE,sep = ",")
to_read <- read.csv(choose.files(),header = TRUE,sep = ",")
top_books <- read.csv(choose.files(),header = TRUE,sep = ";")
## Analizo el archivo Books
nrow(books) ## cantidad de libros
tabla_libros <- as.data.frame(table(books$language_code))
head(tabla_libros[order(tabla_libros$Freq, decreasing = TRUE),])
autor <- as.data.frame(table(books$authors), stringsAsFactors = FALSE)
print(autor[order(autor$Freq, decreasing=TRUE),]) ## Los con mas libros autores
nrow(autor)
antiguedad <- as.data.frame(table(books$original_publication_year))
antiguedad <- antiguedad[order(antiguedad$Var1),]
hist(books$average_rating, plot = TRUE)
prom_valor<- quantile(books$average_rating)
print(prom_valor) ##En promedio sus libros tiene una calificación de 4
nrow(as.data.frame(unique(books$authors))) ## Numero de Autores
nrow(as.data.frame(unique(books$original_title))) ## Ctd. Titulos diferentes
##Analizo el top_books
nrow(top_books)
unique(top_books$Publisher.Group) ## 21 Editorials son las que más libros venden
autores_best_seler <- as.data.frame(table(top_books$Author), stringsAsFactors = FALSE)
autores_best_seler[order(autores_best_seler$Freq,decreasing = TRUE),]
libro_caract <- table(top_books$Binding)
##Analizo Mejores Calificaciones por autor
library(dplyr)

books %>%
group_by(original_title) %>%
summarise(promedio = mean(average_rating),votos = n()) %>%
arrange(desc(promedio))
books %>%
group_by(authors) %>%
summarise(promedio = mean(average_rating),votos = n()) %>%
arrange(desc(promedio))

Herramientas para el Análisis de Big Data

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (18)

Similar a Herramientas para el Análisis de Big Data

Similar a Herramientas para el Análisis de Big Data (16)

Último

Último (15)

Herramientas para el Análisis de Big Data