SlideShare una empresa de Scribd logo
1 de 6
Herramientas para el Análisis de Big Data
Elaborado por: Julio Manuel Burgos Chinchay
2021
1. Proyecto individual evaluado por pares
El presente reporte tuvo como base la información suministrada para el curso EDX Herramientas para el
análisis de la Big Data, practica entre pares. El caso analiza los datos sobre la Librería Iztaccihuatl
Respuesta a las preguntas:
 ¿Qué lenguaje de programación para ciencia de datos utilizaría para realizar el análisis de datos
de la Librería Iztaccihuatl?
Para el análisis se usó en lenguaje R, pues es de código abierto y de libre uso. Además use la librería Dplyr
para facilitar el análisis de los datos.
 ¿Qué predicciones se podrían obtener de los datos de la Librería Iztaccihuatl?
La librería ofrece 10mil libros de los cuales alrededor de 8 mil están en ingles, eso quiere decir que sus
clientes son Anglohablantes.
Los libros mas recientes son del 2017.
La librería tiene libros de 4664 autores y el de mayor variedad son los de Stephen King.
En promedio los libros que venden tienen calificación de 4.02 estrellas lo cual indica que es aceptado por el
publico objetivo.
A pesar de que el registro indica que venden 10mil títulos, estos se reducen a 4664 si hacemos el filtro por
título original, la diferencia se debe a nuevas ediciones del mismo libro.
Sobre el archivo top_books, se encuentra que tiene información sobre los 120 libros más vendidos y esos
son suministrados por 21 editoriales.
El autor con más Best Seller es Meyer, Sthepanie con 6 libros.
El libro con mejor calificacióne es “The Complete Calvin and Hobbes” con 4.82.
El autor con mejor calificación es "Anonymous, Lane T. Dennis, Wayne A. Grudem" con 4.76.
 ¿Qué adecuaciones se podría hacer a los datos de la Librería Iztaccihuatlpara poderrealizar un
análisis predictivo?
Debería tener un registro de las ventas por id de libro, para analizar si el catalogo de libros logra las ventas
esperadas.
Debería tener fecha de ingreso a la librería para saber desde cuando no se vende el libro y así estimular las
ventas a través de promociones.
 ¿Qué tipo de base de datos se utilizaría para alojar los análisis de los datos de la Librería
Iztaccihuatl?
Los datos se conocen desde el inicio así que podemos usar una Base de datos SQL.
 ¿Qué tipo de servicio de la nube podría contratar la Librería Iztaccihuatl para alojar la
información y el proyectode ciencia de datos?
Todo el sistema de stocks, ventas, calificaciones y demás puede tenerlo en un servicio de almacenamiento
de GOOGLE CLOUD. Además puede contratar un servicio para diseñar un Dashboard que realice el análisis
de los datos, ejemplo: GOOGLE DATA STUDIO.
2. Predicciones
 Los clientes de la Librería Iztaccihuat son anglohablantes.
 La Librería Iztaccihuat, tiene un catálogo que es del gusto de sus clientes.
 La Librería Iztaccihuat tiene varias ediciones del mismo libro.
3. Conclusiones:
La información que brindan es de ayuda para entender de manera general el negocio de la librería, sin
embargo, se requiere diseñar indicadores de desempeño para identificar oportunidades del negocio.
4. Algoritmo usado
books <- read.csv(choose.files(),header = TRUE,sep = ",")
ratings <- read.csv(choose.files(),header = TRUE,sep = ",")
to_read <- read.csv(choose.files(),header = TRUE,sep = ",")
top_books <- read.csv(choose.files(),header = TRUE,sep = ";")
## Analizo el archivo Books
nrow(books) ## cantidad de libros
tabla_libros <- as.data.frame(table(books$language_code))
head(tabla_libros[order(tabla_libros$Freq, decreasing = TRUE),])
autor <- as.data.frame(table(books$authors), stringsAsFactors = FALSE)
print(autor[order(autor$Freq, decreasing=TRUE),]) ## Los con mas libros autores
nrow(autor)
antiguedad <- as.data.frame(table(books$original_publication_year))
antiguedad <- antiguedad[order(antiguedad$Var1),]
hist(books$average_rating, plot = TRUE)
prom_valor<- quantile(books$average_rating)
print(prom_valor) ##En promedio sus libros tiene una calificación de 4
nrow(as.data.frame(unique(books$authors))) ## Numero de Autores
nrow(as.data.frame(unique(books$original_title))) ## Ctd. Titulos diferentes
##Analizo el top_books
nrow(top_books)
unique(top_books$Publisher.Group) ## 21 Editorials son las que más libros venden
autores_best_seler <- as.data.frame(table(top_books$Author), stringsAsFactors = FALSE)
autores_best_seler[order(autores_best_seler$Freq,decreasing = TRUE),]
libro_caract <- table(top_books$Binding)
##Analizo Mejores Calificaciones por autor
library(dplyr)
books %>%
group_by(original_title) %>%
summarise(promedio = mean(average_rating),votos = n()) %>%
arrange(desc(promedio))
books %>%
group_by(authors) %>%
summarise(promedio = mean(average_rating),votos = n()) %>%
arrange(desc(promedio))

Más contenido relacionado

La actualidad más candente

La actualidad más candente (18)

Big data Caso Libreria Iztaccihuatl
Big data Caso Libreria IztaccihuatlBig data Caso Libreria Iztaccihuatl
Big data Caso Libreria Iztaccihuatl
 
Trabajo intro a la ciencia de datos
Trabajo intro a la ciencia de datosTrabajo intro a la ciencia de datos
Trabajo intro a la ciencia de datos
 
Big data ejercicio
Big data ejercicioBig data ejercicio
Big data ejercicio
 
Introducción a la ciencia de datos y el big data
Introducción a la ciencia de datos y el big dataIntroducción a la ciencia de datos y el big data
Introducción a la ciencia de datos y el big data
 
Curso
CursoCurso
Curso
 
Utilizando la ciencia de datos en una organizacion
Utilizando la ciencia de datos en una organizacionUtilizando la ciencia de datos en una organizacion
Utilizando la ciencia de datos en una organizacion
 
Ciencia de datos
Ciencia de datosCiencia de datos
Ciencia de datos
 
Practica con evaluación entre pares. Ciencia de Datos.
Practica con evaluación entre pares. Ciencia de Datos.Practica con evaluación entre pares. Ciencia de Datos.
Practica con evaluación entre pares. Ciencia de Datos.
 
evaluacion por pares
evaluacion por paresevaluacion por pares
evaluacion por pares
 
Proyecto 1 ciencia de datos
Proyecto 1 ciencia de datosProyecto 1 ciencia de datos
Proyecto 1 ciencia de datos
 
Utilizando la Ciencia de Datos en una organización
Utilizando la Ciencia de Datos en una organizaciónUtilizando la Ciencia de Datos en una organización
Utilizando la Ciencia de Datos en una organización
 
Aplicando la Ciencia de Datos en una organización
Aplicando la Ciencia de Datos en una organización Aplicando la Ciencia de Datos en una organización
Aplicando la Ciencia de Datos en una organización
 
Practica mariadejoz
Practica mariadejozPractica mariadejoz
Practica mariadejoz
 
Trabajo de pares
Trabajo de paresTrabajo de pares
Trabajo de pares
 
Utilizando la ciencia de datos en una organización
Utilizando la ciencia de datos en una organizaciónUtilizando la ciencia de datos en una organización
Utilizando la ciencia de datos en una organización
 
Proy eval de pares Jhardena Yauri
Proy eval de pares Jhardena YauriProy eval de pares Jhardena Yauri
Proy eval de pares Jhardena Yauri
 
Utilizando la ciencia de datos en una organización
Utilizando la ciencia de datos en una organizaciónUtilizando la ciencia de datos en una organización
Utilizando la ciencia de datos en una organización
 
Actividad individual big data
Actividad individual big dataActividad individual big data
Actividad individual big data
 

Similar a Herramientas para el Análisis de Big Data

Similar a Herramientas para el Análisis de Big Data (16)

Trabajo ciencia de datos camilo sanhueza
Trabajo ciencia de datos camilo sanhuezaTrabajo ciencia de datos camilo sanhueza
Trabajo ciencia de datos camilo sanhueza
 
Trabajo entre pares
Trabajo entre paresTrabajo entre pares
Trabajo entre pares
 
Aplicando la Ciencia de Datos en una organización.docx
Aplicando la Ciencia de Datos en una organización.docxAplicando la Ciencia de Datos en una organización.docx
Aplicando la Ciencia de Datos en una organización.docx
 
Proyecto 1 ciencia de datos
Proyecto 1 ciencia de datosProyecto 1 ciencia de datos
Proyecto 1 ciencia de datos
 
Utilizando la ciencia de datos en una organización
Utilizando la ciencia de datos en una organizaciónUtilizando la ciencia de datos en una organización
Utilizando la ciencia de datos en una organización
 
Evaluacion entre pares - Ciencia de datos.
Evaluacion entre pares - Ciencia de datos.Evaluacion entre pares - Ciencia de datos.
Evaluacion entre pares - Ciencia de datos.
 
Proyecto individual
Proyecto individualProyecto individual
Proyecto individual
 
Proyecto 1 ciencia de datos
Proyecto 1 ciencia de datosProyecto 1 ciencia de datos
Proyecto 1 ciencia de datos
 
Ev pares
Ev paresEv pares
Ev pares
 
Proyecto 001 v1
Proyecto 001 v1Proyecto 001 v1
Proyecto 001 v1
 
Proyecto individual evaluado por pares - José Ignacio Mamani Murga
Proyecto individual evaluado por pares - José Ignacio Mamani MurgaProyecto individual evaluado por pares - José Ignacio Mamani Murga
Proyecto individual evaluado por pares - José Ignacio Mamani Murga
 
Proyecto de evaluación de pares
Proyecto de evaluación de paresProyecto de evaluación de pares
Proyecto de evaluación de pares
 
Proyecto Introducción a la Ciencia de Datos - Caso de Estudio Librería
Proyecto Introducción a la Ciencia de Datos - Caso de Estudio LibreríaProyecto Introducción a la Ciencia de Datos - Caso de Estudio Librería
Proyecto Introducción a la Ciencia de Datos - Caso de Estudio Librería
 
rh.docx
rh.docxrh.docx
rh.docx
 
Ciencia de datos
Ciencia de datosCiencia de datos
Ciencia de datos
 
Actividad 1 - Jesus Axel Dominguez Rocha
Actividad 1 - Jesus Axel Dominguez RochaActividad 1 - Jesus Axel Dominguez Rocha
Actividad 1 - Jesus Axel Dominguez Rocha
 

Último

My loft y ciencia uso de My loft. Explica cómo usar My loft para la ucv.
My loft y ciencia uso de My loft. Explica cómo usar My loft para la ucv.My loft y ciencia uso de My loft. Explica cómo usar My loft para la ucv.
My loft y ciencia uso de My loft. Explica cómo usar My loft para la ucv.
FeliGamarra1
 
XNXX.pptxjsjssjsjsjjsjsjsjsjjsjejejejkdkdk
XNXX.pptxjsjssjsjsjjsjsjsjsjjsjejejejkdkdkXNXX.pptxjsjssjsjsjjsjsjsjsjjsjejejejkdkdk
XNXX.pptxjsjssjsjsjjsjsjsjsjjsjejejejkdkdk
JuanmanuelYapitamani
 
La Inteligencia Artificial -AnaliticayDatos-BeatrizGarcia-Abril2024-D.pdf
La Inteligencia Artificial -AnaliticayDatos-BeatrizGarcia-Abril2024-D.pdfLa Inteligencia Artificial -AnaliticayDatos-BeatrizGarcia-Abril2024-D.pdf
La Inteligencia Artificial -AnaliticayDatos-BeatrizGarcia-Abril2024-D.pdf
analiticaydatos
 

Último (15)

Posición global del PIB per cápita Israelí (1948-2024).pdf
Posición global  del PIB per cápita  Israelí  (1948-2024).pdfPosición global  del PIB per cápita  Israelí  (1948-2024).pdf
Posición global del PIB per cápita Israelí (1948-2024).pdf
 
Pobreza porcentual por etnia para el año (2024).pdf
Pobreza porcentual por etnia para el año (2024).pdfPobreza porcentual por etnia para el año (2024).pdf
Pobreza porcentual por etnia para el año (2024).pdf
 
Seguridad y privacidad (1).pptx OdayYoah
Seguridad y privacidad (1).pptx OdayYoahSeguridad y privacidad (1).pptx OdayYoah
Seguridad y privacidad (1).pptx OdayYoah
 
My loft y ciencia uso de My loft. Explica cómo usar My loft para la ucv.
My loft y ciencia uso de My loft. Explica cómo usar My loft para la ucv.My loft y ciencia uso de My loft. Explica cómo usar My loft para la ucv.
My loft y ciencia uso de My loft. Explica cómo usar My loft para la ucv.
 
Análisis comparativo del olivo en los mercados de Noruega, España y Perú
Análisis comparativo del olivo en los mercados de Noruega, España y PerúAnálisis comparativo del olivo en los mercados de Noruega, España y Perú
Análisis comparativo del olivo en los mercados de Noruega, España y Perú
 
La semiología se encarga de estudiar los síntomas
La semiología se encarga de estudiar los síntomasLa semiología se encarga de estudiar los síntomas
La semiología se encarga de estudiar los síntomas
 
XNXX.pptxjsjssjsjsjjsjsjsjsjjsjejejejkdkdk
XNXX.pptxjsjssjsjsjjsjsjsjsjjsjejejejkdkdkXNXX.pptxjsjssjsjsjjsjsjsjsjjsjejejejkdkdk
XNXX.pptxjsjssjsjsjjsjsjsjsjjsjejejejkdkdk
 
Análisis integral de puesto de trabajo AFRO.pdf
Análisis integral de puesto de trabajo AFRO.pdfAnálisis integral de puesto de trabajo AFRO.pdf
Análisis integral de puesto de trabajo AFRO.pdf
 
¿Qué es el texto científico? Presentación para la clase de comunicación escri...
¿Qué es el texto científico? Presentación para la clase de comunicación escri...¿Qué es el texto científico? Presentación para la clase de comunicación escri...
¿Qué es el texto científico? Presentación para la clase de comunicación escri...
 
Paisajismo Chino - Vegetacion y su historia
Paisajismo Chino - Vegetacion y su historiaPaisajismo Chino - Vegetacion y su historia
Paisajismo Chino - Vegetacion y su historia
 
CARTA DE ATENAS 1931 - Infografia Patrimonio
CARTA DE ATENAS 1931 - Infografia PatrimonioCARTA DE ATENAS 1931 - Infografia Patrimonio
CARTA DE ATENAS 1931 - Infografia Patrimonio
 
Estudio Índice de Igualdad 2024 de Ipsos
Estudio Índice de Igualdad 2024 de IpsosEstudio Índice de Igualdad 2024 de Ipsos
Estudio Índice de Igualdad 2024 de Ipsos
 
Países con mayores líneas de trenes de alta velocidad (2021).pdf
Países con  mayores líneas de trenes de alta velocidad  (2021).pdfPaíses con  mayores líneas de trenes de alta velocidad  (2021).pdf
Países con mayores líneas de trenes de alta velocidad (2021).pdf
 
La Inteligencia Artificial -AnaliticayDatos-BeatrizGarcia-Abril2024-D.pdf
La Inteligencia Artificial -AnaliticayDatos-BeatrizGarcia-Abril2024-D.pdfLa Inteligencia Artificial -AnaliticayDatos-BeatrizGarcia-Abril2024-D.pdf
La Inteligencia Artificial -AnaliticayDatos-BeatrizGarcia-Abril2024-D.pdf
 
Guía rápida del uso del paquete estadístico Jamovi
Guía rápida del uso del paquete estadístico JamoviGuía rápida del uso del paquete estadístico Jamovi
Guía rápida del uso del paquete estadístico Jamovi
 

Herramientas para el Análisis de Big Data

  • 1. Herramientas para el Análisis de Big Data Elaborado por: Julio Manuel Burgos Chinchay 2021
  • 2. 1. Proyecto individual evaluado por pares El presente reporte tuvo como base la información suministrada para el curso EDX Herramientas para el análisis de la Big Data, practica entre pares. El caso analiza los datos sobre la Librería Iztaccihuatl Respuesta a las preguntas:  ¿Qué lenguaje de programación para ciencia de datos utilizaría para realizar el análisis de datos de la Librería Iztaccihuatl? Para el análisis se usó en lenguaje R, pues es de código abierto y de libre uso. Además use la librería Dplyr para facilitar el análisis de los datos.  ¿Qué predicciones se podrían obtener de los datos de la Librería Iztaccihuatl? La librería ofrece 10mil libros de los cuales alrededor de 8 mil están en ingles, eso quiere decir que sus clientes son Anglohablantes. Los libros mas recientes son del 2017. La librería tiene libros de 4664 autores y el de mayor variedad son los de Stephen King. En promedio los libros que venden tienen calificación de 4.02 estrellas lo cual indica que es aceptado por el publico objetivo.
  • 3. A pesar de que el registro indica que venden 10mil títulos, estos se reducen a 4664 si hacemos el filtro por título original, la diferencia se debe a nuevas ediciones del mismo libro. Sobre el archivo top_books, se encuentra que tiene información sobre los 120 libros más vendidos y esos son suministrados por 21 editoriales. El autor con más Best Seller es Meyer, Sthepanie con 6 libros. El libro con mejor calificacióne es “The Complete Calvin and Hobbes” con 4.82. El autor con mejor calificación es "Anonymous, Lane T. Dennis, Wayne A. Grudem" con 4.76.  ¿Qué adecuaciones se podría hacer a los datos de la Librería Iztaccihuatlpara poderrealizar un análisis predictivo? Debería tener un registro de las ventas por id de libro, para analizar si el catalogo de libros logra las ventas esperadas. Debería tener fecha de ingreso a la librería para saber desde cuando no se vende el libro y así estimular las ventas a través de promociones.
  • 4.  ¿Qué tipo de base de datos se utilizaría para alojar los análisis de los datos de la Librería Iztaccihuatl? Los datos se conocen desde el inicio así que podemos usar una Base de datos SQL.  ¿Qué tipo de servicio de la nube podría contratar la Librería Iztaccihuatl para alojar la información y el proyectode ciencia de datos? Todo el sistema de stocks, ventas, calificaciones y demás puede tenerlo en un servicio de almacenamiento de GOOGLE CLOUD. Además puede contratar un servicio para diseñar un Dashboard que realice el análisis de los datos, ejemplo: GOOGLE DATA STUDIO. 2. Predicciones  Los clientes de la Librería Iztaccihuat son anglohablantes.  La Librería Iztaccihuat, tiene un catálogo que es del gusto de sus clientes.  La Librería Iztaccihuat tiene varias ediciones del mismo libro. 3. Conclusiones: La información que brindan es de ayuda para entender de manera general el negocio de la librería, sin embargo, se requiere diseñar indicadores de desempeño para identificar oportunidades del negocio.
  • 5. 4. Algoritmo usado books <- read.csv(choose.files(),header = TRUE,sep = ",") ratings <- read.csv(choose.files(),header = TRUE,sep = ",") to_read <- read.csv(choose.files(),header = TRUE,sep = ",") top_books <- read.csv(choose.files(),header = TRUE,sep = ";") ## Analizo el archivo Books nrow(books) ## cantidad de libros tabla_libros <- as.data.frame(table(books$language_code)) head(tabla_libros[order(tabla_libros$Freq, decreasing = TRUE),]) autor <- as.data.frame(table(books$authors), stringsAsFactors = FALSE) print(autor[order(autor$Freq, decreasing=TRUE),]) ## Los con mas libros autores nrow(autor) antiguedad <- as.data.frame(table(books$original_publication_year)) antiguedad <- antiguedad[order(antiguedad$Var1),] hist(books$average_rating, plot = TRUE) prom_valor<- quantile(books$average_rating) print(prom_valor) ##En promedio sus libros tiene una calificación de 4 nrow(as.data.frame(unique(books$authors))) ## Numero de Autores nrow(as.data.frame(unique(books$original_title))) ## Ctd. Titulos diferentes ##Analizo el top_books nrow(top_books) unique(top_books$Publisher.Group) ## 21 Editorials son las que más libros venden autores_best_seler <- as.data.frame(table(top_books$Author), stringsAsFactors = FALSE) autores_best_seler[order(autores_best_seler$Freq,decreasing = TRUE),] libro_caract <- table(top_books$Binding) ##Analizo Mejores Calificaciones por autor library(dplyr)
  • 6. books %>% group_by(original_title) %>% summarise(promedio = mean(average_rating),votos = n()) %>% arrange(desc(promedio)) books %>% group_by(authors) %>% summarise(promedio = mean(average_rating),votos = n()) %>% arrange(desc(promedio))