SlideShare una empresa de Scribd logo
1 de 6
Descargar para leer sin conexión
María Cristina Dejoz Díez
Herramientas para el Análisis de Big Data
PRÁCTICA TEMA 2
Aplicando la Ciencia de Datos en una organización
Índice
Introducción ..............................................................................................................2
Cuestiones.................................................................................................................4
Conclusiones..............................................................................................................5
Introducción
A continuación se va a desarrollar la práctica relativa a la aplicación de la ciencia
de datos a una organización. Para ello es necesario conocer el contexto de la práctica,
que se trata de la librería de Iztaccihuatl mediante la ciencia de datos y desarrollar una
mejor estrategia para la toma de decisiones. La librería contiene una carpeta denominada
“datasets_books” dentro de la cual se alojan los siguientes archivos: books; top_books;
raitings; to_read.
El archivo “books” contiene los siguientes datos:
• Id - Identificador del registro
• Book Id - Identificador del libro
• Number Editions - Número de ediciones
• ISBN - Clave estándar internacional del libro
• ISBN13 - Clave estándar extendida internacional del libro
• Authors - Autor del libro
• Original Publication - Fecha de publicación
• Original Title - Título original del libro
• Title - Título del libro
• Language Code - Clave de idioma del libro
• Average Rating - Promedio de la clasificación del libro
• Image - Enlace a la imagen de la portada del libro
• Small Image - Enlace a la imagen en versión optimizada de la portada del
libro.
El archivo “top_books” contiene los siguientes datos:
• Position - Posición del libro en la clasificación del libro
• ISBN - Clave estándar extendida internacional del libro
• Title - Título del libro
• Author - Autor del libro
• Imprint - Editorial
• Publisher Group - Grupo Editorial
• Volume - Volumen de ventas hasta el 2010
• Value - Ventas determinadas por el volumen
• RRP - Precio recomendado para minoristas
• ASP - Precio promedio para venta
• Binding - Tipo de encuadernación
• Publ Date - Fecha de publicación
• Product Class - Clasificación del libro
• Classification - Clasificación General del libro
El archivo “ratings” contiene los siguientes datos:
• Book Id - Identificador del libro
• User Id - Identificador del cliente/usuario que clasifico un libro
• Rating - Nivel de clasificación del libro.
El archivo “to_read” contiene los siguientes datos:
• User Id - Identificador del cliente/usuario que clasifico un libro
• Book Id - Identificador del libro
El archivo “books” contiene los datos generales de cada libro existente en la
librería y además menciona el promedio de clasificación de cada libro de acuerdo a las
votaciones y compras del cliente.
El archivo “top_books” contiene el top 20 de los libros más vendidos de acuerdo a una
clasificación general.
El archivo “ratings” contiene los datos de los libros más votados por los clientes dentro
del sitio web de la librería.
El archivo “to read” contiene las recomendaciones que cada cliente o usuario
realiza en el sitio web sobre libros para leer.
Cuestiones
Para la realización de la práctica se va a contestar a una serie de cuestiones
planteadas:
1. ¿Qué lenguaje de programación para ciencia de datos utilizaría para realizar el
análisis de datos de la Librería Iztaccihuatl?
El lenguaje de programación que emplearía para realizar el análisis de datos de la
Librería Iztaccihuatl, sería un lenguaje de programación compatible con la base de datos
de dicha librería y que además tuviera herramientas o paquetes que permitan realizar el
análisis de datos como por ejemplo el lenguaje de programación de Python o Matlab.
2. ¿Qué predicciones se podrían obtener de los datos de la Librería Iztaccihuatl?
Se pueden obtener infinidad de datos de la librería Iztaccihuatl, desde simplemente los
datos que esta alberga, como por ejemplo conocer la cantidad de libros diferentes que
se dispone de un mismo autor.
Con el archivo book id se puede conocer qué libros son los que más se prestan y por
tanto ponerlos más a la vista.
También se puede conocer qué clientes se llevan varios libros a la vez y pensar en si
existe relación entre ellos y si es así reorganizar las estanterías para que los libros se
encontraran juntos.
Estas son algunas de las muchas predicciones que se podrían hacer basándonos en la
base de datos de la librería Iztaccihuat.
3. ¿Qué adecuaciones se podría hacer a los datos de la Librería Iztaccihuatl para
poder realizar un análisis predictivo?
Las adecuaciones que habría que realizar para que se pudiera llevar a cabo un análisis
predictivo de los datos serían principalmente hacer que todos los datos fueran del mismo
tipo y que estuvieran bien clasificados. Es decir, dotar de orden y coherencia a los datos.
4. ¿Qué tipo de base de datos se utilizaría para alojar los análisis de los datos de
la Librería Iztaccihuatl?
La base de datos que yo emplearía para alojar los datos de la Librería Iztaccihuatl, sería
de tipo dinámica, en la cual los datos se pudieran ir modificando a tiempo real cuando
a una persona se le prestara un libro. Además, la crearía con una estructura tipo
relacional para permitir crear datos y relacionarlos entre otros ya existentes, de esta
forma luego el análisis de los datos podría ser llevado a cabo delimitando ciertas
variables y viendo qué relaciones existen entre varias variables.
5. ¿Qué tipo de servicio de la nube podría contratar la Librería Iztaccihuatl para
alojar la información y el proyecto de ciencia de datos?
Los servicios en la nube que podría contratar la Librería son desde una base de datos en
la nube para liberar espacio de sus propios servidores a un servicio de cloud computing
que permitiera realizar predicciones complejas con mas potencia que los servidores de
la propia librería.
Estos servicios los ofrecen diversas compañías, como google, amazon, alibaba group,
etc.
Desde mi punto de vista el servicio en la nube qué más puede interesar a la librería sería
el de alojar la base de datos para que de esta manera desde diferentes ordenadores
tuvieran acceso a dicha base de datos y pudieran modificarla siempre que se den los
permisos de administración. Esto es útil para que haya más de un librero prestando libros
al mismo tiempo.
Conclusiones
Como conclusiones del proyecto me gustaría recalcar, que se debería emplear un
lenguaje de programación que permitiera realizar análisis estadísticos y predictivos como
Matlab, Python, Java o R. Que sería necesario dotar de coherencia a los datos para poder
obtener información, entre esta coherencia, eliminar duplicidades, evitar outliers, y que
los datos fueran todos del mismo tipo. Además, la base de datos empleada debería tener
la suficiente flexibilidad para que con los permisos de administración y técnicas de
análisis de big data y maching learning se pudieran realizar las predicciones específicas.
En cuanto a los servicios de computación en la nube pueden ser una herramienta de gran
utilidad para no tener alojados los programas en el propio servidor de la librería, sino que
se externalizarían estos servicios. Para determinar qué servicio de cloud computing es el
adecuado haría falta realizar una comparativa de aquellos servidores que trabajan con el
lenguaje de programación que hemos escogido inicialmente, además de ver qué
prestaciones ofrecen con qué calidad y precio.

Más contenido relacionado

La actualidad más candente

Scholarly Communication 101
Scholarly Communication 101Scholarly Communication 101
Scholarly Communication 101Claire Sewell
 
Control Bibliográfico Universal CBU
Control Bibliográfico Universal CBUControl Bibliográfico Universal CBU
Control Bibliográfico Universal CBUPaola Andrea Ramirez
 
Utilizando la ciencia de datos en una organización
Utilizando la ciencia de datos en una organizaciónUtilizando la ciencia de datos en una organización
Utilizando la ciencia de datos en una organizaciónDiego Farfan
 
Categories of user and their information needs2
Categories of user and their information needs2Categories of user and their information needs2
Categories of user and their information needs2Aparna Sane
 
Steps for successfully submitting your scientific article
Steps for successfully submitting  your  scientific articleSteps for successfully submitting  your  scientific article
Steps for successfully submitting your scientific articleTamer Hamdy
 
Geographical sources
Geographical sourcesGeographical sources
Geographical sourcesJohan Koren
 
Ensayo de Penetracion Estandar
Ensayo de Penetracion EstandarEnsayo de Penetracion Estandar
Ensayo de Penetracion Estandarcristiansorianoc
 
DIAGRAMA DE FLUJO DE LA INVESTIGACIÓN EN UNA BIBLIOTECA
DIAGRAMA DE FLUJO DE LA INVESTIGACIÓN EN UNA BIBLIOTECADIAGRAMA DE FLUJO DE LA INVESTIGACIÓN EN UNA BIBLIOTECA
DIAGRAMA DE FLUJO DE LA INVESTIGACIÓN EN UNA BIBLIOTECAMaria Lopez Matias
 
Scopus Journal Metrics SNIP & SJR
Scopus Journal Metrics SNIP & SJRScopus Journal Metrics SNIP & SJR
Scopus Journal Metrics SNIP & SJRf kersten
 
Densidad natural por el método de la parafina
Densidad natural por el método de la parafinaDensidad natural por el método de la parafina
Densidad natural por el método de la parafinaLizeth Matute Pardo
 
National_Digital_Library_of_India_.ppt
National_Digital_Library_of_India_.pptNational_Digital_Library_of_India_.ppt
National_Digital_Library_of_India_.pptJiwaji university
 
Caso de estudio librería iztaccíhuatl
Caso de estudio librería iztaccíhuatlCaso de estudio librería iztaccíhuatl
Caso de estudio librería iztaccíhuatlFraniel Ricoveri
 

La actualidad más candente (15)

Scholarly Communication 101
Scholarly Communication 101Scholarly Communication 101
Scholarly Communication 101
 
Library portal by Gaurav Boudh
Library portal by Gaurav BoudhLibrary portal by Gaurav Boudh
Library portal by Gaurav Boudh
 
Control Bibliográfico Universal CBU
Control Bibliográfico Universal CBUControl Bibliográfico Universal CBU
Control Bibliográfico Universal CBU
 
Utilizando la ciencia de datos en una organización
Utilizando la ciencia de datos en una organizaciónUtilizando la ciencia de datos en una organización
Utilizando la ciencia de datos en una organización
 
Categories of user and their information needs2
Categories of user and their information needs2Categories of user and their information needs2
Categories of user and their information needs2
 
Steps for successfully submitting your scientific article
Steps for successfully submitting  your  scientific articleSteps for successfully submitting  your  scientific article
Steps for successfully submitting your scientific article
 
Impact factor
Impact factorImpact factor
Impact factor
 
Geographical sources
Geographical sourcesGeographical sources
Geographical sources
 
Ensayo de Penetracion Estandar
Ensayo de Penetracion EstandarEnsayo de Penetracion Estandar
Ensayo de Penetracion Estandar
 
Altmetrics
Altmetrics Altmetrics
Altmetrics
 
DIAGRAMA DE FLUJO DE LA INVESTIGACIÓN EN UNA BIBLIOTECA
DIAGRAMA DE FLUJO DE LA INVESTIGACIÓN EN UNA BIBLIOTECADIAGRAMA DE FLUJO DE LA INVESTIGACIÓN EN UNA BIBLIOTECA
DIAGRAMA DE FLUJO DE LA INVESTIGACIÓN EN UNA BIBLIOTECA
 
Scopus Journal Metrics SNIP & SJR
Scopus Journal Metrics SNIP & SJRScopus Journal Metrics SNIP & SJR
Scopus Journal Metrics SNIP & SJR
 
Densidad natural por el método de la parafina
Densidad natural por el método de la parafinaDensidad natural por el método de la parafina
Densidad natural por el método de la parafina
 
National_Digital_Library_of_India_.ppt
National_Digital_Library_of_India_.pptNational_Digital_Library_of_India_.ppt
National_Digital_Library_of_India_.ppt
 
Caso de estudio librería iztaccíhuatl
Caso de estudio librería iztaccíhuatlCaso de estudio librería iztaccíhuatl
Caso de estudio librería iztaccíhuatl
 

Similar a Practica mariadejoz

Aplicando la Ciencia de Datos en una organización.docx
Aplicando la Ciencia de Datos en una organización.docxAplicando la Ciencia de Datos en una organización.docx
Aplicando la Ciencia de Datos en una organización.docxLambofgod1993
 
Aplicando la Ciencia de Datos en una organización
Aplicando la Ciencia de Datos en una organización Aplicando la Ciencia de Datos en una organización
Aplicando la Ciencia de Datos en una organización JenniferTorres155
 
Aplicando Ciencia de Datos en una Organización
Aplicando Ciencia de Datos en una OrganizaciónAplicando Ciencia de Datos en una Organización
Aplicando Ciencia de Datos en una OrganizaciónCarlosMacarlup
 
Proyecto 1 ciencia de datos
Proyecto 1 ciencia de datosProyecto 1 ciencia de datos
Proyecto 1 ciencia de datosAlejandro Moyano
 
Proyecto 1 ciencia de datos
Proyecto 1 ciencia de datosProyecto 1 ciencia de datos
Proyecto 1 ciencia de datosAlejandro Moyano
 
Proyecto 1 ciencia de datos
Proyecto 1 ciencia de datosProyecto 1 ciencia de datos
Proyecto 1 ciencia de datosAlejandro Moyano
 
Proyecto individual
Proyecto individualProyecto individual
Proyecto individualFernandoss2
 
Aplicando la ciencia de datos en una organización
Aplicando la ciencia de datos en una organizaciónAplicando la ciencia de datos en una organización
Aplicando la ciencia de datos en una organizaciónKozhayaSfeir
 
APLICANDO LA CIENCIA DE DATOS EN UNA ORGANIZACIÓN - práctica.pdf
APLICANDO LA CIENCIA DE DATOS EN UNA ORGANIZACIÓN - práctica.pdfAPLICANDO LA CIENCIA DE DATOS EN UNA ORGANIZACIÓN - práctica.pdf
APLICANDO LA CIENCIA DE DATOS EN UNA ORGANIZACIÓN - práctica.pdfCarlosChin
 
Trabajo ciencia de datos camilo sanhueza
Trabajo ciencia de datos camilo sanhuezaTrabajo ciencia de datos camilo sanhueza
Trabajo ciencia de datos camilo sanhuezaCamilo Sanhueza Nuñez
 
Herramientas para el Análisis de Big Data
 Herramientas para el Análisis de Big Data Herramientas para el Análisis de Big Data
Herramientas para el Análisis de Big DataJulio Burgos
 
Caso libreria - herramientas para el análisis de big data - edx
Caso libreria - herramientas para el análisis de big data - edxCaso libreria - herramientas para el análisis de big data - edx
Caso libreria - herramientas para el análisis de big data - edxSebastiaFerran
 

Similar a Practica mariadejoz (20)

Aplicando la Ciencia de Datos en una organización.docx
Aplicando la Ciencia de Datos en una organización.docxAplicando la Ciencia de Datos en una organización.docx
Aplicando la Ciencia de Datos en una organización.docx
 
edx caso.docx
edx caso.docxedx caso.docx
edx caso.docx
 
Aplicando la Ciencia de Datos en una organización
Aplicando la Ciencia de Datos en una organización Aplicando la Ciencia de Datos en una organización
Aplicando la Ciencia de Datos en una organización
 
Aplicando Ciencia de Datos en una Organización
Aplicando Ciencia de Datos en una OrganizaciónAplicando Ciencia de Datos en una Organización
Aplicando Ciencia de Datos en una Organización
 
Reporte_practica_2.pdf
Reporte_practica_2.pdfReporte_practica_2.pdf
Reporte_practica_2.pdf
 
Proyecto 1 ciencia de datos
Proyecto 1 ciencia de datosProyecto 1 ciencia de datos
Proyecto 1 ciencia de datos
 
Proyecto 1 ciencia de datos
Proyecto 1 ciencia de datosProyecto 1 ciencia de datos
Proyecto 1 ciencia de datos
 
Proyecto 1 ciencia de datos
Proyecto 1 ciencia de datosProyecto 1 ciencia de datos
Proyecto 1 ciencia de datos
 
Proyecto Jaime Salinas
Proyecto Jaime SalinasProyecto Jaime Salinas
Proyecto Jaime Salinas
 
Proyecto individual
Proyecto individualProyecto individual
Proyecto individual
 
Trabajo curso.docx
Trabajo curso.docxTrabajo curso.docx
Trabajo curso.docx
 
Aplicando la ciencia de datos en una organización
Aplicando la ciencia de datos en una organizaciónAplicando la ciencia de datos en una organización
Aplicando la ciencia de datos en una organización
 
APLICANDO LA CIENCIA DE DATOS EN UNA ORGANIZACIÓN - práctica.pdf
APLICANDO LA CIENCIA DE DATOS EN UNA ORGANIZACIÓN - práctica.pdfAPLICANDO LA CIENCIA DE DATOS EN UNA ORGANIZACIÓN - práctica.pdf
APLICANDO LA CIENCIA DE DATOS EN UNA ORGANIZACIÓN - práctica.pdf
 
Proyecto de evaluación de pares
Proyecto de evaluación de paresProyecto de evaluación de pares
Proyecto de evaluación de pares
 
Trabajo ciencia de datos camilo sanhueza
Trabajo ciencia de datos camilo sanhuezaTrabajo ciencia de datos camilo sanhueza
Trabajo ciencia de datos camilo sanhueza
 
Herramientas para el Análisis de Big Data
 Herramientas para el Análisis de Big Data Herramientas para el Análisis de Big Data
Herramientas para el Análisis de Big Data
 
Herramientas de búsqueda
Herramientas de búsquedaHerramientas de búsqueda
Herramientas de búsqueda
 
libreria sistema.docx
libreria sistema.docxlibreria sistema.docx
libreria sistema.docx
 
Caso libreria - herramientas para el análisis de big data - edx
Caso libreria - herramientas para el análisis de big data - edxCaso libreria - herramientas para el análisis de big data - edx
Caso libreria - herramientas para el análisis de big data - edx
 
Big data ejercicio
Big data ejercicioBig data ejercicio
Big data ejercicio
 

Último

Las mujeres más ricas del mundo (2024).pdf
Las mujeres más ricas del mundo (2024).pdfLas mujeres más ricas del mundo (2024).pdf
Las mujeres más ricas del mundo (2024).pdfJC Díaz Herrera
 
SUNEDU - Superintendencia Nacional de Educación superior Universitaria
SUNEDU - Superintendencia Nacional de Educación superior UniversitariaSUNEDU - Superintendencia Nacional de Educación superior Universitaria
SUNEDU - Superintendencia Nacional de Educación superior Universitariachayananazcosimeon
 
PANTEÓN DE Paris en historia de la arquitectura
PANTEÓN DE Paris en historia de la arquitecturaPANTEÓN DE Paris en historia de la arquitectura
PANTEÓN DE Paris en historia de la arquitecturaRosaHurtado26
 
Posiciones del IDH a nivel global en México (1982-2024).pdf
Posiciones del IDH a nivel global en México (1982-2024).pdfPosiciones del IDH a nivel global en México (1982-2024).pdf
Posiciones del IDH a nivel global en México (1982-2024).pdfJC Díaz Herrera
 
Familias_más_ricas_de_AL_en_la_historia.pdf
Familias_más_ricas_de_AL_en_la_historia.pdfFamilias_más_ricas_de_AL_en_la_historia.pdf
Familias_más_ricas_de_AL_en_la_historia.pdfJC Díaz Herrera
 
triptico-de-las-drogas en la adolescencia
triptico-de-las-drogas en la adolescenciatriptico-de-las-drogas en la adolescencia
triptico-de-las-drogas en la adolescenciaferg6120
 
Análisis de datos en acción: Optimizando el crecimiento de Cyclistic
Análisis de datos en acción: Optimizando el crecimiento de CyclisticAnálisis de datos en acción: Optimizando el crecimiento de Cyclistic
Análisis de datos en acción: Optimizando el crecimiento de CyclisticJamithGarcia1
 
Los_países_con_la_mayor_cantidad_de_rascacielos (2023).pdf
Los_países_con_la_mayor_cantidad_de_rascacielos (2023).pdfLos_países_con_la_mayor_cantidad_de_rascacielos (2023).pdf
Los_países_con_la_mayor_cantidad_de_rascacielos (2023).pdfJC Díaz Herrera
 
Los artistas mexicanos con más ventas de discos en la historia (2024).pdf
Los artistas mexicanos con más ventas de discos en la historia (2024).pdfLos artistas mexicanos con más ventas de discos en la historia (2024).pdf
Los artistas mexicanos con más ventas de discos en la historia (2024).pdfJC Díaz Herrera
 
Posiciones en el IDH global de EUA (1950-2024).pdf
Posiciones en el IDH global de EUA (1950-2024).pdfPosiciones en el IDH global de EUA (1950-2024).pdf
Posiciones en el IDH global de EUA (1950-2024).pdfJC Díaz Herrera
 
Evolución de la fortuna de la familia Slim (1994-2024).pdf
Evolución de la fortuna de la familia Slim (1994-2024).pdfEvolución de la fortuna de la familia Slim (1994-2024).pdf
Evolución de la fortuna de la familia Slim (1994-2024).pdfJC Díaz Herrera
 
Qué es un Histograma estadístico teoria y problema
Qué es un Histograma estadístico teoria y problemaQué es un Histograma estadístico teoria y problema
Qué es un Histograma estadístico teoria y problemaJoellyAlejandraRodrg
 
Posiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdf
Posiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdfPosiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdf
Posiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdfJC Díaz Herrera
 
Cuáles son las características biológicas que están marcadas en tu individual...
Cuáles son las características biológicas que están marcadas en tu individual...Cuáles son las características biológicas que están marcadas en tu individual...
Cuáles son las características biológicas que están marcadas en tu individual...israel garcia
 
Las marcas automotrices con más ventas de vehículos (2024).pdf
Las marcas automotrices con más ventas de vehículos (2024).pdfLas marcas automotrices con más ventas de vehículos (2024).pdf
Las marcas automotrices con más ventas de vehículos (2024).pdfJC Díaz Herrera
 
INTRODUCCION-A-LOS-ALGORITMOS-BASICOS.pptx
INTRODUCCION-A-LOS-ALGORITMOS-BASICOS.pptxINTRODUCCION-A-LOS-ALGORITMOS-BASICOS.pptx
INTRODUCCION-A-LOS-ALGORITMOS-BASICOS.pptxJamesHerberthBacaTel
 
Reservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdf
Reservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdfReservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdf
Reservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdfJC Díaz Herrera
 
Triptico-del-Bullying qué es, cómo detectarlo, donde acudir
Triptico-del-Bullying qué es, cómo detectarlo, donde acudirTriptico-del-Bullying qué es, cómo detectarlo, donde acudir
Triptico-del-Bullying qué es, cómo detectarlo, donde acudirluis809799
 
Países por velocidad de sus misiles hipersónicos (2024).pdf
Países por velocidad de sus misiles hipersónicos  (2024).pdfPaíses por velocidad de sus misiles hipersónicos  (2024).pdf
Países por velocidad de sus misiles hipersónicos (2024).pdfJC Díaz Herrera
 
Posiciones de México en el PNB PPA per cápita (1982-2024).pdf
Posiciones de México en el PNB PPA per cápita (1982-2024).pdfPosiciones de México en el PNB PPA per cápita (1982-2024).pdf
Posiciones de México en el PNB PPA per cápita (1982-2024).pdfJC Díaz Herrera
 

Último (20)

Las mujeres más ricas del mundo (2024).pdf
Las mujeres más ricas del mundo (2024).pdfLas mujeres más ricas del mundo (2024).pdf
Las mujeres más ricas del mundo (2024).pdf
 
SUNEDU - Superintendencia Nacional de Educación superior Universitaria
SUNEDU - Superintendencia Nacional de Educación superior UniversitariaSUNEDU - Superintendencia Nacional de Educación superior Universitaria
SUNEDU - Superintendencia Nacional de Educación superior Universitaria
 
PANTEÓN DE Paris en historia de la arquitectura
PANTEÓN DE Paris en historia de la arquitecturaPANTEÓN DE Paris en historia de la arquitectura
PANTEÓN DE Paris en historia de la arquitectura
 
Posiciones del IDH a nivel global en México (1982-2024).pdf
Posiciones del IDH a nivel global en México (1982-2024).pdfPosiciones del IDH a nivel global en México (1982-2024).pdf
Posiciones del IDH a nivel global en México (1982-2024).pdf
 
Familias_más_ricas_de_AL_en_la_historia.pdf
Familias_más_ricas_de_AL_en_la_historia.pdfFamilias_más_ricas_de_AL_en_la_historia.pdf
Familias_más_ricas_de_AL_en_la_historia.pdf
 
triptico-de-las-drogas en la adolescencia
triptico-de-las-drogas en la adolescenciatriptico-de-las-drogas en la adolescencia
triptico-de-las-drogas en la adolescencia
 
Análisis de datos en acción: Optimizando el crecimiento de Cyclistic
Análisis de datos en acción: Optimizando el crecimiento de CyclisticAnálisis de datos en acción: Optimizando el crecimiento de Cyclistic
Análisis de datos en acción: Optimizando el crecimiento de Cyclistic
 
Los_países_con_la_mayor_cantidad_de_rascacielos (2023).pdf
Los_países_con_la_mayor_cantidad_de_rascacielos (2023).pdfLos_países_con_la_mayor_cantidad_de_rascacielos (2023).pdf
Los_países_con_la_mayor_cantidad_de_rascacielos (2023).pdf
 
Los artistas mexicanos con más ventas de discos en la historia (2024).pdf
Los artistas mexicanos con más ventas de discos en la historia (2024).pdfLos artistas mexicanos con más ventas de discos en la historia (2024).pdf
Los artistas mexicanos con más ventas de discos en la historia (2024).pdf
 
Posiciones en el IDH global de EUA (1950-2024).pdf
Posiciones en el IDH global de EUA (1950-2024).pdfPosiciones en el IDH global de EUA (1950-2024).pdf
Posiciones en el IDH global de EUA (1950-2024).pdf
 
Evolución de la fortuna de la familia Slim (1994-2024).pdf
Evolución de la fortuna de la familia Slim (1994-2024).pdfEvolución de la fortuna de la familia Slim (1994-2024).pdf
Evolución de la fortuna de la familia Slim (1994-2024).pdf
 
Qué es un Histograma estadístico teoria y problema
Qué es un Histograma estadístico teoria y problemaQué es un Histograma estadístico teoria y problema
Qué es un Histograma estadístico teoria y problema
 
Posiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdf
Posiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdfPosiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdf
Posiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdf
 
Cuáles son las características biológicas que están marcadas en tu individual...
Cuáles son las características biológicas que están marcadas en tu individual...Cuáles son las características biológicas que están marcadas en tu individual...
Cuáles son las características biológicas que están marcadas en tu individual...
 
Las marcas automotrices con más ventas de vehículos (2024).pdf
Las marcas automotrices con más ventas de vehículos (2024).pdfLas marcas automotrices con más ventas de vehículos (2024).pdf
Las marcas automotrices con más ventas de vehículos (2024).pdf
 
INTRODUCCION-A-LOS-ALGORITMOS-BASICOS.pptx
INTRODUCCION-A-LOS-ALGORITMOS-BASICOS.pptxINTRODUCCION-A-LOS-ALGORITMOS-BASICOS.pptx
INTRODUCCION-A-LOS-ALGORITMOS-BASICOS.pptx
 
Reservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdf
Reservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdfReservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdf
Reservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdf
 
Triptico-del-Bullying qué es, cómo detectarlo, donde acudir
Triptico-del-Bullying qué es, cómo detectarlo, donde acudirTriptico-del-Bullying qué es, cómo detectarlo, donde acudir
Triptico-del-Bullying qué es, cómo detectarlo, donde acudir
 
Países por velocidad de sus misiles hipersónicos (2024).pdf
Países por velocidad de sus misiles hipersónicos  (2024).pdfPaíses por velocidad de sus misiles hipersónicos  (2024).pdf
Países por velocidad de sus misiles hipersónicos (2024).pdf
 
Posiciones de México en el PNB PPA per cápita (1982-2024).pdf
Posiciones de México en el PNB PPA per cápita (1982-2024).pdfPosiciones de México en el PNB PPA per cápita (1982-2024).pdf
Posiciones de México en el PNB PPA per cápita (1982-2024).pdf
 

Practica mariadejoz

  • 1. María Cristina Dejoz Díez Herramientas para el Análisis de Big Data PRÁCTICA TEMA 2 Aplicando la Ciencia de Datos en una organización
  • 3. Introducción A continuación se va a desarrollar la práctica relativa a la aplicación de la ciencia de datos a una organización. Para ello es necesario conocer el contexto de la práctica, que se trata de la librería de Iztaccihuatl mediante la ciencia de datos y desarrollar una mejor estrategia para la toma de decisiones. La librería contiene una carpeta denominada “datasets_books” dentro de la cual se alojan los siguientes archivos: books; top_books; raitings; to_read. El archivo “books” contiene los siguientes datos: • Id - Identificador del registro • Book Id - Identificador del libro • Number Editions - Número de ediciones • ISBN - Clave estándar internacional del libro • ISBN13 - Clave estándar extendida internacional del libro • Authors - Autor del libro • Original Publication - Fecha de publicación • Original Title - Título original del libro • Title - Título del libro • Language Code - Clave de idioma del libro • Average Rating - Promedio de la clasificación del libro • Image - Enlace a la imagen de la portada del libro • Small Image - Enlace a la imagen en versión optimizada de la portada del libro. El archivo “top_books” contiene los siguientes datos: • Position - Posición del libro en la clasificación del libro • ISBN - Clave estándar extendida internacional del libro • Title - Título del libro • Author - Autor del libro • Imprint - Editorial
  • 4. • Publisher Group - Grupo Editorial • Volume - Volumen de ventas hasta el 2010 • Value - Ventas determinadas por el volumen • RRP - Precio recomendado para minoristas • ASP - Precio promedio para venta • Binding - Tipo de encuadernación • Publ Date - Fecha de publicación • Product Class - Clasificación del libro • Classification - Clasificación General del libro El archivo “ratings” contiene los siguientes datos: • Book Id - Identificador del libro • User Id - Identificador del cliente/usuario que clasifico un libro • Rating - Nivel de clasificación del libro. El archivo “to_read” contiene los siguientes datos: • User Id - Identificador del cliente/usuario que clasifico un libro • Book Id - Identificador del libro El archivo “books” contiene los datos generales de cada libro existente en la librería y además menciona el promedio de clasificación de cada libro de acuerdo a las votaciones y compras del cliente. El archivo “top_books” contiene el top 20 de los libros más vendidos de acuerdo a una clasificación general. El archivo “ratings” contiene los datos de los libros más votados por los clientes dentro del sitio web de la librería. El archivo “to read” contiene las recomendaciones que cada cliente o usuario realiza en el sitio web sobre libros para leer.
  • 5. Cuestiones Para la realización de la práctica se va a contestar a una serie de cuestiones planteadas: 1. ¿Qué lenguaje de programación para ciencia de datos utilizaría para realizar el análisis de datos de la Librería Iztaccihuatl? El lenguaje de programación que emplearía para realizar el análisis de datos de la Librería Iztaccihuatl, sería un lenguaje de programación compatible con la base de datos de dicha librería y que además tuviera herramientas o paquetes que permitan realizar el análisis de datos como por ejemplo el lenguaje de programación de Python o Matlab. 2. ¿Qué predicciones se podrían obtener de los datos de la Librería Iztaccihuatl? Se pueden obtener infinidad de datos de la librería Iztaccihuatl, desde simplemente los datos que esta alberga, como por ejemplo conocer la cantidad de libros diferentes que se dispone de un mismo autor. Con el archivo book id se puede conocer qué libros son los que más se prestan y por tanto ponerlos más a la vista. También se puede conocer qué clientes se llevan varios libros a la vez y pensar en si existe relación entre ellos y si es así reorganizar las estanterías para que los libros se encontraran juntos. Estas son algunas de las muchas predicciones que se podrían hacer basándonos en la base de datos de la librería Iztaccihuat. 3. ¿Qué adecuaciones se podría hacer a los datos de la Librería Iztaccihuatl para poder realizar un análisis predictivo? Las adecuaciones que habría que realizar para que se pudiera llevar a cabo un análisis predictivo de los datos serían principalmente hacer que todos los datos fueran del mismo tipo y que estuvieran bien clasificados. Es decir, dotar de orden y coherencia a los datos. 4. ¿Qué tipo de base de datos se utilizaría para alojar los análisis de los datos de la Librería Iztaccihuatl? La base de datos que yo emplearía para alojar los datos de la Librería Iztaccihuatl, sería de tipo dinámica, en la cual los datos se pudieran ir modificando a tiempo real cuando a una persona se le prestara un libro. Además, la crearía con una estructura tipo relacional para permitir crear datos y relacionarlos entre otros ya existentes, de esta forma luego el análisis de los datos podría ser llevado a cabo delimitando ciertas variables y viendo qué relaciones existen entre varias variables.
  • 6. 5. ¿Qué tipo de servicio de la nube podría contratar la Librería Iztaccihuatl para alojar la información y el proyecto de ciencia de datos? Los servicios en la nube que podría contratar la Librería son desde una base de datos en la nube para liberar espacio de sus propios servidores a un servicio de cloud computing que permitiera realizar predicciones complejas con mas potencia que los servidores de la propia librería. Estos servicios los ofrecen diversas compañías, como google, amazon, alibaba group, etc. Desde mi punto de vista el servicio en la nube qué más puede interesar a la librería sería el de alojar la base de datos para que de esta manera desde diferentes ordenadores tuvieran acceso a dicha base de datos y pudieran modificarla siempre que se den los permisos de administración. Esto es útil para que haya más de un librero prestando libros al mismo tiempo. Conclusiones Como conclusiones del proyecto me gustaría recalcar, que se debería emplear un lenguaje de programación que permitiera realizar análisis estadísticos y predictivos como Matlab, Python, Java o R. Que sería necesario dotar de coherencia a los datos para poder obtener información, entre esta coherencia, eliminar duplicidades, evitar outliers, y que los datos fueran todos del mismo tipo. Además, la base de datos empleada debería tener la suficiente flexibilidad para que con los permisos de administración y técnicas de análisis de big data y maching learning se pudieran realizar las predicciones específicas. En cuanto a los servicios de computación en la nube pueden ser una herramienta de gran utilidad para no tener alojados los programas en el propio servidor de la librería, sino que se externalizarían estos servicios. Para determinar qué servicio de cloud computing es el adecuado haría falta realizar una comparativa de aquellos servidores que trabajan con el lenguaje de programación que hemos escogido inicialmente, además de ver qué prestaciones ofrecen con qué calidad y precio.