SlideShare una empresa de Scribd logo
1 de 12
Descargar para leer sin conexión
Utilizando la Ciencia de Datos en una
Organización
SFEIR, KOZHAYA ELÍAS
Título: Utilizando la Ciencia de Datos en una organización
Objetivo: Analizar fuentes de información externas e internas de una
organización a través de herramientas computacionales para generar un
modelo basado en Ciencia de Datos como apoyo a la toma de decisiones.
La Librería Iztaccihuatl ubicada en la ciudad de Monterrey, Nuevo León,
México ha decidido desarrollar un proyecto basada en ciencia de datos para
mejorar sus indicadores de desempeño (KPI’s) y a la vez desarrollar una mejor
estrategia en la toma de decisiones.
En la carpeta denominada “datasets_books” se encuentran los siguientes
archivos: books; top_books; raitings; to_read.
Una vez analizada la información de la carpeta “datasets_books” deberás
presentar en un documento Word la respuesta a las siguientes preguntas:
• ¿Qué indicadores serían los más importantes a determinar de
acuerdo a la información presentada?
• ¿Qué tipo de análisis sería el más adecuado y por qué?
• ¿Qué decisiones se podrían tomar basadas en los descubrimientos o
inferencias de la información analizada?
El archivo “books” contiene los siguientes datos:
• Id - Identificador del registro
• Book Id - Identificador del libro
• Number Editions - Número de ediciones
• ISBN - Clave estándar internacional del libro
• ISBN13 - Clave estándar extendida internacional del libro
• Authors - Autor del libro
• Original Publication - Fecha de publicación
• Original Title - Título original del libro
• Title - Título del libro
• Language Code - Clave de idioma del libro
• Average Rating - Promedio de la clasificación del libro
• Image - Enlace a la imagen de la portada del libro
• Small Image - Enlace a la imagen en versión optimizada de la portada
del libro.
El archivo “top_books” contiene los siguientes datos:
• Position - Posición del libro en la clasificación del libro
• ISBN - Clave estándar extendida internacional del libro
• Title - Título del libro
• Author - Autor del libro
• Imprint - Editorial
• Publisher Group - Grupo Editorial
• Volume - Volumen de ventas hasta el 2010
• Value - Ventas determinadas por el volumen
• RRP - Precio recomendado para minoristas
• ASP - Precio promedio para venta
• Binding - Tipo de encuadernación
• Publ Date - Fecha de publicación
• Product Class - Clasificación del libro
• Classification - Clasificación General del libro
El archivo “ratings” contiene los siguientes datos:
• Book Id - Identificador del libro
• User Id - Identificador del cliente/usuario que clasifico un libro
• Rating - Nivel de clasificación del libro.
El archivo “to_read” contiene los siguientes datos:
• User Id - Identificador del cliente/usuario que clasifico un libro
• Book Id - Identificador del libro
El archivo “books” contiene los datos generales de cada libro existente en
la librería y además menciona el promedio de clasificación de cada libro de
acuerdo a las votaciones y compras del cliente.
El archivo “top_books” contiene el top 20 de los libros más vendidos de
acuerdo a una clasificación general.
El archivo “ratings” contiene los datos de los libros más votados por los
clientes dentro del sitio web de la librería.
El archivo “to_read” contiene las recomendaciones que cada cliente o
usuario realiza en el sitio web sobre libros para leer.
Indice
Introduccion ----------------------------------------------------- 6
Metodología ----------------------------------------------------- 7
Analisis de los datos ------------------------------------------- 8
Toma de decisiones -------------------------------------------- 9
Conclusion ------------------------------------------------------ 12
Introduccion
El uso moderno del término "big data" tiende a referirse al análisis del
comportamiento del usuario, extrayendo valor de los datos almacenados, y
formulando predicciones a través de los patrones observados.
En este contexto, convertirse en una biblioteca ágil, que pueda reaccionar
fácilmente a la evolución de las necesidades de los usuarios y adaptarse
rápidamente, es un desafío que se puede afrontarse prácticamente de una
sola forma (al menos en la actualidad): con un correcto proceso de
recolección, interpretación y transformación de los datos, para la correcta
toma de decisiones, o sea, integrando el analisis de datos a nuestra
biblioteca.
Pero el analisis de la “Big Data” para la correcta y solida toma de
decisiones, debe basarse en el uso adecuado y correcto de las herramientas
indicadas para el analisis de la informacion.
Con fuentes de datos dispares, el procesamiento manual, el
almacenamiento que no está en línea y la falta de una visión completa, la
recopilación y el análisis de los datos de la biblioteca a menudo pueden
parecer un peso que se arrastra.
Metodología
Teniendo en cuenta el objetivo de la Librería Iztaccihuatl, en este trabajo
se enfoca pricipalmente en el analizis de los datos utilizando comparacion,
calificacion y visualizacion
Comparacion:
Basandonos en los datos recolectados (Del archivo “books”
• Average Rating - Promedio de la clasificación del libro
El archivo “top_books”
• Classification - Clasificación General del libro
El archivo “ratings”
• Rating - Nivel de clasificación del libro.)
Se puede usar el metodo de comparacion para comparar promedios,
puntajes y niveles entre libros asi saber lo preferedo y el menos preferido
de los usuarios.
Calificacion:
Ademas de comparar libros, ahora se puede dar una calificacion a
cada libro basandose en la clasificacion de los usuarios.
Visualizacion:
Ya conocida la clasificacion de cada libro, se puede elaborar graficas
para la presentacion de los datos de forma que facilita el entendimiento de
los datos y conduce a una correcta toma de decisiones.
Analisis de los datos:
Como los datos se basan en la clasificacion que dan los usuarios de la
biblioteca a los libros, el metodo mas facil para analizar tales datos es la
comparacion.
Este metodo permite comparar el nivel de cada libro (muy bueno, bueno,
malo, muy malo, ó con numeros de 5 a 1 donde 5 es el mejor y uno es el
peor, etc), permitiendo asi la clasificacion de los libros no solo de bueno o
malo, sino tambien por categorias (genero, edades, etc).
La clasificacion de los libros nos permite calificarlos y ordenarlos en
segmentos mas pequeños lo que nos facilitará la visualizacion de los datos
al momento de elegir graficas o tablas para el entendimiento de los datos.
Toma de deciciones:
Para hacer que la toma de decisiones sea rapida y eficiente, se puede
presentar un ejemplo de visualizacion de los datos de esta manera:
Se toma como ejemplo 6 libros de 3 categorias diferentes, y se realiza la
colección de datos de 100 usuarios sobre cada libro.
-Tabla 1:
Categoría
1 viajes
2 manualidades
3 ciencia ficción
tipo de categorias
-Tabla 2:
Categoría
Libro 1 1
Libro 2 1
Libro 3 2
Libro 4 2
Libro 5 3
Libro 6 3
libros por categoría
-Tabla 3:
clasificación libro 1 libro 2 libro 3 libro 4 libro 5 libro 6 %
muy bueno 8 15 25 33 70 65 36%
bueno 12 27 25 25 30 28 25%
regular 10 43 23 22 0 7 18%
malo 15 5 25 20 0 0 11%
muy malo 55 10 2 0 0 0 11%
Calificacion de los libros por cantidad de usuarios
-Tabla4:
CALIFICACION Categoria 1 Categoria 2 Categoria 3
Usuarios usuarios porcentaje usuarios porcentaje usuarios porcentaje
muy bueno 216 23 4% 58 10% 135 23%
bueno 147 39 7% 50 8% 58 10%
regular 105 53 9% 45 8% 7 1%
malo 65 20 3% 45 8% 0 0%
muy malo 67 65 11% 2 0% 0 0%
TOTALES 600 200 33% 200 33% 200 33%
Porcentaje de calificación de cada categoría por cantidad de usuarios
-Tabla 5:
Clasificación libro 1 libro 2 libro 3 libro 4 libro 5 libro 6
muy bueno 1% 3% 4% 6% 12% 11%
bueno 2% 5% 4% 4% 5% 5%
regular 2% 7% 4% 4% 0% 1%
malo 3% 1% 4% 3% 0% 0%
muy malo 9% 2% 0% 0% 0% 0%
Porcentaje de calificación por libro
Presentando los mismos datos en graficas de comparación tendremos
Grafica 1:
8
15
25
33
70
65
12
27
25 25
30
28
10
43
23 22
0
7
15
5
25
20
0 0
55
10
2
0 0 0
0
10
20
30
40
50
60
70
80
libro 1 libro 2 libro 3 libro 4 libro 5 libro 6
USUARIOS
LIBROS
Calificacion de libros por usuario
muy bueno bueno regular malo muy malo
Grafico 2:
Este ejemplo de visualización de los datos con tablas y/o en graficas, resume la opinión
de los usuarios sobre 3 categorías y 6 libros (2 de cada categoría).
Dichas tablas demuestran que la categoría preferida de los usuarios es la de ciencia
ficción con 23% de los usuarios (135), y la menos favorita es la categoría viajes con 11%
de los usuarios (65).
Tal presentación facilita la toma de decisiones, por ejemplo: mejorar ofertas sobre
libros de viajes, otros editores y/o autores, etc.
1%
3%
4%
6%
12%
11%
2%
5% 4% 4%
5% 5%
2%
7%
4% 4%
0%
1%
3%
1%
4%
3%
0% 0%
9%
2%
0% 0% 0% 0%
0%
2%
4%
6%
8%
10%
12%
14%
libro 1 libro 2 libro 3 libro 4 libro 5 libro 6
CALIFICACIÓN POR LIBRO
muy bueno bueno regular malo muy malo
Conclusión
La visualización de los datos es muy importante a la hora de tomar decisiones, ya que
facilita la interpretación de los mismos, sin dejar a un lado la correcta elección de tipo
de tablas y gráficas, ya que tablas de cientos o de miles de líneas, dificulta su
entendimiento, por eso hay que agrupar los datos y resumirlos para poder
presentarlos de formas sencillas para quien lo lea.

Más contenido relacionado

La actualidad más candente

La actualidad más candente (19)

Introducción a la ciencia de datos y el big data
Introducción a la ciencia de datos y el big dataIntroducción a la ciencia de datos y el big data
Introducción a la ciencia de datos y el big data
 
Proyecto individual - Introducción a la ciencia de datos
Proyecto individual - Introducción a la ciencia de datosProyecto individual - Introducción a la ciencia de datos
Proyecto individual - Introducción a la ciencia de datos
 
Proyecto herramientas para el análisis de big data
Proyecto herramientas para el análisis de big dataProyecto herramientas para el análisis de big data
Proyecto herramientas para el análisis de big data
 
Utilizando la Ciencia de Datos - Caso: Librería Iztaccihuatl
Utilizando la Ciencia de Datos - Caso: Librería IztaccihuatlUtilizando la Ciencia de Datos - Caso: Librería Iztaccihuatl
Utilizando la Ciencia de Datos - Caso: Librería Iztaccihuatl
 
Caso ciencia de datos libreria iztaccihuatl mauricio figueroa
Caso ciencia de datos libreria iztaccihuatl mauricio figueroaCaso ciencia de datos libreria iztaccihuatl mauricio figueroa
Caso ciencia de datos libreria iztaccihuatl mauricio figueroa
 
Trabajo de ciencia de datos evaluado por pares
Trabajo de ciencia de datos evaluado por paresTrabajo de ciencia de datos evaluado por pares
Trabajo de ciencia de datos evaluado por pares
 
Curso
CursoCurso
Curso
 
Utilizando la ciencia de datos en una organización
Utilizando la ciencia de datos en una organizaciónUtilizando la ciencia de datos en una organización
Utilizando la ciencia de datos en una organización
 
Caso de estudio librería iztaccíhuatl
Caso de estudio librería iztaccíhuatlCaso de estudio librería iztaccíhuatl
Caso de estudio librería iztaccíhuatl
 
Bigdata visualizacion caso libreria iztaccihuatl- paola quiroz
Bigdata visualizacion caso libreria iztaccihuatl- paola quiroz Bigdata visualizacion caso libreria iztaccihuatl- paola quiroz
Bigdata visualizacion caso libreria iztaccihuatl- paola quiroz
 
Utilizando la ciencia de datos en una organización
Utilizando la ciencia de datos en una organizaciónUtilizando la ciencia de datos en una organización
Utilizando la ciencia de datos en una organización
 
Proy eval de pares Jhardena Yauri
Proy eval de pares Jhardena YauriProy eval de pares Jhardena Yauri
Proy eval de pares Jhardena Yauri
 
Practica de metodologías para proyectos de ciencia de datos
Practica de metodologías para proyectos de ciencia de datosPractica de metodologías para proyectos de ciencia de datos
Practica de metodologías para proyectos de ciencia de datos
 
Evaluacion entre pares - Ciencia de datos.
Evaluacion entre pares - Ciencia de datos.Evaluacion entre pares - Ciencia de datos.
Evaluacion entre pares - Ciencia de datos.
 
Practica con evaluación entre pares. Ciencia de Datos.
Practica con evaluación entre pares. Ciencia de Datos.Practica con evaluación entre pares. Ciencia de Datos.
Practica con evaluación entre pares. Ciencia de Datos.
 
Ciencia de datos
Ciencia de datosCiencia de datos
Ciencia de datos
 
Ciencia de datos
Ciencia de datosCiencia de datos
Ciencia de datos
 
Tarea Visualización de datos
Tarea Visualización de datosTarea Visualización de datos
Tarea Visualización de datos
 
Trabajo de visualización de datos evaluado por pares
Trabajo de visualización de datos evaluado por paresTrabajo de visualización de datos evaluado por pares
Trabajo de visualización de datos evaluado por pares
 

Similar a Utilizando la ciencia de datos en una organización

Práctica de evaluación entre pares
Práctica de evaluación entre paresPráctica de evaluación entre pares
Práctica de evaluación entre pares
Sofía Ardila
 

Similar a Utilizando la ciencia de datos en una organización (17)

Proyecto individual evaluado por pares - José Ignacio Mamani Murga
Proyecto individual evaluado por pares - José Ignacio Mamani MurgaProyecto individual evaluado por pares - José Ignacio Mamani Murga
Proyecto individual evaluado por pares - José Ignacio Mamani Murga
 
Proyecto evaluado por pares
Proyecto evaluado por paresProyecto evaluado por pares
Proyecto evaluado por pares
 
3 Visualización de Datos y Storytelling.pdf
3 Visualización de Datos y Storytelling.pdf3 Visualización de Datos y Storytelling.pdf
3 Visualización de Datos y Storytelling.pdf
 
Proyecto individual
Proyecto individualProyecto individual
Proyecto individual
 
Práctica de evaluación entre pares
Práctica de evaluación entre paresPráctica de evaluación entre pares
Práctica de evaluación entre pares
 
evaluacion por pares
evaluacion por paresevaluacion por pares
evaluacion por pares
 
Actividad individual big data
Actividad individual big dataActividad individual big data
Actividad individual big data
 
Introducción a la ciencia de datos y el bg data
Introducción a la ciencia de datos y el bg data Introducción a la ciencia de datos y el bg data
Introducción a la ciencia de datos y el bg data
 
Practica para Data Analítica Descriptiva
Practica para Data Analítica DescriptivaPractica para Data Analítica Descriptiva
Practica para Data Analítica Descriptiva
 
Ev pares
Ev paresEv pares
Ev pares
 
Project.docx
Project.docxProject.docx
Project.docx
 
Tarea Introducción a la ciencia de datos
Tarea Introducción a la ciencia de datosTarea Introducción a la ciencia de datos
Tarea Introducción a la ciencia de datos
 
Proyecto Introducción a la Ciencia de Datos - Caso de Estudio Librería
Proyecto Introducción a la Ciencia de Datos - Caso de Estudio LibreríaProyecto Introducción a la Ciencia de Datos - Caso de Estudio Librería
Proyecto Introducción a la Ciencia de Datos - Caso de Estudio Librería
 
Trabajo entre pares
Trabajo entre paresTrabajo entre pares
Trabajo entre pares
 
Edx
EdxEdx
Edx
 
Aplicando La Ciencia de Datos en Una Organizacion
Aplicando La Ciencia de Datos en Una OrganizacionAplicando La Ciencia de Datos en Una Organizacion
Aplicando La Ciencia de Datos en Una Organizacion
 
La ciencia de_datos
La ciencia de_datosLa ciencia de_datos
La ciencia de_datos
 

Último

Los más ricos administradores de fondo de cobertura (1968-2024).pdf
Los más ricos administradores de fondo de cobertura (1968-2024).pdfLos más ricos administradores de fondo de cobertura (1968-2024).pdf
Los más ricos administradores de fondo de cobertura (1968-2024).pdf
JC Díaz Herrera
 
Metodos de esterilizacion _20240418_181249_0000.pdf
Metodos de esterilizacion _20240418_181249_0000.pdfMetodos de esterilizacion _20240418_181249_0000.pdf
Metodos de esterilizacion _20240418_181249_0000.pdf
arteagaara
 
REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024
REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024
REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024
IrapuatoCmovamos
 

Último (20)

Alfredo Gabriel Rodriguez Yajure Tarea#1
Alfredo Gabriel Rodriguez Yajure Tarea#1Alfredo Gabriel Rodriguez Yajure Tarea#1
Alfredo Gabriel Rodriguez Yajure Tarea#1
 
CALENDARIZACIÓN ACTUALIZADA DEL 2024 alt.pdf
CALENDARIZACIÓN ACTUALIZADA DEL 2024 alt.pdfCALENDARIZACIÓN ACTUALIZADA DEL 2024 alt.pdf
CALENDARIZACIÓN ACTUALIZADA DEL 2024 alt.pdf
 
Análisis del Modo y Efecto de Fallas AMEF.ppt
Análisis del Modo y Efecto de Fallas AMEF.pptAnálisis del Modo y Efecto de Fallas AMEF.ppt
Análisis del Modo y Efecto de Fallas AMEF.ppt
 
Los más ricos administradores de fondo de cobertura (1968-2024).pdf
Los más ricos administradores de fondo de cobertura (1968-2024).pdfLos más ricos administradores de fondo de cobertura (1968-2024).pdf
Los más ricos administradores de fondo de cobertura (1968-2024).pdf
 
Los primeros 60 países por IDH en el año (2024).pdf
Los primeros 60 países por IDH en el año (2024).pdfLos primeros 60 países por IDH en el año (2024).pdf
Los primeros 60 países por IDH en el año (2024).pdf
 
Metodos de esterilizacion _20240418_181249_0000.pdf
Metodos de esterilizacion _20240418_181249_0000.pdfMetodos de esterilizacion _20240418_181249_0000.pdf
Metodos de esterilizacion _20240418_181249_0000.pdf
 
decreto 2090 de 2003.pdf actividades de alto riesgo en Colombia
decreto 2090 de 2003.pdf actividades de alto riesgo en Colombiadecreto 2090 de 2003.pdf actividades de alto riesgo en Colombia
decreto 2090 de 2003.pdf actividades de alto riesgo en Colombia
 
REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024
REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024
REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024
 
Las marcas automotrices con más ventas de vehículos (2024).pdf
Las marcas automotrices con más ventas de vehículos (2024).pdfLas marcas automotrices con más ventas de vehículos (2024).pdf
Las marcas automotrices con más ventas de vehículos (2024).pdf
 
variables-estadisticas. Presentación powerpoint
variables-estadisticas. Presentación powerpointvariables-estadisticas. Presentación powerpoint
variables-estadisticas. Presentación powerpoint
 
Investigacion cualitativa y cuantitativa....pdf
Investigacion cualitativa y cuantitativa....pdfInvestigacion cualitativa y cuantitativa....pdf
Investigacion cualitativa y cuantitativa....pdf
 
Reservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdf
Reservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdfReservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdf
Reservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdf
 
procedimiento paran la planificación en los centros educativos tipo v(multig...
procedimiento  paran la planificación en los centros educativos tipo v(multig...procedimiento  paran la planificación en los centros educativos tipo v(multig...
procedimiento paran la planificación en los centros educativos tipo v(multig...
 
La Guerra Biologica - Emiliano Paico Vilchez.pdf
La Guerra Biologica - Emiliano Paico Vilchez.pdfLa Guerra Biologica - Emiliano Paico Vilchez.pdf
La Guerra Biologica - Emiliano Paico Vilchez.pdf
 
Porcentaje de población blanca europea en Europa Occidental (1923-2024).pdf
Porcentaje de población blanca europea en Europa Occidental (1923-2024).pdfPorcentaje de población blanca europea en Europa Occidental (1923-2024).pdf
Porcentaje de población blanca europea en Europa Occidental (1923-2024).pdf
 
diseño de una linea de produccion de jabon liquido.pptx
diseño de una linea de produccion de jabon liquido.pptxdiseño de una linea de produccion de jabon liquido.pptx
diseño de una linea de produccion de jabon liquido.pptx
 
Los países por porcentaje de población blanca europea en AL (2024).pdf
Los países por porcentaje de población blanca europea en AL (2024).pdfLos países por porcentaje de población blanca europea en AL (2024).pdf
Los países por porcentaje de población blanca europea en AL (2024).pdf
 
Principales Retos Demográficos de Puerto Rico
Principales Retos Demográficos de Puerto RicoPrincipales Retos Demográficos de Puerto Rico
Principales Retos Demográficos de Puerto Rico
 
Novelas Turcas vs Series de EUA en audiencia (2024).pdf
Novelas Turcas vs Series de EUA en audiencia  (2024).pdfNovelas Turcas vs Series de EUA en audiencia  (2024).pdf
Novelas Turcas vs Series de EUA en audiencia (2024).pdf
 
PIB PERÚ datos y análisis de los últimos años
PIB PERÚ datos y análisis de los últimos añosPIB PERÚ datos y análisis de los últimos años
PIB PERÚ datos y análisis de los últimos años
 

Utilizando la ciencia de datos en una organización

  • 1. Utilizando la Ciencia de Datos en una Organización SFEIR, KOZHAYA ELÍAS
  • 2. Título: Utilizando la Ciencia de Datos en una organización Objetivo: Analizar fuentes de información externas e internas de una organización a través de herramientas computacionales para generar un modelo basado en Ciencia de Datos como apoyo a la toma de decisiones. La Librería Iztaccihuatl ubicada en la ciudad de Monterrey, Nuevo León, México ha decidido desarrollar un proyecto basada en ciencia de datos para mejorar sus indicadores de desempeño (KPI’s) y a la vez desarrollar una mejor estrategia en la toma de decisiones. En la carpeta denominada “datasets_books” se encuentran los siguientes archivos: books; top_books; raitings; to_read. Una vez analizada la información de la carpeta “datasets_books” deberás presentar en un documento Word la respuesta a las siguientes preguntas: • ¿Qué indicadores serían los más importantes a determinar de acuerdo a la información presentada? • ¿Qué tipo de análisis sería el más adecuado y por qué? • ¿Qué decisiones se podrían tomar basadas en los descubrimientos o inferencias de la información analizada? El archivo “books” contiene los siguientes datos: • Id - Identificador del registro • Book Id - Identificador del libro • Number Editions - Número de ediciones • ISBN - Clave estándar internacional del libro • ISBN13 - Clave estándar extendida internacional del libro • Authors - Autor del libro • Original Publication - Fecha de publicación • Original Title - Título original del libro • Title - Título del libro • Language Code - Clave de idioma del libro • Average Rating - Promedio de la clasificación del libro • Image - Enlace a la imagen de la portada del libro
  • 3. • Small Image - Enlace a la imagen en versión optimizada de la portada del libro. El archivo “top_books” contiene los siguientes datos: • Position - Posición del libro en la clasificación del libro • ISBN - Clave estándar extendida internacional del libro • Title - Título del libro • Author - Autor del libro • Imprint - Editorial • Publisher Group - Grupo Editorial • Volume - Volumen de ventas hasta el 2010 • Value - Ventas determinadas por el volumen • RRP - Precio recomendado para minoristas • ASP - Precio promedio para venta • Binding - Tipo de encuadernación • Publ Date - Fecha de publicación • Product Class - Clasificación del libro • Classification - Clasificación General del libro El archivo “ratings” contiene los siguientes datos: • Book Id - Identificador del libro • User Id - Identificador del cliente/usuario que clasifico un libro • Rating - Nivel de clasificación del libro. El archivo “to_read” contiene los siguientes datos: • User Id - Identificador del cliente/usuario que clasifico un libro • Book Id - Identificador del libro El archivo “books” contiene los datos generales de cada libro existente en la librería y además menciona el promedio de clasificación de cada libro de acuerdo a las votaciones y compras del cliente. El archivo “top_books” contiene el top 20 de los libros más vendidos de acuerdo a una clasificación general. El archivo “ratings” contiene los datos de los libros más votados por los clientes dentro del sitio web de la librería.
  • 4. El archivo “to_read” contiene las recomendaciones que cada cliente o usuario realiza en el sitio web sobre libros para leer.
  • 5. Indice Introduccion ----------------------------------------------------- 6 Metodología ----------------------------------------------------- 7 Analisis de los datos ------------------------------------------- 8 Toma de decisiones -------------------------------------------- 9 Conclusion ------------------------------------------------------ 12
  • 6. Introduccion El uso moderno del término "big data" tiende a referirse al análisis del comportamiento del usuario, extrayendo valor de los datos almacenados, y formulando predicciones a través de los patrones observados. En este contexto, convertirse en una biblioteca ágil, que pueda reaccionar fácilmente a la evolución de las necesidades de los usuarios y adaptarse rápidamente, es un desafío que se puede afrontarse prácticamente de una sola forma (al menos en la actualidad): con un correcto proceso de recolección, interpretación y transformación de los datos, para la correcta toma de decisiones, o sea, integrando el analisis de datos a nuestra biblioteca. Pero el analisis de la “Big Data” para la correcta y solida toma de decisiones, debe basarse en el uso adecuado y correcto de las herramientas indicadas para el analisis de la informacion. Con fuentes de datos dispares, el procesamiento manual, el almacenamiento que no está en línea y la falta de una visión completa, la recopilación y el análisis de los datos de la biblioteca a menudo pueden parecer un peso que se arrastra.
  • 7. Metodología Teniendo en cuenta el objetivo de la Librería Iztaccihuatl, en este trabajo se enfoca pricipalmente en el analizis de los datos utilizando comparacion, calificacion y visualizacion Comparacion: Basandonos en los datos recolectados (Del archivo “books” • Average Rating - Promedio de la clasificación del libro El archivo “top_books” • Classification - Clasificación General del libro El archivo “ratings” • Rating - Nivel de clasificación del libro.) Se puede usar el metodo de comparacion para comparar promedios, puntajes y niveles entre libros asi saber lo preferedo y el menos preferido de los usuarios. Calificacion: Ademas de comparar libros, ahora se puede dar una calificacion a cada libro basandose en la clasificacion de los usuarios. Visualizacion: Ya conocida la clasificacion de cada libro, se puede elaborar graficas para la presentacion de los datos de forma que facilita el entendimiento de los datos y conduce a una correcta toma de decisiones.
  • 8. Analisis de los datos: Como los datos se basan en la clasificacion que dan los usuarios de la biblioteca a los libros, el metodo mas facil para analizar tales datos es la comparacion. Este metodo permite comparar el nivel de cada libro (muy bueno, bueno, malo, muy malo, ó con numeros de 5 a 1 donde 5 es el mejor y uno es el peor, etc), permitiendo asi la clasificacion de los libros no solo de bueno o malo, sino tambien por categorias (genero, edades, etc). La clasificacion de los libros nos permite calificarlos y ordenarlos en segmentos mas pequeños lo que nos facilitará la visualizacion de los datos al momento de elegir graficas o tablas para el entendimiento de los datos.
  • 9. Toma de deciciones: Para hacer que la toma de decisiones sea rapida y eficiente, se puede presentar un ejemplo de visualizacion de los datos de esta manera: Se toma como ejemplo 6 libros de 3 categorias diferentes, y se realiza la colección de datos de 100 usuarios sobre cada libro. -Tabla 1: Categoría 1 viajes 2 manualidades 3 ciencia ficción tipo de categorias -Tabla 2: Categoría Libro 1 1 Libro 2 1 Libro 3 2 Libro 4 2 Libro 5 3 Libro 6 3 libros por categoría -Tabla 3: clasificación libro 1 libro 2 libro 3 libro 4 libro 5 libro 6 % muy bueno 8 15 25 33 70 65 36% bueno 12 27 25 25 30 28 25% regular 10 43 23 22 0 7 18% malo 15 5 25 20 0 0 11% muy malo 55 10 2 0 0 0 11% Calificacion de los libros por cantidad de usuarios -Tabla4: CALIFICACION Categoria 1 Categoria 2 Categoria 3 Usuarios usuarios porcentaje usuarios porcentaje usuarios porcentaje muy bueno 216 23 4% 58 10% 135 23% bueno 147 39 7% 50 8% 58 10% regular 105 53 9% 45 8% 7 1% malo 65 20 3% 45 8% 0 0% muy malo 67 65 11% 2 0% 0 0% TOTALES 600 200 33% 200 33% 200 33% Porcentaje de calificación de cada categoría por cantidad de usuarios
  • 10. -Tabla 5: Clasificación libro 1 libro 2 libro 3 libro 4 libro 5 libro 6 muy bueno 1% 3% 4% 6% 12% 11% bueno 2% 5% 4% 4% 5% 5% regular 2% 7% 4% 4% 0% 1% malo 3% 1% 4% 3% 0% 0% muy malo 9% 2% 0% 0% 0% 0% Porcentaje de calificación por libro Presentando los mismos datos en graficas de comparación tendremos Grafica 1: 8 15 25 33 70 65 12 27 25 25 30 28 10 43 23 22 0 7 15 5 25 20 0 0 55 10 2 0 0 0 0 10 20 30 40 50 60 70 80 libro 1 libro 2 libro 3 libro 4 libro 5 libro 6 USUARIOS LIBROS Calificacion de libros por usuario muy bueno bueno regular malo muy malo
  • 11. Grafico 2: Este ejemplo de visualización de los datos con tablas y/o en graficas, resume la opinión de los usuarios sobre 3 categorías y 6 libros (2 de cada categoría). Dichas tablas demuestran que la categoría preferida de los usuarios es la de ciencia ficción con 23% de los usuarios (135), y la menos favorita es la categoría viajes con 11% de los usuarios (65). Tal presentación facilita la toma de decisiones, por ejemplo: mejorar ofertas sobre libros de viajes, otros editores y/o autores, etc. 1% 3% 4% 6% 12% 11% 2% 5% 4% 4% 5% 5% 2% 7% 4% 4% 0% 1% 3% 1% 4% 3% 0% 0% 9% 2% 0% 0% 0% 0% 0% 2% 4% 6% 8% 10% 12% 14% libro 1 libro 2 libro 3 libro 4 libro 5 libro 6 CALIFICACIÓN POR LIBRO muy bueno bueno regular malo muy malo
  • 12. Conclusión La visualización de los datos es muy importante a la hora de tomar decisiones, ya que facilita la interpretación de los mismos, sin dejar a un lado la correcta elección de tipo de tablas y gráficas, ya que tablas de cientos o de miles de líneas, dificulta su entendimiento, por eso hay que agrupar los datos y resumirlos para poder presentarlos de formas sencillas para quien lo lea.