2. Título: Utilizando la Ciencia de Datos en una organización
Objetivo: Analizar fuentes de información externas e internas de una
organización a través de herramientas computacionales para generar un
modelo basado en Ciencia de Datos como apoyo a la toma de decisiones.
La Librería Iztaccihuatl ubicada en la ciudad de Monterrey, Nuevo León,
México ha decidido desarrollar un proyecto basada en ciencia de datos para
mejorar sus indicadores de desempeño (KPI’s) y a la vez desarrollar una mejor
estrategia en la toma de decisiones.
En la carpeta denominada “datasets_books” se encuentran los siguientes
archivos: books; top_books; raitings; to_read.
Una vez analizada la información de la carpeta “datasets_books” deberás
presentar en un documento Word la respuesta a las siguientes preguntas:
• ¿Qué indicadores serían los más importantes a determinar de
acuerdo a la información presentada?
• ¿Qué tipo de análisis sería el más adecuado y por qué?
• ¿Qué decisiones se podrían tomar basadas en los descubrimientos o
inferencias de la información analizada?
El archivo “books” contiene los siguientes datos:
• Id - Identificador del registro
• Book Id - Identificador del libro
• Number Editions - Número de ediciones
• ISBN - Clave estándar internacional del libro
• ISBN13 - Clave estándar extendida internacional del libro
• Authors - Autor del libro
• Original Publication - Fecha de publicación
• Original Title - Título original del libro
• Title - Título del libro
• Language Code - Clave de idioma del libro
• Average Rating - Promedio de la clasificación del libro
• Image - Enlace a la imagen de la portada del libro
3. • Small Image - Enlace a la imagen en versión optimizada de la portada
del libro.
El archivo “top_books” contiene los siguientes datos:
• Position - Posición del libro en la clasificación del libro
• ISBN - Clave estándar extendida internacional del libro
• Title - Título del libro
• Author - Autor del libro
• Imprint - Editorial
• Publisher Group - Grupo Editorial
• Volume - Volumen de ventas hasta el 2010
• Value - Ventas determinadas por el volumen
• RRP - Precio recomendado para minoristas
• ASP - Precio promedio para venta
• Binding - Tipo de encuadernación
• Publ Date - Fecha de publicación
• Product Class - Clasificación del libro
• Classification - Clasificación General del libro
El archivo “ratings” contiene los siguientes datos:
• Book Id - Identificador del libro
• User Id - Identificador del cliente/usuario que clasifico un libro
• Rating - Nivel de clasificación del libro.
El archivo “to_read” contiene los siguientes datos:
• User Id - Identificador del cliente/usuario que clasifico un libro
• Book Id - Identificador del libro
El archivo “books” contiene los datos generales de cada libro existente en
la librería y además menciona el promedio de clasificación de cada libro de
acuerdo a las votaciones y compras del cliente.
El archivo “top_books” contiene el top 20 de los libros más vendidos de
acuerdo a una clasificación general.
El archivo “ratings” contiene los datos de los libros más votados por los
clientes dentro del sitio web de la librería.
4. El archivo “to_read” contiene las recomendaciones que cada cliente o
usuario realiza en el sitio web sobre libros para leer.
6. Introduccion
El uso moderno del término "big data" tiende a referirse al análisis del
comportamiento del usuario, extrayendo valor de los datos almacenados, y
formulando predicciones a través de los patrones observados.
En este contexto, convertirse en una biblioteca ágil, que pueda reaccionar
fácilmente a la evolución de las necesidades de los usuarios y adaptarse
rápidamente, es un desafío que se puede afrontarse prácticamente de una
sola forma (al menos en la actualidad): con un correcto proceso de
recolección, interpretación y transformación de los datos, para la correcta
toma de decisiones, o sea, integrando el analisis de datos a nuestra
biblioteca.
Pero el analisis de la “Big Data” para la correcta y solida toma de
decisiones, debe basarse en el uso adecuado y correcto de las herramientas
indicadas para el analisis de la informacion.
Con fuentes de datos dispares, el procesamiento manual, el
almacenamiento que no está en línea y la falta de una visión completa, la
recopilación y el análisis de los datos de la biblioteca a menudo pueden
parecer un peso que se arrastra.
7. Metodología
Teniendo en cuenta el objetivo de la Librería Iztaccihuatl, en este trabajo
se enfoca pricipalmente en el analizis de los datos utilizando comparacion,
calificacion y visualizacion
Comparacion:
Basandonos en los datos recolectados (Del archivo “books”
• Average Rating - Promedio de la clasificación del libro
El archivo “top_books”
• Classification - Clasificación General del libro
El archivo “ratings”
• Rating - Nivel de clasificación del libro.)
Se puede usar el metodo de comparacion para comparar promedios,
puntajes y niveles entre libros asi saber lo preferedo y el menos preferido
de los usuarios.
Calificacion:
Ademas de comparar libros, ahora se puede dar una calificacion a
cada libro basandose en la clasificacion de los usuarios.
Visualizacion:
Ya conocida la clasificacion de cada libro, se puede elaborar graficas
para la presentacion de los datos de forma que facilita el entendimiento de
los datos y conduce a una correcta toma de decisiones.
8. Analisis de los datos:
Como los datos se basan en la clasificacion que dan los usuarios de la
biblioteca a los libros, el metodo mas facil para analizar tales datos es la
comparacion.
Este metodo permite comparar el nivel de cada libro (muy bueno, bueno,
malo, muy malo, ó con numeros de 5 a 1 donde 5 es el mejor y uno es el
peor, etc), permitiendo asi la clasificacion de los libros no solo de bueno o
malo, sino tambien por categorias (genero, edades, etc).
La clasificacion de los libros nos permite calificarlos y ordenarlos en
segmentos mas pequeños lo que nos facilitará la visualizacion de los datos
al momento de elegir graficas o tablas para el entendimiento de los datos.
9. Toma de deciciones:
Para hacer que la toma de decisiones sea rapida y eficiente, se puede
presentar un ejemplo de visualizacion de los datos de esta manera:
Se toma como ejemplo 6 libros de 3 categorias diferentes, y se realiza la
colección de datos de 100 usuarios sobre cada libro.
-Tabla 1:
Categoría
1 viajes
2 manualidades
3 ciencia ficción
tipo de categorias
-Tabla 2:
Categoría
Libro 1 1
Libro 2 1
Libro 3 2
Libro 4 2
Libro 5 3
Libro 6 3
libros por categoría
-Tabla 3:
clasificación libro 1 libro 2 libro 3 libro 4 libro 5 libro 6 %
muy bueno 8 15 25 33 70 65 36%
bueno 12 27 25 25 30 28 25%
regular 10 43 23 22 0 7 18%
malo 15 5 25 20 0 0 11%
muy malo 55 10 2 0 0 0 11%
Calificacion de los libros por cantidad de usuarios
-Tabla4:
CALIFICACION Categoria 1 Categoria 2 Categoria 3
Usuarios usuarios porcentaje usuarios porcentaje usuarios porcentaje
muy bueno 216 23 4% 58 10% 135 23%
bueno 147 39 7% 50 8% 58 10%
regular 105 53 9% 45 8% 7 1%
malo 65 20 3% 45 8% 0 0%
muy malo 67 65 11% 2 0% 0 0%
TOTALES 600 200 33% 200 33% 200 33%
Porcentaje de calificación de cada categoría por cantidad de usuarios
10. -Tabla 5:
Clasificación libro 1 libro 2 libro 3 libro 4 libro 5 libro 6
muy bueno 1% 3% 4% 6% 12% 11%
bueno 2% 5% 4% 4% 5% 5%
regular 2% 7% 4% 4% 0% 1%
malo 3% 1% 4% 3% 0% 0%
muy malo 9% 2% 0% 0% 0% 0%
Porcentaje de calificación por libro
Presentando los mismos datos en graficas de comparación tendremos
Grafica 1:
8
15
25
33
70
65
12
27
25 25
30
28
10
43
23 22
0
7
15
5
25
20
0 0
55
10
2
0 0 0
0
10
20
30
40
50
60
70
80
libro 1 libro 2 libro 3 libro 4 libro 5 libro 6
USUARIOS
LIBROS
Calificacion de libros por usuario
muy bueno bueno regular malo muy malo
11. Grafico 2:
Este ejemplo de visualización de los datos con tablas y/o en graficas, resume la opinión
de los usuarios sobre 3 categorías y 6 libros (2 de cada categoría).
Dichas tablas demuestran que la categoría preferida de los usuarios es la de ciencia
ficción con 23% de los usuarios (135), y la menos favorita es la categoría viajes con 11%
de los usuarios (65).
Tal presentación facilita la toma de decisiones, por ejemplo: mejorar ofertas sobre
libros de viajes, otros editores y/o autores, etc.
1%
3%
4%
6%
12%
11%
2%
5% 4% 4%
5% 5%
2%
7%
4% 4%
0%
1%
3%
1%
4%
3%
0% 0%
9%
2%
0% 0% 0% 0%
0%
2%
4%
6%
8%
10%
12%
14%
libro 1 libro 2 libro 3 libro 4 libro 5 libro 6
CALIFICACIÓN POR LIBRO
muy bueno bueno regular malo muy malo
12. Conclusión
La visualización de los datos es muy importante a la hora de tomar decisiones, ya que
facilita la interpretación de los mismos, sin dejar a un lado la correcta elección de tipo
de tablas y gráficas, ya que tablas de cientos o de miles de líneas, dificulta su
entendimiento, por eso hay que agrupar los datos y resumirlos para poder
presentarlos de formas sencillas para quien lo lea.