Proyecto herramientas para el análisis de big data

Aplicando la Ciencia de Datos en una organización
Aplicando la
Ciencia de
Datos en una
organización
Proyecto individual evaluado
por pares
Marco Polo Sánchez Farfán

1 | P á g i n a
Resumen
Este documento tiene como propósito cumplir con la práctica individual
correspondiente al proyecto de evaluación entre pares, dentro del curso
“Herramientas para el Análisis de BigData”, en la plataforma edx.org. Para tal
efecto, se analiza la información proporcionada en cuatro bases de datos de la
empresa denominada “Librería Iztaccíhuatl” y, con base en los conocimientos
adquiridos en el curso se presentan las respuestas a preguntas específicas para
aplicar la Ciencia de Datos en este negocio.

2 | P á g i n a
Contenido
Introducción....................................................................................................................... 1
Análisis inicial .................................................................................................................... 2
Propuestas ........................................................................................................................ 5
Elección del lenguaje de programación.......................................................................... 5
Posibles predicciones de acuerdo con los datos ............................................................ 6
Adecuaciones a los datos para realizar un análisis predictivo ........................................ 7
Elección del tipo de base de datos a utilizar................................................................... 9
Definición del servicio en la nube ................................................................................... 9
Conclusiones ................................................................................................................... 10
Bibliografía....................................................................................................................... 11

3 | P á g i n a
Lista de Figuras
Figura 1 Tipos de datos del conjunto analizado para la Librería Iztaccihuatl...................... 3
Figura 2 Estadísticas descriptivas de las bases de datos de la Librería Iztaccihuatl .......... 4
Lista de Tablas
Tabla 1 Descripción general de las bases de datos de la Librería Iztaccihuatl................... 2
Tabla 2 Análisis de la información en las bases de datos ................................................. 5
Tabla 3 Comparativo entre R y Python ............................................................................. 6
Tabla 4 Propuestas de predicciones según las bases de datos disponibles ...................... 6
Tabla 5 Inconsistencias detectadas en las bases de datos................................................ 7
Tabla 6 Adecuaciones propuestas para el procesamiento de los datos ............................. 8

1 | P á g i n a
Introducción
El análisis de la información y, particularmente, de los datos, constituye la base para la
toma de decisiones y así resolver problemas en una amplia variedad de ramas, ya sea
del conocimiento, la industria, la sociedad o el gobierno.
Al respecto, se puede señalar que el análisis de datos dentro de las organizaciones,
públicas o privadas, tiene como finalidad mejorar sus procesos y obtener un mayor
rendimiento, no solo de carácter económico o financiero, sino que dependerá de las
características del negocio y el propósito del estudio, así como de los indicadores
definidos.
Derivado de lo anterior, toda vez que el presente documento tiene como finalidad
presentar una propuesta de proyecto de ciencia de datos, es necesario definir en primer
lugar en qué consiste la Ciencia de Datos, que de manera general se concibe como una
disciplina que combina un conjunto amplio de técnicas y otras ciencias para extraer
significado y conocimiento útil de los datos.1
En este sentido, en este documento se presenta una propuesta de proyecto basado en
ciencia de datos para la empresa denominada Librería Iztaccíhuatl, que se localiza en
la ciudad de Monterrey, Nuevo León, para mejorar su toma de decisiones, mediante la
respuesta a las siguientes preguntas:
 ¿Qué lenguaje de programación para ciencia de datos utilizaría para realizar el
análisis de datos de la Librería Iztaccíhuatl?
 ¿Qué predicciones se podrían obtener de los datos de la Librería Iztaccíhuatl?
 ¿Qué adecuaciones se podría hacer a los datos de la Librería Iztaccíhuatl para
poder realizar un análisis predictivo?
 ¿Qué tipo de base de datos se utilizaría para alojar los análisis de los datos de la
Librería Iztaccíhuatl?
 ¿Qué tipo de servicio de la nube podría contratar la Librería Iztaccíhuatl para
alojar la información y el proyecto de ciencia de datos?
Para el desarrollo de la propuesta se utiliza la información proporcionada en el material
del curso “Herramientas para el Análisis de BigData”, dentro de la plataforma edx.org,
consistente en cuatro bases de datos dentro de la carpeta denominada
“datasets_books”.
1
Véase https://www.maximaformacion.es/blog-dat/que-es-la-ciencia-de-datos/ y
https://www.oracle.com/mx/data-science/what-is-data-science/

2 | P á g i n a
En la siguiente sección, de acuerdo con los alcances del curso, se analiza la
información de las bases de datos disponibles, para poder presentar en una sección
adicional las propuestas que sirven como respuestas a las preguntas de investigación
planteadas para este proyecto y, finalmente, se integra un apartado con las
conclusiones correspondientes.
Análisis inicial
Como primera etapa en el diseño de un proyecto de Ciencia de Datos es necesario
conseguir e identificar los datos necesarios, verificar su calidad y establecer las
primeras relaciones entre ellos.
La recolección de datos para este proyecto está definida por las bases de datos
proporcionados en la sección “Proyecto individual evaluado por pares”, correspondiente
al Tema 2. Preservación, Manejo de versiones y trabajo colaborativo, del curso
Herramientas para el Análisis de Big Data, en la plataforma edx.org, de manera
particular en la carpeta denominada “datasets_books”, que cuentan con las
características descritas en la Tabla 1.
Tabla 1
Descripción general de las bases de datos de la Librería Iztaccíhuatl
Base de
datos
Descripción
books.csv Contiene los datos generales de cada libro existente en la
librería y además menciona el promedio de clasificación de cada
libro de acuerdo a las votaciones y compras del cliente.
top_books.csv Contiene el top 20 de los libros más vendidos de acuerdo a una
clasificación general.
to_read.csv Contiene los datos de los libros más votados por los clientes
dentro del sitio web de la librería.
ratings.csv Contiene las recomendaciones que cada cliente o usuario
realiza en el sitio web sobre libros para leer.
Con la finalidad de realizar un análisis exploratorio inicial de las bases de datos a utilizar
en el proyecto de la Librería Iztaccíhuatl, se utilizaron las funciones dtypes() y describe()
en la herramienta Python.
La función dtypes()visualiza el tipo de datos de cada columna de las bases de datos o
dataframes, con los resultados que muestra la Figura 1.

3 | P á g i n a
Figura 1
Tipos de datos del conjunto analizado para la Librería Iztaccíhuatl
Al respecto, es necesario recordar que el tipo “int64” corresponde a número enteros, el
tipo “float64” a número decimales, y “object” a valores a texto o valores numéricos y no
numéricos mezclados 2. Destaca que el tipo de la columna ISBN es diferente en las dos
bases de datos que aparece y la fecha de publicación en el conjunto “top_books.csv” no
tiene el formato de fecha.
2
https://pbpython.com/pandas_dtypes.html

4 | P á g i n a
La función describe() proporciona estadísticas descriptivas tales como: media, mediana,
máximo, mínimo, desviación estándar y conteo para las columnas numéricas de las
bases de datos o dataframes. Los resultados obtenidos se muestran en la Figura 2.
Figura 2
Estadísticas descriptivas de las bases de datos de la Librería Iztaccíhuatl

5 | P á g i n a
Para una mayor comprensión de las bases de datos, se detalla la información de cada
una de ellas en la Tabla 2.
Tabla 2
Análisis de la información en las bases de datos
Base de
datos
Descripción específica
books.csv Contiene 10,000 registros (libros), cuyas fechas de publicación
original datan desde 1750 a. C, hasta 2017 d. C. Los libros se
encuentran en 21 idiomas diferentes, de los cuales el inglés
representa el 87.3%, si se suman las cinco clasificaciones
diferentes que presenta. Del total de registros, no se encuentra
especificado el idioma en 1,084 de ellos.
top_books.csv Muestra 120 registros con los 20 libros más vendidos según las
categorías establecidas en el campo ‘classification’. De acuerdo
con esta información, hasta el 2010, el mayor número de libros
vendidos pertenecía a la clasificación PB Fiction, mientras el
mayor valor se generó por la clasificación HB Non Fiction.
to_read.csv Recopila 912,705 registros con las recomendaciones de 48,871
usuarios del sitio web de la Librería Iztaccíhuatl, respecto a
9,986 títulos (libros). De esta cantidad, el libro más
recomendado tiene 2,772 menciones, en tanto que 34 títulos
solo tienen una recomendación.
ratings.csv Se compone de 981,75 registros con la calificación (rating)
otorgada por 53,426 usuarios a 10,000 títulos con que cuenta la
librería. Por título, la calificación promedio es de 3.86, donde el
peor evaluado tiene un rating de 1.96, mientras que el libro
mejor calificado obtuvo un promedio de 4.82 puntos. El rating
promedio por usuario es de 3.87, en el rango permitido de 1 a 5
puntos.
Propuestas
La propuesta se desarrolla con base en las preguntas de investigación formuladas en
los requisitos de acreditación del proyecto individual evaluado por pares del curso
Herramientas para el Análisis de Big Data, en la plataforma edx.org.
Elección del lenguaje de programación
Al considerar que este proyecto de Ciencia de Datos es el primero que se aplicaría en
la Librería Iztaccíhuatl para mejorar su estrategia de toma de decisiones y sus
indicadores de desempeño, es necesario que el mismo se desarrolle mediante
aplicaciones relativamente sencillas y de fácil acceso.

6 | P á g i n a
Entre la diversidad de herramientas para la ciencia de datos, en lo que se refiere a los
lenguajes de programación destacan por su accesibilidad R y Python, ya que son de
código abierto. Las principales características se de estos programas se enlistan en la
Tabla 3.
Tabla 3
Comparativo entre R y Python
R Python
Ventajas Desventajas Ventajas Desventajas
 Excelente gama de
paquetes de código
abierto y de alta
calidad.
 La instalación básica
viene con funciones
y métodos
estadísticos
integrales muy
completos.
 Manejo del álgebra
de matriz.
 No es un lenguaje
rápido.
 Especificidad de
dominio para fines
estadísticos y
científicos de datos.
 Tiene algunas
características poco
frecuentes.
 Cuenta con una
amplia gama de
módulos
específicos.
 Lenguaje fácil de
aprender que es
ideal para
aquellos que son
nuevos en la
programación.
 Robusto a la hora
de automatizar
procesos y
controlar flujos de
ejecución.
 Lenguaje de tipo
dinámico, por lo
que los errores de
tipo deben
esperarse de vez
en cuando.
 Para los
lenguajes de
propósito general,
hay mejores
alternativas.
Toda vez que R muestra una curva lenta de aprendizaje y que Python tienen mayor
eficiencia en términos de computación, se sugiere este último como el lenguaje de
programación para este proyecto.
Posibles predicciones de acuerdo con los datos
De acuerdo con la información presentada en cada una de las bases de datos, se
identificaron variables que podrían predecirse mediante la aplicación de la ciencia de
datos, que se muestran en la Tabla 4.
Tabla 4
Propuestas de predicciones según las bases de datos disponibles
Indicador Base de datos Predicción
Ingresos por
ventas.
top_books.csv Ventas futuras y su estacionalidad mediante
modelos de series de tiempo, con base en la
información de los campos ‘Value’ y ‘Date’.
Volumen de
ventas
top_books.csv Modelo de clasificación de los libros más
vendidos según su encuadernación (campo

7 | P á g i n a
Indicador Base de datos Predicción
‘Blinding’) y categoría (campo
‘Classification’).
Recomendaciones to_read.csv Sugerencias de compra en la página web de
la Librería a los usuarios que coinciden con
tres elementos o más, en los que se
identifiquen elementos “no coincidentes” en
el campo ‘book_id’.
Calificación to_read.csv Títulos con mayor calificación según la
media del campo ‘ratings’ que no se
encuentren en la base de datos
top_books.csv.
Adecuaciones a los datos para realizar un análisis predictivo
El análisis de datos se pretende obtener información que otorgue valor agregado para
resolver problemas y sustentar la toma de decisiones, y se divide principalmente en tres
tipos, en función de si valor y complejidad: Analítica Descriptiva, Analítica Predictiva y
Analítica Prescriptiva.
Mediante el análisis predictivo se pretende responder a la pregunta ¿qué puede pasar?,
a través del pronóstico o predicción de resultados con base en la relación de variables
explicativas o de entrada y variables de salida.
Al revisar con mayor detalle la información de las bases de datos proporcionadas, se
encontraron las inconsistencias señaladas en la Tabla 5.
Tabla 5
Inconsistencias detectadas en las bases de datos
Id. Base de datos Inconsistencia
1 books.csv El campo ‘original_publication_year’ muestra fechas desde
1750 a. C. Sin embargo, es preciso señalar que la mayoría
de las publicaciones “antiguas” corresponden a las
traducciones que se han realizado, lo que se distingue
según el campo ‘authors’.
2 books.csv Mismo dato en todos los registros del campo ‘ISBN13’.
3 books.csv Se requiere precisar el nombre de los campos ya que
también existe el campo ‘ISBN’ con información diferente
en cada registro, lo que puede generar confusiones e
interpretación errónea de la información.
4 top_books.csv. Mismo dato en todos los registros del campo ‘ISBN’

8 | P á g i n a
Id. Base de datos Inconsistencia
5 top_books.csv Solo tiene un registro para 1999, 2005 y 2006; no existe
información de 2000 a 2004, cinco registros para 2007,
cuatro para 2008, 11 para 2009 y 97 para 2010.
6 top_books.csv Registros repetidos en todos los campos, con excepción
del campo ‘classification’. Lo anterior significa que un
mismo libro está registrado con dos categorías diferentes
en ese campo: Original fiction y HB Fiction.
7 top_books.csv Existen 30 registros en el campo ‘Publ Date’ que no
corresponden con el formato de fecha de los 90 registros
restantes.
8 ratings.csv Un mismo usuario evalúa dos o más veces el mismo libro.
En función de los datos y las inconsistencias señaladas en la tabla anterior, se propone
realizar tareas de selección, limpieza, estandarización, cambio de formatos y, en su
caso, generación de nuevas variables, para permitir su procesamiento en la ejecución
de análisis predictivos.
De acuerdo con el número de identificador (Id.) señalado en la Tabla 5, se sugieren las
adecuaciones que se refieren en la Tabla 6.
Tabla 6
Adecuaciones propuestas para el procesamiento de los datos
Id. Adecuación
1 Establecer la fecha que corresponda efectivamente a la publicación, ya sea
original o de la traducción realizada
2 Integrar el ISBN correspondiente a cada libro, mediante un catálogo para
evitar errores de registro manual.
3 Se requiere precisar el nombre de los campos ya que también existe el
campo ‘ISBN’ con información diferente en cada registro, lo que puede
generar confusiones e interpretación errónea de la información.
4 Identificar y establecer el mismo nombre para los campos en diferentes
bases de datos que se refieran a la misma información, mediante un
modelo de datos que hagan referencia a una tabla única para el campo
deseado.
5 Crear una base de datos con información histórica completa con el volumen
y valor de ventas de 1999 a la fecha.
6 Establecer una categoría única para cada libro.
7 El campo deberá referirse a la fecha de venta y no a la de publicación, por
lo que se requiere modificar toda la base de datos e incorporar reglas de
validación para que la captura cumpla con un formato único. En su caso
podría generarse un vínculo a la base de datos de ventas que contenga la
fecha requerida.

9 | P á g i n a
Id. Adecuación
8 Conservar la última calificación asignada por el usuario para cada libro.
Elección del tipo de base de datos a utilizar
La adecuada administración de los datos del negocio permitirá además de tener
información confiable, desarrollar diferentes análisis o proyectos de Ciencia de Datos,
por lo que es fundamental definir la forma en la que se almacenarán y la herramienta
para su gestión.
Para el caso de la Librería Iztaccíhuatl, toda vez que ya se cuenta con información
estructurada y de tipo transaccional, se recomienda utilizar una base de datos
relacional, ya que se trata de la recopilación de elementos de datos con relaciones
predefinidas entre ellos.
Una relación representa un conjunto de entidades con las mismas propiedades; es
decir, los valores de cada entrada o registro (fila) dependen de los atributos definidos
(columnas). Como ejemplo de esas relaciones en el caso de estudio se encuentra el
ISBN y el título de la obra, el autor, fecha de publicación e idioma, entre otros. Además,
pueden identificarse la fecha y precio de venta con los datos del cliente; así como el
usuario y su recomendación o la calificación otorgada a un título.
Dadas las características de los datos de este proyecto, las bases de datos relacionales
permiten utilizar un conjunto de restricciones para aplicar la integridad de los datos; es
decir, aplicar reglas de validación para garantizar la precisión y confiabilidad de los
datos.
Definición del servicio en la nube
El cómputo en la nube o cloud computing es la prestación de servicios informáticos a
través de Internet, lo que incluye servidores, almacenamiento, bases de datos, redes,
software, análisis e inteligencia, a través de los cuales las organizaciones pueden
acceder a recursos flexibles, economías de escala e innovación acelerada. Dentro de
sus principales características y ventajas se encuentran:
 Los usuarios pueden aumentar los recursos a demanda.
 Las empresas pueden incrementar o disminuir los recursos en función de los
picos y valles de demanda.
 Se paga sólo por los recursos que se utilizan.
 Los proveedores implementan recursos que garantizan un servicio resistente a
fallos que siempre funcione.

10 | P á g i n a
 Se facilitan los métodos para migrar datos y servicios desde la nube o entre
nubes, de forma automática o manualmente por el usuario.
Al respecto, se identifican cuatro tipos o modelos de nube que pueden implementarse:
1. Nube pública: ofrece sus servicios a cualquier usuario de internet. Los servidores
y almacenamiento pertenecen al proveedor del servicio y el cliente sólo paga
generalmente por el espacio de almacenamiento o el ancho de banda que
consume.
2. Nube privada: los servicios se ofrecen a un número limitado de usuarios a través
de una red interna de una empresa. Esta red puede localizarse en las
instalaciones de la organización o en las de un proveedor externo.
3. Nube híbrida: los servicios son compartidos entre nubes públicas y privadas, en
función de las necesidades. De esta manera, la información delicada puede
alojarse en la nube privada y la menos crítica en la nube pública.
4. Nube comunitaria o Multicloud: consiste en varias nubes entre las que se
desplazan los distintos servicios y que pueden trabajar simultáneamente, cuyos
recursos se comparten entre organizaciones.
Dadas las características de la Librería Iztaccíhuatl y la información de sus bases de
datos, se podría contratar un servicio de nube híbrida, para obtener las ventajas de la
escalabilidad, rendimiento y costo de la nube pública, así como mantener el control de
su información mediante su infraestructura local (nube privada).
Conclusiones
El trabajo desarrollado en este documento tuvo la finalidad de cumplir con la práctica
individual del proyecto de evaluación entre pares, correspondiente al curso
“Herramientas para el Big Data”, dentro de la plataforma edx.org.
Para lograr tal fin, en primer lugar, analizó el conjunto de bases de datos proporcionado,
mediante la descripción de su contenido, así como la aplicación de las funciones
dtypes() y describe() de la librería Pandas del lenguaje de programación Python, que
permitieron identificar el tipo de datos y las estadísticas descriptivas para las variables
numéricas de los mismos.
Para definir la propuesta de aplicación de un proyecto de Ciencia de Datos en una
organización, se respondieron las preguntas de investigación planteadas para el
desarrollo del proyecto de evaluación entre pares, con los siguientes resultados:
1. ¿Qué lenguaje de programación para ciencia de datos utilizaría para realizar el
análisis de datos de la Librería Iztaccíhuatl?

11 | P á g i n a
Mediante la comparación de las ventajas y desventajas de los lenguajes de
programación R y Python, derivado de curva lenta de aprendizaje del primero y
la mayor eficiencia en términos de computación del primero, se eligió a Python
para el desarrollo del proyecto.
2. ¿Qué predicciones se podrían obtener de los datos de la Librería Iztaccíhuatl?
Por la importancia y con la finalidad de mejorar la toma de decisiones, con base
en los datos analizados se considera que podrían predecirse las siguientes
variables: Ingresos por ventas, mediante modelos de series de tiempo; Volumen
de ventas, mediante un modelo de clasificación de los libros más vendidos;
Recomendaciones, mediante sugerencias de acuerdo a las compras por usuario;
y Calificación, de acuerdo con el rating asignado por los usuarios.
3. ¿Qué adecuaciones se podría hacer a los datos de la Librería Iztaccíhuatl para
poder realizar un análisis predictivo?
Según análisis inicial de la información, se detectaron inconsistencias, tales
como fechas de publicación, campos con información repetida para registros de
libros diferentes, campos con el mismo nombre en diferentes bases de datos que
no corresponden a la misma información, información desactualizada e
incompleta en los libros más vendidos, falta de validadores en campos para
registro de fechas, principalmente.
Derivado de lo anterior, se establecieron acciones concretas de selección,
limpieza, estandarización, cambio de formatos y, en su caso, generación de
nuevas variables, para permitir el procesamiento de datos.
4. ¿Qué tipo de base de datos se utilizaría para alojar los análisis de los datos de la
Librería Iztaccíhuatl?
Para la adecuada administración de los datos del negocio y al considerar que la
información analizada consiste de datos estructurados, se propone utilizar una
base tipo relacional, lo que permitirá facilitar la integridad los mismos.
5. ¿Qué tipo de servicio de la nube podría contratar la Librería Iztaccíhuatl para
alojar la información y el proyecto de ciencia de datos?
Con base en las características de los cuatro modelos de cómputo en la nube, se
propone un servicio de nube híbrida, con las ventajas de la escalabilidad,
rendimiento y costo, así como mantener el control de la información en su
infraestructura local.

12 | P á g i n a
Bibliografía
AWS (s.f.) ¿Qué es una base de datos relacional?
https://aws.amazon.com/es/relational-database/
Benito, A. (5 de septiembre de 2019) Los 3 tipos de servicios que existen dentro del
cloud computing en las empresas. https://www.viafirma.com/blog-xnoccio/es/tipos-
servicios-cloud-computing-empresas/
IONOS (9 de mayo de 2019) Bases de datos relacionales: el modelo de datos en
detalle. Cuestiones técnicas. https://www.ionos.es/digitalguide/hosting/cuestiones-
tecnicas/bases-de-datos-relacionales/
Moffitt, C. (Marzo 2018). Overview of Pandas Data Types. Practical Business Python.
https://pbpython.com/pandas_dtypes.html

Proyecto herramientas para el análisis de big data

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Similar a Proyecto herramientas para el análisis de big data

Similar a Proyecto herramientas para el análisis de big data (20)

Último

Último (19)

Proyecto herramientas para el análisis de big data