SlideShare una empresa de Scribd logo
1 de 16
Descargar para leer sin conexión
Aplicando la Ciencia de Datos en una organización
Aplicando la
Ciencia de
Datos en una
organización
Proyecto individual evaluado
por pares
Marco Polo Sánchez Farfán
Aplicando la Ciencia de Datos en una organización
1 | P á g i n a
Resumen
Este documento tiene como propósito cumplir con la práctica individual
correspondiente al proyecto de evaluación entre pares, dentro del curso
“Herramientas para el Análisis de BigData”, en la plataforma edx.org. Para tal
efecto, se analiza la información proporcionada en cuatro bases de datos de la
empresa denominada “Librería Iztaccíhuatl” y, con base en los conocimientos
adquiridos en el curso se presentan las respuestas a preguntas específicas para
aplicar la Ciencia de Datos en este negocio.
Aplicando la Ciencia de Datos en una organización
2 | P á g i n a
Contenido
Introducción....................................................................................................................... 1
Análisis inicial .................................................................................................................... 2
Propuestas ........................................................................................................................ 5
Elección del lenguaje de programación.......................................................................... 5
Posibles predicciones de acuerdo con los datos ............................................................ 6
Adecuaciones a los datos para realizar un análisis predictivo ........................................ 7
Elección del tipo de base de datos a utilizar................................................................... 9
Definición del servicio en la nube ................................................................................... 9
Conclusiones ................................................................................................................... 10
Bibliografía....................................................................................................................... 11
Aplicando la Ciencia de Datos en una organización
3 | P á g i n a
Lista de Figuras
Figura 1 Tipos de datos del conjunto analizado para la Librería Iztaccihuatl...................... 3
Figura 2 Estadísticas descriptivas de las bases de datos de la Librería Iztaccihuatl .......... 4
Lista de Tablas
Tabla 1 Descripción general de las bases de datos de la Librería Iztaccihuatl................... 2
Tabla 2 Análisis de la información en las bases de datos ................................................. 5
Tabla 3 Comparativo entre R y Python ............................................................................. 6
Tabla 4 Propuestas de predicciones según las bases de datos disponibles ...................... 6
Tabla 5 Inconsistencias detectadas en las bases de datos................................................ 7
Tabla 6 Adecuaciones propuestas para el procesamiento de los datos ............................. 8
Aplicando la Ciencia de Datos en una organización
1 | P á g i n a
Introducción
El análisis de la información y, particularmente, de los datos, constituye la base para la
toma de decisiones y así resolver problemas en una amplia variedad de ramas, ya sea
del conocimiento, la industria, la sociedad o el gobierno.
Al respecto, se puede señalar que el análisis de datos dentro de las organizaciones,
públicas o privadas, tiene como finalidad mejorar sus procesos y obtener un mayor
rendimiento, no solo de carácter económico o financiero, sino que dependerá de las
características del negocio y el propósito del estudio, así como de los indicadores
definidos.
Derivado de lo anterior, toda vez que el presente documento tiene como finalidad
presentar una propuesta de proyecto de ciencia de datos, es necesario definir en primer
lugar en qué consiste la Ciencia de Datos, que de manera general se concibe como una
disciplina que combina un conjunto amplio de técnicas y otras ciencias para extraer
significado y conocimiento útil de los datos.1
En este sentido, en este documento se presenta una propuesta de proyecto basado en
ciencia de datos para la empresa denominada Librería Iztaccíhuatl, que se localiza en
la ciudad de Monterrey, Nuevo León, para mejorar su toma de decisiones, mediante la
respuesta a las siguientes preguntas:
 ¿Qué lenguaje de programación para ciencia de datos utilizaría para realizar el
análisis de datos de la Librería Iztaccíhuatl?
 ¿Qué predicciones se podrían obtener de los datos de la Librería Iztaccíhuatl?
 ¿Qué adecuaciones se podría hacer a los datos de la Librería Iztaccíhuatl para
poder realizar un análisis predictivo?
 ¿Qué tipo de base de datos se utilizaría para alojar los análisis de los datos de la
Librería Iztaccíhuatl?
 ¿Qué tipo de servicio de la nube podría contratar la Librería Iztaccíhuatl para
alojar la información y el proyecto de ciencia de datos?
Para el desarrollo de la propuesta se utiliza la información proporcionada en el material
del curso “Herramientas para el Análisis de BigData”, dentro de la plataforma edx.org,
consistente en cuatro bases de datos dentro de la carpeta denominada
“datasets_books”.
1
Véase https://www.maximaformacion.es/blog-dat/que-es-la-ciencia-de-datos/ y
https://www.oracle.com/mx/data-science/what-is-data-science/
Aplicando la Ciencia de Datos en una organización
2 | P á g i n a
En la siguiente sección, de acuerdo con los alcances del curso, se analiza la
información de las bases de datos disponibles, para poder presentar en una sección
adicional las propuestas que sirven como respuestas a las preguntas de investigación
planteadas para este proyecto y, finalmente, se integra un apartado con las
conclusiones correspondientes.
Análisis inicial
Como primera etapa en el diseño de un proyecto de Ciencia de Datos es necesario
conseguir e identificar los datos necesarios, verificar su calidad y establecer las
primeras relaciones entre ellos.
La recolección de datos para este proyecto está definida por las bases de datos
proporcionados en la sección “Proyecto individual evaluado por pares”, correspondiente
al Tema 2. Preservación, Manejo de versiones y trabajo colaborativo, del curso
Herramientas para el Análisis de Big Data, en la plataforma edx.org, de manera
particular en la carpeta denominada “datasets_books”, que cuentan con las
características descritas en la Tabla 1.
Tabla 1
Descripción general de las bases de datos de la Librería Iztaccíhuatl
Base de
datos
Descripción
books.csv Contiene los datos generales de cada libro existente en la
librería y además menciona el promedio de clasificación de cada
libro de acuerdo a las votaciones y compras del cliente.
top_books.csv Contiene el top 20 de los libros más vendidos de acuerdo a una
clasificación general.
to_read.csv Contiene los datos de los libros más votados por los clientes
dentro del sitio web de la librería.
ratings.csv Contiene las recomendaciones que cada cliente o usuario
realiza en el sitio web sobre libros para leer.
Con la finalidad de realizar un análisis exploratorio inicial de las bases de datos a utilizar
en el proyecto de la Librería Iztaccíhuatl, se utilizaron las funciones dtypes() y describe()
en la herramienta Python.
La función dtypes()visualiza el tipo de datos de cada columna de las bases de datos o
dataframes, con los resultados que muestra la Figura 1.
Aplicando la Ciencia de Datos en una organización
3 | P á g i n a
Figura 1
Tipos de datos del conjunto analizado para la Librería Iztaccíhuatl
Al respecto, es necesario recordar que el tipo “int64” corresponde a número enteros, el
tipo “float64” a número decimales, y “object” a valores a texto o valores numéricos y no
numéricos mezclados 2. Destaca que el tipo de la columna ISBN es diferente en las dos
bases de datos que aparece y la fecha de publicación en el conjunto “top_books.csv” no
tiene el formato de fecha.
2
https://pbpython.com/pandas_dtypes.html
Aplicando la Ciencia de Datos en una organización
4 | P á g i n a
La función describe() proporciona estadísticas descriptivas tales como: media, mediana,
máximo, mínimo, desviación estándar y conteo para las columnas numéricas de las
bases de datos o dataframes. Los resultados obtenidos se muestran en la Figura 2.
Figura 2
Estadísticas descriptivas de las bases de datos de la Librería Iztaccíhuatl
Aplicando la Ciencia de Datos en una organización
5 | P á g i n a
Para una mayor comprensión de las bases de datos, se detalla la información de cada
una de ellas en la Tabla 2.
Tabla 2
Análisis de la información en las bases de datos
Base de
datos
Descripción específica
books.csv Contiene 10,000 registros (libros), cuyas fechas de publicación
original datan desde 1750 a. C, hasta 2017 d. C. Los libros se
encuentran en 21 idiomas diferentes, de los cuales el inglés
representa el 87.3%, si se suman las cinco clasificaciones
diferentes que presenta. Del total de registros, no se encuentra
especificado el idioma en 1,084 de ellos.
top_books.csv Muestra 120 registros con los 20 libros más vendidos según las
categorías establecidas en el campo ‘classification’. De acuerdo
con esta información, hasta el 2010, el mayor número de libros
vendidos pertenecía a la clasificación PB Fiction, mientras el
mayor valor se generó por la clasificación HB Non Fiction.
to_read.csv Recopila 912,705 registros con las recomendaciones de 48,871
usuarios del sitio web de la Librería Iztaccíhuatl, respecto a
9,986 títulos (libros). De esta cantidad, el libro más
recomendado tiene 2,772 menciones, en tanto que 34 títulos
solo tienen una recomendación.
ratings.csv Se compone de 981,75 registros con la calificación (rating)
otorgada por 53,426 usuarios a 10,000 títulos con que cuenta la
librería. Por título, la calificación promedio es de 3.86, donde el
peor evaluado tiene un rating de 1.96, mientras que el libro
mejor calificado obtuvo un promedio de 4.82 puntos. El rating
promedio por usuario es de 3.87, en el rango permitido de 1 a 5
puntos.
Propuestas
La propuesta se desarrolla con base en las preguntas de investigación formuladas en
los requisitos de acreditación del proyecto individual evaluado por pares del curso
Herramientas para el Análisis de Big Data, en la plataforma edx.org.
Elección del lenguaje de programación
Al considerar que este proyecto de Ciencia de Datos es el primero que se aplicaría en
la Librería Iztaccíhuatl para mejorar su estrategia de toma de decisiones y sus
indicadores de desempeño, es necesario que el mismo se desarrolle mediante
aplicaciones relativamente sencillas y de fácil acceso.
Aplicando la Ciencia de Datos en una organización
6 | P á g i n a
Entre la diversidad de herramientas para la ciencia de datos, en lo que se refiere a los
lenguajes de programación destacan por su accesibilidad R y Python, ya que son de
código abierto. Las principales características se de estos programas se enlistan en la
Tabla 3.
Tabla 3
Comparativo entre R y Python
R Python
Ventajas Desventajas Ventajas Desventajas
 Excelente gama de
paquetes de código
abierto y de alta
calidad.
 La instalación básica
viene con funciones
y métodos
estadísticos
integrales muy
completos.
 Manejo del álgebra
de matriz.
 No es un lenguaje
rápido.
 Especificidad de
dominio para fines
estadísticos y
científicos de datos.
 Tiene algunas
características poco
frecuentes.
 Cuenta con una
amplia gama de
módulos
específicos.
 Lenguaje fácil de
aprender que es
ideal para
aquellos que son
nuevos en la
programación.
 Robusto a la hora
de automatizar
procesos y
controlar flujos de
ejecución.
 Lenguaje de tipo
dinámico, por lo
que los errores de
tipo deben
esperarse de vez
en cuando.
 Para los
lenguajes de
propósito general,
hay mejores
alternativas.
Toda vez que R muestra una curva lenta de aprendizaje y que Python tienen mayor
eficiencia en términos de computación, se sugiere este último como el lenguaje de
programación para este proyecto.
Posibles predicciones de acuerdo con los datos
De acuerdo con la información presentada en cada una de las bases de datos, se
identificaron variables que podrían predecirse mediante la aplicación de la ciencia de
datos, que se muestran en la Tabla 4.
Tabla 4
Propuestas de predicciones según las bases de datos disponibles
Indicador Base de datos Predicción
Ingresos por
ventas.
top_books.csv Ventas futuras y su estacionalidad mediante
modelos de series de tiempo, con base en la
información de los campos ‘Value’ y ‘Date’.
Volumen de
ventas
top_books.csv Modelo de clasificación de los libros más
vendidos según su encuadernación (campo
Aplicando la Ciencia de Datos en una organización
7 | P á g i n a
Indicador Base de datos Predicción
‘Blinding’) y categoría (campo
‘Classification’).
Recomendaciones to_read.csv Sugerencias de compra en la página web de
la Librería a los usuarios que coinciden con
tres elementos o más, en los que se
identifiquen elementos “no coincidentes” en
el campo ‘book_id’.
Calificación to_read.csv Títulos con mayor calificación según la
media del campo ‘ratings’ que no se
encuentren en la base de datos
top_books.csv.
Adecuaciones a los datos para realizar un análisis predictivo
El análisis de datos se pretende obtener información que otorgue valor agregado para
resolver problemas y sustentar la toma de decisiones, y se divide principalmente en tres
tipos, en función de si valor y complejidad: Analítica Descriptiva, Analítica Predictiva y
Analítica Prescriptiva.
Mediante el análisis predictivo se pretende responder a la pregunta ¿qué puede pasar?,
a través del pronóstico o predicción de resultados con base en la relación de variables
explicativas o de entrada y variables de salida.
Al revisar con mayor detalle la información de las bases de datos proporcionadas, se
encontraron las inconsistencias señaladas en la Tabla 5.
Tabla 5
Inconsistencias detectadas en las bases de datos
Id. Base de datos Inconsistencia
1 books.csv El campo ‘original_publication_year’ muestra fechas desde
1750 a. C. Sin embargo, es preciso señalar que la mayoría
de las publicaciones “antiguas” corresponden a las
traducciones que se han realizado, lo que se distingue
según el campo ‘authors’.
2 books.csv Mismo dato en todos los registros del campo ‘ISBN13’.
3 books.csv Se requiere precisar el nombre de los campos ya que
también existe el campo ‘ISBN’ con información diferente
en cada registro, lo que puede generar confusiones e
interpretación errónea de la información.
4 top_books.csv. Mismo dato en todos los registros del campo ‘ISBN’
Aplicando la Ciencia de Datos en una organización
8 | P á g i n a
Id. Base de datos Inconsistencia
5 top_books.csv Solo tiene un registro para 1999, 2005 y 2006; no existe
información de 2000 a 2004, cinco registros para 2007,
cuatro para 2008, 11 para 2009 y 97 para 2010.
6 top_books.csv Registros repetidos en todos los campos, con excepción
del campo ‘classification’. Lo anterior significa que un
mismo libro está registrado con dos categorías diferentes
en ese campo: Original fiction y HB Fiction.
7 top_books.csv Existen 30 registros en el campo ‘Publ Date’ que no
corresponden con el formato de fecha de los 90 registros
restantes.
8 ratings.csv Un mismo usuario evalúa dos o más veces el mismo libro.
En función de los datos y las inconsistencias señaladas en la tabla anterior, se propone
realizar tareas de selección, limpieza, estandarización, cambio de formatos y, en su
caso, generación de nuevas variables, para permitir su procesamiento en la ejecución
de análisis predictivos.
De acuerdo con el número de identificador (Id.) señalado en la Tabla 5, se sugieren las
adecuaciones que se refieren en la Tabla 6.
Tabla 6
Adecuaciones propuestas para el procesamiento de los datos
Id. Adecuación
1 Establecer la fecha que corresponda efectivamente a la publicación, ya sea
original o de la traducción realizada
2 Integrar el ISBN correspondiente a cada libro, mediante un catálogo para
evitar errores de registro manual.
3 Se requiere precisar el nombre de los campos ya que también existe el
campo ‘ISBN’ con información diferente en cada registro, lo que puede
generar confusiones e interpretación errónea de la información.
4 Identificar y establecer el mismo nombre para los campos en diferentes
bases de datos que se refieran a la misma información, mediante un
modelo de datos que hagan referencia a una tabla única para el campo
deseado.
5 Crear una base de datos con información histórica completa con el volumen
y valor de ventas de 1999 a la fecha.
6 Establecer una categoría única para cada libro.
7 El campo deberá referirse a la fecha de venta y no a la de publicación, por
lo que se requiere modificar toda la base de datos e incorporar reglas de
validación para que la captura cumpla con un formato único. En su caso
podría generarse un vínculo a la base de datos de ventas que contenga la
fecha requerida.
Aplicando la Ciencia de Datos en una organización
9 | P á g i n a
Id. Adecuación
8 Conservar la última calificación asignada por el usuario para cada libro.
Elección del tipo de base de datos a utilizar
La adecuada administración de los datos del negocio permitirá además de tener
información confiable, desarrollar diferentes análisis o proyectos de Ciencia de Datos,
por lo que es fundamental definir la forma en la que se almacenarán y la herramienta
para su gestión.
Para el caso de la Librería Iztaccíhuatl, toda vez que ya se cuenta con información
estructurada y de tipo transaccional, se recomienda utilizar una base de datos
relacional, ya que se trata de la recopilación de elementos de datos con relaciones
predefinidas entre ellos.
Una relación representa un conjunto de entidades con las mismas propiedades; es
decir, los valores de cada entrada o registro (fila) dependen de los atributos definidos
(columnas). Como ejemplo de esas relaciones en el caso de estudio se encuentra el
ISBN y el título de la obra, el autor, fecha de publicación e idioma, entre otros. Además,
pueden identificarse la fecha y precio de venta con los datos del cliente; así como el
usuario y su recomendación o la calificación otorgada a un título.
Dadas las características de los datos de este proyecto, las bases de datos relacionales
permiten utilizar un conjunto de restricciones para aplicar la integridad de los datos; es
decir, aplicar reglas de validación para garantizar la precisión y confiabilidad de los
datos.
Definición del servicio en la nube
El cómputo en la nube o cloud computing es la prestación de servicios informáticos a
través de Internet, lo que incluye servidores, almacenamiento, bases de datos, redes,
software, análisis e inteligencia, a través de los cuales las organizaciones pueden
acceder a recursos flexibles, economías de escala e innovación acelerada. Dentro de
sus principales características y ventajas se encuentran:
 Los usuarios pueden aumentar los recursos a demanda.
 Las empresas pueden incrementar o disminuir los recursos en función de los
picos y valles de demanda.
 Se paga sólo por los recursos que se utilizan.
 Los proveedores implementan recursos que garantizan un servicio resistente a
fallos que siempre funcione.
Aplicando la Ciencia de Datos en una organización
10 | P á g i n a
 Se facilitan los métodos para migrar datos y servicios desde la nube o entre
nubes, de forma automática o manualmente por el usuario.
Al respecto, se identifican cuatro tipos o modelos de nube que pueden implementarse:
1. Nube pública: ofrece sus servicios a cualquier usuario de internet. Los servidores
y almacenamiento pertenecen al proveedor del servicio y el cliente sólo paga
generalmente por el espacio de almacenamiento o el ancho de banda que
consume.
2. Nube privada: los servicios se ofrecen a un número limitado de usuarios a través
de una red interna de una empresa. Esta red puede localizarse en las
instalaciones de la organización o en las de un proveedor externo.
3. Nube híbrida: los servicios son compartidos entre nubes públicas y privadas, en
función de las necesidades. De esta manera, la información delicada puede
alojarse en la nube privada y la menos crítica en la nube pública.
4. Nube comunitaria o Multicloud: consiste en varias nubes entre las que se
desplazan los distintos servicios y que pueden trabajar simultáneamente, cuyos
recursos se comparten entre organizaciones.
Dadas las características de la Librería Iztaccíhuatl y la información de sus bases de
datos, se podría contratar un servicio de nube híbrida, para obtener las ventajas de la
escalabilidad, rendimiento y costo de la nube pública, así como mantener el control de
su información mediante su infraestructura local (nube privada).
Conclusiones
El trabajo desarrollado en este documento tuvo la finalidad de cumplir con la práctica
individual del proyecto de evaluación entre pares, correspondiente al curso
“Herramientas para el Big Data”, dentro de la plataforma edx.org.
Para lograr tal fin, en primer lugar, analizó el conjunto de bases de datos proporcionado,
mediante la descripción de su contenido, así como la aplicación de las funciones
dtypes() y describe() de la librería Pandas del lenguaje de programación Python, que
permitieron identificar el tipo de datos y las estadísticas descriptivas para las variables
numéricas de los mismos.
Para definir la propuesta de aplicación de un proyecto de Ciencia de Datos en una
organización, se respondieron las preguntas de investigación planteadas para el
desarrollo del proyecto de evaluación entre pares, con los siguientes resultados:
1. ¿Qué lenguaje de programación para ciencia de datos utilizaría para realizar el
análisis de datos de la Librería Iztaccíhuatl?
Aplicando la Ciencia de Datos en una organización
11 | P á g i n a
Mediante la comparación de las ventajas y desventajas de los lenguajes de
programación R y Python, derivado de curva lenta de aprendizaje del primero y
la mayor eficiencia en términos de computación del primero, se eligió a Python
para el desarrollo del proyecto.
2. ¿Qué predicciones se podrían obtener de los datos de la Librería Iztaccíhuatl?
Por la importancia y con la finalidad de mejorar la toma de decisiones, con base
en los datos analizados se considera que podrían predecirse las siguientes
variables: Ingresos por ventas, mediante modelos de series de tiempo; Volumen
de ventas, mediante un modelo de clasificación de los libros más vendidos;
Recomendaciones, mediante sugerencias de acuerdo a las compras por usuario;
y Calificación, de acuerdo con el rating asignado por los usuarios.
3. ¿Qué adecuaciones se podría hacer a los datos de la Librería Iztaccíhuatl para
poder realizar un análisis predictivo?
Según análisis inicial de la información, se detectaron inconsistencias, tales
como fechas de publicación, campos con información repetida para registros de
libros diferentes, campos con el mismo nombre en diferentes bases de datos que
no corresponden a la misma información, información desactualizada e
incompleta en los libros más vendidos, falta de validadores en campos para
registro de fechas, principalmente.
Derivado de lo anterior, se establecieron acciones concretas de selección,
limpieza, estandarización, cambio de formatos y, en su caso, generación de
nuevas variables, para permitir el procesamiento de datos.
4. ¿Qué tipo de base de datos se utilizaría para alojar los análisis de los datos de la
Librería Iztaccíhuatl?
Para la adecuada administración de los datos del negocio y al considerar que la
información analizada consiste de datos estructurados, se propone utilizar una
base tipo relacional, lo que permitirá facilitar la integridad los mismos.
5. ¿Qué tipo de servicio de la nube podría contratar la Librería Iztaccíhuatl para
alojar la información y el proyecto de ciencia de datos?
Con base en las características de los cuatro modelos de cómputo en la nube, se
propone un servicio de nube híbrida, con las ventajas de la escalabilidad,
rendimiento y costo, así como mantener el control de la información en su
infraestructura local.
Aplicando la Ciencia de Datos en una organización
12 | P á g i n a
Bibliografía
AWS (s.f.) ¿Qué es una base de datos relacional?
https://aws.amazon.com/es/relational-database/
Benito, A. (5 de septiembre de 2019) Los 3 tipos de servicios que existen dentro del
cloud computing en las empresas. https://www.viafirma.com/blog-xnoccio/es/tipos-
servicios-cloud-computing-empresas/
IONOS (9 de mayo de 2019) Bases de datos relacionales: el modelo de datos en
detalle. Cuestiones técnicas. https://www.ionos.es/digitalguide/hosting/cuestiones-
tecnicas/bases-de-datos-relacionales/
Moffitt, C. (Marzo 2018). Overview of Pandas Data Types. Practical Business Python.
https://pbpython.com/pandas_dtypes.html

Más contenido relacionado

La actualidad más candente

Catalog entries of nonbook materials
Catalog entries of nonbook materialsCatalog entries of nonbook materials
Catalog entries of nonbook materialsIme Amor Mortel
 
Herramientas bibliográficas e indicadores bibliométricos para evaluar la inve...
Herramientas bibliográficas e indicadores bibliométricos para evaluar la inve...Herramientas bibliográficas e indicadores bibliométricos para evaluar la inve...
Herramientas bibliográficas e indicadores bibliométricos para evaluar la inve...Manuel Ruiz de Luzuriaga Peña
 
Passing the Board Exam for Librarians
Passing the Board Exam for LibrariansPassing the Board Exam for Librarians
Passing the Board Exam for LibrariansCarlo Caharian
 
Library of congress subject heading
Library of congress subject headingLibrary of congress subject heading
Library of congress subject headingOmprakashlis
 
Catalogue Entry Format
Catalogue Entry FormatCatalogue Entry Format
Catalogue Entry FormatSarika Sawant
 
Ppt.marketing of library and information services
Ppt.marketing of library and information servicesPpt.marketing of library and information services
Ppt.marketing of library and information servicespardeeprattan
 
Obras de Referencia grupo 6
Obras de Referencia grupo 6Obras de Referencia grupo 6
Obras de Referencia grupo 6MARCELA
 
7. El repertorio bibliografico
7. El repertorio bibliografico7. El repertorio bibliografico
7. El repertorio bibliograficoJesús Tramullas
 
Information products by aman kr kushwaha
Information products by aman kr kushwahaInformation products by aman kr kushwaha
Information products by aman kr kushwahaAMAN KUMAR KUSHWAHA
 
Cataloging in 3-D: Three-Dimensional Artifacts and Realia
Cataloging in 3-D: Three-Dimensional Artifacts and RealiaCataloging in 3-D: Three-Dimensional Artifacts and Realia
Cataloging in 3-D: Three-Dimensional Artifacts and RealiaEmily Nimsakont
 
RDA for Original Catalogers
RDA for Original CatalogersRDA for Original Catalogers
RDA for Original CatalogersShana McDanold
 

La actualidad más candente (20)

Dublin Core Intro
Dublin Core IntroDublin Core Intro
Dublin Core Intro
 
Catalog entries of nonbook materials
Catalog entries of nonbook materialsCatalog entries of nonbook materials
Catalog entries of nonbook materials
 
Herramientas bibliográficas e indicadores bibliométricos para evaluar la inve...
Herramientas bibliográficas e indicadores bibliométricos para evaluar la inve...Herramientas bibliográficas e indicadores bibliométricos para evaluar la inve...
Herramientas bibliográficas e indicadores bibliométricos para evaluar la inve...
 
Passing the Board Exam for Librarians
Passing the Board Exam for LibrariansPassing the Board Exam for Librarians
Passing the Board Exam for Librarians
 
Library of congress subject heading
Library of congress subject headingLibrary of congress subject heading
Library of congress subject heading
 
AGRIS.pptx
AGRIS.pptxAGRIS.pptx
AGRIS.pptx
 
Catalogue Entry Format
Catalogue Entry FormatCatalogue Entry Format
Catalogue Entry Format
 
Ppt.marketing of library and information services
Ppt.marketing of library and information servicesPpt.marketing of library and information services
Ppt.marketing of library and information services
 
Library portal by Gaurav Boudh
Library portal by Gaurav BoudhLibrary portal by Gaurav Boudh
Library portal by Gaurav Boudh
 
Cataloging kits
Cataloging kitsCataloging kits
Cataloging kits
 
Obras de Referencia grupo 6
Obras de Referencia grupo 6Obras de Referencia grupo 6
Obras de Referencia grupo 6
 
Librarianship as a profession
Librarianship as a professionLibrarianship as a profession
Librarianship as a profession
 
Cataloguing
CataloguingCataloguing
Cataloguing
 
Reference interview
Reference interviewReference interview
Reference interview
 
7. El repertorio bibliografico
7. El repertorio bibliografico7. El repertorio bibliografico
7. El repertorio bibliografico
 
Ready reference
Ready referenceReady reference
Ready reference
 
Information products by aman kr kushwaha
Information products by aman kr kushwahaInformation products by aman kr kushwaha
Information products by aman kr kushwaha
 
Marketing Of Library And Information Services
Marketing Of Library And Information ServicesMarketing Of Library And Information Services
Marketing Of Library And Information Services
 
Cataloging in 3-D: Three-Dimensional Artifacts and Realia
Cataloging in 3-D: Three-Dimensional Artifacts and RealiaCataloging in 3-D: Three-Dimensional Artifacts and Realia
Cataloging in 3-D: Three-Dimensional Artifacts and Realia
 
RDA for Original Catalogers
RDA for Original CatalogersRDA for Original Catalogers
RDA for Original Catalogers
 

Similar a Proyecto herramientas para el análisis de big data

Proyecto visualización de datos y storytelling mpsf
Proyecto visualización de datos y storytelling mpsfProyecto visualización de datos y storytelling mpsf
Proyecto visualización de datos y storytelling mpsfMarcoPoloSanchez1
 
Proyecto evaluacion entre_pares_marco_polo_sanchez_farfan
Proyecto evaluacion entre_pares_marco_polo_sanchez_farfanProyecto evaluacion entre_pares_marco_polo_sanchez_farfan
Proyecto evaluacion entre_pares_marco_polo_sanchez_farfanMarcoPoloSanchez1
 
Aplicando la Ciencia de Datos en una organización
Aplicando la Ciencia de Datos en una organización Aplicando la Ciencia de Datos en una organización
Aplicando la Ciencia de Datos en una organización JenniferTorres155
 
Aplicando la Ciencia de Datos en una organización.docx
Aplicando la Ciencia de Datos en una organización.docxAplicando la Ciencia de Datos en una organización.docx
Aplicando la Ciencia de Datos en una organización.docxLambofgod1993
 
Proyecto individual
Proyecto individualProyecto individual
Proyecto individualFernandoss2
 
Trabajo ciencia de datos camilo sanhueza
Trabajo ciencia de datos camilo sanhuezaTrabajo ciencia de datos camilo sanhueza
Trabajo ciencia de datos camilo sanhuezaCamilo Sanhueza Nuñez
 
Proyecto individual - Introducción a la ciencia de datos
Proyecto individual - Introducción a la ciencia de datosProyecto individual - Introducción a la ciencia de datos
Proyecto individual - Introducción a la ciencia de datosRebecaHernandez59
 
Aplicando Ciencia de Datos en una Organización
Aplicando Ciencia de Datos en una OrganizaciónAplicando Ciencia de Datos en una Organización
Aplicando Ciencia de Datos en una OrganizaciónCarlosMacarlup
 
APLICANDO LA CIENCIA DE DATOS EN UNA ORGANIZACIÓN - práctica.pdf
APLICANDO LA CIENCIA DE DATOS EN UNA ORGANIZACIÓN - práctica.pdfAPLICANDO LA CIENCIA DE DATOS EN UNA ORGANIZACIÓN - práctica.pdf
APLICANDO LA CIENCIA DE DATOS EN UNA ORGANIZACIÓN - práctica.pdfCarlosChin
 
Ebsco tutorial bibliotecas virtuales
Ebsco tutorial bibliotecas virtualesEbsco tutorial bibliotecas virtuales
Ebsco tutorial bibliotecas virtualesIvan Monzon
 
Evaluacion entre pares - Ciencia de datos.
Evaluacion entre pares - Ciencia de datos.Evaluacion entre pares - Ciencia de datos.
Evaluacion entre pares - Ciencia de datos.HugoCastro854432
 
Aplicando la ciencia de datos en una organización
Aplicando la ciencia de datos en una organizaciónAplicando la ciencia de datos en una organización
Aplicando la ciencia de datos en una organizaciónKozhayaSfeir
 
Recomendador de artículos científicos basado en metadatos de repositorios dig...
Recomendador de artículos científicos basado en metadatos de repositorios dig...Recomendador de artículos científicos basado en metadatos de repositorios dig...
Recomendador de artículos científicos basado en metadatos de repositorios dig...Ricard de la Vega
 
Caso ciencia de datos libreria iztaccihuatl mauricio figueroa
Caso ciencia de datos libreria iztaccihuatl mauricio figueroaCaso ciencia de datos libreria iztaccihuatl mauricio figueroa
Caso ciencia de datos libreria iztaccihuatl mauricio figueroaMauricio Figueroa Colarte
 

Similar a Proyecto herramientas para el análisis de big data (20)

Proyecto visualización de datos y storytelling mpsf
Proyecto visualización de datos y storytelling mpsfProyecto visualización de datos y storytelling mpsf
Proyecto visualización de datos y storytelling mpsf
 
Proyecto evaluacion entre_pares_marco_polo_sanchez_farfan
Proyecto evaluacion entre_pares_marco_polo_sanchez_farfanProyecto evaluacion entre_pares_marco_polo_sanchez_farfan
Proyecto evaluacion entre_pares_marco_polo_sanchez_farfan
 
Aplicando la Ciencia de Datos en una organización
Aplicando la Ciencia de Datos en una organización Aplicando la Ciencia de Datos en una organización
Aplicando la Ciencia de Datos en una organización
 
Aplicando la Ciencia de Datos en una organización.docx
Aplicando la Ciencia de Datos en una organización.docxAplicando la Ciencia de Datos en una organización.docx
Aplicando la Ciencia de Datos en una organización.docx
 
Proyecto individual
Proyecto individualProyecto individual
Proyecto individual
 
Reporte_practica_2.pdf
Reporte_practica_2.pdfReporte_practica_2.pdf
Reporte_practica_2.pdf
 
Trabajo ciencia de datos camilo sanhueza
Trabajo ciencia de datos camilo sanhuezaTrabajo ciencia de datos camilo sanhueza
Trabajo ciencia de datos camilo sanhueza
 
Proyecto individual - Introducción a la ciencia de datos
Proyecto individual - Introducción a la ciencia de datosProyecto individual - Introducción a la ciencia de datos
Proyecto individual - Introducción a la ciencia de datos
 
Proyecto Jaime Salinas
Proyecto Jaime SalinasProyecto Jaime Salinas
Proyecto Jaime Salinas
 
Proyecto Jaime Salinas
Proyecto Jaime SalinasProyecto Jaime Salinas
Proyecto Jaime Salinas
 
Aplicando Ciencia de Datos en una Organización
Aplicando Ciencia de Datos en una OrganizaciónAplicando Ciencia de Datos en una Organización
Aplicando Ciencia de Datos en una Organización
 
APLICANDO LA CIENCIA DE DATOS EN UNA ORGANIZACIÓN - práctica.pdf
APLICANDO LA CIENCIA DE DATOS EN UNA ORGANIZACIÓN - práctica.pdfAPLICANDO LA CIENCIA DE DATOS EN UNA ORGANIZACIÓN - práctica.pdf
APLICANDO LA CIENCIA DE DATOS EN UNA ORGANIZACIÓN - práctica.pdf
 
edx caso.docx
edx caso.docxedx caso.docx
edx caso.docx
 
Ebsco tutorial bibliotecas virtuales
Ebsco tutorial bibliotecas virtualesEbsco tutorial bibliotecas virtuales
Ebsco tutorial bibliotecas virtuales
 
Evaluacion entre pares - Ciencia de datos.
Evaluacion entre pares - Ciencia de datos.Evaluacion entre pares - Ciencia de datos.
Evaluacion entre pares - Ciencia de datos.
 
evaluacion por pares
evaluacion por paresevaluacion por pares
evaluacion por pares
 
Aplicando la ciencia de datos en una organización
Aplicando la ciencia de datos en una organizaciónAplicando la ciencia de datos en una organización
Aplicando la ciencia de datos en una organización
 
Recomendador de artículos científicos basado en metadatos de repositorios dig...
Recomendador de artículos científicos basado en metadatos de repositorios dig...Recomendador de artículos científicos basado en metadatos de repositorios dig...
Recomendador de artículos científicos basado en metadatos de repositorios dig...
 
secme-15326_1.pdf
secme-15326_1.pdfsecme-15326_1.pdf
secme-15326_1.pdf
 
Caso ciencia de datos libreria iztaccihuatl mauricio figueroa
Caso ciencia de datos libreria iztaccihuatl mauricio figueroaCaso ciencia de datos libreria iztaccihuatl mauricio figueroa
Caso ciencia de datos libreria iztaccihuatl mauricio figueroa
 

Último

Investigacion cualitativa y cuantitativa....pdf
Investigacion cualitativa y cuantitativa....pdfInvestigacion cualitativa y cuantitativa....pdf
Investigacion cualitativa y cuantitativa....pdfalexanderleonyonange
 
Gestión Logística maria palmira guti cabajal
Gestión Logística maria palmira guti cabajalGestión Logística maria palmira guti cabajal
Gestión Logística maria palmira guti cabajalMarcosAlvarezSalinas
 
presentacion de conjuntos para primaria.ppt
presentacion de conjuntos para primaria.pptpresentacion de conjuntos para primaria.ppt
presentacion de conjuntos para primaria.pptMelina Alama Visitacion
 
Posiciones de México en el PNB PPA per cápita (1982-2024).pdf
Posiciones de México en el PNB PPA per cápita (1982-2024).pdfPosiciones de México en el PNB PPA per cápita (1982-2024).pdf
Posiciones de México en el PNB PPA per cápita (1982-2024).pdfJC Díaz Herrera
 
Los más ricos administradores de fondo de cobertura (1968-2024).pdf
Los más ricos administradores de fondo de cobertura (1968-2024).pdfLos más ricos administradores de fondo de cobertura (1968-2024).pdf
Los más ricos administradores de fondo de cobertura (1968-2024).pdfJC Díaz Herrera
 
Novelas Turcas vs Series de EUA en audiencia (2024).pdf
Novelas Turcas vs Series de EUA en audiencia  (2024).pdfNovelas Turcas vs Series de EUA en audiencia  (2024).pdf
Novelas Turcas vs Series de EUA en audiencia (2024).pdfJC Díaz Herrera
 
llllllllllllllllllllllllllllllllllllllllllllllllllllllllll
llllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllll
llllllllllllllllllllllllllllllllllllllllllllllllllllllllllJulietaCarbajalOsis
 
Posiciones del IDH a nivel global en México (1982-2024).pdf
Posiciones del IDH a nivel global en México (1982-2024).pdfPosiciones del IDH a nivel global en México (1982-2024).pdf
Posiciones del IDH a nivel global en México (1982-2024).pdfJC Díaz Herrera
 
Panorama Sociodemográfico de México 2020: GUANAJUATO
Panorama Sociodemográfico de México 2020: GUANAJUATOPanorama Sociodemográfico de México 2020: GUANAJUATO
Panorama Sociodemográfico de México 2020: GUANAJUATOJuan Carlos Fonseca Mata
 
MÍNIMO COMÚN MÚLTIPLO, MÁXIMO COMÚN DIVISOR.pptx
MÍNIMO COMÚN MÚLTIPLO, MÁXIMO COMÚN DIVISOR.pptxMÍNIMO COMÚN MÚLTIPLO, MÁXIMO COMÚN DIVISOR.pptx
MÍNIMO COMÚN MÚLTIPLO, MÁXIMO COMÚN DIVISOR.pptxCristianCastro978067
 
Las marcas automotrices con más ventas de vehículos (2024).pdf
Las marcas automotrices con más ventas de vehículos (2024).pdfLas marcas automotrices con más ventas de vehículos (2024).pdf
Las marcas automotrices con más ventas de vehículos (2024).pdfJC Díaz Herrera
 
Reservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdf
Reservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdfReservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdf
Reservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdfJC Díaz Herrera
 
Listas de Fundamentos de Programación 2024
Listas de Fundamentos de Programación 2024Listas de Fundamentos de Programación 2024
Listas de Fundamentos de Programación 2024AndrsReinosoSnchez1
 
Industria musical de EUA vs Industria musical Corea del Sur (2024).pdf
Industria musical de EUA vs Industria musical Corea del Sur (2024).pdfIndustria musical de EUA vs Industria musical Corea del Sur (2024).pdf
Industria musical de EUA vs Industria musical Corea del Sur (2024).pdfJC Díaz Herrera
 
Análisis de datos en acción: Optimizando el crecimiento de Cyclistic
Análisis de datos en acción: Optimizando el crecimiento de CyclisticAnálisis de datos en acción: Optimizando el crecimiento de Cyclistic
Análisis de datos en acción: Optimizando el crecimiento de CyclisticJamithGarcia1
 
Las familias más ricas del sionismo en el siglo XXI.pdf
Las familias más ricas del sionismo en el siglo XXI.pdfLas familias más ricas del sionismo en el siglo XXI.pdf
Las familias más ricas del sionismo en el siglo XXI.pdfJC Díaz Herrera
 
Los primeros 60 países por IDH en el año (2024).pdf
Los primeros 60 países por IDH en el año (2024).pdfLos primeros 60 países por IDH en el año (2024).pdf
Los primeros 60 países por IDH en el año (2024).pdfJC Díaz Herrera
 
Posiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdf
Posiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdfPosiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdf
Posiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdfJC Díaz Herrera
 
Posiciones en el IDH global de EUA (1950-2024).pdf
Posiciones en el IDH global de EUA (1950-2024).pdfPosiciones en el IDH global de EUA (1950-2024).pdf
Posiciones en el IDH global de EUA (1950-2024).pdfJC Díaz Herrera
 
Qué es un Histograma estadístico teoria y problema
Qué es un Histograma estadístico teoria y problemaQué es un Histograma estadístico teoria y problema
Qué es un Histograma estadístico teoria y problemaJoellyAlejandraRodrg
 

Último (20)

Investigacion cualitativa y cuantitativa....pdf
Investigacion cualitativa y cuantitativa....pdfInvestigacion cualitativa y cuantitativa....pdf
Investigacion cualitativa y cuantitativa....pdf
 
Gestión Logística maria palmira guti cabajal
Gestión Logística maria palmira guti cabajalGestión Logística maria palmira guti cabajal
Gestión Logística maria palmira guti cabajal
 
presentacion de conjuntos para primaria.ppt
presentacion de conjuntos para primaria.pptpresentacion de conjuntos para primaria.ppt
presentacion de conjuntos para primaria.ppt
 
Posiciones de México en el PNB PPA per cápita (1982-2024).pdf
Posiciones de México en el PNB PPA per cápita (1982-2024).pdfPosiciones de México en el PNB PPA per cápita (1982-2024).pdf
Posiciones de México en el PNB PPA per cápita (1982-2024).pdf
 
Los más ricos administradores de fondo de cobertura (1968-2024).pdf
Los más ricos administradores de fondo de cobertura (1968-2024).pdfLos más ricos administradores de fondo de cobertura (1968-2024).pdf
Los más ricos administradores de fondo de cobertura (1968-2024).pdf
 
Novelas Turcas vs Series de EUA en audiencia (2024).pdf
Novelas Turcas vs Series de EUA en audiencia  (2024).pdfNovelas Turcas vs Series de EUA en audiencia  (2024).pdf
Novelas Turcas vs Series de EUA en audiencia (2024).pdf
 
llllllllllllllllllllllllllllllllllllllllllllllllllllllllll
llllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllllll
llllllllllllllllllllllllllllllllllllllllllllllllllllllllll
 
Posiciones del IDH a nivel global en México (1982-2024).pdf
Posiciones del IDH a nivel global en México (1982-2024).pdfPosiciones del IDH a nivel global en México (1982-2024).pdf
Posiciones del IDH a nivel global en México (1982-2024).pdf
 
Panorama Sociodemográfico de México 2020: GUANAJUATO
Panorama Sociodemográfico de México 2020: GUANAJUATOPanorama Sociodemográfico de México 2020: GUANAJUATO
Panorama Sociodemográfico de México 2020: GUANAJUATO
 
MÍNIMO COMÚN MÚLTIPLO, MÁXIMO COMÚN DIVISOR.pptx
MÍNIMO COMÚN MÚLTIPLO, MÁXIMO COMÚN DIVISOR.pptxMÍNIMO COMÚN MÚLTIPLO, MÁXIMO COMÚN DIVISOR.pptx
MÍNIMO COMÚN MÚLTIPLO, MÁXIMO COMÚN DIVISOR.pptx
 
Las marcas automotrices con más ventas de vehículos (2024).pdf
Las marcas automotrices con más ventas de vehículos (2024).pdfLas marcas automotrices con más ventas de vehículos (2024).pdf
Las marcas automotrices con más ventas de vehículos (2024).pdf
 
Reservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdf
Reservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdfReservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdf
Reservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdf
 
Listas de Fundamentos de Programación 2024
Listas de Fundamentos de Programación 2024Listas de Fundamentos de Programación 2024
Listas de Fundamentos de Programación 2024
 
Industria musical de EUA vs Industria musical Corea del Sur (2024).pdf
Industria musical de EUA vs Industria musical Corea del Sur (2024).pdfIndustria musical de EUA vs Industria musical Corea del Sur (2024).pdf
Industria musical de EUA vs Industria musical Corea del Sur (2024).pdf
 
Análisis de datos en acción: Optimizando el crecimiento de Cyclistic
Análisis de datos en acción: Optimizando el crecimiento de CyclisticAnálisis de datos en acción: Optimizando el crecimiento de Cyclistic
Análisis de datos en acción: Optimizando el crecimiento de Cyclistic
 
Las familias más ricas del sionismo en el siglo XXI.pdf
Las familias más ricas del sionismo en el siglo XXI.pdfLas familias más ricas del sionismo en el siglo XXI.pdf
Las familias más ricas del sionismo en el siglo XXI.pdf
 
Los primeros 60 países por IDH en el año (2024).pdf
Los primeros 60 países por IDH en el año (2024).pdfLos primeros 60 países por IDH en el año (2024).pdf
Los primeros 60 países por IDH en el año (2024).pdf
 
Posiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdf
Posiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdfPosiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdf
Posiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdf
 
Posiciones en el IDH global de EUA (1950-2024).pdf
Posiciones en el IDH global de EUA (1950-2024).pdfPosiciones en el IDH global de EUA (1950-2024).pdf
Posiciones en el IDH global de EUA (1950-2024).pdf
 
Qué es un Histograma estadístico teoria y problema
Qué es un Histograma estadístico teoria y problemaQué es un Histograma estadístico teoria y problema
Qué es un Histograma estadístico teoria y problema
 

Proyecto herramientas para el análisis de big data

  • 1. Aplicando la Ciencia de Datos en una organización Aplicando la Ciencia de Datos en una organización Proyecto individual evaluado por pares Marco Polo Sánchez Farfán
  • 2. Aplicando la Ciencia de Datos en una organización 1 | P á g i n a Resumen Este documento tiene como propósito cumplir con la práctica individual correspondiente al proyecto de evaluación entre pares, dentro del curso “Herramientas para el Análisis de BigData”, en la plataforma edx.org. Para tal efecto, se analiza la información proporcionada en cuatro bases de datos de la empresa denominada “Librería Iztaccíhuatl” y, con base en los conocimientos adquiridos en el curso se presentan las respuestas a preguntas específicas para aplicar la Ciencia de Datos en este negocio.
  • 3. Aplicando la Ciencia de Datos en una organización 2 | P á g i n a Contenido Introducción....................................................................................................................... 1 Análisis inicial .................................................................................................................... 2 Propuestas ........................................................................................................................ 5 Elección del lenguaje de programación.......................................................................... 5 Posibles predicciones de acuerdo con los datos ............................................................ 6 Adecuaciones a los datos para realizar un análisis predictivo ........................................ 7 Elección del tipo de base de datos a utilizar................................................................... 9 Definición del servicio en la nube ................................................................................... 9 Conclusiones ................................................................................................................... 10 Bibliografía....................................................................................................................... 11
  • 4. Aplicando la Ciencia de Datos en una organización 3 | P á g i n a Lista de Figuras Figura 1 Tipos de datos del conjunto analizado para la Librería Iztaccihuatl...................... 3 Figura 2 Estadísticas descriptivas de las bases de datos de la Librería Iztaccihuatl .......... 4 Lista de Tablas Tabla 1 Descripción general de las bases de datos de la Librería Iztaccihuatl................... 2 Tabla 2 Análisis de la información en las bases de datos ................................................. 5 Tabla 3 Comparativo entre R y Python ............................................................................. 6 Tabla 4 Propuestas de predicciones según las bases de datos disponibles ...................... 6 Tabla 5 Inconsistencias detectadas en las bases de datos................................................ 7 Tabla 6 Adecuaciones propuestas para el procesamiento de los datos ............................. 8
  • 5. Aplicando la Ciencia de Datos en una organización 1 | P á g i n a Introducción El análisis de la información y, particularmente, de los datos, constituye la base para la toma de decisiones y así resolver problemas en una amplia variedad de ramas, ya sea del conocimiento, la industria, la sociedad o el gobierno. Al respecto, se puede señalar que el análisis de datos dentro de las organizaciones, públicas o privadas, tiene como finalidad mejorar sus procesos y obtener un mayor rendimiento, no solo de carácter económico o financiero, sino que dependerá de las características del negocio y el propósito del estudio, así como de los indicadores definidos. Derivado de lo anterior, toda vez que el presente documento tiene como finalidad presentar una propuesta de proyecto de ciencia de datos, es necesario definir en primer lugar en qué consiste la Ciencia de Datos, que de manera general se concibe como una disciplina que combina un conjunto amplio de técnicas y otras ciencias para extraer significado y conocimiento útil de los datos.1 En este sentido, en este documento se presenta una propuesta de proyecto basado en ciencia de datos para la empresa denominada Librería Iztaccíhuatl, que se localiza en la ciudad de Monterrey, Nuevo León, para mejorar su toma de decisiones, mediante la respuesta a las siguientes preguntas:  ¿Qué lenguaje de programación para ciencia de datos utilizaría para realizar el análisis de datos de la Librería Iztaccíhuatl?  ¿Qué predicciones se podrían obtener de los datos de la Librería Iztaccíhuatl?  ¿Qué adecuaciones se podría hacer a los datos de la Librería Iztaccíhuatl para poder realizar un análisis predictivo?  ¿Qué tipo de base de datos se utilizaría para alojar los análisis de los datos de la Librería Iztaccíhuatl?  ¿Qué tipo de servicio de la nube podría contratar la Librería Iztaccíhuatl para alojar la información y el proyecto de ciencia de datos? Para el desarrollo de la propuesta se utiliza la información proporcionada en el material del curso “Herramientas para el Análisis de BigData”, dentro de la plataforma edx.org, consistente en cuatro bases de datos dentro de la carpeta denominada “datasets_books”. 1 Véase https://www.maximaformacion.es/blog-dat/que-es-la-ciencia-de-datos/ y https://www.oracle.com/mx/data-science/what-is-data-science/
  • 6. Aplicando la Ciencia de Datos en una organización 2 | P á g i n a En la siguiente sección, de acuerdo con los alcances del curso, se analiza la información de las bases de datos disponibles, para poder presentar en una sección adicional las propuestas que sirven como respuestas a las preguntas de investigación planteadas para este proyecto y, finalmente, se integra un apartado con las conclusiones correspondientes. Análisis inicial Como primera etapa en el diseño de un proyecto de Ciencia de Datos es necesario conseguir e identificar los datos necesarios, verificar su calidad y establecer las primeras relaciones entre ellos. La recolección de datos para este proyecto está definida por las bases de datos proporcionados en la sección “Proyecto individual evaluado por pares”, correspondiente al Tema 2. Preservación, Manejo de versiones y trabajo colaborativo, del curso Herramientas para el Análisis de Big Data, en la plataforma edx.org, de manera particular en la carpeta denominada “datasets_books”, que cuentan con las características descritas en la Tabla 1. Tabla 1 Descripción general de las bases de datos de la Librería Iztaccíhuatl Base de datos Descripción books.csv Contiene los datos generales de cada libro existente en la librería y además menciona el promedio de clasificación de cada libro de acuerdo a las votaciones y compras del cliente. top_books.csv Contiene el top 20 de los libros más vendidos de acuerdo a una clasificación general. to_read.csv Contiene los datos de los libros más votados por los clientes dentro del sitio web de la librería. ratings.csv Contiene las recomendaciones que cada cliente o usuario realiza en el sitio web sobre libros para leer. Con la finalidad de realizar un análisis exploratorio inicial de las bases de datos a utilizar en el proyecto de la Librería Iztaccíhuatl, se utilizaron las funciones dtypes() y describe() en la herramienta Python. La función dtypes()visualiza el tipo de datos de cada columna de las bases de datos o dataframes, con los resultados que muestra la Figura 1.
  • 7. Aplicando la Ciencia de Datos en una organización 3 | P á g i n a Figura 1 Tipos de datos del conjunto analizado para la Librería Iztaccíhuatl Al respecto, es necesario recordar que el tipo “int64” corresponde a número enteros, el tipo “float64” a número decimales, y “object” a valores a texto o valores numéricos y no numéricos mezclados 2. Destaca que el tipo de la columna ISBN es diferente en las dos bases de datos que aparece y la fecha de publicación en el conjunto “top_books.csv” no tiene el formato de fecha. 2 https://pbpython.com/pandas_dtypes.html
  • 8. Aplicando la Ciencia de Datos en una organización 4 | P á g i n a La función describe() proporciona estadísticas descriptivas tales como: media, mediana, máximo, mínimo, desviación estándar y conteo para las columnas numéricas de las bases de datos o dataframes. Los resultados obtenidos se muestran en la Figura 2. Figura 2 Estadísticas descriptivas de las bases de datos de la Librería Iztaccíhuatl
  • 9. Aplicando la Ciencia de Datos en una organización 5 | P á g i n a Para una mayor comprensión de las bases de datos, se detalla la información de cada una de ellas en la Tabla 2. Tabla 2 Análisis de la información en las bases de datos Base de datos Descripción específica books.csv Contiene 10,000 registros (libros), cuyas fechas de publicación original datan desde 1750 a. C, hasta 2017 d. C. Los libros se encuentran en 21 idiomas diferentes, de los cuales el inglés representa el 87.3%, si se suman las cinco clasificaciones diferentes que presenta. Del total de registros, no se encuentra especificado el idioma en 1,084 de ellos. top_books.csv Muestra 120 registros con los 20 libros más vendidos según las categorías establecidas en el campo ‘classification’. De acuerdo con esta información, hasta el 2010, el mayor número de libros vendidos pertenecía a la clasificación PB Fiction, mientras el mayor valor se generó por la clasificación HB Non Fiction. to_read.csv Recopila 912,705 registros con las recomendaciones de 48,871 usuarios del sitio web de la Librería Iztaccíhuatl, respecto a 9,986 títulos (libros). De esta cantidad, el libro más recomendado tiene 2,772 menciones, en tanto que 34 títulos solo tienen una recomendación. ratings.csv Se compone de 981,75 registros con la calificación (rating) otorgada por 53,426 usuarios a 10,000 títulos con que cuenta la librería. Por título, la calificación promedio es de 3.86, donde el peor evaluado tiene un rating de 1.96, mientras que el libro mejor calificado obtuvo un promedio de 4.82 puntos. El rating promedio por usuario es de 3.87, en el rango permitido de 1 a 5 puntos. Propuestas La propuesta se desarrolla con base en las preguntas de investigación formuladas en los requisitos de acreditación del proyecto individual evaluado por pares del curso Herramientas para el Análisis de Big Data, en la plataforma edx.org. Elección del lenguaje de programación Al considerar que este proyecto de Ciencia de Datos es el primero que se aplicaría en la Librería Iztaccíhuatl para mejorar su estrategia de toma de decisiones y sus indicadores de desempeño, es necesario que el mismo se desarrolle mediante aplicaciones relativamente sencillas y de fácil acceso.
  • 10. Aplicando la Ciencia de Datos en una organización 6 | P á g i n a Entre la diversidad de herramientas para la ciencia de datos, en lo que se refiere a los lenguajes de programación destacan por su accesibilidad R y Python, ya que son de código abierto. Las principales características se de estos programas se enlistan en la Tabla 3. Tabla 3 Comparativo entre R y Python R Python Ventajas Desventajas Ventajas Desventajas  Excelente gama de paquetes de código abierto y de alta calidad.  La instalación básica viene con funciones y métodos estadísticos integrales muy completos.  Manejo del álgebra de matriz.  No es un lenguaje rápido.  Especificidad de dominio para fines estadísticos y científicos de datos.  Tiene algunas características poco frecuentes.  Cuenta con una amplia gama de módulos específicos.  Lenguaje fácil de aprender que es ideal para aquellos que son nuevos en la programación.  Robusto a la hora de automatizar procesos y controlar flujos de ejecución.  Lenguaje de tipo dinámico, por lo que los errores de tipo deben esperarse de vez en cuando.  Para los lenguajes de propósito general, hay mejores alternativas. Toda vez que R muestra una curva lenta de aprendizaje y que Python tienen mayor eficiencia en términos de computación, se sugiere este último como el lenguaje de programación para este proyecto. Posibles predicciones de acuerdo con los datos De acuerdo con la información presentada en cada una de las bases de datos, se identificaron variables que podrían predecirse mediante la aplicación de la ciencia de datos, que se muestran en la Tabla 4. Tabla 4 Propuestas de predicciones según las bases de datos disponibles Indicador Base de datos Predicción Ingresos por ventas. top_books.csv Ventas futuras y su estacionalidad mediante modelos de series de tiempo, con base en la información de los campos ‘Value’ y ‘Date’. Volumen de ventas top_books.csv Modelo de clasificación de los libros más vendidos según su encuadernación (campo
  • 11. Aplicando la Ciencia de Datos en una organización 7 | P á g i n a Indicador Base de datos Predicción ‘Blinding’) y categoría (campo ‘Classification’). Recomendaciones to_read.csv Sugerencias de compra en la página web de la Librería a los usuarios que coinciden con tres elementos o más, en los que se identifiquen elementos “no coincidentes” en el campo ‘book_id’. Calificación to_read.csv Títulos con mayor calificación según la media del campo ‘ratings’ que no se encuentren en la base de datos top_books.csv. Adecuaciones a los datos para realizar un análisis predictivo El análisis de datos se pretende obtener información que otorgue valor agregado para resolver problemas y sustentar la toma de decisiones, y se divide principalmente en tres tipos, en función de si valor y complejidad: Analítica Descriptiva, Analítica Predictiva y Analítica Prescriptiva. Mediante el análisis predictivo se pretende responder a la pregunta ¿qué puede pasar?, a través del pronóstico o predicción de resultados con base en la relación de variables explicativas o de entrada y variables de salida. Al revisar con mayor detalle la información de las bases de datos proporcionadas, se encontraron las inconsistencias señaladas en la Tabla 5. Tabla 5 Inconsistencias detectadas en las bases de datos Id. Base de datos Inconsistencia 1 books.csv El campo ‘original_publication_year’ muestra fechas desde 1750 a. C. Sin embargo, es preciso señalar que la mayoría de las publicaciones “antiguas” corresponden a las traducciones que se han realizado, lo que se distingue según el campo ‘authors’. 2 books.csv Mismo dato en todos los registros del campo ‘ISBN13’. 3 books.csv Se requiere precisar el nombre de los campos ya que también existe el campo ‘ISBN’ con información diferente en cada registro, lo que puede generar confusiones e interpretación errónea de la información. 4 top_books.csv. Mismo dato en todos los registros del campo ‘ISBN’
  • 12. Aplicando la Ciencia de Datos en una organización 8 | P á g i n a Id. Base de datos Inconsistencia 5 top_books.csv Solo tiene un registro para 1999, 2005 y 2006; no existe información de 2000 a 2004, cinco registros para 2007, cuatro para 2008, 11 para 2009 y 97 para 2010. 6 top_books.csv Registros repetidos en todos los campos, con excepción del campo ‘classification’. Lo anterior significa que un mismo libro está registrado con dos categorías diferentes en ese campo: Original fiction y HB Fiction. 7 top_books.csv Existen 30 registros en el campo ‘Publ Date’ que no corresponden con el formato de fecha de los 90 registros restantes. 8 ratings.csv Un mismo usuario evalúa dos o más veces el mismo libro. En función de los datos y las inconsistencias señaladas en la tabla anterior, se propone realizar tareas de selección, limpieza, estandarización, cambio de formatos y, en su caso, generación de nuevas variables, para permitir su procesamiento en la ejecución de análisis predictivos. De acuerdo con el número de identificador (Id.) señalado en la Tabla 5, se sugieren las adecuaciones que se refieren en la Tabla 6. Tabla 6 Adecuaciones propuestas para el procesamiento de los datos Id. Adecuación 1 Establecer la fecha que corresponda efectivamente a la publicación, ya sea original o de la traducción realizada 2 Integrar el ISBN correspondiente a cada libro, mediante un catálogo para evitar errores de registro manual. 3 Se requiere precisar el nombre de los campos ya que también existe el campo ‘ISBN’ con información diferente en cada registro, lo que puede generar confusiones e interpretación errónea de la información. 4 Identificar y establecer el mismo nombre para los campos en diferentes bases de datos que se refieran a la misma información, mediante un modelo de datos que hagan referencia a una tabla única para el campo deseado. 5 Crear una base de datos con información histórica completa con el volumen y valor de ventas de 1999 a la fecha. 6 Establecer una categoría única para cada libro. 7 El campo deberá referirse a la fecha de venta y no a la de publicación, por lo que se requiere modificar toda la base de datos e incorporar reglas de validación para que la captura cumpla con un formato único. En su caso podría generarse un vínculo a la base de datos de ventas que contenga la fecha requerida.
  • 13. Aplicando la Ciencia de Datos en una organización 9 | P á g i n a Id. Adecuación 8 Conservar la última calificación asignada por el usuario para cada libro. Elección del tipo de base de datos a utilizar La adecuada administración de los datos del negocio permitirá además de tener información confiable, desarrollar diferentes análisis o proyectos de Ciencia de Datos, por lo que es fundamental definir la forma en la que se almacenarán y la herramienta para su gestión. Para el caso de la Librería Iztaccíhuatl, toda vez que ya se cuenta con información estructurada y de tipo transaccional, se recomienda utilizar una base de datos relacional, ya que se trata de la recopilación de elementos de datos con relaciones predefinidas entre ellos. Una relación representa un conjunto de entidades con las mismas propiedades; es decir, los valores de cada entrada o registro (fila) dependen de los atributos definidos (columnas). Como ejemplo de esas relaciones en el caso de estudio se encuentra el ISBN y el título de la obra, el autor, fecha de publicación e idioma, entre otros. Además, pueden identificarse la fecha y precio de venta con los datos del cliente; así como el usuario y su recomendación o la calificación otorgada a un título. Dadas las características de los datos de este proyecto, las bases de datos relacionales permiten utilizar un conjunto de restricciones para aplicar la integridad de los datos; es decir, aplicar reglas de validación para garantizar la precisión y confiabilidad de los datos. Definición del servicio en la nube El cómputo en la nube o cloud computing es la prestación de servicios informáticos a través de Internet, lo que incluye servidores, almacenamiento, bases de datos, redes, software, análisis e inteligencia, a través de los cuales las organizaciones pueden acceder a recursos flexibles, economías de escala e innovación acelerada. Dentro de sus principales características y ventajas se encuentran:  Los usuarios pueden aumentar los recursos a demanda.  Las empresas pueden incrementar o disminuir los recursos en función de los picos y valles de demanda.  Se paga sólo por los recursos que se utilizan.  Los proveedores implementan recursos que garantizan un servicio resistente a fallos que siempre funcione.
  • 14. Aplicando la Ciencia de Datos en una organización 10 | P á g i n a  Se facilitan los métodos para migrar datos y servicios desde la nube o entre nubes, de forma automática o manualmente por el usuario. Al respecto, se identifican cuatro tipos o modelos de nube que pueden implementarse: 1. Nube pública: ofrece sus servicios a cualquier usuario de internet. Los servidores y almacenamiento pertenecen al proveedor del servicio y el cliente sólo paga generalmente por el espacio de almacenamiento o el ancho de banda que consume. 2. Nube privada: los servicios se ofrecen a un número limitado de usuarios a través de una red interna de una empresa. Esta red puede localizarse en las instalaciones de la organización o en las de un proveedor externo. 3. Nube híbrida: los servicios son compartidos entre nubes públicas y privadas, en función de las necesidades. De esta manera, la información delicada puede alojarse en la nube privada y la menos crítica en la nube pública. 4. Nube comunitaria o Multicloud: consiste en varias nubes entre las que se desplazan los distintos servicios y que pueden trabajar simultáneamente, cuyos recursos se comparten entre organizaciones. Dadas las características de la Librería Iztaccíhuatl y la información de sus bases de datos, se podría contratar un servicio de nube híbrida, para obtener las ventajas de la escalabilidad, rendimiento y costo de la nube pública, así como mantener el control de su información mediante su infraestructura local (nube privada). Conclusiones El trabajo desarrollado en este documento tuvo la finalidad de cumplir con la práctica individual del proyecto de evaluación entre pares, correspondiente al curso “Herramientas para el Big Data”, dentro de la plataforma edx.org. Para lograr tal fin, en primer lugar, analizó el conjunto de bases de datos proporcionado, mediante la descripción de su contenido, así como la aplicación de las funciones dtypes() y describe() de la librería Pandas del lenguaje de programación Python, que permitieron identificar el tipo de datos y las estadísticas descriptivas para las variables numéricas de los mismos. Para definir la propuesta de aplicación de un proyecto de Ciencia de Datos en una organización, se respondieron las preguntas de investigación planteadas para el desarrollo del proyecto de evaluación entre pares, con los siguientes resultados: 1. ¿Qué lenguaje de programación para ciencia de datos utilizaría para realizar el análisis de datos de la Librería Iztaccíhuatl?
  • 15. Aplicando la Ciencia de Datos en una organización 11 | P á g i n a Mediante la comparación de las ventajas y desventajas de los lenguajes de programación R y Python, derivado de curva lenta de aprendizaje del primero y la mayor eficiencia en términos de computación del primero, se eligió a Python para el desarrollo del proyecto. 2. ¿Qué predicciones se podrían obtener de los datos de la Librería Iztaccíhuatl? Por la importancia y con la finalidad de mejorar la toma de decisiones, con base en los datos analizados se considera que podrían predecirse las siguientes variables: Ingresos por ventas, mediante modelos de series de tiempo; Volumen de ventas, mediante un modelo de clasificación de los libros más vendidos; Recomendaciones, mediante sugerencias de acuerdo a las compras por usuario; y Calificación, de acuerdo con el rating asignado por los usuarios. 3. ¿Qué adecuaciones se podría hacer a los datos de la Librería Iztaccíhuatl para poder realizar un análisis predictivo? Según análisis inicial de la información, se detectaron inconsistencias, tales como fechas de publicación, campos con información repetida para registros de libros diferentes, campos con el mismo nombre en diferentes bases de datos que no corresponden a la misma información, información desactualizada e incompleta en los libros más vendidos, falta de validadores en campos para registro de fechas, principalmente. Derivado de lo anterior, se establecieron acciones concretas de selección, limpieza, estandarización, cambio de formatos y, en su caso, generación de nuevas variables, para permitir el procesamiento de datos. 4. ¿Qué tipo de base de datos se utilizaría para alojar los análisis de los datos de la Librería Iztaccíhuatl? Para la adecuada administración de los datos del negocio y al considerar que la información analizada consiste de datos estructurados, se propone utilizar una base tipo relacional, lo que permitirá facilitar la integridad los mismos. 5. ¿Qué tipo de servicio de la nube podría contratar la Librería Iztaccíhuatl para alojar la información y el proyecto de ciencia de datos? Con base en las características de los cuatro modelos de cómputo en la nube, se propone un servicio de nube híbrida, con las ventajas de la escalabilidad, rendimiento y costo, así como mantener el control de la información en su infraestructura local.
  • 16. Aplicando la Ciencia de Datos en una organización 12 | P á g i n a Bibliografía AWS (s.f.) ¿Qué es una base de datos relacional? https://aws.amazon.com/es/relational-database/ Benito, A. (5 de septiembre de 2019) Los 3 tipos de servicios que existen dentro del cloud computing en las empresas. https://www.viafirma.com/blog-xnoccio/es/tipos- servicios-cloud-computing-empresas/ IONOS (9 de mayo de 2019) Bases de datos relacionales: el modelo de datos en detalle. Cuestiones técnicas. https://www.ionos.es/digitalguide/hosting/cuestiones- tecnicas/bases-de-datos-relacionales/ Moffitt, C. (Marzo 2018). Overview of Pandas Data Types. Practical Business Python. https://pbpython.com/pandas_dtypes.html