Este documento tiene como propósito cumplir con la práctica individual correspondiente al proyecto de evaluación entre pares, dentro del curso “Herramientas para el Análisis de BigData”, en la plataforma edx.org.
EDX: Curso Herramientas para el Análisis de Big Data – Tecnológico de Monterrey PROYECTO INDIVIDUAL EVALUADO POR PARES Caso libreria iztaccihuatl Creado por: Paola Quiroz Alvarez Guayaquil - Ecuador
La problemática se da en el ámbito de la mejora de resultados de la Librería Iztaccihuatl, ubicada en la ciudad de Monterrey, Nuevo León, México. Actualmente la librería cuenta con un alto prestigio por la calidad de material bibliográfico que ofrece a sus clientes y además un servicio de atención de alto nivel. Sin embargo, los Ejecutivos de esta organización han decidido desarrollar un proyecto basado en ciencia de datos para mejorar sus indicadores de desempeño (KPI’s) y a la vez desarrollar una mejor estrategia en la toma de decisiones.
En base al contexto descrito anteriormente, el principal objetivo de este proyecto es analizar fuentes de información externas e internas de la organización a través de herramientas computacionales para generar un modelo basado en Ciencia de Datos como apoyo a la toma de decisiones.
Application of bradford's law of scattering to the literature of stellar Ghouse Modin Mamdapur
The present paper tests one of the important bibliometric laws of Bradford's Law of scattering for the literature related to ‘stellar physics’ for the period 1988–2013 as available in the Web of Science Core Collection database. A total of 2738 articles related to Stellar Physics published in journals in English language during the study period are retrieved. Data are analysed with respect to year-wise growth of articles, relative growth rate and doubling time of literature. The 2738 articles are scattered in 188 journals. A list of ranked journals was prepared and it was found that the Astrophysical Journal with 895 articles is the most productive journal publishing Stellar Physics literature followed by Monthly Notices of the Royal Astronomical Society with 507 articles and Astronomy and Astrophysics with 380 articles. In this study, theoretical aspects of Bradford's Law of Scattering are tested and found that the data do not fit to the present sample. The Leimkuhler model is tested and found to fit the data for the Bradford Multiplier (k) at 11.65. The Bradford law is also tested through graphical formulation by drawing the Bradford bibliograph and is found to confirm all the three characteristics.
EDX: Curso Herramientas para el Análisis de Big Data – Tecnológico de Monterrey PROYECTO INDIVIDUAL EVALUADO POR PARES Caso libreria iztaccihuatl Creado por: Paola Quiroz Alvarez Guayaquil - Ecuador
La problemática se da en el ámbito de la mejora de resultados de la Librería Iztaccihuatl, ubicada en la ciudad de Monterrey, Nuevo León, México. Actualmente la librería cuenta con un alto prestigio por la calidad de material bibliográfico que ofrece a sus clientes y además un servicio de atención de alto nivel. Sin embargo, los Ejecutivos de esta organización han decidido desarrollar un proyecto basado en ciencia de datos para mejorar sus indicadores de desempeño (KPI’s) y a la vez desarrollar una mejor estrategia en la toma de decisiones.
En base al contexto descrito anteriormente, el principal objetivo de este proyecto es analizar fuentes de información externas e internas de la organización a través de herramientas computacionales para generar un modelo basado en Ciencia de Datos como apoyo a la toma de decisiones.
Application of bradford's law of scattering to the literature of stellar Ghouse Modin Mamdapur
The present paper tests one of the important bibliometric laws of Bradford's Law of scattering for the literature related to ‘stellar physics’ for the period 1988–2013 as available in the Web of Science Core Collection database. A total of 2738 articles related to Stellar Physics published in journals in English language during the study period are retrieved. Data are analysed with respect to year-wise growth of articles, relative growth rate and doubling time of literature. The 2738 articles are scattered in 188 journals. A list of ranked journals was prepared and it was found that the Astrophysical Journal with 895 articles is the most productive journal publishing Stellar Physics literature followed by Monthly Notices of the Royal Astronomical Society with 507 articles and Astronomy and Astrophysics with 380 articles. In this study, theoretical aspects of Bradford's Law of Scattering are tested and found that the data do not fit to the present sample. The Leimkuhler model is tested and found to fit the data for the Bradford Multiplier (k) at 11.65. The Bradford law is also tested through graphical formulation by drawing the Bradford bibliograph and is found to confirm all the three characteristics.
A staff/volunteer development class I delivered in 2005 at the Langlois & Port Orford Public Libraries in Oregon. Recently updated for a new session of the class. Feel free to adapt for use in your own trainings!
Co-word analyses study the co-occurrence of pairs of items (for example, keywords) that are representative in a document, to identify relations between the ideas presented in the
texts.
Lecture presented by Michael A. Pinto at PAARL Seminar- workshop with the theme "Managing Today’s Learning Commons: Re-Skilling Seminar for Information Professionals" held on September 20-22, 2016 at the Crown Legacy Hotel, Kisad Road, Baguio City.
Standards to facilitate information exchange has always been a subject of concern.
To provide a flexible exchange format that could be used for converting data from libraries and information services of all types, UNESCO developed the Common Communication Format (CCF). The main aim of this format was to produce a method of organising bibliographic descriptions which could be exchanged between institutions. This format was to act as a link between the databases produced in different internal formats of libraries.
RDA (Resource Description and Access) is a new standard for describing library resources, designed to replace AACR2. Library staff, including public services, systems personnel, and catalogers, may have heard mention of RDA but not know much about it or how it will change their daily work. You may have many questions. What is RDA? We'll give a very little bit of history and theoretical background. What is this going to mean for catalogers, ILS managers, and users in the near term? What are the future implications, or, why are we doing this? What are the juicy bits of controversy in cataloger-land? And finally, Do we HAVE to? We'll talk for a while, have some activities that get you thinking, and find out your thoughts on RDA.
Presented at "Captains & Crew Collaborating," the 8th annual paraprofessional conference at J.Y. Joyner Library, East Carolina University.
FRBR stands for Functional Requirements for Bibliographic Records.
Functional Requirements for Bibliographic Records is a conceptual entity-relationship model developed by the International Federation of Library Associations and Institutions (IFLA).
A conceptual entity relationship model that relates user tasks of retrieval and access in online library catalogs and bibliographic databases from a user’s perspective.
A new conceptual model for bibliographic universe with a strong users focus .
The purpose of this entity relationship analysis was to discover the logical nature of bibliographic data in terms of entity, attributes and relationship.
Proyecto visualización de datos y storytelling mpsfMarcoPoloSanchez1
Este documento tiene como propósito cumplir con la práctica individual correspondiente al proyecto de evaluación entre pares, dentro del curso “Visualización de datos y Storytelling”, en la plataforma edx.org.
Este documento tiene como propósito cumplir con la práctica individual correspondiente al proyecto de evaluación entre pares, dentro del curso “Introducción a la Ciencia de Datos y el Big Data”, en la plataforma edx.org.
A staff/volunteer development class I delivered in 2005 at the Langlois & Port Orford Public Libraries in Oregon. Recently updated for a new session of the class. Feel free to adapt for use in your own trainings!
Co-word analyses study the co-occurrence of pairs of items (for example, keywords) that are representative in a document, to identify relations between the ideas presented in the
texts.
Lecture presented by Michael A. Pinto at PAARL Seminar- workshop with the theme "Managing Today’s Learning Commons: Re-Skilling Seminar for Information Professionals" held on September 20-22, 2016 at the Crown Legacy Hotel, Kisad Road, Baguio City.
Standards to facilitate information exchange has always been a subject of concern.
To provide a flexible exchange format that could be used for converting data from libraries and information services of all types, UNESCO developed the Common Communication Format (CCF). The main aim of this format was to produce a method of organising bibliographic descriptions which could be exchanged between institutions. This format was to act as a link between the databases produced in different internal formats of libraries.
RDA (Resource Description and Access) is a new standard for describing library resources, designed to replace AACR2. Library staff, including public services, systems personnel, and catalogers, may have heard mention of RDA but not know much about it or how it will change their daily work. You may have many questions. What is RDA? We'll give a very little bit of history and theoretical background. What is this going to mean for catalogers, ILS managers, and users in the near term? What are the future implications, or, why are we doing this? What are the juicy bits of controversy in cataloger-land? And finally, Do we HAVE to? We'll talk for a while, have some activities that get you thinking, and find out your thoughts on RDA.
Presented at "Captains & Crew Collaborating," the 8th annual paraprofessional conference at J.Y. Joyner Library, East Carolina University.
FRBR stands for Functional Requirements for Bibliographic Records.
Functional Requirements for Bibliographic Records is a conceptual entity-relationship model developed by the International Federation of Library Associations and Institutions (IFLA).
A conceptual entity relationship model that relates user tasks of retrieval and access in online library catalogs and bibliographic databases from a user’s perspective.
A new conceptual model for bibliographic universe with a strong users focus .
The purpose of this entity relationship analysis was to discover the logical nature of bibliographic data in terms of entity, attributes and relationship.
Proyecto visualización de datos y storytelling mpsfMarcoPoloSanchez1
Este documento tiene como propósito cumplir con la práctica individual correspondiente al proyecto de evaluación entre pares, dentro del curso “Visualización de datos y Storytelling”, en la plataforma edx.org.
Este documento tiene como propósito cumplir con la práctica individual correspondiente al proyecto de evaluación entre pares, dentro del curso “Introducción a la Ciencia de Datos y el Big Data”, en la plataforma edx.org.
Este proyecto trae consigo el poder analizar y saber donde se llega a aplicar las Ciencia de Datos ,es muy interesante , lo publico aquí ya que estoy en un curso en el cual me pide desenglosar todo lo aprendió y esta es una manera de poder plasmar.
Aplicando la Ciencia de Datos en una organización.docxLambofgod1993
l presente documento busca identificar las herramientas necesarias para el análisis; estructuras de datos y servicios de la nube para desarrollar un modelo basado en Ciencia de Datos como apoyo a la toma de decisiones para una organización.
A lo largo de este proyecto, hemos explorado diversas herramientas y metodologías para recopilar, procesar y analizar los datos generados por la librería. Central a nuestro enfoque es el uso de Python, un lenguaje de programación ampliamente reconocido por su eficacia y flexibilidad en el análisis de datos. La elección de Python se basa en su rica biblioteca de ciencia de datos, su comunidad de apoyo global y su capacidad para integrarse a la perfección con una variedad de plataformas y bases de datos.
Aplicando Ciencia de Datos en una OrganizaciónCarlosMacarlup
Caso práctico para Identificar las herramientas necesarias para el análisis; estructuras de datos y servicios de la nube para desarrollar un modelo basado en Ciencia de Datos como apoyo a la toma de decisiones para una organización.
APLICANDO LA CIENCIA DE DATOS EN UNA ORGANIZACIÓN - práctica.pdfCarlosChin
Elementos para implementar un proyecto de Ciencia de Datos en una organización. Herramientas de Ciencia de Datos. PostgreSQL. Python. Librería Pandas de Python. Bases de datos relacionales. Almacenamiento de datos en la nube. Proyecto EDX - Tecnológico de Monterrey.
Aplicando la ciencia de datos en una organizaciónKozhayaSfeir
Identificar las herramientas necesarias para el análisis; estructuras de datos y servicios de la nube para desarrollar un modelo basado en Ciencia de Datos como apoyo a la toma de decisiones para una organización.
Ipsos, empresa de investigación de mercados y opinión pública, divulgó su informe N°29 “Claves Ipsos” correspondiente al mes de abril, que encuestó a 800 personas con el fin de identificar las principales opiniones y comportamientos de las y los ciudadanos respecto de temas de interés para el país. En esta edición se abordó la a Carabineros de Chile, su evaluación, legitimidad en su actuar y el asesinato de tres funcionarios en Cañete. Además, se consultó sobre el Ejército y la opinión respecto de la marcha en Putre.
LINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIOAaronPleitez
linea de tiempo del antiguo testamento donde se detalla la cronología de todos los eventos, personas, sucesos, etc. Además se incluye una parte del periodo intertestamentario en orden cronológico donde se detalla todo lo que sucede en los 400 años del periodo del silencio. Basicamente es un resumen de todos los sucesos desde Abraham hasta Cristo
Reporte homicidio doloso descripción
Reporte que contiene información de las víctimas de homicidio doloso registradas en el municipio de Irapuato Guanajuato durante el periodo señalado, comprende información cualitativa y cuantitativa que hace referencia a las características principales de cada uno de los homicidios.
La información proviene tanto de medios de comunicación digitales e impresos como de los boletines que la propia Fiscalía del Estado de Guanajuato emite de manera diaria a los medios de comunicación quienes publican estas incidencias en sus distintos canales.
Podemos observar cantidad de personas fallecidas, lugar donde se registraron los eventos, colonia y calle así como un comparativo con el mismo periodo pero del año anterior.
Edades y género de las víctimas es parte de la información que incluye el reporte.
Este documento ha sido elaborado por el Observatorio Ciudadano de Seguridad Justicia y Legalidad de Irapuato siendo nuestro propósito conocer datos sociodemográficos en conjunto con información de incidencia delictiva de las 10 colonias y/o comunidades que del año 2020 a la fecha han tenido mayor incidencia.
Existen muchas más colonias que presentan cifras y datos en materia de seguridad, sin embargo, en este primer acercamiento lo que se prevées darle al lector una idea de como se encuentran las colonias analizadas, tomando como referencia los datos del INEGI 2020, datos del Secretariado Ejecutivo del Sistema Nacional de Seguridad Pública del 2020 al 2023 y las bases de datos propias que desde el 2017 el Observatorio Ciudadano ha recopilado de manera puntual con datos de las vıć timas de homicidio doloso, accidentes de tránsito, personas lesionadas por arma de fuego, entre otros indicadores.
Países_por_participacion_porcentual_en_el PNB global (2024) .pdf
Proyecto herramientas para el análisis de big data
1. Aplicando la Ciencia de Datos en una organización
Aplicando la
Ciencia de
Datos en una
organización
Proyecto individual evaluado
por pares
Marco Polo Sánchez Farfán
2. Aplicando la Ciencia de Datos en una organización
1 | P á g i n a
Resumen
Este documento tiene como propósito cumplir con la práctica individual
correspondiente al proyecto de evaluación entre pares, dentro del curso
“Herramientas para el Análisis de BigData”, en la plataforma edx.org. Para tal
efecto, se analiza la información proporcionada en cuatro bases de datos de la
empresa denominada “Librería Iztaccíhuatl” y, con base en los conocimientos
adquiridos en el curso se presentan las respuestas a preguntas específicas para
aplicar la Ciencia de Datos en este negocio.
3. Aplicando la Ciencia de Datos en una organización
2 | P á g i n a
Contenido
Introducción....................................................................................................................... 1
Análisis inicial .................................................................................................................... 2
Propuestas ........................................................................................................................ 5
Elección del lenguaje de programación.......................................................................... 5
Posibles predicciones de acuerdo con los datos ............................................................ 6
Adecuaciones a los datos para realizar un análisis predictivo ........................................ 7
Elección del tipo de base de datos a utilizar................................................................... 9
Definición del servicio en la nube ................................................................................... 9
Conclusiones ................................................................................................................... 10
Bibliografía....................................................................................................................... 11
4. Aplicando la Ciencia de Datos en una organización
3 | P á g i n a
Lista de Figuras
Figura 1 Tipos de datos del conjunto analizado para la Librería Iztaccihuatl...................... 3
Figura 2 Estadísticas descriptivas de las bases de datos de la Librería Iztaccihuatl .......... 4
Lista de Tablas
Tabla 1 Descripción general de las bases de datos de la Librería Iztaccihuatl................... 2
Tabla 2 Análisis de la información en las bases de datos ................................................. 5
Tabla 3 Comparativo entre R y Python ............................................................................. 6
Tabla 4 Propuestas de predicciones según las bases de datos disponibles ...................... 6
Tabla 5 Inconsistencias detectadas en las bases de datos................................................ 7
Tabla 6 Adecuaciones propuestas para el procesamiento de los datos ............................. 8
5. Aplicando la Ciencia de Datos en una organización
1 | P á g i n a
Introducción
El análisis de la información y, particularmente, de los datos, constituye la base para la
toma de decisiones y así resolver problemas en una amplia variedad de ramas, ya sea
del conocimiento, la industria, la sociedad o el gobierno.
Al respecto, se puede señalar que el análisis de datos dentro de las organizaciones,
públicas o privadas, tiene como finalidad mejorar sus procesos y obtener un mayor
rendimiento, no solo de carácter económico o financiero, sino que dependerá de las
características del negocio y el propósito del estudio, así como de los indicadores
definidos.
Derivado de lo anterior, toda vez que el presente documento tiene como finalidad
presentar una propuesta de proyecto de ciencia de datos, es necesario definir en primer
lugar en qué consiste la Ciencia de Datos, que de manera general se concibe como una
disciplina que combina un conjunto amplio de técnicas y otras ciencias para extraer
significado y conocimiento útil de los datos.1
En este sentido, en este documento se presenta una propuesta de proyecto basado en
ciencia de datos para la empresa denominada Librería Iztaccíhuatl, que se localiza en
la ciudad de Monterrey, Nuevo León, para mejorar su toma de decisiones, mediante la
respuesta a las siguientes preguntas:
¿Qué lenguaje de programación para ciencia de datos utilizaría para realizar el
análisis de datos de la Librería Iztaccíhuatl?
¿Qué predicciones se podrían obtener de los datos de la Librería Iztaccíhuatl?
¿Qué adecuaciones se podría hacer a los datos de la Librería Iztaccíhuatl para
poder realizar un análisis predictivo?
¿Qué tipo de base de datos se utilizaría para alojar los análisis de los datos de la
Librería Iztaccíhuatl?
¿Qué tipo de servicio de la nube podría contratar la Librería Iztaccíhuatl para
alojar la información y el proyecto de ciencia de datos?
Para el desarrollo de la propuesta se utiliza la información proporcionada en el material
del curso “Herramientas para el Análisis de BigData”, dentro de la plataforma edx.org,
consistente en cuatro bases de datos dentro de la carpeta denominada
“datasets_books”.
1
Véase https://www.maximaformacion.es/blog-dat/que-es-la-ciencia-de-datos/ y
https://www.oracle.com/mx/data-science/what-is-data-science/
6. Aplicando la Ciencia de Datos en una organización
2 | P á g i n a
En la siguiente sección, de acuerdo con los alcances del curso, se analiza la
información de las bases de datos disponibles, para poder presentar en una sección
adicional las propuestas que sirven como respuestas a las preguntas de investigación
planteadas para este proyecto y, finalmente, se integra un apartado con las
conclusiones correspondientes.
Análisis inicial
Como primera etapa en el diseño de un proyecto de Ciencia de Datos es necesario
conseguir e identificar los datos necesarios, verificar su calidad y establecer las
primeras relaciones entre ellos.
La recolección de datos para este proyecto está definida por las bases de datos
proporcionados en la sección “Proyecto individual evaluado por pares”, correspondiente
al Tema 2. Preservación, Manejo de versiones y trabajo colaborativo, del curso
Herramientas para el Análisis de Big Data, en la plataforma edx.org, de manera
particular en la carpeta denominada “datasets_books”, que cuentan con las
características descritas en la Tabla 1.
Tabla 1
Descripción general de las bases de datos de la Librería Iztaccíhuatl
Base de
datos
Descripción
books.csv Contiene los datos generales de cada libro existente en la
librería y además menciona el promedio de clasificación de cada
libro de acuerdo a las votaciones y compras del cliente.
top_books.csv Contiene el top 20 de los libros más vendidos de acuerdo a una
clasificación general.
to_read.csv Contiene los datos de los libros más votados por los clientes
dentro del sitio web de la librería.
ratings.csv Contiene las recomendaciones que cada cliente o usuario
realiza en el sitio web sobre libros para leer.
Con la finalidad de realizar un análisis exploratorio inicial de las bases de datos a utilizar
en el proyecto de la Librería Iztaccíhuatl, se utilizaron las funciones dtypes() y describe()
en la herramienta Python.
La función dtypes()visualiza el tipo de datos de cada columna de las bases de datos o
dataframes, con los resultados que muestra la Figura 1.
7. Aplicando la Ciencia de Datos en una organización
3 | P á g i n a
Figura 1
Tipos de datos del conjunto analizado para la Librería Iztaccíhuatl
Al respecto, es necesario recordar que el tipo “int64” corresponde a número enteros, el
tipo “float64” a número decimales, y “object” a valores a texto o valores numéricos y no
numéricos mezclados 2. Destaca que el tipo de la columna ISBN es diferente en las dos
bases de datos que aparece y la fecha de publicación en el conjunto “top_books.csv” no
tiene el formato de fecha.
2
https://pbpython.com/pandas_dtypes.html
8. Aplicando la Ciencia de Datos en una organización
4 | P á g i n a
La función describe() proporciona estadísticas descriptivas tales como: media, mediana,
máximo, mínimo, desviación estándar y conteo para las columnas numéricas de las
bases de datos o dataframes. Los resultados obtenidos se muestran en la Figura 2.
Figura 2
Estadísticas descriptivas de las bases de datos de la Librería Iztaccíhuatl
9. Aplicando la Ciencia de Datos en una organización
5 | P á g i n a
Para una mayor comprensión de las bases de datos, se detalla la información de cada
una de ellas en la Tabla 2.
Tabla 2
Análisis de la información en las bases de datos
Base de
datos
Descripción específica
books.csv Contiene 10,000 registros (libros), cuyas fechas de publicación
original datan desde 1750 a. C, hasta 2017 d. C. Los libros se
encuentran en 21 idiomas diferentes, de los cuales el inglés
representa el 87.3%, si se suman las cinco clasificaciones
diferentes que presenta. Del total de registros, no se encuentra
especificado el idioma en 1,084 de ellos.
top_books.csv Muestra 120 registros con los 20 libros más vendidos según las
categorías establecidas en el campo ‘classification’. De acuerdo
con esta información, hasta el 2010, el mayor número de libros
vendidos pertenecía a la clasificación PB Fiction, mientras el
mayor valor se generó por la clasificación HB Non Fiction.
to_read.csv Recopila 912,705 registros con las recomendaciones de 48,871
usuarios del sitio web de la Librería Iztaccíhuatl, respecto a
9,986 títulos (libros). De esta cantidad, el libro más
recomendado tiene 2,772 menciones, en tanto que 34 títulos
solo tienen una recomendación.
ratings.csv Se compone de 981,75 registros con la calificación (rating)
otorgada por 53,426 usuarios a 10,000 títulos con que cuenta la
librería. Por título, la calificación promedio es de 3.86, donde el
peor evaluado tiene un rating de 1.96, mientras que el libro
mejor calificado obtuvo un promedio de 4.82 puntos. El rating
promedio por usuario es de 3.87, en el rango permitido de 1 a 5
puntos.
Propuestas
La propuesta se desarrolla con base en las preguntas de investigación formuladas en
los requisitos de acreditación del proyecto individual evaluado por pares del curso
Herramientas para el Análisis de Big Data, en la plataforma edx.org.
Elección del lenguaje de programación
Al considerar que este proyecto de Ciencia de Datos es el primero que se aplicaría en
la Librería Iztaccíhuatl para mejorar su estrategia de toma de decisiones y sus
indicadores de desempeño, es necesario que el mismo se desarrolle mediante
aplicaciones relativamente sencillas y de fácil acceso.
10. Aplicando la Ciencia de Datos en una organización
6 | P á g i n a
Entre la diversidad de herramientas para la ciencia de datos, en lo que se refiere a los
lenguajes de programación destacan por su accesibilidad R y Python, ya que son de
código abierto. Las principales características se de estos programas se enlistan en la
Tabla 3.
Tabla 3
Comparativo entre R y Python
R Python
Ventajas Desventajas Ventajas Desventajas
Excelente gama de
paquetes de código
abierto y de alta
calidad.
La instalación básica
viene con funciones
y métodos
estadísticos
integrales muy
completos.
Manejo del álgebra
de matriz.
No es un lenguaje
rápido.
Especificidad de
dominio para fines
estadísticos y
científicos de datos.
Tiene algunas
características poco
frecuentes.
Cuenta con una
amplia gama de
módulos
específicos.
Lenguaje fácil de
aprender que es
ideal para
aquellos que son
nuevos en la
programación.
Robusto a la hora
de automatizar
procesos y
controlar flujos de
ejecución.
Lenguaje de tipo
dinámico, por lo
que los errores de
tipo deben
esperarse de vez
en cuando.
Para los
lenguajes de
propósito general,
hay mejores
alternativas.
Toda vez que R muestra una curva lenta de aprendizaje y que Python tienen mayor
eficiencia en términos de computación, se sugiere este último como el lenguaje de
programación para este proyecto.
Posibles predicciones de acuerdo con los datos
De acuerdo con la información presentada en cada una de las bases de datos, se
identificaron variables que podrían predecirse mediante la aplicación de la ciencia de
datos, que se muestran en la Tabla 4.
Tabla 4
Propuestas de predicciones según las bases de datos disponibles
Indicador Base de datos Predicción
Ingresos por
ventas.
top_books.csv Ventas futuras y su estacionalidad mediante
modelos de series de tiempo, con base en la
información de los campos ‘Value’ y ‘Date’.
Volumen de
ventas
top_books.csv Modelo de clasificación de los libros más
vendidos según su encuadernación (campo
11. Aplicando la Ciencia de Datos en una organización
7 | P á g i n a
Indicador Base de datos Predicción
‘Blinding’) y categoría (campo
‘Classification’).
Recomendaciones to_read.csv Sugerencias de compra en la página web de
la Librería a los usuarios que coinciden con
tres elementos o más, en los que se
identifiquen elementos “no coincidentes” en
el campo ‘book_id’.
Calificación to_read.csv Títulos con mayor calificación según la
media del campo ‘ratings’ que no se
encuentren en la base de datos
top_books.csv.
Adecuaciones a los datos para realizar un análisis predictivo
El análisis de datos se pretende obtener información que otorgue valor agregado para
resolver problemas y sustentar la toma de decisiones, y se divide principalmente en tres
tipos, en función de si valor y complejidad: Analítica Descriptiva, Analítica Predictiva y
Analítica Prescriptiva.
Mediante el análisis predictivo se pretende responder a la pregunta ¿qué puede pasar?,
a través del pronóstico o predicción de resultados con base en la relación de variables
explicativas o de entrada y variables de salida.
Al revisar con mayor detalle la información de las bases de datos proporcionadas, se
encontraron las inconsistencias señaladas en la Tabla 5.
Tabla 5
Inconsistencias detectadas en las bases de datos
Id. Base de datos Inconsistencia
1 books.csv El campo ‘original_publication_year’ muestra fechas desde
1750 a. C. Sin embargo, es preciso señalar que la mayoría
de las publicaciones “antiguas” corresponden a las
traducciones que se han realizado, lo que se distingue
según el campo ‘authors’.
2 books.csv Mismo dato en todos los registros del campo ‘ISBN13’.
3 books.csv Se requiere precisar el nombre de los campos ya que
también existe el campo ‘ISBN’ con información diferente
en cada registro, lo que puede generar confusiones e
interpretación errónea de la información.
4 top_books.csv. Mismo dato en todos los registros del campo ‘ISBN’
12. Aplicando la Ciencia de Datos en una organización
8 | P á g i n a
Id. Base de datos Inconsistencia
5 top_books.csv Solo tiene un registro para 1999, 2005 y 2006; no existe
información de 2000 a 2004, cinco registros para 2007,
cuatro para 2008, 11 para 2009 y 97 para 2010.
6 top_books.csv Registros repetidos en todos los campos, con excepción
del campo ‘classification’. Lo anterior significa que un
mismo libro está registrado con dos categorías diferentes
en ese campo: Original fiction y HB Fiction.
7 top_books.csv Existen 30 registros en el campo ‘Publ Date’ que no
corresponden con el formato de fecha de los 90 registros
restantes.
8 ratings.csv Un mismo usuario evalúa dos o más veces el mismo libro.
En función de los datos y las inconsistencias señaladas en la tabla anterior, se propone
realizar tareas de selección, limpieza, estandarización, cambio de formatos y, en su
caso, generación de nuevas variables, para permitir su procesamiento en la ejecución
de análisis predictivos.
De acuerdo con el número de identificador (Id.) señalado en la Tabla 5, se sugieren las
adecuaciones que se refieren en la Tabla 6.
Tabla 6
Adecuaciones propuestas para el procesamiento de los datos
Id. Adecuación
1 Establecer la fecha que corresponda efectivamente a la publicación, ya sea
original o de la traducción realizada
2 Integrar el ISBN correspondiente a cada libro, mediante un catálogo para
evitar errores de registro manual.
3 Se requiere precisar el nombre de los campos ya que también existe el
campo ‘ISBN’ con información diferente en cada registro, lo que puede
generar confusiones e interpretación errónea de la información.
4 Identificar y establecer el mismo nombre para los campos en diferentes
bases de datos que se refieran a la misma información, mediante un
modelo de datos que hagan referencia a una tabla única para el campo
deseado.
5 Crear una base de datos con información histórica completa con el volumen
y valor de ventas de 1999 a la fecha.
6 Establecer una categoría única para cada libro.
7 El campo deberá referirse a la fecha de venta y no a la de publicación, por
lo que se requiere modificar toda la base de datos e incorporar reglas de
validación para que la captura cumpla con un formato único. En su caso
podría generarse un vínculo a la base de datos de ventas que contenga la
fecha requerida.
13. Aplicando la Ciencia de Datos en una organización
9 | P á g i n a
Id. Adecuación
8 Conservar la última calificación asignada por el usuario para cada libro.
Elección del tipo de base de datos a utilizar
La adecuada administración de los datos del negocio permitirá además de tener
información confiable, desarrollar diferentes análisis o proyectos de Ciencia de Datos,
por lo que es fundamental definir la forma en la que se almacenarán y la herramienta
para su gestión.
Para el caso de la Librería Iztaccíhuatl, toda vez que ya se cuenta con información
estructurada y de tipo transaccional, se recomienda utilizar una base de datos
relacional, ya que se trata de la recopilación de elementos de datos con relaciones
predefinidas entre ellos.
Una relación representa un conjunto de entidades con las mismas propiedades; es
decir, los valores de cada entrada o registro (fila) dependen de los atributos definidos
(columnas). Como ejemplo de esas relaciones en el caso de estudio se encuentra el
ISBN y el título de la obra, el autor, fecha de publicación e idioma, entre otros. Además,
pueden identificarse la fecha y precio de venta con los datos del cliente; así como el
usuario y su recomendación o la calificación otorgada a un título.
Dadas las características de los datos de este proyecto, las bases de datos relacionales
permiten utilizar un conjunto de restricciones para aplicar la integridad de los datos; es
decir, aplicar reglas de validación para garantizar la precisión y confiabilidad de los
datos.
Definición del servicio en la nube
El cómputo en la nube o cloud computing es la prestación de servicios informáticos a
través de Internet, lo que incluye servidores, almacenamiento, bases de datos, redes,
software, análisis e inteligencia, a través de los cuales las organizaciones pueden
acceder a recursos flexibles, economías de escala e innovación acelerada. Dentro de
sus principales características y ventajas se encuentran:
Los usuarios pueden aumentar los recursos a demanda.
Las empresas pueden incrementar o disminuir los recursos en función de los
picos y valles de demanda.
Se paga sólo por los recursos que se utilizan.
Los proveedores implementan recursos que garantizan un servicio resistente a
fallos que siempre funcione.
14. Aplicando la Ciencia de Datos en una organización
10 | P á g i n a
Se facilitan los métodos para migrar datos y servicios desde la nube o entre
nubes, de forma automática o manualmente por el usuario.
Al respecto, se identifican cuatro tipos o modelos de nube que pueden implementarse:
1. Nube pública: ofrece sus servicios a cualquier usuario de internet. Los servidores
y almacenamiento pertenecen al proveedor del servicio y el cliente sólo paga
generalmente por el espacio de almacenamiento o el ancho de banda que
consume.
2. Nube privada: los servicios se ofrecen a un número limitado de usuarios a través
de una red interna de una empresa. Esta red puede localizarse en las
instalaciones de la organización o en las de un proveedor externo.
3. Nube híbrida: los servicios son compartidos entre nubes públicas y privadas, en
función de las necesidades. De esta manera, la información delicada puede
alojarse en la nube privada y la menos crítica en la nube pública.
4. Nube comunitaria o Multicloud: consiste en varias nubes entre las que se
desplazan los distintos servicios y que pueden trabajar simultáneamente, cuyos
recursos se comparten entre organizaciones.
Dadas las características de la Librería Iztaccíhuatl y la información de sus bases de
datos, se podría contratar un servicio de nube híbrida, para obtener las ventajas de la
escalabilidad, rendimiento y costo de la nube pública, así como mantener el control de
su información mediante su infraestructura local (nube privada).
Conclusiones
El trabajo desarrollado en este documento tuvo la finalidad de cumplir con la práctica
individual del proyecto de evaluación entre pares, correspondiente al curso
“Herramientas para el Big Data”, dentro de la plataforma edx.org.
Para lograr tal fin, en primer lugar, analizó el conjunto de bases de datos proporcionado,
mediante la descripción de su contenido, así como la aplicación de las funciones
dtypes() y describe() de la librería Pandas del lenguaje de programación Python, que
permitieron identificar el tipo de datos y las estadísticas descriptivas para las variables
numéricas de los mismos.
Para definir la propuesta de aplicación de un proyecto de Ciencia de Datos en una
organización, se respondieron las preguntas de investigación planteadas para el
desarrollo del proyecto de evaluación entre pares, con los siguientes resultados:
1. ¿Qué lenguaje de programación para ciencia de datos utilizaría para realizar el
análisis de datos de la Librería Iztaccíhuatl?
15. Aplicando la Ciencia de Datos en una organización
11 | P á g i n a
Mediante la comparación de las ventajas y desventajas de los lenguajes de
programación R y Python, derivado de curva lenta de aprendizaje del primero y
la mayor eficiencia en términos de computación del primero, se eligió a Python
para el desarrollo del proyecto.
2. ¿Qué predicciones se podrían obtener de los datos de la Librería Iztaccíhuatl?
Por la importancia y con la finalidad de mejorar la toma de decisiones, con base
en los datos analizados se considera que podrían predecirse las siguientes
variables: Ingresos por ventas, mediante modelos de series de tiempo; Volumen
de ventas, mediante un modelo de clasificación de los libros más vendidos;
Recomendaciones, mediante sugerencias de acuerdo a las compras por usuario;
y Calificación, de acuerdo con el rating asignado por los usuarios.
3. ¿Qué adecuaciones se podría hacer a los datos de la Librería Iztaccíhuatl para
poder realizar un análisis predictivo?
Según análisis inicial de la información, se detectaron inconsistencias, tales
como fechas de publicación, campos con información repetida para registros de
libros diferentes, campos con el mismo nombre en diferentes bases de datos que
no corresponden a la misma información, información desactualizada e
incompleta en los libros más vendidos, falta de validadores en campos para
registro de fechas, principalmente.
Derivado de lo anterior, se establecieron acciones concretas de selección,
limpieza, estandarización, cambio de formatos y, en su caso, generación de
nuevas variables, para permitir el procesamiento de datos.
4. ¿Qué tipo de base de datos se utilizaría para alojar los análisis de los datos de la
Librería Iztaccíhuatl?
Para la adecuada administración de los datos del negocio y al considerar que la
información analizada consiste de datos estructurados, se propone utilizar una
base tipo relacional, lo que permitirá facilitar la integridad los mismos.
5. ¿Qué tipo de servicio de la nube podría contratar la Librería Iztaccíhuatl para
alojar la información y el proyecto de ciencia de datos?
Con base en las características de los cuatro modelos de cómputo en la nube, se
propone un servicio de nube híbrida, con las ventajas de la escalabilidad,
rendimiento y costo, así como mantener el control de la información en su
infraestructura local.
16. Aplicando la Ciencia de Datos en una organización
12 | P á g i n a
Bibliografía
AWS (s.f.) ¿Qué es una base de datos relacional?
https://aws.amazon.com/es/relational-database/
Benito, A. (5 de septiembre de 2019) Los 3 tipos de servicios que existen dentro del
cloud computing en las empresas. https://www.viafirma.com/blog-xnoccio/es/tipos-
servicios-cloud-computing-empresas/
IONOS (9 de mayo de 2019) Bases de datos relacionales: el modelo de datos en
detalle. Cuestiones técnicas. https://www.ionos.es/digitalguide/hosting/cuestiones-
tecnicas/bases-de-datos-relacionales/
Moffitt, C. (Marzo 2018). Overview of Pandas Data Types. Practical Business Python.
https://pbpython.com/pandas_dtypes.html