SlideShare una empresa de Scribd logo
1 de 18
Descargar para leer sin conexión
Utilizando la Ciencia de Datos en una organización
Utilizando la
Ciencia de
Datos en una
organización
Proyecto individual evaluado
por pares
Marco Polo Sánchez Farfán
Utilizando la Ciencia de Datos en una organización
1 | P á g i n a
Resumen
Este documento tiene como propósito cumplir con la práctica individual
correspondiente al proyecto de evaluación entre pares, dentro del curso “Introducción
a la Ciencia de Datos y el Big Data”, en la plataforma edx.org. Para tal efecto, se
analiza la información proporcionada en cuatro bases de datos de la empresa
denominada “Librería Iztaccihuatl” y, con base en los conocimientos adquiridos en el
curso, particularmente la Metodología CRISP-DM, se presentan propuestas de
acciones concretas para los indicadores de desempeño definidos.
Utilizando la Ciencia de Datos en una organización
2 | P á g i n a
Contenido
Introducción...........................................................................................................................1
Propuesta...............................................................................................................................3
Fase1. Comprensión del Negocio....................................................................................3
Fase 2. Adquisición de datos...........................................................................................4
Fase 3. Preparación de datos...........................................................................................5
Fase 4. Modelado..............................................................................................................5
Fase 5 Evaluación e interpretación..................................................................................6
Fase 6. Despliegue o Implementación del modelo........................................................9
Estrategia 1. Depuración y Actualización....................................................................9
Estrategia 2. Creación del Modelo de Datos ............................................................10
Estrategia 3. Acciones a seguir sobre los indicadores de desempeño ..................11
Conclusiones........................................................................................................................12
Bibliografía...........................................................................................................................14
Utilizando la Ciencia de Datos en una organización
3 | P á g i n a
Lista de Figuras
Figura 1 Comparación de metodologías para proyectos de Ciencia de Datos ........................... 1
Figura 2 Porcentaje de utilización de las metodologías para proyectos de ciencia de datos.. 2
Figura 3 Secuencia del proceso CRISP-DM..................................................................................... 3
Figura 4 Estadística descriptiva. Base de datos “books”............................................................... 7
Figura 5 Gráfico Indicadores. Base de datos “top_books”............................................................ 8
Figura 6 Estadística descriptiva. Base de datos “to_read”............................................................ 8
Figura 7 Estadística descriptiva. Base de datos “ratings” ............................................................. 9
Figura 8 Implementación del proyecto de ciencia de datos para la Librería Iztaccihuatl........ 12
Lista de Tablas
Tabla 1 Descripción de las bases de datos de la Librería Iztaccihuatl......................................... 4
Tabla 2 Inconsistencias detectadas en las bases de datos............................................................ 4
Tabla 3 Acciones de limpieza y estandarización de datos........................................................... 5
Tabla 4 Resultados del análisis de las bases de datos.................................................................. 6
Tabla 5 Acciones para la depuración y actualización de las bases de datos ............................ 10
Tabla 6 Relaciones detectadas entre los campos de las bases de datos analizadas............... 10
Tabla 7 Acciones adicionales para vincular las bases de datos.................................................. 11
Tabla 8 Acciones para el seguimiento de los KPI seleccionados................................................ 12
Utilizando la Ciencia de Datos en una organización
1 | P á g i n a
Introducción
El análisis de la información y, particularmente, de los datos, constituye la base para la
toma de decisiones y así resolver problemas en una amplia variedad de ramas, ya sea del
conocimiento, la industria, la sociedad o el gobierno.
Al respecto, se puede señalar que el análisis de datos dentro de las organizaciones,
públicas o privadas, tiene como finalidad mejorar sus procesos y obtener un mayor
rendimiento, no solo de carácter económico o financiero, sino que dependerá de las
características del negocio y el propósito del estudio, así como de los indicadores
definidos.
Derivado de lo anterior, toda vez que el presente documento tiene como finalidad
presentar una propuesta de proyecto de ciencia de datos, es necesario definir en primer
lugar en qué consiste la Ciencia de Datos, que de manera general se concibe como una
disciplina que combina un conjunto amplio de técnicas y otras ciencias para extraer
significado y conocimiento útil de los datos.1
Ahora bien, el proceso de extracción de conocimiento a partir de los datos debe realizarse
con base en un método que permita resolver el problema planteado originalmente, ya que
de otra forma la solución planteada podría ser errónea, no porque el análisis de datos lo
sea, sino por la ausencia de un marco de referencia.
Dentro de las metodologías utilizadas para desarrollar un proyecto de Ciencia de Datos, las
de mayor relevancia son KDD (Knowledge Discovery in Databases), SEMMA (Sample,
Explore, Modify, Model and Access) y CRISP-DM (Cross Industry Standard Process for Data
Mining), que se pueden comparar, de la siguiente manera:
Figura 1
Comparación de metodologías para proyectos de Ciencia de Datos
Fuente: https://blogdatlas.wordpress.com/2020/02/16/4-metodologias-para-proyectos-de-data-science-
datlas-research/.
1
Véase https://www.maximaformacion.es/blog-dat/que-es-la-ciencia-de-datos/ y
https://www.oracle.com/mx/data-science/what-is-data-science/
Utilizando la Ciencia de Datos en una organización
2 | P á g i n a
Como puede observarse, la principal diferencia y ventaja de la metodología CRISP-DM es la
incorporación explícita del “Entendimiento del Negocio” como punto de partida para el
desarrollo de un proyecto de análisis de datos, y con esa base continuar con las etapas
técnicas del proyecto.
Por otro lado, de acuerdo con la información disponible, una justificación adicional para el
uso de esta metodología consiste en que se ha mantenido como la más empleada en los
proyectos de Ciencia de Datos.
Figura 2
Porcentaje de utilización de las metodologías para proyectos de ciencia de datos
Fuente: https://www.kdnuggets.com/2014/10/crisp-dm-top-methodology-analytics-data-mining-data-science-
projects.html.
En este sentido, este documento presenta una propuesta de proyecto basado en ciencia de
datos para la empresa denominada Librería Iztaccihuatl, que se localiza en la ciudad de
Monterrey, Nuevo León, para mejorar sus indicadores de desempeño -KPI por sus siglas en
inglés- y a la vez desplegar una mejor estrategia en la toma de decisiones.
Para el desarrollo de la propuesta se utiliza la información proporcionada en el material del
curso “Introducción a la Ciencia de Datos y el Big Data”, dentro de la plataforma edx.org,
consistente en cuatro bases de datos dentro de la carpeta denominada “datasets_books”.
En la siguiente sección, de acuerdo con los alcances del curso, se plantea la propuesta
siguiendo la Metodología CRISP-DM y, finalmente, se integra un apartado con las
conclusiones correspondientes.
Utilizando la Ciencia de Datos en una organización
3 | P á g i n a
Propuesta
La Metodología CRISP-DM consiste en 6 fases o etapas que se encuentran estructuradas
de manera secuencial; sin embargo, en cualquiera de ellas es posible regresar para revisar
y mejorar el modelo o proyecto.
Figura 3
Secuencia del proceso CRISP-DM
Fuente: https://blog.smartup.es/crisp-dm-6-pasos-proceso-data-mining/
Fase1. Comprensión del Negocio
En esta etapa es necesario identificar los objetivos del negocio, así como los del propio
proyecto, con la finalidad de entender el problema que se desea resolver.
Para el caso de estudio, la información presentada en la Introducción no muestra una
situación específica que atender para la Librería Iztaccihuatl, por lo que se parte de
considerarla como un establecimiento comercial, cuyos objetivos están dirigidos en
incrementar las ganancias y mejorar la atención al cliente.
Por lo tanto, las siguientes fases estarán orientadas al análisis de la información y diseño
de propuestas para lograr dichos objetivos.
Utilizando la Ciencia de Datos en una organización
4 | P á g i n a
Fase 2. Adquisición de datos
Esta etapa consiste en conseguir e identificar los datos necesarios, verificar su calidad y
establecer las primeras relaciones entre ellos para el desarrollo del proyecto.
La recolección de datos para este proyecto está definida por las bases de datos
proporcionados en la sección “Proyecto individual evaluado por pares”, correspondiente al
subtema 2.2 Metodologías para proyectos de Ciencia de Datos, del curso Introducción a la
Ciencia de Datos y el Big Data, en la plataforma edx.org, de manera particular en la carpeta
denominada “datasets_books”, que cuentan con las características descritas en la Tabla 1.
Tabla 1
Descripción de las bases de datos de la Librería Iztaccihuatl
Base de datos Descripción
books Contiene los datos generales de cada libro existente en la librería y
además menciona el promedio de clasificación de cada libro de
acuerdo a las votaciones y compras del cliente.
top_books Contiene el top 20 de los libros más vendidos de acuerdo a una
clasificación general.
to_read Contiene los datos de los libros más votados por los clientes
dentro del sitio web de la librería.
ratings Contiene las recomendaciones que cada cliente o usuario realiza
en el sitio web sobre libros para leer.
Al revisar la información de las bases de datos señaladas, se encontraron las
inconsistencias señaladas en la Tabla 2, lo que limita su análisis:
Tabla 2
Inconsistencias detectadas en las bases de datos
Número Inconsistencia
1 En la base de datos “books” el campo ‘original_publication_year’
muestra fechas desde 1750 a. C. Sin embargo, es preciso señalar que
la mayoría de las publicaciones “antiguas” corresponden a las
traducciones que se han realizado, lo que se distingue según el campo
‘authors’.
2 Mismo dato en todos los registros del campo ‘ISBN13’ de la base de
datos “books” y en el campo ‘ISBN’ de la base de datos “top_books”.
3 Se requiere precisar el nombre de los campos ya que en la base de
datos “books” también existe el campo ‘ISBN’ con información diferente
en cada registro, lo que puede generar confusiones e interpretación
errónea de la información.
4 La base de datos “top_books” refiere que contiene el volumen de
ventas hasta 2010; solo tiene un registro para 1999, 2005 y 2006; no
Utilizando la Ciencia de Datos en una organización
5 | P á g i n a
Número Inconsistencia
existe información de 2000 a 2004, cinco registros para 2007, cuatro
para 2008, 11 para 2009 y 97 para 2010.
5 Registros repetidos en todos los campos de la base de datos
“top_books”, con excepción en el campo ‘classification’. Lo anterior
significa que un mismo libro está registrado con dos categorías
diferentes en ese campo: Original fiction y HB Fiction.
6 En esta misma base de datos existen 30 registros en el campo ‘Publ
Date’ que no corresponde con el formato de fecha de los 90 registros
restantes.
7 En la base de datos “ratings” un mismo usuario evalúa dos o más veces
el mismo libro.
Fase 3. Preparación de datos
Los datos recogidos en la etapa anterior deben adaptarse a través de tareas generales de
selección, limpieza, cambios de formatos y, en su caso, generación de nuevas variables,
para permitir su procesamiento.
En función de los datos y las inconsistencias señaladas en el apartado anterior se efectuó
la limpieza y estandarización con las acciones señaladas en la Tabla 3 de aquellos registros
que influyen o pueden ser determinantes en el análisis de los KPI definidos para esta
propuesta.
Tabla 3
Acciones de limpieza y estandarización de datos
Incidencia Preparación
5 Determinación de un registro único por libro
6 Corrección del formato de fecha.
Fase 4. Modelado
En esta etapa se selecciona la técnica más apropiada para resolver el problema en función
de los datos elegidos.
Dados los alcances del curso Introducción a la Ciencia de Datos y el Big Data y
especialmente los este proyecto, no se determina una técnica o modelo de minería de
datos o, en general, de ciencia de datos; sin embargo, se presenta el tipo de análisis que
se realizará con la información.
En este sentido, es importante mencionar que a través del análisis de datos se pretende
obtener información que otorgue valor agregado para describir e interpretar correctamente
los reportes e informes de la organización de que se trate, a fin de resolver problemas y
sustentar la toma de decisiones.
Utilizando la Ciencia de Datos en una organización
6 | P á g i n a
Actualmente, la mayoría de la literatura sobre la Analítica de Datos, la divide en tres tipos,
en función de si valor y complejidad:
• Analítica Descriptiva. Es el tipo más simple y responde a la pregunta ¿qué sucedió?
De esta manera, permite conocer lo que ha ocurrido en el pasado e identificar
patrones, tendencias y excepciones.
• Analítica Predictiva. Al ponerla en práctica se pretende responder a la pregunta
¿qué puede pasar?, mediante la predicción de resultados con base en la relación de
variables explicativas, o de entrada, y variables de salida.
• Analítica Prescriptiva. Trata de responder a la pregunta ¿qué se puede hacer?; es
decir, determinar las acciones óptimas que deben llevarse a cabo con base en
modelos predictivos y definir la mejor estrategia ante situaciones concretas.
En este sentido, derivado de la información disponible de la Librería Iztaccihuatl y el
alcance de este proyecto, el análisis a realizar será de tipo descriptivo, mediante la
utilización de técnicas sencillas para conocer su situación actual.
Fase 5 Evaluación e interpretación
En esta etapa deben analizarse los resultados obtenidos mediante la aplicación del modelo
elegido anteriormente para mostrar su relación con los objetivos del proyecto.
Dentro de la Tabla 4 se presentan los resultados de la exploración de los resultados,
mediante pruebas básicas, en tanto que en las Figuras 3, 5 y 6 se muestran los
histogramas y la estadística descriptiva de estos conjuntos de datos. En el caso de la base
de datos “top_books”, la Figura 4 exhibe el valor y volumen de ventas de acuerdo con la
clasificación de los títulos.
Tabla 4
Resultados del análisis de las bases de datos
Base de datos Resultados
books Contiene 10,000 registros (libros), cuyas fechas de publicación
original datan desde 1750 a. C, hasta 2017 d. C. Los libros se
encuentran en 21 idiomas diferentes, de los cuales el inglés
representa el 87.3%, si se suman las cinco clasificaciones
diferentes que presenta. Del total de registros, no se encuentra
especificado el idioma en 1,084 de ellos.
En cuanto a los indicadores seleccionados, el ‘rating’ promedio es
de 4.00, con un rango de 2.47 a 4.82. El intervalo (3.943, 3.984]
presentó la mayor frecuencia con 664 observaciones.
Utilizando la Ciencia de Datos en una organización
7 | P á g i n a
Base de datos Resultados
top_books Muestra 120 registros con los 20 libros más vendidos según las
categorías establecidas en el campo ‘classification’. De acuerdo con
esta información, hasta el 2010, el mayor número de libros
vendidos pertenecía a la clasificación PB Fiction, mientras el mayor
valor se generó por la clasificación HB Non Fiction.
Sin embargo, al revisar la base de datos se observa que los datos
para un mismo libro están repetidos en todos los campos, pero
con diferente clasificación, por lo que, al hacer una depuración de
la información repetida, se obtienen 103 registros únicos con igual
número de categorías en el campo ‘classification’. Las conclusiones
sobre las clasificaciones con mayor número y valor de ventas no se
modifican.
to_read Recopila 912,705 registros con las recomendaciones de 48,871
usuarios del sitio web de la Librería Iztaccihuatl, respecto a 9,986
títulos (libros). De esta cantidad, el libro más recomendado tiene
2,772 menciones, en tanto que 34 títulos solo tienen una
recomendación.
Respecto a la actividad de los usuarios del sitio web, la media de
las recomendaciones por usuario es de 18.7, en un rango de 1
hasta 117. Cabe resaltar que 2,286 usuarios solo han realizado
una recomendación.
ratings Se compone de 981,75 registros con la calificación (rating)
otorgada por 53,426 usuarios a 10,000 títulos con que cuenta la
librería. Por título, la calificación promedio es de 3.86, donde el
peor evaluado tiene un rating de 1.96, mientras que el libro mejor
calificado obtuvo un promedio de 4.82 puntos. El rating promedio
por usuario es de 3.87, en el rango permitido de 1 a 5 puntos.
Figura 4
Estadística descriptiva. Base de datos “books”
Utilizando la Ciencia de Datos en una organización
8 | P á g i n a
Figura 5
Gráfico Indicadores. Base de datos “top_books”
Figura 6
Estadística descriptiva. Base de datos “to_read”
Utilizando la Ciencia de Datos en una organización
9 | P á g i n a
Figura 7
Estadística descriptiva. Base de datos “ratings”
Fase 6. Despliegue o Implementación del modelo
El conocimiento adquirido en las etapas anteriores debe mostrarse al cliente mediante un
conjunto de acciones dentro del proceso del negocio.
Como se señaló anteriormente, toda vez que no se desarrolló un modelo de ciencia de
datos, en este apartado se detallará, con base en la información analizada, el plan de
acción que la Librería Iztaccihuatl deberá llevar a cabo.
Estrategia 1. Depuración y Actualización
Con base en las inconsistencias señaladas en la Fase 2, con el propósito de contar con más
y mejor información que permitan la toma de decisiones estratégicas por parte de la
compañía, la empresa deberá instrumentar el plan que se indica en la Tabla 5:
Utilizando la Ciencia de Datos en una organización
10 | P á g i n a
Tabla 5
Acciones para la depuración y actualización de las bases de datos
Inconsistencia Acciones
1 Establecer la fecha que corresponda a la publicación de la
traducción realizada
2 Integrar el ISBN correspondiente a cada libro.
Buena práctica: Utilizar el catálogo del ISBN para evitar errores de
registro manual.
3 Identificar y establecer el mismo nombre para los campos en
diferentes bases de datos que se refieran a la misma información.
Buena práctica: Establecer un modelo de datos para que diferentes
bases hagan referencia a una tabla única para el campo deseado.
4 Crear una base de datos con información histórica completa con el
volumen y valor de ventas de 1999 a la fecha.
5 Establecer una categoría única para cada libro.
6 El campo deberá referirse a la fecha de venta y no a la de
publicación, por lo que se requiere modificar toda la base de
datos.
Buena práctica: crear una validación de datos en este campo para
que la captura cumpla con un formato único en todos los registros
o generar un vínculo a la base de datos de ventas que contenga la
fecha requerida.
7 Conservar la última calificación asignada por el usuario para cada
libro.
Es preciso señalar que la implementación de las siguientes etapas depende del
cumplimiento de estas acciones, por lo que será necesario monitorear su avance.
Estrategia 2. Creación del Modelo de Datos
Para cumplir con esta etapa es necesario identificar las relaciones existentes entre la
información de las cuatro bases de datos. De manera inicial, las únicas relaciones que
existen son las mostradas en la Tabla 6.
Tabla 6
Relaciones detectadas entre los campos de las bases de datos analizadas
Base de datos Campo Base de Datos Campo
books
ISBN → top_books ISBN
book_id
→ to_read book_id
→ ratings book_id
Utilizando la Ciencia de Datos en una organización
11 | P á g i n a
Por otro lado, una vez procesada la información con base en la Estrategia 1, se pueden
ejecutar las acciones señaladas en la Tabla 7, lo que permitirá establecer relaciones
adicionales en el conjunto de datos.
Tabla 7
Acciones adicionales para vincular las bases de datos
Base de datos
Origen
Acción
Base de datos
Destino
Consecuencia
ratings
Calcular la media del
campo ‘rating’ por
‘book_id’
books
Actualizar el campo
average_rating
books
Vincular el campo ISBN
con el mismo campo de
“top_books”
top_books
Integrar el campo
‘book_id’ de la base de
datos “books”
top_books
Vincular el campo
‘book_id’
to_read
ratings
Vincular el campo
‘book_id’ con la base de
datos “top_books”
Las acciones previstas en las etapas siguientes dependen del cumplimiento de los trabajos
previstos en esta estrategia, por lo que es necesario evaluar su implementación.
Estrategia 3. Acciones a seguir sobre los indicadores de desempeño
De acuerdo con la información presentada en cada una de las bases de datos, se propone
establecer como KPI los siguientes:
• Ingresos por ventas, correspondiente a la columna “Value” de la base de datos
top_books.
• Volumen de ventas, que se refiere a la columna “Volume” de la base de datos
top_books.
• Calificación, de acuerdo con la columna “Rating” de la base de datos raitings.
• Recomendaciones, según la columna “book_id” de la base de datos to_read.
Una vez que se haya verificado que las etapas de actualización y depuración de datos se
ha concluido y que se han determinado los vínculos existentes entre los campos de datos,
en la Tabla 8 se detallan las acciones a realizar para el seguimiento de los indicadores de
desempeño.
Utilizando la Ciencia de Datos en una organización
12 | P á g i n a
Tabla 8
Acciones para el seguimiento de los KPI seleccionados
Indicador Acciones
Ingresos por
ventas.
Realizar un análisis predictivo de las ventas futuras y
estacionalidad su mediante modelos de series de tiempo, con
base en la información de los campos ‘Value’ y ‘Date’.
Volumen de
ventas
Establecer un modelo de clasificación de los libros más
vendidos según su encuadernación (campo ‘Blinding’) y
categoría (campo ‘Classificaction’).
Recomendaciones Identificar los elementos “no coincidentes” en las
recomendaciones de los usuarios que coinciden con tres
elementos o más, de acuerdo al campo ‘book_id’, para hacer
sugerencias de compra en la página web de la Librería.
Calificación Promover los títulos con mayor calificación según la media del
campo ‘ratings’ que no se encuentren en la base de datos
“top_books”.
A manera de resumen, en la Figura 7 se muestran de manera general las etapas de
implementación del proyecto de ciencia de datos propuesto para la Librería Iztaccihuatl.
Figura 8
Implementación del proyecto de ciencia de datos para la Librería Iztaccihuatl
Conclusiones
El trabajo desarrollado en este documento tuvo la finalidad de cumplir con la práctica
individual del proyecto de evaluación entre pares, correspondiente al curso “Introducción a
la Ciencia de Datos y el Big Data”, dentro de la plataforma edx.org.
Para lograr tal fin, en primer lugar, se definió la Ciencia de Datos, como una disciplina que
combina un conjunto amplio de técnicas y otras ciencias para extraer significado y
conocimiento útil de los datos.
Utilizando la Ciencia de Datos en una organización
13 | P á g i n a
Además, para contar con un marco de referencia para realizar el proyecto solicitado, se
analizó la ventaja de la Metodología CRISP-DM, debido a que integra la comprensión del
negocio, y la secuencia de sus fases permite regresar entre ellas para mejorar el modelo.
La información proporcionada para la ejecución de esta práctica consistió en cuatro bases
de datos de la Librería Iztaccihuatl, y de su revisión se detectaron inconsistencias, tales
como fechas de publicación, campos con información repetida para registros de libros
diferentes, campos con el mismo nombre en diferentes bases de datos que no
corresponden a la misma información, información desactualizada e incompleta en los
libros más vendidos, falta de validadores en campos para registro de fechas,
principalmente.
Con base en lo anterior, en la etapa de preparación de la información, se realizaron
acciones de limpieza y estandarización del conjunto de datos, y, dado el alcance del curso,
dentro de la fase de Modelado se eligió la realización de un análisis descriptivo de los
mismos.
Los resultados de este análisis, que se presentaron a través de los indicadores estadísticos
básicos e histogramas correspondientes, se integraron en la etapa de Evaluación e
interpretación.
De esta manera, derivado de los hallazgos de las etapas anteriores, en la fase de
Despliegue o implementación del modelo se propone un plan de acción para la Librería
Iztaccihuatl, consistente en:
1. Depuración y actualización de los datos.
2. Creación del Modelo de datos.
3. Acciones a seguir sobre los indicadores de desempeño.
Este último punto consiste en planteamientos concretos para realizar análisis de mayor
profundidad y aplicación de modelos de ciencia de datos para la información referente al
valor y volumen de ventas; así como propuestas relativas para la promoción de ventas
según las recomendaciones y calificación que otorgan los usuarios del sitio web de la
Librería a los diferentes títulos, con base en las relaciones encontradas en los diferentes
campos de las bases de datos analizadas.
Utilizando la Ciencia de Datos en una organización
14 | P á g i n a
Bibliografía
DAnalytics. (30 de abril de 2020). Descriptiva, predictiva, prescriptiva: los tipos de
analítica. Data Analytic. https://danalyticspro.co/2020/04/30/descriptiva-predictiva-
prescriptiva-los-tipos-de-analitica/
Datlas. (16 de febrero de 2020). 4 metodologías para proyectos de data science.
https://blogdatlas.wordpress.com/2020/02/16/4-metodologias-para-proyectos-de-data-
science-datlas-research/
Galán, V. (2015). Aplicación de la Metodología CRISP-DM a un Proyecto de Minería de
Datos en el Entorno Universitario. [Archivo PDF].
https://e-archivo.uc3m.es/bitstream/handle/10016/22198/PFC_Victor_Galan_Cortina.pdf
Instituto Tecnológico de Estudios Superiores de Monterrey (2019). Introducción a la ciencia
de datos y el big data. Ciclo de vida de un proyecto de ciencia de datos. [Archivo PDF].
Oracle. (s.f.) ¿Qué es la ciencia de datos? https://www.oracle.com/mx/data-science/what-is-
data-science/
Piatetsky, G. (Octubre 2014). CRISP-DM, still the top methodology for analytics, data
mining, or data science projects. KDnuggets. https://www.kdnuggets.com/2014/10/crisp-
dm-top-methodology-analytics-data-mining-data-science-projects.html
Smartup.es. (7 de octubre de 2019). CRISP-DM: los 6 pasos del proceso de Data Mining.
Big Data & Analytics. https://blog.smartup.es/crisp-dm-6-pasos-proceso-data-mining/
Rodríguez, O. (2010). Metodología para el Desarrollo de Proyectos en Minería de Datos
CRISP-DM.
http://www.oldemarrodriguez.com/yahoo_site_admin/assets/docs/Documento_CRISP-
DM.2385037
Vladimir, V. (28 de agosto de 2020). Tipos de Analítica de Datos.
https://blog.applying.pe/tipos-de-analitica-de-datos/

Más contenido relacionado

Similar a Proyecto evaluacion entre_pares_marco_polo_sanchez_farfan

ialnet modelo desistemadeinformacionparaapoyarlagestiondep-4608929
ialnet modelo desistemadeinformacionparaapoyarlagestiondep-4608929ialnet modelo desistemadeinformacionparaapoyarlagestiondep-4608929
ialnet modelo desistemadeinformacionparaapoyarlagestiondep-4608929Daniel Caballero
 
Proyecto visualización de datos y storytelling mpsf
Proyecto visualización de datos y storytelling mpsfProyecto visualización de datos y storytelling mpsf
Proyecto visualización de datos y storytelling mpsfMarcoPoloSanchez1
 
Silabo Curso inteligencia de Negocios - Maestria en Computación y Sistemas Se...
Silabo Curso inteligencia de Negocios - Maestria en Computación y Sistemas Se...Silabo Curso inteligencia de Negocios - Maestria en Computación y Sistemas Se...
Silabo Curso inteligencia de Negocios - Maestria en Computación y Sistemas Se...LPI ONG
 
Silabo bases de_datos_II
Silabo bases de_datos_IISilabo bases de_datos_II
Silabo bases de_datos_IIMarcelo Herrera
 
Silabo bases de_datos_ii
Silabo bases de_datos_iiSilabo bases de_datos_ii
Silabo bases de_datos_iiChars Orden
 
Silabo bases de_datos_ii
Silabo bases de_datos_iiSilabo bases de_datos_ii
Silabo bases de_datos_iiYoly QC
 
Silabo bases de_datos_ii
Silabo bases de_datos_iiSilabo bases de_datos_ii
Silabo bases de_datos_iiWilliam Lozano
 
Silabo bases de_datos_ii
Silabo bases de_datos_iiSilabo bases de_datos_ii
Silabo bases de_datos_iiMary Tenelema
 
Silabo bases de_datos_ii
Silabo bases de_datos_iiSilabo bases de_datos_ii
Silabo bases de_datos_iiPaúl Cacuango
 
Silabo bases de_datos_ii
Silabo bases de_datos_iiSilabo bases de_datos_ii
Silabo bases de_datos_iiDyego de Alvaro
 
Silabo bases de_datos_ii
Silabo bases de_datos_iiSilabo bases de_datos_ii
Silabo bases de_datos_iiInés Rosero
 
Silabo bases de_datos_ii
Silabo bases de_datos_iiSilabo bases de_datos_ii
Silabo bases de_datos_iiLiliana Charco
 
Silabo bases de_datos_ii
Silabo bases de_datos_iiSilabo bases de_datos_ii
Silabo bases de_datos_iiDoris Aguagallo
 
Proyecto individual - Introducción a la ciencia de datos
Proyecto individual - Introducción a la ciencia de datosProyecto individual - Introducción a la ciencia de datos
Proyecto individual - Introducción a la ciencia de datosRebecaHernandez59
 
Desarrollo de objetos de aprendizaje con base en patrones
Desarrollo de objetos de aprendizaje con base en patronesDesarrollo de objetos de aprendizaje con base en patrones
Desarrollo de objetos de aprendizaje con base en patronesElberth Gil Canul
 
Etapas del proceso de investigacion2_IAFJSR
Etapas del proceso de investigacion2_IAFJSREtapas del proceso de investigacion2_IAFJSR
Etapas del proceso de investigacion2_IAFJSRMauri Rojas
 

Similar a Proyecto evaluacion entre_pares_marco_polo_sanchez_farfan (20)

ialnet modelo desistemadeinformacionparaapoyarlagestiondep-4608929
ialnet modelo desistemadeinformacionparaapoyarlagestiondep-4608929ialnet modelo desistemadeinformacionparaapoyarlagestiondep-4608929
ialnet modelo desistemadeinformacionparaapoyarlagestiondep-4608929
 
Proyecto visualización de datos y storytelling mpsf
Proyecto visualización de datos y storytelling mpsfProyecto visualización de datos y storytelling mpsf
Proyecto visualización de datos y storytelling mpsf
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Silabo Curso inteligencia de Negocios - Maestria en Computación y Sistemas Se...
Silabo Curso inteligencia de Negocios - Maestria en Computación y Sistemas Se...Silabo Curso inteligencia de Negocios - Maestria en Computación y Sistemas Se...
Silabo Curso inteligencia de Negocios - Maestria en Computación y Sistemas Se...
 
Silabo bases de_datos_II
Silabo bases de_datos_IISilabo bases de_datos_II
Silabo bases de_datos_II
 
Silabo bases de_datos_ii
Silabo bases de_datos_iiSilabo bases de_datos_ii
Silabo bases de_datos_ii
 
Silabo bases de_datos_ii
Silabo bases de_datos_iiSilabo bases de_datos_ii
Silabo bases de_datos_ii
 
Silabo bases de_datos_ii
Silabo bases de_datos_iiSilabo bases de_datos_ii
Silabo bases de_datos_ii
 
Silabo bases de_datos_ii
Silabo bases de_datos_iiSilabo bases de_datos_ii
Silabo bases de_datos_ii
 
Silabo bases de_datos_ii
Silabo bases de_datos_iiSilabo bases de_datos_ii
Silabo bases de_datos_ii
 
silabo
silabosilabo
silabo
 
Silabo bases de_datos_ii
Silabo bases de_datos_iiSilabo bases de_datos_ii
Silabo bases de_datos_ii
 
Silabo bases de_datos_ii
Silabo bases de_datos_iiSilabo bases de_datos_ii
Silabo bases de_datos_ii
 
Silabo bases de_datos_ii
Silabo bases de_datos_iiSilabo bases de_datos_ii
Silabo bases de_datos_ii
 
Silabo bases de_datos_ii
Silabo bases de_datos_iiSilabo bases de_datos_ii
Silabo bases de_datos_ii
 
Silabo bases de_datos_ii
Silabo bases de_datos_iiSilabo bases de_datos_ii
Silabo bases de_datos_ii
 
Proyecto individual - Introducción a la ciencia de datos
Proyecto individual - Introducción a la ciencia de datosProyecto individual - Introducción a la ciencia de datos
Proyecto individual - Introducción a la ciencia de datos
 
Oa patrones
Oa patronesOa patrones
Oa patrones
 
Desarrollo de objetos de aprendizaje con base en patrones
Desarrollo de objetos de aprendizaje con base en patronesDesarrollo de objetos de aprendizaje con base en patrones
Desarrollo de objetos de aprendizaje con base en patrones
 
Etapas del proceso de investigacion2_IAFJSR
Etapas del proceso de investigacion2_IAFJSREtapas del proceso de investigacion2_IAFJSR
Etapas del proceso de investigacion2_IAFJSR
 

Último

Premios_nobel_por_grupo_racial_ (2024).pdf
Premios_nobel_por_grupo_racial_ (2024).pdfPremios_nobel_por_grupo_racial_ (2024).pdf
Premios_nobel_por_grupo_racial_ (2024).pdfJC Díaz Herrera
 
triptico-de-las-drogas en la adolescencia
triptico-de-las-drogas en la adolescenciatriptico-de-las-drogas en la adolescencia
triptico-de-las-drogas en la adolescenciaferg6120
 
PANTEÓN DE Paris en historia de la arquitectura
PANTEÓN DE Paris en historia de la arquitecturaPANTEÓN DE Paris en historia de la arquitectura
PANTEÓN DE Paris en historia de la arquitecturaRosaHurtado26
 
Las familias más ricas del sionismo en el siglo XXI.pdf
Las familias más ricas del sionismo en el siglo XXI.pdfLas familias más ricas del sionismo en el siglo XXI.pdf
Las familias más ricas del sionismo en el siglo XXI.pdfJC Díaz Herrera
 
Reservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdf
Reservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdfReservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdf
Reservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdfJC Díaz Herrera
 
Técnica palatina baja, anestesiología dental
Técnica palatina baja, anestesiología dentalTécnica palatina baja, anestesiología dental
Técnica palatina baja, anestesiología dentalIngrid459352
 
Posiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdf
Posiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdfPosiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdf
Posiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdfJC Díaz Herrera
 
Industria musical de EUA vs Industria musical Corea del Sur (2024).pdf
Industria musical de EUA vs Industria musical Corea del Sur (2024).pdfIndustria musical de EUA vs Industria musical Corea del Sur (2024).pdf
Industria musical de EUA vs Industria musical Corea del Sur (2024).pdfJC Díaz Herrera
 
Biografías y Cuadro compartivo_Cuautle Ocelotl Angel Efren.pdf.pdf
Biografías y Cuadro compartivo_Cuautle Ocelotl Angel Efren.pdf.pdfBiografías y Cuadro compartivo_Cuautle Ocelotl Angel Efren.pdf.pdf
Biografías y Cuadro compartivo_Cuautle Ocelotl Angel Efren.pdf.pdfANGELEFRENCUAUTLEOCE
 
Evolución de la fortuna de la familia Slim (1994-2024).pdf
Evolución de la fortuna de la familia Slim (1994-2024).pdfEvolución de la fortuna de la familia Slim (1994-2024).pdf
Evolución de la fortuna de la familia Slim (1994-2024).pdfJC Díaz Herrera
 
Data Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datosData Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datosssuser948499
 
Posiciones en el IDH global de EUA (1950-2024).pdf
Posiciones en el IDH global de EUA (1950-2024).pdfPosiciones en el IDH global de EUA (1950-2024).pdf
Posiciones en el IDH global de EUA (1950-2024).pdfJC Díaz Herrera
 
2 PROCESO ESTADISTICO PARA LA INVESTIGACION.pdf
2 PROCESO ESTADISTICO PARA LA INVESTIGACION.pdf2 PROCESO ESTADISTICO PARA LA INVESTIGACION.pdf
2 PROCESO ESTADISTICO PARA LA INVESTIGACION.pdfAnaBelindaArmellonHi
 
Posiciones de México en el PNB PPA per cápita (1982-2024).pdf
Posiciones de México en el PNB PPA per cápita (1982-2024).pdfPosiciones de México en el PNB PPA per cápita (1982-2024).pdf
Posiciones de México en el PNB PPA per cápita (1982-2024).pdfJC Díaz Herrera
 
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,juberrodasflores
 
Cuáles son las características biológicas que están marcadas en tu individual...
Cuáles son las características biológicas que están marcadas en tu individual...Cuáles son las características biológicas que están marcadas en tu individual...
Cuáles son las características biológicas que están marcadas en tu individual...israel garcia
 
AA CUADRO DE TEORIA DEL CASO. (1) (1).docx
AA CUADRO DE TEORIA DEL CASO. (1) (1).docxAA CUADRO DE TEORIA DEL CASO. (1) (1).docx
AA CUADRO DE TEORIA DEL CASO. (1) (1).docxLuisAngelYomonaYomon
 
Las marcas automotrices con más ventas de vehículos (2024).pdf
Las marcas automotrices con más ventas de vehículos (2024).pdfLas marcas automotrices con más ventas de vehículos (2024).pdf
Las marcas automotrices con más ventas de vehículos (2024).pdfJC Díaz Herrera
 
La importancia de las pruebas de producto para tu empresa
La importancia de las pruebas de producto para tu empresaLa importancia de las pruebas de producto para tu empresa
La importancia de las pruebas de producto para tu empresamerca6
 
Los más ricos administradores de fondo de cobertura (1968-2024).pdf
Los más ricos administradores de fondo de cobertura (1968-2024).pdfLos más ricos administradores de fondo de cobertura (1968-2024).pdf
Los más ricos administradores de fondo de cobertura (1968-2024).pdfJC Díaz Herrera
 

Último (20)

Premios_nobel_por_grupo_racial_ (2024).pdf
Premios_nobel_por_grupo_racial_ (2024).pdfPremios_nobel_por_grupo_racial_ (2024).pdf
Premios_nobel_por_grupo_racial_ (2024).pdf
 
triptico-de-las-drogas en la adolescencia
triptico-de-las-drogas en la adolescenciatriptico-de-las-drogas en la adolescencia
triptico-de-las-drogas en la adolescencia
 
PANTEÓN DE Paris en historia de la arquitectura
PANTEÓN DE Paris en historia de la arquitecturaPANTEÓN DE Paris en historia de la arquitectura
PANTEÓN DE Paris en historia de la arquitectura
 
Las familias más ricas del sionismo en el siglo XXI.pdf
Las familias más ricas del sionismo en el siglo XXI.pdfLas familias más ricas del sionismo en el siglo XXI.pdf
Las familias más ricas del sionismo en el siglo XXI.pdf
 
Reservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdf
Reservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdfReservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdf
Reservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdf
 
Técnica palatina baja, anestesiología dental
Técnica palatina baja, anestesiología dentalTécnica palatina baja, anestesiología dental
Técnica palatina baja, anestesiología dental
 
Posiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdf
Posiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdfPosiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdf
Posiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdf
 
Industria musical de EUA vs Industria musical Corea del Sur (2024).pdf
Industria musical de EUA vs Industria musical Corea del Sur (2024).pdfIndustria musical de EUA vs Industria musical Corea del Sur (2024).pdf
Industria musical de EUA vs Industria musical Corea del Sur (2024).pdf
 
Biografías y Cuadro compartivo_Cuautle Ocelotl Angel Efren.pdf.pdf
Biografías y Cuadro compartivo_Cuautle Ocelotl Angel Efren.pdf.pdfBiografías y Cuadro compartivo_Cuautle Ocelotl Angel Efren.pdf.pdf
Biografías y Cuadro compartivo_Cuautle Ocelotl Angel Efren.pdf.pdf
 
Evolución de la fortuna de la familia Slim (1994-2024).pdf
Evolución de la fortuna de la familia Slim (1994-2024).pdfEvolución de la fortuna de la familia Slim (1994-2024).pdf
Evolución de la fortuna de la familia Slim (1994-2024).pdf
 
Data Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datosData Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datos
 
Posiciones en el IDH global de EUA (1950-2024).pdf
Posiciones en el IDH global de EUA (1950-2024).pdfPosiciones en el IDH global de EUA (1950-2024).pdf
Posiciones en el IDH global de EUA (1950-2024).pdf
 
2 PROCESO ESTADISTICO PARA LA INVESTIGACION.pdf
2 PROCESO ESTADISTICO PARA LA INVESTIGACION.pdf2 PROCESO ESTADISTICO PARA LA INVESTIGACION.pdf
2 PROCESO ESTADISTICO PARA LA INVESTIGACION.pdf
 
Posiciones de México en el PNB PPA per cápita (1982-2024).pdf
Posiciones de México en el PNB PPA per cápita (1982-2024).pdfPosiciones de México en el PNB PPA per cápita (1982-2024).pdf
Posiciones de México en el PNB PPA per cápita (1982-2024).pdf
 
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,
 
Cuáles son las características biológicas que están marcadas en tu individual...
Cuáles son las características biológicas que están marcadas en tu individual...Cuáles son las características biológicas que están marcadas en tu individual...
Cuáles son las características biológicas que están marcadas en tu individual...
 
AA CUADRO DE TEORIA DEL CASO. (1) (1).docx
AA CUADRO DE TEORIA DEL CASO. (1) (1).docxAA CUADRO DE TEORIA DEL CASO. (1) (1).docx
AA CUADRO DE TEORIA DEL CASO. (1) (1).docx
 
Las marcas automotrices con más ventas de vehículos (2024).pdf
Las marcas automotrices con más ventas de vehículos (2024).pdfLas marcas automotrices con más ventas de vehículos (2024).pdf
Las marcas automotrices con más ventas de vehículos (2024).pdf
 
La importancia de las pruebas de producto para tu empresa
La importancia de las pruebas de producto para tu empresaLa importancia de las pruebas de producto para tu empresa
La importancia de las pruebas de producto para tu empresa
 
Los más ricos administradores de fondo de cobertura (1968-2024).pdf
Los más ricos administradores de fondo de cobertura (1968-2024).pdfLos más ricos administradores de fondo de cobertura (1968-2024).pdf
Los más ricos administradores de fondo de cobertura (1968-2024).pdf
 

Proyecto evaluacion entre_pares_marco_polo_sanchez_farfan

  • 1. Utilizando la Ciencia de Datos en una organización Utilizando la Ciencia de Datos en una organización Proyecto individual evaluado por pares Marco Polo Sánchez Farfán
  • 2. Utilizando la Ciencia de Datos en una organización 1 | P á g i n a Resumen Este documento tiene como propósito cumplir con la práctica individual correspondiente al proyecto de evaluación entre pares, dentro del curso “Introducción a la Ciencia de Datos y el Big Data”, en la plataforma edx.org. Para tal efecto, se analiza la información proporcionada en cuatro bases de datos de la empresa denominada “Librería Iztaccihuatl” y, con base en los conocimientos adquiridos en el curso, particularmente la Metodología CRISP-DM, se presentan propuestas de acciones concretas para los indicadores de desempeño definidos.
  • 3. Utilizando la Ciencia de Datos en una organización 2 | P á g i n a Contenido Introducción...........................................................................................................................1 Propuesta...............................................................................................................................3 Fase1. Comprensión del Negocio....................................................................................3 Fase 2. Adquisición de datos...........................................................................................4 Fase 3. Preparación de datos...........................................................................................5 Fase 4. Modelado..............................................................................................................5 Fase 5 Evaluación e interpretación..................................................................................6 Fase 6. Despliegue o Implementación del modelo........................................................9 Estrategia 1. Depuración y Actualización....................................................................9 Estrategia 2. Creación del Modelo de Datos ............................................................10 Estrategia 3. Acciones a seguir sobre los indicadores de desempeño ..................11 Conclusiones........................................................................................................................12 Bibliografía...........................................................................................................................14
  • 4. Utilizando la Ciencia de Datos en una organización 3 | P á g i n a Lista de Figuras Figura 1 Comparación de metodologías para proyectos de Ciencia de Datos ........................... 1 Figura 2 Porcentaje de utilización de las metodologías para proyectos de ciencia de datos.. 2 Figura 3 Secuencia del proceso CRISP-DM..................................................................................... 3 Figura 4 Estadística descriptiva. Base de datos “books”............................................................... 7 Figura 5 Gráfico Indicadores. Base de datos “top_books”............................................................ 8 Figura 6 Estadística descriptiva. Base de datos “to_read”............................................................ 8 Figura 7 Estadística descriptiva. Base de datos “ratings” ............................................................. 9 Figura 8 Implementación del proyecto de ciencia de datos para la Librería Iztaccihuatl........ 12 Lista de Tablas Tabla 1 Descripción de las bases de datos de la Librería Iztaccihuatl......................................... 4 Tabla 2 Inconsistencias detectadas en las bases de datos............................................................ 4 Tabla 3 Acciones de limpieza y estandarización de datos........................................................... 5 Tabla 4 Resultados del análisis de las bases de datos.................................................................. 6 Tabla 5 Acciones para la depuración y actualización de las bases de datos ............................ 10 Tabla 6 Relaciones detectadas entre los campos de las bases de datos analizadas............... 10 Tabla 7 Acciones adicionales para vincular las bases de datos.................................................. 11 Tabla 8 Acciones para el seguimiento de los KPI seleccionados................................................ 12
  • 5. Utilizando la Ciencia de Datos en una organización 1 | P á g i n a Introducción El análisis de la información y, particularmente, de los datos, constituye la base para la toma de decisiones y así resolver problemas en una amplia variedad de ramas, ya sea del conocimiento, la industria, la sociedad o el gobierno. Al respecto, se puede señalar que el análisis de datos dentro de las organizaciones, públicas o privadas, tiene como finalidad mejorar sus procesos y obtener un mayor rendimiento, no solo de carácter económico o financiero, sino que dependerá de las características del negocio y el propósito del estudio, así como de los indicadores definidos. Derivado de lo anterior, toda vez que el presente documento tiene como finalidad presentar una propuesta de proyecto de ciencia de datos, es necesario definir en primer lugar en qué consiste la Ciencia de Datos, que de manera general se concibe como una disciplina que combina un conjunto amplio de técnicas y otras ciencias para extraer significado y conocimiento útil de los datos.1 Ahora bien, el proceso de extracción de conocimiento a partir de los datos debe realizarse con base en un método que permita resolver el problema planteado originalmente, ya que de otra forma la solución planteada podría ser errónea, no porque el análisis de datos lo sea, sino por la ausencia de un marco de referencia. Dentro de las metodologías utilizadas para desarrollar un proyecto de Ciencia de Datos, las de mayor relevancia son KDD (Knowledge Discovery in Databases), SEMMA (Sample, Explore, Modify, Model and Access) y CRISP-DM (Cross Industry Standard Process for Data Mining), que se pueden comparar, de la siguiente manera: Figura 1 Comparación de metodologías para proyectos de Ciencia de Datos Fuente: https://blogdatlas.wordpress.com/2020/02/16/4-metodologias-para-proyectos-de-data-science- datlas-research/. 1 Véase https://www.maximaformacion.es/blog-dat/que-es-la-ciencia-de-datos/ y https://www.oracle.com/mx/data-science/what-is-data-science/
  • 6. Utilizando la Ciencia de Datos en una organización 2 | P á g i n a Como puede observarse, la principal diferencia y ventaja de la metodología CRISP-DM es la incorporación explícita del “Entendimiento del Negocio” como punto de partida para el desarrollo de un proyecto de análisis de datos, y con esa base continuar con las etapas técnicas del proyecto. Por otro lado, de acuerdo con la información disponible, una justificación adicional para el uso de esta metodología consiste en que se ha mantenido como la más empleada en los proyectos de Ciencia de Datos. Figura 2 Porcentaje de utilización de las metodologías para proyectos de ciencia de datos Fuente: https://www.kdnuggets.com/2014/10/crisp-dm-top-methodology-analytics-data-mining-data-science- projects.html. En este sentido, este documento presenta una propuesta de proyecto basado en ciencia de datos para la empresa denominada Librería Iztaccihuatl, que se localiza en la ciudad de Monterrey, Nuevo León, para mejorar sus indicadores de desempeño -KPI por sus siglas en inglés- y a la vez desplegar una mejor estrategia en la toma de decisiones. Para el desarrollo de la propuesta se utiliza la información proporcionada en el material del curso “Introducción a la Ciencia de Datos y el Big Data”, dentro de la plataforma edx.org, consistente en cuatro bases de datos dentro de la carpeta denominada “datasets_books”. En la siguiente sección, de acuerdo con los alcances del curso, se plantea la propuesta siguiendo la Metodología CRISP-DM y, finalmente, se integra un apartado con las conclusiones correspondientes.
  • 7. Utilizando la Ciencia de Datos en una organización 3 | P á g i n a Propuesta La Metodología CRISP-DM consiste en 6 fases o etapas que se encuentran estructuradas de manera secuencial; sin embargo, en cualquiera de ellas es posible regresar para revisar y mejorar el modelo o proyecto. Figura 3 Secuencia del proceso CRISP-DM Fuente: https://blog.smartup.es/crisp-dm-6-pasos-proceso-data-mining/ Fase1. Comprensión del Negocio En esta etapa es necesario identificar los objetivos del negocio, así como los del propio proyecto, con la finalidad de entender el problema que se desea resolver. Para el caso de estudio, la información presentada en la Introducción no muestra una situación específica que atender para la Librería Iztaccihuatl, por lo que se parte de considerarla como un establecimiento comercial, cuyos objetivos están dirigidos en incrementar las ganancias y mejorar la atención al cliente. Por lo tanto, las siguientes fases estarán orientadas al análisis de la información y diseño de propuestas para lograr dichos objetivos.
  • 8. Utilizando la Ciencia de Datos en una organización 4 | P á g i n a Fase 2. Adquisición de datos Esta etapa consiste en conseguir e identificar los datos necesarios, verificar su calidad y establecer las primeras relaciones entre ellos para el desarrollo del proyecto. La recolección de datos para este proyecto está definida por las bases de datos proporcionados en la sección “Proyecto individual evaluado por pares”, correspondiente al subtema 2.2 Metodologías para proyectos de Ciencia de Datos, del curso Introducción a la Ciencia de Datos y el Big Data, en la plataforma edx.org, de manera particular en la carpeta denominada “datasets_books”, que cuentan con las características descritas en la Tabla 1. Tabla 1 Descripción de las bases de datos de la Librería Iztaccihuatl Base de datos Descripción books Contiene los datos generales de cada libro existente en la librería y además menciona el promedio de clasificación de cada libro de acuerdo a las votaciones y compras del cliente. top_books Contiene el top 20 de los libros más vendidos de acuerdo a una clasificación general. to_read Contiene los datos de los libros más votados por los clientes dentro del sitio web de la librería. ratings Contiene las recomendaciones que cada cliente o usuario realiza en el sitio web sobre libros para leer. Al revisar la información de las bases de datos señaladas, se encontraron las inconsistencias señaladas en la Tabla 2, lo que limita su análisis: Tabla 2 Inconsistencias detectadas en las bases de datos Número Inconsistencia 1 En la base de datos “books” el campo ‘original_publication_year’ muestra fechas desde 1750 a. C. Sin embargo, es preciso señalar que la mayoría de las publicaciones “antiguas” corresponden a las traducciones que se han realizado, lo que se distingue según el campo ‘authors’. 2 Mismo dato en todos los registros del campo ‘ISBN13’ de la base de datos “books” y en el campo ‘ISBN’ de la base de datos “top_books”. 3 Se requiere precisar el nombre de los campos ya que en la base de datos “books” también existe el campo ‘ISBN’ con información diferente en cada registro, lo que puede generar confusiones e interpretación errónea de la información. 4 La base de datos “top_books” refiere que contiene el volumen de ventas hasta 2010; solo tiene un registro para 1999, 2005 y 2006; no
  • 9. Utilizando la Ciencia de Datos en una organización 5 | P á g i n a Número Inconsistencia existe información de 2000 a 2004, cinco registros para 2007, cuatro para 2008, 11 para 2009 y 97 para 2010. 5 Registros repetidos en todos los campos de la base de datos “top_books”, con excepción en el campo ‘classification’. Lo anterior significa que un mismo libro está registrado con dos categorías diferentes en ese campo: Original fiction y HB Fiction. 6 En esta misma base de datos existen 30 registros en el campo ‘Publ Date’ que no corresponde con el formato de fecha de los 90 registros restantes. 7 En la base de datos “ratings” un mismo usuario evalúa dos o más veces el mismo libro. Fase 3. Preparación de datos Los datos recogidos en la etapa anterior deben adaptarse a través de tareas generales de selección, limpieza, cambios de formatos y, en su caso, generación de nuevas variables, para permitir su procesamiento. En función de los datos y las inconsistencias señaladas en el apartado anterior se efectuó la limpieza y estandarización con las acciones señaladas en la Tabla 3 de aquellos registros que influyen o pueden ser determinantes en el análisis de los KPI definidos para esta propuesta. Tabla 3 Acciones de limpieza y estandarización de datos Incidencia Preparación 5 Determinación de un registro único por libro 6 Corrección del formato de fecha. Fase 4. Modelado En esta etapa se selecciona la técnica más apropiada para resolver el problema en función de los datos elegidos. Dados los alcances del curso Introducción a la Ciencia de Datos y el Big Data y especialmente los este proyecto, no se determina una técnica o modelo de minería de datos o, en general, de ciencia de datos; sin embargo, se presenta el tipo de análisis que se realizará con la información. En este sentido, es importante mencionar que a través del análisis de datos se pretende obtener información que otorgue valor agregado para describir e interpretar correctamente los reportes e informes de la organización de que se trate, a fin de resolver problemas y sustentar la toma de decisiones.
  • 10. Utilizando la Ciencia de Datos en una organización 6 | P á g i n a Actualmente, la mayoría de la literatura sobre la Analítica de Datos, la divide en tres tipos, en función de si valor y complejidad: • Analítica Descriptiva. Es el tipo más simple y responde a la pregunta ¿qué sucedió? De esta manera, permite conocer lo que ha ocurrido en el pasado e identificar patrones, tendencias y excepciones. • Analítica Predictiva. Al ponerla en práctica se pretende responder a la pregunta ¿qué puede pasar?, mediante la predicción de resultados con base en la relación de variables explicativas, o de entrada, y variables de salida. • Analítica Prescriptiva. Trata de responder a la pregunta ¿qué se puede hacer?; es decir, determinar las acciones óptimas que deben llevarse a cabo con base en modelos predictivos y definir la mejor estrategia ante situaciones concretas. En este sentido, derivado de la información disponible de la Librería Iztaccihuatl y el alcance de este proyecto, el análisis a realizar será de tipo descriptivo, mediante la utilización de técnicas sencillas para conocer su situación actual. Fase 5 Evaluación e interpretación En esta etapa deben analizarse los resultados obtenidos mediante la aplicación del modelo elegido anteriormente para mostrar su relación con los objetivos del proyecto. Dentro de la Tabla 4 se presentan los resultados de la exploración de los resultados, mediante pruebas básicas, en tanto que en las Figuras 3, 5 y 6 se muestran los histogramas y la estadística descriptiva de estos conjuntos de datos. En el caso de la base de datos “top_books”, la Figura 4 exhibe el valor y volumen de ventas de acuerdo con la clasificación de los títulos. Tabla 4 Resultados del análisis de las bases de datos Base de datos Resultados books Contiene 10,000 registros (libros), cuyas fechas de publicación original datan desde 1750 a. C, hasta 2017 d. C. Los libros se encuentran en 21 idiomas diferentes, de los cuales el inglés representa el 87.3%, si se suman las cinco clasificaciones diferentes que presenta. Del total de registros, no se encuentra especificado el idioma en 1,084 de ellos. En cuanto a los indicadores seleccionados, el ‘rating’ promedio es de 4.00, con un rango de 2.47 a 4.82. El intervalo (3.943, 3.984] presentó la mayor frecuencia con 664 observaciones.
  • 11. Utilizando la Ciencia de Datos en una organización 7 | P á g i n a Base de datos Resultados top_books Muestra 120 registros con los 20 libros más vendidos según las categorías establecidas en el campo ‘classification’. De acuerdo con esta información, hasta el 2010, el mayor número de libros vendidos pertenecía a la clasificación PB Fiction, mientras el mayor valor se generó por la clasificación HB Non Fiction. Sin embargo, al revisar la base de datos se observa que los datos para un mismo libro están repetidos en todos los campos, pero con diferente clasificación, por lo que, al hacer una depuración de la información repetida, se obtienen 103 registros únicos con igual número de categorías en el campo ‘classification’. Las conclusiones sobre las clasificaciones con mayor número y valor de ventas no se modifican. to_read Recopila 912,705 registros con las recomendaciones de 48,871 usuarios del sitio web de la Librería Iztaccihuatl, respecto a 9,986 títulos (libros). De esta cantidad, el libro más recomendado tiene 2,772 menciones, en tanto que 34 títulos solo tienen una recomendación. Respecto a la actividad de los usuarios del sitio web, la media de las recomendaciones por usuario es de 18.7, en un rango de 1 hasta 117. Cabe resaltar que 2,286 usuarios solo han realizado una recomendación. ratings Se compone de 981,75 registros con la calificación (rating) otorgada por 53,426 usuarios a 10,000 títulos con que cuenta la librería. Por título, la calificación promedio es de 3.86, donde el peor evaluado tiene un rating de 1.96, mientras que el libro mejor calificado obtuvo un promedio de 4.82 puntos. El rating promedio por usuario es de 3.87, en el rango permitido de 1 a 5 puntos. Figura 4 Estadística descriptiva. Base de datos “books”
  • 12. Utilizando la Ciencia de Datos en una organización 8 | P á g i n a Figura 5 Gráfico Indicadores. Base de datos “top_books” Figura 6 Estadística descriptiva. Base de datos “to_read”
  • 13. Utilizando la Ciencia de Datos en una organización 9 | P á g i n a Figura 7 Estadística descriptiva. Base de datos “ratings” Fase 6. Despliegue o Implementación del modelo El conocimiento adquirido en las etapas anteriores debe mostrarse al cliente mediante un conjunto de acciones dentro del proceso del negocio. Como se señaló anteriormente, toda vez que no se desarrolló un modelo de ciencia de datos, en este apartado se detallará, con base en la información analizada, el plan de acción que la Librería Iztaccihuatl deberá llevar a cabo. Estrategia 1. Depuración y Actualización Con base en las inconsistencias señaladas en la Fase 2, con el propósito de contar con más y mejor información que permitan la toma de decisiones estratégicas por parte de la compañía, la empresa deberá instrumentar el plan que se indica en la Tabla 5:
  • 14. Utilizando la Ciencia de Datos en una organización 10 | P á g i n a Tabla 5 Acciones para la depuración y actualización de las bases de datos Inconsistencia Acciones 1 Establecer la fecha que corresponda a la publicación de la traducción realizada 2 Integrar el ISBN correspondiente a cada libro. Buena práctica: Utilizar el catálogo del ISBN para evitar errores de registro manual. 3 Identificar y establecer el mismo nombre para los campos en diferentes bases de datos que se refieran a la misma información. Buena práctica: Establecer un modelo de datos para que diferentes bases hagan referencia a una tabla única para el campo deseado. 4 Crear una base de datos con información histórica completa con el volumen y valor de ventas de 1999 a la fecha. 5 Establecer una categoría única para cada libro. 6 El campo deberá referirse a la fecha de venta y no a la de publicación, por lo que se requiere modificar toda la base de datos. Buena práctica: crear una validación de datos en este campo para que la captura cumpla con un formato único en todos los registros o generar un vínculo a la base de datos de ventas que contenga la fecha requerida. 7 Conservar la última calificación asignada por el usuario para cada libro. Es preciso señalar que la implementación de las siguientes etapas depende del cumplimiento de estas acciones, por lo que será necesario monitorear su avance. Estrategia 2. Creación del Modelo de Datos Para cumplir con esta etapa es necesario identificar las relaciones existentes entre la información de las cuatro bases de datos. De manera inicial, las únicas relaciones que existen son las mostradas en la Tabla 6. Tabla 6 Relaciones detectadas entre los campos de las bases de datos analizadas Base de datos Campo Base de Datos Campo books ISBN → top_books ISBN book_id → to_read book_id → ratings book_id
  • 15. Utilizando la Ciencia de Datos en una organización 11 | P á g i n a Por otro lado, una vez procesada la información con base en la Estrategia 1, se pueden ejecutar las acciones señaladas en la Tabla 7, lo que permitirá establecer relaciones adicionales en el conjunto de datos. Tabla 7 Acciones adicionales para vincular las bases de datos Base de datos Origen Acción Base de datos Destino Consecuencia ratings Calcular la media del campo ‘rating’ por ‘book_id’ books Actualizar el campo average_rating books Vincular el campo ISBN con el mismo campo de “top_books” top_books Integrar el campo ‘book_id’ de la base de datos “books” top_books Vincular el campo ‘book_id’ to_read ratings Vincular el campo ‘book_id’ con la base de datos “top_books” Las acciones previstas en las etapas siguientes dependen del cumplimiento de los trabajos previstos en esta estrategia, por lo que es necesario evaluar su implementación. Estrategia 3. Acciones a seguir sobre los indicadores de desempeño De acuerdo con la información presentada en cada una de las bases de datos, se propone establecer como KPI los siguientes: • Ingresos por ventas, correspondiente a la columna “Value” de la base de datos top_books. • Volumen de ventas, que se refiere a la columna “Volume” de la base de datos top_books. • Calificación, de acuerdo con la columna “Rating” de la base de datos raitings. • Recomendaciones, según la columna “book_id” de la base de datos to_read. Una vez que se haya verificado que las etapas de actualización y depuración de datos se ha concluido y que se han determinado los vínculos existentes entre los campos de datos, en la Tabla 8 se detallan las acciones a realizar para el seguimiento de los indicadores de desempeño.
  • 16. Utilizando la Ciencia de Datos en una organización 12 | P á g i n a Tabla 8 Acciones para el seguimiento de los KPI seleccionados Indicador Acciones Ingresos por ventas. Realizar un análisis predictivo de las ventas futuras y estacionalidad su mediante modelos de series de tiempo, con base en la información de los campos ‘Value’ y ‘Date’. Volumen de ventas Establecer un modelo de clasificación de los libros más vendidos según su encuadernación (campo ‘Blinding’) y categoría (campo ‘Classificaction’). Recomendaciones Identificar los elementos “no coincidentes” en las recomendaciones de los usuarios que coinciden con tres elementos o más, de acuerdo al campo ‘book_id’, para hacer sugerencias de compra en la página web de la Librería. Calificación Promover los títulos con mayor calificación según la media del campo ‘ratings’ que no se encuentren en la base de datos “top_books”. A manera de resumen, en la Figura 7 se muestran de manera general las etapas de implementación del proyecto de ciencia de datos propuesto para la Librería Iztaccihuatl. Figura 8 Implementación del proyecto de ciencia de datos para la Librería Iztaccihuatl Conclusiones El trabajo desarrollado en este documento tuvo la finalidad de cumplir con la práctica individual del proyecto de evaluación entre pares, correspondiente al curso “Introducción a la Ciencia de Datos y el Big Data”, dentro de la plataforma edx.org. Para lograr tal fin, en primer lugar, se definió la Ciencia de Datos, como una disciplina que combina un conjunto amplio de técnicas y otras ciencias para extraer significado y conocimiento útil de los datos.
  • 17. Utilizando la Ciencia de Datos en una organización 13 | P á g i n a Además, para contar con un marco de referencia para realizar el proyecto solicitado, se analizó la ventaja de la Metodología CRISP-DM, debido a que integra la comprensión del negocio, y la secuencia de sus fases permite regresar entre ellas para mejorar el modelo. La información proporcionada para la ejecución de esta práctica consistió en cuatro bases de datos de la Librería Iztaccihuatl, y de su revisión se detectaron inconsistencias, tales como fechas de publicación, campos con información repetida para registros de libros diferentes, campos con el mismo nombre en diferentes bases de datos que no corresponden a la misma información, información desactualizada e incompleta en los libros más vendidos, falta de validadores en campos para registro de fechas, principalmente. Con base en lo anterior, en la etapa de preparación de la información, se realizaron acciones de limpieza y estandarización del conjunto de datos, y, dado el alcance del curso, dentro de la fase de Modelado se eligió la realización de un análisis descriptivo de los mismos. Los resultados de este análisis, que se presentaron a través de los indicadores estadísticos básicos e histogramas correspondientes, se integraron en la etapa de Evaluación e interpretación. De esta manera, derivado de los hallazgos de las etapas anteriores, en la fase de Despliegue o implementación del modelo se propone un plan de acción para la Librería Iztaccihuatl, consistente en: 1. Depuración y actualización de los datos. 2. Creación del Modelo de datos. 3. Acciones a seguir sobre los indicadores de desempeño. Este último punto consiste en planteamientos concretos para realizar análisis de mayor profundidad y aplicación de modelos de ciencia de datos para la información referente al valor y volumen de ventas; así como propuestas relativas para la promoción de ventas según las recomendaciones y calificación que otorgan los usuarios del sitio web de la Librería a los diferentes títulos, con base en las relaciones encontradas en los diferentes campos de las bases de datos analizadas.
  • 18. Utilizando la Ciencia de Datos en una organización 14 | P á g i n a Bibliografía DAnalytics. (30 de abril de 2020). Descriptiva, predictiva, prescriptiva: los tipos de analítica. Data Analytic. https://danalyticspro.co/2020/04/30/descriptiva-predictiva- prescriptiva-los-tipos-de-analitica/ Datlas. (16 de febrero de 2020). 4 metodologías para proyectos de data science. https://blogdatlas.wordpress.com/2020/02/16/4-metodologias-para-proyectos-de-data- science-datlas-research/ Galán, V. (2015). Aplicación de la Metodología CRISP-DM a un Proyecto de Minería de Datos en el Entorno Universitario. [Archivo PDF]. https://e-archivo.uc3m.es/bitstream/handle/10016/22198/PFC_Victor_Galan_Cortina.pdf Instituto Tecnológico de Estudios Superiores de Monterrey (2019). Introducción a la ciencia de datos y el big data. Ciclo de vida de un proyecto de ciencia de datos. [Archivo PDF]. Oracle. (s.f.) ¿Qué es la ciencia de datos? https://www.oracle.com/mx/data-science/what-is- data-science/ Piatetsky, G. (Octubre 2014). CRISP-DM, still the top methodology for analytics, data mining, or data science projects. KDnuggets. https://www.kdnuggets.com/2014/10/crisp- dm-top-methodology-analytics-data-mining-data-science-projects.html Smartup.es. (7 de octubre de 2019). CRISP-DM: los 6 pasos del proceso de Data Mining. Big Data & Analytics. https://blog.smartup.es/crisp-dm-6-pasos-proceso-data-mining/ Rodríguez, O. (2010). Metodología para el Desarrollo de Proyectos en Minería de Datos CRISP-DM. http://www.oldemarrodriguez.com/yahoo_site_admin/assets/docs/Documento_CRISP- DM.2385037 Vladimir, V. (28 de agosto de 2020). Tipos de Analítica de Datos. https://blog.applying.pe/tipos-de-analitica-de-datos/