EDX: Curso Herramientas para el Análisis de Big Data – Tecnológico de Monterrey PROYECTO INDIVIDUAL EVALUADO POR PARES Caso libreria iztaccihuatl Creado por: Paola Quiroz Alvarez Guayaquil - Ecuador
Este documento tiene como propósito cumplir con la práctica individual correspondiente al proyecto de evaluación entre pares, dentro del curso “Herramientas para el Análisis de BigData”, en la plataforma edx.org.
Hacer una propuesta para un modelo basado en ciencia de datos como apoyo a la toma de decisiones a la administración y gerencia de la Liberia Iztaccíhuatl a través de herramientas computacionales como la minería de datos (DM) y el Machine Learning (ML) analizando las fuentes de información internas (bases de datos de la organización, entre otras) y externas como el sitio oficial y social media.
Tec de Monterrey en edX
Certificado Profesional en Ciencia de Datos
Curso: Introducción a la Ciencia de Datos y Big Data
Practica con Evaluación de Pares:
“Utilizando la Ciencia de Datos en una Organización:
Librería Iztaccihuatl ubicada en la ciudad de Monterrey, Nuevo León, México”
Por: Ing. Alejandro Uribe Rodríguez
16 de febrero de 2020
EDX: Curso Herramientas para el Análisis de Big Data – Tecnológico de Monterrey PROYECTO INDIVIDUAL EVALUADO POR PARES Caso libreria iztaccihuatl Creado por: Paola Quiroz Alvarez Guayaquil - Ecuador
Este documento tiene como propósito cumplir con la práctica individual correspondiente al proyecto de evaluación entre pares, dentro del curso “Herramientas para el Análisis de BigData”, en la plataforma edx.org.
Hacer una propuesta para un modelo basado en ciencia de datos como apoyo a la toma de decisiones a la administración y gerencia de la Liberia Iztaccíhuatl a través de herramientas computacionales como la minería de datos (DM) y el Machine Learning (ML) analizando las fuentes de información internas (bases de datos de la organización, entre otras) y externas como el sitio oficial y social media.
Tec de Monterrey en edX
Certificado Profesional en Ciencia de Datos
Curso: Introducción a la Ciencia de Datos y Big Data
Practica con Evaluación de Pares:
“Utilizando la Ciencia de Datos en una Organización:
Librería Iztaccihuatl ubicada en la ciudad de Monterrey, Nuevo León, México”
Por: Ing. Alejandro Uribe Rodríguez
16 de febrero de 2020
Analizar fuentes de información externas e internas de una organización a través de herramientas computacionales para generar un modelo basado en Ciencia de Datos como apoyo a la toma de decisiones.
A lo largo de este proyecto, hemos explorado diversas herramientas y metodologías para recopilar, procesar y analizar los datos generados por la librería. Central a nuestro enfoque es el uso de Python, un lenguaje de programación ampliamente reconocido por su eficacia y flexibilidad en el análisis de datos. La elección de Python se basa en su rica biblioteca de ciencia de datos, su comunidad de apoyo global y su capacidad para integrarse a la perfección con una variedad de plataformas y bases de datos.
Proyecto desarrollado por Liberia Iztaccihuatl situada en Monterrey, Nuevo León, México, basado en Ciencia de Datos para mejorar sus indicadores de desempeño.
Ipsos, empresa de investigación de mercados y opinión pública, divulgó su informe N°29 “Claves Ipsos” correspondiente al mes de abril, que encuestó a 800 personas con el fin de identificar las principales opiniones y comportamientos de las y los ciudadanos respecto de temas de interés para el país. En esta edición se abordó la a Carabineros de Chile, su evaluación, legitimidad en su actuar y el asesinato de tres funcionarios en Cañete. Además, se consultó sobre el Ejército y la opinión respecto de la marcha en Putre.
LINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIOAaronPleitez
linea de tiempo del antiguo testamento donde se detalla la cronología de todos los eventos, personas, sucesos, etc. Además se incluye una parte del periodo intertestamentario en orden cronológico donde se detalla todo lo que sucede en los 400 años del periodo del silencio. Basicamente es un resumen de todos los sucesos desde Abraham hasta Cristo
Este documento ha sido elaborado por el Observatorio Ciudadano de Seguridad Justicia y Legalidad de Irapuato siendo nuestro propósito conocer datos sociodemográficos en conjunto con información de incidencia delictiva de las 10 colonias y/o comunidades que del año 2020 a la fecha han tenido mayor incidencia.
Existen muchas más colonias que presentan cifras y datos en materia de seguridad, sin embargo, en este primer acercamiento lo que se prevées darle al lector una idea de como se encuentran las colonias analizadas, tomando como referencia los datos del INEGI 2020, datos del Secretariado Ejecutivo del Sistema Nacional de Seguridad Pública del 2020 al 2023 y las bases de datos propias que desde el 2017 el Observatorio Ciudadano ha recopilado de manera puntual con datos de las vıć timas de homicidio doloso, accidentes de tránsito, personas lesionadas por arma de fuego, entre otros indicadores.
Reporte homicidio doloso descripción
Reporte que contiene información de las víctimas de homicidio doloso registradas en el municipio de Irapuato Guanajuato durante el periodo señalado, comprende información cualitativa y cuantitativa que hace referencia a las características principales de cada uno de los homicidios.
La información proviene tanto de medios de comunicación digitales e impresos como de los boletines que la propia Fiscalía del Estado de Guanajuato emite de manera diaria a los medios de comunicación quienes publican estas incidencias en sus distintos canales.
Podemos observar cantidad de personas fallecidas, lugar donde se registraron los eventos, colonia y calle así como un comparativo con el mismo periodo pero del año anterior.
Edades y género de las víctimas es parte de la información que incluye el reporte.
Aplicación de La ciencia de datos en una Organización
1. Utilizando la
Ciencia de
Datos en una
Organización
Instituto Tecnológico y de Estudios Superiores de Monterrey, México.
Fernando Aguada. Febrero 2020
3. 1.Introducción
El presente trabajo tiene como objetivo aplicar los conceptos aprendidos sobre la ciencia de datos
a una organización especifica, la librería Iztaccihuatl, ubicada en la ciudad de Monterrey, Nuevo
León, México.
En primer lugar, a partir del análisis de la información proporcionada, la cual se presenta en
cuatro archivos:
1. El archivo“books”, contiene los datos generales de cada libro.
2. El archivo“top_books”, contiene los 20 libros mas vendidos.
3. El archivo“raitings”, contiene los libros mas votados por los clientes en el sitio web de la
empresa.
4. El archivo“to_read”, contiene las recomendaciones que los usuarios hacen acerca de los
libros a leer.
Se identifican una serie de indicadores de desempeño, desde allí se inicia el análisis para
finalmente elaborar una propuesta que permita mejorar los indicadores identificados y al mismo
tiempo desarrollar e implementar una mejor estrategia en el proceso de toma de decisiones.
2
4. 2.Indicadores de Desempeño
A partir del análisis de la información contenida en los archivos, identificamos los siguientes
indicadores de desempeño que serán tomados para nuestro análisis, estos son:
1. Libros mas vendidos.
2. Libros mas votados.
3. Libros mas recomendados.
3
5. 3.Tipo de Análisis
Para nuestro trabajo nos inclinamos por utilizar la metodología CRISP-DM, (Cross Industry
Standard Process for Data Mining) . Esta fue creada en 1999 por un conglomerado de empresas
(SPSS, NCR y Daimler Chrysler), donde se busca la recolección y análisis de grandes volúmenes
de datos. Se destaca por proporcionar un enfoque estructurado en un proyecto de datos. Como
ventajas tiene a su favor que es una metodología robusta, flexible y esta comprobada su utilidad
para resolver problemas. Se compone de una serie de fases:
1. Entender el negocio: se identifican los objetivos a conseguir después de un estudio del negocio,
exigencias y necesidades del cliente. Se crea un plan estratégico para alcanzar dichos objetivos.
2. Comprender los datos: Se identifican los datos necesarios para alcanzar los objetivos. Se
reconocen las fuentes de datos y describen los tipos de datos con los que vamos a trabajar e
identificar aquellos que realmente son necesarios. Hay que reconocer problemas en los mismos,
como si existen datos repetidos, incompletos, inconsistentes, con errores, entre otros.
3. Preparar los datos: Procesar los flujos de datos, resolver los problemas de datos faltantes,
controlar las inconsistencias de los flujos de datos y realizar la limpieza y estandarización de los
datos, etc.
4. Modelado: Hay que definir qué modelo o técnica es el más apropiado para la resolución del
problema a tratar y que técnicas a aplicar segun los datos que tenemos, los recursos y
necesidades. Se puede volver a la fase anterior para trabajar con los datos y tener una entrada de
los mismos, acorde a las necesidades del modelo.
5. Evaluación: Visualizar y análisis de los datos obtenidos y su relación con los objetivos.
6. Despliegue: Se visualiza el conocimiento y los resultados obtenidos y se muestran al cliente.
4
6. 4.Propuesta
Estrategia de Implementación
A partir del análisis de los indicadores de desempeño identificados podemos hacer las siguientes
propuestas que se aplican a todos los indicadores:
En primer lugar agregar la tabla/archivo clientes y que esta contenga como minimo la edad, sexo
y datos de contacto del mismo.
Segundo se recomienda implementar un algoritmo que permita el análisis de los indicadores
mencionados pero incluyendo ademas el sexo del lector, la edad, la temática general del libro y el
autor. Toda esta información permite crear vectores de características, el cual, aplicado el
aprendizaje automático nos ayudará a encontrar patrones ocultos en la información y de esta
manera identificar con mayor precisión los patrones de compras y/o intereses de los lectores.
Tercero, elaborar un perfil de cada cliente, según sus temas preferidos de lectura, edad, sexo y
hacer recomendaciones y ofertas regularmente de aquellos libros que se adecuen a su perfil.
Cuarto, crear un modelo predictivo que permita anticiparse a la demanda de los clientes y/o
lectores a partir del análisis de los libros mas recomendados, votados y comprados, que permita
tomar decisiones sobre que libros comprar y cuales no, en función de las predicciones que arroje
el modelo.
Evaluación
Para evaluar la marcha del negocio y la eficiencia de los modelos propuesto, se recomienda el
monitoreo constante de los indicadores definidos para asegurarnos que estamos en el camino de
mejorar los indicadores identificados.
Buenas Practicas
Se recomienda el seguimiento constante de la relación entre los indicadores de desempeño
mencionados, de funcionar la estrategia propuesta, debería manifestarse un estrecha relación
entre los libros mas vendidos y los libros mas votados y recomendados. Lo contrario, seria un
indicador de que se ha cometido un error en la estrategia.
Justificación de la estrategia
Como se menciona en la estrategia de implementación, el contar con información clave del cliente,
permitirá al modelo desarrollado encontrar patrones entre los libros que mas se venden, que mas se
recomiendan y los que mas se votan vinculados con la edad y sexo del cliente, asi como los autores y
temas preferidos de lectura e interés. El modelo predictivo, permitirá sacar a la luz los hábitos de los
clientes y ofrecerles una experiencia mas personal y certera de lo que quieren leer, a su vez esto tendrá su
correspondiente correlato en una mejora en la toma de decisiones acerca de como gestionar la compra y
existencia de los libros.
5
7. 5.Conclusiones
El análisis de los indicadores identificados conjuntamente con la elaboración de un algoritmo que
nos permita comprender con mayor claridad como se compone la demanda e intereses de libros,
permite elaborar un“análisis descriptivo”, es decir comprender la situación actual del negocio.
A partir de esta comprensión podemos avanzar hacia una segunda etapa, la elaboración de un
“análisis predictivo” que nos permita anticiparnos a la demanda de los clientes y/o lectores.
Por ultimo, partiendo de los resultados del análisis predictivo concluir con un“análisis
prescriptivo” que mejore el proceso de toma de decisiones y de esta manera las mismas sean
resultado del análisis de los datos y no de la intuición.
6