SlideShare una empresa de Scribd logo
1 de 9
Descargar para leer sin conexión
2. Ciclo de Vida de
Proyectos de Ciencia de
Datos
2.2 Metodologías para Proyectos de Ciencia de
Datos
Proyecto individual evaluado por pares.
Lic. René Rodríguez G.
06/05/2020
Proyecto de Ciencia de Datos – Librería Iztaccíhuatl Pág. 1
ÍNDICE
Pág.
1. Introducción ....................................................................................... 2
2. Desarrollo del Proyecto Individual ....................................................... 2
2.1 Antecedentes .....................................................................................2
2.2 Desarrollo del Proyecto de Ciencia de Datos ...........................................2
2.2.1 Entendimiento del Negocio .......................................................3
2.2.2 Adquisición de los Datos...........................................................3
2.2.3 Preparación de los Datos ..........................................................5
2.2.4 Modelación .............................................................................5
2.2.5 Evaluación e Interpretación ......................................................6
2.2.6 Despliegue del Modelo .............................................................7
2.2.7 Operaciones ...........................................................................7
3. Conclusión............................................................................................ 8
Proyecto de Ciencia de Datos – Librería Iztaccíhuatl Pág. 2
1. Introducción
El presente documento plasma el resultado de la práctica “Utilizando la Ciencia de
Datos en una Organización” del Curso: Introducción a la Ciencia de Datos y Big Data
(Tema 2. Ciclo de Vida de Proyectos de Ciencia de Datos Subtema 2.2. Metodologías
para proyectos de Ciencia de Datos) con objeto de poner en práctica los
conocimientos adquiridos sobre la implementación de un proyecto de Ciencia de Datos
específicamente para una librería situada en la ciudad de Monterrey, Nuevo León.
Una vez concluido el proyecto individual será cargado a la plataforma EDX para ser
evaluado por pares y con ello poder avanzar para tomar los siguientes temas del
curso.
2. Desarrollo del Proyecto Individual
2.1. Antecedentes
En un entorno difícil para la economía mexicana y dadas las circunstancias actuales, el
consejo de administración de la Librería Iztaccíhuatl fundada en el año 2015 en Monterrey,
Nuevo León ha autorizado presupuesto para ejecutar proyecto de Ciencia de Datos con
objeto de soportar una mejor toma de decisiones para lograr incrementar el volumen de
ventas mensuales en al menos un 35% de las cifras planeadas para este año 2020.
2.2 Desarrollo del Proyecto de Ciencia de Datos
Una vez autorizado presupuesto y tomada la decisión por el consejo de administración
y avalada por la dirección general de la Librería Iztaccíhuatl se procede con la
ejecución del Proyecto de Ciencia de Datos siguiendo cada una de los etapas que de
acuerdo a las buenas prácticas promueve la metodología CRISP-DM (Cross Industry
Estándar Process – Data Mining). Con ello se busca generar información relevante
para el negocio que respalde y promueva la oportuna toma de decisiones de sus
ejecutivos y todo orientado al logro del objetivo primordial que es “elevar al menos un
35% las ventas mensuales durante un año para promover el crecimiento y desarrollo
de la organización en 2021”. El análisis a emplear en este proyecto es de tipo
“prescriptivo” dado que se generan recomendaciones y consejos para la Librería
Iztaccíhuatl todo esto a partir de explotar, combinar y procesar fuentes de datos
internas y externas a la organización con técnicas de aprendizaje automático
(machine learning), de tal forma que se crean nuevas ideas y conceptos sobre
Proyecto de Ciencia de Datos – Librería Iztaccíhuatl Pág. 3
procesos de negocio, se identifican libros que valga la pena promover y comercializar
así como se pone foco en la percepción, el sentimiento y los comentarios de los
lectores o usuarios finales. A continuación se detallan las principales etapas de la
metodología mismas que conforman implícitamente el plan estratégico para lograr los
resultados esperados en la organización:
2.2.1 Entendimiento del Negocio
El negocio de la Librería Iztaccíhuatl se centraliza en la venta de libros
físicos para soportar el gusto por la lectura y la educación de estudiantes
y lectores de la región. Está localizado en el corazón de la ciudad de
Monterrey, N.L. y por ahora tiene como objetivo primordial incrementar
el volumen de ventas de la librería en al menos un 35% durante un año
para promover el desarrollo y crecimiento de la organización en el 2021.
El consejo de administración muestra preocupación dado que la empresa
ha caído en un estancamiento durante los dos últimos años limitando el
crecimiento y por consecuencia la expansión del negocio en otros estados
de la república mexicana, por tal motivo se autorizó el lanzamiento del
Proyecto de Ciencia de Datos con la premisa de promover la ética y los
valores respetando y salvaguardando la confidencialidad de datos de
clientes y proveedores.
2.2.2 Adquisición de los Datos
Fuentes de información interna: Se tiene considerado integrar el
almacenamiento de archivos e información histórica que ayudarán a
conocer el comportamiento histórico sobre clientes, volúmenes de venta
mensual, evaluaciones de libros, recomendaciones de lectura así como
tendencias. Los archivos a considerar son:
 “books”: contiene los datos generales de cada libro existente en la
librería y además menciona el promedio de clasificación de cada libro
de acuerdo a las votaciones y compras del cliente. A continuación sus
campos:
o Id - Identificador del registro
o Book Id - Identificador del libro
o Number Editions - Número de ediciones
o ISBN - Clave estándar internacional del libro
o ISBN13 - Clave estándar extendida internacional del libro
o Authors - Autor del libro
Proyecto de Ciencia de Datos – Librería Iztaccíhuatl Pág. 4
o Original Publication - Fecha de publicación
o Original Title - Título original del libro
o Title - Título del libro
o Language Code - Clave de idioma del libro
o Average Rating - Promedio de la clasificación del libro
o Image - Enlace a la imagen de la portada del libro
o Small Image - Enlace a la imagen en versión optimizada de la
portada del libro.
 “top_books”: el top 20 de los libros más vendidos de acuerdo a una
clasificación general. A continuación sus campos:
o Position - Posición del libro en la clasificación del libro
o ISBN - Clave estándar extendida internacional del libro
o Title - Título del libro
o Author - Autor del libro
o Imprint - Editorial
o Publisher Group - Grupo Editorial
o Volume - Volumen de ventas hasta el 2010
o Value - Ventas determinadas por el volumen
o RRP - Precio recomendado para minoristas
o ASP - Precio promedio para venta
o Binding - Tipo de encuadernación
o Publ Date - Fecha de publicación
o Product Class - Clasificación del libro
o Classification - Clasificación General del libro
 “ratings”: contiene los datos de los libros más votados por los clientes
dentro del sitio web de la librería. A continuación sus campos:
o Book Id - Identificador del libro
o User Id - Identificador del cliente/usuario que clasifico un libro
o Rating - Nivel de clasificación del libro
 “to_read”: contiene las recomendaciones que cada cliente o usuario
realiza en el sitio web sobre libros para leer. Sus campos son:
o User Id - Identificador del cliente/usuario que clasifico un libro
o Book Id - Identificador del libro
A la fecha estos archivos se encuentran disponibles en varios CD´s, 2
computadoras personales y otra parte alojada en un servidor por lo que
de inicio todos estos se deberán concentrar en un solo lugar para que la
nueva plataforma considere cargar dichos archivos históricos adicional a
los nuevos archivos que periódicamente se estarán generando con la
información actualizada al cierre del día hábil anterior y con cortes
mensuales para su procesamiento y análisis. Por otra parte se identificó
Proyecto de Ciencia de Datos – Librería Iztaccíhuatl Pág. 5
que hay información sobre volúmenes de venta que se tienen sólo hasta
el año 2010 (campo top_books.volume), por lo que se deberá considerar
el reprocesamiento de datos para actualizar la información, limpiarla,
estandarizarla y tenerla al día (top_books.volume).
Fuentes de información externa: se tiene considerado obtener las
principales búsquedas en internet y redes sociales sobre literatura y
libros por zona geográfica o entidad federativa para su concentración y
procesamiento. Adicionalmente también se buscará en redes cuales son
los libros más vendidos para siempre contar con ellos, aunado a conocer
anticipadamente nuevos libros que se vayan a publicar que presenten
expectativas de ser exitosos (en base al historial del autor).
2.2.3 Preparación de los Datos
Etapa donde se sientan las bases para que un grupo de procesos tomen
los archivos internos y externos de fuentes o dispositivos fijos con objeto
de centralizarlos en un repositorio residente en la nube para su limpieza,
estandarización, cálculo (de ser necesario) y formateo. Las fuentes
externas consideran datos de búsquedas que le interesan al negocio de
internet (Google) y redes sociales (ej. Búsquedas de libros, ventas,
nuevos libros próximos a publicarse).
2.2.4 Modelación
Etapa en la que se modelan los procesos para generar los principales
indicadores que ayudarán a la organización a tomar decisiones oportunas
y acertadas para el logro del objetivo principal que es incrementar el
volumen de ventas de la librería en al menos un 35% durante un año. Se
tiene considerado integrar técnicas de aprendizaje automático en la nube
haciendo uso de Google Cloud como herramienta principal. A partir de los
principales indicadores definidos se evaluará el desempeño de la librería.
En este mismo paso se realizan pruebas sobre performance, tiempos
requeridos de procesamiento y de calidad de datos para generar la
información sobre los principales indicadores a evaluar:
a) Volumen de ventas globales mensuales y por canal (vía telefónica,
tienda virtual o mostrador de los último año incluyendo mes en curso)
Proyecto de Ciencia de Datos – Librería Iztaccíhuatl Pág. 6
b) Los 10 Libros más vendidos por mes (en los últimos 6 meses)
c) Principales días de venta del último año (vacaciones, días de asueto,
días de quincena, fines de semana)
d) 10 libros con mayor tendencia en redes sociales y búsquedas a través
de Google (en los últimos 6 meses)
e) 20 libros con cero ventas acumuladas (en los últimos seis meses)
2.2.5 Evaluación e Interpretación
En esta etapa del proyecto se analiza detenidamente el contenido y la
información de los principales indicadores generados por el modelo
implementado, así como la forma en la cual toda esta información puede
ayudar a la Librería Iztaccíhuatl a lograr su objetivo principal. Cada uno
de los principales indicadores son detonantes de acciones o decisiones
mismas que a continuación se sugieren:
a) Indicador: Volumen de ventas globales mensuales y por canal (vía
telefónica, tienda virtual o mostrador de los último año incluyendo
mes en curso). Posibles decisiones:
1. Incentivar al personal si el volumen de ventas global mensual del
último mes en evaluación se cumple y se excede en un 15% se
tomará la decisión de ofrecer un bono sobre el 2% de las ventas
realizadas. El bono será acumulable y se entregará
semestralmente durante la sesión del comité de administración
como reconocimiento a la labor desempeñada. Asimismo, el
responsable del canal con mayores ventas durante el semestre se
hara acreedor a un 1% adicional sobre el importe de la venta
realizada.
2. Evaluar el desempeño de los canales mensualmente en relación a
sus ventas para identificar los de ventas más bajas del mes con
objeto de analizar la causa y ver la forma de apoyar para tratar
de no repetir comportamiento. Si es un tema recurrente evaluar
posible cambio de colaborador o ajuste de funciones de acuerdo a
su perfil.
b) Indicador: Los 10 Libros más vendidos por mes (en los últimos 6
meses). Posibles decisiones:
Proyecto de Ciencia de Datos – Librería Iztaccíhuatl Pág. 7
1. Con objeto de potenciar las ventas de ese grupo de libros se
sugiere promover campaña en redes sociales evaluando la opción
de otorgar algún descuento o beneficio para nuevos clientes y/o
clientes frecuentes
2. Contar con inventario suficiente para cubrir ventas o bien
contactar a la editorial proveedora para que pueda surtir el libro
en cuestión casi de manera inmediata para evitar perder ventas
c) Indicador: Principales días de venta del último año (vacaciones, días
de asueto, días de quincena, fines de semana). Posibles decisiones:
1. Poner alguna promoción o descuento en los periodos donde se
puedan potenciar las ventas o bien para promover la venta de
libros cuando ésta sea nula o escasa
d) Indicador: 10 libros con mayor tendencia en redes sociales y
búsquedas a través de Google (en los últimos 6 meses). Posibles
decisiones:
1. Con objeto de impulsar la ventas, hay que identificar e incorporar
a la librería aquellos títulos con tendencia en redes y búsquedas
en internet que en ese momento no se manejen. Esto a la par de
alguna posible campaña de marketing en dichas redes o en
Google por ejemplo para promover su desplazamiento.
e) Indicador: 20 libros con cero ventas acumuladas (en los últimos seis
meses). Posibles decisiones:
1. Evaluar la posibilidad de cambiar con la editorial proveedora ese
inventario de libros que no se mueve por libros que presenten
venta o movimiento o bien ponerlos en oferta para tratar de
rescatar flujos que ayuden a adquirir libros que estén
presentando buenas ventas o libros que próximamente vayan a
salir al mercado
2.2.6 Despliegue del Modelo
Durante la sesión del comité de administración de la Librería Iztaccíhuatl
se presentan resultados del proyecto de Ciencia de Datos y sus beneficios
orientados a incrementar al menos un 35% de las ventas como objetivo
Proyecto de Ciencia de Datos – Librería Iztaccíhuatl Pág. 8
primordial. Una vez teniendo la aprobación se para a la etapa final de
Operaciones
2.2.7 Operaciones
Se determina que el nuevo modelo de indicadores y decisiones se
implemente posterior a una presentación que considere al personal
involucrado con objeto de alinear a toda la organización para todos
colaborar en un solo sentido. No obstante el modelo mensualmente se
estará evaluando para revisar si se está generando impacto y buenos
resultados, o si el modelo requiere de algún ajuste para ponerlo a tono, o
bien si el objetivo principal de la organización cambio y hay que hacer un
replanteamiento o un nuevo proyecto de Ciencia de Datos aprovechando
la infraestructura con la que se cuenta.
3. Conclusión
Interesante proyecto de práctica individual en donde tuve la oportunidad de repasar
las distintas etapas que sigue la metodología CRISP-DM (Cross Industry Estándar
Process – Data Minery) para llevar a cabo proyectos de Ciencia de Datos.
Adicionalmente considero que esta práctica es de mucha utilidad ya que me ayuda a
tener una mejor comprensión del tema al trasladar la teoría a un ejercicio apegado a
la realidad.

Más contenido relacionado

Similar a 202005 rrg proyecto individual con evaluacion por pares

Proyecto individual evaluado por pares - José Ignacio Mamani Murga
Proyecto individual evaluado por pares - José Ignacio Mamani MurgaProyecto individual evaluado por pares - José Ignacio Mamani Murga
Proyecto individual evaluado por pares - José Ignacio Mamani MurgaJosé Ignacio Mamani Murga
 
Propuesta PROYECTO Iztaccíhuatl
Propuesta PROYECTO IztaccíhuatlPropuesta PROYECTO Iztaccíhuatl
Propuesta PROYECTO IztaccíhuatlDiego Avendaño
 
Aplicando la Ciencia de Datos en una organización
Aplicando la Ciencia de Datos en una organización Aplicando la Ciencia de Datos en una organización
Aplicando la Ciencia de Datos en una organización JenniferTorres155
 
Aplicando la Ciencia de Datos en una organización.docx
Aplicando la Ciencia de Datos en una organización.docxAplicando la Ciencia de Datos en una organización.docx
Aplicando la Ciencia de Datos en una organización.docxLambofgod1993
 
Bigdata Herramientas Caso Libreria Iztaccihuatl
Bigdata Herramientas Caso Libreria IztaccihuatlBigdata Herramientas Caso Libreria Iztaccihuatl
Bigdata Herramientas Caso Libreria IztaccihuatlPaola Quiroz Alvarez
 
Práctica de evaluación entre pares
Práctica de evaluación entre paresPráctica de evaluación entre pares
Práctica de evaluación entre paresSofía Ardila
 
Utilizando la ciencia de datos en una organizacion
Utilizando la ciencia de datos en una organizacionUtilizando la ciencia de datos en una organizacion
Utilizando la ciencia de datos en una organizacionAlejandro Uribe Rodriguez
 
Aplicando Ciencia de Datos en una Organización
Aplicando Ciencia de Datos en una OrganizaciónAplicando Ciencia de Datos en una Organización
Aplicando Ciencia de Datos en una OrganizaciónCarlosMacarlup
 
Proyecto individual - Introducción a la ciencia de datos
Proyecto individual - Introducción a la ciencia de datosProyecto individual - Introducción a la ciencia de datos
Proyecto individual - Introducción a la ciencia de datosRebecaHernandez59
 
Tarea Introducción a la ciencia de datos
Tarea Introducción a la ciencia de datosTarea Introducción a la ciencia de datos
Tarea Introducción a la ciencia de datosOlgaMaraGarzaSilva
 
Aplicando La Ciencia de Datos en Una Organizacion
Aplicando La Ciencia de Datos en Una OrganizacionAplicando La Ciencia de Datos en Una Organizacion
Aplicando La Ciencia de Datos en Una OrganizacionFernando Aguada
 
Introducción a la ciencia de datos y el big data
Introducción a la ciencia de datos y el big dataIntroducción a la ciencia de datos y el big data
Introducción a la ciencia de datos y el big dataAlmudena Casado
 
Aplicación de La ciencia de datos en una Organización
Aplicación de La ciencia de datos en una OrganizaciónAplicación de La ciencia de datos en una Organización
Aplicación de La ciencia de datos en una OrganizaciónFernando Aguada
 

Similar a 202005 rrg proyecto individual con evaluacion por pares (20)

Trabajo de pares
Trabajo de paresTrabajo de pares
Trabajo de pares
 
Proyecto evaluado por pares
Proyecto evaluado por paresProyecto evaluado por pares
Proyecto evaluado por pares
 
Proyecto individual evaluado por pares - José Ignacio Mamani Murga
Proyecto individual evaluado por pares - José Ignacio Mamani MurgaProyecto individual evaluado por pares - José Ignacio Mamani Murga
Proyecto individual evaluado por pares - José Ignacio Mamani Murga
 
evaluacion por pares
evaluacion por paresevaluacion por pares
evaluacion por pares
 
Reporte_practica_2.pdf
Reporte_practica_2.pdfReporte_practica_2.pdf
Reporte_practica_2.pdf
 
Propuesta PROYECTO Iztaccíhuatl
Propuesta PROYECTO IztaccíhuatlPropuesta PROYECTO Iztaccíhuatl
Propuesta PROYECTO Iztaccíhuatl
 
Trabajo entre pares
Trabajo entre paresTrabajo entre pares
Trabajo entre pares
 
Aplicando la Ciencia de Datos en una organización
Aplicando la Ciencia de Datos en una organización Aplicando la Ciencia de Datos en una organización
Aplicando la Ciencia de Datos en una organización
 
Aplicando la Ciencia de Datos en una organización.docx
Aplicando la Ciencia de Datos en una organización.docxAplicando la Ciencia de Datos en una organización.docx
Aplicando la Ciencia de Datos en una organización.docx
 
Bigdata Herramientas Caso Libreria Iztaccihuatl
Bigdata Herramientas Caso Libreria IztaccihuatlBigdata Herramientas Caso Libreria Iztaccihuatl
Bigdata Herramientas Caso Libreria Iztaccihuatl
 
Práctica de evaluación entre pares
Práctica de evaluación entre paresPráctica de evaluación entre pares
Práctica de evaluación entre pares
 
Utilizando la ciencia de datos en una organizacion
Utilizando la ciencia de datos en una organizacionUtilizando la ciencia de datos en una organizacion
Utilizando la ciencia de datos en una organizacion
 
Aplicando Ciencia de Datos en una Organización
Aplicando Ciencia de Datos en una OrganizaciónAplicando Ciencia de Datos en una Organización
Aplicando Ciencia de Datos en una Organización
 
Proyecto individual - Introducción a la ciencia de datos
Proyecto individual - Introducción a la ciencia de datosProyecto individual - Introducción a la ciencia de datos
Proyecto individual - Introducción a la ciencia de datos
 
Tarea Introducción a la ciencia de datos
Tarea Introducción a la ciencia de datosTarea Introducción a la ciencia de datos
Tarea Introducción a la ciencia de datos
 
Aplicando La Ciencia de Datos en Una Organizacion
Aplicando La Ciencia de Datos en Una OrganizacionAplicando La Ciencia de Datos en Una Organizacion
Aplicando La Ciencia de Datos en Una Organizacion
 
Introducción a la ciencia de datos y el big data
Introducción a la ciencia de datos y el big dataIntroducción a la ciencia de datos y el big data
Introducción a la ciencia de datos y el big data
 
Aplicación de La ciencia de datos en una Organización
Aplicación de La ciencia de datos en una OrganizaciónAplicación de La ciencia de datos en una Organización
Aplicación de La ciencia de datos en una Organización
 
Big data ejercicio
Big data ejercicioBig data ejercicio
Big data ejercicio
 
Project.docx
Project.docxProject.docx
Project.docx
 

Último

¡Ya basta! Sanidad Interior - Angela Kellenberger.pdf
¡Ya basta! Sanidad Interior - Angela Kellenberger.pdf¡Ya basta! Sanidad Interior - Angela Kellenberger.pdf
¡Ya basta! Sanidad Interior - Angela Kellenberger.pdfjuan23xpx
 
presentación del desensamble y ensamble del equipo de computo en base a las n...
presentación del desensamble y ensamble del equipo de computo en base a las n...presentación del desensamble y ensamble del equipo de computo en base a las n...
presentación del desensamble y ensamble del equipo de computo en base a las n...axelv9257
 
presentacion_desamblado_de_una_computadora_base_a_las_normas_de_seguridad.pdf
presentacion_desamblado_de_una_computadora_base_a_las_normas_de_seguridad.pdfpresentacion_desamblado_de_una_computadora_base_a_las_normas_de_seguridad.pdf
presentacion_desamblado_de_una_computadora_base_a_las_normas_de_seguridad.pdfaxelv9257
 
Función del analizador léxico.pdf presentacion
Función del analizador léxico.pdf presentacionFunción del analizador léxico.pdf presentacion
Función del analizador léxico.pdf presentacionEmanuelMuoz11
 
PRÁCTICA Nº 4: “Análisis de secuencias del ADN con el software BioEdit y uso ...
PRÁCTICA Nº 4: “Análisis de secuencias del ADN con el software BioEdit y uso ...PRÁCTICA Nº 4: “Análisis de secuencias del ADN con el software BioEdit y uso ...
PRÁCTICA Nº 4: “Análisis de secuencias del ADN con el software BioEdit y uso ...dramosbrise1403
 
Editorial. Grupo de 12B de La Salle Margarita.pdf
Editorial. Grupo de 12B de La Salle Margarita.pdfEditorial. Grupo de 12B de La Salle Margarita.pdf
Editorial. Grupo de 12B de La Salle Margarita.pdfYanitza28
 
Editorial. Grupo de 12B. La Salle Margarita.pdf
Editorial. Grupo de 12B. La Salle Margarita.pdfEditorial. Grupo de 12B. La Salle Margarita.pdf
Editorial. Grupo de 12B. La Salle Margarita.pdfYanitza28
 
Introduccion-a-la-electronica-industrial.pptx
Introduccion-a-la-electronica-industrial.pptxIntroduccion-a-la-electronica-industrial.pptx
Introduccion-a-la-electronica-industrial.pptxcj12paz
 
Tipos de Datos de Microsoft Access-JOEL GARCIA.pptx
Tipos de Datos de Microsoft Access-JOEL GARCIA.pptxTipos de Datos de Microsoft Access-JOEL GARCIA.pptx
Tipos de Datos de Microsoft Access-JOEL GARCIA.pptxJOELGARCIA849853
 
el uso de las TIC en la vida cotidiana.pptx
el uso de las TIC en la vida cotidiana.pptxel uso de las TIC en la vida cotidiana.pptx
el uso de las TIC en la vida cotidiana.pptx221112876
 
infor expo AVANCES TECNOLOGICOS DEL SIGLO 21.pptx
infor expo AVANCES TECNOLOGICOS DEL SIGLO 21.pptxinfor expo AVANCES TECNOLOGICOS DEL SIGLO 21.pptx
infor expo AVANCES TECNOLOGICOS DEL SIGLO 21.pptxgustavovasquezv56
 
herramientas web para estudiantes interesados en el tema
herramientas web para estudiantes interesados en el temaherramientas web para estudiantes interesados en el tema
herramientas web para estudiantes interesados en el temaJadeVilcscordova
 
Imágenes digitales: Calidad de la información
Imágenes digitales: Calidad de la informaciónImágenes digitales: Calidad de la información
Imágenes digitales: Calidad de la informaciónUniversidad de Sonora
 
Redes Neuronales profundas convolucionales CNN ́s-1.pdf
Redes Neuronales profundas convolucionales CNN ́s-1.pdfRedes Neuronales profundas convolucionales CNN ́s-1.pdf
Redes Neuronales profundas convolucionales CNN ́s-1.pdfJosAndrRosarioVzquez
 
Chat GPT para la educación Latinoamerica
Chat GPT para la educación LatinoamericaChat GPT para la educación Latinoamerica
Chat GPT para la educación LatinoamericaEdwinGarca59
 
Ejercicio 1 periodo 2 de Tecnología 2024
Ejercicio 1 periodo 2 de Tecnología 2024Ejercicio 1 periodo 2 de Tecnología 2024
Ejercicio 1 periodo 2 de Tecnología 2024NicolleAndrade7
 
Navegadores de internet - Nuevas Tecnologías de la Información y la Comunicación
Navegadores de internet - Nuevas Tecnologías de la Información y la ComunicaciónNavegadores de internet - Nuevas Tecnologías de la Información y la Comunicación
Navegadores de internet - Nuevas Tecnologías de la Información y la ComunicaciónAntonia Yamilet Perez Palomares
 
microsoft word manuales para todos tipos de estudiamte
microsoft word manuales para todos tipos de estudiamtemicrosoft word manuales para todos tipos de estudiamte
microsoft word manuales para todos tipos de estudiamte2024020140
 
Actividad 6/Las TIC en la Vida Cotidiana.
Actividad 6/Las TIC en la Vida Cotidiana.Actividad 6/Las TIC en la Vida Cotidiana.
Actividad 6/Las TIC en la Vida Cotidiana.241534381
 
BUSCADORES DE INTERNET (Universidad de Sonora).
BUSCADORES DE INTERNET (Universidad de Sonora).BUSCADORES DE INTERNET (Universidad de Sonora).
BUSCADORES DE INTERNET (Universidad de Sonora).jcaballerosamayoa
 

Último (20)

¡Ya basta! Sanidad Interior - Angela Kellenberger.pdf
¡Ya basta! Sanidad Interior - Angela Kellenberger.pdf¡Ya basta! Sanidad Interior - Angela Kellenberger.pdf
¡Ya basta! Sanidad Interior - Angela Kellenberger.pdf
 
presentación del desensamble y ensamble del equipo de computo en base a las n...
presentación del desensamble y ensamble del equipo de computo en base a las n...presentación del desensamble y ensamble del equipo de computo en base a las n...
presentación del desensamble y ensamble del equipo de computo en base a las n...
 
presentacion_desamblado_de_una_computadora_base_a_las_normas_de_seguridad.pdf
presentacion_desamblado_de_una_computadora_base_a_las_normas_de_seguridad.pdfpresentacion_desamblado_de_una_computadora_base_a_las_normas_de_seguridad.pdf
presentacion_desamblado_de_una_computadora_base_a_las_normas_de_seguridad.pdf
 
Función del analizador léxico.pdf presentacion
Función del analizador léxico.pdf presentacionFunción del analizador léxico.pdf presentacion
Función del analizador léxico.pdf presentacion
 
PRÁCTICA Nº 4: “Análisis de secuencias del ADN con el software BioEdit y uso ...
PRÁCTICA Nº 4: “Análisis de secuencias del ADN con el software BioEdit y uso ...PRÁCTICA Nº 4: “Análisis de secuencias del ADN con el software BioEdit y uso ...
PRÁCTICA Nº 4: “Análisis de secuencias del ADN con el software BioEdit y uso ...
 
Editorial. Grupo de 12B de La Salle Margarita.pdf
Editorial. Grupo de 12B de La Salle Margarita.pdfEditorial. Grupo de 12B de La Salle Margarita.pdf
Editorial. Grupo de 12B de La Salle Margarita.pdf
 
Editorial. Grupo de 12B. La Salle Margarita.pdf
Editorial. Grupo de 12B. La Salle Margarita.pdfEditorial. Grupo de 12B. La Salle Margarita.pdf
Editorial. Grupo de 12B. La Salle Margarita.pdf
 
Introduccion-a-la-electronica-industrial.pptx
Introduccion-a-la-electronica-industrial.pptxIntroduccion-a-la-electronica-industrial.pptx
Introduccion-a-la-electronica-industrial.pptx
 
Tipos de Datos de Microsoft Access-JOEL GARCIA.pptx
Tipos de Datos de Microsoft Access-JOEL GARCIA.pptxTipos de Datos de Microsoft Access-JOEL GARCIA.pptx
Tipos de Datos de Microsoft Access-JOEL GARCIA.pptx
 
el uso de las TIC en la vida cotidiana.pptx
el uso de las TIC en la vida cotidiana.pptxel uso de las TIC en la vida cotidiana.pptx
el uso de las TIC en la vida cotidiana.pptx
 
infor expo AVANCES TECNOLOGICOS DEL SIGLO 21.pptx
infor expo AVANCES TECNOLOGICOS DEL SIGLO 21.pptxinfor expo AVANCES TECNOLOGICOS DEL SIGLO 21.pptx
infor expo AVANCES TECNOLOGICOS DEL SIGLO 21.pptx
 
herramientas web para estudiantes interesados en el tema
herramientas web para estudiantes interesados en el temaherramientas web para estudiantes interesados en el tema
herramientas web para estudiantes interesados en el tema
 
Imágenes digitales: Calidad de la información
Imágenes digitales: Calidad de la informaciónImágenes digitales: Calidad de la información
Imágenes digitales: Calidad de la información
 
Redes Neuronales profundas convolucionales CNN ́s-1.pdf
Redes Neuronales profundas convolucionales CNN ́s-1.pdfRedes Neuronales profundas convolucionales CNN ́s-1.pdf
Redes Neuronales profundas convolucionales CNN ́s-1.pdf
 
Chat GPT para la educación Latinoamerica
Chat GPT para la educación LatinoamericaChat GPT para la educación Latinoamerica
Chat GPT para la educación Latinoamerica
 
Ejercicio 1 periodo 2 de Tecnología 2024
Ejercicio 1 periodo 2 de Tecnología 2024Ejercicio 1 periodo 2 de Tecnología 2024
Ejercicio 1 periodo 2 de Tecnología 2024
 
Navegadores de internet - Nuevas Tecnologías de la Información y la Comunicación
Navegadores de internet - Nuevas Tecnologías de la Información y la ComunicaciónNavegadores de internet - Nuevas Tecnologías de la Información y la Comunicación
Navegadores de internet - Nuevas Tecnologías de la Información y la Comunicación
 
microsoft word manuales para todos tipos de estudiamte
microsoft word manuales para todos tipos de estudiamtemicrosoft word manuales para todos tipos de estudiamte
microsoft word manuales para todos tipos de estudiamte
 
Actividad 6/Las TIC en la Vida Cotidiana.
Actividad 6/Las TIC en la Vida Cotidiana.Actividad 6/Las TIC en la Vida Cotidiana.
Actividad 6/Las TIC en la Vida Cotidiana.
 
BUSCADORES DE INTERNET (Universidad de Sonora).
BUSCADORES DE INTERNET (Universidad de Sonora).BUSCADORES DE INTERNET (Universidad de Sonora).
BUSCADORES DE INTERNET (Universidad de Sonora).
 

202005 rrg proyecto individual con evaluacion por pares

  • 1. 2. Ciclo de Vida de Proyectos de Ciencia de Datos 2.2 Metodologías para Proyectos de Ciencia de Datos Proyecto individual evaluado por pares. Lic. René Rodríguez G. 06/05/2020
  • 2. Proyecto de Ciencia de Datos – Librería Iztaccíhuatl Pág. 1 ÍNDICE Pág. 1. Introducción ....................................................................................... 2 2. Desarrollo del Proyecto Individual ....................................................... 2 2.1 Antecedentes .....................................................................................2 2.2 Desarrollo del Proyecto de Ciencia de Datos ...........................................2 2.2.1 Entendimiento del Negocio .......................................................3 2.2.2 Adquisición de los Datos...........................................................3 2.2.3 Preparación de los Datos ..........................................................5 2.2.4 Modelación .............................................................................5 2.2.5 Evaluación e Interpretación ......................................................6 2.2.6 Despliegue del Modelo .............................................................7 2.2.7 Operaciones ...........................................................................7 3. Conclusión............................................................................................ 8
  • 3. Proyecto de Ciencia de Datos – Librería Iztaccíhuatl Pág. 2 1. Introducción El presente documento plasma el resultado de la práctica “Utilizando la Ciencia de Datos en una Organización” del Curso: Introducción a la Ciencia de Datos y Big Data (Tema 2. Ciclo de Vida de Proyectos de Ciencia de Datos Subtema 2.2. Metodologías para proyectos de Ciencia de Datos) con objeto de poner en práctica los conocimientos adquiridos sobre la implementación de un proyecto de Ciencia de Datos específicamente para una librería situada en la ciudad de Monterrey, Nuevo León. Una vez concluido el proyecto individual será cargado a la plataforma EDX para ser evaluado por pares y con ello poder avanzar para tomar los siguientes temas del curso. 2. Desarrollo del Proyecto Individual 2.1. Antecedentes En un entorno difícil para la economía mexicana y dadas las circunstancias actuales, el consejo de administración de la Librería Iztaccíhuatl fundada en el año 2015 en Monterrey, Nuevo León ha autorizado presupuesto para ejecutar proyecto de Ciencia de Datos con objeto de soportar una mejor toma de decisiones para lograr incrementar el volumen de ventas mensuales en al menos un 35% de las cifras planeadas para este año 2020. 2.2 Desarrollo del Proyecto de Ciencia de Datos Una vez autorizado presupuesto y tomada la decisión por el consejo de administración y avalada por la dirección general de la Librería Iztaccíhuatl se procede con la ejecución del Proyecto de Ciencia de Datos siguiendo cada una de los etapas que de acuerdo a las buenas prácticas promueve la metodología CRISP-DM (Cross Industry Estándar Process – Data Mining). Con ello se busca generar información relevante para el negocio que respalde y promueva la oportuna toma de decisiones de sus ejecutivos y todo orientado al logro del objetivo primordial que es “elevar al menos un 35% las ventas mensuales durante un año para promover el crecimiento y desarrollo de la organización en 2021”. El análisis a emplear en este proyecto es de tipo “prescriptivo” dado que se generan recomendaciones y consejos para la Librería Iztaccíhuatl todo esto a partir de explotar, combinar y procesar fuentes de datos internas y externas a la organización con técnicas de aprendizaje automático (machine learning), de tal forma que se crean nuevas ideas y conceptos sobre
  • 4. Proyecto de Ciencia de Datos – Librería Iztaccíhuatl Pág. 3 procesos de negocio, se identifican libros que valga la pena promover y comercializar así como se pone foco en la percepción, el sentimiento y los comentarios de los lectores o usuarios finales. A continuación se detallan las principales etapas de la metodología mismas que conforman implícitamente el plan estratégico para lograr los resultados esperados en la organización: 2.2.1 Entendimiento del Negocio El negocio de la Librería Iztaccíhuatl se centraliza en la venta de libros físicos para soportar el gusto por la lectura y la educación de estudiantes y lectores de la región. Está localizado en el corazón de la ciudad de Monterrey, N.L. y por ahora tiene como objetivo primordial incrementar el volumen de ventas de la librería en al menos un 35% durante un año para promover el desarrollo y crecimiento de la organización en el 2021. El consejo de administración muestra preocupación dado que la empresa ha caído en un estancamiento durante los dos últimos años limitando el crecimiento y por consecuencia la expansión del negocio en otros estados de la república mexicana, por tal motivo se autorizó el lanzamiento del Proyecto de Ciencia de Datos con la premisa de promover la ética y los valores respetando y salvaguardando la confidencialidad de datos de clientes y proveedores. 2.2.2 Adquisición de los Datos Fuentes de información interna: Se tiene considerado integrar el almacenamiento de archivos e información histórica que ayudarán a conocer el comportamiento histórico sobre clientes, volúmenes de venta mensual, evaluaciones de libros, recomendaciones de lectura así como tendencias. Los archivos a considerar son:  “books”: contiene los datos generales de cada libro existente en la librería y además menciona el promedio de clasificación de cada libro de acuerdo a las votaciones y compras del cliente. A continuación sus campos: o Id - Identificador del registro o Book Id - Identificador del libro o Number Editions - Número de ediciones o ISBN - Clave estándar internacional del libro o ISBN13 - Clave estándar extendida internacional del libro o Authors - Autor del libro
  • 5. Proyecto de Ciencia de Datos – Librería Iztaccíhuatl Pág. 4 o Original Publication - Fecha de publicación o Original Title - Título original del libro o Title - Título del libro o Language Code - Clave de idioma del libro o Average Rating - Promedio de la clasificación del libro o Image - Enlace a la imagen de la portada del libro o Small Image - Enlace a la imagen en versión optimizada de la portada del libro.  “top_books”: el top 20 de los libros más vendidos de acuerdo a una clasificación general. A continuación sus campos: o Position - Posición del libro en la clasificación del libro o ISBN - Clave estándar extendida internacional del libro o Title - Título del libro o Author - Autor del libro o Imprint - Editorial o Publisher Group - Grupo Editorial o Volume - Volumen de ventas hasta el 2010 o Value - Ventas determinadas por el volumen o RRP - Precio recomendado para minoristas o ASP - Precio promedio para venta o Binding - Tipo de encuadernación o Publ Date - Fecha de publicación o Product Class - Clasificación del libro o Classification - Clasificación General del libro  “ratings”: contiene los datos de los libros más votados por los clientes dentro del sitio web de la librería. A continuación sus campos: o Book Id - Identificador del libro o User Id - Identificador del cliente/usuario que clasifico un libro o Rating - Nivel de clasificación del libro  “to_read”: contiene las recomendaciones que cada cliente o usuario realiza en el sitio web sobre libros para leer. Sus campos son: o User Id - Identificador del cliente/usuario que clasifico un libro o Book Id - Identificador del libro A la fecha estos archivos se encuentran disponibles en varios CD´s, 2 computadoras personales y otra parte alojada en un servidor por lo que de inicio todos estos se deberán concentrar en un solo lugar para que la nueva plataforma considere cargar dichos archivos históricos adicional a los nuevos archivos que periódicamente se estarán generando con la información actualizada al cierre del día hábil anterior y con cortes mensuales para su procesamiento y análisis. Por otra parte se identificó
  • 6. Proyecto de Ciencia de Datos – Librería Iztaccíhuatl Pág. 5 que hay información sobre volúmenes de venta que se tienen sólo hasta el año 2010 (campo top_books.volume), por lo que se deberá considerar el reprocesamiento de datos para actualizar la información, limpiarla, estandarizarla y tenerla al día (top_books.volume). Fuentes de información externa: se tiene considerado obtener las principales búsquedas en internet y redes sociales sobre literatura y libros por zona geográfica o entidad federativa para su concentración y procesamiento. Adicionalmente también se buscará en redes cuales son los libros más vendidos para siempre contar con ellos, aunado a conocer anticipadamente nuevos libros que se vayan a publicar que presenten expectativas de ser exitosos (en base al historial del autor). 2.2.3 Preparación de los Datos Etapa donde se sientan las bases para que un grupo de procesos tomen los archivos internos y externos de fuentes o dispositivos fijos con objeto de centralizarlos en un repositorio residente en la nube para su limpieza, estandarización, cálculo (de ser necesario) y formateo. Las fuentes externas consideran datos de búsquedas que le interesan al negocio de internet (Google) y redes sociales (ej. Búsquedas de libros, ventas, nuevos libros próximos a publicarse). 2.2.4 Modelación Etapa en la que se modelan los procesos para generar los principales indicadores que ayudarán a la organización a tomar decisiones oportunas y acertadas para el logro del objetivo principal que es incrementar el volumen de ventas de la librería en al menos un 35% durante un año. Se tiene considerado integrar técnicas de aprendizaje automático en la nube haciendo uso de Google Cloud como herramienta principal. A partir de los principales indicadores definidos se evaluará el desempeño de la librería. En este mismo paso se realizan pruebas sobre performance, tiempos requeridos de procesamiento y de calidad de datos para generar la información sobre los principales indicadores a evaluar: a) Volumen de ventas globales mensuales y por canal (vía telefónica, tienda virtual o mostrador de los último año incluyendo mes en curso)
  • 7. Proyecto de Ciencia de Datos – Librería Iztaccíhuatl Pág. 6 b) Los 10 Libros más vendidos por mes (en los últimos 6 meses) c) Principales días de venta del último año (vacaciones, días de asueto, días de quincena, fines de semana) d) 10 libros con mayor tendencia en redes sociales y búsquedas a través de Google (en los últimos 6 meses) e) 20 libros con cero ventas acumuladas (en los últimos seis meses) 2.2.5 Evaluación e Interpretación En esta etapa del proyecto se analiza detenidamente el contenido y la información de los principales indicadores generados por el modelo implementado, así como la forma en la cual toda esta información puede ayudar a la Librería Iztaccíhuatl a lograr su objetivo principal. Cada uno de los principales indicadores son detonantes de acciones o decisiones mismas que a continuación se sugieren: a) Indicador: Volumen de ventas globales mensuales y por canal (vía telefónica, tienda virtual o mostrador de los último año incluyendo mes en curso). Posibles decisiones: 1. Incentivar al personal si el volumen de ventas global mensual del último mes en evaluación se cumple y se excede en un 15% se tomará la decisión de ofrecer un bono sobre el 2% de las ventas realizadas. El bono será acumulable y se entregará semestralmente durante la sesión del comité de administración como reconocimiento a la labor desempeñada. Asimismo, el responsable del canal con mayores ventas durante el semestre se hara acreedor a un 1% adicional sobre el importe de la venta realizada. 2. Evaluar el desempeño de los canales mensualmente en relación a sus ventas para identificar los de ventas más bajas del mes con objeto de analizar la causa y ver la forma de apoyar para tratar de no repetir comportamiento. Si es un tema recurrente evaluar posible cambio de colaborador o ajuste de funciones de acuerdo a su perfil. b) Indicador: Los 10 Libros más vendidos por mes (en los últimos 6 meses). Posibles decisiones:
  • 8. Proyecto de Ciencia de Datos – Librería Iztaccíhuatl Pág. 7 1. Con objeto de potenciar las ventas de ese grupo de libros se sugiere promover campaña en redes sociales evaluando la opción de otorgar algún descuento o beneficio para nuevos clientes y/o clientes frecuentes 2. Contar con inventario suficiente para cubrir ventas o bien contactar a la editorial proveedora para que pueda surtir el libro en cuestión casi de manera inmediata para evitar perder ventas c) Indicador: Principales días de venta del último año (vacaciones, días de asueto, días de quincena, fines de semana). Posibles decisiones: 1. Poner alguna promoción o descuento en los periodos donde se puedan potenciar las ventas o bien para promover la venta de libros cuando ésta sea nula o escasa d) Indicador: 10 libros con mayor tendencia en redes sociales y búsquedas a través de Google (en los últimos 6 meses). Posibles decisiones: 1. Con objeto de impulsar la ventas, hay que identificar e incorporar a la librería aquellos títulos con tendencia en redes y búsquedas en internet que en ese momento no se manejen. Esto a la par de alguna posible campaña de marketing en dichas redes o en Google por ejemplo para promover su desplazamiento. e) Indicador: 20 libros con cero ventas acumuladas (en los últimos seis meses). Posibles decisiones: 1. Evaluar la posibilidad de cambiar con la editorial proveedora ese inventario de libros que no se mueve por libros que presenten venta o movimiento o bien ponerlos en oferta para tratar de rescatar flujos que ayuden a adquirir libros que estén presentando buenas ventas o libros que próximamente vayan a salir al mercado 2.2.6 Despliegue del Modelo Durante la sesión del comité de administración de la Librería Iztaccíhuatl se presentan resultados del proyecto de Ciencia de Datos y sus beneficios orientados a incrementar al menos un 35% de las ventas como objetivo
  • 9. Proyecto de Ciencia de Datos – Librería Iztaccíhuatl Pág. 8 primordial. Una vez teniendo la aprobación se para a la etapa final de Operaciones 2.2.7 Operaciones Se determina que el nuevo modelo de indicadores y decisiones se implemente posterior a una presentación que considere al personal involucrado con objeto de alinear a toda la organización para todos colaborar en un solo sentido. No obstante el modelo mensualmente se estará evaluando para revisar si se está generando impacto y buenos resultados, o si el modelo requiere de algún ajuste para ponerlo a tono, o bien si el objetivo principal de la organización cambio y hay que hacer un replanteamiento o un nuevo proyecto de Ciencia de Datos aprovechando la infraestructura con la que se cuenta. 3. Conclusión Interesante proyecto de práctica individual en donde tuve la oportunidad de repasar las distintas etapas que sigue la metodología CRISP-DM (Cross Industry Estándar Process – Data Minery) para llevar a cabo proyectos de Ciencia de Datos. Adicionalmente considero que esta práctica es de mucha utilidad ya que me ayuda a tener una mejor comprensión del tema al trasladar la teoría a un ejercicio apegado a la realidad.