SlideShare una empresa de Scribd logo
1 de 9
Utilizando la Ciencia de Datos en una Organización
Librería Iztaccíhuatl
Curso de Introducción a la Ciencia de Datos y el Big Data
Autor:
Ing. Alejandro Hinojosa Medina
alexhim4@gmail.com
INDICE
1.-Introduccion…………………………………………………………………………………………………………………………………………………………….1
1.1 Justificacióndeltipode análisis……………………………………………………………………………………………………………………………..1
2.-Comprensiondelnegocio………………………………………………………………………………………………………………………………………..2
2.1.- Identificaciónde Indicadores……………………………………………………………………………………………………………………………….2
2.1.1 KPI………………………………………………………………………………………………………………………………………………………………………2
2.1.2 KPI………………………………………………………………………………………………………………………………………………………………………2
2.1.3 KPI………………………………………………………………………………………………………………………………………………………………………2
2.2 Situaciónpresente…………………………………………………………………………………………………………………………………………………2
3.- Adquisiciónde datos……………………………………………………………………………………………………………………………………...........2
4.- Preparaciónde datos……………………………………………………………………………………………………………………………………………..4
4.1 ¿Qué indicadores serían los más importantes a determinar de acuerdo a la información presentada?...4
4.2 ¿Qué tipo de análisis sería el más adecuado y por qué?............................................................................4
4.3 ¿Qué decisiones se podrían tomar basadas en los descubrimientos o inferencias de la información
analizada?..................................................................................................................................................5
5.- Modelación……………………………………………………………………………………………………………………………………………………………5
6.- Evaluacióne Interpretación…………………………………………………………………………………………………………………………………..6
7.- Despliegue del Modelo………………………………………………………………………………………………………………………………………….6
7.1 Propuestade para laempresa……………………………………………………………………………………………………………………………..6
8.- Operaciones………………………………………………………………………………………………………………………………………………………….6
8.1 ConclusionesyResumende propuestaspresentadasenlaempresa……………………………………………………………………6
1. Introducción
La librería Iztaccíhuatl se ubica en la ciudad de Monterrey, Nuevo León, México. La empresa tiene como objetivo
desarrollar un proyecto de ciencia de datos para de esa forma poder mejorar sus indicadores clave de desempeño
(KPIs) y de ese modo desarrollar una estrategia en la toma de decisiones que sea efectiva y que contribuya al
crecimiento tanto del ingreso económico como también del desempeño y desarrollo integral de todos sus
colaboradores.
Figura 1. Ubicación de Librería Iztaccíhuatl
1.1 Justificacióndeltipodeanálisis
En base a los datos presentados se determinó el tipo de análisis a realizar. Mediante un modelo de análisis
descriptivo se tomara la información histórica de la empresa ha recolectado y de esa manera de limpiar, ordenara
y se trasformara de manera que la empresa pueda realizar una toma de decisiones con claridad.
Se tomara como base de apoyo la metodología CRISP-DM (Cross Industry Standard Process) utilizada en data
mining se presenta con las siguientes fases:
Figura 2. Fases de CRISP-DM
1
1.2 Objetivo
Desarrollar un proyecto basado en la ciencia de datos para mejorar sus indicadores de desempeño KPI y de ese
modo desarrollar una estrategia eficiente para la toma de decisiones.
2. Comprensión del negocio
En esta fase se identifican los objetivos a conseguir después de un estudio pormenorizado del negocio, exigencias
y necesidades del cliente. Crea un plan estratégico para alcanzar dichos objetivos con unos requerimientos de
fiabilidad y calidad mínimos. Se debe tener en cuenta la regularización y normativas de ciberseguridad y
privacidad de datos y sistemas informáticos.
En general y como base para comprender la naturaleza de la empresa, la librería pertenece a un conglomerado
de librerías EDIMISA con sus raíces principalmente en Monterrey, Nuevo León, pero con sucursales en varios
estados de la República Mexicana como lo son por ejemplo Quintana Roo y Tamaulipas.
2.1 Identificación deindicadores
Particularmente existen datos que muestran los principales KPI actuales que se utilizan los cuales una vez
estructurados y analizados correctamente van a permitir lograr el objetivo planteado. Para la identificación de los
indicadores de desempeño, se analizaron los archivos presentados, los cuales arrojaron los siguientes datos:
 El archivo “books” contiene los datos generales de cada libro existente en la librería y además menciona el
promedio de clasificación de cada libro de acuerdo a las votaciones y compras del cliente.
 El archivo “top_books” contiene el top 20 de los libros más vendidos de acuerdo a una clasificación
general.
 El archivo “ratings” contiene los datos de los libros más votados por los clientes dentro del sitio web de la
librería.
 El archivo “to_read” contiene las recomendaciones que cada cliente o usuario realiza en el sitio web sobre
libros para leer.
Tomando como base esa valiosa información por si misma se pueden determinar varios indicadores de
desempeño que aportan valor.
2.1.1 KPI. To Read.
Muestra la cantidad de libros recomendados para lectura y evalúa mensualmente a partir de los datos del archivo
“to_read”.
2.1.2 KPI. Books.
Porcentaje de libros con buena calificación con respecto al total de libros: evaluado mensualmente, a partir del
total de los datos los archivos “books” y la clasificación dada.
2.1.3 KPI. Top Books. 2
Porcentaje de libros con buena calificación con respecto al top 20 de los libros más vendidos: evaluado
quincenalmente a partir del total de datos del archivo “top_books” y la clasificación dada a los mismos.
3. Adquisiciónde datos
Los datos fueron proporcionados por la misma empresa que solicito el análisis; la información nos provee de la
información necesaria para realizar el estudio, a continuación se muestra dividida en 3 grupos:
1.- Muestra la cantidad de libros recomendados para lectura y evalúa mensualmente a partir de los datos del
archivo proporcionado.
2.- Porcentaje de libros con buena calificación con respecto al total de libros: evaluado mensualmente.
3.- Porcentaje de libros con buena calificación con respecto al top 20 de los libros más vendidos: evaluado
quincenalmente a partir del total de datos.
A continuación se muestra en general la información proporcionada:
El archivo “books” contiene los siguientes datos:
 Id - Identificador del registro
 Book Id - Identificador del libro
 Number Editions - Número de ediciones
 ISBN - Clave estándar internacional del libro
 ISBN13 - Clave estándar extendida internacional del libro
 Authors - Autor del libro
 Original Publication - Fecha de publicación
 Original Title - Título original del libro
 Title - Título del libro
 Language Code - Clave de idioma del libro
 Average Rating - Promedio de la clasificación del libro
 Image - Enlace a la imagen de la portada del libro
 Small Image - Enlace a la imagen en versión optimizada de la portada del libro.
El archivo “top_books” contiene los siguientes datos:
 Position - Posición del libro en la clasificación del libro
 ISBN - Clave estándar extendida internacional del libro
 Title - Título del libro
 Author - Autor del libro
 Imprint - Editorial
 Publisher Group - Grupo Editorial
 Volume - Volumen de ventas hasta el 2010
 Value - Ventas determinadas por el volumen
 RRP - Precio recomendado para minoristas
 ASP - Precio promedio para venta 3
 Binding - Tipo de encuadernación
 Publ Date - Fecha de publicación
 Product Class - Clasificación del libro
 Classification - Clasificación General del libro
El archivo “ratings” contiene los siguientes datos:
 Book Id - Identificador del libro
 User Id - Identificador del cliente/usuario que clasifico un libro
 Rating - Nivel de clasificación del libro.
El archivo “to_read” contiene los siguientes datos:
 User Id - Identificador del cliente/usuario que clasifico un libro
 Book Id - Identificador del libro
4. Preparaciónde datos
Se consideran los datos integrados y que serán clava para obtener buenos resultados del pronóstico, se va a
proceder a limpiar y ordenar la información para posteriormente filtrar la información a utilizar.
4.1 ¿Quéindicadores seríanlosmás importantesa determinardeacuerdoa la información
presentada?
Como se mencionó anteriormente de acuerdo a la información presentada los indicadores más relevantes son:
1.-To read. Muestra la cantidad de libros recomendados para lectura y evalúa mensualmente a partir de los datos
del archivo “to_read”.
2.-Books. Porcentaje de libros con buena calificación con respecto al total de libros: evaluado mensualmente, a
partir del total de los datos los archivos “books” y la clasificación dada.
3.-Top Books. Porcentaje de libros con buena calificación con respecto al top 20 de los libros más vendidos:
evaluado quincenalmente a partir del total de datos del archivo “top_books” y la clasificación dada a los mismos.
4.2 ¿Quétipo deanálisis sería elmásadecuado y por qué?
Un análisis descriptivo en primera instancia y para ayudar a sentar las bases de una toma de decisiones efectiva.
Este análisis tiene la finalidad de ayudar a comprender la información estructurada a través de pasos como lo son:
limpieza, orden y transformación para visualizarla de forma sencilla y amigable.
4
En una segunda instancia sería recomendable hacer proyecciones a futuro en base a los mismos datos, pero es
este caso al ser un proyecto nuevo para la empresa lo ideal es empezar con un análisis descriptivo y sobre este
hacer algunas sugerencias que ayuden como estrategia en la toma de decisiones para el negocio a futuro.
Se pueden hacer las siguientes predicciones con los datos proporcionados:
1.- Previsión de la demanda: Se realizaran estimaciones en base a datos históricos ya proporcionados por la
librería, por ejemplo con la siguiente formula: Previsión de la demanda=demanda media(Es decir, el periodo
actual)* Factor estacional
4.3 ¿Quédecisionesse podrían tomarbasadasen los descubrimientos o inferenciasdela
información analizada?
Propuesta de decisiones:
1. To read. En este indicador va a permitir identificar los elementos con tendencia de compra más
marcada que existen en la librería. Dicho indicador es de esperarse que se mantenga o aumente,
facilitando identificar los libros que los compradores o usuarios desean leer en un futuro próximo y
se esa forma tomar estrategias de venta, por ejemplo impulsándolos en redes sociales, eventos de
tardes de lectura, promociones, descuentos, 2x1, etc. En elcasoque elindicador disminuya se deben
reforzar las acciones antes mencionada para de esa manera atraer más compradores.
2. Books. Con estos datos va a permitir realizar una medición en el porcentaje de libros con una
calificación buena en cuanto a la venta. Es de esperar que este indicador aumente lo cual indica
que los elementos vendidos fueron satisfactorios para los compradores y de esa manera se puedes
definir estrategias para incrementar el consumo como por ejemplo: colocarlos en la entrada de la
librería. En el caso de que la venta disminuya o se estanque es necesario aplicar estrategias de
marketing para fortalecer ese elemento.
3. Top Books. Con este dato vamos a poder priorizar la estrategia de ventas a seguir para mejorar
aún más el flujo de ventas. Si el indicador disminuye será necesario implementar estrategias como
rotación de libros, adquisición de nuevos o por ejemplo la creación de círculos de lectura, se debe
buscar que mediante dinámicas se refuerce en caso de disminuir este dato.
5
5. Modelación
Determinar qué modelo o técnica es el más apropiado para la resolución del problema a tratar y que técnicas a
aplicar de forma consistente atendiendo a los datos que tenemos, los recursos y necesidades. Por lo general, se
puede volver a la fase anterior para trabajar con los datos y tener una entrada de los mismos, acorde a las
necesidades del modelo. En esta fase se debe crear los test de evaluación y desempeño del sistema para estudiar
la calidad y fiabilidad de los resultados obtenidos con el modelo seleccionado y los objetivos marcados .
Se propone el uso de técnicas machine learning sobre los datos proporcionados, el diseño y la construcción através
de análisis de datos y experimentos.
6. Evaluacióne Interpretación
En estasecciónse busca hacer una visualizaciónyanálisisde losdatosobtenidosysucorrespondenciasobre losobjetivos,
la fiabilidadycalidaddeseada. El modelodescriptivoseleccionadoasícomolas propuestaspredictivasrealizadas
7. Despliegue del modelo
En este apartadose visualizael conocimientoylosresultadosobtenidosyse muestranal cliente. Eneste puntodel proyecto
este modelo deberá ponerse en marcha siempre y cuando los ejecutivostengan la certeza de que les agregara el valor que
estábuscandoconel gradoeficaciaque buscan.Unavezesteseaaprobadose debende evaluarel impactorealenlosingresos
de la empresa;unavezevaluadoslosresultadosse determinasi esnecesariomejorarel modeloobiencomplementarlocon
otros indicadores o en el peor de los casos llevar a cabo otro proyecto de ciencia de datos.
8. Conclusiones
En estapráctica se realizóel análisisde un conjuntode datos estructuradosenuna organización específicaparagenerarun
modelo basado en una metodología de análisis de datos denominada CRISP-DM(Cross Industry Standard Process) el cual
mantiene un proceso estándar en seisfases que fue concebido para el desarrollo de proyectos de Data Mining (Minería de
datos),lacual busca la recolecciónyanálisisde grandesvolúmenesde datos;dichametodologíase centraenla necesidades
de compresión del negocio, también se enfatiza en la fase de identificación de fuentes de datos y la preparación y
procesamiento de los mismos, así como la necesidad de evaluar el algoritmo de extracción de conocimiento acorde a los
datos que manejamos y los objetivos marcados.
La metodología utilizada se basa en un modelo de análisis descriptivo y que se fundamenta en la limpieza, ordenamiento,
transformación, visualización de la data para transformarla en información de valor para la empresa y que le ayude con el
proceso de toma de decisiones enel futuro. Finalmente debemosrecordar que el la metodología CRISP-DMes iterativo, es
decir, que se repite por lo cual toda aquella retroalimentaciónque tengamos en la producción de esta deberá ser utilizado
como insumo para mejorar continuamente dicho modelo.
6
Referencias
Eboch, M., n.d. Data mining.
Wang, W., Pauleen, D. and Carayannis, E., n.d. Does Big Data Mean Big Knowledge? Knowledge Management
Perspectives on Big Data and Analytics.
7

Más contenido relacionado

La actualidad más candente

Proyecto individual evaluado por pares - José Ignacio Mamani Murga
Proyecto individual evaluado por pares - José Ignacio Mamani MurgaProyecto individual evaluado por pares - José Ignacio Mamani Murga
Proyecto individual evaluado por pares - José Ignacio Mamani MurgaJosé Ignacio Mamani Murga
 
Proyecto individual - Introducción a la ciencia de datos
Proyecto individual - Introducción a la ciencia de datosProyecto individual - Introducción a la ciencia de datos
Proyecto individual - Introducción a la ciencia de datosRebecaHernandez59
 
Caso ciencia de datos libreria iztaccihuatl mauricio figueroa
Caso ciencia de datos libreria iztaccihuatl mauricio figueroaCaso ciencia de datos libreria iztaccihuatl mauricio figueroa
Caso ciencia de datos libreria iztaccihuatl mauricio figueroaMauricio Figueroa Colarte
 
Bigdata visualizacion caso libreria iztaccihuatl- paola quiroz
Bigdata visualizacion caso libreria iztaccihuatl- paola quiroz Bigdata visualizacion caso libreria iztaccihuatl- paola quiroz
Bigdata visualizacion caso libreria iztaccihuatl- paola quiroz Paola Quiroz Alvarez
 
Proyecto individual
Proyecto individualProyecto individual
Proyecto individualFernandoss2
 
Practica con evaluación entre pares. Ciencia de Datos.
Practica con evaluación entre pares. Ciencia de Datos.Practica con evaluación entre pares. Ciencia de Datos.
Practica con evaluación entre pares. Ciencia de Datos.LeonardoGutierrezDal
 
Ciencia de datos
Ciencia de datosCiencia de datos
Ciencia de datosAsael Bravo
 
Herramientas para el Análisis de Big Data
 Herramientas para el Análisis de Big Data Herramientas para el Análisis de Big Data
Herramientas para el Análisis de Big DataJulio Burgos
 
Proyecto Introducción a la Ciencia de Datos - Caso de Estudio Librería
Proyecto Introducción a la Ciencia de Datos - Caso de Estudio LibreríaProyecto Introducción a la Ciencia de Datos - Caso de Estudio Librería
Proyecto Introducción a la Ciencia de Datos - Caso de Estudio LibreríaCamiloGonzlezBarrero
 
Aplicando la Ciencia de Datos en una organización
Aplicando la Ciencia de Datos en una organización Aplicando la Ciencia de Datos en una organización
Aplicando la Ciencia de Datos en una organización JenniferTorres155
 
Aplicando la ciencia de datos en una organización
Aplicando la ciencia de datos en una organizaciónAplicando la ciencia de datos en una organización
Aplicando la ciencia de datos en una organizaciónKozhayaSfeir
 
Proyecto Evaluación entre Pares
Proyecto Evaluación entre ParesProyecto Evaluación entre Pares
Proyecto Evaluación entre ParesOlgaMaraGarzaSilva
 

La actualidad más candente (19)

Trabajo entre pares
Trabajo entre paresTrabajo entre pares
Trabajo entre pares
 
Proyecto individual evaluado por pares - José Ignacio Mamani Murga
Proyecto individual evaluado por pares - José Ignacio Mamani MurgaProyecto individual evaluado por pares - José Ignacio Mamani Murga
Proyecto individual evaluado por pares - José Ignacio Mamani Murga
 
Proyecto individual - Introducción a la ciencia de datos
Proyecto individual - Introducción a la ciencia de datosProyecto individual - Introducción a la ciencia de datos
Proyecto individual - Introducción a la ciencia de datos
 
Caso ciencia de datos libreria iztaccihuatl mauricio figueroa
Caso ciencia de datos libreria iztaccihuatl mauricio figueroaCaso ciencia de datos libreria iztaccihuatl mauricio figueroa
Caso ciencia de datos libreria iztaccihuatl mauricio figueroa
 
Curso
CursoCurso
Curso
 
Bigdata visualizacion caso libreria iztaccihuatl- paola quiroz
Bigdata visualizacion caso libreria iztaccihuatl- paola quiroz Bigdata visualizacion caso libreria iztaccihuatl- paola quiroz
Bigdata visualizacion caso libreria iztaccihuatl- paola quiroz
 
Proyecto individual
Proyecto individualProyecto individual
Proyecto individual
 
Practica con evaluación entre pares. Ciencia de Datos.
Practica con evaluación entre pares. Ciencia de Datos.Practica con evaluación entre pares. Ciencia de Datos.
Practica con evaluación entre pares. Ciencia de Datos.
 
Ciencia de datos
Ciencia de datosCiencia de datos
Ciencia de datos
 
Trabajo big data
Trabajo big data Trabajo big data
Trabajo big data
 
Edx
EdxEdx
Edx
 
Biblioteca Virtual
Biblioteca VirtualBiblioteca Virtual
Biblioteca Virtual
 
Herramientas para el Análisis de Big Data
 Herramientas para el Análisis de Big Data Herramientas para el Análisis de Big Data
Herramientas para el Análisis de Big Data
 
producto integrador
producto integradorproducto integrador
producto integrador
 
Proyecto Introducción a la Ciencia de Datos - Caso de Estudio Librería
Proyecto Introducción a la Ciencia de Datos - Caso de Estudio LibreríaProyecto Introducción a la Ciencia de Datos - Caso de Estudio Librería
Proyecto Introducción a la Ciencia de Datos - Caso de Estudio Librería
 
Aplicando la Ciencia de Datos en una organización
Aplicando la Ciencia de Datos en una organización Aplicando la Ciencia de Datos en una organización
Aplicando la Ciencia de Datos en una organización
 
evaluacion por pares
evaluacion por paresevaluacion por pares
evaluacion por pares
 
Aplicando la ciencia de datos en una organización
Aplicando la ciencia de datos en una organizaciónAplicando la ciencia de datos en una organización
Aplicando la ciencia de datos en una organización
 
Proyecto Evaluación entre Pares
Proyecto Evaluación entre ParesProyecto Evaluación entre Pares
Proyecto Evaluación entre Pares
 

Similar a Ciencia de datos

Utilizando la ciencia de datos en una organización
Utilizando la ciencia de datos en una organizaciónUtilizando la ciencia de datos en una organización
Utilizando la ciencia de datos en una organizaciónDiego Farfan
 
Utilizando la ciencia de datos en una organización
Utilizando la ciencia de datos en una organizaciónUtilizando la ciencia de datos en una organización
Utilizando la ciencia de datos en una organizaciónMariaTeresaSnchezSan
 
Actividad individual big data
Actividad individual big dataActividad individual big data
Actividad individual big datacnino6
 
Práctica de evaluación entre pares
Práctica de evaluación entre paresPráctica de evaluación entre pares
Práctica de evaluación entre paresSofía Ardila
 
Bigdata Herramientas Caso Libreria Iztaccihuatl
Bigdata Herramientas Caso Libreria IztaccihuatlBigdata Herramientas Caso Libreria Iztaccihuatl
Bigdata Herramientas Caso Libreria IztaccihuatlPaola Quiroz Alvarez
 
Tarea Introducción a la ciencia de datos
Tarea Introducción a la ciencia de datosTarea Introducción a la ciencia de datos
Tarea Introducción a la ciencia de datosOlgaMaraGarzaSilva
 
Practica de metodologías para proyectos de ciencia de datos
Practica de metodologías para proyectos de ciencia de datosPractica de metodologías para proyectos de ciencia de datos
Practica de metodologías para proyectos de ciencia de datosAngelGalindoQuintero
 
Trabajo introducción a la ciencia de datos
Trabajo introducción a la ciencia de datosTrabajo introducción a la ciencia de datos
Trabajo introducción a la ciencia de datosHugoRodriguezCastill1
 
Utilizando ciencia de datos norberto andrade
Utilizando ciencia de datos norberto andradeUtilizando ciencia de datos norberto andrade
Utilizando ciencia de datos norberto andradenorbertoandrade1
 
Evaluacion entre pares - Ciencia de datos.
Evaluacion entre pares - Ciencia de datos.Evaluacion entre pares - Ciencia de datos.
Evaluacion entre pares - Ciencia de datos.HugoCastro854432
 
Big data Caso Libreria Iztaccihuatl
Big data Caso Libreria IztaccihuatlBig data Caso Libreria Iztaccihuatl
Big data Caso Libreria IztaccihuatlPaola Quiroz Alvarez
 
Actividad 1 - Jesus Axel Dominguez Rocha
Actividad 1 - Jesus Axel Dominguez RochaActividad 1 - Jesus Axel Dominguez Rocha
Actividad 1 - Jesus Axel Dominguez RochaAxelRocha3
 

Similar a Ciencia de datos (17)

Utilizando la ciencia de datos en una organización
Utilizando la ciencia de datos en una organizaciónUtilizando la ciencia de datos en una organización
Utilizando la ciencia de datos en una organización
 
Proyecto evaluado por pares
Proyecto evaluado por paresProyecto evaluado por pares
Proyecto evaluado por pares
 
Utilizando la ciencia de datos en una organización
Utilizando la ciencia de datos en una organizaciónUtilizando la ciencia de datos en una organización
Utilizando la ciencia de datos en una organización
 
Actividad individual big data
Actividad individual big dataActividad individual big data
Actividad individual big data
 
Práctica de evaluación entre pares
Práctica de evaluación entre paresPráctica de evaluación entre pares
Práctica de evaluación entre pares
 
Bigdata Herramientas Caso Libreria Iztaccihuatl
Bigdata Herramientas Caso Libreria IztaccihuatlBigdata Herramientas Caso Libreria Iztaccihuatl
Bigdata Herramientas Caso Libreria Iztaccihuatl
 
Tarea Introducción a la ciencia de datos
Tarea Introducción a la ciencia de datosTarea Introducción a la ciencia de datos
Tarea Introducción a la ciencia de datos
 
Practica para Data Analítica Descriptiva
Practica para Data Analítica DescriptivaPractica para Data Analítica Descriptiva
Practica para Data Analítica Descriptiva
 
Practica de metodologías para proyectos de ciencia de datos
Practica de metodologías para proyectos de ciencia de datosPractica de metodologías para proyectos de ciencia de datos
Practica de metodologías para proyectos de ciencia de datos
 
Ev pares
Ev paresEv pares
Ev pares
 
Tarea Visualización de datos
Tarea Visualización de datosTarea Visualización de datos
Tarea Visualización de datos
 
Trabajo introducción a la ciencia de datos
Trabajo introducción a la ciencia de datosTrabajo introducción a la ciencia de datos
Trabajo introducción a la ciencia de datos
 
Utilizando ciencia de datos norberto andrade
Utilizando ciencia de datos norberto andradeUtilizando ciencia de datos norberto andrade
Utilizando ciencia de datos norberto andrade
 
Evaluacion entre pares - Ciencia de datos.
Evaluacion entre pares - Ciencia de datos.Evaluacion entre pares - Ciencia de datos.
Evaluacion entre pares - Ciencia de datos.
 
Big data Caso Libreria Iztaccihuatl
Big data Caso Libreria IztaccihuatlBig data Caso Libreria Iztaccihuatl
Big data Caso Libreria Iztaccihuatl
 
Project.docx
Project.docxProject.docx
Project.docx
 
Actividad 1 - Jesus Axel Dominguez Rocha
Actividad 1 - Jesus Axel Dominguez RochaActividad 1 - Jesus Axel Dominguez Rocha
Actividad 1 - Jesus Axel Dominguez Rocha
 

Último

Data Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datosData Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datosssuser948499
 
SUNEDU - Superintendencia Nacional de Educación superior Universitaria
SUNEDU - Superintendencia Nacional de Educación superior UniversitariaSUNEDU - Superintendencia Nacional de Educación superior Universitaria
SUNEDU - Superintendencia Nacional de Educación superior Universitariachayananazcosimeon
 
Técnica palatina baja, anestesiología dental
Técnica palatina baja, anestesiología dentalTécnica palatina baja, anestesiología dental
Técnica palatina baja, anestesiología dentalIngrid459352
 
Las mujeres más ricas del mundo (2024).pdf
Las mujeres más ricas del mundo (2024).pdfLas mujeres más ricas del mundo (2024).pdf
Las mujeres más ricas del mundo (2024).pdfJC Díaz Herrera
 
El Teatro musical (qué es, cuál es su historia y trayectoria...)
El Teatro musical (qué es, cuál es su historia y trayectoria...)El Teatro musical (qué es, cuál es su historia y trayectoria...)
El Teatro musical (qué es, cuál es su historia y trayectoria...)estebancitoherrera
 
LA LEY DE LAS XII TABLAS en el curso de derecho
LA LEY DE LAS XII TABLAS en el curso de derechoLA LEY DE LAS XII TABLAS en el curso de derecho
LA LEY DE LAS XII TABLAS en el curso de derechojuliosabino1
 
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdfREPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdfIrapuatoCmovamos
 
2 PROCESO ESTADISTICO PARA LA INVESTIGACION.pdf
2 PROCESO ESTADISTICO PARA LA INVESTIGACION.pdf2 PROCESO ESTADISTICO PARA LA INVESTIGACION.pdf
2 PROCESO ESTADISTICO PARA LA INVESTIGACION.pdfAnaBelindaArmellonHi
 
Análisis de datos en acción: Optimizando el crecimiento de Cyclistic
Análisis de datos en acción: Optimizando el crecimiento de CyclisticAnálisis de datos en acción: Optimizando el crecimiento de Cyclistic
Análisis de datos en acción: Optimizando el crecimiento de CyclisticJamithGarcia1
 
Unidad 3 Elementos y compuestos. Física y química
Unidad 3 Elementos y compuestos. Física y químicaUnidad 3 Elementos y compuestos. Física y química
Unidad 3 Elementos y compuestos. Física y químicaSilvia García
 
bases-cye-2024(2) una sola descarga en base de feria de
bases-cye-2024(2) una sola descarga en base de feria debases-cye-2024(2) una sola descarga en base de feria de
bases-cye-2024(2) una sola descarga en base de feria deCalet Cáceres Vergara
 
Qué es un Histograma estadístico teoria y problema
Qué es un Histograma estadístico teoria y problemaQué es un Histograma estadístico teoria y problema
Qué es un Histograma estadístico teoria y problemaJoellyAlejandraRodrg
 
obras-hidraulicas.docxfffffffffffffffffff
obras-hidraulicas.docxfffffffffffffffffffobras-hidraulicas.docxfffffffffffffffffff
obras-hidraulicas.docxfffffffffffffffffffJefersonBazalloCarri1
 
PREGRADO-PRESENCIAL-FASE-C-202401 (1).pdf
PREGRADO-PRESENCIAL-FASE-C-202401 (1).pdfPREGRADO-PRESENCIAL-FASE-C-202401 (1).pdf
PREGRADO-PRESENCIAL-FASE-C-202401 (1).pdfluisccollana
 
Los artistas mexicanos con más ventas de discos en la historia (2024).pdf
Los artistas mexicanos con más ventas de discos en la historia (2024).pdfLos artistas mexicanos con más ventas de discos en la historia (2024).pdf
Los artistas mexicanos con más ventas de discos en la historia (2024).pdfJC Díaz Herrera
 
Critica 1 Grupo 10 RodrigoBenitez_GinaGadea_AlexisGonzález.pdf
Critica 1 Grupo 10 RodrigoBenitez_GinaGadea_AlexisGonzález.pdfCritica 1 Grupo 10 RodrigoBenitez_GinaGadea_AlexisGonzález.pdf
Critica 1 Grupo 10 RodrigoBenitez_GinaGadea_AlexisGonzález.pdfRodrigoBenitez38
 
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,juberrodasflores
 
Cuáles son las características biológicas que están marcadas en tu individual...
Cuáles son las características biológicas que están marcadas en tu individual...Cuáles son las características biológicas que están marcadas en tu individual...
Cuáles son las características biológicas que están marcadas en tu individual...israel garcia
 
triptico-de-las-drogas en la adolescencia
triptico-de-las-drogas en la adolescenciatriptico-de-las-drogas en la adolescencia
triptico-de-las-drogas en la adolescenciaferg6120
 
La importancia de las pruebas de producto para tu empresa
La importancia de las pruebas de producto para tu empresaLa importancia de las pruebas de producto para tu empresa
La importancia de las pruebas de producto para tu empresamerca6
 

Último (20)

Data Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datosData Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datos
 
SUNEDU - Superintendencia Nacional de Educación superior Universitaria
SUNEDU - Superintendencia Nacional de Educación superior UniversitariaSUNEDU - Superintendencia Nacional de Educación superior Universitaria
SUNEDU - Superintendencia Nacional de Educación superior Universitaria
 
Técnica palatina baja, anestesiología dental
Técnica palatina baja, anestesiología dentalTécnica palatina baja, anestesiología dental
Técnica palatina baja, anestesiología dental
 
Las mujeres más ricas del mundo (2024).pdf
Las mujeres más ricas del mundo (2024).pdfLas mujeres más ricas del mundo (2024).pdf
Las mujeres más ricas del mundo (2024).pdf
 
El Teatro musical (qué es, cuál es su historia y trayectoria...)
El Teatro musical (qué es, cuál es su historia y trayectoria...)El Teatro musical (qué es, cuál es su historia y trayectoria...)
El Teatro musical (qué es, cuál es su historia y trayectoria...)
 
LA LEY DE LAS XII TABLAS en el curso de derecho
LA LEY DE LAS XII TABLAS en el curso de derechoLA LEY DE LAS XII TABLAS en el curso de derecho
LA LEY DE LAS XII TABLAS en el curso de derecho
 
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdfREPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
 
2 PROCESO ESTADISTICO PARA LA INVESTIGACION.pdf
2 PROCESO ESTADISTICO PARA LA INVESTIGACION.pdf2 PROCESO ESTADISTICO PARA LA INVESTIGACION.pdf
2 PROCESO ESTADISTICO PARA LA INVESTIGACION.pdf
 
Análisis de datos en acción: Optimizando el crecimiento de Cyclistic
Análisis de datos en acción: Optimizando el crecimiento de CyclisticAnálisis de datos en acción: Optimizando el crecimiento de Cyclistic
Análisis de datos en acción: Optimizando el crecimiento de Cyclistic
 
Unidad 3 Elementos y compuestos. Física y química
Unidad 3 Elementos y compuestos. Física y químicaUnidad 3 Elementos y compuestos. Física y química
Unidad 3 Elementos y compuestos. Física y química
 
bases-cye-2024(2) una sola descarga en base de feria de
bases-cye-2024(2) una sola descarga en base de feria debases-cye-2024(2) una sola descarga en base de feria de
bases-cye-2024(2) una sola descarga en base de feria de
 
Qué es un Histograma estadístico teoria y problema
Qué es un Histograma estadístico teoria y problemaQué es un Histograma estadístico teoria y problema
Qué es un Histograma estadístico teoria y problema
 
obras-hidraulicas.docxfffffffffffffffffff
obras-hidraulicas.docxfffffffffffffffffffobras-hidraulicas.docxfffffffffffffffffff
obras-hidraulicas.docxfffffffffffffffffff
 
PREGRADO-PRESENCIAL-FASE-C-202401 (1).pdf
PREGRADO-PRESENCIAL-FASE-C-202401 (1).pdfPREGRADO-PRESENCIAL-FASE-C-202401 (1).pdf
PREGRADO-PRESENCIAL-FASE-C-202401 (1).pdf
 
Los artistas mexicanos con más ventas de discos en la historia (2024).pdf
Los artistas mexicanos con más ventas de discos en la historia (2024).pdfLos artistas mexicanos con más ventas de discos en la historia (2024).pdf
Los artistas mexicanos con más ventas de discos en la historia (2024).pdf
 
Critica 1 Grupo 10 RodrigoBenitez_GinaGadea_AlexisGonzález.pdf
Critica 1 Grupo 10 RodrigoBenitez_GinaGadea_AlexisGonzález.pdfCritica 1 Grupo 10 RodrigoBenitez_GinaGadea_AlexisGonzález.pdf
Critica 1 Grupo 10 RodrigoBenitez_GinaGadea_AlexisGonzález.pdf
 
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,
 
Cuáles son las características biológicas que están marcadas en tu individual...
Cuáles son las características biológicas que están marcadas en tu individual...Cuáles son las características biológicas que están marcadas en tu individual...
Cuáles son las características biológicas que están marcadas en tu individual...
 
triptico-de-las-drogas en la adolescencia
triptico-de-las-drogas en la adolescenciatriptico-de-las-drogas en la adolescencia
triptico-de-las-drogas en la adolescencia
 
La importancia de las pruebas de producto para tu empresa
La importancia de las pruebas de producto para tu empresaLa importancia de las pruebas de producto para tu empresa
La importancia de las pruebas de producto para tu empresa
 

Ciencia de datos

  • 1. Utilizando la Ciencia de Datos en una Organización Librería Iztaccíhuatl Curso de Introducción a la Ciencia de Datos y el Big Data Autor: Ing. Alejandro Hinojosa Medina alexhim4@gmail.com
  • 2. INDICE 1.-Introduccion…………………………………………………………………………………………………………………………………………………………….1 1.1 Justificacióndeltipode análisis……………………………………………………………………………………………………………………………..1 2.-Comprensiondelnegocio………………………………………………………………………………………………………………………………………..2 2.1.- Identificaciónde Indicadores……………………………………………………………………………………………………………………………….2 2.1.1 KPI………………………………………………………………………………………………………………………………………………………………………2 2.1.2 KPI………………………………………………………………………………………………………………………………………………………………………2 2.1.3 KPI………………………………………………………………………………………………………………………………………………………………………2 2.2 Situaciónpresente…………………………………………………………………………………………………………………………………………………2 3.- Adquisiciónde datos……………………………………………………………………………………………………………………………………...........2 4.- Preparaciónde datos……………………………………………………………………………………………………………………………………………..4 4.1 ¿Qué indicadores serían los más importantes a determinar de acuerdo a la información presentada?...4 4.2 ¿Qué tipo de análisis sería el más adecuado y por qué?............................................................................4 4.3 ¿Qué decisiones se podrían tomar basadas en los descubrimientos o inferencias de la información analizada?..................................................................................................................................................5 5.- Modelación……………………………………………………………………………………………………………………………………………………………5 6.- Evaluacióne Interpretación…………………………………………………………………………………………………………………………………..6 7.- Despliegue del Modelo………………………………………………………………………………………………………………………………………….6 7.1 Propuestade para laempresa……………………………………………………………………………………………………………………………..6 8.- Operaciones………………………………………………………………………………………………………………………………………………………….6 8.1 ConclusionesyResumende propuestaspresentadasenlaempresa……………………………………………………………………6
  • 3. 1. Introducción La librería Iztaccíhuatl se ubica en la ciudad de Monterrey, Nuevo León, México. La empresa tiene como objetivo desarrollar un proyecto de ciencia de datos para de esa forma poder mejorar sus indicadores clave de desempeño (KPIs) y de ese modo desarrollar una estrategia en la toma de decisiones que sea efectiva y que contribuya al crecimiento tanto del ingreso económico como también del desempeño y desarrollo integral de todos sus colaboradores. Figura 1. Ubicación de Librería Iztaccíhuatl 1.1 Justificacióndeltipodeanálisis En base a los datos presentados se determinó el tipo de análisis a realizar. Mediante un modelo de análisis descriptivo se tomara la información histórica de la empresa ha recolectado y de esa manera de limpiar, ordenara y se trasformara de manera que la empresa pueda realizar una toma de decisiones con claridad. Se tomara como base de apoyo la metodología CRISP-DM (Cross Industry Standard Process) utilizada en data mining se presenta con las siguientes fases: Figura 2. Fases de CRISP-DM 1
  • 4. 1.2 Objetivo Desarrollar un proyecto basado en la ciencia de datos para mejorar sus indicadores de desempeño KPI y de ese modo desarrollar una estrategia eficiente para la toma de decisiones. 2. Comprensión del negocio En esta fase se identifican los objetivos a conseguir después de un estudio pormenorizado del negocio, exigencias y necesidades del cliente. Crea un plan estratégico para alcanzar dichos objetivos con unos requerimientos de fiabilidad y calidad mínimos. Se debe tener en cuenta la regularización y normativas de ciberseguridad y privacidad de datos y sistemas informáticos. En general y como base para comprender la naturaleza de la empresa, la librería pertenece a un conglomerado de librerías EDIMISA con sus raíces principalmente en Monterrey, Nuevo León, pero con sucursales en varios estados de la República Mexicana como lo son por ejemplo Quintana Roo y Tamaulipas. 2.1 Identificación deindicadores Particularmente existen datos que muestran los principales KPI actuales que se utilizan los cuales una vez estructurados y analizados correctamente van a permitir lograr el objetivo planteado. Para la identificación de los indicadores de desempeño, se analizaron los archivos presentados, los cuales arrojaron los siguientes datos:  El archivo “books” contiene los datos generales de cada libro existente en la librería y además menciona el promedio de clasificación de cada libro de acuerdo a las votaciones y compras del cliente.  El archivo “top_books” contiene el top 20 de los libros más vendidos de acuerdo a una clasificación general.  El archivo “ratings” contiene los datos de los libros más votados por los clientes dentro del sitio web de la librería.  El archivo “to_read” contiene las recomendaciones que cada cliente o usuario realiza en el sitio web sobre libros para leer. Tomando como base esa valiosa información por si misma se pueden determinar varios indicadores de desempeño que aportan valor. 2.1.1 KPI. To Read. Muestra la cantidad de libros recomendados para lectura y evalúa mensualmente a partir de los datos del archivo “to_read”. 2.1.2 KPI. Books. Porcentaje de libros con buena calificación con respecto al total de libros: evaluado mensualmente, a partir del total de los datos los archivos “books” y la clasificación dada. 2.1.3 KPI. Top Books. 2
  • 5. Porcentaje de libros con buena calificación con respecto al top 20 de los libros más vendidos: evaluado quincenalmente a partir del total de datos del archivo “top_books” y la clasificación dada a los mismos. 3. Adquisiciónde datos Los datos fueron proporcionados por la misma empresa que solicito el análisis; la información nos provee de la información necesaria para realizar el estudio, a continuación se muestra dividida en 3 grupos: 1.- Muestra la cantidad de libros recomendados para lectura y evalúa mensualmente a partir de los datos del archivo proporcionado. 2.- Porcentaje de libros con buena calificación con respecto al total de libros: evaluado mensualmente. 3.- Porcentaje de libros con buena calificación con respecto al top 20 de los libros más vendidos: evaluado quincenalmente a partir del total de datos. A continuación se muestra en general la información proporcionada: El archivo “books” contiene los siguientes datos:  Id - Identificador del registro  Book Id - Identificador del libro  Number Editions - Número de ediciones  ISBN - Clave estándar internacional del libro  ISBN13 - Clave estándar extendida internacional del libro  Authors - Autor del libro  Original Publication - Fecha de publicación  Original Title - Título original del libro  Title - Título del libro  Language Code - Clave de idioma del libro  Average Rating - Promedio de la clasificación del libro  Image - Enlace a la imagen de la portada del libro  Small Image - Enlace a la imagen en versión optimizada de la portada del libro. El archivo “top_books” contiene los siguientes datos:  Position - Posición del libro en la clasificación del libro  ISBN - Clave estándar extendida internacional del libro  Title - Título del libro  Author - Autor del libro  Imprint - Editorial  Publisher Group - Grupo Editorial  Volume - Volumen de ventas hasta el 2010  Value - Ventas determinadas por el volumen  RRP - Precio recomendado para minoristas  ASP - Precio promedio para venta 3
  • 6.  Binding - Tipo de encuadernación  Publ Date - Fecha de publicación  Product Class - Clasificación del libro  Classification - Clasificación General del libro El archivo “ratings” contiene los siguientes datos:  Book Id - Identificador del libro  User Id - Identificador del cliente/usuario que clasifico un libro  Rating - Nivel de clasificación del libro. El archivo “to_read” contiene los siguientes datos:  User Id - Identificador del cliente/usuario que clasifico un libro  Book Id - Identificador del libro 4. Preparaciónde datos Se consideran los datos integrados y que serán clava para obtener buenos resultados del pronóstico, se va a proceder a limpiar y ordenar la información para posteriormente filtrar la información a utilizar. 4.1 ¿Quéindicadores seríanlosmás importantesa determinardeacuerdoa la información presentada? Como se mencionó anteriormente de acuerdo a la información presentada los indicadores más relevantes son: 1.-To read. Muestra la cantidad de libros recomendados para lectura y evalúa mensualmente a partir de los datos del archivo “to_read”. 2.-Books. Porcentaje de libros con buena calificación con respecto al total de libros: evaluado mensualmente, a partir del total de los datos los archivos “books” y la clasificación dada. 3.-Top Books. Porcentaje de libros con buena calificación con respecto al top 20 de los libros más vendidos: evaluado quincenalmente a partir del total de datos del archivo “top_books” y la clasificación dada a los mismos. 4.2 ¿Quétipo deanálisis sería elmásadecuado y por qué? Un análisis descriptivo en primera instancia y para ayudar a sentar las bases de una toma de decisiones efectiva. Este análisis tiene la finalidad de ayudar a comprender la información estructurada a través de pasos como lo son: limpieza, orden y transformación para visualizarla de forma sencilla y amigable. 4
  • 7. En una segunda instancia sería recomendable hacer proyecciones a futuro en base a los mismos datos, pero es este caso al ser un proyecto nuevo para la empresa lo ideal es empezar con un análisis descriptivo y sobre este hacer algunas sugerencias que ayuden como estrategia en la toma de decisiones para el negocio a futuro. Se pueden hacer las siguientes predicciones con los datos proporcionados: 1.- Previsión de la demanda: Se realizaran estimaciones en base a datos históricos ya proporcionados por la librería, por ejemplo con la siguiente formula: Previsión de la demanda=demanda media(Es decir, el periodo actual)* Factor estacional 4.3 ¿Quédecisionesse podrían tomarbasadasen los descubrimientos o inferenciasdela información analizada? Propuesta de decisiones: 1. To read. En este indicador va a permitir identificar los elementos con tendencia de compra más marcada que existen en la librería. Dicho indicador es de esperarse que se mantenga o aumente, facilitando identificar los libros que los compradores o usuarios desean leer en un futuro próximo y se esa forma tomar estrategias de venta, por ejemplo impulsándolos en redes sociales, eventos de tardes de lectura, promociones, descuentos, 2x1, etc. En elcasoque elindicador disminuya se deben reforzar las acciones antes mencionada para de esa manera atraer más compradores. 2. Books. Con estos datos va a permitir realizar una medición en el porcentaje de libros con una calificación buena en cuanto a la venta. Es de esperar que este indicador aumente lo cual indica que los elementos vendidos fueron satisfactorios para los compradores y de esa manera se puedes definir estrategias para incrementar el consumo como por ejemplo: colocarlos en la entrada de la librería. En el caso de que la venta disminuya o se estanque es necesario aplicar estrategias de marketing para fortalecer ese elemento. 3. Top Books. Con este dato vamos a poder priorizar la estrategia de ventas a seguir para mejorar aún más el flujo de ventas. Si el indicador disminuye será necesario implementar estrategias como rotación de libros, adquisición de nuevos o por ejemplo la creación de círculos de lectura, se debe buscar que mediante dinámicas se refuerce en caso de disminuir este dato. 5
  • 8. 5. Modelación Determinar qué modelo o técnica es el más apropiado para la resolución del problema a tratar y que técnicas a aplicar de forma consistente atendiendo a los datos que tenemos, los recursos y necesidades. Por lo general, se puede volver a la fase anterior para trabajar con los datos y tener una entrada de los mismos, acorde a las necesidades del modelo. En esta fase se debe crear los test de evaluación y desempeño del sistema para estudiar la calidad y fiabilidad de los resultados obtenidos con el modelo seleccionado y los objetivos marcados . Se propone el uso de técnicas machine learning sobre los datos proporcionados, el diseño y la construcción através de análisis de datos y experimentos. 6. Evaluacióne Interpretación En estasecciónse busca hacer una visualizaciónyanálisisde losdatosobtenidosysucorrespondenciasobre losobjetivos, la fiabilidadycalidaddeseada. El modelodescriptivoseleccionadoasícomolas propuestaspredictivasrealizadas 7. Despliegue del modelo En este apartadose visualizael conocimientoylosresultadosobtenidosyse muestranal cliente. Eneste puntodel proyecto este modelo deberá ponerse en marcha siempre y cuando los ejecutivostengan la certeza de que les agregara el valor que estábuscandoconel gradoeficaciaque buscan.Unavezesteseaaprobadose debende evaluarel impactorealenlosingresos de la empresa;unavezevaluadoslosresultadosse determinasi esnecesariomejorarel modeloobiencomplementarlocon otros indicadores o en el peor de los casos llevar a cabo otro proyecto de ciencia de datos. 8. Conclusiones En estapráctica se realizóel análisisde un conjuntode datos estructuradosenuna organización específicaparagenerarun modelo basado en una metodología de análisis de datos denominada CRISP-DM(Cross Industry Standard Process) el cual mantiene un proceso estándar en seisfases que fue concebido para el desarrollo de proyectos de Data Mining (Minería de datos),lacual busca la recolecciónyanálisisde grandesvolúmenesde datos;dichametodologíase centraenla necesidades de compresión del negocio, también se enfatiza en la fase de identificación de fuentes de datos y la preparación y procesamiento de los mismos, así como la necesidad de evaluar el algoritmo de extracción de conocimiento acorde a los datos que manejamos y los objetivos marcados. La metodología utilizada se basa en un modelo de análisis descriptivo y que se fundamenta en la limpieza, ordenamiento, transformación, visualización de la data para transformarla en información de valor para la empresa y que le ayude con el proceso de toma de decisiones enel futuro. Finalmente debemosrecordar que el la metodología CRISP-DMes iterativo, es decir, que se repite por lo cual toda aquella retroalimentaciónque tengamos en la producción de esta deberá ser utilizado como insumo para mejorar continuamente dicho modelo. 6
  • 9. Referencias Eboch, M., n.d. Data mining. Wang, W., Pauleen, D. and Carayannis, E., n.d. Does Big Data Mean Big Knowledge? Knowledge Management Perspectives on Big Data and Analytics. 7