SlideShare una empresa de Scribd logo
1 de 7
Descargar para leer sin conexión
Aplicando la
Ciencia de Datos
en una
Organización
Fernando Aguada Mayo,2020
Indice
Introducción............................................................3
Herramientas y Servicios................................................4
Adecuaciones de los datos...............................................5
Predicciones............................................................6
Conclusiones............................................................7
Introducción
La Librería Iztaccihuatl ubicada en la ciudad de Monterrey, Nuevo León, México ha decidido
desarrollar un proyecto basado en ciencia de datos para mejorar sus indicadores de desempeño
(KPI’s) y a la vez desarrollar una mejor estrategia en la toma de decisiones.
El presente trabajo tiene los siguientes objetivos:
1. Identificar las herramientas y servicios necesarios.
2. Predicciones a las que se puede llegar.
3. Conclusiones
Con el fin de desarrollar un modelo basado en Ciencia de Datos para el apoyo a la toma de
decisiones para una organización.
3
Herramientas y Servicios
Como lenguaje de programación optamos por Python, aunque R goza de muy buenos paquetes
para fines estadísticos y análisis de datos, a nuestro criterio, Python es una mejor alternativa,
porque es un lenguaje que posee capacidades similares, si bien no tan buena gama de
librerías/paquetes con fines estadísticos, pero cuenta con un par de ventajas adicionales:
• Es un lenguaje de propósito general
• Tiene una curva de aprendizaje no demasiado empinada y ademas existe gran cantidad de
recursos gratuitos y de fácil acceso.
• Sus paquetes para graficas y matemáticas son casi tan buenos como los del lenguaje R.
Como base de datos, nuestra elección recae en una de tipo relacional, mas especificamente
Postgresql, porque contamos con esquema muy detallado de la información a almacenar.
Dentro de la amplia oferta de servicios en la nube que se encuentran, la elección recae en AWS, por
varios motivos:
• Funciona bajo el esquema SaS (Software como servicio) y los costos varian de acuerdo al
grado de uso.
• Brinda la posibilidad de implementar las bases de datos relacionales mas populares del
mercado (Postgresql, MySql, SQLServer), asi como de bases de datos no relacionales
(MongoDB)
• Cuenta con una amplia y muy buena documentación.
Adecuaciones de los datos
Del estudio de los archivos, considero que es necesario agregar la siguiente información:
Al archivo ratings, la fecha en que el usuario/cliente realizo la valoración, de esta manera se puede
tener una perspectiva mas certera de como evoluciona mes a mes, semana a semana, año tras año,
esta valoración.
Al archivo to_read, también agregar la fecha en que el usuario/cliente hizo el comentario, al igual
que en el archivo ratings, para lograr una apreciación mas exacta.
Crear un nuevo archivo, book_vendidos, que posea la siguiente estructura:
• Book_id - Identificador del libro
• Fecha - Fecha de la Factura en que se concreto la operación.
• Cantidad – Cantidad vendida
• Precio
Contar con el archivo correspondiente a las ventas de los libros, nos permite elaborar mas y
mejores predicciones.
5
Predicciones
A partir del estudio de los datos concluyo que se pueden hacer las siguientes predicciones:
1. Predecir los libros mas vendidos a partir de los libros mas recomendados: estimando el
coeficiente de correlación que existe entre las variables correspondientes a los libros mas
recomendados y los libros mas vendidos ,se puede obtener como resultado la “fuerza” y el
“sentido” de la relación entre estas variables y a partir de alli podemos predecir cuales serán
los libros mas vendidos y cuales no, en función de las recomendaciones que realizan los
usuarios/clientes.
2. Predecir los libros mas vendidos a partir de los libros mas votados: calculando el grado
de correlación entre las variables, libros mas votados y libros mas vendidos podemos
determinar la fuerza y sentido de la relación entre estas dos y luego podemos predecir los
libros mas vendidos de acuerdo a los votos que los clientes/usuarios hacen de los libros.
3. Predecir el volumen de ventas de un libro por año y/o por mes:
Estimando el grado de correlación que existe entre los libros vendidos (book_vendidos) y los
libros votados y recomendados, es posible predecir el volumen de ventas de cada libro,
mes por mes, año por año con mayor exactitud.
Conclusiones
Una vez hechos los cambios en las tablas, agregada la fecha en que cada cliente/usuario, realiza un
comentario y/o votación y creada la tabla book_vendidos, no sera posible determinar el grado de
correlación que existe entre las votaciones, comentarios y las ventas de libros por mes y por año y
no caer en falsas conclusiones, y esto debido a que las votaciones y/o comentarios, pueden estar
influenciados por información demasiado antigua y que no refleje lo que sucede en el momento
actual.
También a partir de la información de la venta de cada libro, podremos predecir el volumen de las
ventas de los mismos, a partir de estimar el grado de correlación existente entre los libros mas
votados, libros mas recomendados y las ventas efectivas.
Contar con esta información, hara posible realizar de manera mucho mas eficiente u optima el
proceso y el volumen de adquisición de los libros, evitando comprar aquellos que sabremos que
tendrán una demanda muy escasa.
Como todo modelo de datos, necesita del seguimiento, para validar los resultados y las
expectativas y hacer las correcciones que surjan de tal análisis.
7

Más contenido relacionado

Similar a Aplicando La Ciencia de Datos en Una Organizacion

Práctica de evaluación entre pares
Práctica de evaluación entre paresPráctica de evaluación entre pares
Práctica de evaluación entre pares
Sofía Ardila
 

Similar a Aplicando La Ciencia de Datos en Una Organizacion (20)

Proyecto evaluado por pares
Proyecto evaluado por paresProyecto evaluado por pares
Proyecto evaluado por pares
 
Aplicación de La ciencia de datos en una Organización
Aplicación de La ciencia de datos en una OrganizaciónAplicación de La ciencia de datos en una Organización
Aplicación de La ciencia de datos en una Organización
 
Práctica de evaluación entre pares
Práctica de evaluación entre paresPráctica de evaluación entre pares
Práctica de evaluación entre pares
 
Tarea Visualización de datos
Tarea Visualización de datosTarea Visualización de datos
Tarea Visualización de datos
 
Introducción a la ciencia de datos y el bg data
Introducción a la ciencia de datos y el bg data Introducción a la ciencia de datos y el bg data
Introducción a la ciencia de datos y el bg data
 
Trabajo de pares
Trabajo de paresTrabajo de pares
Trabajo de pares
 
Proyecto individual evaluado por pares - José Ignacio Mamani Murga
Proyecto individual evaluado por pares - José Ignacio Mamani MurgaProyecto individual evaluado por pares - José Ignacio Mamani Murga
Proyecto individual evaluado por pares - José Ignacio Mamani Murga
 
Tarea Introducción a la ciencia de datos
Tarea Introducción a la ciencia de datosTarea Introducción a la ciencia de datos
Tarea Introducción a la ciencia de datos
 
Ciencia de datos
Ciencia de datosCiencia de datos
Ciencia de datos
 
Proyecto individual
Proyecto individualProyecto individual
Proyecto individual
 
Proyecto Evaluación entre Pares
Proyecto Evaluación entre ParesProyecto Evaluación entre Pares
Proyecto Evaluación entre Pares
 
3 Visualización de Datos y Storytelling.pdf
3 Visualización de Datos y Storytelling.pdf3 Visualización de Datos y Storytelling.pdf
3 Visualización de Datos y Storytelling.pdf
 
Evaluacion entre pares - Ciencia de datos.
Evaluacion entre pares - Ciencia de datos.Evaluacion entre pares - Ciencia de datos.
Evaluacion entre pares - Ciencia de datos.
 
Reporte_practica_2.pdf
Reporte_practica_2.pdfReporte_practica_2.pdf
Reporte_practica_2.pdf
 
edx caso.docx
edx caso.docxedx caso.docx
edx caso.docx
 
Proy eval de pares Jhardena Yauri
Proy eval de pares Jhardena YauriProy eval de pares Jhardena Yauri
Proy eval de pares Jhardena Yauri
 
Proyecto individual - Introducción a la ciencia de datos
Proyecto individual - Introducción a la ciencia de datosProyecto individual - Introducción a la ciencia de datos
Proyecto individual - Introducción a la ciencia de datos
 
Propuesta PROYECTO Iztaccíhuatl
Propuesta PROYECTO IztaccíhuatlPropuesta PROYECTO Iztaccíhuatl
Propuesta PROYECTO Iztaccíhuatl
 
Actividad 1 - Jesus Axel Dominguez Rocha
Actividad 1 - Jesus Axel Dominguez RochaActividad 1 - Jesus Axel Dominguez Rocha
Actividad 1 - Jesus Axel Dominguez Rocha
 
Big data Caso Libreria Iztaccihuatl
Big data Caso Libreria IztaccihuatlBig data Caso Libreria Iztaccihuatl
Big data Caso Libreria Iztaccihuatl
 

Último

PLAN ANUAL DE PROYECTO 2020. para mejorar
PLAN ANUAL DE PROYECTO 2020. para mejorarPLAN ANUAL DE PROYECTO 2020. para mejorar
PLAN ANUAL DE PROYECTO 2020. para mejorar
CelesteRolon2
 
Letra de cambio definición y características.ppt
Letra de cambio definición y características.pptLetra de cambio definición y características.ppt
Letra de cambio definición y características.ppt
ssuserbdc329
 

Último (20)

COMUNICADO PARA TODO TIPO DE REUNIONES .
COMUNICADO PARA TODO TIPO DE REUNIONES .COMUNICADO PARA TODO TIPO DE REUNIONES .
COMUNICADO PARA TODO TIPO DE REUNIONES .
 
Cesar Vilchis Vieyra Cesar Vilchis Vieyra
Cesar Vilchis Vieyra  Cesar Vilchis VieyraCesar Vilchis Vieyra  Cesar Vilchis Vieyra
Cesar Vilchis Vieyra Cesar Vilchis Vieyra
 
Evolución de la fortuna de la familia Slim (1994-2024).pdf
Evolución de la fortuna de la familia Slim (1994-2024).pdfEvolución de la fortuna de la familia Slim (1994-2024).pdf
Evolución de la fortuna de la familia Slim (1994-2024).pdf
 
Industria musical de EUA vs Industria musical Corea del Sur (2024).pdf
Industria musical de EUA vs Industria musical Corea del Sur (2024).pdfIndustria musical de EUA vs Industria musical Corea del Sur (2024).pdf
Industria musical de EUA vs Industria musical Corea del Sur (2024).pdf
 
PIB PERÚ datos y análisis de los últimos años
PIB PERÚ datos y análisis de los últimos añosPIB PERÚ datos y análisis de los últimos años
PIB PERÚ datos y análisis de los últimos años
 
La Guerra Biologica - Emiliano Paico Vilchez.pdf
La Guerra Biologica - Emiliano Paico Vilchez.pdfLa Guerra Biologica - Emiliano Paico Vilchez.pdf
La Guerra Biologica - Emiliano Paico Vilchez.pdf
 
Análisis de datos en acción: Optimizando el crecimiento de Cyclistic
Análisis de datos en acción: Optimizando el crecimiento de CyclisticAnálisis de datos en acción: Optimizando el crecimiento de Cyclistic
Análisis de datos en acción: Optimizando el crecimiento de Cyclistic
 
variables-estadisticas. Presentación powerpoint
variables-estadisticas. Presentación powerpointvariables-estadisticas. Presentación powerpoint
variables-estadisticas. Presentación powerpoint
 
AMNIOS Y CORDON UMBILICAL en el 3 embarazo (1).docx
AMNIOS Y CORDON UMBILICAL en el 3 embarazo (1).docxAMNIOS Y CORDON UMBILICAL en el 3 embarazo (1).docx
AMNIOS Y CORDON UMBILICAL en el 3 embarazo (1).docx
 
Los primeros 60 países por IDH en el año (2024).pdf
Los primeros 60 países por IDH en el año (2024).pdfLos primeros 60 países por IDH en el año (2024).pdf
Los primeros 60 países por IDH en el año (2024).pdf
 
Las marcas automotrices con más ventas de vehículos (2024).pdf
Las marcas automotrices con más ventas de vehículos (2024).pdfLas marcas automotrices con más ventas de vehículos (2024).pdf
Las marcas automotrices con más ventas de vehículos (2024).pdf
 
diseño de una linea de produccion de jabon liquido.pptx
diseño de una linea de produccion de jabon liquido.pptxdiseño de una linea de produccion de jabon liquido.pptx
diseño de una linea de produccion de jabon liquido.pptx
 
PLAN ANUAL DE PROYECTO 2020. para mejorar
PLAN ANUAL DE PROYECTO 2020. para mejorarPLAN ANUAL DE PROYECTO 2020. para mejorar
PLAN ANUAL DE PROYECTO 2020. para mejorar
 
Los países por porcentaje de población blanca europea en AL (2024).pdf
Los países por porcentaje de población blanca europea en AL (2024).pdfLos países por porcentaje de población blanca europea en AL (2024).pdf
Los países por porcentaje de población blanca europea en AL (2024).pdf
 
Letra de cambio definición y características.ppt
Letra de cambio definición y características.pptLetra de cambio definición y características.ppt
Letra de cambio definición y características.ppt
 
Principales Retos Demográficos de Puerto Rico
Principales Retos Demográficos de Puerto RicoPrincipales Retos Demográficos de Puerto Rico
Principales Retos Demográficos de Puerto Rico
 
Investigacion cualitativa y cuantitativa....pdf
Investigacion cualitativa y cuantitativa....pdfInvestigacion cualitativa y cuantitativa....pdf
Investigacion cualitativa y cuantitativa....pdf
 
EXPOSICION. PROCEOS SAW SEMIATUMATIZADO,
EXPOSICION. PROCEOS SAW SEMIATUMATIZADO,EXPOSICION. PROCEOS SAW SEMIATUMATIZADO,
EXPOSICION. PROCEOS SAW SEMIATUMATIZADO,
 
Las familias más ricas de África en el año (2024).pdf
Las familias más ricas de África en el año (2024).pdfLas familias más ricas de África en el año (2024).pdf
Las familias más ricas de África en el año (2024).pdf
 
Porcentaje de población blanca europea en Europa Occidental (1923-2024).pdf
Porcentaje de población blanca europea en Europa Occidental (1923-2024).pdfPorcentaje de población blanca europea en Europa Occidental (1923-2024).pdf
Porcentaje de población blanca europea en Europa Occidental (1923-2024).pdf
 

Aplicando La Ciencia de Datos en Una Organizacion

  • 1. Aplicando la Ciencia de Datos en una Organización Fernando Aguada Mayo,2020
  • 2. Indice Introducción............................................................3 Herramientas y Servicios................................................4 Adecuaciones de los datos...............................................5 Predicciones............................................................6 Conclusiones............................................................7
  • 3. Introducción La Librería Iztaccihuatl ubicada en la ciudad de Monterrey, Nuevo León, México ha decidido desarrollar un proyecto basado en ciencia de datos para mejorar sus indicadores de desempeño (KPI’s) y a la vez desarrollar una mejor estrategia en la toma de decisiones. El presente trabajo tiene los siguientes objetivos: 1. Identificar las herramientas y servicios necesarios. 2. Predicciones a las que se puede llegar. 3. Conclusiones Con el fin de desarrollar un modelo basado en Ciencia de Datos para el apoyo a la toma de decisiones para una organización. 3
  • 4. Herramientas y Servicios Como lenguaje de programación optamos por Python, aunque R goza de muy buenos paquetes para fines estadísticos y análisis de datos, a nuestro criterio, Python es una mejor alternativa, porque es un lenguaje que posee capacidades similares, si bien no tan buena gama de librerías/paquetes con fines estadísticos, pero cuenta con un par de ventajas adicionales: • Es un lenguaje de propósito general • Tiene una curva de aprendizaje no demasiado empinada y ademas existe gran cantidad de recursos gratuitos y de fácil acceso. • Sus paquetes para graficas y matemáticas son casi tan buenos como los del lenguaje R. Como base de datos, nuestra elección recae en una de tipo relacional, mas especificamente Postgresql, porque contamos con esquema muy detallado de la información a almacenar. Dentro de la amplia oferta de servicios en la nube que se encuentran, la elección recae en AWS, por varios motivos: • Funciona bajo el esquema SaS (Software como servicio) y los costos varian de acuerdo al grado de uso. • Brinda la posibilidad de implementar las bases de datos relacionales mas populares del mercado (Postgresql, MySql, SQLServer), asi como de bases de datos no relacionales (MongoDB) • Cuenta con una amplia y muy buena documentación.
  • 5. Adecuaciones de los datos Del estudio de los archivos, considero que es necesario agregar la siguiente información: Al archivo ratings, la fecha en que el usuario/cliente realizo la valoración, de esta manera se puede tener una perspectiva mas certera de como evoluciona mes a mes, semana a semana, año tras año, esta valoración. Al archivo to_read, también agregar la fecha en que el usuario/cliente hizo el comentario, al igual que en el archivo ratings, para lograr una apreciación mas exacta. Crear un nuevo archivo, book_vendidos, que posea la siguiente estructura: • Book_id - Identificador del libro • Fecha - Fecha de la Factura en que se concreto la operación. • Cantidad – Cantidad vendida • Precio Contar con el archivo correspondiente a las ventas de los libros, nos permite elaborar mas y mejores predicciones. 5
  • 6. Predicciones A partir del estudio de los datos concluyo que se pueden hacer las siguientes predicciones: 1. Predecir los libros mas vendidos a partir de los libros mas recomendados: estimando el coeficiente de correlación que existe entre las variables correspondientes a los libros mas recomendados y los libros mas vendidos ,se puede obtener como resultado la “fuerza” y el “sentido” de la relación entre estas variables y a partir de alli podemos predecir cuales serán los libros mas vendidos y cuales no, en función de las recomendaciones que realizan los usuarios/clientes. 2. Predecir los libros mas vendidos a partir de los libros mas votados: calculando el grado de correlación entre las variables, libros mas votados y libros mas vendidos podemos determinar la fuerza y sentido de la relación entre estas dos y luego podemos predecir los libros mas vendidos de acuerdo a los votos que los clientes/usuarios hacen de los libros. 3. Predecir el volumen de ventas de un libro por año y/o por mes: Estimando el grado de correlación que existe entre los libros vendidos (book_vendidos) y los libros votados y recomendados, es posible predecir el volumen de ventas de cada libro, mes por mes, año por año con mayor exactitud.
  • 7. Conclusiones Una vez hechos los cambios en las tablas, agregada la fecha en que cada cliente/usuario, realiza un comentario y/o votación y creada la tabla book_vendidos, no sera posible determinar el grado de correlación que existe entre las votaciones, comentarios y las ventas de libros por mes y por año y no caer en falsas conclusiones, y esto debido a que las votaciones y/o comentarios, pueden estar influenciados por información demasiado antigua y que no refleje lo que sucede en el momento actual. También a partir de la información de la venta de cada libro, podremos predecir el volumen de las ventas de los mismos, a partir de estimar el grado de correlación existente entre los libros mas votados, libros mas recomendados y las ventas efectivas. Contar con esta información, hara posible realizar de manera mucho mas eficiente u optima el proceso y el volumen de adquisición de los libros, evitando comprar aquellos que sabremos que tendrán una demanda muy escasa. Como todo modelo de datos, necesita del seguimiento, para validar los resultados y las expectativas y hacer las correcciones que surjan de tal análisis. 7