SlideShare una empresa de Scribd logo
Aplicando la Ciencia de Datos en una organización
Fabián Alberto García Gómez
Tecnológico de Monterrey
Certificación profesional en ciencia de datos
Septiembre, 2022.
1. Introducción
La ciencia de datos se ha convertido en un aliado importante para el desarrollo de los
procesos productivos de las empresas. Desde la minería de datos, la gestión de la información
y el almacenamiento de datos hasta su análisis e implementación, son procedimientos que
proveen ventajas competitivas a las empresas.
El presente documento busca identificar las herramientas necesarias para el análisis;
estructuras de datos y servicios de la nube para desarrollar un modelo basado en Ciencia de
Datos como apoyo a la toma de decisiones para una organización.
2. Caso
La Librería Iztaccihuatl ubicada en la ciudad de Monterrey, Nuevo León, México ha decidido
desarrollar un proyecto basada en ciencia de datos para mejorar sus indicadores de
desempeño (KPI’s) y a la vez desarrollar una mejor estrategia en la toma de decisiones.
En la carpeta denominada “datasets_books” se encuentran los siguientes archivos: books;
top_books; raitings; to_read. Te recomendamos utilizar la herramienta Python para analizar
los datos que se te proporcionan.
El archivo “books” contiene los siguientes datos:
Id - Identificador del registro
Book Id - Identificador del libro
Number Editions - Número de ediciones
ISBN - Clave estándar internacional del libro
ISBN13 - Clave estándar extendida internacional del libro
Authors - Autor del libro
Original Publication - Fecha de publicación
Original Title - Título original del libro
Title - Título del libro
Language Code - Clave de idioma del libro
Average Rating - Promedio de la clasificación del libro
Image - Enlace a la imagen de la portada del libro
Small Image - Enlace a la imagen en versión optimizada de la portada del libro.
El archivo “top_books” contiene los siguientes datos:
Position - Posición del libro en la clasificación del libro
ISBN - Clave estándar extendida internacional del libro
Title - Título del libro
Author - Autor del libro
Imprint - Editorial
Publisher Group - Grupo Editorial
Volume - Volumen de ventas hasta el 2010
Value - Ventas determinadas por el volumen
RRP - Precio recomendado para minoristas
ASP - Precio promedio para venta
Binding - Tipo de encuadernación
Publ Date - Fecha de publicación
Product Class - Clasificación del libro
Classification - Clasificación General del libro
El archivo “ratings” contiene los siguientes datos:
Book Id - Identificador del libro
User Id - Identificador del cliente/usuario que clasifico un libro
Rating - Nivel de clasificación del libro.
El archivo “to_read” contiene los siguientes datos:
User Id - Identificador del cliente/usuario que clasifico un libro
Book Id - Identificador del libro
El archivo “books” contiene los datos generales de cada libro existente en la librería y
además menciona el promedio de clasificación de cada libro de acuerdo a las votaciones y
compras del cliente.
El archivo “top_books” contiene el top 20 de los libros más vendidos de acuerdo a una
clasificación general.
El archivo “ratings” contiene los datos de los libros más votados por los clientes dentro del
sitio web de la librería.
El archivo “to_read” contiene las recomendaciones que cada cliente o usuario realiza en el
sitio web sobre libros para leer.
3. Objetivo general
Identificar las herramientas necesarias para el análisis; estructuras de datos y servicios de la
nube para desarrollar un modelo basado en Ciencia de Datos como apoyo a la toma de
decisiones para una organización.
4. Objetivos específicos
● Establecer qué lenguaje de programación para ciencia de datos utilizará para realizar
el análisis de datos de la Librería Iztaccihuatl.
● Determinar qué predicciones se podrían obtener de los datos de la Librería
Iztaccihuatl.
● Establecer qué adecuaciones se podría hacer a los datos de la Librería Iztaccihuatl
para poder realizar un análisis predictivo.
● Definir qué tipo de base de datos se utilizaría para alojar los análisis de los datos de la
Librería Iztaccihuatl.
● Determinar qué tipo de servicio de la nube podría contratar la Librería Iztaccihuatl
para alojar la información y el proyecto de ciencia de datos.
5. Desarrollo
¿Qué lenguaje de programación para ciencia de datos utilizará para realizar el análisis de
datos de la Librería Iztaccihuatl.?
Teniendo en cuenta el volumen de datos y los objetivos que se persiguen, considero que el
lenguaje apropiado para desarrollar el proyecto es Python.
¿Qué predicciones se podrían obtener de los datos de la Librería Iztaccihuatl.?
● Cantidad de ventas
● Cantidad de clientes (nuevos clientes)
● Rotación de inventario
● Productos de interés
¿Qué adecuaciones se podrían hacer a los datos de la Librería Iztaccihuatl para poder
realizar un análisis predictivo?
Aplicaría algunas acciones de preprocesado como:
● Identificación y manejo de valores nulos.
● Identificación y manejo de outliers.
● Identificar tendencias y correlaciones.
● Eliminar columnas que no sean necesarias.
● Realizar escalado de datos de ser necesario.
¿Qué tipo de base de datos se utilizaría para alojar los análisis de los datos de la Librería
Iztaccihuatl.?
Usaría una base de datos estructurada seleccionando la herramienta propia de este tipo de
bases de datos(mySQL, Postgrel, Oracle) , esto teniendo en cuenta que se manejan datos
estructurados.
¿Qué tipo de servicio de la nube podría contratar la Librería Iztaccihuatl para alojar la
información y el proyecto de ciencia de datos?
En cuanto al tipo de servicio considero que una nube privada sería lo recomendable teniendo
en cuenta el tipo de información. Respecto al servicio se podría seleccionar AWS, Google
Cloud o Microsoft Azure.
6. Conclusiones
● Si bien R es un gran lenguaje para desarrollar proyectos, Python es un lenguaje con
una sintaxis muy limpia y amigable, con una gran comunidad, y con la robustez
necesaria para resolver problemas comunes en ciencia de datos.
● Muchas veces se subestima la etapa de preprocesado lo cual puede afectar el resultado
final; por eso es importante que en cualquier proyecto de ciencia de datos se sigan
todos los pasos de dicha etapa y desarrollarlos con el mayor cuidado posible para así
optimizar el desarrollo y el resultado del proyecto.
● Determinar qué servicio de alojamiento usar para el proyecto de ciencia de datos está
sujeto a la cantidad de datos y a su sensibilidad (información calificada).

Más contenido relacionado

Similar a Aplicando la Ciencia de Datos en una organización.docx

APLICANDO LA CIENCIA DE DATOS EN UNA ORGANIZACIÓN - práctica.pdf
APLICANDO LA CIENCIA DE DATOS EN UNA ORGANIZACIÓN - práctica.pdfAPLICANDO LA CIENCIA DE DATOS EN UNA ORGANIZACIÓN - práctica.pdf
APLICANDO LA CIENCIA DE DATOS EN UNA ORGANIZACIÓN - práctica.pdf
CarlosChin
 
Aplicando la ciencia de datos en una organización
Aplicando la ciencia de datos en una organizaciónAplicando la ciencia de datos en una organización
Aplicando la ciencia de datos en una organización
KozhayaSfeir
 
edx caso.docx
edx caso.docxedx caso.docx
edx caso.docx
EduardoCruzCastro1
 
Proyecto individual
Proyecto individualProyecto individual
Proyecto individual
Fernandoss2
 
Proyecto herramientas para el análisis de big data
Proyecto herramientas para el análisis de big dataProyecto herramientas para el análisis de big data
Proyecto herramientas para el análisis de big data
MarcoPoloSanchez1
 
Caso libreria - herramientas para el análisis de big data - edx
Caso libreria - herramientas para el análisis de big data - edxCaso libreria - herramientas para el análisis de big data - edx
Caso libreria - herramientas para el análisis de big data - edx
SebastiaFerran
 
Trabajo curso.docx
Trabajo curso.docxTrabajo curso.docx
Trabajo curso.docx
BrianFallasQuiros
 
Trabajo de herramientas para la ciencia de datos evaluado por pares
Trabajo de herramientas para la ciencia de datos evaluado por paresTrabajo de herramientas para la ciencia de datos evaluado por pares
Trabajo de herramientas para la ciencia de datos evaluado por pares
FrancoGotuzzo
 
Proyecto evaluado por pares
Proyecto evaluado por paresProyecto evaluado por pares
Proyecto evaluado por pares
Juan Alfonso Cruz Vázquez
 
Trabajo entre pares
Trabajo entre paresTrabajo entre pares
Trabajo entre pares
danielavalenciacebal
 
Proyecto individual - Introducción a la ciencia de datos
Proyecto individual - Introducción a la ciencia de datosProyecto individual - Introducción a la ciencia de datos
Proyecto individual - Introducción a la ciencia de datos
RebecaHernandez59
 
Proyecto 1 ciencia de datos
Proyecto 1 ciencia de datosProyecto 1 ciencia de datos
Proyecto 1 ciencia de datos
Alejandro Moyano
 
202005 rrg proyecto individual con evaluacion por pares
202005 rrg proyecto individual con evaluacion por pares202005 rrg proyecto individual con evaluacion por pares
202005 rrg proyecto individual con evaluacion por pares
RENE RGUEZ GLEZ
 
Practica para Data Analítica Descriptiva
Practica para Data Analítica DescriptivaPractica para Data Analítica Descriptiva
Practica para Data Analítica Descriptiva
Luis Alberto Cabrera Samudio
 
Proyecto Jaime Salinas
Proyecto Jaime SalinasProyecto Jaime Salinas
Proyecto Jaime Salinas
J. Nicolas Salinas
 
Actividad individual big data
Actividad individual big dataActividad individual big data
Actividad individual big data
cnino6
 
capacitación Data science.pptx
capacitación Data science.pptxcapacitación Data science.pptx
capacitación Data science.pptx
MichaelBelmarCabrera
 
Proyecto 1 ciencia de datos
Proyecto 1 ciencia de datosProyecto 1 ciencia de datos
Proyecto 1 ciencia de datos
Alejandro Moyano
 
Proyecto 1 ciencia de datos
Proyecto 1 ciencia de datosProyecto 1 ciencia de datos
Proyecto 1 ciencia de datos
Alejandro Moyano
 
Herramientas para el Análisis de Big Data
 Herramientas para el Análisis de Big Data Herramientas para el Análisis de Big Data
Herramientas para el Análisis de Big Data
Julio Burgos
 

Similar a Aplicando la Ciencia de Datos en una organización.docx (20)

APLICANDO LA CIENCIA DE DATOS EN UNA ORGANIZACIÓN - práctica.pdf
APLICANDO LA CIENCIA DE DATOS EN UNA ORGANIZACIÓN - práctica.pdfAPLICANDO LA CIENCIA DE DATOS EN UNA ORGANIZACIÓN - práctica.pdf
APLICANDO LA CIENCIA DE DATOS EN UNA ORGANIZACIÓN - práctica.pdf
 
Aplicando la ciencia de datos en una organización
Aplicando la ciencia de datos en una organizaciónAplicando la ciencia de datos en una organización
Aplicando la ciencia de datos en una organización
 
edx caso.docx
edx caso.docxedx caso.docx
edx caso.docx
 
Proyecto individual
Proyecto individualProyecto individual
Proyecto individual
 
Proyecto herramientas para el análisis de big data
Proyecto herramientas para el análisis de big dataProyecto herramientas para el análisis de big data
Proyecto herramientas para el análisis de big data
 
Caso libreria - herramientas para el análisis de big data - edx
Caso libreria - herramientas para el análisis de big data - edxCaso libreria - herramientas para el análisis de big data - edx
Caso libreria - herramientas para el análisis de big data - edx
 
Trabajo curso.docx
Trabajo curso.docxTrabajo curso.docx
Trabajo curso.docx
 
Trabajo de herramientas para la ciencia de datos evaluado por pares
Trabajo de herramientas para la ciencia de datos evaluado por paresTrabajo de herramientas para la ciencia de datos evaluado por pares
Trabajo de herramientas para la ciencia de datos evaluado por pares
 
Proyecto evaluado por pares
Proyecto evaluado por paresProyecto evaluado por pares
Proyecto evaluado por pares
 
Trabajo entre pares
Trabajo entre paresTrabajo entre pares
Trabajo entre pares
 
Proyecto individual - Introducción a la ciencia de datos
Proyecto individual - Introducción a la ciencia de datosProyecto individual - Introducción a la ciencia de datos
Proyecto individual - Introducción a la ciencia de datos
 
Proyecto 1 ciencia de datos
Proyecto 1 ciencia de datosProyecto 1 ciencia de datos
Proyecto 1 ciencia de datos
 
202005 rrg proyecto individual con evaluacion por pares
202005 rrg proyecto individual con evaluacion por pares202005 rrg proyecto individual con evaluacion por pares
202005 rrg proyecto individual con evaluacion por pares
 
Practica para Data Analítica Descriptiva
Practica para Data Analítica DescriptivaPractica para Data Analítica Descriptiva
Practica para Data Analítica Descriptiva
 
Proyecto Jaime Salinas
Proyecto Jaime SalinasProyecto Jaime Salinas
Proyecto Jaime Salinas
 
Actividad individual big data
Actividad individual big dataActividad individual big data
Actividad individual big data
 
capacitación Data science.pptx
capacitación Data science.pptxcapacitación Data science.pptx
capacitación Data science.pptx
 
Proyecto 1 ciencia de datos
Proyecto 1 ciencia de datosProyecto 1 ciencia de datos
Proyecto 1 ciencia de datos
 
Proyecto 1 ciencia de datos
Proyecto 1 ciencia de datosProyecto 1 ciencia de datos
Proyecto 1 ciencia de datos
 
Herramientas para el Análisis de Big Data
 Herramientas para el Análisis de Big Data Herramientas para el Análisis de Big Data
Herramientas para el Análisis de Big Data
 

Último

Sistema informatico, power point asir 1 curso
Sistema informatico, power point asir 1 cursoSistema informatico, power point asir 1 curso
Sistema informatico, power point asir 1 curso
NereaMolina10
 
sistema paralingüística fhdjsjsbsnnssnnsbs
sistema paralingüística fhdjsjsbsnnssnnsbssistema paralingüística fhdjsjsbsnnssnnsbs
sistema paralingüística fhdjsjsbsnnssnnsbs
SantiagoMejia99
 
e learning^.pptxdieguearmandozuñiga. Comhot
e learning^.pptxdieguearmandozuñiga. Comhote learning^.pptxdieguearmandozuñiga. Comhot
e learning^.pptxdieguearmandozuñiga. Comhot
diegozuniga768
 
contraguerrilla.pdf sobre anti emboscadas
contraguerrilla.pdf sobre anti emboscadascontraguerrilla.pdf sobre anti emboscadas
contraguerrilla.pdf sobre anti emboscadas
DieguinhoSalazar
 
Informe de violencia mayo 2024 - Multigremial Mayo.pdf
Informe de violencia mayo 2024 - Multigremial Mayo.pdfInforme de violencia mayo 2024 - Multigremial Mayo.pdf
Informe de violencia mayo 2024 - Multigremial Mayo.pdf
Emisor Digital
 
DEFENSA NACIONAL.ppt muy fácil de entender
DEFENSA NACIONAL.ppt muy fácil de entenderDEFENSA NACIONAL.ppt muy fácil de entender
DEFENSA NACIONAL.ppt muy fácil de entender
mvargasleveau
 
Obligaciones_de_los_Municipios_y_Departamentos_en_los_Determinantes_Ambiental...
Obligaciones_de_los_Municipios_y_Departamentos_en_los_Determinantes_Ambiental...Obligaciones_de_los_Municipios_y_Departamentos_en_los_Determinantes_Ambiental...
Obligaciones_de_los_Municipios_y_Departamentos_en_los_Determinantes_Ambiental...
defola5717
 
MI CECTOR POSTE BLANCO - Paián .pdf
MI  CECTOR  POSTE  BLANCO - Paián   .pdfMI  CECTOR  POSTE  BLANCO - Paián   .pdf
MI CECTOR POSTE BLANCO - Paián .pdf
GustavoTello19
 
Semana 09 - Tema 02 Dinámica de cuentas del plan contable.pdf
Semana 09 - Tema 02 Dinámica de cuentas del plan contable.pdfSemana 09 - Tema 02 Dinámica de cuentas del plan contable.pdf
Semana 09 - Tema 02 Dinámica de cuentas del plan contable.pdf
WendyMLaura
 
10 colonias - Análisis socio-demográfico 2024.pdf
10 colonias - Análisis socio-demográfico 2024.pdf10 colonias - Análisis socio-demográfico 2024.pdf
10 colonias - Análisis socio-demográfico 2024.pdf
IrapuatoCmovamos
 
nombres de las unidades y situacion significativa 2024.docx
nombres de las unidades y situacion significativa 2024.docxnombres de las unidades y situacion significativa 2024.docx
nombres de las unidades y situacion significativa 2024.docx
silvanasotos
 
Encuesta CATI Verdad Venezuela abril 2024 (PÚBLICO).pdf
Encuesta CATI Verdad Venezuela abril 2024 (PÚBLICO).pdfEncuesta CATI Verdad Venezuela abril 2024 (PÚBLICO).pdf
Encuesta CATI Verdad Venezuela abril 2024 (PÚBLICO).pdf
DivergenteDespierto
 
REPORTE DE HOMICIDIO DOLOSO-MAYO 2024.pdf
REPORTE DE HOMICIDIO DOLOSO-MAYO 2024.pdfREPORTE DE HOMICIDIO DOLOSO-MAYO 2024.pdf
REPORTE DE HOMICIDIO DOLOSO-MAYO 2024.pdf
IrapuatoCmovamos
 
Comunidades virtuales de aprendizaje o educativas E-LEARNING.pdf
Comunidades virtuales de aprendizaje  o educativas E-LEARNING.pdfComunidades virtuales de aprendizaje  o educativas E-LEARNING.pdf
Comunidades virtuales de aprendizaje o educativas E-LEARNING.pdf
brayansangar73
 
3-Modelamiento de Procesos usando BPMN.ppt
3-Modelamiento de Procesos usando BPMN.ppt3-Modelamiento de Procesos usando BPMN.ppt
3-Modelamiento de Procesos usando BPMN.ppt
nahumrondanurbano
 
vivienda segura concreto, construcción y métodos
vivienda segura concreto, construcción y métodosvivienda segura concreto, construcción y métodos
vivienda segura concreto, construcción y métodos
DilmerCarranza
 
LINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIO
LINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIOLINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIO
LINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIO
AaronPleitez
 
Minería de Datos e IA Conceptos, Fundamentos y Aplicaciones.pdf
Minería de Datos e IA  Conceptos, Fundamentos y Aplicaciones.pdfMinería de Datos e IA  Conceptos, Fundamentos y Aplicaciones.pdf
Minería de Datos e IA Conceptos, Fundamentos y Aplicaciones.pdf
MedTechBiz
 
04 capital interes simple.pdf de la clase métodos cuantitativos
04 capital interes simple.pdf de la clase métodos cuantitativos04 capital interes simple.pdf de la clase métodos cuantitativos
04 capital interes simple.pdf de la clase métodos cuantitativos
MarcoPolo545324
 
Plan Emergencia solicitado en obras de construccion
Plan Emergencia  solicitado en obras de construccionPlan Emergencia  solicitado en obras de construccion
Plan Emergencia solicitado en obras de construccion
christianllacchasand
 

Último (20)

Sistema informatico, power point asir 1 curso
Sistema informatico, power point asir 1 cursoSistema informatico, power point asir 1 curso
Sistema informatico, power point asir 1 curso
 
sistema paralingüística fhdjsjsbsnnssnnsbs
sistema paralingüística fhdjsjsbsnnssnnsbssistema paralingüística fhdjsjsbsnnssnnsbs
sistema paralingüística fhdjsjsbsnnssnnsbs
 
e learning^.pptxdieguearmandozuñiga. Comhot
e learning^.pptxdieguearmandozuñiga. Comhote learning^.pptxdieguearmandozuñiga. Comhot
e learning^.pptxdieguearmandozuñiga. Comhot
 
contraguerrilla.pdf sobre anti emboscadas
contraguerrilla.pdf sobre anti emboscadascontraguerrilla.pdf sobre anti emboscadas
contraguerrilla.pdf sobre anti emboscadas
 
Informe de violencia mayo 2024 - Multigremial Mayo.pdf
Informe de violencia mayo 2024 - Multigremial Mayo.pdfInforme de violencia mayo 2024 - Multigremial Mayo.pdf
Informe de violencia mayo 2024 - Multigremial Mayo.pdf
 
DEFENSA NACIONAL.ppt muy fácil de entender
DEFENSA NACIONAL.ppt muy fácil de entenderDEFENSA NACIONAL.ppt muy fácil de entender
DEFENSA NACIONAL.ppt muy fácil de entender
 
Obligaciones_de_los_Municipios_y_Departamentos_en_los_Determinantes_Ambiental...
Obligaciones_de_los_Municipios_y_Departamentos_en_los_Determinantes_Ambiental...Obligaciones_de_los_Municipios_y_Departamentos_en_los_Determinantes_Ambiental...
Obligaciones_de_los_Municipios_y_Departamentos_en_los_Determinantes_Ambiental...
 
MI CECTOR POSTE BLANCO - Paián .pdf
MI  CECTOR  POSTE  BLANCO - Paián   .pdfMI  CECTOR  POSTE  BLANCO - Paián   .pdf
MI CECTOR POSTE BLANCO - Paián .pdf
 
Semana 09 - Tema 02 Dinámica de cuentas del plan contable.pdf
Semana 09 - Tema 02 Dinámica de cuentas del plan contable.pdfSemana 09 - Tema 02 Dinámica de cuentas del plan contable.pdf
Semana 09 - Tema 02 Dinámica de cuentas del plan contable.pdf
 
10 colonias - Análisis socio-demográfico 2024.pdf
10 colonias - Análisis socio-demográfico 2024.pdf10 colonias - Análisis socio-demográfico 2024.pdf
10 colonias - Análisis socio-demográfico 2024.pdf
 
nombres de las unidades y situacion significativa 2024.docx
nombres de las unidades y situacion significativa 2024.docxnombres de las unidades y situacion significativa 2024.docx
nombres de las unidades y situacion significativa 2024.docx
 
Encuesta CATI Verdad Venezuela abril 2024 (PÚBLICO).pdf
Encuesta CATI Verdad Venezuela abril 2024 (PÚBLICO).pdfEncuesta CATI Verdad Venezuela abril 2024 (PÚBLICO).pdf
Encuesta CATI Verdad Venezuela abril 2024 (PÚBLICO).pdf
 
REPORTE DE HOMICIDIO DOLOSO-MAYO 2024.pdf
REPORTE DE HOMICIDIO DOLOSO-MAYO 2024.pdfREPORTE DE HOMICIDIO DOLOSO-MAYO 2024.pdf
REPORTE DE HOMICIDIO DOLOSO-MAYO 2024.pdf
 
Comunidades virtuales de aprendizaje o educativas E-LEARNING.pdf
Comunidades virtuales de aprendizaje  o educativas E-LEARNING.pdfComunidades virtuales de aprendizaje  o educativas E-LEARNING.pdf
Comunidades virtuales de aprendizaje o educativas E-LEARNING.pdf
 
3-Modelamiento de Procesos usando BPMN.ppt
3-Modelamiento de Procesos usando BPMN.ppt3-Modelamiento de Procesos usando BPMN.ppt
3-Modelamiento de Procesos usando BPMN.ppt
 
vivienda segura concreto, construcción y métodos
vivienda segura concreto, construcción y métodosvivienda segura concreto, construcción y métodos
vivienda segura concreto, construcción y métodos
 
LINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIO
LINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIOLINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIO
LINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIO
 
Minería de Datos e IA Conceptos, Fundamentos y Aplicaciones.pdf
Minería de Datos e IA  Conceptos, Fundamentos y Aplicaciones.pdfMinería de Datos e IA  Conceptos, Fundamentos y Aplicaciones.pdf
Minería de Datos e IA Conceptos, Fundamentos y Aplicaciones.pdf
 
04 capital interes simple.pdf de la clase métodos cuantitativos
04 capital interes simple.pdf de la clase métodos cuantitativos04 capital interes simple.pdf de la clase métodos cuantitativos
04 capital interes simple.pdf de la clase métodos cuantitativos
 
Plan Emergencia solicitado en obras de construccion
Plan Emergencia  solicitado en obras de construccionPlan Emergencia  solicitado en obras de construccion
Plan Emergencia solicitado en obras de construccion
 

Aplicando la Ciencia de Datos en una organización.docx

  • 1. Aplicando la Ciencia de Datos en una organización Fabián Alberto García Gómez Tecnológico de Monterrey Certificación profesional en ciencia de datos Septiembre, 2022.
  • 2. 1. Introducción La ciencia de datos se ha convertido en un aliado importante para el desarrollo de los procesos productivos de las empresas. Desde la minería de datos, la gestión de la información y el almacenamiento de datos hasta su análisis e implementación, son procedimientos que proveen ventajas competitivas a las empresas. El presente documento busca identificar las herramientas necesarias para el análisis; estructuras de datos y servicios de la nube para desarrollar un modelo basado en Ciencia de Datos como apoyo a la toma de decisiones para una organización. 2. Caso La Librería Iztaccihuatl ubicada en la ciudad de Monterrey, Nuevo León, México ha decidido desarrollar un proyecto basada en ciencia de datos para mejorar sus indicadores de desempeño (KPI’s) y a la vez desarrollar una mejor estrategia en la toma de decisiones. En la carpeta denominada “datasets_books” se encuentran los siguientes archivos: books; top_books; raitings; to_read. Te recomendamos utilizar la herramienta Python para analizar los datos que se te proporcionan. El archivo “books” contiene los siguientes datos: Id - Identificador del registro Book Id - Identificador del libro Number Editions - Número de ediciones ISBN - Clave estándar internacional del libro ISBN13 - Clave estándar extendida internacional del libro Authors - Autor del libro Original Publication - Fecha de publicación Original Title - Título original del libro Title - Título del libro
  • 3. Language Code - Clave de idioma del libro Average Rating - Promedio de la clasificación del libro Image - Enlace a la imagen de la portada del libro Small Image - Enlace a la imagen en versión optimizada de la portada del libro. El archivo “top_books” contiene los siguientes datos: Position - Posición del libro en la clasificación del libro ISBN - Clave estándar extendida internacional del libro Title - Título del libro Author - Autor del libro Imprint - Editorial Publisher Group - Grupo Editorial Volume - Volumen de ventas hasta el 2010 Value - Ventas determinadas por el volumen RRP - Precio recomendado para minoristas ASP - Precio promedio para venta Binding - Tipo de encuadernación Publ Date - Fecha de publicación Product Class - Clasificación del libro Classification - Clasificación General del libro El archivo “ratings” contiene los siguientes datos: Book Id - Identificador del libro
  • 4. User Id - Identificador del cliente/usuario que clasifico un libro Rating - Nivel de clasificación del libro. El archivo “to_read” contiene los siguientes datos: User Id - Identificador del cliente/usuario que clasifico un libro Book Id - Identificador del libro El archivo “books” contiene los datos generales de cada libro existente en la librería y además menciona el promedio de clasificación de cada libro de acuerdo a las votaciones y compras del cliente. El archivo “top_books” contiene el top 20 de los libros más vendidos de acuerdo a una clasificación general. El archivo “ratings” contiene los datos de los libros más votados por los clientes dentro del sitio web de la librería. El archivo “to_read” contiene las recomendaciones que cada cliente o usuario realiza en el sitio web sobre libros para leer. 3. Objetivo general Identificar las herramientas necesarias para el análisis; estructuras de datos y servicios de la nube para desarrollar un modelo basado en Ciencia de Datos como apoyo a la toma de decisiones para una organización. 4. Objetivos específicos ● Establecer qué lenguaje de programación para ciencia de datos utilizará para realizar el análisis de datos de la Librería Iztaccihuatl. ● Determinar qué predicciones se podrían obtener de los datos de la Librería Iztaccihuatl. ● Establecer qué adecuaciones se podría hacer a los datos de la Librería Iztaccihuatl para poder realizar un análisis predictivo. ● Definir qué tipo de base de datos se utilizaría para alojar los análisis de los datos de la Librería Iztaccihuatl. ● Determinar qué tipo de servicio de la nube podría contratar la Librería Iztaccihuatl para alojar la información y el proyecto de ciencia de datos.
  • 5. 5. Desarrollo ¿Qué lenguaje de programación para ciencia de datos utilizará para realizar el análisis de datos de la Librería Iztaccihuatl.? Teniendo en cuenta el volumen de datos y los objetivos que se persiguen, considero que el lenguaje apropiado para desarrollar el proyecto es Python. ¿Qué predicciones se podrían obtener de los datos de la Librería Iztaccihuatl.? ● Cantidad de ventas ● Cantidad de clientes (nuevos clientes) ● Rotación de inventario ● Productos de interés ¿Qué adecuaciones se podrían hacer a los datos de la Librería Iztaccihuatl para poder realizar un análisis predictivo? Aplicaría algunas acciones de preprocesado como: ● Identificación y manejo de valores nulos. ● Identificación y manejo de outliers. ● Identificar tendencias y correlaciones. ● Eliminar columnas que no sean necesarias. ● Realizar escalado de datos de ser necesario. ¿Qué tipo de base de datos se utilizaría para alojar los análisis de los datos de la Librería Iztaccihuatl.? Usaría una base de datos estructurada seleccionando la herramienta propia de este tipo de bases de datos(mySQL, Postgrel, Oracle) , esto teniendo en cuenta que se manejan datos estructurados. ¿Qué tipo de servicio de la nube podría contratar la Librería Iztaccihuatl para alojar la información y el proyecto de ciencia de datos? En cuanto al tipo de servicio considero que una nube privada sería lo recomendable teniendo en cuenta el tipo de información. Respecto al servicio se podría seleccionar AWS, Google Cloud o Microsoft Azure. 6. Conclusiones ● Si bien R es un gran lenguaje para desarrollar proyectos, Python es un lenguaje con una sintaxis muy limpia y amigable, con una gran comunidad, y con la robustez necesaria para resolver problemas comunes en ciencia de datos.
  • 6. ● Muchas veces se subestima la etapa de preprocesado lo cual puede afectar el resultado final; por eso es importante que en cualquier proyecto de ciencia de datos se sigan todos los pasos de dicha etapa y desarrollarlos con el mayor cuidado posible para así optimizar el desarrollo y el resultado del proyecto. ● Determinar qué servicio de alojamiento usar para el proyecto de ciencia de datos está sujeto a la cantidad de datos y a su sensibilidad (información calificada).