SlideShare una empresa de Scribd logo
cmacarlupu@gmail.com
Título: Aplicando la Ciencia
de Datos en una
Organización
ING. CARLOS MACARLUPÚ FLORES
2021
TECNOLÓGICO DE MONTERREY
Tecnológico de Monterrey
Caso: Aplicando la Ciencia de Datos en una organización
1
Índice
1. Introducción.....................................................................................................................2
2. Identificación de la Empresa...........................................................................................3
3. Información Proporcionada para el desarrollo del caso.................................................3
4. Desarrollo del caso:........................................................................................................5
4.1. ¿Qué tipo de servicio de la nube podría contratar la Librería Iztaccihuatl para
alojar la información y el proyecto de ciencia de datos? ...................................................5
4.2. ¿Qué tipo de base de datos se utilizaría para alojar los análisis de los datos de la
Librería Iztaccihuatl?...........................................................................................................6
4.3. ¿Qué lenguaje de programación para ciencia de datos utilizaría para realizar el
análisis de datos de la Librería Iztaccihuatl? .....................................................................8
4.4. ¿Qué adecuaciones se podría hacer a los datos de la Librería Iztaccihuatl para
poder realizar un análisis predictivo?.................................................................................9
4.5. ¿Qué predicciones se podrían obtener de los datos de la Librería Iztaccihuatl? 10
5. Propuestas ................................................................ Error! Bookmark not defined.
6. Conclusiones............................................................. Error! Bookmark not defined.
Tecnológico de Monterrey
Caso: Aplicando la Ciencia de Datos en una organización
2
1. Introducción
Hoy en día las empresas generan, almacenan y gestionan una gran cantidad de datos,
estos datos se convierten en información importante para la toma de decisiones que
contribuyen en el crecimiento económico y posicionamiento en el mercado de estas.
Es por ello, que el presente proyecto tiene como objetivo implementar una solución de
inteligencia empresarial, que permita analizar fuentes de información externas e
internas de una organización a través de herramientas computacionales para generar
un modelo basado en Ciencia de Datos para la toma de decisiones en la Liberia
Iztaccihuatl, esto permitirá a los gestores conocer el estado de sus ventas, el tiempo
que se ha logrado optimizar la calidad de sus procesos, las preferencias de sus
clientes, los productos más vendidos, entre otros.
Tecnológico de Monterrey
Caso: Aplicando la Ciencia de Datos en una organización
3
2. Identificación de la Empresa
La Librería Iztaccihuatl se encuentra ubicada en la ciudad de Monterrey, estado de
Nuevo León, México. ha decidido desarrollar un proyecto basada en ciencia de datos
para mejorar sus indicadores de desempeño (KPI’s) y a la vez desarrollar una mejor
estrategia en la toma de decisiones.
Fuente 1: Google Map - Mapa de la ubicación de la Librería Iztaccíhuatl.
3. Información Proporcionada para el desarrollo del caso
La librería Iztaccihuatl proporcionó la información en la carpeta “datasets_books” para
absolver las preguntas con los siguientes archivos:
El archivo “books” contiene los siguientes datos:
 Id - Identificador del registro
 Book Id - Identificador del libro
 Number Editions - Número de ediciones
 ISBN - Clave estándar internacional del libro
 ISBN13 - Clave estándar extendida internacional del libro
 Authors - Autor del libro
 Original Publication - Fecha de publicación
 Original Title - Título original del libro
 Title - Título del libro
 Language Code - Clave de idioma del libro
 Average Rating - Promedio de la clasificación del libro
Tecnológico de Monterrey
Caso: Aplicando la Ciencia de Datos en una organización
4
 Image - Enlace a la imagen de la portada del libro
 Small Image - Enlace a la imagen en versión optimizada de la portada del libro.
El archivo “top_books” contiene los siguientes datos:
 Position - Posición del libro en la clasificación del libro
 ISBN - Clave estándar extendida internacional del libro
 Title - Título del libro
 Author - Autor del libro
 Imprint - Editorial
 Publisher Group - Grupo Editorial
 Volume - Volumen de ventas hasta el 2010
 Value - Ventas determinadas por el volumen
 RRP - Precio recomendado para minoristas
 ASP - Precio promedio para venta
 Binding - Tipo de encuadernación
 Publ Date - Fecha de publicación
 Product Class - Clasificación del libro
 Classification - Clasificación General del libro
El archivo “ratings” contiene los siguientes datos:
 Book Id - Identificador del libro
 User Id - Identificador del cliente/usuario que clasifico un libro
 Rating - Nivel de clasificación del libro.
El archivo “to_read” contiene los siguientes datos:
 User Id - Identificador del cliente/usuario que clasifico un libro
 Book Id - Identificador del libro
El archivo “books” contiene los datos generales de cada libro existente en la librería y
además menciona el promedio de clasificación de cada libro de acuerdo a las
votaciones y compras del cliente.
El archivo “top_books” contiene el top 20 de los libros más vendidos de acuerdo a una
clasificación general.
El archivo “ratings” contiene los datos de los libros más votados por los clientes dentro
del sitio web de la librería.
Tecnológico de Monterrey
Caso: Aplicando la Ciencia de Datos en una organización
5
El archivo “to_read” contiene las recomendaciones que cada cliente o usuario realiza
en el sitio web sobre libros para leer.
4. Desarrollo del caso:
Para tener un claro entendimiento del tema describiremos los conceptos de acuerdo
con su jerarquía. Para extraer, transformar y cargar todos los datos adquiridos por la
Librería Iztaccihuatl para aplicar la Ciencia de Datos es necesario contar con una
arquitectura que soporte todos los procesos, tanto a nivel de software y hardware.
4.1. ¿Qué tipo de servicio de la nube podría contratar la Librería Iztaccihuatl
para alojar la información y el proyecto de ciencia de datos?
De acuerdo con la International Business Machines Corporation - IBM (fundada en
Nueva York, 1911) que es una reconocida empresa multinacional estadounidense de
tecnología y consultoría con sede en Armonk nos dice que “la nube computacional o
Cloud Computing en sus siglas en inglés, es el nombre que se dio al concepto que
hace referencia a la entrega de recursos computacionales de software y hardware
ofrecidos de manera remota y en tiempo real, de manera que las empresas pueden
acceder a diferentes servicios tecnológicos en cualquier parte del mundo a través del
internet, sin la preocupación de realizar gastos por la adquisición y mantenimiento de
equipos físicos, sistemas operativos, antivirus o aplicaciones de seguridad, de
almacenamiento de información entre otros” (IBM, 2021).
De manera más sencilla Microsoft lo resume en que “la informática en la nube es el
aprovisionamiento de servicios informáticos (incluidos servidores, almacenamiento,
bases de datos, redes, software, análisis e inteligencia) a través de Internet a la que
se le denomina la nube, cuyo propósito es ofrecer una innovación más rápida,
recursos adaptables y economías de escala” (Microsoft, 2021)
Existen diversos tipos de nubes computacionales que pueden implementarse de la
siguiente manera: Las nubes públicas que son un entorno de nube creado para ofrecer
sus servicios a cualquier usuario que quiera tener acceso a la red de redes a partir de
recursos no vinculados directamente al usuario o cliente. Los equipos y
almacenamiento son de propiedad del proveedor del servicio y el costo va de acuerdo
con lo que el cliente consume; Las nubes privadas, se tratan de ambientes diseñados
solo para el usuario final, generalmente on-premise. Ofrecen sus servicios de manera
limitada a los usuarios a través de una red de área local implementada dentro de una
Tecnológico de Monterrey
Caso: Aplicando la Ciencia de Datos en una organización
6
empresa o de un proveedor externo; La nube híbrida es la combinación de las
anteriores mencionadas, es decir almacenan datos en nubes públicas y privadas,
estas sedan en virtud de las necesidades del cliente; Multiclouds incluyen más de una
nube, pública o privada, en las que pueden desplazarse múltiples servicios e
interactúan en simultaneo.
Fuente 2: https://nubeinformaticainformacion.wordpress.com/ - Tipos de nubes computacionales.
Para la Librería Iztaccihuatl se optaría por una arquitectura interna en la cual recauden
información mediante sus sistemas transaccionales y una nube pública que brinde las
herramientas necesarias para el análisis; estructuras de datos para desarrollar un
modelo basado en Ciencia de Datos comoapoyo a la toma de decisiones. Esta opción
brindará agilidad, versatilidad, resiliencia y escalabilidad para lograr que la empresa
se adapte a la nueva normalidad y a la nube. La Infraestructura flexible y dinámica,
con una amplia diversidad de alternativas y utilitarios disponibles al alcance del cliente,
hará que se pueda experimentar y concluir sobre cuál es el óptimo soporte para el
negocio y sus necesidades.
Existen diversos proveedores de nubes computacionales cuyos servicios varían en
costos por procesos, servicios, almacenaje, etc. Dentro de las principales podemos
mencionar: Azure de Microsoft, Google Cloud Platform, AWS Cloud Hosting Service
de Amazon, Red Hat e IBM, Alibaba Cloud, entre otros.
4.2. ¿Qué tipo de base de datos se utilizaría para alojar los análisis de los datos
de la Librería Iztaccihuatl?
De acuerdo con la información proporcionada por la Librería Iztaccihuatl, todos los
datos recaudados provienen de sistemas transaccionales que pueden ser puntos de
Tecnológico de Monterrey
Caso: Aplicando la Ciencia de Datos en una organización
7
ventas dentro del local o mediante comercio electrónico lo cual hace suponer que la
información se almacena en una base de datos relacional. Oracle Corporation la
describe como “Un almacén de datos relacional almacena y proporciona acceso a
puntos de datos relacionados entre sí. Las bases de datos relacionales toman como
referencia el modelo relacional, una forma perspicaz y directa de representar datos en
las tablas. En una base de datos relacional, cada fila de la tabla tiene un registro con
un identificador único llamado clave. Las columnas de la tabla contienen atributos de
los datos, y cada registro tiene un valor para cada atributo, lo que posibilita el
establecimiento de las relaciones entre los puntos de datos” (Oracle, 2021).
Este tipo de base de datos también sirve para aplicar Inteligencia de Negocios y
Ciencia de Datos ya que cuenta con las herramientas necesarias.Por ejemplo, Python
ha obtenido mucho interés recientemente como el lenguaje de elección para análisis
de datos. Estelenguaje tiene el conjunto de librerías para análisis de datos y modelado
predictivo, sin mencionar una curva de aprendizaje menos pronunciada. Microsoft “ha
integrado a su motor de base de datos SQL Server el lenguaje de ciencia de datos R,
ahora provee una interfaz que puede ejecutar eficientemente modelos y generar
predicciones usando los servicios SQL R. Python construye sobre la base propuesta
por los Servicios R en SQL Server, y extiende ese mecanismo para incluir soporte
para Python para análisis en la base de datos y aprendizaje de máquina” (Microsoft,
2021).
En caso la empresa quiera dar un paso adelante en cuanto a tecnología e innovar en
la explotación de datos, podría usar como alternativa una base de datos NoSQL
también conocidas como “No sólo SQL”, para guardar grandes volúmenes de datos
que serán empleados de manera sencilla y también económicos ya que para su
implementación no necesitan de muchos recursos físicos. “Su auge actual viene sujeto
por el uso que han hecho las principales compañías de internet como Amazon,
Google, Twitter y Facebook. Estas grandes compañías tenían que enfrentarse a
nuevos retos en el tratamiento de los datos motivados por el enorme crecimiento de
la Web donde se requería dar respuesta a la necesidad de proporcionar información
procesada a partir de grandes volúmenes de datos con unas estructuras horizontales,
más o menos, similares y con aplicaciones web que debían dar respuesta a las
peticiones de un número elevado e indeterminado de usuarios en el menor tiempo
posible” (Oracle, 2021).
Tecnológico de Monterrey
Caso: Aplicando la Ciencia de Datos en una organización
8
El uso de estos almacenes podría servir para alojar documentos o tiendas de
documentos, como ebooks que serían de gran beneficio a Iztaccihuatl, ya que ofrecen
mucha flexibilidad, escritura rápida, y consultas rápidas gracias a su gran capacidad
de indexación. En el mercado actual existen diversas marcas reconocidas MongoDb,
MongoDB Atlas para Azure de 10gen y CouchDB, de Apache. En miras al futuro se
optaría por una base de datos NoSQL.
4.3. ¿Qué lenguaje de programación para ciencia de datos utilizaría para
realizar el análisis de datos de la Librería Iztaccihuatl?
El lenguaje de programación debe de estar acorde a los requisitos que se hayan
seleccionado anteriormente, de igual manera existen muchos en el mercado, con
entornos de costo y otros de código abierto o sin licencia. Para un ETL (Extract,
Transform, Load), si se va a usar una base de datos NoSQL como MongoDB, podría
combinar su uso con lenguajes clásicos como: C#, Java o Python o los modernos con
gran crecimiento como NodeJS y GO. Lo recomendable es un entorno que pueda ser
de fácil manejo, escalable, comprensible, que no consuman muchos recursos.
Si la empresadecide optar por lenguajes clásicos,podría incluso hacer sus desarrollos
In-House, con C# fácilmente se crearían los procesos para transformar datos, según
el portal de Microsoft “C# (pronunciado "si sharp" en inglés) es un lenguaje de
programación moderno, basado en objetos y con seguridad de tipos que permite a los
programadores crear diversos tipos de aplicaciones robustas, seguras y sólidas que
se ejecutan en el ecosistema de .NET. C# tiene sus raíces en la familia de lenguajes
C” (Microsoft, 2021).
Asimismo, Java que es un “lenguaje de programación y una plataforma informática
creada por Sun Microsystems. Hay muchas aplicaciones y sitios web que no
funcionarán a menos que tenga Java instalado y cada día se crean más. Java es
rápido, seguro y fiable. Desde portátiles hasta centros de datos, desde consolas para
juegos hasta súper computadoras, desde teléfonos móviles hasta Internet, Java está
en todas partes” (Oracle, 2021).
Por último, Python “Python es un lenguaje de programación potente y fácil de
aprender. Tiene estructuras de datos de alto nivel eficientes y un simple pero efectivo
sistema de programación orientado a objetos. Python tiene una elegante sintaxis y su
tipado dinámico, junto a su naturaleza interpretada lo convierten en un lenguaje ideal
para scripting y desarrollo rápido de aplicaciones en muchas zonas, para la mayoría
Tecnológico de Monterrey
Caso: Aplicando la Ciencia de Datos en una organización
9
de las plataformas” (Python, 2021). Python para ciencia de datos es lenguaje de
programación más usado pues, proporciona todas las herramientas necesarias para
llevar a cabo este proceso de manera efectiva con bibliotecas (estadísticas y
numéricas como Pandas, Numpy, Matplotlib, SciPy, scikit-learn, etc) dedicadas para
cada paso.
Como vemos la mejor opción para la empresa sería el uso de Python como lenguaje
de programación porque cuenta con herramientas para: Recopilación y limpieza de
datos, exploración de datos, modelado de datos y visualización e interpretación de
datos.
4.4. ¿Qué adecuaciones se podría hacer a los datos de la Librería Iztaccihuatl
para poder realizar un análisis predictivo?
El análisis predictivo consiste en la extracción de información en los datos y su
utilización para predecir tendencias y patrones de comportamiento, pudiendo aplicarse
sobre cualquier evento desconocido,ya seaen el pasado, presente o futuro. El análisis
predictivo se fundamenta en la identificación de relaciones entre variables en eventos
pasados, para luego explotar dichas relaciones y predecir posibles resultados en
futuras situaciones. Ahora bien, hay que tener en cuenta que la precisión de los
resultados obtenidos depende mucho de cómo se ha realizado el análisis de los datos,
así como de la calidad de las suposiciones.
Para iniciar las adecuaciones se debe de considerar:
a) Recolectarlos datos: No es algo simple,la forma interesante de comenzaresta
etapa es indagando qué interrogantes son necesarias para obtener las
respuestas, para luego centrarse en la información necesaria que necesitas la
empresa.
b) Estructurar los datos: Es la fase de la estrategia donde se transfiere los datos
a un lugar donde se pueda facilitar la visión de la información recolectada. Por
ejemplo: Excel, ClikView, Power BI.
c) Analizar los datos: Es el momento de comprender las anomalías o tendencias,
por ejemplo, el mes en que se tiene la mayor tasa de cancelación de pedidos,
para así pensar en un plan de acción más efectivo.
d) Aplicar estadística: Aplicar la estadística descriptiva e inferencial que son parte
del análisis predictivo.
Tecnológico de Monterrey
Caso: Aplicando la Ciencia de Datos en una organización
10
e) Modelaje: Se reúne técnicas matemáticas, las primeras ideas sobre los
posibles hechos en el futuro comienzan a aparecer.
f) Monitorear el modelo: Consiste en monitorear los pasos anteriores para que el
modelo continúe siendo confiable.
4.5. ¿Qué predicciones se podrían obtener de los datos de la Librería
Iztaccihuatl?
Las predicciones que podríamos obtener de los datos de la Librería Iztaccihuatl son:
a) Previsión de la demanda: Predecir la demanda futura de los clientes haciendo
estimaciones sobre la base a los datos históricos. Por ejemplo, podríamos
calcular la demanda del periodo anterior mediante la siguiente formula:
previsión de demanda = demanda media (período actual) * factor estacional
(período actual)
b) Venta cruzada: Identificar el potencial de venta cruzada mediante la
comercializaciónde productos complementarios a los que consume o pretende
consumir un cliente. Podría usarse el cross-selling ofreciendo productos
complementarios o el upselling ofreciendo otro producto que constituye una
mejora u perfeccionar de la compra principal que el cliente ha hecho, con el fin
de conocer sus necesidades.
c) Comportamiento del consumidor:Según Schiffman(2002), “el comportamiento
del consumidor se entiende como aquél que los compradores muestran al
buscar, comprar, utilizar, evaluar y desechar los productos y servicios que
consideran van a satisfacer sus necesidades”. Esta se logra prediciendo y
comprendiendo los patrones y propensión de compra y creando en tiempo real
ofertas personalizadas.
5. Conclusiones:
En función de los análisis realizados presento la propuesta sustentada en el beneficio
que conlleva su uso:
Propuesta Beneficio
Local (on-premise) - Nube Pública Ahorro en costes de infraestructura.
Base de datos NoSQL Escalabilidad
Versatilidadg
Tecnológico de Monterrey
Caso: Aplicando la Ciencia de Datos en una organización
11
Orientado a la Ciencia de Datos
Económico
Soporte estructuras distribuidas
Lenguaje de Programación Python Simplificado y rápido
Cuenta con muchas librerías para ser
usadas en Ciencia de Datos
Adecuar los datos
 Estructurar los datos
 Analizar los datos
 Aplicar estadística
 Modelaje
 Monitorear el modelo
Permite conocer los usuarios más
interesados en tus productos o servicios
Predicciones
 Previsión de la demanda
 Venta cruzada
 Comportamiento del
consumidor
Mejorar las ventas
Tabla 1: Elaboración propia

Más contenido relacionado

La actualidad más candente

Caso ciencia de datos libreria iztaccihuatl mauricio figueroa
Caso ciencia de datos libreria iztaccihuatl mauricio figueroaCaso ciencia de datos libreria iztaccihuatl mauricio figueroa
Caso ciencia de datos libreria iztaccihuatl mauricio figueroa
Mauricio Figueroa Colarte
 
Big data-grupo-7
Big data-grupo-7Big data-grupo-7
Big data-grupo-7
Dyllan Raza
 
Unidad2 Bases De Datos Para L Toma De Desiciones
Unidad2 Bases De Datos Para L Toma De DesicionesUnidad2 Bases De Datos Para L Toma De Desiciones
Unidad2 Bases De Datos Para L Toma De Desiciones
Deysi Hdz
 
Data minning final tp internet inf 13 miercoles de 18 a 21
Data minning final tp internet inf 13 miercoles de 18 a 21Data minning final tp internet inf 13 miercoles de 18 a 21
Data minning final tp internet inf 13 miercoles de 18 a 21
Daniela Bedascarrasbure
 
SQL Saturday Bogota - Big Data HDInsight Server
SQL Saturday Bogota - Big Data HDInsight ServerSQL Saturday Bogota - Big Data HDInsight Server
SQL Saturday Bogota - Big Data HDInsight Server
Eduardo Castro
 
producto integrador
producto integradorproducto integrador
producto integrador
olimpiagutirrez
 
Big data diapositivas
Big data diapositivasBig data diapositivas
Big data diapositivas
sgcuadrado
 
Base de datos
Base de datosBase de datos
Big data presentacion diapositiva
Big data presentacion diapositivaBig data presentacion diapositiva
Big data presentacion diapositiva
Cristina Rodriguez Paez
 
Big Data & RRHH
Big Data & RRHHBig Data & RRHH
Big Data & RRHH
Catia Sofia Neves Cunha
 
202005 rrg proyecto individual con evaluacion por pares
202005 rrg proyecto individual con evaluacion por pares202005 rrg proyecto individual con evaluacion por pares
202005 rrg proyecto individual con evaluacion por pares
RENE RGUEZ GLEZ
 
MD: Clase9
MD: Clase9MD: Clase9
MD: Clase9
Zua Fuentes
 
Data warehouse
Data warehouseData warehouse
Data warehouse
Ris Fernandez
 
Semana1
Semana1Semana1
Semana1
MG Tech
 
Proyecto mineria de_datos_caso_2
Proyecto mineria de_datos_caso_2Proyecto mineria de_datos_caso_2
Proyecto mineria de_datos_caso_2
Gustavo Rene Rojas Valdez
 
Introduccion a las bases de datos full
Introduccion a las bases de datos fullIntroduccion a las bases de datos full
Introduccion a las bases de datos full
ScoutES7
 
"Casos de uso del Big Data" por Wolfram Rozas
"Casos de uso del Big Data" por Wolfram Rozas"Casos de uso del Big Data" por Wolfram Rozas
"Casos de uso del Big Data" por Wolfram Rozas
EOI Escuela de Organización Industrial
 
Big Data con Sql Server 2014 y la nube
Big Data con Sql Server 2014 y la nubeBig Data con Sql Server 2014 y la nube
Big Data con Sql Server 2014 y la nube
Eduardo Castro
 
Big data presentación
Big data presentaciónBig data presentación
Big data presentación
Julio C Baracaldo
 
Modelo biblioteca digital
Modelo biblioteca digitalModelo biblioteca digital
Modelo biblioteca digital
María Janeth Ríos C.
 

La actualidad más candente (20)

Caso ciencia de datos libreria iztaccihuatl mauricio figueroa
Caso ciencia de datos libreria iztaccihuatl mauricio figueroaCaso ciencia de datos libreria iztaccihuatl mauricio figueroa
Caso ciencia de datos libreria iztaccihuatl mauricio figueroa
 
Big data-grupo-7
Big data-grupo-7Big data-grupo-7
Big data-grupo-7
 
Unidad2 Bases De Datos Para L Toma De Desiciones
Unidad2 Bases De Datos Para L Toma De DesicionesUnidad2 Bases De Datos Para L Toma De Desiciones
Unidad2 Bases De Datos Para L Toma De Desiciones
 
Data minning final tp internet inf 13 miercoles de 18 a 21
Data minning final tp internet inf 13 miercoles de 18 a 21Data minning final tp internet inf 13 miercoles de 18 a 21
Data minning final tp internet inf 13 miercoles de 18 a 21
 
SQL Saturday Bogota - Big Data HDInsight Server
SQL Saturday Bogota - Big Data HDInsight ServerSQL Saturday Bogota - Big Data HDInsight Server
SQL Saturday Bogota - Big Data HDInsight Server
 
producto integrador
producto integradorproducto integrador
producto integrador
 
Big data diapositivas
Big data diapositivasBig data diapositivas
Big data diapositivas
 
Base de datos
Base de datosBase de datos
Base de datos
 
Big data presentacion diapositiva
Big data presentacion diapositivaBig data presentacion diapositiva
Big data presentacion diapositiva
 
Big Data & RRHH
Big Data & RRHHBig Data & RRHH
Big Data & RRHH
 
202005 rrg proyecto individual con evaluacion por pares
202005 rrg proyecto individual con evaluacion por pares202005 rrg proyecto individual con evaluacion por pares
202005 rrg proyecto individual con evaluacion por pares
 
MD: Clase9
MD: Clase9MD: Clase9
MD: Clase9
 
Data warehouse
Data warehouseData warehouse
Data warehouse
 
Semana1
Semana1Semana1
Semana1
 
Proyecto mineria de_datos_caso_2
Proyecto mineria de_datos_caso_2Proyecto mineria de_datos_caso_2
Proyecto mineria de_datos_caso_2
 
Introduccion a las bases de datos full
Introduccion a las bases de datos fullIntroduccion a las bases de datos full
Introduccion a las bases de datos full
 
"Casos de uso del Big Data" por Wolfram Rozas
"Casos de uso del Big Data" por Wolfram Rozas"Casos de uso del Big Data" por Wolfram Rozas
"Casos de uso del Big Data" por Wolfram Rozas
 
Big Data con Sql Server 2014 y la nube
Big Data con Sql Server 2014 y la nubeBig Data con Sql Server 2014 y la nube
Big Data con Sql Server 2014 y la nube
 
Big data presentación
Big data presentaciónBig data presentación
Big data presentación
 
Modelo biblioteca digital
Modelo biblioteca digitalModelo biblioteca digital
Modelo biblioteca digital
 

Similar a Aplicando Ciencia de Datos en una Organización

Aplicando la Ciencia de Datos en una organización.docx
Aplicando la Ciencia de Datos en una organización.docxAplicando la Ciencia de Datos en una organización.docx
Aplicando la Ciencia de Datos en una organización.docx
Lambofgod1993
 
edx caso.docx
edx caso.docxedx caso.docx
edx caso.docx
EduardoCruzCastro1
 
Base de Datos - Daniela Monsalve
Base de Datos - Daniela MonsalveBase de Datos - Daniela Monsalve
Base de Datos - Daniela Monsalve
DaniiMonsalveMarquez
 
Base de Datos
Base de DatosBase de Datos
Base de Datos
DaniiJulieth
 
kbee.docs CESSI - Caso De Estudio
kbee.docs CESSI - Caso De Estudiokbee.docs CESSI - Caso De Estudio
kbee.docs CESSI - Caso De Estudio
atolomei
 
PlataformasIA
PlataformasIAPlataformasIA
PlataformasIA
Cade Soluciones
 
Recomendador de artículos científicos basado en metadatos de repositorios dig...
Recomendador de artículos científicos basado en metadatos de repositorios dig...Recomendador de artículos científicos basado en metadatos de repositorios dig...
Recomendador de artículos científicos basado en metadatos de repositorios dig...
Ricard de la Vega
 
Actividad 3 producto final
Actividad 3 producto finalActividad 3 producto final
Actividad 3 producto final
KARLALOK
 
CASO PRACTICO 2.pptx
CASO PRACTICO 2.pptxCASO PRACTICO 2.pptx
CASO PRACTICO 2.pptx
denniscarrillo10
 
Reporte_practica_2.pdf
Reporte_practica_2.pdfReporte_practica_2.pdf
Reporte_practica_2.pdf
Juan José Triviño
 
Perspectivas de la adopción de las Tecnologías Semánticas en la Empresa
Perspectivas de la adopción de las Tecnologías Semánticas en la EmpresaPerspectivas de la adopción de las Tecnologías Semánticas en la Empresa
Perspectivas de la adopción de las Tecnologías Semánticas en la Empresa
tgestiona e-Learning Argentina
 
Big-Data-aplicado-a-los-Negocios (1).pptx
Big-Data-aplicado-a-los-Negocios (1).pptxBig-Data-aplicado-a-los-Negocios (1).pptx
Big-Data-aplicado-a-los-Negocios (1).pptx
JavierNavarrete43
 
Documento_nube_Daisy.docx
Documento_nube_Daisy.docxDocumento_nube_Daisy.docx
Documento_nube_Daisy.docx
kikePortillo2
 
Computación en la nube resumen Capítulo 1
Computación en la nube resumen Capítulo 1Computación en la nube resumen Capítulo 1
Computación en la nube resumen Capítulo 1
David Salomón Sandobal Orellana
 
Nancy Adilene Gonzalez Sifuentes
Nancy Adilene Gonzalez Sifuentes Nancy Adilene Gonzalez Sifuentes
Nancy Adilene Gonzalez Sifuentes
Adiilenee G De Vazqqez
 
Caso libreria - herramientas para el análisis de big data - edx
Caso libreria - herramientas para el análisis de big data - edxCaso libreria - herramientas para el análisis de big data - edx
Caso libreria - herramientas para el análisis de big data - edx
SebastiaFerran
 
Lozano william 7_a
Lozano william 7_aLozano william 7_a
Lozano william 7_a
William Lozano
 
kbee.spaces
kbee.spaceskbee.spaces
kbee.spaces
atolomei
 
Implantando un ERP a medida desde cero
Implantando un ERP a medida desde ceroImplantando un ERP a medida desde cero
Implantando un ERP a medida desde cero
Oreka IT
 
Cuestiones de repaso_cap_31_utpl
Cuestiones de repaso_cap_31_utplCuestiones de repaso_cap_31_utpl
Cuestiones de repaso_cap_31_utpl
Carlos Francisco Ojeda Ureña
 

Similar a Aplicando Ciencia de Datos en una Organización (20)

Aplicando la Ciencia de Datos en una organización.docx
Aplicando la Ciencia de Datos en una organización.docxAplicando la Ciencia de Datos en una organización.docx
Aplicando la Ciencia de Datos en una organización.docx
 
edx caso.docx
edx caso.docxedx caso.docx
edx caso.docx
 
Base de Datos - Daniela Monsalve
Base de Datos - Daniela MonsalveBase de Datos - Daniela Monsalve
Base de Datos - Daniela Monsalve
 
Base de Datos
Base de DatosBase de Datos
Base de Datos
 
kbee.docs CESSI - Caso De Estudio
kbee.docs CESSI - Caso De Estudiokbee.docs CESSI - Caso De Estudio
kbee.docs CESSI - Caso De Estudio
 
PlataformasIA
PlataformasIAPlataformasIA
PlataformasIA
 
Recomendador de artículos científicos basado en metadatos de repositorios dig...
Recomendador de artículos científicos basado en metadatos de repositorios dig...Recomendador de artículos científicos basado en metadatos de repositorios dig...
Recomendador de artículos científicos basado en metadatos de repositorios dig...
 
Actividad 3 producto final
Actividad 3 producto finalActividad 3 producto final
Actividad 3 producto final
 
CASO PRACTICO 2.pptx
CASO PRACTICO 2.pptxCASO PRACTICO 2.pptx
CASO PRACTICO 2.pptx
 
Reporte_practica_2.pdf
Reporte_practica_2.pdfReporte_practica_2.pdf
Reporte_practica_2.pdf
 
Perspectivas de la adopción de las Tecnologías Semánticas en la Empresa
Perspectivas de la adopción de las Tecnologías Semánticas en la EmpresaPerspectivas de la adopción de las Tecnologías Semánticas en la Empresa
Perspectivas de la adopción de las Tecnologías Semánticas en la Empresa
 
Big-Data-aplicado-a-los-Negocios (1).pptx
Big-Data-aplicado-a-los-Negocios (1).pptxBig-Data-aplicado-a-los-Negocios (1).pptx
Big-Data-aplicado-a-los-Negocios (1).pptx
 
Documento_nube_Daisy.docx
Documento_nube_Daisy.docxDocumento_nube_Daisy.docx
Documento_nube_Daisy.docx
 
Computación en la nube resumen Capítulo 1
Computación en la nube resumen Capítulo 1Computación en la nube resumen Capítulo 1
Computación en la nube resumen Capítulo 1
 
Nancy Adilene Gonzalez Sifuentes
Nancy Adilene Gonzalez Sifuentes Nancy Adilene Gonzalez Sifuentes
Nancy Adilene Gonzalez Sifuentes
 
Caso libreria - herramientas para el análisis de big data - edx
Caso libreria - herramientas para el análisis de big data - edxCaso libreria - herramientas para el análisis de big data - edx
Caso libreria - herramientas para el análisis de big data - edx
 
Lozano william 7_a
Lozano william 7_aLozano william 7_a
Lozano william 7_a
 
kbee.spaces
kbee.spaceskbee.spaces
kbee.spaces
 
Implantando un ERP a medida desde cero
Implantando un ERP a medida desde ceroImplantando un ERP a medida desde cero
Implantando un ERP a medida desde cero
 
Cuestiones de repaso_cap_31_utpl
Cuestiones de repaso_cap_31_utplCuestiones de repaso_cap_31_utpl
Cuestiones de repaso_cap_31_utpl
 

Último

10 colonias - Análisis socio-demográfico 2024.pdf
10 colonias - Análisis socio-demográfico 2024.pdf10 colonias - Análisis socio-demográfico 2024.pdf
10 colonias - Análisis socio-demográfico 2024.pdf
IrapuatoCmovamos
 
Comunidades virtuales de aprendizaje o educativas E-LEARNING.pdf
Comunidades virtuales de aprendizaje  o educativas E-LEARNING.pdfComunidades virtuales de aprendizaje  o educativas E-LEARNING.pdf
Comunidades virtuales de aprendizaje o educativas E-LEARNING.pdf
brayansangar73
 
MI CECTOR POSTE BLANCO - Paián .pdf
MI  CECTOR  POSTE  BLANCO - Paián   .pdfMI  CECTOR  POSTE  BLANCO - Paián   .pdf
MI CECTOR POSTE BLANCO - Paián .pdf
GustavoTello19
 
e learning^.pptxdieguearmandozuñiga. Comhot
e learning^.pptxdieguearmandozuñiga. Comhote learning^.pptxdieguearmandozuñiga. Comhot
e learning^.pptxdieguearmandozuñiga. Comhot
diegozuniga768
 
Encuesta CATI Verdad Venezuela abril 2024 (PÚBLICO).pdf
Encuesta CATI Verdad Venezuela abril 2024 (PÚBLICO).pdfEncuesta CATI Verdad Venezuela abril 2024 (PÚBLICO).pdf
Encuesta CATI Verdad Venezuela abril 2024 (PÚBLICO).pdf
DivergenteDespierto
 
Plan Emergencia solicitado en obras de construccion
Plan Emergencia  solicitado en obras de construccionPlan Emergencia  solicitado en obras de construccion
Plan Emergencia solicitado en obras de construccion
christianllacchasand
 
Obligaciones_de_los_Municipios_y_Departamentos_en_los_Determinantes_Ambiental...
Obligaciones_de_los_Municipios_y_Departamentos_en_los_Determinantes_Ambiental...Obligaciones_de_los_Municipios_y_Departamentos_en_los_Determinantes_Ambiental...
Obligaciones_de_los_Municipios_y_Departamentos_en_los_Determinantes_Ambiental...
defola5717
 
vivienda segura concreto, construcción y métodos
vivienda segura concreto, construcción y métodosvivienda segura concreto, construcción y métodos
vivienda segura concreto, construcción y métodos
DilmerCarranza
 
Informe de violencia mayo 2024 - Multigremial Mayo.pdf
Informe de violencia mayo 2024 - Multigremial Mayo.pdfInforme de violencia mayo 2024 - Multigremial Mayo.pdf
Informe de violencia mayo 2024 - Multigremial Mayo.pdf
Emisor Digital
 
3-Modelamiento de Procesos usando BPMN.ppt
3-Modelamiento de Procesos usando BPMN.ppt3-Modelamiento de Procesos usando BPMN.ppt
3-Modelamiento de Procesos usando BPMN.ppt
nahumrondanurbano
 
DEFENSA NACIONAL.ppt muy fácil de entender
DEFENSA NACIONAL.ppt muy fácil de entenderDEFENSA NACIONAL.ppt muy fácil de entender
DEFENSA NACIONAL.ppt muy fácil de entender
mvargasleveau
 
sistema paralingüística fhdjsjsbsnnssnnsbs
sistema paralingüística fhdjsjsbsnnssnnsbssistema paralingüística fhdjsjsbsnnssnnsbs
sistema paralingüística fhdjsjsbsnnssnnsbs
SantiagoMejia99
 
nombres de las unidades y situacion significativa 2024.docx
nombres de las unidades y situacion significativa 2024.docxnombres de las unidades y situacion significativa 2024.docx
nombres de las unidades y situacion significativa 2024.docx
silvanasotos
 
04 capital interes simple.pdf de la clase métodos cuantitativos
04 capital interes simple.pdf de la clase métodos cuantitativos04 capital interes simple.pdf de la clase métodos cuantitativos
04 capital interes simple.pdf de la clase métodos cuantitativos
MarcoPolo545324
 
Minería de Datos e IA Conceptos, Fundamentos y Aplicaciones.pdf
Minería de Datos e IA  Conceptos, Fundamentos y Aplicaciones.pdfMinería de Datos e IA  Conceptos, Fundamentos y Aplicaciones.pdf
Minería de Datos e IA Conceptos, Fundamentos y Aplicaciones.pdf
MedTechBiz
 
contraguerrilla.pdf sobre anti emboscadas
contraguerrilla.pdf sobre anti emboscadascontraguerrilla.pdf sobre anti emboscadas
contraguerrilla.pdf sobre anti emboscadas
DieguinhoSalazar
 
Semana 09 - Tema 02 Dinámica de cuentas del plan contable.pdf
Semana 09 - Tema 02 Dinámica de cuentas del plan contable.pdfSemana 09 - Tema 02 Dinámica de cuentas del plan contable.pdf
Semana 09 - Tema 02 Dinámica de cuentas del plan contable.pdf
WendyMLaura
 
REPORTE DE HOMICIDIO DOLOSO-MAYO 2024.pdf
REPORTE DE HOMICIDIO DOLOSO-MAYO 2024.pdfREPORTE DE HOMICIDIO DOLOSO-MAYO 2024.pdf
REPORTE DE HOMICIDIO DOLOSO-MAYO 2024.pdf
IrapuatoCmovamos
 
Sistema informatico, power point asir 1 curso
Sistema informatico, power point asir 1 cursoSistema informatico, power point asir 1 curso
Sistema informatico, power point asir 1 curso
NereaMolina10
 
LINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIO
LINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIOLINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIO
LINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIO
AaronPleitez
 

Último (20)

10 colonias - Análisis socio-demográfico 2024.pdf
10 colonias - Análisis socio-demográfico 2024.pdf10 colonias - Análisis socio-demográfico 2024.pdf
10 colonias - Análisis socio-demográfico 2024.pdf
 
Comunidades virtuales de aprendizaje o educativas E-LEARNING.pdf
Comunidades virtuales de aprendizaje  o educativas E-LEARNING.pdfComunidades virtuales de aprendizaje  o educativas E-LEARNING.pdf
Comunidades virtuales de aprendizaje o educativas E-LEARNING.pdf
 
MI CECTOR POSTE BLANCO - Paián .pdf
MI  CECTOR  POSTE  BLANCO - Paián   .pdfMI  CECTOR  POSTE  BLANCO - Paián   .pdf
MI CECTOR POSTE BLANCO - Paián .pdf
 
e learning^.pptxdieguearmandozuñiga. Comhot
e learning^.pptxdieguearmandozuñiga. Comhote learning^.pptxdieguearmandozuñiga. Comhot
e learning^.pptxdieguearmandozuñiga. Comhot
 
Encuesta CATI Verdad Venezuela abril 2024 (PÚBLICO).pdf
Encuesta CATI Verdad Venezuela abril 2024 (PÚBLICO).pdfEncuesta CATI Verdad Venezuela abril 2024 (PÚBLICO).pdf
Encuesta CATI Verdad Venezuela abril 2024 (PÚBLICO).pdf
 
Plan Emergencia solicitado en obras de construccion
Plan Emergencia  solicitado en obras de construccionPlan Emergencia  solicitado en obras de construccion
Plan Emergencia solicitado en obras de construccion
 
Obligaciones_de_los_Municipios_y_Departamentos_en_los_Determinantes_Ambiental...
Obligaciones_de_los_Municipios_y_Departamentos_en_los_Determinantes_Ambiental...Obligaciones_de_los_Municipios_y_Departamentos_en_los_Determinantes_Ambiental...
Obligaciones_de_los_Municipios_y_Departamentos_en_los_Determinantes_Ambiental...
 
vivienda segura concreto, construcción y métodos
vivienda segura concreto, construcción y métodosvivienda segura concreto, construcción y métodos
vivienda segura concreto, construcción y métodos
 
Informe de violencia mayo 2024 - Multigremial Mayo.pdf
Informe de violencia mayo 2024 - Multigremial Mayo.pdfInforme de violencia mayo 2024 - Multigremial Mayo.pdf
Informe de violencia mayo 2024 - Multigremial Mayo.pdf
 
3-Modelamiento de Procesos usando BPMN.ppt
3-Modelamiento de Procesos usando BPMN.ppt3-Modelamiento de Procesos usando BPMN.ppt
3-Modelamiento de Procesos usando BPMN.ppt
 
DEFENSA NACIONAL.ppt muy fácil de entender
DEFENSA NACIONAL.ppt muy fácil de entenderDEFENSA NACIONAL.ppt muy fácil de entender
DEFENSA NACIONAL.ppt muy fácil de entender
 
sistema paralingüística fhdjsjsbsnnssnnsbs
sistema paralingüística fhdjsjsbsnnssnnsbssistema paralingüística fhdjsjsbsnnssnnsbs
sistema paralingüística fhdjsjsbsnnssnnsbs
 
nombres de las unidades y situacion significativa 2024.docx
nombres de las unidades y situacion significativa 2024.docxnombres de las unidades y situacion significativa 2024.docx
nombres de las unidades y situacion significativa 2024.docx
 
04 capital interes simple.pdf de la clase métodos cuantitativos
04 capital interes simple.pdf de la clase métodos cuantitativos04 capital interes simple.pdf de la clase métodos cuantitativos
04 capital interes simple.pdf de la clase métodos cuantitativos
 
Minería de Datos e IA Conceptos, Fundamentos y Aplicaciones.pdf
Minería de Datos e IA  Conceptos, Fundamentos y Aplicaciones.pdfMinería de Datos e IA  Conceptos, Fundamentos y Aplicaciones.pdf
Minería de Datos e IA Conceptos, Fundamentos y Aplicaciones.pdf
 
contraguerrilla.pdf sobre anti emboscadas
contraguerrilla.pdf sobre anti emboscadascontraguerrilla.pdf sobre anti emboscadas
contraguerrilla.pdf sobre anti emboscadas
 
Semana 09 - Tema 02 Dinámica de cuentas del plan contable.pdf
Semana 09 - Tema 02 Dinámica de cuentas del plan contable.pdfSemana 09 - Tema 02 Dinámica de cuentas del plan contable.pdf
Semana 09 - Tema 02 Dinámica de cuentas del plan contable.pdf
 
REPORTE DE HOMICIDIO DOLOSO-MAYO 2024.pdf
REPORTE DE HOMICIDIO DOLOSO-MAYO 2024.pdfREPORTE DE HOMICIDIO DOLOSO-MAYO 2024.pdf
REPORTE DE HOMICIDIO DOLOSO-MAYO 2024.pdf
 
Sistema informatico, power point asir 1 curso
Sistema informatico, power point asir 1 cursoSistema informatico, power point asir 1 curso
Sistema informatico, power point asir 1 curso
 
LINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIO
LINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIOLINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIO
LINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIO
 

Aplicando Ciencia de Datos en una Organización

  • 1. cmacarlupu@gmail.com Título: Aplicando la Ciencia de Datos en una Organización ING. CARLOS MACARLUPÚ FLORES 2021 TECNOLÓGICO DE MONTERREY
  • 2. Tecnológico de Monterrey Caso: Aplicando la Ciencia de Datos en una organización 1 Índice 1. Introducción.....................................................................................................................2 2. Identificación de la Empresa...........................................................................................3 3. Información Proporcionada para el desarrollo del caso.................................................3 4. Desarrollo del caso:........................................................................................................5 4.1. ¿Qué tipo de servicio de la nube podría contratar la Librería Iztaccihuatl para alojar la información y el proyecto de ciencia de datos? ...................................................5 4.2. ¿Qué tipo de base de datos se utilizaría para alojar los análisis de los datos de la Librería Iztaccihuatl?...........................................................................................................6 4.3. ¿Qué lenguaje de programación para ciencia de datos utilizaría para realizar el análisis de datos de la Librería Iztaccihuatl? .....................................................................8 4.4. ¿Qué adecuaciones se podría hacer a los datos de la Librería Iztaccihuatl para poder realizar un análisis predictivo?.................................................................................9 4.5. ¿Qué predicciones se podrían obtener de los datos de la Librería Iztaccihuatl? 10 5. Propuestas ................................................................ Error! Bookmark not defined. 6. Conclusiones............................................................. Error! Bookmark not defined.
  • 3. Tecnológico de Monterrey Caso: Aplicando la Ciencia de Datos en una organización 2 1. Introducción Hoy en día las empresas generan, almacenan y gestionan una gran cantidad de datos, estos datos se convierten en información importante para la toma de decisiones que contribuyen en el crecimiento económico y posicionamiento en el mercado de estas. Es por ello, que el presente proyecto tiene como objetivo implementar una solución de inteligencia empresarial, que permita analizar fuentes de información externas e internas de una organización a través de herramientas computacionales para generar un modelo basado en Ciencia de Datos para la toma de decisiones en la Liberia Iztaccihuatl, esto permitirá a los gestores conocer el estado de sus ventas, el tiempo que se ha logrado optimizar la calidad de sus procesos, las preferencias de sus clientes, los productos más vendidos, entre otros.
  • 4. Tecnológico de Monterrey Caso: Aplicando la Ciencia de Datos en una organización 3 2. Identificación de la Empresa La Librería Iztaccihuatl se encuentra ubicada en la ciudad de Monterrey, estado de Nuevo León, México. ha decidido desarrollar un proyecto basada en ciencia de datos para mejorar sus indicadores de desempeño (KPI’s) y a la vez desarrollar una mejor estrategia en la toma de decisiones. Fuente 1: Google Map - Mapa de la ubicación de la Librería Iztaccíhuatl. 3. Información Proporcionada para el desarrollo del caso La librería Iztaccihuatl proporcionó la información en la carpeta “datasets_books” para absolver las preguntas con los siguientes archivos: El archivo “books” contiene los siguientes datos:  Id - Identificador del registro  Book Id - Identificador del libro  Number Editions - Número de ediciones  ISBN - Clave estándar internacional del libro  ISBN13 - Clave estándar extendida internacional del libro  Authors - Autor del libro  Original Publication - Fecha de publicación  Original Title - Título original del libro  Title - Título del libro  Language Code - Clave de idioma del libro  Average Rating - Promedio de la clasificación del libro
  • 5. Tecnológico de Monterrey Caso: Aplicando la Ciencia de Datos en una organización 4  Image - Enlace a la imagen de la portada del libro  Small Image - Enlace a la imagen en versión optimizada de la portada del libro. El archivo “top_books” contiene los siguientes datos:  Position - Posición del libro en la clasificación del libro  ISBN - Clave estándar extendida internacional del libro  Title - Título del libro  Author - Autor del libro  Imprint - Editorial  Publisher Group - Grupo Editorial  Volume - Volumen de ventas hasta el 2010  Value - Ventas determinadas por el volumen  RRP - Precio recomendado para minoristas  ASP - Precio promedio para venta  Binding - Tipo de encuadernación  Publ Date - Fecha de publicación  Product Class - Clasificación del libro  Classification - Clasificación General del libro El archivo “ratings” contiene los siguientes datos:  Book Id - Identificador del libro  User Id - Identificador del cliente/usuario que clasifico un libro  Rating - Nivel de clasificación del libro. El archivo “to_read” contiene los siguientes datos:  User Id - Identificador del cliente/usuario que clasifico un libro  Book Id - Identificador del libro El archivo “books” contiene los datos generales de cada libro existente en la librería y además menciona el promedio de clasificación de cada libro de acuerdo a las votaciones y compras del cliente. El archivo “top_books” contiene el top 20 de los libros más vendidos de acuerdo a una clasificación general. El archivo “ratings” contiene los datos de los libros más votados por los clientes dentro del sitio web de la librería.
  • 6. Tecnológico de Monterrey Caso: Aplicando la Ciencia de Datos en una organización 5 El archivo “to_read” contiene las recomendaciones que cada cliente o usuario realiza en el sitio web sobre libros para leer. 4. Desarrollo del caso: Para tener un claro entendimiento del tema describiremos los conceptos de acuerdo con su jerarquía. Para extraer, transformar y cargar todos los datos adquiridos por la Librería Iztaccihuatl para aplicar la Ciencia de Datos es necesario contar con una arquitectura que soporte todos los procesos, tanto a nivel de software y hardware. 4.1. ¿Qué tipo de servicio de la nube podría contratar la Librería Iztaccihuatl para alojar la información y el proyecto de ciencia de datos? De acuerdo con la International Business Machines Corporation - IBM (fundada en Nueva York, 1911) que es una reconocida empresa multinacional estadounidense de tecnología y consultoría con sede en Armonk nos dice que “la nube computacional o Cloud Computing en sus siglas en inglés, es el nombre que se dio al concepto que hace referencia a la entrega de recursos computacionales de software y hardware ofrecidos de manera remota y en tiempo real, de manera que las empresas pueden acceder a diferentes servicios tecnológicos en cualquier parte del mundo a través del internet, sin la preocupación de realizar gastos por la adquisición y mantenimiento de equipos físicos, sistemas operativos, antivirus o aplicaciones de seguridad, de almacenamiento de información entre otros” (IBM, 2021). De manera más sencilla Microsoft lo resume en que “la informática en la nube es el aprovisionamiento de servicios informáticos (incluidos servidores, almacenamiento, bases de datos, redes, software, análisis e inteligencia) a través de Internet a la que se le denomina la nube, cuyo propósito es ofrecer una innovación más rápida, recursos adaptables y economías de escala” (Microsoft, 2021) Existen diversos tipos de nubes computacionales que pueden implementarse de la siguiente manera: Las nubes públicas que son un entorno de nube creado para ofrecer sus servicios a cualquier usuario que quiera tener acceso a la red de redes a partir de recursos no vinculados directamente al usuario o cliente. Los equipos y almacenamiento son de propiedad del proveedor del servicio y el costo va de acuerdo con lo que el cliente consume; Las nubes privadas, se tratan de ambientes diseñados solo para el usuario final, generalmente on-premise. Ofrecen sus servicios de manera limitada a los usuarios a través de una red de área local implementada dentro de una
  • 7. Tecnológico de Monterrey Caso: Aplicando la Ciencia de Datos en una organización 6 empresa o de un proveedor externo; La nube híbrida es la combinación de las anteriores mencionadas, es decir almacenan datos en nubes públicas y privadas, estas sedan en virtud de las necesidades del cliente; Multiclouds incluyen más de una nube, pública o privada, en las que pueden desplazarse múltiples servicios e interactúan en simultaneo. Fuente 2: https://nubeinformaticainformacion.wordpress.com/ - Tipos de nubes computacionales. Para la Librería Iztaccihuatl se optaría por una arquitectura interna en la cual recauden información mediante sus sistemas transaccionales y una nube pública que brinde las herramientas necesarias para el análisis; estructuras de datos para desarrollar un modelo basado en Ciencia de Datos comoapoyo a la toma de decisiones. Esta opción brindará agilidad, versatilidad, resiliencia y escalabilidad para lograr que la empresa se adapte a la nueva normalidad y a la nube. La Infraestructura flexible y dinámica, con una amplia diversidad de alternativas y utilitarios disponibles al alcance del cliente, hará que se pueda experimentar y concluir sobre cuál es el óptimo soporte para el negocio y sus necesidades. Existen diversos proveedores de nubes computacionales cuyos servicios varían en costos por procesos, servicios, almacenaje, etc. Dentro de las principales podemos mencionar: Azure de Microsoft, Google Cloud Platform, AWS Cloud Hosting Service de Amazon, Red Hat e IBM, Alibaba Cloud, entre otros. 4.2. ¿Qué tipo de base de datos se utilizaría para alojar los análisis de los datos de la Librería Iztaccihuatl? De acuerdo con la información proporcionada por la Librería Iztaccihuatl, todos los datos recaudados provienen de sistemas transaccionales que pueden ser puntos de
  • 8. Tecnológico de Monterrey Caso: Aplicando la Ciencia de Datos en una organización 7 ventas dentro del local o mediante comercio electrónico lo cual hace suponer que la información se almacena en una base de datos relacional. Oracle Corporation la describe como “Un almacén de datos relacional almacena y proporciona acceso a puntos de datos relacionados entre sí. Las bases de datos relacionales toman como referencia el modelo relacional, una forma perspicaz y directa de representar datos en las tablas. En una base de datos relacional, cada fila de la tabla tiene un registro con un identificador único llamado clave. Las columnas de la tabla contienen atributos de los datos, y cada registro tiene un valor para cada atributo, lo que posibilita el establecimiento de las relaciones entre los puntos de datos” (Oracle, 2021). Este tipo de base de datos también sirve para aplicar Inteligencia de Negocios y Ciencia de Datos ya que cuenta con las herramientas necesarias.Por ejemplo, Python ha obtenido mucho interés recientemente como el lenguaje de elección para análisis de datos. Estelenguaje tiene el conjunto de librerías para análisis de datos y modelado predictivo, sin mencionar una curva de aprendizaje menos pronunciada. Microsoft “ha integrado a su motor de base de datos SQL Server el lenguaje de ciencia de datos R, ahora provee una interfaz que puede ejecutar eficientemente modelos y generar predicciones usando los servicios SQL R. Python construye sobre la base propuesta por los Servicios R en SQL Server, y extiende ese mecanismo para incluir soporte para Python para análisis en la base de datos y aprendizaje de máquina” (Microsoft, 2021). En caso la empresa quiera dar un paso adelante en cuanto a tecnología e innovar en la explotación de datos, podría usar como alternativa una base de datos NoSQL también conocidas como “No sólo SQL”, para guardar grandes volúmenes de datos que serán empleados de manera sencilla y también económicos ya que para su implementación no necesitan de muchos recursos físicos. “Su auge actual viene sujeto por el uso que han hecho las principales compañías de internet como Amazon, Google, Twitter y Facebook. Estas grandes compañías tenían que enfrentarse a nuevos retos en el tratamiento de los datos motivados por el enorme crecimiento de la Web donde se requería dar respuesta a la necesidad de proporcionar información procesada a partir de grandes volúmenes de datos con unas estructuras horizontales, más o menos, similares y con aplicaciones web que debían dar respuesta a las peticiones de un número elevado e indeterminado de usuarios en el menor tiempo posible” (Oracle, 2021).
  • 9. Tecnológico de Monterrey Caso: Aplicando la Ciencia de Datos en una organización 8 El uso de estos almacenes podría servir para alojar documentos o tiendas de documentos, como ebooks que serían de gran beneficio a Iztaccihuatl, ya que ofrecen mucha flexibilidad, escritura rápida, y consultas rápidas gracias a su gran capacidad de indexación. En el mercado actual existen diversas marcas reconocidas MongoDb, MongoDB Atlas para Azure de 10gen y CouchDB, de Apache. En miras al futuro se optaría por una base de datos NoSQL. 4.3. ¿Qué lenguaje de programación para ciencia de datos utilizaría para realizar el análisis de datos de la Librería Iztaccihuatl? El lenguaje de programación debe de estar acorde a los requisitos que se hayan seleccionado anteriormente, de igual manera existen muchos en el mercado, con entornos de costo y otros de código abierto o sin licencia. Para un ETL (Extract, Transform, Load), si se va a usar una base de datos NoSQL como MongoDB, podría combinar su uso con lenguajes clásicos como: C#, Java o Python o los modernos con gran crecimiento como NodeJS y GO. Lo recomendable es un entorno que pueda ser de fácil manejo, escalable, comprensible, que no consuman muchos recursos. Si la empresadecide optar por lenguajes clásicos,podría incluso hacer sus desarrollos In-House, con C# fácilmente se crearían los procesos para transformar datos, según el portal de Microsoft “C# (pronunciado "si sharp" en inglés) es un lenguaje de programación moderno, basado en objetos y con seguridad de tipos que permite a los programadores crear diversos tipos de aplicaciones robustas, seguras y sólidas que se ejecutan en el ecosistema de .NET. C# tiene sus raíces en la familia de lenguajes C” (Microsoft, 2021). Asimismo, Java que es un “lenguaje de programación y una plataforma informática creada por Sun Microsystems. Hay muchas aplicaciones y sitios web que no funcionarán a menos que tenga Java instalado y cada día se crean más. Java es rápido, seguro y fiable. Desde portátiles hasta centros de datos, desde consolas para juegos hasta súper computadoras, desde teléfonos móviles hasta Internet, Java está en todas partes” (Oracle, 2021). Por último, Python “Python es un lenguaje de programación potente y fácil de aprender. Tiene estructuras de datos de alto nivel eficientes y un simple pero efectivo sistema de programación orientado a objetos. Python tiene una elegante sintaxis y su tipado dinámico, junto a su naturaleza interpretada lo convierten en un lenguaje ideal para scripting y desarrollo rápido de aplicaciones en muchas zonas, para la mayoría
  • 10. Tecnológico de Monterrey Caso: Aplicando la Ciencia de Datos en una organización 9 de las plataformas” (Python, 2021). Python para ciencia de datos es lenguaje de programación más usado pues, proporciona todas las herramientas necesarias para llevar a cabo este proceso de manera efectiva con bibliotecas (estadísticas y numéricas como Pandas, Numpy, Matplotlib, SciPy, scikit-learn, etc) dedicadas para cada paso. Como vemos la mejor opción para la empresa sería el uso de Python como lenguaje de programación porque cuenta con herramientas para: Recopilación y limpieza de datos, exploración de datos, modelado de datos y visualización e interpretación de datos. 4.4. ¿Qué adecuaciones se podría hacer a los datos de la Librería Iztaccihuatl para poder realizar un análisis predictivo? El análisis predictivo consiste en la extracción de información en los datos y su utilización para predecir tendencias y patrones de comportamiento, pudiendo aplicarse sobre cualquier evento desconocido,ya seaen el pasado, presente o futuro. El análisis predictivo se fundamenta en la identificación de relaciones entre variables en eventos pasados, para luego explotar dichas relaciones y predecir posibles resultados en futuras situaciones. Ahora bien, hay que tener en cuenta que la precisión de los resultados obtenidos depende mucho de cómo se ha realizado el análisis de los datos, así como de la calidad de las suposiciones. Para iniciar las adecuaciones se debe de considerar: a) Recolectarlos datos: No es algo simple,la forma interesante de comenzaresta etapa es indagando qué interrogantes son necesarias para obtener las respuestas, para luego centrarse en la información necesaria que necesitas la empresa. b) Estructurar los datos: Es la fase de la estrategia donde se transfiere los datos a un lugar donde se pueda facilitar la visión de la información recolectada. Por ejemplo: Excel, ClikView, Power BI. c) Analizar los datos: Es el momento de comprender las anomalías o tendencias, por ejemplo, el mes en que se tiene la mayor tasa de cancelación de pedidos, para así pensar en un plan de acción más efectivo. d) Aplicar estadística: Aplicar la estadística descriptiva e inferencial que son parte del análisis predictivo.
  • 11. Tecnológico de Monterrey Caso: Aplicando la Ciencia de Datos en una organización 10 e) Modelaje: Se reúne técnicas matemáticas, las primeras ideas sobre los posibles hechos en el futuro comienzan a aparecer. f) Monitorear el modelo: Consiste en monitorear los pasos anteriores para que el modelo continúe siendo confiable. 4.5. ¿Qué predicciones se podrían obtener de los datos de la Librería Iztaccihuatl? Las predicciones que podríamos obtener de los datos de la Librería Iztaccihuatl son: a) Previsión de la demanda: Predecir la demanda futura de los clientes haciendo estimaciones sobre la base a los datos históricos. Por ejemplo, podríamos calcular la demanda del periodo anterior mediante la siguiente formula: previsión de demanda = demanda media (período actual) * factor estacional (período actual) b) Venta cruzada: Identificar el potencial de venta cruzada mediante la comercializaciónde productos complementarios a los que consume o pretende consumir un cliente. Podría usarse el cross-selling ofreciendo productos complementarios o el upselling ofreciendo otro producto que constituye una mejora u perfeccionar de la compra principal que el cliente ha hecho, con el fin de conocer sus necesidades. c) Comportamiento del consumidor:Según Schiffman(2002), “el comportamiento del consumidor se entiende como aquél que los compradores muestran al buscar, comprar, utilizar, evaluar y desechar los productos y servicios que consideran van a satisfacer sus necesidades”. Esta se logra prediciendo y comprendiendo los patrones y propensión de compra y creando en tiempo real ofertas personalizadas. 5. Conclusiones: En función de los análisis realizados presento la propuesta sustentada en el beneficio que conlleva su uso: Propuesta Beneficio Local (on-premise) - Nube Pública Ahorro en costes de infraestructura. Base de datos NoSQL Escalabilidad Versatilidadg
  • 12. Tecnológico de Monterrey Caso: Aplicando la Ciencia de Datos en una organización 11 Orientado a la Ciencia de Datos Económico Soporte estructuras distribuidas Lenguaje de Programación Python Simplificado y rápido Cuenta con muchas librerías para ser usadas en Ciencia de Datos Adecuar los datos  Estructurar los datos  Analizar los datos  Aplicar estadística  Modelaje  Monitorear el modelo Permite conocer los usuarios más interesados en tus productos o servicios Predicciones  Previsión de la demanda  Venta cruzada  Comportamiento del consumidor Mejorar las ventas Tabla 1: Elaboración propia