Aplicando Ciencia de Datos en una Organización

cmacarlupu@gmail.com
Título: Aplicando la Ciencia
de Datos en una
Organización
ING. CARLOS MACARLUPÚ FLORES
2021
TECNOLÓGICO DE MONTERREY

Tecnológico de Monterrey
Caso: Aplicando la Ciencia de Datos en una organización
1
Índice
1. Introducción.....................................................................................................................2
2. Identificación de la Empresa...........................................................................................3
3. Información Proporcionada para el desarrollo del caso.................................................3
4. Desarrollo del caso:........................................................................................................5
4.1. ¿Qué tipo de servicio de la nube podría contratar la Librería Iztaccihuatl para
alojar la información y el proyecto de ciencia de datos? ...................................................5
4.2. ¿Qué tipo de base de datos se utilizaría para alojar los análisis de los datos de la
Librería Iztaccihuatl?...........................................................................................................6
4.3. ¿Qué lenguaje de programación para ciencia de datos utilizaría para realizar el
análisis de datos de la Librería Iztaccihuatl? .....................................................................8
4.4. ¿Qué adecuaciones se podría hacer a los datos de la Librería Iztaccihuatl para
poder realizar un análisis predictivo?.................................................................................9
4.5. ¿Qué predicciones se podrían obtener de los datos de la Librería Iztaccihuatl? 10
5. Propuestas ................................................................ Error! Bookmark not defined.
6. Conclusiones............................................................. Error! Bookmark not defined.

2
1. Introducción
Hoy en día las empresas generan, almacenan y gestionan una gran cantidad de datos,
estos datos se convierten en información importante para la toma de decisiones que
contribuyen en el crecimiento económico y posicionamiento en el mercado de estas.
Es por ello, que el presente proyecto tiene como objetivo implementar una solución de
inteligencia empresarial, que permita analizar fuentes de información externas e
internas de una organización a través de herramientas computacionales para generar
un modelo basado en Ciencia de Datos para la toma de decisiones en la Liberia
Iztaccihuatl, esto permitirá a los gestores conocer el estado de sus ventas, el tiempo
que se ha logrado optimizar la calidad de sus procesos, las preferencias de sus
clientes, los productos más vendidos, entre otros.

3
2. Identificación de la Empresa
La Librería Iztaccihuatl se encuentra ubicada en la ciudad de Monterrey, estado de
Nuevo León, México. ha decidido desarrollar un proyecto basada en ciencia de datos
para mejorar sus indicadores de desempeño (KPI’s) y a la vez desarrollar una mejor
estrategia en la toma de decisiones.
Fuente 1: Google Map - Mapa de la ubicación de la Librería Iztaccíhuatl.
3. Información Proporcionada para el desarrollo del caso
La librería Iztaccihuatl proporcionó la información en la carpeta “datasets_books” para
absolver las preguntas con los siguientes archivos:
El archivo “books” contiene los siguientes datos:
 Id - Identificador del registro
 Book Id - Identificador del libro
 Number Editions - Número de ediciones
 ISBN - Clave estándar internacional del libro
 ISBN13 - Clave estándar extendida internacional del libro
 Authors - Autor del libro
 Original Publication - Fecha de publicación
 Original Title - Título original del libro
 Title - Título del libro
 Language Code - Clave de idioma del libro
 Average Rating - Promedio de la clasificación del libro

4
 Image - Enlace a la imagen de la portada del libro
 Small Image - Enlace a la imagen en versión optimizada de la portada del libro.
El archivo “top_books” contiene los siguientes datos:
 Position - Posición del libro en la clasificación del libro
 ISBN - Clave estándar extendida internacional del libro
 Title - Título del libro
 Author - Autor del libro
 Imprint - Editorial
 Publisher Group - Grupo Editorial
 Volume - Volumen de ventas hasta el 2010
 Value - Ventas determinadas por el volumen
 RRP - Precio recomendado para minoristas
 ASP - Precio promedio para venta
 Binding - Tipo de encuadernación
 Publ Date - Fecha de publicación
 Product Class - Clasificación del libro
 Classification - Clasificación General del libro
El archivo “ratings” contiene los siguientes datos:
 User Id - Identificador del cliente/usuario que clasifico un libro
 Rating - Nivel de clasificación del libro.
El archivo “to_read” contiene los siguientes datos:
 User Id - Identificador del cliente/usuario que clasifico un libro
El archivo “books” contiene los datos generales de cada libro existente en la librería y
además menciona el promedio de clasificación de cada libro de acuerdo a las
votaciones y compras del cliente.
El archivo “top_books” contiene el top 20 de los libros más vendidos de acuerdo a una
clasificación general.
El archivo “ratings” contiene los datos de los libros más votados por los clientes dentro
del sitio web de la librería.

5
El archivo “to_read” contiene las recomendaciones que cada cliente o usuario realiza
en el sitio web sobre libros para leer.
4. Desarrollo del caso:
Para tener un claro entendimiento del tema describiremos los conceptos de acuerdo
con su jerarquía. Para extraer, transformar y cargar todos los datos adquiridos por la
Librería Iztaccihuatl para aplicar la Ciencia de Datos es necesario contar con una
arquitectura que soporte todos los procesos, tanto a nivel de software y hardware.
4.1. ¿Qué tipo de servicio de la nube podría contratar la Librería Iztaccihuatl
para alojar la información y el proyecto de ciencia de datos?
De acuerdo con la International Business Machines Corporation - IBM (fundada en
Nueva York, 1911) que es una reconocida empresa multinacional estadounidense de
tecnología y consultoría con sede en Armonk nos dice que “la nube computacional o
Cloud Computing en sus siglas en inglés, es el nombre que se dio al concepto que
hace referencia a la entrega de recursos computacionales de software y hardware
ofrecidos de manera remota y en tiempo real, de manera que las empresas pueden
acceder a diferentes servicios tecnológicos en cualquier parte del mundo a través del
internet, sin la preocupación de realizar gastos por la adquisición y mantenimiento de
equipos físicos, sistemas operativos, antivirus o aplicaciones de seguridad, de
almacenamiento de información entre otros” (IBM, 2021).
De manera más sencilla Microsoft lo resume en que “la informática en la nube es el
aprovisionamiento de servicios informáticos (incluidos servidores, almacenamiento,
bases de datos, redes, software, análisis e inteligencia) a través de Internet a la que
se le denomina la nube, cuyo propósito es ofrecer una innovación más rápida,
recursos adaptables y economías de escala” (Microsoft, 2021)
Existen diversos tipos de nubes computacionales que pueden implementarse de la
siguiente manera: Las nubes públicas que son un entorno de nube creado para ofrecer
sus servicios a cualquier usuario que quiera tener acceso a la red de redes a partir de
recursos no vinculados directamente al usuario o cliente. Los equipos y
almacenamiento son de propiedad del proveedor del servicio y el costo va de acuerdo
con lo que el cliente consume; Las nubes privadas, se tratan de ambientes diseñados
solo para el usuario final, generalmente on-premise. Ofrecen sus servicios de manera
limitada a los usuarios a través de una red de área local implementada dentro de una

6
empresa o de un proveedor externo; La nube híbrida es la combinación de las
anteriores mencionadas, es decir almacenan datos en nubes públicas y privadas,
estas sedan en virtud de las necesidades del cliente; Multiclouds incluyen más de una
nube, pública o privada, en las que pueden desplazarse múltiples servicios e
interactúan en simultaneo.
Fuente 2: https://nubeinformaticainformacion.wordpress.com/ - Tipos de nubes computacionales.
Para la Librería Iztaccihuatl se optaría por una arquitectura interna en la cual recauden
información mediante sus sistemas transaccionales y una nube pública que brinde las
herramientas necesarias para el análisis; estructuras de datos para desarrollar un
modelo basado en Ciencia de Datos comoapoyo a la toma de decisiones. Esta opción
brindará agilidad, versatilidad, resiliencia y escalabilidad para lograr que la empresa
se adapte a la nueva normalidad y a la nube. La Infraestructura flexible y dinámica,
con una amplia diversidad de alternativas y utilitarios disponibles al alcance del cliente,
hará que se pueda experimentar y concluir sobre cuál es el óptimo soporte para el
negocio y sus necesidades.
Existen diversos proveedores de nubes computacionales cuyos servicios varían en
costos por procesos, servicios, almacenaje, etc. Dentro de las principales podemos
mencionar: Azure de Microsoft, Google Cloud Platform, AWS Cloud Hosting Service
de Amazon, Red Hat e IBM, Alibaba Cloud, entre otros.
4.2. ¿Qué tipo de base de datos se utilizaría para alojar los análisis de los datos
de la Librería Iztaccihuatl?
De acuerdo con la información proporcionada por la Librería Iztaccihuatl, todos los
datos recaudados provienen de sistemas transaccionales que pueden ser puntos de

7
ventas dentro del local o mediante comercio electrónico lo cual hace suponer que la
información se almacena en una base de datos relacional. Oracle Corporation la
describe como “Un almacén de datos relacional almacena y proporciona acceso a
puntos de datos relacionados entre sí. Las bases de datos relacionales toman como
referencia el modelo relacional, una forma perspicaz y directa de representar datos en
las tablas. En una base de datos relacional, cada fila de la tabla tiene un registro con
un identificador único llamado clave. Las columnas de la tabla contienen atributos de
los datos, y cada registro tiene un valor para cada atributo, lo que posibilita el
establecimiento de las relaciones entre los puntos de datos” (Oracle, 2021).
Este tipo de base de datos también sirve para aplicar Inteligencia de Negocios y
Ciencia de Datos ya que cuenta con las herramientas necesarias.Por ejemplo, Python
ha obtenido mucho interés recientemente como el lenguaje de elección para análisis
de datos. Estelenguaje tiene el conjunto de librerías para análisis de datos y modelado
predictivo, sin mencionar una curva de aprendizaje menos pronunciada. Microsoft “ha
integrado a su motor de base de datos SQL Server el lenguaje de ciencia de datos R,
ahora provee una interfaz que puede ejecutar eficientemente modelos y generar
predicciones usando los servicios SQL R. Python construye sobre la base propuesta
por los Servicios R en SQL Server, y extiende ese mecanismo para incluir soporte
para Python para análisis en la base de datos y aprendizaje de máquina” (Microsoft,
2021).
En caso la empresa quiera dar un paso adelante en cuanto a tecnología e innovar en
la explotación de datos, podría usar como alternativa una base de datos NoSQL
también conocidas como “No sólo SQL”, para guardar grandes volúmenes de datos
que serán empleados de manera sencilla y también económicos ya que para su
implementación no necesitan de muchos recursos físicos. “Su auge actual viene sujeto
por el uso que han hecho las principales compañías de internet como Amazon,
Google, Twitter y Facebook. Estas grandes compañías tenían que enfrentarse a
nuevos retos en el tratamiento de los datos motivados por el enorme crecimiento de
la Web donde se requería dar respuesta a la necesidad de proporcionar información
procesada a partir de grandes volúmenes de datos con unas estructuras horizontales,
más o menos, similares y con aplicaciones web que debían dar respuesta a las
peticiones de un número elevado e indeterminado de usuarios en el menor tiempo
posible” (Oracle, 2021).

8
El uso de estos almacenes podría servir para alojar documentos o tiendas de
documentos, como ebooks que serían de gran beneficio a Iztaccihuatl, ya que ofrecen
mucha flexibilidad, escritura rápida, y consultas rápidas gracias a su gran capacidad
de indexación. En el mercado actual existen diversas marcas reconocidas MongoDb,
MongoDB Atlas para Azure de 10gen y CouchDB, de Apache. En miras al futuro se
optaría por una base de datos NoSQL.
4.3. ¿Qué lenguaje de programación para ciencia de datos utilizaría para
realizar el análisis de datos de la Librería Iztaccihuatl?
El lenguaje de programación debe de estar acorde a los requisitos que se hayan
seleccionado anteriormente, de igual manera existen muchos en el mercado, con
entornos de costo y otros de código abierto o sin licencia. Para un ETL (Extract,
Transform, Load), si se va a usar una base de datos NoSQL como MongoDB, podría
combinar su uso con lenguajes clásicos como: C#, Java o Python o los modernos con
gran crecimiento como NodeJS y GO. Lo recomendable es un entorno que pueda ser
de fácil manejo, escalable, comprensible, que no consuman muchos recursos.
Si la empresadecide optar por lenguajes clásicos,podría incluso hacer sus desarrollos
In-House, con C# fácilmente se crearían los procesos para transformar datos, según
el portal de Microsoft “C# (pronunciado "si sharp" en inglés) es un lenguaje de
programación moderno, basado en objetos y con seguridad de tipos que permite a los
programadores crear diversos tipos de aplicaciones robustas, seguras y sólidas que
se ejecutan en el ecosistema de .NET. C# tiene sus raíces en la familia de lenguajes
C” (Microsoft, 2021).
Asimismo, Java que es un “lenguaje de programación y una plataforma informática
creada por Sun Microsystems. Hay muchas aplicaciones y sitios web que no
funcionarán a menos que tenga Java instalado y cada día se crean más. Java es
rápido, seguro y fiable. Desde portátiles hasta centros de datos, desde consolas para
juegos hasta súper computadoras, desde teléfonos móviles hasta Internet, Java está
en todas partes” (Oracle, 2021).
Por último, Python “Python es un lenguaje de programación potente y fácil de
aprender. Tiene estructuras de datos de alto nivel eficientes y un simple pero efectivo
sistema de programación orientado a objetos. Python tiene una elegante sintaxis y su
tipado dinámico, junto a su naturaleza interpretada lo convierten en un lenguaje ideal
para scripting y desarrollo rápido de aplicaciones en muchas zonas, para la mayoría

9
de las plataformas” (Python, 2021). Python para ciencia de datos es lenguaje de
programación más usado pues, proporciona todas las herramientas necesarias para
llevar a cabo este proceso de manera efectiva con bibliotecas (estadísticas y
numéricas como Pandas, Numpy, Matplotlib, SciPy, scikit-learn, etc) dedicadas para
cada paso.
Como vemos la mejor opción para la empresa sería el uso de Python como lenguaje
de programación porque cuenta con herramientas para: Recopilación y limpieza de
datos, exploración de datos, modelado de datos y visualización e interpretación de
datos.
4.4. ¿Qué adecuaciones se podría hacer a los datos de la Librería Iztaccihuatl
para poder realizar un análisis predictivo?
El análisis predictivo consiste en la extracción de información en los datos y su
utilización para predecir tendencias y patrones de comportamiento, pudiendo aplicarse
sobre cualquier evento desconocido,ya seaen el pasado, presente o futuro. El análisis
predictivo se fundamenta en la identificación de relaciones entre variables en eventos
pasados, para luego explotar dichas relaciones y predecir posibles resultados en
futuras situaciones. Ahora bien, hay que tener en cuenta que la precisión de los
resultados obtenidos depende mucho de cómo se ha realizado el análisis de los datos,
así como de la calidad de las suposiciones.
Para iniciar las adecuaciones se debe de considerar:
a) Recolectarlos datos: No es algo simple,la forma interesante de comenzaresta
etapa es indagando qué interrogantes son necesarias para obtener las
respuestas, para luego centrarse en la información necesaria que necesitas la
empresa.
b) Estructurar los datos: Es la fase de la estrategia donde se transfiere los datos
a un lugar donde se pueda facilitar la visión de la información recolectada. Por
ejemplo: Excel, ClikView, Power BI.
c) Analizar los datos: Es el momento de comprender las anomalías o tendencias,
por ejemplo, el mes en que se tiene la mayor tasa de cancelación de pedidos,
para así pensar en un plan de acción más efectivo.
d) Aplicar estadística: Aplicar la estadística descriptiva e inferencial que son parte
del análisis predictivo.

10
e) Modelaje: Se reúne técnicas matemáticas, las primeras ideas sobre los
posibles hechos en el futuro comienzan a aparecer.
f) Monitorear el modelo: Consiste en monitorear los pasos anteriores para que el
modelo continúe siendo confiable.
4.5. ¿Qué predicciones se podrían obtener de los datos de la Librería
Iztaccihuatl?
Las predicciones que podríamos obtener de los datos de la Librería Iztaccihuatl son:
a) Previsión de la demanda: Predecir la demanda futura de los clientes haciendo
estimaciones sobre la base a los datos históricos. Por ejemplo, podríamos
calcular la demanda del periodo anterior mediante la siguiente formula:
previsión de demanda = demanda media (período actual) * factor estacional
(período actual)
b) Venta cruzada: Identificar el potencial de venta cruzada mediante la
comercializaciónde productos complementarios a los que consume o pretende
consumir un cliente. Podría usarse el cross-selling ofreciendo productos
complementarios o el upselling ofreciendo otro producto que constituye una
mejora u perfeccionar de la compra principal que el cliente ha hecho, con el fin
de conocer sus necesidades.
c) Comportamiento del consumidor:Según Schiffman(2002), “el comportamiento
del consumidor se entiende como aquél que los compradores muestran al
buscar, comprar, utilizar, evaluar y desechar los productos y servicios que
consideran van a satisfacer sus necesidades”. Esta se logra prediciendo y
comprendiendo los patrones y propensión de compra y creando en tiempo real
ofertas personalizadas.
5. Conclusiones:
En función de los análisis realizados presento la propuesta sustentada en el beneficio
que conlleva su uso:
Propuesta Beneficio
Local (on-premise) - Nube Pública Ahorro en costes de infraestructura.
Base de datos NoSQL Escalabilidad
Versatilidadg

11
Orientado a la Ciencia de Datos
Económico
Soporte estructuras distribuidas
Lenguaje de Programación Python Simplificado y rápido
Cuenta con muchas librerías para ser
usadas en Ciencia de Datos
Adecuar los datos
 Estructurar los datos
 Analizar los datos
 Aplicar estadística
 Modelaje
 Monitorear el modelo
Permite conocer los usuarios más
interesados en tus productos o servicios
Predicciones
 Previsión de la demanda
 Venta cruzada
 Comportamiento del
consumidor
Mejorar las ventas
Tabla 1: Elaboración propia

Aplicando Ciencia de Datos en una Organización

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Similar a Aplicando Ciencia de Datos en una Organización

Similar a Aplicando Ciencia de Datos en una Organización (20)

Último

Último (20)

Aplicando Ciencia de Datos en una Organización