3.3 Tipos de conexiones en los transformadores trifasicos.pdf
Proyecto mineria de_datos_caso_1
1. UNIVERSIDAD AUTÓNOMA GABRIEL RENÉ MORENO
FACULTAD DE INGENIERÍA EN CIENCIAS DE LA COMPUTACIÓN
Y TELECOMUNICACIONES
IMPLEMENTACIÓN DE MINERÍA DE DATOS PARA
DETERMINAR PATRONES DE COMPORTAMIENTO DE
CLIENTES POTENCIALES PARA LA EMPRESA
“ADVENTURE WORKS”
TRABAJO DE INVESTIGACIÓN
CORRESPONDIENTE AL PROGRAMA “CIENCIA Y MINERÍA DE DATOS”
AUTOR:
Rojas Valdez Gustavo Rene
Dorado Medeiros Maria Nazarena
Ticona Angles Noemi
TUTOR:
Ing. David Mendoza Gutiérrez
Marzo 2021
Santa Cruz de la Sierra – Bolivia
2. Página | 1
DEDICATORIA
A:
A Dios, por tantas bendiciones para mi persona y darme las fuerzas para no desistir en los
estudios y poder así demostrar que puedo lograrlo.
A mis padres, por su incondicional apoyo en toda mi etapa académica.
A mis docentes, quienes me transmitieron sus conocimientos y ser una fuente de sabiduría digna
de admirar e imitar para mi futuro profesional.
3. Página | 2
AGRADECIMIENTOS
A:
A Dios, por la vida llena de bendiciones que me ha dado, por la salud, la familia y su infinito
amor y bondad.
A mi familia, quien ha sido mi apoyo y ganas de seguir adelante en todo momento.
A mis docentes, quienes han sido mis guías en toda mi etapa académica, transmitiendo sus
grandes conocimientos para mi formación profesional.
4. Página | 3
RESUMEN
El presente proyecto tiene como objetivo aplicar un modelo predictivo de minería de datos,
enfocado a prospectar clientes para la comercialización de un nuevo producto, para la empresa
“Adventure Works”. Esto con el propósito de poder hacer una campaña de marketing focalizada,
en primera etapa, a sólo los que realmente tendrán posibilidades de compra.
Para ello se utilizará como metodología la estructura de minería de datos y el algoritmo de
clasificación árboles de decisiones de Microsoft, para el modelado predictivo.
Las herramientas que nos ayudarán a identificar los factores claves que necesitamos conocer, son
SQL Server Data Tool y SQL Analysis Services Server mediante SQL Server Management Studio.
Aplicando en ambas sus correspondientes funciones para así generar el modelo de minería de datos
y aplicar su correspondiente predicción.
5. Página | 4
ABSTRACT
The objective of this project is to apply a predictive data mining model, focused on prospecting
customers for the commercialization of a new product for the company "Adventure Works". This
with the purpose of being able to make a marketing campaign focused, in the first stage, to only
those who will really have the possibility of buying.
For this purpose, the data mining structure and the Microsoft decision tree classification algorithm
will be used as a methodology for predictive modeling.
The tools that will help us to identify the key factors that we need to know are SQL Server Data
Tool and SQL Analysis Service Server through SQL Server Management Studio. Applying in both
their corresponding functions to generate the data mining model and apply its corresponding
prediction.
6. Página | 5
ÍNDICE DE CONTENIDO
CONTENIDO
CAPÍTULO I INTRODUCCIÓN................................................................................................ 1
1.1 ANTECEDENTES............................................................................................................... 1
PLANTEAMIENTO DEL PROBLEMA........................................................................................ 2
2.1 OBJETIVOS......................................................................................................................... 2
OBJETIVO GENERAL .................................................................................................................. 2
OBJETIVOS ESPECÍFICOS.......................................................................................................... 2
CAPÍTULO II BASE DE DATOS............................................................................................... 4
2.1 ADVENTURE WORKS...................................................................................................... 4
CAPÍTULO III LA ESTRUCTURA DE LA MINERÍA DE DATOS ..................................... 5
3.1 ÁRBOLES DE DECISIONES............................................................................................. 5
DEFINICIÓN.................................................................................................................................. 5
DESCRIPCIÓN............................................................................................................................... 5
REQUISITOS.................................................................................................................................. 5
4.1 MODELADO....................................................................................................................... 6
ORIGEN DE DATOS (DATA SOURCES) ................................................................................... 6
VISTA DE ORÍGENES DE DATOS (DATA SOURCE VIEWS) ................................................ 7
ESTRUCTURA DE MINERÍA DE DATOS (MINING STRUCTURES) .................................. 11
ESPECIFICACIÓN DE DATOS DE ENTRENAMIENTO ........................................................ 13
5.1 RESULTADOS.................................................................................................................. 19
MINING STRUCTURE................................................................................................................ 19
MODELO DE MINERÍA DE DATOS (MINING MODELS)..................................................... 20
VISTA DE MODELO DE MINERÍA DE DATOS (MINING MODEL VIEWER) ................... 20
DEPENDENCY NETWORK ....................................................................................................... 21
INFORME GENERADO DE PREDICCIÓN DE CLIENTES CON MAYOR PROBABILIDAD
DE COMPRA................................................................................................................................ 22
6.1 CONCLUSIONES ............................................................................................................. 24
8. Página | 7
ÍNDICE DE ILUSTRACIONES
Ilustración 1: Diagrama ADVENTURE BD WORKS. .......................................................................................................................... 4
Ilustración 2: Conexión manager de Data Sources en Data Tools. .............................................................................................. 6
Ilustración 3: Selección de Data Sources en Data Tools. .................................................................................................................. 7
Ilustración 4: Selección a data source en Data Tools. ....................................................................................................................... 8
Ilustración 5: Selección tablas y views en data tools ......................................................................................................................... 8
Ilustración 6: Data Source Views en Data Tools. ...............................................................................................................................10
Ilustración 7: Creación de la data Mining Structure en Data Tools. ......................................................................................... 11
Ilustración 8: Selección de Tablas en Data Tools. .............................................................................................................................12
Ilustración 9: Specifiy the Training Data en Data Tools. ...............................................................................................................13
Ilustración 10: Specifiy Columns en Data Tools. ................................................................................................................................15
Ilustración 11: Create Testing Set en Data Tools. .............................................................................................................................16
Ilustración 12: Ejecución de modelado. ................................................................................................................................................ 18
Ilustración 13: Mining Structure en data tools. .................................................................................................................................19
Ilustración 14: Mining Models en data tools....................................................................................................................................... 20
Ilustración 15: Mining Model Viewer en data tools. ........................................................................................................................ 21
Ilustración 16: Dependency Network en Mining Model Viewer. .................................................................................................21
Ilustración 19: Resultado informe de predicción generado. .........................................................................................................23
9. Página | 1
CAPÍTULO I
INTRODUCCIÓN
1.1 ANTECEDENTES
La empresa “Adventure Works” se dedica a la comercialización de bicicletas. La demanda interna
de bicicletas básicamente está constituida por usuarios jóvenes o niños, de arraigo cultural y
mayormente en los niveles socioeconómicos menos favorecidos.
A nivel internacional se observa una tendencia hacia un transporte más sostenibles y el uso de la
bicicleta se volvió una tendencia actual. El Worldwide Cycling Índex (Índice Ciclista Mundial)
estima desde 2014 la progresión general del tráfico de bicicletas por país y ciudad de forma anual.
Para ello sus responsables utilizan datos de más de 3.000 contadores automáticos instalados en
bicicletas en 39 países. Según su edición más reciente de 2019, el uso de la bicicleta a nivel mundial
ha aumentado en un 6%, en comparación con los datos de 2017 y 2018.
La bicicleta es un medio de transporte sostenible, sencillo, asequible, fiable, limpio y ecológico
que contribuye a la gestión ambiental y beneficia la salud. Puede servir como instrumento para el
desarrollo, no solo como medio de transporte, sino también al facilitar el acceso a la educación, la
atención de la salud y el deporte. Entonces la relación entre la bicicleta y su usuario fomenta la
creatividad y la participación social; asimismo, permite al ciclista conocer de primera mano el
entorno local. Por lo tanto, es un símbolo del transporte sostenible y transmite un mensaje positivo
para fomentar el consumo y la producción sostenibles; además, repercute beneficiosamente en el
clima.
10. Página | 2
PLANTEAMIENTO DEL PROBLEMA
La toma de decisiones en una empresa tiene como fin encontrar las mejores soluciones en cada
momento. Es un proceso que debe alinearse con los objetivos de la sociedad y las circunstancias
internas y externas.
La empresa Adventure Works pretende conocer los patrones de comportamiento de sus clientes a
la hora de realizar compras, y se ve en la necesidad de saber esta y así posteriormente poder realizar
una campaña de marketing focalizada y objetiva, en base al estudio correspondiente.
Adventure Works adquirió la compra de una base de datos con las características más relevantes
de los compradores habituales de este producto en otras latitudes, con tal de poder hacer una
campaña de marketing enfocada a los clientes que tendrían más posibilidad de compra.
Se pretende, a través de un modelo de minería de datos, identificar los patrones de comportamiento
de los clientes.
2.1 OBJETIVOS
OBJETIVO GENERAL
Generar un modelo de minería de datos para que mediante un análisis de atributos identificar los
patrones de comportamiento y posteriormente aplicarlo a clientes potenciales.
OBJETIVOS ESPECÍFICOS
• Definir el problema.
• Preparar los datos.
• Explorar datos.
11. Página | 3
• Generar un modelo de minería de datos utilizando el algoritmo árboles de decisiones de
Microsoft.
• Explorar y validar el modelo de minería de datos.
• Evaluar los patrones de comportamiento de compra con las entidades
dbo.ProspectiveBuyer.
-
12. Página | 4
CAPÍTULO II
BASE DE DATOS
2.1 ADVENTURE WORKS
Ilustración 1: Diagrama ADVENTURE BD WORKS.
Fuente: Elaboración propia
13. Página | 5
CAPÍTULO III
LA ESTRUCTURA DE LA MINERÍA DE DATOS
3.1 ÁRBOLES DE DECISIONES
DEFINICIÓN
El algoritmo de árboles de decisión de Microsoft es un algoritmo de clasificación que funciona
bien para el modelado predictivo. El algoritmo admite la predicción de atributos tanto discretos
como continuos.
DESCRIPCIÓN
Para los atributos discretos, el algoritmo hace predicciones basándose en las relaciones entre las
columnas de entrada de un conjunto de datos. Utiliza los valores, conocidos como estados, de estas
columnas para predecir los estados de una columna que se designa como elemento de predicción.
Específicamente, el algoritmo identifica las columnas de entrada que se correlacionan con la
columna de predicción.
Por ejemplo, en un escenario para predecir que clientes podrían comprar una bicicleta y los factores
que pudieran influir como el nombre, edad, estado civil, cantidad de hijos, etc. El algoritmo infiere
que la edad es un buen elemento de predicción en la compra. El árbol de decisión realiza
predicciones basándose en la tendencia hacia un resultado concreto
REQUISITOS
Los requisitos para un modelo de árbol de decisión son los siguientes:
Una columna de una sola clave: cada modelo debe contener una columna numérica o de texto
que identifique cada registro de manera única. No están permitidas las claves compuestas.
14. Página | 6
Una columna de predicción: Se requiere al menos una columna de predicción. Puede incluir
varios atributos de predicción en un modelo y pueden ser de tipos diferentes, numérico o discreto.
Sin embargo, el incremento del número de atributos de predicción puede aumentar el tiempo de
procesamiento.
Columnas de entrada: Se requieren columnas de entrada, que pueden ser discretas o continuas.
Aumentar el número de atributos de entrada afecta al tiempo de procesamiento.
4.1 MODELADO
ORIGEN DE DATOS (DATA SOURCES)
Partiendo de la base de datos ADVENTURE WORKS agregada en SQL SERVER como
prerrequisito, realizamos la configuración de una conexión a una base de datos desde un servidor
(Data sources).
Ilustración 2: Conexión manager de Data Sources en Data Tools.
Fuente: Elaboración Propia.
15. Página | 7
Ilustración 3: Selección de Data Sources en Data Tools.
Fuente: Elaboración Propia.
VISTA DE ORÍGENES DE DATOS (DATA SOURCE VIEWS)
La vista de orígenes de datos es vistas unificadas de los metadatos, desde las tablas y vistas
seleccionadas en los orígenes de datos. Creamos un origen de datos y en este visualizamos las
tablas y vistas de la base de datos “AdventureWorks” previamente cargada. Posteriormente
procederemos a visualizar las tablas y seleccionas las tablas que requieren para esta predicción.
16. Página | 8
Ilustración 4: Selección a data source en Data Tools.
Fuente: Elaboración Propia.
Ilustración 5: Selección tablas y views en data tools.
Fuente: Elaboración propia.
17. Página | 9
Las tablas y vistas a seleccionar para esta predicción son las siguientes:
● dbo.ProspectiveBuyer (Tabla)
● dbo.vAssocSeqLineItems (Vista)
● dbo.vAssocSeqOrders (Vista)
● dbo.vTargetMail (Vista)
● dbo.vTimeSeries (Vista)
18. Página | 10
Ilustración 6: Data Source Views en Data Tools.
Fuente: Elaboración Propia.
Modificar la vista de origen datos en este paso nos permite modificar cualquier objeto qué sea más
significativo para el objetivo, sin modificar el origen de datos original, pero se puede asignar un
nombre descriptivo o una relación entre tablas o vistas. Para nuestro objetivo procederemos a crear
una relación entre las vistas dbo.vAssocSeqLineItems y dbo.vAssocSeqOrders el cual es una
relación de muchos a uno.
19. Página | 11
ESTRUCTURA DE MINERÍA DE DATOS (MINING STRUCTURES)
Habilitamos el asistente de minería de datos para crear una estructura de minería de datos y
posteriormente seleccionar el “algoritmo de árboles de decisión” como técnica de minería de datos
a utilizar. .
Ilustración 7: Creación de la data Mining Structure en Data Tools.
Fuente: Elaboración Propia.
20. Página | 12
Ilustración 8: Selección de Tablas en Data Tools.
Fuente: Elaboración Propia.
De las tablas listadas anteriormente seleccionamos el escenario en este caso vTargetMail.
21. Página | 13
Posteriormente procedemos a especificar los datos de entrenamiento en este caso nuestra variable
de predicción será BikeBuyer.
Ilustración 9: Specifiy the Training Data en Data Tools.
Fuente: Elaboración Propia.
ESPECIFICACIÓN DE DATOS DE ENTRENAMIENTO
Columna Clave Entrada Predicción
PredictionCustomer x
BikeBuyer x x
Age x
22. Página | 14
CustomerKey x
EnglishEducation x
EnglishOccupation x
FirstName x
Gender x
Geographykey x
HouseOwnerFlag x
LastName x
MaritalStatus x
NumberCarsOwned x
NumberChildrenAtH
ome
x
Region x
TotalChildren x
YearlyIncome x
A Continuación, especificamos el contenido y el tipo de datos de las columnas y detectamos los
datos continuos y discretos para cada columna.
24. Página | 16
Seguidamente creamos el conjunto de datos de prueba con un porcentaje de datos de 30%.
Ilustración 11: Create Testing Set en Data Tools.
Fuente: Elaboración Propia.
25. Página | 17
Finalmente tenemos la vista de datos a procesar:
Hasta este punto tenemos creado el modelo de minería de datos para el algoritmo de árbol de
decisión y podemos crear otros modelos en este caso utilizaremos dos modelos adicionales que son
el algoritmo de Cluster y Naive Bayes.
26. Página | 18
Y procedemos a la ejecución de cada uno de estos modelos:
Ilustración 12: Ejecución de modelado.
Fuente: Elaboración Propia.
27. Página | 19
5.1 RESULTADOS
MINING STRUCTURE
La vista de VTargeMail con las columnas de Nombre (input), Estado civil (input), Género(input)
Bikebuyer (predictable), Edad (input), Estado civil (input), id cliente (key) y Número de hijos
(input) entre otros qué se utilizarán para este análisis.
Ilustración 13: Mining Structure en data tools.
Fuente: Elaboración Propia.
28. Página | 20
MODELO DE MINERÍA DE DATOS (MINING MODELS)
Estructura de TargerMail con ID Cliente como key, como valores de entrada: Apellido, Cantidad
de hijos, Edad, Estado Civil y Nombr y Bikebuyer como valor predecir la posibilidad de compra.
Para tener diferentes interpretaciones de los resultados.
Ilustración 14: Mining Models en data tools.
Fuente: Elaboración Propia.
VISTA DE MODELO DE MINERÍA DE DATOS (MINING MODEL VIEWER)
El resultado de este gráfico es discreto, ya que se muestran en color rosado las posibles compras
del producto con una aceptación del 49.42% que en teoría es casi el 50% de aceptación de lo
previsto. Como primer nivel están los clientes que poseen autos y seguidamente de la edad donde
podemos ver que las personas menores a 50 años tienen mayor podrían ser un grupo de personas a
29. Página | 21
los que se podría llegar con la campaña de marketing focalizada para aumentar la venta de
bicicletas.
Ilustración 15: Mining Model Viewer en data tools.
Fuente: Elaboración Propia.
DEPENDENCY NETWORK
La tendencia de compra por parte de los clientes está más inclinada o tienen un lazo más fuerte por
el número de autos que tiene.
Ilustración 16: Dependency Network en Mining Model Viewer.
Fuente: Elaboración Propia.
30. Página | 22
ALGORITMO DE CLUSTER
En esta gráfica se puede visualizar las relaciones entre los diferentes parámetros y así ver las
diferentes probabilidades de compra.
Ilustración 16: Lif Chart in data tools.
Fuente: Elaboración Propia.
INFORME GENERADO DE LAS CARACTERISTICAS DE CADA CLIENTE
POTENCIAL
Una vez elaborada y guardada la query, se genera una tabla, conectamos a la base de datos y
generamos como informe de predicción de minería de datos, obteniendo el listado de clientes con
su características y sus patrones de comportamiento. Lo mismo que se muestra en el resultado del
modelo, manteniendo así la integridad de los datos.
32. Página | 24
6.1 CONCLUSIONES
• Con el presente proyecto logramos encontrar posibles clientes potenciales para poder
realizar una toma de decisiones, para el marketing focalizado que pretende realizar la
empresa Adventure Works.
• El aprovechamiento de la minería de datos permite ahorrar grandes cantidades de dinero a
una empresa y abre nuevas oportunidades de negocios.
• Asimismo, podemos analizar las condiciones del mercado, la competencia y aprovechar las
oportunidades de crecimiento.
• En referencia al ámbito empresarial, podemos decir que los árboles de decisión son
diagramas de ediciones secuenciales que nos muestran sus posibles resultados. Estos
ayudan a las empresas a determinar cuáles son sus opciones al mostrarles las distintas
decisiones y sus resultados
33. Página | 25
7.1 BIBLIOGRAFÍA
1. Minería de datos. (2020). Recuperado el 25 marzo 2021, de
https://es.wikipedia.org/wiki/Minería_de_datos
2. Conceptos de minería de datos. (2019). Recuperado 25 marzo 2021, de
https://docs.microsoft.com/es-es/analysis-services/data-mining/data-mining-
concepts?view=asallproducts-allversions
3. Referencia técnica del algoritmo de árboles de decisión de Microsoft. (2018). Recuperado 25
de marzo 2021, de https://docs.microsoft.com/es-es/analysis-services/data-mining/microsoft-
decision-trees-algorithm-technical-reference?view=asallproducts-allversions
4. Microsoft Decision Trees Algorithm. (2018). Recuperado 27 marzo 2021, de
https://docs.microsoft.com/en-us/analysis-services/data-mining/microsoft-decision-trees-
algorithm?view=asallproducts-allversions
5. Ejemplos de consultas de modelos de árboles de decisión. (2018). Retrieved 25 marzo 2021,
de https://docs.microsoft.com/es-es/analysis-services/data-mining/decision-trees-model-query-
examples?view=asallproducts-allversions
6. Using Decision Trees in SQL Server – SQL Server Performance. (2012). Recuperado 27 marzo
2021, de https://www.sql-server-performance.com/decision-trees-sql-server/
7. Asanka, Dinesh. (2019). Microsoft Decision Trees in SQL Server. Recuperado 15 marzo 2021,
de https://www.sqlshack.com/microsoft-decision-trees-in-sql-server/