SlideShare una empresa de Scribd logo
1 de 328
Deusto
Facultad de Ingeniería
Universidad de Deusto
Ingeniaritza Fakultatea
Deustuko Unibertsitatea
Máster Universitario en Ingeniería
Industrial
Industria Ingeniaritzako Unibertsitate
Masterra
Proyecto fin de máster
Master amaierako proiektua
Aplicación de técnicas de machine learning
para la optimización de procesos de Ocean
Sunglasses
Eder Canduela Conde
Director: Alex Rayón Jerez
Bilbao, mayo de 2019
iii
Resumen
El presente proyecto tiene como finalidad la optimización de procesos de Ocean Sunglasses a
través de la aplicación de técnicas de machine learning y Business Analytics. De esta forma, se
generará valor a los datos obtenidos por medio de fuentes tanto internas, como externas al
negocio, obteniendo una relación directa entre los datos de los clientes y la generación de valor
para la empresa.
Con el objetivo mencionado, se empleará la metodología CRISP-DM para el desarrollo del
proyecto.
En una primera parte, se comenzará por la comprensión del negocio. Se realizará un análisis
externo e interno del negocio para poder formular las cuestiones de negocio sobre las que
desarrollar el proceso técnico.
Posteriormente, se hará uso de un software de programación opensource con enfoque
estadístico para dar respuesta a las cuestiones de planteadas, generando modelos de machine
learning que ayuden al desarrollo del proyecto.
Finalmente, se proponen estrategias de negocio a seguir por la empresa a través de las
conclusiones obtenidas durante el desarrollo técnico del proyecto que ayuden a la mejora y
optimización de procesos de la empresa.
Descriptores
Tecnología Big Data
Machine learning
eCommerce
Business Intelligence
Valor
v
Índice de contenidos
1. INTRODUCCIÓN ..................................................................................................................... 1
1.1 Objeto del proyecto .......................................................................................................... 1
1.2 Objetivos........................................................................................................................... 2
1.2.1 Objetivo general ..................................................................................................... 2
1.2.2 Objetivos específicos ............................................................................................. 2
1.3 Alcance............................................................................................................................. 2
2. ANTECEDENTES.................................................................................................................... 5
2.1 eCommerce...................................................................................................................... 5
2.1.1 Historia del comercio.............................................................................................. 5
2.1.2 Formas de comercio electrónico............................................................................ 7
2.1.2.1 Según el tipo de cliente.................................................................................... 7
2.1.2.2 Según el modelo de negocio............................................................................ 9
2.1.2.3 Según la plataforma ....................................................................................... 10
2.1.3 Obligaciones legales ............................................................................................ 11
2.1.3.1 Protección de datos de carácter personal...................................................... 11
2.1.3.2 Correo electrónico comercial ......................................................................... 12
2.1.3.3 Notificación sobre las “cookies” ..................................................................... 13
2.1.3.4 Información obligatoria que ha de ofrecer la página web .............................. 13
2.1.4 Comercio electrónico en España ......................................................................... 15
2.2 Big Data.......................................................................................................................... 16
2.2.1 Introducción.......................................................................................................... 16
2.2.2 Machine Learning................................................................................................. 19
2.2.2.1 Técnicas de Machine Learning ...................................................................... 20
3. METODOLOGÍA DEL PROYECTO ...................................................................................... 29
4. ESTUDIO DEL NEGOCIO..................................................................................................... 33
4.1 Definición del negocio .................................................................................................... 33
4.1.1 Organigrama ........................................................................................................ 34
4.1.2 Productos ............................................................................................................. 34
4.1.3 Canales ................................................................................................................ 35
4.1.4 Sponsors .............................................................................................................. 36
4.2 Análisis externo .............................................................................................................. 36
4.2.1 El entorno: nivel macro ........................................................................................ 36
4.2.2 La industria: nivel micro ....................................................................................... 41
4.2.3 Posición estratégica de la empresa..................................................................... 43
vi
4.3 Análisis interno ...............................................................................................................47
4.3.1 Recursos ..............................................................................................................47
4.3.2 Competencias esenciales ....................................................................................50
4.4 DAFO..............................................................................................................................53
4.4.1 Capacidades.........................................................................................................53
4.5 Preguntas de negocio.....................................................................................................54
4.5.1 Cadena de valor ...................................................................................................54
4.5.2 Mapa estratégico..................................................................................................55
4.5.3 Formulación de cuestiones ..................................................................................56
5. DESARROLLO TÉCNICO .....................................................................................................57
5.1 Entorno de trabajo ..........................................................................................................58
5.2 Estudio y comprensión de los datos...............................................................................59
5.3 Desarrollo de un modelo descriptivo ..............................................................................61
5.3.1 Preparación de los datos......................................................................................62
5.3.2 Data Mining ..........................................................................................................64
5.3.2.1 Enriquecimiento del modelo ...........................................................................68
5.3.2.2 Customer Lifetime Value ................................................................................75
5.3.2.3 Estudio en España .........................................................................................78
5.3.3 Conclusiones........................................................................................................80
5.4 Desarrollo de un modelo predictivo ................................................................................81
5.4.1 Preparación de los datos......................................................................................81
5.4.1.1 Países de estudio ...........................................................................................83
5.4.1.2 Efecto de los cupones ....................................................................................84
5.4.1.3 Hábitos de compra .........................................................................................85
5.4.2 Data Mining ..........................................................................................................87
5.4.2.1 Análisis exploratorio .......................................................................................88
5.4.2.2 Preprocesado de datos ..................................................................................94
5.4.2.3 División de los datos en entrenamiento y test................................................95
5.4.2.4 Selección de predictores ................................................................................96
5.4.2.5 Variación del muestreo...................................................................................98
5.4.2.6 Construcción de modelos...............................................................................98
5.4.2.7 Comparación entre modelos ........................................................................102
5.4.2.8 Predicción.....................................................................................................106
5.4.2.9 Estudio en España .......................................................................................107
5.4.3 Conclusiones......................................................................................................108
5.5 Análisis de Redes Sociales (ARS) ...............................................................................109
vii
5.5.1 Extracción de datos de Twitter........................................................................... 111
5.5.2 Carga de datos................................................................................................... 111
5.5.3 Limpieza de texto y tokenización ....................................................................... 112
5.5.4 Análisis exploratorio de datos ............................................................................ 113
5.5.5 Text Mining......................................................................................................... 119
5.5.5.1 Análisis de sentimientos............................................................................... 120
5.5.5.2 Term Frequency e Inverse Document Frequency ....................................... 123
5.5.5.3 Relaciones entre palabras: correlaciones y n-gramas................................. 125
5.5.6 Conclusiones...................................................................................................... 131
6. ESTRATEGIAS DE NEGOCIO............................................................................................ 133
6.1 Implantación de un ERP............................................................................................... 134
6.2 Campañas de marketing .............................................................................................. 136
6.2.1 Inbound Marketing ............................................................................................. 139
6.2.1.1 Auditoría del canal de tráfico........................................................................ 141
6.2.1.2 AdWords....................................................................................................... 144
6.2.1.3 Blog de contenido......................................................................................... 146
6.2.1.4 Lead scoring y lead nurturing....................................................................... 147
6.2.2 Costumer Marketing........................................................................................... 148
6.2.2.1 Email marketing............................................................................................ 148
6.2.2.2 Marketing de productos................................................................................ 149
6.2.2.3 Promociones y encuestas ............................................................................ 150
6.3 Implantación de una herramienta de BI ....................................................................... 150
6.3.1 Procesos de negocio a los que dar soporte....................................................... 151
6.3.2 Usuarios del nuevo sistema y escenarios de uso.............................................. 152
6.3.2.1 Usuarios del nuevo sistema ......................................................................... 152
6.3.2.2 Escenarios de uso........................................................................................ 153
6.3.3 Restricciones...................................................................................................... 154
6.3.3.1 Plazos........................................................................................................... 154
6.3.3.2 Descripción de las tareas y justificación de tiempos.................................... 154
6.3.3.3 Presupuesto ................................................................................................. 156
6.3.3.4 Implantación y adaptación del sistema por parte del personal.................... 156
6.3.4 Criterios para la selección de herramientas....................................................... 156
6.3.4.1 Planteamiento del problema de decisión ..................................................... 156
6.3.4.2 Selección de criterios ................................................................................... 156
6.3.5 Herramientas analizadas ................................................................................... 158
6.3.6 Elección de la herramienta................................................................................. 159
viii
7. CONCLUSIONES Y RESULTADOS ...................................................................................161
8. LÍNEAS FUTURAS ..............................................................................................................165
9. PLAN DE TRABAJO ...........................................................................................................167
10.PRESUPUESTO ..................................................................................................................173
11.VALORACIÓN PERSONAL DEL PFM ...............................................................................177
12.BIBLIOGRAFÍA....................................................................................................................179
GLOSARIO DE TÉRMINOS .....................................................................................................183
ANEXO 1. DESARROLLO DEL MODELO DESCRIPTIVO.....................................................185
Preparación de los datos......................................................................................................185
Proceso de data mining........................................................................................................196
Cálculo de los pesos del modelo RFM.................................................................................212
ANEXO 2. DESARROLLO DEL MODELO PREDICTIVO .......................................................215
Preparación de los datos......................................................................................................215
Proceso de data mining........................................................................................................240
ANEXO 3. ANÁLISIS DE REDES SOCALES..........................................................................265
ANEXO 4. ELECCIÓN DE LA HERRAMIENTA DE BI............................................................293
Cálculo de los pesos de los criterios....................................................................................293
Cálculo de los pesos para la elección de la herramienta.....................................................296
ANEXO 5. AUDITORÍA SEO ENTRE OCEAN Y HAWKERS..................................................305
ix
Índice de ilustraciones
Ilustración 1 Integración del sistema EDI[2]...................................................................................5
Ilustración 2 Línea de tiempo del comercio electrónico[3].............................................................6
Ilustración 3 Clasificación de los comercios electrónicos [Fuente: elaboración propia] ................7
Ilustración 4 Proceso de un modelo dropshipping[9].....................................................................9
Ilustración 5 Página oficial de la AEPD para completar el formulario NOTA [Fuente: Gobierno
de España]............................................................................................................................11
Ilustración 6 Ejemplo del modelo de recogida de datos de la página [Fuente: Ocean Sunglases]12
Ilustración 7 Acceso a la recepción de newsletters tras el registro en Ocean Sunglasses
[Fuente: Ocean Sunglases] ..................................................................................................13
Ilustración 8 Información acerca de la web Ocean Sunglasses [Fuente: Ocean Sunglases] .....14
Ilustración 9 Nivel de digitalización de las compañías a nivel mundial[10]..................................15
Ilustración 10 Volumen de comercio electrónico B2C[11] ...........................................................15
Ilustración 11 4V's del Big Data [Fuente: elaboración propia] .....................................................17
Ilustración 12 Esquema de la combinación de paradigmas[13] ..................................................18
Ilustración 13 Clasificación de las empresas por capitalización bursátil entre 2007 y 2017[14] .18
Ilustración 14 Clasificación de los componentes del aprendizaje automático [Fuente:
elaboración propia] ...............................................................................................................19
Ilustración 15 Tipologías y técnicas de Machine Learning[15] ....................................................20
Ilustración 16 Métodos para el procesamiento del lenguaje natural y la visión artificial[15] .......22
Ilustración 17 Ejemplo de predicción de la temperatura por medio de regresión lineal simple[17]23
Ilustración 18 Árbol de decisión usado para un procedimiento de clasificación [19]...................23
Ilustración 19 Funcionamiento del meto KNN..............................................................................24
Ilustración 20 Representación del hiperplano generado por un SVM[17] ...................................25
Ilustración 21 Red neuronal monocapa[20] .................................................................................25
Ilustración 22 Modelo basado en una red neuronal de varias capas[21] ....................................26
Ilustración 23 Generación de clusters a partir de un set de 150 datos aplicando K-means[16]..27
Ilustración 24 Ejemplo de dendograma obtenido a partir de 9 observaciones[16]......................27
Ilustración 25 Validación cruzada dejando K iteraciones.............................................................28
Ilustración 26 Ciclo de vida del proyecto de minería de datos[22] ..............................................29
Ilustración 27 Metodología de desarrollo del proyecto [Fuente: elaboración propia] ..................31
Ilustración 28 Visualización de la página web[23] .......................................................................33
Ilustración 29 Organigrama de la empresa Ocean Sunglasses [Fuente: elaboración propia] ....34
Ilustración 30 Divisiones de la gama de productos [Fuente: elaboración propia] .......................35
Ilustración 31 Redes sociales en las que se encuentra la marca................................................35
Ilustración 32 Ejemplo de rider de Ocean Sunglasses [Fuente: Ocean Sunglasses] .................36
x
Ilustración 33 Entornos analizados [Fuente: elaboración propia] ............................................... 36
Ilustración 34 Pymes que venden online (2017). [Fuente: Eustat][25] ....................................... 37
Ilustración 35 índice de Economía y Sociedad Digitales DESI (2017) [Fuente: Eurostat][26].... 38
Ilustración 36 Dimensión capital humano (%) [Fuente: Eurostat][25] ......................................... 38
Ilustración 37 Comparativa de dimensiones DESI [Fuente: Eurostat] [26] ................................. 39
Ilustración 38 Análisis PESTEL sobre el macroentorno de la empresa [Fuente: elaboración
propia] .................................................................................................................................. 40
Ilustración 39 5 fuerzas de Porter para el análisis de la estructura sectorial[24]........................ 41
Ilustración 40 Ejes y cuadrantes de la matriz PEYEA................................................................. 45
Ilustración 41 Análisis de competencias clave [Fuente: elaboración propia].............................. 50
Ilustración 42 Clasificación y ejemplos de capacidades [Fuente: elaboración propia] ............... 53
Ilustración 43 Formulación empleada para plantear las hipótesis de negocio [Fuente:
elaboración propia]............................................................................................................... 54
Ilustración 44 Cadena de valor del sector [Fuente: elaboración propia]..................................... 54
Ilustración 45 Mapa estratégico de Ocean Sunglasses [Fuente: elaboración propia]................ 56
Ilustración 46 Etapas del proceso de desarrollo técnico de los datos[31] .................................. 57
Ilustración 47 Plataformas tecnológicas en Big Data[32]............................................................ 58
Ilustración 48 Visualización de la herramienta RStudio empleada [Fuente: elaboración propia]59
Ilustración 49 Exploración de datos del archivo “mgt_sales_flat_order_item (ventas por
producto).csv”....................................................................................................................... 60
Ilustración 50 Pirámide de consumidores según el principio de Pareto[34] ............................... 61
Ilustración 51 Ejemplo de cálculo de la segmentación de un cliente a través del RFM[34] ....... 62
Ilustración 52 Resumen de los pasos a seguir en el desarrollo del modelo [Fuente: elaboración
propia] .................................................................................................................................. 62
Ilustración 53 Distribución de probabilidad alrededor de la media en una distribución N (μ,
σ2)[13]................................................................................................................................... 63
Ilustración 54 Valores del dataset final creado [Fuente: elaboración propia] ............................. 64
Ilustración 55 Votación realizada con los indicadores seleccionados [Fuente: elaboración
propia] .................................................................................................................................. 64
Ilustración 56 Numero óptimo de clústers recomendados para los métodos de clusterización por
los distintos indicadores [Fuente: elaboración propia]......................................................... 65
Ilustración 57 Codo generado a partir de todos los índices de la libería NbClust para K-means
[Fuente: elaboración propia] ................................................................................................ 65
Ilustración 58 Codo generado a partir de todos los índices de la libería NbClust para Ward.D2
[Fuente: elaboración propia] ................................................................................................ 66
Ilustración 59 Clústers obtenidos a través del algoritmo K-means [Fuente: elaboración propia]66
Ilustración 60 Clústers obtenidos a través del algoritmo Ward.D2 [Fuente: elaboración propia] 67
Ilustración 61 Diagramas de cajas para los valores de cada clúster [Fuente: elaboración propia]67
xi
Ilustración 62 Clasificando los clústers en función de los valores de los percentiles [Fuente:
elaboración propia] ...............................................................................................................68
Ilustración 63 Dataframe obtenido tras el enriquecimiento [Fuente: elaboración propia]............68
Ilustración 64 Localización de outliers a través del método local outlier factor [Fuente:
elaboración propia] ...............................................................................................................69
Ilustración 65 Regla del codo según el algoritmo PAM [Fuente: elaboración propia] .................69
Ilustración 66 Clusterización interna realizada por el algoritmo PAM [Fuente: elaboración
propia] ...................................................................................................................................70
Ilustración 67 Regla del codo obtenida para la distancia de Gowel [Fuente: elaboración propia]70
Ilustración 68 Obtención del número de clústers a través del método DBSCAN [Fuente:
elaboración propia] ...............................................................................................................71
Ilustración 69 Clústers obtenidos a través del algoritmo K-means tras el enriquecimiento
[Fuente: elaboración propia] .................................................................................................71
Ilustración 70 Datos técnicos que devuelve el modelo K-means [Fuente: elaboración propia] ..72
Ilustración 71 clustering realizado a través del algoritmo Ward.D2 [Fuente: elaboración propia]73
Ilustración 72 Árboles de decisión obtenidos para los modelos a) K-means y b) Ward.D2
[Fuente: elaboración propia] .................................................................................................74
Ilustración 73 Nodos obtenidos en los arboles de clasificación a) K-means b) Ward.D2 [Fuente:
elaboración propia] ...............................................................................................................74
Ilustración 74 Evolución del error relativo en el desarrollo de los arboles de decisión de los
modelos a) K-means b) Ward.D2 [Fuente: elaboración propia] ...........................................74
Ilustración 75 Perfil de los clientes con mayor potencial de crecimiento[36]...............................75
Ilustración 76 Escala Saaty[38]....................................................................................................76
Ilustración 77 Clústers obtenidos tras incluir el CLV [Fuente: elaboración propia] .....................76
Ilustración 78 Datos técnicos devueltos por el modelo K-means [Fuente: elaboración propia] ..77
Ilustración 79 Histograma de los valores de CLV obtenidos [Fuente: elaboración propia] .........78
Ilustración 80 Gráfica de barras de las provincias respecto a su CLV [Fuente: elaboración
propia] ...................................................................................................................................78
Ilustración 81 Geolocalización de los clientes de Ocean a) Marcadores simples b) En escala al
CLV de cada cliente [Fuente: elaboración propia]................................................................79
Ilustración 82 Geolocalización de los clústers en base al CLV [Fuente: elaboración propia] .....79
Ilustración 83 Proceso y modelo realizados [Fuente: elaboración propia] ..................................80
Ilustración 84 Datasets obtenidos tras el proceso de preparación de datos a) Productos
configurables b) Productos simples [Fuente: elaboración propia]........................................82
Ilustración 85 Índices de ventas por país para los productos simples (superior) y configurables
(inferior) [Fuente: elaboración propia]...................................................................................83
Ilustración 86 Gráficas de volumen y facturación de las ventas mensuales en los países de
elegidos [Fuente: elaboración propia]...................................................................................83
xii
Ilustración 87 Gráficas de volumen ventas a través de cupones descuento en los países de
estudio [Fuente: elaboración propia].................................................................................... 84
Ilustración 88 Gráficas de facturación mensuales a lo largo de los años de estudio [Fuente:
elaboración propia]............................................................................................................... 85
Ilustración 89 Gráficas de frecuencia diarias a lo largo de los años de estudio [Fuente:
elaboración propia]............................................................................................................... 86
Ilustración 90 Gráficas de frecuencia horarias a lo largo de los años de estudio [Fuente:
elaboración propia]............................................................................................................... 86
Ilustración 91 Dataset preparado para el desarrollo del modelo [Fuente: elaboración propia] .. 87
Ilustración 92 Análisis de las observaciones y valores ausentes [Fuente: elaboración propia] . 88
Ilustración 93 Grafica de distribución de la variable respuesta [Fuente: elaboración propia]..... 88
Ilustración 94 Tabla de frecuencias de los modelos de gafas [Fuente: elaboración propia] ...... 89
Ilustración 95 Graficas de densidad y caja de la variable "total factura" respecto a los modelos
de gafas [Fuente: elaboración propia].................................................................................. 89
Ilustración 96 Graficas de densidad y caja de la variable "qty_ordered" respecto a los modelos
de gafas [Fuente: elaboración propia].................................................................................. 90
Ilustración 97 Grafica de barras de las variables “gafas” y “coupon_code” [Fuente: elaboración
propia] .................................................................................................................................. 90
Ilustración 98 Grafica de barras de las variables “gafas” y “company” [Fuente: elaboración
propia] .................................................................................................................................. 91
Ilustración 99 Tablas de frecuencias relativas al modelo de gafas por uso de cupones y venta a
compañías [Fuente: elaboración propia].............................................................................. 91
Ilustración 100 diagramas de dispersión entre la variable “total factura” y las variables “price”,
“discount_invoiced”, “duración transacción” y “qty_ordered” [Fuente: elaboración propia]. 92
Ilustración 101 Test de correlación de Pearson para las variables “price” y “duración
transacción”, respecto a “total factura” [Fuente: elaboración propia] .................................. 92
Ilustración 102 Test de correlación de Pearson para las variables “discount_invoiced” y
“qty_ordered”, respecto a “total factura” [Fuente: elaboración propia] ................................ 93
Ilustración 103 Red bayesiana entre las variables de estudio [Fuente: elaboración propia]...... 93
Ilustración 104 Importancia de las variables según su reducción de la precisión y la pureza de
Gini [Fuente: elaboración propia] ......................................................................................... 94
Ilustración 105 Resultados del estudio de varianzas de los datos [Fuente: elaboración propia] 95
Ilustración 106 Partición aleatoria de los datos para entrenar y probar el modelo [Fuente:
elaboración propia]............................................................................................................... 96
Ilustración 107 Resultados tras el RFE [Fuente: elaboración propia]......................................... 96
Ilustración 108 Evolución del accuracy estimado en función del número de predictores incluido
en el modelo [Fuente: elaboración propia]........................................................................... 97
Ilustración 109 Resultado obtenidos con el método SBF [Fuente: elaboración propia] ............. 97
Ilustración 110 Resultado de las técnicas de muestreo empleadas [Fuente: elaboración propia]98
xiii
Ilustración 111 Gráficas de resultados obtenidos a partir de los modelos sin variar el muestreo
[Fuente: elaboración propia] ...............................................................................................102
Ilustración 112 Gráficas de resultados obtenidos a partir de los modelos con datos bajo
muestreo [Fuente: elaboración propia] ...............................................................................102
Ilustración 113 Gráficas de resultados obtenidos a partir de los modelos con datos sobre
muestreo [Fuente: elaboración propia] ...............................................................................103
Ilustración 114 Resultado del Test de Friedman [Fuente: elaboración propia] .........................104
Ilustración 115 Resultados del accuracy del test de Wilcoxon de los modelos a) sin variación de
muestreo b) bajo muestreo c) sobre muestreo [Fuente: elaboración propia].....................104
Ilustración 116 Predicciones de los distintos modelos para los datos de entrenamiento y test a)
sin variación en el muestreo b) bajo muestreo c) sobre muestreo [Fuente: elaboración
propia] .................................................................................................................................105
Ilustración 117 Comparación del accuracy para los distintos modelos con los datos de
entrenamiento y test sin realizar variaciones en el muestreo [Fuente: elaboración propia]105
Ilustración 118 Comparación del accuracy para los distintos modelos con los datos de
entrenamiento y test variando el muestreo (bajo muestreo) [Fuente: elaboración propia] 105
Ilustración 119 Comparación del accuracy para los distintos modelos con los datos de
entrenamiento y test variando el muestreo (sobre muestreo) [Fuente: elaboración propia]106
Ilustración 120 Primeras 6 predicciones realizadas por el modelo [Fuente: elaboración propia]106
Ilustración 121 Geolocalización de los modelos predichos según su índice de ventas [Fuente:
elaboración propia] .............................................................................................................107
Ilustración 122 Grafica de dispersión de las comunidades autónomas respecto a las ventas
realizadas de los modelos predichos [Fuente: elaboración propia]....................................107
Ilustración 123 Organigrama de los pasos seguidos para dar respuesta a la pregunta de
negocio [Fuente: elaboración propia] .................................................................................108
Ilustración 124 Proceso de text mining[44] ................................................................................110
Ilustración 125 APP creada para la extracción de datos de Twitter [Fuente: elaboración propia]111
Ilustración 126 Dataframe generado tras la extracción de tweets [Fuente: elaboración propia]112
Ilustración 127 Resultado tras el proceso de tokenización [Fuente: elaboración propia]..........113
Ilustración 128 Resultado tras el proceso de expansión [Fuente: elaboración propia] .............113
Ilustración 129 Graficas de barras del número de tweets publicados por los riders y la cuenta de
Ocean [Fuente: elaboración propia]....................................................................................114
Ilustración 130 Actividad de las cuentas a lo largo del tiempo [Fuente: elaboración propia] ....114
Ilustración 131 Grafico de barras del número de palabras usadas por cada rider y la cuenta
Ocean. Arriba: cantidad de palabras. Abajo: cantidad de palabras distintas [Fuente:
elaboración propia] .............................................................................................................115
Ilustración 132 Longitud media de tweets por usuario [Fuente: elaboración propia] ................115
Ilustración 133 Palabras más usadas por usuario [Fuente: elaboración propia].......................116
Ilustración 134 Graficas de frecuencias por usuario [Fuente: elaboración propia]....................116
xiv
Ilustración 135 Word Clouds de los tweets de los riders y la cuenta de Ocean [Fuente:
elaboración propia]............................................................................................................. 117
Ilustración 136 Word Cloud de los tweets de los usuarios filtrados por Key Word [Fuente:
elaboración propia]............................................................................................................. 117
Ilustración 137 Gráficos de correlaciones entre los Tweets de los riders y los usuarios de
Twitter [Fuente: elaboración propia]................................................................................... 118
Ilustración 138 Top 10 de palabras más diferenciadas entre los riders y los usuarios de Twitter
[Fuente: elaboración propia] .............................................................................................. 119
Ilustración 139 Metodología a seguir para la clasificación de Key Words [Fuente: elaboración
propia] ................................................................................................................................ 119
Ilustración 140 Graficas de barras del top 15 palabras de cada sentimiento [Fuente: elaboración
propia] ................................................................................................................................ 120
Ilustración 141 Graficas de barras apiladas de sentimientos generados por autor a) conteo de
palabras b) sentimientos predominantes [Fuente: elaboración propia] ............................. 121
Ilustración 142 Evolución de los sentimientos en los usuarios [Fuente: elaboración propia] ... 121
Ilustración 143 Proporción de sentimientos por países [Fuente: elaboración propia] .............. 122
Ilustración 144 Nube comparativa de palabras en función de sus sentimientos [Fuente:
elaboración propia]............................................................................................................. 122
Ilustración 145 Tabla de las palabras con mayor tf [Fuente: elaboración propia]..................... 123
Ilustración 146 Graficas de distribución del tf para cada autor [Fuente: elaboración propia] ... 123
Ilustración 147 Tabla con las 6 palabras de mayor idf [Fuente: elaboración propia]................ 124
Ilustración 148 Tabla con el top 10 valores obtenidos del tf-idf [Fuente: elaboración propia] .. 124
Ilustración 149 Top 10 palabras por tf-idf por usuario [Fuente: elaboración propia]................. 125
Ilustración 150 Visualización de los primeros 10 bigramas obtenidos [Fuente: elaboración
propia] ................................................................................................................................ 126
Ilustración 151 Dataframe creado tras el cálculo del tf-idf [Fuente: elaboración propia] .......... 126
Ilustración 152 Atributos y ejes del grafo creado [Fuente: elaboración propia] ........................ 128
Ilustración 153 Grafo obtenido a través de R [Fuente: elaboración propia].............................. 129
Ilustración 154 Grafo obtenido con Gephi [Fuente: elaboración propia]................................... 130
Ilustración 155 Pestaña "laboratorio de datos" [Fuente: Gephi] ............................................... 130
Ilustración 156 Proceso seguido para dar respuesta a las cuestiones de negocio [Fuente:
elaboración propia]............................................................................................................. 131
Ilustración 157 Cadena de suministro de Ocean [Fuente: elaboración propia] ........................ 133
Ilustración 158 Aplicaciones disponibles de la herramienta Odoo [Fuente: Odoo app] ........... 135
Ilustración 159 Costumer Journey Map de Ocean [Fuente: elaboración propia]...................... 137
Ilustración 160 Proceso de transformación [Fuente: elaboración propia]................................. 140
Ilustración 161 Puntuación obtenida para el posicionamiento SEO de a través de la página
WooRank [Fuente: WooRank] ........................................................................................... 142
xv
Ilustración 162 Análisis SEO realizado por WooRank [Fuente: WooRank]...............................142
Ilustración 163 Estadísticas sobre el tráfico web de Ocean Sunglasses y Hawkersco [Fuente:
SimilarWeb].........................................................................................................................143
Ilustración 164 Comparación entre las fuentes de tráfico de Ocean Sunglasses y Hawkersco
[Fuente: SimilarWeb] ..........................................................................................................143
Ilustración 165 Diferencia entre SEO y SEM en Google [Fuente: Google] ...............................144
Ilustración 166 Grafica del índice de competitividad y CPC por volumen de búsqueda de las
Key Words [Fuente: elaboración propia] ............................................................................144
Ilustración 167 Propuesta de la campaña a realizar [Fuente: Google AdWords]......................145
Ilustración 168 Visualización del anuncio en el buscador de Google [Fuente: Google AdWords]145
Ilustración 169 Estructura del blog creado [Fuente: Webnode].................................................146
Ilustración 170 Ejemplo de lead scoring[53] ..............................................................................147
Ilustración 171 Estrategias a seguir por tipología de cliente [Fuente: elaboración propia] .......148
Ilustración 172 Ejemplo de uso de la herramienta Inmersión [Fuente: Inmersión]....................149
Ilustración 173 Cadena de valor de Ocean Sunglasses [Fuente: elaboración propia]..............151
Ilustración 174 Resumen de implantación del sistema [Fuente: elaboración propia]................154
Ilustración 175 Cuadrante mágico de Gartner [Fuente: Gartner enero de 2019] ......................158
Ilustración 176 Mapa conceptual sobre el desarrollo del proyecto [Fuente: elaboración propia]161
Ilustración 177 Diagrama de Gantt de las tareas principales [Fuente: elaboración propia] ......167
Ilustración 178 Diagrama de Gantt de todas las tareas y subtareas realizadas [Fuente:
elaboración propia] .............................................................................................................168
Ilustración 179 Coste de implantación de las herramientas [Fuente: elaboración propia] ........173
Ilustración 180 Presupuesto completo del proyecto [Fuente: elaboración propia] ....................175
xvii
Índice de tablas
Tabla 1 Relaciones entre los distintos tipos de clientes [Fuente: elaboración propia] ..................8
Tabla 2 Información obligatoria que ha de ofrecer una página web [Fuente: elaboración propia]13
Tabla 3 Resumen del comercio electrónico 2017[11]..................................................................16
Tabla 4 Diferencias del aprendizaje automático respecto al modelo tradicional.........................20
Tabla 5 Representación de la matriz de confusión......................................................................21
Tabla 6 Criterios elegidas para la evaluación estratégica de la empresa [Fuente: elaboración
propia] ...................................................................................................................................46
Tabla 7 Características básicas de los recursos [Fuente: elaboración propia] ...........................47
Tabla 8 Auditoría de recursos [Fuente: elaboración propia]........................................................49
Tabla 9 Análisis de competencias de Ocean Sunglasses [Fuente: elaboración propia].............52
Tabla 10 Análisis DAFO de Ocean Sunglasses [Fuente: elaboración propia] ............................53
Tabla 11 Características generales de los archivos [Fuente: elaboración propia] ......................60
Tabla 12 Características del modelo descriptivo [Fuente: elaboración propia] ...........................61
Tabla 13 Significado obtenido de los clústers [Fuente: elaboración propia]................................73
Tabla 14 Pesos obtenidos tras el método AHP [Fuente: elaboración propia] .............................76
Tabla 15 Conclusiones tras la realización del modelo descriptivo ..............................................80
Tabla 16 Características del modelo predictivo [Fuente: elaboración propia] .............................81
Tabla 17 Relación entre los países de estudio y meses de peores ventas [Fuente: elaboración
propia] ...................................................................................................................................84
Tabla 18 Relación entre los países de estudio y cupones expendidos por mes [Fuente:
elaboración propia] ...............................................................................................................85
Tabla 19 Resultados para el algoritmo KNN [Fuente: elaboración propia]..................................99
Tabla 20 Resultados para el algoritmo Naive Bayes [Fuente: elaboración propia]...................100
Tabla 21 Resultados para el algoritmo regresión logística multinomial [Fuente: elaboración
propia] .................................................................................................................................100
Tabla 22 Resultados para el algoritmo C5.0 [Fuente: elaboración propia]................................100
Tabla 23 Resultados para el algoritmo random forest [Fuente: elaboración propia].................100
Tabla 24 Resultados para el algoritmo gradient boosting [Fuente: elaboración propia] ...........101
Tabla 25 Resultados para el algoritmo SVM [Fuente: elaboración propia] ...............................101
Tabla 26 Resultados para el algoritmo redes neuronales [Fuente: elaboración propia] ...........101
Tabla 27 Conclusiones tras realizar el modelo predictivo [Fuente: elaboración propia] ...........109
Tabla 28 Tabla de contingencia del coeficiente phi de Mathew ................................................127
Tabla 29 Lista de palabras obtenidas tras el filtrado por correlación [Fuente: elaboración propia]128
Tabla 30 Presupuesto de implantación del ERP [Fuente: elaboración propia] .........................136
Tabla 31 Criterios de selección de la herramienta de BI [Fuente: elaboración propia] .............157
xviii
Tabla 32 Pesos de criterios de primer nivel [Fuente: elaboración propia] ................................ 158
Tabla 33 Software analizado por compañía [Fuente: elaboración propia]................................ 159
Tabla 34 Resultado final obtenido por el método AHP [Fuente: elaboración propia] ............... 159
Tabla 35 Descripción de las tareas realizadas [Fuente: elaboración propia] ........................... 172
Tabla 36 Salario/hora de cada perfil de ingeniero [Fuente: elaboración propia] ...................... 173
Tabla 37 Desglose del coste anual para la implantación del ERP [Fuente: elaboración propia]173
Tabla 38 Desglose del coste anual para la implantación del SSD [Fuente: elaboración propia]174
Tabla 39 Estimación del presupuesto disponible en marketing online [Fuente: elaboración
propia] ................................................................................................................................ 174
Tabla 40 Estimación de costes para las campañas en marketing [Fuente: elaboración propia]174
Tabla A 1 Ponderación de la comparación de los criterios RFM [Fuente: elaboración propia] 212
Tabla A 2 Matriz de ponderación para la comparación entre criterios [Fuente: elaboración
propia] ................................................................................................................................ 212
Tabla A 3 Matriz de normalización por la suma de los criterios [Fuente: elaboración propia].. 213
Tabla A 4 Matriz de elección del Random Index [Fuente: elaboración propia]......................... 213
Tabla A 5 Análisis de consistencia entre juicios de criterios [Fuente: elaboración propia]....... 213
Tabla A 6 Pesos de criterios obtenidos [Fuente: elaboración propia]....................................... 213
Tabla A 7 Ponderación de comparación de criterios de 1er y 2º nivel [Fuente: elaboración
propia] ................................................................................................................................ 294
Tabla A 8 Matrices de ponderación para la comparación entre criterios de 1er y 2º nivel
[Fuente: elaboración propia] .............................................................................................. 294
Tabla A 9 Matrices de normalización por la suma de criterios de 1er y 2º nivel [Fuente:
elaboración propia]............................................................................................................. 295
Tabla A 10 Análisis de consistencia para los juicios de los criterios de 1er y 2º nivel [Fuente:
elaboración propia]............................................................................................................. 296
Tabla A 11 Resultados de los pesos locales y globales de los criterios [Fuente: elaboración
propia] ................................................................................................................................ 296
Tabla A 12 Puntuación de criterios para las distintas herramientas [Fuente: elaboración propia]297
Tabla A 13 Ponderación de herramientas por criterio [Fuente: elaboración propia] ................ 298
Tabla A 14 Matrices de ponderación para la comparación de herramientas por los criterios
elegidos [Fuente: elaboración propia]................................................................................ 300
Tabla A 15 Matrices de normalización para la elección de herramientas de acuerdo con los
criterios elegidos [Fuente: elaboración propia] .................................................................. 301
Tabla A 16 Análisis de consistencia entre juicios de herramienta por criterio [Fuente:
elaboración propia]............................................................................................................. 302
Tabla A 17 Promedio de los pesos para las herramientas respecto a los criterios [Fuente:
elaboración propia]............................................................................................................. 303
Tabla A 18 Resultado final obtenido por el método AHP [Fuente: elaboración propia]............ 303
PROYECTO FIN DE MÁSTER
1
1.INTRODUCCIÓN
1.1 OBJETO DEL PROYECTO
La industria del comercio electrónico o eCommerce ha tomado un notorio impulso gracias al
numeroso volumen de nuevas oportunidades de mercado que emergen derivadas de los datos
generados por los usuarios, pudiendo ser explotados hacia nuevos servicios que ofrecer y
prestar de manera más eficiente a los ya contemplados. Se espera que, según el estudio
realizado por la EAE Business School, en 2021 dos de cada tres internautas mayores de 14
años compren al menos una vez al año través de Internet.
Debido a los continuos avances tecnológicos en los últimos años, las empresas se han tenido
que enfrentar a nuevos desafíos que les permitan descubrir y analizar mayores cantidades de
información que en su pasado. Gracias a las nuevas tecnologías de tratamiento masivo de
datos, conocidas como Big Data, la personalización de contenidos de acuerdo con el
conocimiento de los clientes ha permitido generar nuevos modelos de negocio disruptivos,
adaptados a los comportamientos y necesidades de los diferentes perfiles de usuarios.
Se trata de un nuevo paradigma en el que se cuenta con una gran variedad de datos
generados tanto por las empresas en su ámbito laboral, como por los clientes a través de sus
consultas por la web y las redes sociales. Por ello, esta nueva situación versa en realizar las
preguntas correctas a los datos y así poder generar valor a la organización, entendiendo que
no existen respuestas estándar, ya que cada organización es diferente al resto. Por esto
mismo, el estudio de la situación del negocio en cuestión es tan importante, ya que las técnicas
de procesamiento de datos son herramientas que usar para resolver problemas de negocio.
Este proyecto nace en el marco de la generación de valor a partir de datos, permitiendo
describir a los clientes, predecir qué productos son los más propensos a futuras ventas y
conocer la opinión de los consumidores acerca de los productos en cuestión, nutriéndose en
base a datos generados tanto internos como externos a la empresa Ocean Sunglasses.
Teniendo por objetivo, la optimización de procesos y la generación de valor entorno a la
información extraída de los distintos modelos. En última instancia, se presentan una serie de
estrategias de negocio que afiancen la cadena de valor de la organización.
1. INTRODUCCIÓN
2
1.2 OBJETIVOS
1.2.1 Objetivo general
El presente proyecto tiene como finalidad la optimización de procesos de Ocean Sunglasses a
través de la aplicación de técnicas de machine learning y Business Analytics. De esta forma, se
generará valor a los datos obtenidos por medio de fuentes tanto internas como externas al
negocio, obteniendo una relación directa entre los datos de la empresa y la generación de valor
a partir de estos.
1.2.2 Objetivos específicos
• Comprender el modelo de negocio.
• Realizar un análisis interno y externo de la empresa.
• Proponer objetivos de negocio de acuerdo con el análisis del negocio realizado.
• Estudiar las técnicas de análisis y generación de modelos de datos.
• Analizar datos tanto internos como externos al negocio.
• Comprender los datos obtenidos.
• Desarrollar un modelo descriptivo para la clusterización de los clientes.
• Desarrollar un modelo predictivo para predecir las compras de los clientes.
• Realizar un análisis y evaluación de los resultados obtenidos.
• Realizar un análisis de redes sociales.
• Desarrollar estrategias de negocio que generen valor para la empresa, en base a las
conclusiones obtenidas tras el estudio técnico de los datos tanto internos como externos al
negocio.
1.3 ALCANCE
Se realizará un estudio acerca de la empresa y las distintas técnicas de análisis de datos y
machine learning, de tal forma que se permitan optimizar los procesos y generar oportunidades
de negocio.
• Estudio la tecnología Big Data y las técnicas de machine learning.
• Estudio de la organización tanto a nivel externo, en su entorno macro y micro, como a nivel
interno.
• Generación de objetivos de negocio de acuerdo con el estudio previo.
• Entendimiento y preparación de los datos obtenidos.
• Seleccionar el modelo y la técnica de modelado adecuados.
• Diseño de modelos de datos que satisfagan los objetivos de negocio planteados.
• Evaluación de los resultados obtenidos.
• Aplicar las conclusiones obtenidas tras el desarrollo técnico a la empresa, a través de
distintas estrategias de negocio.
PROYECTO FIN DE MÁSTER
3
• Elaborar la documentación acerca del proyecto.
Se trata de generar valor para la organización a través de los datos obtenidos, empleando
distintas técnicas de machine learning como herramienta para obtener información en torno a
los datos y poder generar distintas oportunidades de negocio.
En el proyecto, no se emplean tecnologías para realiza modelos masivos de datos, cuyo
objetivo es el almacenaje y procesamiento de estos. Únicamente se centra en el empleo de
métodos estadísticos, para obtener conclusiones de negocio.
PROYECTO FIN DE MÁSTER
5
2.ANTECEDENTES
2.1 ECOMMERCE
En los siguientes apartados, se detallan aspectos generales del comercio electrónico como su
evolución durante los últimos años, las formas de comercio existentes y las obligaciones
legales a cumplir. Por último, se analiza la situación en España.
2.1.1 Historia del comercio
En líneas generales, y con un sentido amplio, el comercio implica la investigación de mercado
con el fin de interpretar los deseos del consumidor, la publicidad que anuncia la existencia del
producto, la posibilidad de adquirirlo, y en qué lugar, a la vez que se utilizan los métodos de
persuasión, la venta al por menor y finalmente, la adquisición por parte del público.
Según lo expuesto, a través de los años han aparecido diferentes formas o tipos de comercio.
A principio de los años 1920 en los Estados Unidos apareció la venta por catálogo, impulsado
por las grandes tiendas. Este sistema de venta, revolucionario para la época, consiste en un
catálogo con fotos ilustrativas de los productos a vender. Este permite tener mejor llegada a las
personas, ya que no hay necesidad de tener que atraer a los clientes hasta los locales de
venta. Esto posibilitó a las tiendas poder llegar a tener clientes en zonas rurales, que para la
época que se desarrolló dicha modalidad, existía una gran masa de personas afectadas al
campo.
Además, otro punto importante de esto es que los potenciales compradores pueden escoger
los productos en la tranquilidad de sus hogares, sin la asistencia o presión, según sea el caso,
de un vendedor. La venta por catálogo tomó mayor impulso con la aparición de las tarjetas de
crédito; además de determinar un tipo de relación de mayor anonimato entre el cliente y el
vendedor.
Mas adelante, en la década de los 60 surge la tecnología EDI (Electronic Data Interchange)[1],
basada en la transmisión estructurada de datos entre empresas por medios electrónicos. Esta
tecnología, reemplazó el correo tradicional y el envío de documentos por fax con una
transferencia digital de datos entre un ordenador y otro.
Ilustración 1 Integración del sistema EDI[2]
2. ANTECEDENTES
6
Se puede afirmar que los sistemas EDI fueron el detonante que dio pie al inicio del comercio
electrónico.
La primera transacción comercial se realizó en 1981 con Thomson Holiday, una empresa de
turismo, que informaba online a sus diversos agentes y estos a su vez puedan ofrecerla a sus
clientes.
Ilustración 2 Línea de tiempo del comercio electrónico[3]
Tal y como se muestra en la ilustración 2, se podría dividir la evolución del comercio electrónico
en cuatro generaciones[4]:
• Primera generación: creación de la web. Las páginas solo hablan de la organización. El
modo de comunicación con el cliente es a través de formularios o correo electrónico. No se
puede comprar por la red.
• Segunda generación: comienzan las compras por Internet. Aparecen los centros
comerciales virtuales. Se produce el pago contra reembolso, cheques, etc. Aparecen los
primeros negocios de venta exclusiva en Internet.
• Tercera generación: comienza a automatizarse el proceso de selección y envío de datos de
los productos comprados a través de bases de datos. Se generaliza el empleo de tarjeta de
crédito como pago y el marketing en la red.
• Cuarta generación: contenidos dinámicos. Se mejora la seguridad de los sitios y se
implantan diversos mecanismos de pago seguro. Aparecen las carteras electrónicas y los
servicios de seguimiento del producto. Aparecen las primeras legislaciones sobre comercio
electrónico en España y la publicidad en este medio se masifica.
Hoy en día, muchas empresas cuentan con presencia en internet, con objeto de complementar
sus actividades de marketing. Por ejemplo, dando más información acerca de sus productos
(datasheets de componentes) y promocionar la compañía en sí.
En este tipo de empresas, aunque se muestre información de los productos y servicios que
ofrece, el objetivo final no es la venta on-line de los mismos, sino la puesta en contacto con el
responsable de la empresa en cuestión por las vías tradicionales, como la visita presencial o la
llamada telefónica, y de este modo ponerse en contacto con los potenciales clientes.
PROYECTO FIN DE MÁSTER
7
Por otro lado, existen los sitios web de comercio electrónico. El objetivo final de estos es
diferente al de los primeros. El objetivo final es cerrar la operación electrónicamente con el
pago (y en algunos casos con la entrega), siendo estos procesos realizados por Internet. Sin
esta transacción no podríamos hablar de eCommerce [5].
Lo que realmente importa es que dicha transacción afecte a la cuenta de resultados de
cualquier negocio, convirtiéndose en un gran generador de oportunidades de negocio y
económico. Normalmente, este tipo de sitios incluye información muy detallada de los
productos, ya que es el sustento de los posibles clientes del negocio.
2.1.2 Formas de comercio electrónico
En lo que a comercio electrónico se refiere, las distintas modalidades de este se pueden
clasificar según el tipo de cliente al que se dirige, el modelo de negocio y la plataforma
empleados.
Ilustración 3 Clasificación de los comercios electrónicos [Fuente: elaboración propia]
En los siguientes apartados, se realiza una explicación detallada de los diferentes tipos de
comercio electrónico, según la clasificación realizada.
2.1.2.1 Según el tipo de cliente
El modelo de negocio de una empresa de comercio digital dependerá de la actividad en la que
se vaya a enfocar, pero primeramente se debe de seleccionar el público o target de usuarios a
los que se va a vender para saber qué tipo de eCommerce será el adecuado [6].
Cliente
•B2C
•B2B
•B2G
•C2C
•C2B
•C2G
•G2B
•G2C
•G2G
Modelo
de
negocio
•Tienda online (e-
shop)
•Suscripción
•Dropshipping
•Afiliación
•Membresía
•Freemium
•Crowdfunding
•Crowdsourcing
•P2P
•Marketplace...
Plataforma
•Social eCommerce
•Mobile eCommerce
•eCommerce
opensource
•eCommerce en
plataformas de
terceros
2. ANTECEDENTES
8
Business Consumer Government
Business B2B B2C B2G
Consumer C2B C2C C2G
Government G2B G2C G2G
Tabla 1 Relaciones entre los distintos tipos de clientes [Fuente: elaboración propia]
Los tipos de negocio electrónico que existen son:
• B2B (Business to Business): empresas que hacen negocios entre ellas. El business to
business aplica a la relación entre un fabricante y el distribuidor de un producto y también a
la relación entre el distribuidor y el comercio minorista, pero no a la relación entre el
comerciante y su cliente final (consumidor), esta última que quedaría ajustada entonces al
entorno del B2C (business to consumer). Algunas de las ventajas de este tipo de comercio
electrónico son:
o Ahorro de tiempo.
o Reducción de costes.
o Control de despacho de pedidos.
o Negociación de precios.
o Aumenta el control sobre las compras.
• B2C (Business to Consumer): empresas que venden al público en general, venden de
manera directa a los consumidores finales del producto o servicio. Las ventajas más
importantes son:
o Realizar compras más cómodas y rápidas desde cualquier lugar, gracias a la tienda
online.
o Ofertas y precios muy actualizados.
o Comparar los diferentes precios de mercado de un producto o servicio.
o Menor coste de infraestructuras para las empresas.
o Posibilidad de interactuar directamente con los consumidores finales.
• C2C (Consumer to Consumer): plataforma a partir de la cual los consumidores compran y
venden entre ellos. Es la forma más antigua de comercio electrónico que se conoce. Estas
plataformas surgen como una manera de ayudar a la gente a negociar directamente con
otras personas o poder comprar a las empresas de manera más beneficiosa para ellos.
Sus principales ventajas son:
o La posibilidad de expansión de mercado;
o Reducción de costes de gestión y publicidad;
o Facilidad y rapidez que permite para ofrecer productos y servicios.
PROYECTO FIN DE MÁSTER
9
• C2B (Consumer to Business): es el modelo de negocio de comercio electrónico en el
que los consumidores pueden ofrecer productos y servicios a las empresas, y las
empresas pagan a los consumidores. Algunas de sus características:
o Interacción entre consumidores y empresas.
o Bidireccionalidad.
o Permite conseguir mejores condiciones en la oferta presentada por empresas.
• B2G (Business to Government): empresas que venden u ofrecen sus servicios a las
instituciones del gobierno. Los ayuntamientos, diputaciones y otras instituciones oficiales,
pueden contactar con sus proveedores, comparando productos y realizando pedidos por
medio de un proceso simple y estandarizado.
2.1.2.2 Según el modelo de negocio
El mercado on-line es un sector en auge y cambiante ya que los cambios tecnológicos son
constantes y los nuevos negocios online que surgen atienden las nuevas necesidades creadas.
Dependiendo de cómo se generen los ingresos o de cómo se lleve a cabo el intercambio entre
comprador y vendedor, estos negocios se pueden dividir en[7]:
• Tienda online (e-shop): se trata de vender productos o servicios a través de una página
web. Los ingresos se obtienen cuando los clientes realizan la compra de un producto o
servicio.
• Suscripción: es un modelo que se basa en ofrecer a las personas que pagan la
suscripción, un producto o servicio que tenga un patrón de compra repetitivo y periódico[8].
• Dropshipping: es un modelo de negocio basado en la venta a través de Internet de
productos que no se poseen en stock, mediante acuerdos y negociaciones con el
fabricante o mayorista, para que sea éste el que los envíe directamente al cliente final. De
esta manera, sin tener que invertir en la compra de un stock propio, también se pueden
vender diferentes artículos o productos que no se posee físicamente[9].
Ilustración 4 Proceso de un modelo dropshipping[9]
2. ANTECEDENTES
10
• Afiliación: en este caso la tienda no solo no envía el producto, sino que el cierre de la
venta no se hace en su plataforma. Lo que hace es referir al cliente a otra tienda, que le
paga una comisión al confirmarse la venta.
• Membresía: este tipo de comercio electrónico busca compras recurrentes. La forma de
conseguirlo es con una suscripción periódica (semanal, mensual, bimensual, etc.).
• Freemium: consiste en ofrecer un producto o servicio de manera gratuita (free) a los
usuarios y tener una versión de pago (premium) con características avanzadas,
funcionalidad o productos y servicios adicionales.
• Crowdfunding: es un modelo de negocio colaborativo entre profesionales y particulares
que crean una red para conseguir dinero para financiar un proyecto o conseguir una
comisión por la transacción. Los ingresos se obtienen por el uso de la plataforma.
• Crowdsourcing: es un modelo de negocio que consiste en externalizar tareas que
realizaban empleados o contratistas, y que pasan a estar a cargo de un grupo de personas
o una comunidad, a través de una convocatoria abierta.
• P2P (Peer to Peer): se basa una red de ordenadores donde intervienen una serie de
nodos que se comportan como iguales entre sí. Es el desarrollo de plataformas que ponen
de acuerdo con personas para que intercambien, alquilen, compren o vendan productos o
servicios. Los ingresos se obtienen por un pago que realiza el vendedor al operador de la
plataforma para que la transacción se concluya con éxito.
• Marketplace: se trata de una “tienda de tiendas”. Es una web donde diferentes vendedores
ofrecen sus productos de una o varias temáticas. Amazon es un ejemplo de marketplace.
Aunque también funcione como eCommerce normal, cualquiera puede vender en su
plataforma a cambio de una comisión.
2.1.2.3 Según la plataforma
Continuación, se exponen las distintas formas de comercio electrónico según la plataforma con
la que interactúen:
• Social eCommerce: este tipo de eCommerce se basa en las ventas a través de redes
sociales como Facebook, YouTube o Twitter.
• Mobile eCommerce: en este tipo de negocio electrónico las transacciones se realizan
mediante dispositivos móviles. Cada eCommerce suele tener su propia aplicación que
permite a los usuarios realizar sus compras de manera sencilla y rápida con su móvil.
• eCommerce opensource: se instalan fácilmente en un servidor, sin costes de licencia y
con actualizaciones de mejora periódicas. Algunas plataformas son: Woocomerce,
Prestashop o Magento.
• eCommerce en plataformas de terceros: son plataformas que ofrecen las herramientas
necesarias para crear una tienda online dentro del ámbito de la plataforma. Suelen ser de
bajo coste y fácilmente personalizables. Algunas son: Shopify o Mabisy.
PROYECTO FIN DE MÁSTER
11
2.1.3 Obligaciones legales
Las obligaciones legales que afectan a las empresas que no están en Internet, también se
aplican a las empresas que creen una página web. Es decir, si para abrir un negocio
determinado fuera de Internet es necesario obtener previamente una autorización
administrativa, también es necesaria para operar online, asimismo también se deberán cumplir
con el resto de las obligaciones de carácter mercantil, fiscal, laboral o de la seguridad social de
acuerdo con el tipo de tienda on-line.
Ahora bien, en el ámbito del comercio electrónico con consumidores existen varias normas que
tienen especial relevancia por su materia como:
➢ Ley Orgánica 15/1999, 13 de diciembre, de Protección de Datos de Carácter Personal
(LOPD).
➢ Ley 34/2002, de 11 de julio, de Ley de Servicios de la Sociedad de la Información y del
Comercio Electrónico (LSSICE).
➢ Ley 7/1998, de 13 de abril, sobre Condiciones Generales de la Contratación.
➢ Real Decreto Legislativo 1/2007, de 16 de noviembre, por el que se aprueba el texto
refundido de la Ley General para la Defensa de los Consumidores y Usuarios.
2.1.3.1 Protección de datos de carácter personal
A continuación, se recoge una enumeración de las principales obligaciones que existen en
materia de protección de datos de carácter personal.
2.1.3.1.1 Notificación previa de los ficheros a la Agencia Española de Protección
de Datos
Cuando una página web recoja datos personales, ya sea de clientes, usuarios, potenciales
clientes, etc., se debe notificar todos estos ficheros que contienen datos personales a la
Agencia Española de Protección de Datos (AEPD), obligación que debe realizarse previamente
al inicio de las tareas de tratamiento de los datos.
Dicha notificación es gratuita. Para realizar la notificación se utiliza el Sistema de Notificaciones
Telemáticas de la AEPD denominado Programa NOTA.
Ilustración 5 Página oficial de la AEPD para completar el formulario NOTA [Fuente: Gobierno de España]
2. ANTECEDENTES
12
2.1.3.1.2 Formularios de recogida de datos: Obligación de información
Cuando una página web utiliza un formulario para recabar datos personales de los usuarios o
clientes, o bien para permitir la suscripción a un boletín o comunidad, es obligatorio incluir un
aviso legal en materia de protección de datos, cuyo contenido debe informar de lo siguiente
(Artículo 5 de la Ley Orgánica 15/1999, de Protección de Datos de Carácter Personal):
➢ De la existencia de un fichero o tratamiento de datos.
➢ De la finalidad de su recogida y de los destinatarios de la información.
➢ Del carácter obligatorio o facultativo de la respuesta a las preguntas que se plantean.
➢ De las consecuencias de la obtención de los datos o de la negativa a suministrarlos.
➢ De la posibilidad de ejercitar los derechos de acceso, rectificación, cancelación y oposición.
➢ De la identidad y dirección del responsable del tratamiento de los datos.
Para cumplir con esta obligación, es necesario situar un aviso legal específico bien visible justo
debajo del formulario, o bien insertar un enlace permanentemente visible en la Web a dicha
política de privacidad.
Ilustración 6 Ejemplo del modelo de recogida de datos de la página [Fuente: Ocean Sunglases]
2.1.3.2 Correo electrónico comercial
Como norma general, está prohibido el envío de comunicaciones publicitarias o promocionales
por correo electrónico o SMS, si previamente el destinatario no las ha solicitado o, en su caso,
no ha autorizado de forma previa y expresa para poder enviárselas.
No obstante, si se mantiene con el destinatario una relación contractual previa, es decir, si ya
es un cliente, se le podrán enviar comunicaciones comerciales referentes a productos o
servicios de dicha empresa, siempre que éstos sean similares a los que inicialmente fueron
objeto de contratación por éste.
PROYECTO FIN DE MÁSTER
13
Ilustración 7 Acceso a la recepción de newsletters tras el registro en Ocean Sunglasses [Fuente: Ocean
Sunglases]
2.1.3.3 Notificación sobre las “cookies”
Cuando en la página web se utilicen cookies u otros dispositivos de almacenamiento y
recuperación de datos, que se instalen en el ordenador del usuario, para guardar información
necesaria para la navegación del usuario por la web, se debe informar de manera clara y
completa sobre su utilización y finalidad, así como ofrecerles la posibilidad de rechazar el
tratamiento de los datos mediante un procedimiento sencillo y gratuito.
2.1.3.4 Información obligatoria que ha de ofrecer la página web
En un lugar permanentemente accesible de la página Web, debe aparecer la información
relativa al titular de esta. Esta obligación consta en el artículo 10 de la LSSICE. Ejemplo:
Información general
En cumplimiento de la Ley 34/2002, de 11 de julio, de Servicios de la Sociedad de la Información y
Comercio Electrónico, se indican los datos de información general de (indicar página Web):
Titular: (nombre y apellidos o denominación social)
C.I.F.: (número)
Dirección: (indicar dirección postal)
Contacto: (indicar e-mail)
Tel.: (número)
Fax.: (número)
Datos registrales: (en su caso, indicar)
Tabla 2 Información obligatoria que ha de ofrecer una página web [Fuente: elaboración propia]
2. ANTECEDENTES
14
Ilustración 8 Información acerca de la web Ocean Sunglasses [Fuente: Ocean Sunglases]
Cuando se trate de una página web de una empresa o profesional que para realizar su
actividad requiera de autorización administrativa o inscripción en cualquier registro, deberán
constar los datos de dicha autorización o registro.
Según el tipo de página web o servicio que se ofrezca, también es necesario informar en las
condiciones generales de contratación de:
• Las características esenciales del bien o servicio.
• Los gastos de entrega y transporte, en su caso.
• El plazo de vigencia de la oferta y del precio.
• La duración mínima del contrato, si procede, cuando se trate de contratos de suministro de
bienes o servicios destinados a su ejecución permanente o repetida.
• Las circunstancias y condiciones en que el empresario puede suministrar un bien o servicio
de calidad y precio equivalentes, en sustitución del solicitado por el consumidor y usuario,
cuando se quiera prever esta posibilidad.
• La forma de pago y modalidades de entrega o de ejecución.
• En su caso, indicación de si el empresario dispone o está adherido a algún procedimiento
extrajudicial de solución de conflictos.
• La dirección del establecimiento del empresario donde el consumidor y usuario pueda
presentar sus reclamaciones.
• La información relativa a los servicios de asistencia técnica u otros servicios postventa y a
las garantías existentes.
• Las condiciones para la denuncia del contrato, en caso de celebración de un contrato de
duración indeterminada o de duración superior a un año.
• Cuando se utilicen técnicas de comunicación con sobrecostes: El coste de la utilización de
la técnica de comunicación a distancia cuando se calcule sobre una base distinta de la
tarifa básica.
PROYECTO FIN DE MÁSTER
15
2.1.4 Comercio electrónico en España
Las empresas se enfrentan a un nuevo entorno de relación con el cliente marcado por la
digitalización e impulsado fundamentalmente por los avances tecnológicos y la penetración de
herramientas que amplifican la interacción de los usuarios con las marcas. Esto ha derivado en
una modificación de los hábitos de consumo y comportamiento del cliente final, exigiendo a las
empresas desarrollar nuevos modelos de negocio o transformar los actuales para poder
satisfacer las necesidades de sus clientes y seguir creciendo en la era digital.
Ilustración 9 Nivel de digitalización de las compañías a nivel mundial[10]
Según el estudio sobre comercio electrónico B2C 2017 (edición 2018), llevado a cabo por
ONTSI (Observatorio Nacional de las Telecomunicaciones y de la SI)[11], el comercio
electrónico mantiene, como en años anteriores, una tendencia de crecimiento y expansión.
Ilustración 10 Volumen de comercio electrónico B2C[11]
La estimación de la cifra de negocio que supone el comercio electrónico en 2017 es la
resultante de calcular tres variables:
• Internautas (34,0 millones).
• Número total de compradores online (22,9 millones a comienzos de 2018).
• Gasto anual medio por internauta comprador (1.365€).
2. ANTECEDENTES
16
A continuación, se muestra una tabla resumen sobre el volumen del comercio electrónico en
España.
Internautas 86,4% 34,0 MM
Internautas compradores 67,4% 22,9 MM
Gasto medio por comprador 1.366 €
Total 31.347 MM€
Tabla 3 Resumen del comercio electrónico 2017[11]
Cabe destacar que el aumento en las ventas y la búsqueda de contenidos vía internet ha tenido
un aumento considerable debido a que, cada vez más empresas, saben aprovechar en mejor
medida las oportunidades brindadas por las nuevas tecnologías.
En siguientes capítulos se explica cómo estas tecnologías, están ayudando a las empresas a
obtener valor a partir de los datos generados por los clientes y porque es cada vez más
necesaria la adopción y entendimiento de estas nuevas culturas organizacionales por parte de
las empresas.
2.2 BIG DATA
El termino Big Data se acuño en 1997, por investigadores de la NASA, ya que al tratar de
procesar una gran variedad de datos en franjas de tiempo reducidas para los ordenadores de la
época era una tarea difícil.
Hoy en día es un término que, a pesar de surgir años atrás, está bastante de moda. ¿De qué
trata este paradigma? ¿Por qué ahora? ¿Es una oportunidad o un riesgo para la
sociedad/empresa? Estas son algunas de las preguntas que se resuelven en este capítulo y
dan lugar a explicar el termino de machine learning en su contexto original, motor y tema
principal de este proyecto.
2.2.1 Introducción
Big Data hace referencia la información que excede la capacidad de procesamiento de los
sistemas de bases de datos convencionales. Pero no es solamente una cuestión de tamaño,
hay otra serie de preguntas a responder que influyen a la hora de definir este concepto.
• ¿Con que calidad se van a usar los datos? -> Calidad/Limpieza de datos.
• ¿Cómo se van a procesar los datos? -> Preparación/Minería de datos.
• ¿Dónde está situada el área de trabajo? -> Plataformas/Máquinas virtuales/Nube.
• ¿Qué valor se puede obtener a partir de los datos? -> Marketing/Business Intelligence.
PROYECTO FIN DE MÁSTER
17
A estas dimensiones de estudio se les define como las 4V’s del Big Data.
Ilustración 11 4V's del Big Data [Fuente: elaboración propia]
La convergencia de estas cuatro dimensiones ayuda a definir que es Big Data de lo que no[12]:
• Volumen: la cantidad de datos. Siendo quizá la característica que se asocia con mayor
frecuencia a Big Data, el volumen hace referencia a las cantidades masivas de datos que
las organizaciones intentan aprovechar para mejorar la toma de decisiones en toda la
empresa. Los volúmenes de datos continúan aumentado a un ritmo sin precedentes. No
obstante, lo que constituye un volumen verdaderamente “alto” varía en función del sector e
incluso de la ubicación geográfica y es más pequeño que los petabytes y zetabytes a los
que a menudo se hace referencia.
• Velocidad: los datos en movimiento. La velocidad a la que se crean, procesa y analizan los
datos continúa aumentando. Contribuir a una mayor velocidad es la naturaleza en tiempo
real de la creación de datos, así como la necesidad de incorporar datos en streaming a los
procesos de negocio y la toma de decisiones.
• Variedad: diferentes tipos y fuentes de datos. La variedad tiene que ver con gestionar la
complejidad de múltiples tipos de datos, incluidos los datos estructurados,
semiestructurados y no estructurados. Las organizaciones necesitan integrar y analizar
datos de un complejo abanico de fuentes de información tanto tradicional como no
tradicional procedentes tanto de dentro como de fuera de la empresa.
• Veracidad: la incertidumbre de los datos. La veracidad hace referencia al nivel de fiabilidad
asociado a ciertos tipos de datos. Esforzarse por conseguir unos datos de alta calidad es
un requisito importante y un reto fundamental de Big Data.
En definitiva, Big Data es una combinación de estas características que crea una oportunidad
para que las empresas puedan obtener una ventaja competitiva en el actual mercado
digitalizado. Permite a las empresas transformar la forma en la que interactúan con sus clientes
y les prestan servicio, y posibilita la transformación de estas e incluso de sectores enteros.
Veracidad
Variedad
Velocidad
Volumen
2. ANTECEDENTES
18
Se trata de un paradigma del que se puede extraer valor si se saben hacer las preguntas
correctas.
Ilustración 12 Esquema de la combinación de paradigmas[13]
Con la generación de sensores, dispositivos inteligentes y tecnologías de colaboración social,
es decir, el ingente uso de redes sociales, los datos que se generan presentan innumerables
formas entre las que se incluyen texto, datos web, tuits, datos de sensores, audio, vídeo,
secuencias de clic, archivos de registro… Estos son los motivos por los que este término está
teniendo tanta repercusión hoy en día, y es que el coste computacional es muy bajo en
comparación con años anteriores, generándose cada vez más datos y fijando como objetivo
principal en las organizaciones la monetización de estos, el ahorro en costes y la optimización
de procesos.
A modo ilustrativo, se presenta una comparativa entre las empresas más grandes de acuerdo
con su capitalización bursátil, hace 10 años y ahora.
Ilustración 13 Clasificación de las empresas por capitalización bursátil entre 2007 y 2017[14]
Se puede apreciar como empresas que basan sus modelos de negocio entorno a los datos,
como Apple o Amazon han ido escalando en el ranking. Mientras que empresas más
tradicionales como General Electric han descendido.
PROYECTO FIN DE MÁSTER
19
2.2.2 Machine Learning
Aunque fuese únicamente en circunstancias del ámbito académico, el aprendizaje automático o
machine learning, lleva existiendo al menos desde los años 50. Periodo en el que se
descubrieron y redefinieron diversos métodos estadísticos y se aplicaron al aprendizaje
automático a través de algoritmos simples.
Hoy en día, las técnicas de machine learning están experimentando un auge en diferentes
ámbitos, tanto en el mundo académico como en el empresarial, constituyendo una importante
palanca de transformación.
Se puede definir entonces el machine learning como, la aplicación de técnicas y algoritmos
capaces de aprender a partir de distintas y nuevas fuentes de información, construyendo
algoritmos que mejoren de forma autónoma con la experiencia. Permitiendo disponer de
métodos capaces de detectar automáticamente patrones en los datos, y usarlos tanto para
describir, como para predecir sobre los datos futuros en un entorno de incertidumbre.
Tras esta definición, se procede a describir los distintos componentes bajo los que se engloba
el aprendizaje automático.
Ilustración 14 Clasificación de los componentes del aprendizaje automático [Fuente: elaboración propia]
Estos componentes han supuesto una evolución respecto al enfoque tradicional acerca de la
modelización de datos.
Modelización tradicional Machine Learning
Fuentes de
información
• Datos estructurados
• Número reducido de fuentes de
datos
• Limitación por parte del diseño
inicial
• Actualizaciones no continuas
• Datos estructurados, desestructurados y
granulares
• Múltiples fuentes de datos
• Variedad y fácil acceso: redes sociales,
bases de datos públicas, Int. Of Things,
etc.
• Actualización continua y en tiempo real.
Técnicas y
algoritmos
• Fundamento estadístico y
matemático
• Se añade la ciencia de la computación.
• Identificación de patrones ocultos
• Datos estructurados: bases de datos relacionales, ficheros, etc.
• Datos no estructurados: sistemas transaccionales, CRM, imagenes, voz, etc.
Fuentes de información
• Técnicas para el tratamiento de informacion no estructurada: tf-idf, parsing, etc.
• Modelos supervisados y no supersvisados: modelos de clasificación, regresion,
optimizacion, etc.
Técnicas y algorítmos
• Reentrenamiento automático a partir de nueva información.
• Combinación de modelos.
Capacidad de autoaprendizaje
• Programacion: R, Python, Scala, SAS, Matlab, SQL, Azure, AWS, etc
• Visualización: Tableau, Power BI, TIBCO Spotfire, Qlik View, etc.
Sistemas y software
2. ANTECEDENTES
20
• Limitaciones en los patrones y
relaciones identificadas
• Uso de métodos deductivos
• Uso de métodos inductivos
Aprendizaje
• Reentrenamiento manual
• Hipótesis predefinidas
• Reducción del poder predictivo
debido al anclaje temporal
• Trazabilidad disponible
• Reentrenamiento automático y
autoaprendizaje
• Búsqueda de patrones
• Adaptación temporal del poder predictivo
• Trazabilidad no asegurada
Sistemas y
software
• Menor requerimiento
computacional
• Herramientas tradicionales
• No valorización de los archivos
desestructurados
• Mayor requerimiento computacional
• Combinación de herramientas
• Almacenamiento de datos en Data Lakes
Tabla 4 Diferencias del aprendizaje automático respecto al modelo tradicional
2.2.2.1 Técnicas de Machine Learning
Existente múltiples técnicas de machine learning, dependiendo del tipo de datos con los que se
cuente (estructurados / no estructurados). La elección de un tipo de técnica u otra, depende,
entre otros factores, de la pregunta u objetivo de negocio al que se necesite responder, así
como del tipo de información disponible.
Ilustración 15 Tipologías y técnicas de Machine Learning[15]
Por un lado, se cuenta con técnicas para la transformación de datos no estructurados en
estructurados, para que puedan ser analizados y procesados. Entre estos ejemplos, se
encuentran los textos, imágenes, sonidos, etc.
Por otro lado, existen las técnicas de modelización, usadas a partir de datos estructurados,
pudiendo clasificarse en:
➢ Aprendizaje supervisado: caracterizado por ser empleado cuando hay un objetivo de
negocio claro, un target al que se le quiera dar solución. El algoritmo contiene información
sobre la característica de estudio que no está presente en datos futuros, por lo tanto, la
PROYECTO FIN DE MÁSTER
21
información a predecir, o por la que se quiere clasificar a una población, está disponible en
los datos del modelo.
El objetivo del aprendizaje supervisado es “entrenar” una aplicación de un conjunto de
variables (denominadas explicativas) “x”, en una variable de salida “y” (variable explicada),
a partir de un set de datos, denominados muestra de entrenamiento, ∆= {(𝑥𝑖, 𝑦𝑖), 𝑖 ∈
1, … , 𝑁}, [15]donde “N” es el tamaño de la muestra.
Cuando la variable de salida es continua, se habla de problemas de regresión, mientras
que, si es nominal o discreta, se habla de problemas de clasificación.
➢ Aprendizaje no supervisado: en oposición al aprendizaje supervisado, en este caso no se
tiene definido un target objetivo, con lo que no se dispone en la muestra la información de
una variable que se quiera predecir. En este caso, no se dispone de una variable de salida,
por lo que el conjunto de datos es de la forma ∆= {𝑥𝑖, 𝑖 ∈ 1, … , 𝑁}, donde “N” es el tamaño
de la muestra.
El objetivo del aprendizaje no supervisado es encontrar patrones o relaciones entre datos.
2.2.2.1.1 Partición del conjunto de datos
Como paso previo a aplicar un método de clasificación, se realiza la partición del conjunto de
datos en dos conjuntos de datos más pequeños que son utilizadas con los siguientes fines:
train y test. El subconjunto de datos de entrenamiento es utilizado para estimar los parámetros
del modelo y el subconjunto de datos de prueba se emplea para comprobar el comportamiento
del modelo estimado. Cada registro de la base de datos debe de aparecer en uno de los dos
subconjuntos, y para dividir el conjunto de datos en ambos subconjuntos, se utiliza un
procedimiento de muestreo: muestreo aleatorio simple o muestreo estratificado. Lo ideal es
entrenar el modelo con un conjunto de datos independiente de los datos con los que
realizamos la prueba.
Como resultado de aplicar un método de clasificación, se cometerán dos errores, en el caso de
una variable binaria que toma valores 0 y 1, habrá ceros que se clasifiquen incorrectamente
como unos y unos que se clasifiquen incorrectamente como ceros. A partir de este recuento se
puede construir el siguiente cuadro de clasificación, donde Yi es el valor real e Ŷi el valor
estimado
Yi=0 Yi=1
Ŷi=0 P11 Verdaderos Positivos (VP) P12 Falsos Negativos (FN)
Ŷi=1 P21 Falsos Positivos (FP) P22 Verdaderos Negativos (VN)
Tabla 5 Representación de la matriz de confusión
A esta tabla se le conoce como matriz de confusión, es una herramienta que permite la
visualización del desempeño de un algoritmo, donde P11 y P22 corresponderán a predicciones
correctas (valores 0 bien predichos en el primer caso y valores 1 bien predichos en el segundo
caso), mientras que P12 y P21 corresponderán a predicciones erróneas (valores 1 mal predichos
en el primer caso y valores 0 mal predichos en el segundo caso).
2. ANTECEDENTES
22
A partir de estos valores se pueden definir los siguientes parámetros:
➢ Tasa de aciertos: Cociente entre las predicciones correctas y el total de predicciones.
𝑇𝑎𝑠𝑎 𝑑𝑒 𝑎𝑐𝑖𝑒𝑟𝑡𝑜𝑠 =
𝑃11 + 𝑃22
𝑃11 + 𝑃12 + 𝑃21 + 𝑃22
(1)
➢ Tasa de errores: Cociente entre las predicciones incorrectas y el total de predicciones.
𝑇𝑎𝑠𝑎 𝑑𝑒 𝑒𝑟𝑟𝑜𝑟𝑒𝑠 =
𝑃12 + 𝑃21
𝑃11 + 𝑃12 + 𝑃21 + 𝑃22
(2)
➢ Especificidad: Proporción entre la frecuencia valores cero correctos y el total de valores
cero observados.
𝐸𝑠𝑝𝑒𝑐𝑖𝑓𝑖𝑐𝑖𝑑𝑎𝑑 =
𝑃11
𝑃11 + 𝑃12
(3)
➢ Sensibilidad: Proporción entre la frecuencia de valores uno correctos y el total de valores
uno observados.
𝑆𝑒𝑛𝑠𝑖𝑏𝑖𝑙𝑖𝑑𝑎𝑑 =
𝑃22
𝑃12 + 𝑃22
(4)
➢ Tasa de falsos ceros: Proporción entre la frecuencia de valores cero incorrectos y el total
de valores cero observados.
𝑇𝑎𝑠𝑎 𝑑𝑒 𝑓𝑎𝑙𝑠𝑜𝑠 𝑐𝑒𝑟𝑜𝑠 =
𝑃21
𝑃12 + 𝑃21
(5)
➢ Tasa de falsos unos: Proporción entre la frecuencia de valores uno incorrectos y el total
de valores uno observados.
𝑇𝑎𝑠𝑎 𝑑𝑒 𝑓𝑎𝑙𝑠𝑜𝑠 𝑢𝑛𝑜𝑠 =
𝑃21
𝑃12 + 𝑃22
(6)
2.2.2.1.2 Aprendizaje supervisado
Dentro de las técnicas de machine learning de aprendizaje supervisado, cabe mencionar los
métodos individuales[15], denominados así por poder usarse de forma aislada.
Ilustración 16 Métodos para el procesamiento del lenguaje natural y la visión artificial[15]
PROYECTO FIN DE MÁSTER
23
Entre estos modelos destacan:
➢ Modelos de regresión: la regresión lineal simple consiste en generar la ecuación de una
recta que permita explicar la relación lineal que existe entre dos variables. A la variable
dependiente o respuesta se le identifica como “Y” y a la variable predictora o independiente
como “X”.
El modelo de regresión lineal simple se describe de acuerdo con la ecuación[16]:
𝑌 ≈ 𝛼 + 𝛽𝑋 + 𝜀 (7)
Siendo 𝛼 la ordenada en el origen, 𝛽 la pendiente y 𝜀 el error aleatorio. Este último
representa la diferencia entre el valor ajustado por la recta y el valor real. El signo " ≈ "
hace referencia a que es un modelo aproximado, ya que existen otros parámetros que
influyen en el desarrollo de dicha ecuación como son las variables del entorno.
Ilustración 17 Ejemplo de predicción de la temperatura por medio de regresión lineal simple[17]
➢ Arboles de decisión: son técnicas de análisis que permite predecir la asignación de
muestras a grupos predefinidos en función de una serie de variables predictivas. Se
definen como un procedimiento recursivo, en el cual un número “N” de variables se dividen
progresivamente en grupos, de acuerdo con una regla de división que permita maximizar la
homogeneidad o pureza de la variable de respuesta [18].
Ilustración 18 Árbol de decisión usado para un procedimiento de clasificación [19]
En un árbol de decisión, las ramas representan conjuntos de decisiones y cada decisión
genera reglas sucesivas para continuar la clasificación formando grupos homogéneos
respecto a la variable que se desea discriminar. Las particiones se hacen de forma iterativa
hasta que se alcanza un criterio de parada. El método utiliza datos históricos para construir
el árbol de decisión que se emplea para clasificar nuevos datos.
2. ANTECEDENTES
24
➢ Clasificadores bayesianos: son modelos basados en la teoría de la probabilidad de
Bayes, que utilizan la información conocida de las variables explicativas, para clasificar las
observaciones. Es decir, asume la presencia o ausencia de otra característica, o a definir
una variable objetivo en función de la relación existente en una muestra entre esas
características, y la variable objetivo definida[17].
𝑃(𝐴|𝐵) =
𝑃(𝐵|𝐴)𝑃(𝐴)
𝑃(𝐵)
=
𝑃(𝐴 ∩ 𝐵)
𝑃(𝐵)
(8)
La notación P (A | B) puede leerse como la probabilidad del evento A dado que ocurrió el
evento B. Esto se conoce como probabilidad condicional, ya que la probabilidad de A es
dependiente (condicional) de lo que sucedió con el evento B.
➢ KNN (vecinos más próximos): se fundamenta en la idea de identificar observaciones en
el conjunto de entrenamiento que se asemejen a la observación de prueba (observaciones
vecinas) y asignarle como valor predicho la clase predominante entre dichas
observaciones.
Ilustración 19 Funcionamiento del meto KNN
➢ Modelos ensemble: los métodos presentados hasta el momento se pueden combinar con
técnicas y algoritmos que permiten mejorar la capacidad predictiva, a estos métodos se les
conoce por el nombre de ensemble. Consisten en la agregación de modelos individuales
para generar un modelo más predictivo o estable.
Entre estos métodos se encuentran[16]:
o Bagging: diminutivo de bootstrap aggregation, hace referencia al empleo del
muestreo repetido (bootstrapping) con el fin de reducir la varianza de algunos
métodos de aprendizaje estadístico, entre ellos los árboles de predicción.
En lugar de ajustar un único árbol, se ajustan muchos en paralelo formando un
“bosque”. En cada nueva predicción, todos los árboles que forman el “bosque”
participan aportando su predicción. Como valor final, se toma la media de todas las
predicciones (variables continuas) o la clase más frecuente (variables cualitativas).
o Random forest: es una modificación del proceso de bagging que consigue
mejores resultados gracias a que decorrelaciona los árboles generados en el
proceso. A través del método de bagging se consigue reducir la varianza, sin
embargo, se asume que no hay correlación entre modelos, aunque es cierto que
hay correlación entre los modelos, la reducción de varianza que se puede lograr es
pequeña.
PROYECTO FIN DE MÁSTER
25
Random forest evita este problema haciendo una selección aleatoria
de “m” predictores antes de evaluar cada división. De esta forma, un promedio
de (𝑝 − 𝑚)/𝑝 divisiones no contemplan el predictor influyente, permitiendo que
otros predictores puedan ser seleccionados. Solo con añadir este paso extra se
consigue decorrelacionar los árboles, por lo que se consigue una mayor reducción
de la varianza.
o Boosting: consiste en ajustar secuencialmente múltiples modelos sencillos,
llamados weak learners o métodos vagos, de forma que cada modelo aprende de
los errores del anterior. Como valor final, al igual que en bagging, se toma la media
de todas las predicciones (variables continuas) o la clase más frecuente (variables
cualitativas).
➢ SVM (Support Vector Machine): se asemeja a una superficie que delimita un entorno
entre varios puntos los cuales, son representaciones espaciales en un espacio
multidimensional según sus valores característicos. Es decir, se pretende clasificar las
observaciones en varios grupos o clases, pero estas no son separables vía un hiperplano
en el espacio definido por los datos. Para ello, el conjunto de los datos se embebe en un
espacio de dimensión superior a través de una función que permita separar los datos en el
nuevo espacio a través de un hiperplano en dicho espacio.
Entonces, se busca un hiperplano equidistante a los puntos más cercanos a cada clase. Es
decir, el objetivo es encontrar el hiperplano que separa las clases y que más dista de las
observaciones de estas de forma simultánea.
Ilustración 20 Representación del hiperplano generado por un SVM[17]
➢ Redes neuronales: modelan la relación entre un conjunto de señales de entrada y una
señal de salida usando un modelo derivado de la comprensión de cómo un cerebro
biológico responde a estímulos de entradas sensoriales[20].
Ilustración 21 Red neuronal monocapa[20]
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf
PFM_ITI_Eder_Canduela_con_portada.pdf

Más contenido relacionado

Similar a PFM_ITI_Eder_Canduela_con_portada.pdf

Sistema de crm de codigo abierto sugarcrm
Sistema de crm de codigo abierto sugarcrm Sistema de crm de codigo abierto sugarcrm
Sistema de crm de codigo abierto sugarcrm Viktor Miranda Diniz
 
Análisis del uso de algoritmos de Minería de Datos y Machine Learning para Ma...
Análisis del uso de algoritmos de Minería de Datos y Machine Learning para Ma...Análisis del uso de algoritmos de Minería de Datos y Machine Learning para Ma...
Análisis del uso de algoritmos de Minería de Datos y Machine Learning para Ma...Pedro Arcos Méndez
 
03 tiendaconveniencia28 4_cast
03 tiendaconveniencia28 4_cast03 tiendaconveniencia28 4_cast
03 tiendaconveniencia28 4_castandreaq911
 
http://es.slideshare.net/managerasesores/servicios-integrales-de-limpieza-y-m...
http://es.slideshare.net/managerasesores/servicios-integrales-de-limpieza-y-m...http://es.slideshare.net/managerasesores/servicios-integrales-de-limpieza-y-m...
http://es.slideshare.net/managerasesores/servicios-integrales-de-limpieza-y-m...Manager Asesores
 
Taller de reparación de vehículos
Taller de reparación de vehículosTaller de reparación de vehículos
Taller de reparación de vehículosManager Asesores
 
Taller de reparación de vehículos
Taller de reparación de vehículosTaller de reparación de vehículos
Taller de reparación de vehículosManager Asesores
 
Centro deportivo de desarollo personal
Centro deportivo de desarollo personalCentro deportivo de desarollo personal
Centro deportivo de desarollo personalManager Asesores
 
Deuda tecnica en Lean Startup.en.es.pdf
Deuda tecnica en Lean Startup.en.es.pdfDeuda tecnica en Lean Startup.en.es.pdf
Deuda tecnica en Lean Startup.en.es.pdfNicanor Sachahuaman
 
Marketing Online - Profesiones Digitales
Marketing Online - Profesiones DigitalesMarketing Online - Profesiones Digitales
Marketing Online - Profesiones DigitalesUnai Benito
 
Top 25 Profesiones Digitales 2015
Top 25 Profesiones Digitales 2015 Top 25 Profesiones Digitales 2015
Top 25 Profesiones Digitales 2015 Lluis Serra
 
Gestoría y asesoría cas
Gestoría y asesoría casGestoría y asesoría cas
Gestoría y asesoría casElio Laureano
 

Similar a PFM_ITI_Eder_Canduela_con_portada.pdf (20)

Sistema de crm de codigo abierto sugarcrm
Sistema de crm de codigo abierto sugarcrm Sistema de crm de codigo abierto sugarcrm
Sistema de crm de codigo abierto sugarcrm
 
3 rpm animacionporordenador_cas
3 rpm animacionporordenador_cas3 rpm animacionporordenador_cas
3 rpm animacionporordenador_cas
 
Análisis del uso de algoritmos de Minería de Datos y Machine Learning para Ma...
Análisis del uso de algoritmos de Minería de Datos y Machine Learning para Ma...Análisis del uso de algoritmos de Minería de Datos y Machine Learning para Ma...
Análisis del uso de algoritmos de Minería de Datos y Machine Learning para Ma...
 
SID (
SID (SID (
SID (
 
Ath final sid
Ath final sidAth final sid
Ath final sid
 
Tema 8-u2-cad-segpi
Tema 8-u2-cad-segpiTema 8-u2-cad-segpi
Tema 8-u2-cad-segpi
 
03 tiendaconveniencia28 4_cast
03 tiendaconveniencia28 4_cast03 tiendaconveniencia28 4_cast
03 tiendaconveniencia28 4_cast
 
4. Tienda de conveniencia
4. Tienda de conveniencia4. Tienda de conveniencia
4. Tienda de conveniencia
 
http://es.slideshare.net/managerasesores/servicios-integrales-de-limpieza-y-m...
http://es.slideshare.net/managerasesores/servicios-integrales-de-limpieza-y-m...http://es.slideshare.net/managerasesores/servicios-integrales-de-limpieza-y-m...
http://es.slideshare.net/managerasesores/servicios-integrales-de-limpieza-y-m...
 
Taller de reparación de vehículos
Taller de reparación de vehículosTaller de reparación de vehículos
Taller de reparación de vehículos
 
Taller de reparación de vehículos
Taller de reparación de vehículosTaller de reparación de vehículos
Taller de reparación de vehículos
 
Centro deportivo de desarollo personal
Centro deportivo de desarollo personalCentro deportivo de desarollo personal
Centro deportivo de desarollo personal
 
Cocomo2 apuntes
Cocomo2 apuntesCocomo2 apuntes
Cocomo2 apuntes
 
Cocom0llfull
Cocom0llfullCocom0llfull
Cocom0llfull
 
Deuda tecnica en Lean Startup.en.es.pdf
Deuda tecnica en Lean Startup.en.es.pdfDeuda tecnica en Lean Startup.en.es.pdf
Deuda tecnica en Lean Startup.en.es.pdf
 
Marketing Online - Profesiones Digitales
Marketing Online - Profesiones DigitalesMarketing Online - Profesiones Digitales
Marketing Online - Profesiones Digitales
 
Top 25 Profesiones Digitales 2015
Top 25 Profesiones Digitales 2015 Top 25 Profesiones Digitales 2015
Top 25 Profesiones Digitales 2015
 
GESTORIA, ASESORÍA
GESTORIA, ASESORÍAGESTORIA, ASESORÍA
GESTORIA, ASESORÍA
 
Gestoría y asesoría cas
Gestoría y asesoría casGestoría y asesoría cas
Gestoría y asesoría cas
 
Gestoría asesoría
Gestoría asesoríaGestoría asesoría
Gestoría asesoría
 

Último

QUIMICA GENERAL UNIVERSIDAD TECNOLOGICA DEL PERU
QUIMICA GENERAL UNIVERSIDAD TECNOLOGICA DEL PERUQUIMICA GENERAL UNIVERSIDAD TECNOLOGICA DEL PERU
QUIMICA GENERAL UNIVERSIDAD TECNOLOGICA DEL PERUManuelSosa83
 
Sistema de lubricación para motores de combustión interna
Sistema de lubricación para motores de combustión internaSistema de lubricación para motores de combustión interna
Sistema de lubricación para motores de combustión internamengual57
 
27311861-Cuencas-sedimentarias-en-Colombia.ppt
27311861-Cuencas-sedimentarias-en-Colombia.ppt27311861-Cuencas-sedimentarias-en-Colombia.ppt
27311861-Cuencas-sedimentarias-en-Colombia.pptjacnuevarisaralda22
 
INTEGRALES TRIPLES CLASE TEORICA Y PRÁCTICA
INTEGRALES TRIPLES CLASE TEORICA Y PRÁCTICAINTEGRALES TRIPLES CLASE TEORICA Y PRÁCTICA
INTEGRALES TRIPLES CLASE TEORICA Y PRÁCTICAJOSLUISCALLATAENRIQU
 
CALCULO SISTEMA DE PUESTA A TIERRA PARA BAJA TENSION Y MEDIA TENSION
CALCULO SISTEMA DE PUESTA A TIERRA PARA BAJA TENSION Y MEDIA TENSIONCALCULO SISTEMA DE PUESTA A TIERRA PARA BAJA TENSION Y MEDIA TENSION
CALCULO SISTEMA DE PUESTA A TIERRA PARA BAJA TENSION Y MEDIA TENSIONJuan Carlos Meza Molina
 
Tinciones simples en el laboratorio de microbiología
Tinciones simples en el laboratorio de microbiologíaTinciones simples en el laboratorio de microbiología
Tinciones simples en el laboratorio de microbiologíaAlexanderimanolLencr
 
Estadística Anual y Multianual del Sector Eléctrico Ecuatoriano
Estadística Anual y Multianual del Sector Eléctrico EcuatorianoEstadística Anual y Multianual del Sector Eléctrico Ecuatoriano
Estadística Anual y Multianual del Sector Eléctrico EcuatorianoEduardoBriones22
 
DIAPOSITIVAS DE SEGURIDAD Y SALUD EN EL TRABAJO
DIAPOSITIVAS DE SEGURIDAD Y SALUD EN EL TRABAJODIAPOSITIVAS DE SEGURIDAD Y SALUD EN EL TRABAJO
DIAPOSITIVAS DE SEGURIDAD Y SALUD EN EL TRABAJOJimyAMoran
 
Six Sigma Process and the dmaic metodo process
Six Sigma Process and the dmaic metodo processSix Sigma Process and the dmaic metodo process
Six Sigma Process and the dmaic metodo processbarom
 
ANALISIS Y DISEÑO POR VIENTO, DE EDIFICIOS ALTOS, SEGUN ASCE-2016, LAURA RAMIREZ
ANALISIS Y DISEÑO POR VIENTO, DE EDIFICIOS ALTOS, SEGUN ASCE-2016, LAURA RAMIREZANALISIS Y DISEÑO POR VIENTO, DE EDIFICIOS ALTOS, SEGUN ASCE-2016, LAURA RAMIREZ
ANALISIS Y DISEÑO POR VIENTO, DE EDIFICIOS ALTOS, SEGUN ASCE-2016, LAURA RAMIREZgustavoiashalom
 
LA APLICACIÓN DE LAS PROPIEDADES TEXTUALES A LOS TEXTOS.pdf
LA APLICACIÓN DE LAS PROPIEDADES TEXTUALES A LOS TEXTOS.pdfLA APLICACIÓN DE LAS PROPIEDADES TEXTUALES A LOS TEXTOS.pdf
LA APLICACIÓN DE LAS PROPIEDADES TEXTUALES A LOS TEXTOS.pdfbcondort
 
Tippens fisica 7eDIAPOSITIVAS TIPENS Tippens_fisica_7e_diapositivas_33.ppt
Tippens fisica 7eDIAPOSITIVAS TIPENS Tippens_fisica_7e_diapositivas_33.pptTippens fisica 7eDIAPOSITIVAS TIPENS Tippens_fisica_7e_diapositivas_33.ppt
Tippens fisica 7eDIAPOSITIVAS TIPENS Tippens_fisica_7e_diapositivas_33.pptNombre Apellidos
 
NTP- Determinación de Cloruros en suelos y agregados (1) (1).pptx
NTP- Determinación de Cloruros  en suelos y agregados (1) (1).pptxNTP- Determinación de Cloruros  en suelos y agregados (1) (1).pptx
NTP- Determinación de Cloruros en suelos y agregados (1) (1).pptxBRAYANJOSEPTSANJINEZ
 
COMPEDIOS ESTADISTICOS DE PERU EN EL 2023
COMPEDIOS ESTADISTICOS DE PERU EN EL 2023COMPEDIOS ESTADISTICOS DE PERU EN EL 2023
COMPEDIOS ESTADISTICOS DE PERU EN EL 2023RonaldoPaucarMontes
 
Propuesta para la creación de un Centro de Innovación para la Refundación ...
Propuesta para la creación de un Centro de Innovación para la Refundación ...Propuesta para la creación de un Centro de Innovación para la Refundación ...
Propuesta para la creación de un Centro de Innovación para la Refundación ...Dr. Edwin Hernandez
 
JM HIDROGENO VERDE- OXI-HIDROGENO en calderas - julio 17 del 2023.pdf
JM HIDROGENO VERDE- OXI-HIDROGENO en calderas - julio 17 del 2023.pdfJM HIDROGENO VERDE- OXI-HIDROGENO en calderas - julio 17 del 2023.pdf
JM HIDROGENO VERDE- OXI-HIDROGENO en calderas - julio 17 del 2023.pdfMiguelArango21
 
libro de ingeniería de petróleos y operaciones
libro de ingeniería de petróleos y operacioneslibro de ingeniería de petróleos y operaciones
libro de ingeniería de petróleos y operacionesRamon Bartolozzi
 
01 MATERIALES AERONAUTICOS VARIOS clase 1.ppt
01 MATERIALES AERONAUTICOS VARIOS clase 1.ppt01 MATERIALES AERONAUTICOS VARIOS clase 1.ppt
01 MATERIALES AERONAUTICOS VARIOS clase 1.pptoscarvielma45
 
Gestion de proyectos para el control y seguimiento
Gestion de proyectos para el control  y seguimientoGestion de proyectos para el control  y seguimiento
Gestion de proyectos para el control y seguimientoMaxanMonplesi
 

Último (20)

QUIMICA GENERAL UNIVERSIDAD TECNOLOGICA DEL PERU
QUIMICA GENERAL UNIVERSIDAD TECNOLOGICA DEL PERUQUIMICA GENERAL UNIVERSIDAD TECNOLOGICA DEL PERU
QUIMICA GENERAL UNIVERSIDAD TECNOLOGICA DEL PERU
 
Sistema de lubricación para motores de combustión interna
Sistema de lubricación para motores de combustión internaSistema de lubricación para motores de combustión interna
Sistema de lubricación para motores de combustión interna
 
27311861-Cuencas-sedimentarias-en-Colombia.ppt
27311861-Cuencas-sedimentarias-en-Colombia.ppt27311861-Cuencas-sedimentarias-en-Colombia.ppt
27311861-Cuencas-sedimentarias-en-Colombia.ppt
 
INTEGRALES TRIPLES CLASE TEORICA Y PRÁCTICA
INTEGRALES TRIPLES CLASE TEORICA Y PRÁCTICAINTEGRALES TRIPLES CLASE TEORICA Y PRÁCTICA
INTEGRALES TRIPLES CLASE TEORICA Y PRÁCTICA
 
CALCULO SISTEMA DE PUESTA A TIERRA PARA BAJA TENSION Y MEDIA TENSION
CALCULO SISTEMA DE PUESTA A TIERRA PARA BAJA TENSION Y MEDIA TENSIONCALCULO SISTEMA DE PUESTA A TIERRA PARA BAJA TENSION Y MEDIA TENSION
CALCULO SISTEMA DE PUESTA A TIERRA PARA BAJA TENSION Y MEDIA TENSION
 
Tinciones simples en el laboratorio de microbiología
Tinciones simples en el laboratorio de microbiologíaTinciones simples en el laboratorio de microbiología
Tinciones simples en el laboratorio de microbiología
 
Estadística Anual y Multianual del Sector Eléctrico Ecuatoriano
Estadística Anual y Multianual del Sector Eléctrico EcuatorianoEstadística Anual y Multianual del Sector Eléctrico Ecuatoriano
Estadística Anual y Multianual del Sector Eléctrico Ecuatoriano
 
DIAPOSITIVAS DE SEGURIDAD Y SALUD EN EL TRABAJO
DIAPOSITIVAS DE SEGURIDAD Y SALUD EN EL TRABAJODIAPOSITIVAS DE SEGURIDAD Y SALUD EN EL TRABAJO
DIAPOSITIVAS DE SEGURIDAD Y SALUD EN EL TRABAJO
 
Six Sigma Process and the dmaic metodo process
Six Sigma Process and the dmaic metodo processSix Sigma Process and the dmaic metodo process
Six Sigma Process and the dmaic metodo process
 
ANALISIS Y DISEÑO POR VIENTO, DE EDIFICIOS ALTOS, SEGUN ASCE-2016, LAURA RAMIREZ
ANALISIS Y DISEÑO POR VIENTO, DE EDIFICIOS ALTOS, SEGUN ASCE-2016, LAURA RAMIREZANALISIS Y DISEÑO POR VIENTO, DE EDIFICIOS ALTOS, SEGUN ASCE-2016, LAURA RAMIREZ
ANALISIS Y DISEÑO POR VIENTO, DE EDIFICIOS ALTOS, SEGUN ASCE-2016, LAURA RAMIREZ
 
LA APLICACIÓN DE LAS PROPIEDADES TEXTUALES A LOS TEXTOS.pdf
LA APLICACIÓN DE LAS PROPIEDADES TEXTUALES A LOS TEXTOS.pdfLA APLICACIÓN DE LAS PROPIEDADES TEXTUALES A LOS TEXTOS.pdf
LA APLICACIÓN DE LAS PROPIEDADES TEXTUALES A LOS TEXTOS.pdf
 
Tippens fisica 7eDIAPOSITIVAS TIPENS Tippens_fisica_7e_diapositivas_33.ppt
Tippens fisica 7eDIAPOSITIVAS TIPENS Tippens_fisica_7e_diapositivas_33.pptTippens fisica 7eDIAPOSITIVAS TIPENS Tippens_fisica_7e_diapositivas_33.ppt
Tippens fisica 7eDIAPOSITIVAS TIPENS Tippens_fisica_7e_diapositivas_33.ppt
 
NTP- Determinación de Cloruros en suelos y agregados (1) (1).pptx
NTP- Determinación de Cloruros  en suelos y agregados (1) (1).pptxNTP- Determinación de Cloruros  en suelos y agregados (1) (1).pptx
NTP- Determinación de Cloruros en suelos y agregados (1) (1).pptx
 
COMPEDIOS ESTADISTICOS DE PERU EN EL 2023
COMPEDIOS ESTADISTICOS DE PERU EN EL 2023COMPEDIOS ESTADISTICOS DE PERU EN EL 2023
COMPEDIOS ESTADISTICOS DE PERU EN EL 2023
 
Propuesta para la creación de un Centro de Innovación para la Refundación ...
Propuesta para la creación de un Centro de Innovación para la Refundación ...Propuesta para la creación de un Centro de Innovación para la Refundación ...
Propuesta para la creación de un Centro de Innovación para la Refundación ...
 
JM HIDROGENO VERDE- OXI-HIDROGENO en calderas - julio 17 del 2023.pdf
JM HIDROGENO VERDE- OXI-HIDROGENO en calderas - julio 17 del 2023.pdfJM HIDROGENO VERDE- OXI-HIDROGENO en calderas - julio 17 del 2023.pdf
JM HIDROGENO VERDE- OXI-HIDROGENO en calderas - julio 17 del 2023.pdf
 
libro de ingeniería de petróleos y operaciones
libro de ingeniería de petróleos y operacioneslibro de ingeniería de petróleos y operaciones
libro de ingeniería de petróleos y operaciones
 
01 MATERIALES AERONAUTICOS VARIOS clase 1.ppt
01 MATERIALES AERONAUTICOS VARIOS clase 1.ppt01 MATERIALES AERONAUTICOS VARIOS clase 1.ppt
01 MATERIALES AERONAUTICOS VARIOS clase 1.ppt
 
413924447-Clasificacion-de-Inventarios-ABC-ppt.ppt
413924447-Clasificacion-de-Inventarios-ABC-ppt.ppt413924447-Clasificacion-de-Inventarios-ABC-ppt.ppt
413924447-Clasificacion-de-Inventarios-ABC-ppt.ppt
 
Gestion de proyectos para el control y seguimiento
Gestion de proyectos para el control  y seguimientoGestion de proyectos para el control  y seguimiento
Gestion de proyectos para el control y seguimiento
 

PFM_ITI_Eder_Canduela_con_portada.pdf

  • 1. Deusto Facultad de Ingeniería Universidad de Deusto Ingeniaritza Fakultatea Deustuko Unibertsitatea Máster Universitario en Ingeniería Industrial Industria Ingeniaritzako Unibertsitate Masterra Proyecto fin de máster Master amaierako proiektua Aplicación de técnicas de machine learning para la optimización de procesos de Ocean Sunglasses Eder Canduela Conde Director: Alex Rayón Jerez Bilbao, mayo de 2019
  • 2.
  • 3. iii Resumen El presente proyecto tiene como finalidad la optimización de procesos de Ocean Sunglasses a través de la aplicación de técnicas de machine learning y Business Analytics. De esta forma, se generará valor a los datos obtenidos por medio de fuentes tanto internas, como externas al negocio, obteniendo una relación directa entre los datos de los clientes y la generación de valor para la empresa. Con el objetivo mencionado, se empleará la metodología CRISP-DM para el desarrollo del proyecto. En una primera parte, se comenzará por la comprensión del negocio. Se realizará un análisis externo e interno del negocio para poder formular las cuestiones de negocio sobre las que desarrollar el proceso técnico. Posteriormente, se hará uso de un software de programación opensource con enfoque estadístico para dar respuesta a las cuestiones de planteadas, generando modelos de machine learning que ayuden al desarrollo del proyecto. Finalmente, se proponen estrategias de negocio a seguir por la empresa a través de las conclusiones obtenidas durante el desarrollo técnico del proyecto que ayuden a la mejora y optimización de procesos de la empresa. Descriptores Tecnología Big Data Machine learning eCommerce Business Intelligence Valor
  • 4.
  • 5. v Índice de contenidos 1. INTRODUCCIÓN ..................................................................................................................... 1 1.1 Objeto del proyecto .......................................................................................................... 1 1.2 Objetivos........................................................................................................................... 2 1.2.1 Objetivo general ..................................................................................................... 2 1.2.2 Objetivos específicos ............................................................................................. 2 1.3 Alcance............................................................................................................................. 2 2. ANTECEDENTES.................................................................................................................... 5 2.1 eCommerce...................................................................................................................... 5 2.1.1 Historia del comercio.............................................................................................. 5 2.1.2 Formas de comercio electrónico............................................................................ 7 2.1.2.1 Según el tipo de cliente.................................................................................... 7 2.1.2.2 Según el modelo de negocio............................................................................ 9 2.1.2.3 Según la plataforma ....................................................................................... 10 2.1.3 Obligaciones legales ............................................................................................ 11 2.1.3.1 Protección de datos de carácter personal...................................................... 11 2.1.3.2 Correo electrónico comercial ......................................................................... 12 2.1.3.3 Notificación sobre las “cookies” ..................................................................... 13 2.1.3.4 Información obligatoria que ha de ofrecer la página web .............................. 13 2.1.4 Comercio electrónico en España ......................................................................... 15 2.2 Big Data.......................................................................................................................... 16 2.2.1 Introducción.......................................................................................................... 16 2.2.2 Machine Learning................................................................................................. 19 2.2.2.1 Técnicas de Machine Learning ...................................................................... 20 3. METODOLOGÍA DEL PROYECTO ...................................................................................... 29 4. ESTUDIO DEL NEGOCIO..................................................................................................... 33 4.1 Definición del negocio .................................................................................................... 33 4.1.1 Organigrama ........................................................................................................ 34 4.1.2 Productos ............................................................................................................. 34 4.1.3 Canales ................................................................................................................ 35 4.1.4 Sponsors .............................................................................................................. 36 4.2 Análisis externo .............................................................................................................. 36 4.2.1 El entorno: nivel macro ........................................................................................ 36 4.2.2 La industria: nivel micro ....................................................................................... 41 4.2.3 Posición estratégica de la empresa..................................................................... 43
  • 6. vi 4.3 Análisis interno ...............................................................................................................47 4.3.1 Recursos ..............................................................................................................47 4.3.2 Competencias esenciales ....................................................................................50 4.4 DAFO..............................................................................................................................53 4.4.1 Capacidades.........................................................................................................53 4.5 Preguntas de negocio.....................................................................................................54 4.5.1 Cadena de valor ...................................................................................................54 4.5.2 Mapa estratégico..................................................................................................55 4.5.3 Formulación de cuestiones ..................................................................................56 5. DESARROLLO TÉCNICO .....................................................................................................57 5.1 Entorno de trabajo ..........................................................................................................58 5.2 Estudio y comprensión de los datos...............................................................................59 5.3 Desarrollo de un modelo descriptivo ..............................................................................61 5.3.1 Preparación de los datos......................................................................................62 5.3.2 Data Mining ..........................................................................................................64 5.3.2.1 Enriquecimiento del modelo ...........................................................................68 5.3.2.2 Customer Lifetime Value ................................................................................75 5.3.2.3 Estudio en España .........................................................................................78 5.3.3 Conclusiones........................................................................................................80 5.4 Desarrollo de un modelo predictivo ................................................................................81 5.4.1 Preparación de los datos......................................................................................81 5.4.1.1 Países de estudio ...........................................................................................83 5.4.1.2 Efecto de los cupones ....................................................................................84 5.4.1.3 Hábitos de compra .........................................................................................85 5.4.2 Data Mining ..........................................................................................................87 5.4.2.1 Análisis exploratorio .......................................................................................88 5.4.2.2 Preprocesado de datos ..................................................................................94 5.4.2.3 División de los datos en entrenamiento y test................................................95 5.4.2.4 Selección de predictores ................................................................................96 5.4.2.5 Variación del muestreo...................................................................................98 5.4.2.6 Construcción de modelos...............................................................................98 5.4.2.7 Comparación entre modelos ........................................................................102 5.4.2.8 Predicción.....................................................................................................106 5.4.2.9 Estudio en España .......................................................................................107 5.4.3 Conclusiones......................................................................................................108 5.5 Análisis de Redes Sociales (ARS) ...............................................................................109
  • 7. vii 5.5.1 Extracción de datos de Twitter........................................................................... 111 5.5.2 Carga de datos................................................................................................... 111 5.5.3 Limpieza de texto y tokenización ....................................................................... 112 5.5.4 Análisis exploratorio de datos ............................................................................ 113 5.5.5 Text Mining......................................................................................................... 119 5.5.5.1 Análisis de sentimientos............................................................................... 120 5.5.5.2 Term Frequency e Inverse Document Frequency ....................................... 123 5.5.5.3 Relaciones entre palabras: correlaciones y n-gramas................................. 125 5.5.6 Conclusiones...................................................................................................... 131 6. ESTRATEGIAS DE NEGOCIO............................................................................................ 133 6.1 Implantación de un ERP............................................................................................... 134 6.2 Campañas de marketing .............................................................................................. 136 6.2.1 Inbound Marketing ............................................................................................. 139 6.2.1.1 Auditoría del canal de tráfico........................................................................ 141 6.2.1.2 AdWords....................................................................................................... 144 6.2.1.3 Blog de contenido......................................................................................... 146 6.2.1.4 Lead scoring y lead nurturing....................................................................... 147 6.2.2 Costumer Marketing........................................................................................... 148 6.2.2.1 Email marketing............................................................................................ 148 6.2.2.2 Marketing de productos................................................................................ 149 6.2.2.3 Promociones y encuestas ............................................................................ 150 6.3 Implantación de una herramienta de BI ....................................................................... 150 6.3.1 Procesos de negocio a los que dar soporte....................................................... 151 6.3.2 Usuarios del nuevo sistema y escenarios de uso.............................................. 152 6.3.2.1 Usuarios del nuevo sistema ......................................................................... 152 6.3.2.2 Escenarios de uso........................................................................................ 153 6.3.3 Restricciones...................................................................................................... 154 6.3.3.1 Plazos........................................................................................................... 154 6.3.3.2 Descripción de las tareas y justificación de tiempos.................................... 154 6.3.3.3 Presupuesto ................................................................................................. 156 6.3.3.4 Implantación y adaptación del sistema por parte del personal.................... 156 6.3.4 Criterios para la selección de herramientas....................................................... 156 6.3.4.1 Planteamiento del problema de decisión ..................................................... 156 6.3.4.2 Selección de criterios ................................................................................... 156 6.3.5 Herramientas analizadas ................................................................................... 158 6.3.6 Elección de la herramienta................................................................................. 159
  • 8. viii 7. CONCLUSIONES Y RESULTADOS ...................................................................................161 8. LÍNEAS FUTURAS ..............................................................................................................165 9. PLAN DE TRABAJO ...........................................................................................................167 10.PRESUPUESTO ..................................................................................................................173 11.VALORACIÓN PERSONAL DEL PFM ...............................................................................177 12.BIBLIOGRAFÍA....................................................................................................................179 GLOSARIO DE TÉRMINOS .....................................................................................................183 ANEXO 1. DESARROLLO DEL MODELO DESCRIPTIVO.....................................................185 Preparación de los datos......................................................................................................185 Proceso de data mining........................................................................................................196 Cálculo de los pesos del modelo RFM.................................................................................212 ANEXO 2. DESARROLLO DEL MODELO PREDICTIVO .......................................................215 Preparación de los datos......................................................................................................215 Proceso de data mining........................................................................................................240 ANEXO 3. ANÁLISIS DE REDES SOCALES..........................................................................265 ANEXO 4. ELECCIÓN DE LA HERRAMIENTA DE BI............................................................293 Cálculo de los pesos de los criterios....................................................................................293 Cálculo de los pesos para la elección de la herramienta.....................................................296 ANEXO 5. AUDITORÍA SEO ENTRE OCEAN Y HAWKERS..................................................305
  • 9. ix Índice de ilustraciones Ilustración 1 Integración del sistema EDI[2]...................................................................................5 Ilustración 2 Línea de tiempo del comercio electrónico[3].............................................................6 Ilustración 3 Clasificación de los comercios electrónicos [Fuente: elaboración propia] ................7 Ilustración 4 Proceso de un modelo dropshipping[9].....................................................................9 Ilustración 5 Página oficial de la AEPD para completar el formulario NOTA [Fuente: Gobierno de España]............................................................................................................................11 Ilustración 6 Ejemplo del modelo de recogida de datos de la página [Fuente: Ocean Sunglases]12 Ilustración 7 Acceso a la recepción de newsletters tras el registro en Ocean Sunglasses [Fuente: Ocean Sunglases] ..................................................................................................13 Ilustración 8 Información acerca de la web Ocean Sunglasses [Fuente: Ocean Sunglases] .....14 Ilustración 9 Nivel de digitalización de las compañías a nivel mundial[10]..................................15 Ilustración 10 Volumen de comercio electrónico B2C[11] ...........................................................15 Ilustración 11 4V's del Big Data [Fuente: elaboración propia] .....................................................17 Ilustración 12 Esquema de la combinación de paradigmas[13] ..................................................18 Ilustración 13 Clasificación de las empresas por capitalización bursátil entre 2007 y 2017[14] .18 Ilustración 14 Clasificación de los componentes del aprendizaje automático [Fuente: elaboración propia] ...............................................................................................................19 Ilustración 15 Tipologías y técnicas de Machine Learning[15] ....................................................20 Ilustración 16 Métodos para el procesamiento del lenguaje natural y la visión artificial[15] .......22 Ilustración 17 Ejemplo de predicción de la temperatura por medio de regresión lineal simple[17]23 Ilustración 18 Árbol de decisión usado para un procedimiento de clasificación [19]...................23 Ilustración 19 Funcionamiento del meto KNN..............................................................................24 Ilustración 20 Representación del hiperplano generado por un SVM[17] ...................................25 Ilustración 21 Red neuronal monocapa[20] .................................................................................25 Ilustración 22 Modelo basado en una red neuronal de varias capas[21] ....................................26 Ilustración 23 Generación de clusters a partir de un set de 150 datos aplicando K-means[16]..27 Ilustración 24 Ejemplo de dendograma obtenido a partir de 9 observaciones[16]......................27 Ilustración 25 Validación cruzada dejando K iteraciones.............................................................28 Ilustración 26 Ciclo de vida del proyecto de minería de datos[22] ..............................................29 Ilustración 27 Metodología de desarrollo del proyecto [Fuente: elaboración propia] ..................31 Ilustración 28 Visualización de la página web[23] .......................................................................33 Ilustración 29 Organigrama de la empresa Ocean Sunglasses [Fuente: elaboración propia] ....34 Ilustración 30 Divisiones de la gama de productos [Fuente: elaboración propia] .......................35 Ilustración 31 Redes sociales en las que se encuentra la marca................................................35 Ilustración 32 Ejemplo de rider de Ocean Sunglasses [Fuente: Ocean Sunglasses] .................36
  • 10. x Ilustración 33 Entornos analizados [Fuente: elaboración propia] ............................................... 36 Ilustración 34 Pymes que venden online (2017). [Fuente: Eustat][25] ....................................... 37 Ilustración 35 índice de Economía y Sociedad Digitales DESI (2017) [Fuente: Eurostat][26].... 38 Ilustración 36 Dimensión capital humano (%) [Fuente: Eurostat][25] ......................................... 38 Ilustración 37 Comparativa de dimensiones DESI [Fuente: Eurostat] [26] ................................. 39 Ilustración 38 Análisis PESTEL sobre el macroentorno de la empresa [Fuente: elaboración propia] .................................................................................................................................. 40 Ilustración 39 5 fuerzas de Porter para el análisis de la estructura sectorial[24]........................ 41 Ilustración 40 Ejes y cuadrantes de la matriz PEYEA................................................................. 45 Ilustración 41 Análisis de competencias clave [Fuente: elaboración propia].............................. 50 Ilustración 42 Clasificación y ejemplos de capacidades [Fuente: elaboración propia] ............... 53 Ilustración 43 Formulación empleada para plantear las hipótesis de negocio [Fuente: elaboración propia]............................................................................................................... 54 Ilustración 44 Cadena de valor del sector [Fuente: elaboración propia]..................................... 54 Ilustración 45 Mapa estratégico de Ocean Sunglasses [Fuente: elaboración propia]................ 56 Ilustración 46 Etapas del proceso de desarrollo técnico de los datos[31] .................................. 57 Ilustración 47 Plataformas tecnológicas en Big Data[32]............................................................ 58 Ilustración 48 Visualización de la herramienta RStudio empleada [Fuente: elaboración propia]59 Ilustración 49 Exploración de datos del archivo “mgt_sales_flat_order_item (ventas por producto).csv”....................................................................................................................... 60 Ilustración 50 Pirámide de consumidores según el principio de Pareto[34] ............................... 61 Ilustración 51 Ejemplo de cálculo de la segmentación de un cliente a través del RFM[34] ....... 62 Ilustración 52 Resumen de los pasos a seguir en el desarrollo del modelo [Fuente: elaboración propia] .................................................................................................................................. 62 Ilustración 53 Distribución de probabilidad alrededor de la media en una distribución N (μ, σ2)[13]................................................................................................................................... 63 Ilustración 54 Valores del dataset final creado [Fuente: elaboración propia] ............................. 64 Ilustración 55 Votación realizada con los indicadores seleccionados [Fuente: elaboración propia] .................................................................................................................................. 64 Ilustración 56 Numero óptimo de clústers recomendados para los métodos de clusterización por los distintos indicadores [Fuente: elaboración propia]......................................................... 65 Ilustración 57 Codo generado a partir de todos los índices de la libería NbClust para K-means [Fuente: elaboración propia] ................................................................................................ 65 Ilustración 58 Codo generado a partir de todos los índices de la libería NbClust para Ward.D2 [Fuente: elaboración propia] ................................................................................................ 66 Ilustración 59 Clústers obtenidos a través del algoritmo K-means [Fuente: elaboración propia]66 Ilustración 60 Clústers obtenidos a través del algoritmo Ward.D2 [Fuente: elaboración propia] 67 Ilustración 61 Diagramas de cajas para los valores de cada clúster [Fuente: elaboración propia]67
  • 11. xi Ilustración 62 Clasificando los clústers en función de los valores de los percentiles [Fuente: elaboración propia] ...............................................................................................................68 Ilustración 63 Dataframe obtenido tras el enriquecimiento [Fuente: elaboración propia]............68 Ilustración 64 Localización de outliers a través del método local outlier factor [Fuente: elaboración propia] ...............................................................................................................69 Ilustración 65 Regla del codo según el algoritmo PAM [Fuente: elaboración propia] .................69 Ilustración 66 Clusterización interna realizada por el algoritmo PAM [Fuente: elaboración propia] ...................................................................................................................................70 Ilustración 67 Regla del codo obtenida para la distancia de Gowel [Fuente: elaboración propia]70 Ilustración 68 Obtención del número de clústers a través del método DBSCAN [Fuente: elaboración propia] ...............................................................................................................71 Ilustración 69 Clústers obtenidos a través del algoritmo K-means tras el enriquecimiento [Fuente: elaboración propia] .................................................................................................71 Ilustración 70 Datos técnicos que devuelve el modelo K-means [Fuente: elaboración propia] ..72 Ilustración 71 clustering realizado a través del algoritmo Ward.D2 [Fuente: elaboración propia]73 Ilustración 72 Árboles de decisión obtenidos para los modelos a) K-means y b) Ward.D2 [Fuente: elaboración propia] .................................................................................................74 Ilustración 73 Nodos obtenidos en los arboles de clasificación a) K-means b) Ward.D2 [Fuente: elaboración propia] ...............................................................................................................74 Ilustración 74 Evolución del error relativo en el desarrollo de los arboles de decisión de los modelos a) K-means b) Ward.D2 [Fuente: elaboración propia] ...........................................74 Ilustración 75 Perfil de los clientes con mayor potencial de crecimiento[36]...............................75 Ilustración 76 Escala Saaty[38]....................................................................................................76 Ilustración 77 Clústers obtenidos tras incluir el CLV [Fuente: elaboración propia] .....................76 Ilustración 78 Datos técnicos devueltos por el modelo K-means [Fuente: elaboración propia] ..77 Ilustración 79 Histograma de los valores de CLV obtenidos [Fuente: elaboración propia] .........78 Ilustración 80 Gráfica de barras de las provincias respecto a su CLV [Fuente: elaboración propia] ...................................................................................................................................78 Ilustración 81 Geolocalización de los clientes de Ocean a) Marcadores simples b) En escala al CLV de cada cliente [Fuente: elaboración propia]................................................................79 Ilustración 82 Geolocalización de los clústers en base al CLV [Fuente: elaboración propia] .....79 Ilustración 83 Proceso y modelo realizados [Fuente: elaboración propia] ..................................80 Ilustración 84 Datasets obtenidos tras el proceso de preparación de datos a) Productos configurables b) Productos simples [Fuente: elaboración propia]........................................82 Ilustración 85 Índices de ventas por país para los productos simples (superior) y configurables (inferior) [Fuente: elaboración propia]...................................................................................83 Ilustración 86 Gráficas de volumen y facturación de las ventas mensuales en los países de elegidos [Fuente: elaboración propia]...................................................................................83
  • 12. xii Ilustración 87 Gráficas de volumen ventas a través de cupones descuento en los países de estudio [Fuente: elaboración propia].................................................................................... 84 Ilustración 88 Gráficas de facturación mensuales a lo largo de los años de estudio [Fuente: elaboración propia]............................................................................................................... 85 Ilustración 89 Gráficas de frecuencia diarias a lo largo de los años de estudio [Fuente: elaboración propia]............................................................................................................... 86 Ilustración 90 Gráficas de frecuencia horarias a lo largo de los años de estudio [Fuente: elaboración propia]............................................................................................................... 86 Ilustración 91 Dataset preparado para el desarrollo del modelo [Fuente: elaboración propia] .. 87 Ilustración 92 Análisis de las observaciones y valores ausentes [Fuente: elaboración propia] . 88 Ilustración 93 Grafica de distribución de la variable respuesta [Fuente: elaboración propia]..... 88 Ilustración 94 Tabla de frecuencias de los modelos de gafas [Fuente: elaboración propia] ...... 89 Ilustración 95 Graficas de densidad y caja de la variable "total factura" respecto a los modelos de gafas [Fuente: elaboración propia].................................................................................. 89 Ilustración 96 Graficas de densidad y caja de la variable "qty_ordered" respecto a los modelos de gafas [Fuente: elaboración propia].................................................................................. 90 Ilustración 97 Grafica de barras de las variables “gafas” y “coupon_code” [Fuente: elaboración propia] .................................................................................................................................. 90 Ilustración 98 Grafica de barras de las variables “gafas” y “company” [Fuente: elaboración propia] .................................................................................................................................. 91 Ilustración 99 Tablas de frecuencias relativas al modelo de gafas por uso de cupones y venta a compañías [Fuente: elaboración propia].............................................................................. 91 Ilustración 100 diagramas de dispersión entre la variable “total factura” y las variables “price”, “discount_invoiced”, “duración transacción” y “qty_ordered” [Fuente: elaboración propia]. 92 Ilustración 101 Test de correlación de Pearson para las variables “price” y “duración transacción”, respecto a “total factura” [Fuente: elaboración propia] .................................. 92 Ilustración 102 Test de correlación de Pearson para las variables “discount_invoiced” y “qty_ordered”, respecto a “total factura” [Fuente: elaboración propia] ................................ 93 Ilustración 103 Red bayesiana entre las variables de estudio [Fuente: elaboración propia]...... 93 Ilustración 104 Importancia de las variables según su reducción de la precisión y la pureza de Gini [Fuente: elaboración propia] ......................................................................................... 94 Ilustración 105 Resultados del estudio de varianzas de los datos [Fuente: elaboración propia] 95 Ilustración 106 Partición aleatoria de los datos para entrenar y probar el modelo [Fuente: elaboración propia]............................................................................................................... 96 Ilustración 107 Resultados tras el RFE [Fuente: elaboración propia]......................................... 96 Ilustración 108 Evolución del accuracy estimado en función del número de predictores incluido en el modelo [Fuente: elaboración propia]........................................................................... 97 Ilustración 109 Resultado obtenidos con el método SBF [Fuente: elaboración propia] ............. 97 Ilustración 110 Resultado de las técnicas de muestreo empleadas [Fuente: elaboración propia]98
  • 13. xiii Ilustración 111 Gráficas de resultados obtenidos a partir de los modelos sin variar el muestreo [Fuente: elaboración propia] ...............................................................................................102 Ilustración 112 Gráficas de resultados obtenidos a partir de los modelos con datos bajo muestreo [Fuente: elaboración propia] ...............................................................................102 Ilustración 113 Gráficas de resultados obtenidos a partir de los modelos con datos sobre muestreo [Fuente: elaboración propia] ...............................................................................103 Ilustración 114 Resultado del Test de Friedman [Fuente: elaboración propia] .........................104 Ilustración 115 Resultados del accuracy del test de Wilcoxon de los modelos a) sin variación de muestreo b) bajo muestreo c) sobre muestreo [Fuente: elaboración propia].....................104 Ilustración 116 Predicciones de los distintos modelos para los datos de entrenamiento y test a) sin variación en el muestreo b) bajo muestreo c) sobre muestreo [Fuente: elaboración propia] .................................................................................................................................105 Ilustración 117 Comparación del accuracy para los distintos modelos con los datos de entrenamiento y test sin realizar variaciones en el muestreo [Fuente: elaboración propia]105 Ilustración 118 Comparación del accuracy para los distintos modelos con los datos de entrenamiento y test variando el muestreo (bajo muestreo) [Fuente: elaboración propia] 105 Ilustración 119 Comparación del accuracy para los distintos modelos con los datos de entrenamiento y test variando el muestreo (sobre muestreo) [Fuente: elaboración propia]106 Ilustración 120 Primeras 6 predicciones realizadas por el modelo [Fuente: elaboración propia]106 Ilustración 121 Geolocalización de los modelos predichos según su índice de ventas [Fuente: elaboración propia] .............................................................................................................107 Ilustración 122 Grafica de dispersión de las comunidades autónomas respecto a las ventas realizadas de los modelos predichos [Fuente: elaboración propia]....................................107 Ilustración 123 Organigrama de los pasos seguidos para dar respuesta a la pregunta de negocio [Fuente: elaboración propia] .................................................................................108 Ilustración 124 Proceso de text mining[44] ................................................................................110 Ilustración 125 APP creada para la extracción de datos de Twitter [Fuente: elaboración propia]111 Ilustración 126 Dataframe generado tras la extracción de tweets [Fuente: elaboración propia]112 Ilustración 127 Resultado tras el proceso de tokenización [Fuente: elaboración propia]..........113 Ilustración 128 Resultado tras el proceso de expansión [Fuente: elaboración propia] .............113 Ilustración 129 Graficas de barras del número de tweets publicados por los riders y la cuenta de Ocean [Fuente: elaboración propia]....................................................................................114 Ilustración 130 Actividad de las cuentas a lo largo del tiempo [Fuente: elaboración propia] ....114 Ilustración 131 Grafico de barras del número de palabras usadas por cada rider y la cuenta Ocean. Arriba: cantidad de palabras. Abajo: cantidad de palabras distintas [Fuente: elaboración propia] .............................................................................................................115 Ilustración 132 Longitud media de tweets por usuario [Fuente: elaboración propia] ................115 Ilustración 133 Palabras más usadas por usuario [Fuente: elaboración propia].......................116 Ilustración 134 Graficas de frecuencias por usuario [Fuente: elaboración propia]....................116
  • 14. xiv Ilustración 135 Word Clouds de los tweets de los riders y la cuenta de Ocean [Fuente: elaboración propia]............................................................................................................. 117 Ilustración 136 Word Cloud de los tweets de los usuarios filtrados por Key Word [Fuente: elaboración propia]............................................................................................................. 117 Ilustración 137 Gráficos de correlaciones entre los Tweets de los riders y los usuarios de Twitter [Fuente: elaboración propia]................................................................................... 118 Ilustración 138 Top 10 de palabras más diferenciadas entre los riders y los usuarios de Twitter [Fuente: elaboración propia] .............................................................................................. 119 Ilustración 139 Metodología a seguir para la clasificación de Key Words [Fuente: elaboración propia] ................................................................................................................................ 119 Ilustración 140 Graficas de barras del top 15 palabras de cada sentimiento [Fuente: elaboración propia] ................................................................................................................................ 120 Ilustración 141 Graficas de barras apiladas de sentimientos generados por autor a) conteo de palabras b) sentimientos predominantes [Fuente: elaboración propia] ............................. 121 Ilustración 142 Evolución de los sentimientos en los usuarios [Fuente: elaboración propia] ... 121 Ilustración 143 Proporción de sentimientos por países [Fuente: elaboración propia] .............. 122 Ilustración 144 Nube comparativa de palabras en función de sus sentimientos [Fuente: elaboración propia]............................................................................................................. 122 Ilustración 145 Tabla de las palabras con mayor tf [Fuente: elaboración propia]..................... 123 Ilustración 146 Graficas de distribución del tf para cada autor [Fuente: elaboración propia] ... 123 Ilustración 147 Tabla con las 6 palabras de mayor idf [Fuente: elaboración propia]................ 124 Ilustración 148 Tabla con el top 10 valores obtenidos del tf-idf [Fuente: elaboración propia] .. 124 Ilustración 149 Top 10 palabras por tf-idf por usuario [Fuente: elaboración propia]................. 125 Ilustración 150 Visualización de los primeros 10 bigramas obtenidos [Fuente: elaboración propia] ................................................................................................................................ 126 Ilustración 151 Dataframe creado tras el cálculo del tf-idf [Fuente: elaboración propia] .......... 126 Ilustración 152 Atributos y ejes del grafo creado [Fuente: elaboración propia] ........................ 128 Ilustración 153 Grafo obtenido a través de R [Fuente: elaboración propia].............................. 129 Ilustración 154 Grafo obtenido con Gephi [Fuente: elaboración propia]................................... 130 Ilustración 155 Pestaña "laboratorio de datos" [Fuente: Gephi] ............................................... 130 Ilustración 156 Proceso seguido para dar respuesta a las cuestiones de negocio [Fuente: elaboración propia]............................................................................................................. 131 Ilustración 157 Cadena de suministro de Ocean [Fuente: elaboración propia] ........................ 133 Ilustración 158 Aplicaciones disponibles de la herramienta Odoo [Fuente: Odoo app] ........... 135 Ilustración 159 Costumer Journey Map de Ocean [Fuente: elaboración propia]...................... 137 Ilustración 160 Proceso de transformación [Fuente: elaboración propia]................................. 140 Ilustración 161 Puntuación obtenida para el posicionamiento SEO de a través de la página WooRank [Fuente: WooRank] ........................................................................................... 142
  • 15. xv Ilustración 162 Análisis SEO realizado por WooRank [Fuente: WooRank]...............................142 Ilustración 163 Estadísticas sobre el tráfico web de Ocean Sunglasses y Hawkersco [Fuente: SimilarWeb].........................................................................................................................143 Ilustración 164 Comparación entre las fuentes de tráfico de Ocean Sunglasses y Hawkersco [Fuente: SimilarWeb] ..........................................................................................................143 Ilustración 165 Diferencia entre SEO y SEM en Google [Fuente: Google] ...............................144 Ilustración 166 Grafica del índice de competitividad y CPC por volumen de búsqueda de las Key Words [Fuente: elaboración propia] ............................................................................144 Ilustración 167 Propuesta de la campaña a realizar [Fuente: Google AdWords]......................145 Ilustración 168 Visualización del anuncio en el buscador de Google [Fuente: Google AdWords]145 Ilustración 169 Estructura del blog creado [Fuente: Webnode].................................................146 Ilustración 170 Ejemplo de lead scoring[53] ..............................................................................147 Ilustración 171 Estrategias a seguir por tipología de cliente [Fuente: elaboración propia] .......148 Ilustración 172 Ejemplo de uso de la herramienta Inmersión [Fuente: Inmersión]....................149 Ilustración 173 Cadena de valor de Ocean Sunglasses [Fuente: elaboración propia]..............151 Ilustración 174 Resumen de implantación del sistema [Fuente: elaboración propia]................154 Ilustración 175 Cuadrante mágico de Gartner [Fuente: Gartner enero de 2019] ......................158 Ilustración 176 Mapa conceptual sobre el desarrollo del proyecto [Fuente: elaboración propia]161 Ilustración 177 Diagrama de Gantt de las tareas principales [Fuente: elaboración propia] ......167 Ilustración 178 Diagrama de Gantt de todas las tareas y subtareas realizadas [Fuente: elaboración propia] .............................................................................................................168 Ilustración 179 Coste de implantación de las herramientas [Fuente: elaboración propia] ........173 Ilustración 180 Presupuesto completo del proyecto [Fuente: elaboración propia] ....................175
  • 16.
  • 17. xvii Índice de tablas Tabla 1 Relaciones entre los distintos tipos de clientes [Fuente: elaboración propia] ..................8 Tabla 2 Información obligatoria que ha de ofrecer una página web [Fuente: elaboración propia]13 Tabla 3 Resumen del comercio electrónico 2017[11]..................................................................16 Tabla 4 Diferencias del aprendizaje automático respecto al modelo tradicional.........................20 Tabla 5 Representación de la matriz de confusión......................................................................21 Tabla 6 Criterios elegidas para la evaluación estratégica de la empresa [Fuente: elaboración propia] ...................................................................................................................................46 Tabla 7 Características básicas de los recursos [Fuente: elaboración propia] ...........................47 Tabla 8 Auditoría de recursos [Fuente: elaboración propia]........................................................49 Tabla 9 Análisis de competencias de Ocean Sunglasses [Fuente: elaboración propia].............52 Tabla 10 Análisis DAFO de Ocean Sunglasses [Fuente: elaboración propia] ............................53 Tabla 11 Características generales de los archivos [Fuente: elaboración propia] ......................60 Tabla 12 Características del modelo descriptivo [Fuente: elaboración propia] ...........................61 Tabla 13 Significado obtenido de los clústers [Fuente: elaboración propia]................................73 Tabla 14 Pesos obtenidos tras el método AHP [Fuente: elaboración propia] .............................76 Tabla 15 Conclusiones tras la realización del modelo descriptivo ..............................................80 Tabla 16 Características del modelo predictivo [Fuente: elaboración propia] .............................81 Tabla 17 Relación entre los países de estudio y meses de peores ventas [Fuente: elaboración propia] ...................................................................................................................................84 Tabla 18 Relación entre los países de estudio y cupones expendidos por mes [Fuente: elaboración propia] ...............................................................................................................85 Tabla 19 Resultados para el algoritmo KNN [Fuente: elaboración propia]..................................99 Tabla 20 Resultados para el algoritmo Naive Bayes [Fuente: elaboración propia]...................100 Tabla 21 Resultados para el algoritmo regresión logística multinomial [Fuente: elaboración propia] .................................................................................................................................100 Tabla 22 Resultados para el algoritmo C5.0 [Fuente: elaboración propia]................................100 Tabla 23 Resultados para el algoritmo random forest [Fuente: elaboración propia].................100 Tabla 24 Resultados para el algoritmo gradient boosting [Fuente: elaboración propia] ...........101 Tabla 25 Resultados para el algoritmo SVM [Fuente: elaboración propia] ...............................101 Tabla 26 Resultados para el algoritmo redes neuronales [Fuente: elaboración propia] ...........101 Tabla 27 Conclusiones tras realizar el modelo predictivo [Fuente: elaboración propia] ...........109 Tabla 28 Tabla de contingencia del coeficiente phi de Mathew ................................................127 Tabla 29 Lista de palabras obtenidas tras el filtrado por correlación [Fuente: elaboración propia]128 Tabla 30 Presupuesto de implantación del ERP [Fuente: elaboración propia] .........................136 Tabla 31 Criterios de selección de la herramienta de BI [Fuente: elaboración propia] .............157
  • 18. xviii Tabla 32 Pesos de criterios de primer nivel [Fuente: elaboración propia] ................................ 158 Tabla 33 Software analizado por compañía [Fuente: elaboración propia]................................ 159 Tabla 34 Resultado final obtenido por el método AHP [Fuente: elaboración propia] ............... 159 Tabla 35 Descripción de las tareas realizadas [Fuente: elaboración propia] ........................... 172 Tabla 36 Salario/hora de cada perfil de ingeniero [Fuente: elaboración propia] ...................... 173 Tabla 37 Desglose del coste anual para la implantación del ERP [Fuente: elaboración propia]173 Tabla 38 Desglose del coste anual para la implantación del SSD [Fuente: elaboración propia]174 Tabla 39 Estimación del presupuesto disponible en marketing online [Fuente: elaboración propia] ................................................................................................................................ 174 Tabla 40 Estimación de costes para las campañas en marketing [Fuente: elaboración propia]174 Tabla A 1 Ponderación de la comparación de los criterios RFM [Fuente: elaboración propia] 212 Tabla A 2 Matriz de ponderación para la comparación entre criterios [Fuente: elaboración propia] ................................................................................................................................ 212 Tabla A 3 Matriz de normalización por la suma de los criterios [Fuente: elaboración propia].. 213 Tabla A 4 Matriz de elección del Random Index [Fuente: elaboración propia]......................... 213 Tabla A 5 Análisis de consistencia entre juicios de criterios [Fuente: elaboración propia]....... 213 Tabla A 6 Pesos de criterios obtenidos [Fuente: elaboración propia]....................................... 213 Tabla A 7 Ponderación de comparación de criterios de 1er y 2º nivel [Fuente: elaboración propia] ................................................................................................................................ 294 Tabla A 8 Matrices de ponderación para la comparación entre criterios de 1er y 2º nivel [Fuente: elaboración propia] .............................................................................................. 294 Tabla A 9 Matrices de normalización por la suma de criterios de 1er y 2º nivel [Fuente: elaboración propia]............................................................................................................. 295 Tabla A 10 Análisis de consistencia para los juicios de los criterios de 1er y 2º nivel [Fuente: elaboración propia]............................................................................................................. 296 Tabla A 11 Resultados de los pesos locales y globales de los criterios [Fuente: elaboración propia] ................................................................................................................................ 296 Tabla A 12 Puntuación de criterios para las distintas herramientas [Fuente: elaboración propia]297 Tabla A 13 Ponderación de herramientas por criterio [Fuente: elaboración propia] ................ 298 Tabla A 14 Matrices de ponderación para la comparación de herramientas por los criterios elegidos [Fuente: elaboración propia]................................................................................ 300 Tabla A 15 Matrices de normalización para la elección de herramientas de acuerdo con los criterios elegidos [Fuente: elaboración propia] .................................................................. 301 Tabla A 16 Análisis de consistencia entre juicios de herramienta por criterio [Fuente: elaboración propia]............................................................................................................. 302 Tabla A 17 Promedio de los pesos para las herramientas respecto a los criterios [Fuente: elaboración propia]............................................................................................................. 303 Tabla A 18 Resultado final obtenido por el método AHP [Fuente: elaboración propia]............ 303
  • 19. PROYECTO FIN DE MÁSTER 1 1.INTRODUCCIÓN 1.1 OBJETO DEL PROYECTO La industria del comercio electrónico o eCommerce ha tomado un notorio impulso gracias al numeroso volumen de nuevas oportunidades de mercado que emergen derivadas de los datos generados por los usuarios, pudiendo ser explotados hacia nuevos servicios que ofrecer y prestar de manera más eficiente a los ya contemplados. Se espera que, según el estudio realizado por la EAE Business School, en 2021 dos de cada tres internautas mayores de 14 años compren al menos una vez al año través de Internet. Debido a los continuos avances tecnológicos en los últimos años, las empresas se han tenido que enfrentar a nuevos desafíos que les permitan descubrir y analizar mayores cantidades de información que en su pasado. Gracias a las nuevas tecnologías de tratamiento masivo de datos, conocidas como Big Data, la personalización de contenidos de acuerdo con el conocimiento de los clientes ha permitido generar nuevos modelos de negocio disruptivos, adaptados a los comportamientos y necesidades de los diferentes perfiles de usuarios. Se trata de un nuevo paradigma en el que se cuenta con una gran variedad de datos generados tanto por las empresas en su ámbito laboral, como por los clientes a través de sus consultas por la web y las redes sociales. Por ello, esta nueva situación versa en realizar las preguntas correctas a los datos y así poder generar valor a la organización, entendiendo que no existen respuestas estándar, ya que cada organización es diferente al resto. Por esto mismo, el estudio de la situación del negocio en cuestión es tan importante, ya que las técnicas de procesamiento de datos son herramientas que usar para resolver problemas de negocio. Este proyecto nace en el marco de la generación de valor a partir de datos, permitiendo describir a los clientes, predecir qué productos son los más propensos a futuras ventas y conocer la opinión de los consumidores acerca de los productos en cuestión, nutriéndose en base a datos generados tanto internos como externos a la empresa Ocean Sunglasses. Teniendo por objetivo, la optimización de procesos y la generación de valor entorno a la información extraída de los distintos modelos. En última instancia, se presentan una serie de estrategias de negocio que afiancen la cadena de valor de la organización.
  • 20. 1. INTRODUCCIÓN 2 1.2 OBJETIVOS 1.2.1 Objetivo general El presente proyecto tiene como finalidad la optimización de procesos de Ocean Sunglasses a través de la aplicación de técnicas de machine learning y Business Analytics. De esta forma, se generará valor a los datos obtenidos por medio de fuentes tanto internas como externas al negocio, obteniendo una relación directa entre los datos de la empresa y la generación de valor a partir de estos. 1.2.2 Objetivos específicos • Comprender el modelo de negocio. • Realizar un análisis interno y externo de la empresa. • Proponer objetivos de negocio de acuerdo con el análisis del negocio realizado. • Estudiar las técnicas de análisis y generación de modelos de datos. • Analizar datos tanto internos como externos al negocio. • Comprender los datos obtenidos. • Desarrollar un modelo descriptivo para la clusterización de los clientes. • Desarrollar un modelo predictivo para predecir las compras de los clientes. • Realizar un análisis y evaluación de los resultados obtenidos. • Realizar un análisis de redes sociales. • Desarrollar estrategias de negocio que generen valor para la empresa, en base a las conclusiones obtenidas tras el estudio técnico de los datos tanto internos como externos al negocio. 1.3 ALCANCE Se realizará un estudio acerca de la empresa y las distintas técnicas de análisis de datos y machine learning, de tal forma que se permitan optimizar los procesos y generar oportunidades de negocio. • Estudio la tecnología Big Data y las técnicas de machine learning. • Estudio de la organización tanto a nivel externo, en su entorno macro y micro, como a nivel interno. • Generación de objetivos de negocio de acuerdo con el estudio previo. • Entendimiento y preparación de los datos obtenidos. • Seleccionar el modelo y la técnica de modelado adecuados. • Diseño de modelos de datos que satisfagan los objetivos de negocio planteados. • Evaluación de los resultados obtenidos. • Aplicar las conclusiones obtenidas tras el desarrollo técnico a la empresa, a través de distintas estrategias de negocio.
  • 21. PROYECTO FIN DE MÁSTER 3 • Elaborar la documentación acerca del proyecto. Se trata de generar valor para la organización a través de los datos obtenidos, empleando distintas técnicas de machine learning como herramienta para obtener información en torno a los datos y poder generar distintas oportunidades de negocio. En el proyecto, no se emplean tecnologías para realiza modelos masivos de datos, cuyo objetivo es el almacenaje y procesamiento de estos. Únicamente se centra en el empleo de métodos estadísticos, para obtener conclusiones de negocio.
  • 22.
  • 23. PROYECTO FIN DE MÁSTER 5 2.ANTECEDENTES 2.1 ECOMMERCE En los siguientes apartados, se detallan aspectos generales del comercio electrónico como su evolución durante los últimos años, las formas de comercio existentes y las obligaciones legales a cumplir. Por último, se analiza la situación en España. 2.1.1 Historia del comercio En líneas generales, y con un sentido amplio, el comercio implica la investigación de mercado con el fin de interpretar los deseos del consumidor, la publicidad que anuncia la existencia del producto, la posibilidad de adquirirlo, y en qué lugar, a la vez que se utilizan los métodos de persuasión, la venta al por menor y finalmente, la adquisición por parte del público. Según lo expuesto, a través de los años han aparecido diferentes formas o tipos de comercio. A principio de los años 1920 en los Estados Unidos apareció la venta por catálogo, impulsado por las grandes tiendas. Este sistema de venta, revolucionario para la época, consiste en un catálogo con fotos ilustrativas de los productos a vender. Este permite tener mejor llegada a las personas, ya que no hay necesidad de tener que atraer a los clientes hasta los locales de venta. Esto posibilitó a las tiendas poder llegar a tener clientes en zonas rurales, que para la época que se desarrolló dicha modalidad, existía una gran masa de personas afectadas al campo. Además, otro punto importante de esto es que los potenciales compradores pueden escoger los productos en la tranquilidad de sus hogares, sin la asistencia o presión, según sea el caso, de un vendedor. La venta por catálogo tomó mayor impulso con la aparición de las tarjetas de crédito; además de determinar un tipo de relación de mayor anonimato entre el cliente y el vendedor. Mas adelante, en la década de los 60 surge la tecnología EDI (Electronic Data Interchange)[1], basada en la transmisión estructurada de datos entre empresas por medios electrónicos. Esta tecnología, reemplazó el correo tradicional y el envío de documentos por fax con una transferencia digital de datos entre un ordenador y otro. Ilustración 1 Integración del sistema EDI[2]
  • 24. 2. ANTECEDENTES 6 Se puede afirmar que los sistemas EDI fueron el detonante que dio pie al inicio del comercio electrónico. La primera transacción comercial se realizó en 1981 con Thomson Holiday, una empresa de turismo, que informaba online a sus diversos agentes y estos a su vez puedan ofrecerla a sus clientes. Ilustración 2 Línea de tiempo del comercio electrónico[3] Tal y como se muestra en la ilustración 2, se podría dividir la evolución del comercio electrónico en cuatro generaciones[4]: • Primera generación: creación de la web. Las páginas solo hablan de la organización. El modo de comunicación con el cliente es a través de formularios o correo electrónico. No se puede comprar por la red. • Segunda generación: comienzan las compras por Internet. Aparecen los centros comerciales virtuales. Se produce el pago contra reembolso, cheques, etc. Aparecen los primeros negocios de venta exclusiva en Internet. • Tercera generación: comienza a automatizarse el proceso de selección y envío de datos de los productos comprados a través de bases de datos. Se generaliza el empleo de tarjeta de crédito como pago y el marketing en la red. • Cuarta generación: contenidos dinámicos. Se mejora la seguridad de los sitios y se implantan diversos mecanismos de pago seguro. Aparecen las carteras electrónicas y los servicios de seguimiento del producto. Aparecen las primeras legislaciones sobre comercio electrónico en España y la publicidad en este medio se masifica. Hoy en día, muchas empresas cuentan con presencia en internet, con objeto de complementar sus actividades de marketing. Por ejemplo, dando más información acerca de sus productos (datasheets de componentes) y promocionar la compañía en sí. En este tipo de empresas, aunque se muestre información de los productos y servicios que ofrece, el objetivo final no es la venta on-line de los mismos, sino la puesta en contacto con el responsable de la empresa en cuestión por las vías tradicionales, como la visita presencial o la llamada telefónica, y de este modo ponerse en contacto con los potenciales clientes.
  • 25. PROYECTO FIN DE MÁSTER 7 Por otro lado, existen los sitios web de comercio electrónico. El objetivo final de estos es diferente al de los primeros. El objetivo final es cerrar la operación electrónicamente con el pago (y en algunos casos con la entrega), siendo estos procesos realizados por Internet. Sin esta transacción no podríamos hablar de eCommerce [5]. Lo que realmente importa es que dicha transacción afecte a la cuenta de resultados de cualquier negocio, convirtiéndose en un gran generador de oportunidades de negocio y económico. Normalmente, este tipo de sitios incluye información muy detallada de los productos, ya que es el sustento de los posibles clientes del negocio. 2.1.2 Formas de comercio electrónico En lo que a comercio electrónico se refiere, las distintas modalidades de este se pueden clasificar según el tipo de cliente al que se dirige, el modelo de negocio y la plataforma empleados. Ilustración 3 Clasificación de los comercios electrónicos [Fuente: elaboración propia] En los siguientes apartados, se realiza una explicación detallada de los diferentes tipos de comercio electrónico, según la clasificación realizada. 2.1.2.1 Según el tipo de cliente El modelo de negocio de una empresa de comercio digital dependerá de la actividad en la que se vaya a enfocar, pero primeramente se debe de seleccionar el público o target de usuarios a los que se va a vender para saber qué tipo de eCommerce será el adecuado [6]. Cliente •B2C •B2B •B2G •C2C •C2B •C2G •G2B •G2C •G2G Modelo de negocio •Tienda online (e- shop) •Suscripción •Dropshipping •Afiliación •Membresía •Freemium •Crowdfunding •Crowdsourcing •P2P •Marketplace... Plataforma •Social eCommerce •Mobile eCommerce •eCommerce opensource •eCommerce en plataformas de terceros
  • 26. 2. ANTECEDENTES 8 Business Consumer Government Business B2B B2C B2G Consumer C2B C2C C2G Government G2B G2C G2G Tabla 1 Relaciones entre los distintos tipos de clientes [Fuente: elaboración propia] Los tipos de negocio electrónico que existen son: • B2B (Business to Business): empresas que hacen negocios entre ellas. El business to business aplica a la relación entre un fabricante y el distribuidor de un producto y también a la relación entre el distribuidor y el comercio minorista, pero no a la relación entre el comerciante y su cliente final (consumidor), esta última que quedaría ajustada entonces al entorno del B2C (business to consumer). Algunas de las ventajas de este tipo de comercio electrónico son: o Ahorro de tiempo. o Reducción de costes. o Control de despacho de pedidos. o Negociación de precios. o Aumenta el control sobre las compras. • B2C (Business to Consumer): empresas que venden al público en general, venden de manera directa a los consumidores finales del producto o servicio. Las ventajas más importantes son: o Realizar compras más cómodas y rápidas desde cualquier lugar, gracias a la tienda online. o Ofertas y precios muy actualizados. o Comparar los diferentes precios de mercado de un producto o servicio. o Menor coste de infraestructuras para las empresas. o Posibilidad de interactuar directamente con los consumidores finales. • C2C (Consumer to Consumer): plataforma a partir de la cual los consumidores compran y venden entre ellos. Es la forma más antigua de comercio electrónico que se conoce. Estas plataformas surgen como una manera de ayudar a la gente a negociar directamente con otras personas o poder comprar a las empresas de manera más beneficiosa para ellos. Sus principales ventajas son: o La posibilidad de expansión de mercado; o Reducción de costes de gestión y publicidad; o Facilidad y rapidez que permite para ofrecer productos y servicios.
  • 27. PROYECTO FIN DE MÁSTER 9 • C2B (Consumer to Business): es el modelo de negocio de comercio electrónico en el que los consumidores pueden ofrecer productos y servicios a las empresas, y las empresas pagan a los consumidores. Algunas de sus características: o Interacción entre consumidores y empresas. o Bidireccionalidad. o Permite conseguir mejores condiciones en la oferta presentada por empresas. • B2G (Business to Government): empresas que venden u ofrecen sus servicios a las instituciones del gobierno. Los ayuntamientos, diputaciones y otras instituciones oficiales, pueden contactar con sus proveedores, comparando productos y realizando pedidos por medio de un proceso simple y estandarizado. 2.1.2.2 Según el modelo de negocio El mercado on-line es un sector en auge y cambiante ya que los cambios tecnológicos son constantes y los nuevos negocios online que surgen atienden las nuevas necesidades creadas. Dependiendo de cómo se generen los ingresos o de cómo se lleve a cabo el intercambio entre comprador y vendedor, estos negocios se pueden dividir en[7]: • Tienda online (e-shop): se trata de vender productos o servicios a través de una página web. Los ingresos se obtienen cuando los clientes realizan la compra de un producto o servicio. • Suscripción: es un modelo que se basa en ofrecer a las personas que pagan la suscripción, un producto o servicio que tenga un patrón de compra repetitivo y periódico[8]. • Dropshipping: es un modelo de negocio basado en la venta a través de Internet de productos que no se poseen en stock, mediante acuerdos y negociaciones con el fabricante o mayorista, para que sea éste el que los envíe directamente al cliente final. De esta manera, sin tener que invertir en la compra de un stock propio, también se pueden vender diferentes artículos o productos que no se posee físicamente[9]. Ilustración 4 Proceso de un modelo dropshipping[9]
  • 28. 2. ANTECEDENTES 10 • Afiliación: en este caso la tienda no solo no envía el producto, sino que el cierre de la venta no se hace en su plataforma. Lo que hace es referir al cliente a otra tienda, que le paga una comisión al confirmarse la venta. • Membresía: este tipo de comercio electrónico busca compras recurrentes. La forma de conseguirlo es con una suscripción periódica (semanal, mensual, bimensual, etc.). • Freemium: consiste en ofrecer un producto o servicio de manera gratuita (free) a los usuarios y tener una versión de pago (premium) con características avanzadas, funcionalidad o productos y servicios adicionales. • Crowdfunding: es un modelo de negocio colaborativo entre profesionales y particulares que crean una red para conseguir dinero para financiar un proyecto o conseguir una comisión por la transacción. Los ingresos se obtienen por el uso de la plataforma. • Crowdsourcing: es un modelo de negocio que consiste en externalizar tareas que realizaban empleados o contratistas, y que pasan a estar a cargo de un grupo de personas o una comunidad, a través de una convocatoria abierta. • P2P (Peer to Peer): se basa una red de ordenadores donde intervienen una serie de nodos que se comportan como iguales entre sí. Es el desarrollo de plataformas que ponen de acuerdo con personas para que intercambien, alquilen, compren o vendan productos o servicios. Los ingresos se obtienen por un pago que realiza el vendedor al operador de la plataforma para que la transacción se concluya con éxito. • Marketplace: se trata de una “tienda de tiendas”. Es una web donde diferentes vendedores ofrecen sus productos de una o varias temáticas. Amazon es un ejemplo de marketplace. Aunque también funcione como eCommerce normal, cualquiera puede vender en su plataforma a cambio de una comisión. 2.1.2.3 Según la plataforma Continuación, se exponen las distintas formas de comercio electrónico según la plataforma con la que interactúen: • Social eCommerce: este tipo de eCommerce se basa en las ventas a través de redes sociales como Facebook, YouTube o Twitter. • Mobile eCommerce: en este tipo de negocio electrónico las transacciones se realizan mediante dispositivos móviles. Cada eCommerce suele tener su propia aplicación que permite a los usuarios realizar sus compras de manera sencilla y rápida con su móvil. • eCommerce opensource: se instalan fácilmente en un servidor, sin costes de licencia y con actualizaciones de mejora periódicas. Algunas plataformas son: Woocomerce, Prestashop o Magento. • eCommerce en plataformas de terceros: son plataformas que ofrecen las herramientas necesarias para crear una tienda online dentro del ámbito de la plataforma. Suelen ser de bajo coste y fácilmente personalizables. Algunas son: Shopify o Mabisy.
  • 29. PROYECTO FIN DE MÁSTER 11 2.1.3 Obligaciones legales Las obligaciones legales que afectan a las empresas que no están en Internet, también se aplican a las empresas que creen una página web. Es decir, si para abrir un negocio determinado fuera de Internet es necesario obtener previamente una autorización administrativa, también es necesaria para operar online, asimismo también se deberán cumplir con el resto de las obligaciones de carácter mercantil, fiscal, laboral o de la seguridad social de acuerdo con el tipo de tienda on-line. Ahora bien, en el ámbito del comercio electrónico con consumidores existen varias normas que tienen especial relevancia por su materia como: ➢ Ley Orgánica 15/1999, 13 de diciembre, de Protección de Datos de Carácter Personal (LOPD). ➢ Ley 34/2002, de 11 de julio, de Ley de Servicios de la Sociedad de la Información y del Comercio Electrónico (LSSICE). ➢ Ley 7/1998, de 13 de abril, sobre Condiciones Generales de la Contratación. ➢ Real Decreto Legislativo 1/2007, de 16 de noviembre, por el que se aprueba el texto refundido de la Ley General para la Defensa de los Consumidores y Usuarios. 2.1.3.1 Protección de datos de carácter personal A continuación, se recoge una enumeración de las principales obligaciones que existen en materia de protección de datos de carácter personal. 2.1.3.1.1 Notificación previa de los ficheros a la Agencia Española de Protección de Datos Cuando una página web recoja datos personales, ya sea de clientes, usuarios, potenciales clientes, etc., se debe notificar todos estos ficheros que contienen datos personales a la Agencia Española de Protección de Datos (AEPD), obligación que debe realizarse previamente al inicio de las tareas de tratamiento de los datos. Dicha notificación es gratuita. Para realizar la notificación se utiliza el Sistema de Notificaciones Telemáticas de la AEPD denominado Programa NOTA. Ilustración 5 Página oficial de la AEPD para completar el formulario NOTA [Fuente: Gobierno de España]
  • 30. 2. ANTECEDENTES 12 2.1.3.1.2 Formularios de recogida de datos: Obligación de información Cuando una página web utiliza un formulario para recabar datos personales de los usuarios o clientes, o bien para permitir la suscripción a un boletín o comunidad, es obligatorio incluir un aviso legal en materia de protección de datos, cuyo contenido debe informar de lo siguiente (Artículo 5 de la Ley Orgánica 15/1999, de Protección de Datos de Carácter Personal): ➢ De la existencia de un fichero o tratamiento de datos. ➢ De la finalidad de su recogida y de los destinatarios de la información. ➢ Del carácter obligatorio o facultativo de la respuesta a las preguntas que se plantean. ➢ De las consecuencias de la obtención de los datos o de la negativa a suministrarlos. ➢ De la posibilidad de ejercitar los derechos de acceso, rectificación, cancelación y oposición. ➢ De la identidad y dirección del responsable del tratamiento de los datos. Para cumplir con esta obligación, es necesario situar un aviso legal específico bien visible justo debajo del formulario, o bien insertar un enlace permanentemente visible en la Web a dicha política de privacidad. Ilustración 6 Ejemplo del modelo de recogida de datos de la página [Fuente: Ocean Sunglases] 2.1.3.2 Correo electrónico comercial Como norma general, está prohibido el envío de comunicaciones publicitarias o promocionales por correo electrónico o SMS, si previamente el destinatario no las ha solicitado o, en su caso, no ha autorizado de forma previa y expresa para poder enviárselas. No obstante, si se mantiene con el destinatario una relación contractual previa, es decir, si ya es un cliente, se le podrán enviar comunicaciones comerciales referentes a productos o servicios de dicha empresa, siempre que éstos sean similares a los que inicialmente fueron objeto de contratación por éste.
  • 31. PROYECTO FIN DE MÁSTER 13 Ilustración 7 Acceso a la recepción de newsletters tras el registro en Ocean Sunglasses [Fuente: Ocean Sunglases] 2.1.3.3 Notificación sobre las “cookies” Cuando en la página web se utilicen cookies u otros dispositivos de almacenamiento y recuperación de datos, que se instalen en el ordenador del usuario, para guardar información necesaria para la navegación del usuario por la web, se debe informar de manera clara y completa sobre su utilización y finalidad, así como ofrecerles la posibilidad de rechazar el tratamiento de los datos mediante un procedimiento sencillo y gratuito. 2.1.3.4 Información obligatoria que ha de ofrecer la página web En un lugar permanentemente accesible de la página Web, debe aparecer la información relativa al titular de esta. Esta obligación consta en el artículo 10 de la LSSICE. Ejemplo: Información general En cumplimiento de la Ley 34/2002, de 11 de julio, de Servicios de la Sociedad de la Información y Comercio Electrónico, se indican los datos de información general de (indicar página Web): Titular: (nombre y apellidos o denominación social) C.I.F.: (número) Dirección: (indicar dirección postal) Contacto: (indicar e-mail) Tel.: (número) Fax.: (número) Datos registrales: (en su caso, indicar) Tabla 2 Información obligatoria que ha de ofrecer una página web [Fuente: elaboración propia]
  • 32. 2. ANTECEDENTES 14 Ilustración 8 Información acerca de la web Ocean Sunglasses [Fuente: Ocean Sunglases] Cuando se trate de una página web de una empresa o profesional que para realizar su actividad requiera de autorización administrativa o inscripción en cualquier registro, deberán constar los datos de dicha autorización o registro. Según el tipo de página web o servicio que se ofrezca, también es necesario informar en las condiciones generales de contratación de: • Las características esenciales del bien o servicio. • Los gastos de entrega y transporte, en su caso. • El plazo de vigencia de la oferta y del precio. • La duración mínima del contrato, si procede, cuando se trate de contratos de suministro de bienes o servicios destinados a su ejecución permanente o repetida. • Las circunstancias y condiciones en que el empresario puede suministrar un bien o servicio de calidad y precio equivalentes, en sustitución del solicitado por el consumidor y usuario, cuando se quiera prever esta posibilidad. • La forma de pago y modalidades de entrega o de ejecución. • En su caso, indicación de si el empresario dispone o está adherido a algún procedimiento extrajudicial de solución de conflictos. • La dirección del establecimiento del empresario donde el consumidor y usuario pueda presentar sus reclamaciones. • La información relativa a los servicios de asistencia técnica u otros servicios postventa y a las garantías existentes. • Las condiciones para la denuncia del contrato, en caso de celebración de un contrato de duración indeterminada o de duración superior a un año. • Cuando se utilicen técnicas de comunicación con sobrecostes: El coste de la utilización de la técnica de comunicación a distancia cuando se calcule sobre una base distinta de la tarifa básica.
  • 33. PROYECTO FIN DE MÁSTER 15 2.1.4 Comercio electrónico en España Las empresas se enfrentan a un nuevo entorno de relación con el cliente marcado por la digitalización e impulsado fundamentalmente por los avances tecnológicos y la penetración de herramientas que amplifican la interacción de los usuarios con las marcas. Esto ha derivado en una modificación de los hábitos de consumo y comportamiento del cliente final, exigiendo a las empresas desarrollar nuevos modelos de negocio o transformar los actuales para poder satisfacer las necesidades de sus clientes y seguir creciendo en la era digital. Ilustración 9 Nivel de digitalización de las compañías a nivel mundial[10] Según el estudio sobre comercio electrónico B2C 2017 (edición 2018), llevado a cabo por ONTSI (Observatorio Nacional de las Telecomunicaciones y de la SI)[11], el comercio electrónico mantiene, como en años anteriores, una tendencia de crecimiento y expansión. Ilustración 10 Volumen de comercio electrónico B2C[11] La estimación de la cifra de negocio que supone el comercio electrónico en 2017 es la resultante de calcular tres variables: • Internautas (34,0 millones). • Número total de compradores online (22,9 millones a comienzos de 2018). • Gasto anual medio por internauta comprador (1.365€).
  • 34. 2. ANTECEDENTES 16 A continuación, se muestra una tabla resumen sobre el volumen del comercio electrónico en España. Internautas 86,4% 34,0 MM Internautas compradores 67,4% 22,9 MM Gasto medio por comprador 1.366 € Total 31.347 MM€ Tabla 3 Resumen del comercio electrónico 2017[11] Cabe destacar que el aumento en las ventas y la búsqueda de contenidos vía internet ha tenido un aumento considerable debido a que, cada vez más empresas, saben aprovechar en mejor medida las oportunidades brindadas por las nuevas tecnologías. En siguientes capítulos se explica cómo estas tecnologías, están ayudando a las empresas a obtener valor a partir de los datos generados por los clientes y porque es cada vez más necesaria la adopción y entendimiento de estas nuevas culturas organizacionales por parte de las empresas. 2.2 BIG DATA El termino Big Data se acuño en 1997, por investigadores de la NASA, ya que al tratar de procesar una gran variedad de datos en franjas de tiempo reducidas para los ordenadores de la época era una tarea difícil. Hoy en día es un término que, a pesar de surgir años atrás, está bastante de moda. ¿De qué trata este paradigma? ¿Por qué ahora? ¿Es una oportunidad o un riesgo para la sociedad/empresa? Estas son algunas de las preguntas que se resuelven en este capítulo y dan lugar a explicar el termino de machine learning en su contexto original, motor y tema principal de este proyecto. 2.2.1 Introducción Big Data hace referencia la información que excede la capacidad de procesamiento de los sistemas de bases de datos convencionales. Pero no es solamente una cuestión de tamaño, hay otra serie de preguntas a responder que influyen a la hora de definir este concepto. • ¿Con que calidad se van a usar los datos? -> Calidad/Limpieza de datos. • ¿Cómo se van a procesar los datos? -> Preparación/Minería de datos. • ¿Dónde está situada el área de trabajo? -> Plataformas/Máquinas virtuales/Nube. • ¿Qué valor se puede obtener a partir de los datos? -> Marketing/Business Intelligence.
  • 35. PROYECTO FIN DE MÁSTER 17 A estas dimensiones de estudio se les define como las 4V’s del Big Data. Ilustración 11 4V's del Big Data [Fuente: elaboración propia] La convergencia de estas cuatro dimensiones ayuda a definir que es Big Data de lo que no[12]: • Volumen: la cantidad de datos. Siendo quizá la característica que se asocia con mayor frecuencia a Big Data, el volumen hace referencia a las cantidades masivas de datos que las organizaciones intentan aprovechar para mejorar la toma de decisiones en toda la empresa. Los volúmenes de datos continúan aumentado a un ritmo sin precedentes. No obstante, lo que constituye un volumen verdaderamente “alto” varía en función del sector e incluso de la ubicación geográfica y es más pequeño que los petabytes y zetabytes a los que a menudo se hace referencia. • Velocidad: los datos en movimiento. La velocidad a la que se crean, procesa y analizan los datos continúa aumentando. Contribuir a una mayor velocidad es la naturaleza en tiempo real de la creación de datos, así como la necesidad de incorporar datos en streaming a los procesos de negocio y la toma de decisiones. • Variedad: diferentes tipos y fuentes de datos. La variedad tiene que ver con gestionar la complejidad de múltiples tipos de datos, incluidos los datos estructurados, semiestructurados y no estructurados. Las organizaciones necesitan integrar y analizar datos de un complejo abanico de fuentes de información tanto tradicional como no tradicional procedentes tanto de dentro como de fuera de la empresa. • Veracidad: la incertidumbre de los datos. La veracidad hace referencia al nivel de fiabilidad asociado a ciertos tipos de datos. Esforzarse por conseguir unos datos de alta calidad es un requisito importante y un reto fundamental de Big Data. En definitiva, Big Data es una combinación de estas características que crea una oportunidad para que las empresas puedan obtener una ventaja competitiva en el actual mercado digitalizado. Permite a las empresas transformar la forma en la que interactúan con sus clientes y les prestan servicio, y posibilita la transformación de estas e incluso de sectores enteros. Veracidad Variedad Velocidad Volumen
  • 36. 2. ANTECEDENTES 18 Se trata de un paradigma del que se puede extraer valor si se saben hacer las preguntas correctas. Ilustración 12 Esquema de la combinación de paradigmas[13] Con la generación de sensores, dispositivos inteligentes y tecnologías de colaboración social, es decir, el ingente uso de redes sociales, los datos que se generan presentan innumerables formas entre las que se incluyen texto, datos web, tuits, datos de sensores, audio, vídeo, secuencias de clic, archivos de registro… Estos son los motivos por los que este término está teniendo tanta repercusión hoy en día, y es que el coste computacional es muy bajo en comparación con años anteriores, generándose cada vez más datos y fijando como objetivo principal en las organizaciones la monetización de estos, el ahorro en costes y la optimización de procesos. A modo ilustrativo, se presenta una comparativa entre las empresas más grandes de acuerdo con su capitalización bursátil, hace 10 años y ahora. Ilustración 13 Clasificación de las empresas por capitalización bursátil entre 2007 y 2017[14] Se puede apreciar como empresas que basan sus modelos de negocio entorno a los datos, como Apple o Amazon han ido escalando en el ranking. Mientras que empresas más tradicionales como General Electric han descendido.
  • 37. PROYECTO FIN DE MÁSTER 19 2.2.2 Machine Learning Aunque fuese únicamente en circunstancias del ámbito académico, el aprendizaje automático o machine learning, lleva existiendo al menos desde los años 50. Periodo en el que se descubrieron y redefinieron diversos métodos estadísticos y se aplicaron al aprendizaje automático a través de algoritmos simples. Hoy en día, las técnicas de machine learning están experimentando un auge en diferentes ámbitos, tanto en el mundo académico como en el empresarial, constituyendo una importante palanca de transformación. Se puede definir entonces el machine learning como, la aplicación de técnicas y algoritmos capaces de aprender a partir de distintas y nuevas fuentes de información, construyendo algoritmos que mejoren de forma autónoma con la experiencia. Permitiendo disponer de métodos capaces de detectar automáticamente patrones en los datos, y usarlos tanto para describir, como para predecir sobre los datos futuros en un entorno de incertidumbre. Tras esta definición, se procede a describir los distintos componentes bajo los que se engloba el aprendizaje automático. Ilustración 14 Clasificación de los componentes del aprendizaje automático [Fuente: elaboración propia] Estos componentes han supuesto una evolución respecto al enfoque tradicional acerca de la modelización de datos. Modelización tradicional Machine Learning Fuentes de información • Datos estructurados • Número reducido de fuentes de datos • Limitación por parte del diseño inicial • Actualizaciones no continuas • Datos estructurados, desestructurados y granulares • Múltiples fuentes de datos • Variedad y fácil acceso: redes sociales, bases de datos públicas, Int. Of Things, etc. • Actualización continua y en tiempo real. Técnicas y algoritmos • Fundamento estadístico y matemático • Se añade la ciencia de la computación. • Identificación de patrones ocultos • Datos estructurados: bases de datos relacionales, ficheros, etc. • Datos no estructurados: sistemas transaccionales, CRM, imagenes, voz, etc. Fuentes de información • Técnicas para el tratamiento de informacion no estructurada: tf-idf, parsing, etc. • Modelos supervisados y no supersvisados: modelos de clasificación, regresion, optimizacion, etc. Técnicas y algorítmos • Reentrenamiento automático a partir de nueva información. • Combinación de modelos. Capacidad de autoaprendizaje • Programacion: R, Python, Scala, SAS, Matlab, SQL, Azure, AWS, etc • Visualización: Tableau, Power BI, TIBCO Spotfire, Qlik View, etc. Sistemas y software
  • 38. 2. ANTECEDENTES 20 • Limitaciones en los patrones y relaciones identificadas • Uso de métodos deductivos • Uso de métodos inductivos Aprendizaje • Reentrenamiento manual • Hipótesis predefinidas • Reducción del poder predictivo debido al anclaje temporal • Trazabilidad disponible • Reentrenamiento automático y autoaprendizaje • Búsqueda de patrones • Adaptación temporal del poder predictivo • Trazabilidad no asegurada Sistemas y software • Menor requerimiento computacional • Herramientas tradicionales • No valorización de los archivos desestructurados • Mayor requerimiento computacional • Combinación de herramientas • Almacenamiento de datos en Data Lakes Tabla 4 Diferencias del aprendizaje automático respecto al modelo tradicional 2.2.2.1 Técnicas de Machine Learning Existente múltiples técnicas de machine learning, dependiendo del tipo de datos con los que se cuente (estructurados / no estructurados). La elección de un tipo de técnica u otra, depende, entre otros factores, de la pregunta u objetivo de negocio al que se necesite responder, así como del tipo de información disponible. Ilustración 15 Tipologías y técnicas de Machine Learning[15] Por un lado, se cuenta con técnicas para la transformación de datos no estructurados en estructurados, para que puedan ser analizados y procesados. Entre estos ejemplos, se encuentran los textos, imágenes, sonidos, etc. Por otro lado, existen las técnicas de modelización, usadas a partir de datos estructurados, pudiendo clasificarse en: ➢ Aprendizaje supervisado: caracterizado por ser empleado cuando hay un objetivo de negocio claro, un target al que se le quiera dar solución. El algoritmo contiene información sobre la característica de estudio que no está presente en datos futuros, por lo tanto, la
  • 39. PROYECTO FIN DE MÁSTER 21 información a predecir, o por la que se quiere clasificar a una población, está disponible en los datos del modelo. El objetivo del aprendizaje supervisado es “entrenar” una aplicación de un conjunto de variables (denominadas explicativas) “x”, en una variable de salida “y” (variable explicada), a partir de un set de datos, denominados muestra de entrenamiento, ∆= {(𝑥𝑖, 𝑦𝑖), 𝑖 ∈ 1, … , 𝑁}, [15]donde “N” es el tamaño de la muestra. Cuando la variable de salida es continua, se habla de problemas de regresión, mientras que, si es nominal o discreta, se habla de problemas de clasificación. ➢ Aprendizaje no supervisado: en oposición al aprendizaje supervisado, en este caso no se tiene definido un target objetivo, con lo que no se dispone en la muestra la información de una variable que se quiera predecir. En este caso, no se dispone de una variable de salida, por lo que el conjunto de datos es de la forma ∆= {𝑥𝑖, 𝑖 ∈ 1, … , 𝑁}, donde “N” es el tamaño de la muestra. El objetivo del aprendizaje no supervisado es encontrar patrones o relaciones entre datos. 2.2.2.1.1 Partición del conjunto de datos Como paso previo a aplicar un método de clasificación, se realiza la partición del conjunto de datos en dos conjuntos de datos más pequeños que son utilizadas con los siguientes fines: train y test. El subconjunto de datos de entrenamiento es utilizado para estimar los parámetros del modelo y el subconjunto de datos de prueba se emplea para comprobar el comportamiento del modelo estimado. Cada registro de la base de datos debe de aparecer en uno de los dos subconjuntos, y para dividir el conjunto de datos en ambos subconjuntos, se utiliza un procedimiento de muestreo: muestreo aleatorio simple o muestreo estratificado. Lo ideal es entrenar el modelo con un conjunto de datos independiente de los datos con los que realizamos la prueba. Como resultado de aplicar un método de clasificación, se cometerán dos errores, en el caso de una variable binaria que toma valores 0 y 1, habrá ceros que se clasifiquen incorrectamente como unos y unos que se clasifiquen incorrectamente como ceros. A partir de este recuento se puede construir el siguiente cuadro de clasificación, donde Yi es el valor real e Ŷi el valor estimado Yi=0 Yi=1 Ŷi=0 P11 Verdaderos Positivos (VP) P12 Falsos Negativos (FN) Ŷi=1 P21 Falsos Positivos (FP) P22 Verdaderos Negativos (VN) Tabla 5 Representación de la matriz de confusión A esta tabla se le conoce como matriz de confusión, es una herramienta que permite la visualización del desempeño de un algoritmo, donde P11 y P22 corresponderán a predicciones correctas (valores 0 bien predichos en el primer caso y valores 1 bien predichos en el segundo caso), mientras que P12 y P21 corresponderán a predicciones erróneas (valores 1 mal predichos en el primer caso y valores 0 mal predichos en el segundo caso).
  • 40. 2. ANTECEDENTES 22 A partir de estos valores se pueden definir los siguientes parámetros: ➢ Tasa de aciertos: Cociente entre las predicciones correctas y el total de predicciones. 𝑇𝑎𝑠𝑎 𝑑𝑒 𝑎𝑐𝑖𝑒𝑟𝑡𝑜𝑠 = 𝑃11 + 𝑃22 𝑃11 + 𝑃12 + 𝑃21 + 𝑃22 (1) ➢ Tasa de errores: Cociente entre las predicciones incorrectas y el total de predicciones. 𝑇𝑎𝑠𝑎 𝑑𝑒 𝑒𝑟𝑟𝑜𝑟𝑒𝑠 = 𝑃12 + 𝑃21 𝑃11 + 𝑃12 + 𝑃21 + 𝑃22 (2) ➢ Especificidad: Proporción entre la frecuencia valores cero correctos y el total de valores cero observados. 𝐸𝑠𝑝𝑒𝑐𝑖𝑓𝑖𝑐𝑖𝑑𝑎𝑑 = 𝑃11 𝑃11 + 𝑃12 (3) ➢ Sensibilidad: Proporción entre la frecuencia de valores uno correctos y el total de valores uno observados. 𝑆𝑒𝑛𝑠𝑖𝑏𝑖𝑙𝑖𝑑𝑎𝑑 = 𝑃22 𝑃12 + 𝑃22 (4) ➢ Tasa de falsos ceros: Proporción entre la frecuencia de valores cero incorrectos y el total de valores cero observados. 𝑇𝑎𝑠𝑎 𝑑𝑒 𝑓𝑎𝑙𝑠𝑜𝑠 𝑐𝑒𝑟𝑜𝑠 = 𝑃21 𝑃12 + 𝑃21 (5) ➢ Tasa de falsos unos: Proporción entre la frecuencia de valores uno incorrectos y el total de valores uno observados. 𝑇𝑎𝑠𝑎 𝑑𝑒 𝑓𝑎𝑙𝑠𝑜𝑠 𝑢𝑛𝑜𝑠 = 𝑃21 𝑃12 + 𝑃22 (6) 2.2.2.1.2 Aprendizaje supervisado Dentro de las técnicas de machine learning de aprendizaje supervisado, cabe mencionar los métodos individuales[15], denominados así por poder usarse de forma aislada. Ilustración 16 Métodos para el procesamiento del lenguaje natural y la visión artificial[15]
  • 41. PROYECTO FIN DE MÁSTER 23 Entre estos modelos destacan: ➢ Modelos de regresión: la regresión lineal simple consiste en generar la ecuación de una recta que permita explicar la relación lineal que existe entre dos variables. A la variable dependiente o respuesta se le identifica como “Y” y a la variable predictora o independiente como “X”. El modelo de regresión lineal simple se describe de acuerdo con la ecuación[16]: 𝑌 ≈ 𝛼 + 𝛽𝑋 + 𝜀 (7) Siendo 𝛼 la ordenada en el origen, 𝛽 la pendiente y 𝜀 el error aleatorio. Este último representa la diferencia entre el valor ajustado por la recta y el valor real. El signo " ≈ " hace referencia a que es un modelo aproximado, ya que existen otros parámetros que influyen en el desarrollo de dicha ecuación como son las variables del entorno. Ilustración 17 Ejemplo de predicción de la temperatura por medio de regresión lineal simple[17] ➢ Arboles de decisión: son técnicas de análisis que permite predecir la asignación de muestras a grupos predefinidos en función de una serie de variables predictivas. Se definen como un procedimiento recursivo, en el cual un número “N” de variables se dividen progresivamente en grupos, de acuerdo con una regla de división que permita maximizar la homogeneidad o pureza de la variable de respuesta [18]. Ilustración 18 Árbol de decisión usado para un procedimiento de clasificación [19] En un árbol de decisión, las ramas representan conjuntos de decisiones y cada decisión genera reglas sucesivas para continuar la clasificación formando grupos homogéneos respecto a la variable que se desea discriminar. Las particiones se hacen de forma iterativa hasta que se alcanza un criterio de parada. El método utiliza datos históricos para construir el árbol de decisión que se emplea para clasificar nuevos datos.
  • 42. 2. ANTECEDENTES 24 ➢ Clasificadores bayesianos: son modelos basados en la teoría de la probabilidad de Bayes, que utilizan la información conocida de las variables explicativas, para clasificar las observaciones. Es decir, asume la presencia o ausencia de otra característica, o a definir una variable objetivo en función de la relación existente en una muestra entre esas características, y la variable objetivo definida[17]. 𝑃(𝐴|𝐵) = 𝑃(𝐵|𝐴)𝑃(𝐴) 𝑃(𝐵) = 𝑃(𝐴 ∩ 𝐵) 𝑃(𝐵) (8) La notación P (A | B) puede leerse como la probabilidad del evento A dado que ocurrió el evento B. Esto se conoce como probabilidad condicional, ya que la probabilidad de A es dependiente (condicional) de lo que sucedió con el evento B. ➢ KNN (vecinos más próximos): se fundamenta en la idea de identificar observaciones en el conjunto de entrenamiento que se asemejen a la observación de prueba (observaciones vecinas) y asignarle como valor predicho la clase predominante entre dichas observaciones. Ilustración 19 Funcionamiento del meto KNN ➢ Modelos ensemble: los métodos presentados hasta el momento se pueden combinar con técnicas y algoritmos que permiten mejorar la capacidad predictiva, a estos métodos se les conoce por el nombre de ensemble. Consisten en la agregación de modelos individuales para generar un modelo más predictivo o estable. Entre estos métodos se encuentran[16]: o Bagging: diminutivo de bootstrap aggregation, hace referencia al empleo del muestreo repetido (bootstrapping) con el fin de reducir la varianza de algunos métodos de aprendizaje estadístico, entre ellos los árboles de predicción. En lugar de ajustar un único árbol, se ajustan muchos en paralelo formando un “bosque”. En cada nueva predicción, todos los árboles que forman el “bosque” participan aportando su predicción. Como valor final, se toma la media de todas las predicciones (variables continuas) o la clase más frecuente (variables cualitativas). o Random forest: es una modificación del proceso de bagging que consigue mejores resultados gracias a que decorrelaciona los árboles generados en el proceso. A través del método de bagging se consigue reducir la varianza, sin embargo, se asume que no hay correlación entre modelos, aunque es cierto que hay correlación entre los modelos, la reducción de varianza que se puede lograr es pequeña.
  • 43. PROYECTO FIN DE MÁSTER 25 Random forest evita este problema haciendo una selección aleatoria de “m” predictores antes de evaluar cada división. De esta forma, un promedio de (𝑝 − 𝑚)/𝑝 divisiones no contemplan el predictor influyente, permitiendo que otros predictores puedan ser seleccionados. Solo con añadir este paso extra se consigue decorrelacionar los árboles, por lo que se consigue una mayor reducción de la varianza. o Boosting: consiste en ajustar secuencialmente múltiples modelos sencillos, llamados weak learners o métodos vagos, de forma que cada modelo aprende de los errores del anterior. Como valor final, al igual que en bagging, se toma la media de todas las predicciones (variables continuas) o la clase más frecuente (variables cualitativas). ➢ SVM (Support Vector Machine): se asemeja a una superficie que delimita un entorno entre varios puntos los cuales, son representaciones espaciales en un espacio multidimensional según sus valores característicos. Es decir, se pretende clasificar las observaciones en varios grupos o clases, pero estas no son separables vía un hiperplano en el espacio definido por los datos. Para ello, el conjunto de los datos se embebe en un espacio de dimensión superior a través de una función que permita separar los datos en el nuevo espacio a través de un hiperplano en dicho espacio. Entonces, se busca un hiperplano equidistante a los puntos más cercanos a cada clase. Es decir, el objetivo es encontrar el hiperplano que separa las clases y que más dista de las observaciones de estas de forma simultánea. Ilustración 20 Representación del hiperplano generado por un SVM[17] ➢ Redes neuronales: modelan la relación entre un conjunto de señales de entrada y una señal de salida usando un modelo derivado de la comprensión de cómo un cerebro biológico responde a estímulos de entradas sensoriales[20]. Ilustración 21 Red neuronal monocapa[20]