SlideShare una empresa de Scribd logo
1 de 46
Descargar para leer sin conexión
Análisis descriptivo, Segmentación y Análisis de
la Cesta de la Compra de un Dataset de E-
commerce.
Jorge Rosario Mata
Máster en Inteligencia de negocio y Big Data. UOC (2016-2018)
Área: Análisis de datos
Nombre Profesor/a responsable de la asignatura:
María Pujol Jover
Fecha Entrega: 24/06/2018
Esta obra está sujeta a una licencia de
Reconocimiento-NoComercial-
SinObraDerivada 3.0 España de Creative
Commons
i
FICHA DEL TRABAJO FINAL
Título del trabajo:
Análisis descriptivo, segmentación y
análisis de la cesta de la compra de un
dataset de e-commerce.
Nombre del autor: Jorge Rosario Mata
Nombre del consultor/a: Enrique Rodríguez García
Nombre del PRA: Maria Pujol Jover
Fecha de entrega
(mm/aaaa):
06/2018
Titulación::
Máster en Inteligencia de Negocio y Big
Data
Área del Trabajo Final: Análisis de datos
Idioma del trabajo: Español
Palabras clave
Data mining marketing, e-commerce,
Market Basquet Analysis
Resumen del Trabajo
El principal objetivo del presente trabajo ha sido la realización de un
estudio de transacciones comerciales de un e-commerce durante un
periodo de aproximadamente un año, el 2011. El dataset se ha obtenido de
la plataforma Kaggle.
En una primera parte del trabajo se habla del e-commerce, su penetración
y sus tendencias.
En una segunda parte se aborda el análisis del dataset en cinco fases
principales:
Una fase de transformación de los datos en el que se reduce el número de
registros aproximadamente en un 30%.
Una fase en la que se enriquece artificialmente el dataset categorizando
los artículos que se vende en el e-commerce además de un margen de
beneficio.
Una fase en la que se realiza un análisis descriptivo del dataset desde el
punto de vista temp0oral, de los artículos, de los clientes, de las
transacciones, de las familias y de los márgenes de beneficios, en la que
descubrimos que los juegos de té son los artículos más demandados y
noviembre el mes con mayor número de transacciones.
Una fase en la que se realiza un análisis RFM( Recency Frecuency,
Monetary) sobre el comportamiento de los consumidores en los que se
diferencian 125 segmentos.
ii
Una última fase en la que se realiza un análisis de la cesta de la compra
obteniendo las principales reglas de asociación entre los diferentes
artículos de la cesta con el uso del algoritmo A priori.
Abstract
The main objective of this work has been the realization of a study of the
commercial transactions of an e-commerce during a period of
approximately one year, 2011. The dataset has been obtained from the
Kaggle platform.
In the first part of the work, it talks about e-commerce, its penetration and
its tendencies.
In a second part, the dataset analysis is addressed in five main phases:
A phase of transformation of the data in which the number of records is
reduced by approximately 30%.
A phase in which the dataset is artificially enriched by categorizing the items
sold in the e-commerce as well as a profit margin.
A phase in which a descriptive analysis of the dataset is made from the
temporal point of view, of the articles, of the clients, of the transactions, of
the families and of the profit margins, in which we discovered that the Tea
sets are the most demanded items and November the month with the
highest number of transactions.
A phase in which an RFM analysis (Recency Frequency, Monetary) of the
behavior of consumers in which 125 segments are differentiated.
A final phase in which an analysis of the shopping basket is made, obtaining
the main rules of association between the different items in the basket with
the use of the A priori algorithm.
iii
Contenido
1. Introducción.................................................................................................... 6
1.1 Contexto y justificación del Trabajo...................................................... 6
1.1.1 E-commerce.......................................................................................... 6
1.1.2 Segmentación de mercados.............................................................. 10
1.1.3 Análisis de la cesta de la compra (Market Basket analysis)........... 11
1.2 Objetivos del Trabajo............................................................................ 12
1.3 Enfoque y método seguido .................................................................. 12
1.4 Planificación del Trabajo ...................................................................... 13
1.5 Breve sumario de productos obtenidos.............................................. 14
1.6 Breve descripción de los otros capítulos de la memoria .................. 14
2. Estado del arte ............................................................................................. 15
3. Resultados ................................................................................................... 18
3.1 Preparación y descripción del conjunto de datos.............................. 18
3.2 Enriquecimiento del dataset............................................................. 23
3.3 Análisis Visual descriptivo del conjunto resultante. ..................... 23
3.4. Análisis RFM/Segmentación de clientes............................................ 30
3.5 Análisis de la cesta de la compra ........................................................ 38
4. Conclusiones................................................................................................ 41
Trabajos futuros. ......................................................................................... 42
5. Glosario........................................................................................................ 43
6. Bibliografía ................................................................................................... 44
7. Anexos ......................................................................................................... 45
Lista de figuras
Figura 1. Crecimiento global de ventas en e-commerce. (Ecommerce.org, 2016) .....................................7
Figura 2. Cuota de mercado en ventas e-commerce. (Ecommerce.org, 2016)...........................................7
Figura 3. “Top Ten” Gasto promedio por E-Shopper (Ecommerce.org, 2016)..............................................8
Figura 4. Evolución de la cifra de negocio del comercio electrónico B2C en España en millones de euros.
(ONTSI, 2016)................................................................................................................................................8
Figura 5. Evolución del número de internautas Vs internautas compradores(%) (ONTSI, 2016) .................9
Figura 6. Tabla que recoge la evolución del gasto promedio total de los internautas compradores durante
el periodo 2007 – 2016.................................................................................................................................9
Figura 7. Bienes y Servicios comprados por internet en España en 2016 (%). (ONTSI, 2016)......................9
Figura 8. Tabla de fuentes y variables consideradas sobre segmentaciones. Elaboración propia a partir de
(Paula Rodriguez Torrico, 2012). ................................................................................................................16
Figura 9. Diagrama de cajas de la variable Quantity antes de la limpieza de datos..................................20
Figura 10 Histograma de la variable Quantity antes de la limpieza...........................................................20
Figura 11 Diagrama de caja de la variable 'Quantity' después de limpiar los datos..................................21
Figura 12 Histograma de la variable 'Quantity después de limpiar los datos' ...........................................22
Figura 13 Número de Pedidos por mes.......................................................................................................24
Figura 14 Número de pedidos por día de la semana..................................................................................24
Figura 15 Pedidos por familia.....................................................................................................................25
Figura 16. Unidades vendidas por familia de artículos...............................................................................25
Figura 17 Evolución ventas en libras ..........................................................................................................26
Figura 18. Beneficio por familia..................................................................................................................26
Figura 19 Porcentajes de órdenes de compra por país...............................................................................27
Figura 20 Número pedidos según hora del día...........................................................................................27
Figura 21 Artículos más demandados ........................................................................................................28
Figura 22. Top pedidos por margen en libras. ............................................................................................28
Figura 23. TOP IDs de clientes más rentables.............................................................................................29
Figura 24. Beneficios acumulados por mes estudiado................................................................................29
Figura 25 Mapa de calor de la segmentación RFM por compras totales por segmento............................31
Figura 26 Gráfico descriptivo de los segmentos hallados mediante RFM ..................................................32
Figura 27 Top segmentos por la compra media de sus integrantes...........................................................33
Figura 28 Miembros por segmento vs gasto medio por segmento ............................................................33
Figura 29 Variables descriptivas de la recencia..........................................................................................34
Figura 30. Variables descriptivas para la frecuencia..................................................................................34
Figura 31. Variables descriptivas para el monto. .......................................................................................35
Figura 32 Histograma sobre el número de transacciones ..........................................................................35
Figura 33 Relación entre Recencia y Monto ...............................................................................................36
Figura 34 relación entre Frecuencia y Monto.............................................................................................36
Figura 35 Relación entre Recencia y Frecuencia.........................................................................................37
Figura 36 Breve propuesta de clasificación según puntuación RFM ..........................................................37
Figura 37 Representación tabular de algunas reglas .................................................................................38
Figura 38 Representación en forma de gráfico de red de algunas reglas ..................................................39
Figura 39 Representación de la dispersión de las reglas resultantes .........................................................40
“Hoy en día hay que correr más para estar en el mismo lugar”
Philip Kloter.
TFM. Máster en Inteligencia de Negocio y Big Data - 2016 -2018.
Jorge Rosario Mata 6
1. Introducción
1.1 Contexto y justificación del Trabajo
En el marco del máster Inteligencia de negocio y Big data de la UOC y para
la última asignatura del mismo se ha optado a partir de un fichero de e-
commerce, en concreto el e-Commerce de Kaggle, realizar el trabajo fin de
master, TFM. Se trata de un archivo con más de medio millón de filas y 8
columnas del que esperamos hacer diversos análisis segmentaciones de
clientes todos ellos en el campo del data mining marketing.
En primer lugar hablaremos de e-commerce con la intención de poner en
foco su relevancia presente y futura. En segundo lugar hablaremos de
segmentación de mercados. Finalmente en un tercer punto hablaremos del
análisis de la cesta de la compra y su utilidad en marketing.
1.1.1 E-commerce.
El e-commerce o electronic commerce consiste en la compra de productos
y/o servicios a través de medios electrónicos como internet con el soporte
de dispositivos tales como ordenadores, teléfonos inteligentes o tablets (
en este caso es conocido como m-commerce o mobile commerce). Existen
diferentes tipos de Ecommerce siendo el más relevante el B2C:
- B2C Bussines to Consummer, venta directa
- B2B Business to Business, venta directa entre empresas
- C2C Consumer to Consumer, comercio entre particulares, puede ser
subasta, venta directa o anuncios clasificados.
- G2C Goverment to Consumer, cualquier tipo de transacción
gubernamental que nos permita hacer pagos online a través de su sistema
- P2P Peer to Peer, relación entre pares. Es un sistema de red donde los
archivos se reparten entre distintos terminales y los usuarios acceden a uno
u otro mediante un servidor central.
Según el estudio de (Ecommerce.org, 2016) el uso del e-commerce en un
país viene modelado por variables como: logística y comunicaciones,
producto interior bruto, penetración de internet,tamaño y edad de la
población, uso de dispositivos conectados, inflación del país o tasa de
desempleo.
Las ventas a nivel mundial en ecommerce crecen año tras año y el
porcetanje de crecimiento para los datos del informe es de dos dígitos tal
como podemos apreciar en la siguiente figura:
TFM. Máster en Inteligencia de Negocio y Big Data - 2016 -2018.
Jorge Rosario Mata 7
Figura 1. Crecimiento global de ventas en e-commerce. (Ecommerce.org, 2016)
El “top ten” de países en cuota de mercado en e-commerce en el año
2015 estaba encabezado por China con una cuota del 33,7 % (con un
incremento del 5,6 % respecto al año anterior) seguido de USA con una
cuota del 26,2 %. En Europa el país dominante es El Reino Unido con una
cuota del 7,7 %.
Podemos apreciar en la siguiente figura que Reino Unido es además el país
donde el gasto promedio por usuario es mayor. Es destacable que los
usuarios Chinos gasten más que usuarios Alemanes o Japoneses cuyos
países tienen unas rentas per cápita mayores.
Figura 2. Cuota de mercado en ventas e-commerce.
(Ecommerce.org, 2016)
TFM. Máster en Inteligencia de Negocio y Big Data - 2016 -2018.
Jorge Rosario Mata 8
Respecto a la situación española y según el informe “Estudio sobre el
comercio electrónico en España·B2C” (ONTSI, 2016), la evolución del
volumen de ventas de comercio electrónico B2C también ha sufrido un
incremento muy importante año tras año tal como apreciamos en la
siguiente figura:
Figura 4. Evolución de la cifra de negocio del comercio electrónico B2C en España en
millones de euros. (ONTSI, 2016)
El estudio también muestra la evolución de internautas y la de internautas
compradores además de la del gasto promedio por iternauta comprador (
e-shopper).
Figura 3. “Top Ten” Gasto promedio por E-Shopper (Ecommerce.org, 2016)
TFM. Máster en Inteligencia de Negocio y Big Data - 2016 -2018.
Jorge Rosario Mata 9
Figura 5. Evolución del número de internautas Vs internautas compradores(%) (ONTSI,
2016)
Tal y como podemos apreciar el
aumento del volumen de compra ha
estado presente en prácticamente
todos los años.
El abanico de transacciones llevabas a cabo a través del comercio
electrónico abarca desde reservas de hoteles, compra de libros, ocio o
joyería:
Figura 7. Bienes y Servicios comprados por internet en España en 2016 (%). (ONTSI,
2016)
Figura 6. Tabla que recoge la evolución del gasto
promedio total de los internautas compradores
durante el periodo 2007 – 2016.
TFM. Máster en Inteligencia de Negocio y Big Data - 2016 -2018.
Jorge Rosario Mata 10
Dando por introducida y justificada la relevancia del comercio electrónico a
nivel nacional y pasamos a hablar de quienes y como conocer a aquellos
hacen posible que existan las empresas en cualquiera de sus formas: los
clientes.
1.1.2 Segmentación de mercados.
Una definición de qué o quiénes son los clientes podría ser la siguiente.
“Los clientes son aquellas personas, entidades o empresas que adquieren
los bienes o servicios brindados por otra y son sin duda el elemento más
importante para cualquier empresa.” Casi nadie dudará de que el
conocimiento en mayor o menor medida de los mismos debe estar en la
hoja de ruta de cualquier organización.
Según (Valiñas, 2009) (pág9): “…debido a que cada ser humano es único
y distinto y por ende lo serán sus gustos y sus compras, sí se pueden hacer
grupos de personas o segmentos que tengan gustos y preferencias
parecidos”. La mercadotecnia es precisamente la disciplina que ayuda a las
empresas a navegar en esta dirección siendo la Segmentación de
Mercados1, la herramienta que trata de conformar grupos de consumidores
lo más homogéneos posible mediante la aplicación de diversas técnicas.
La segmentación de mercados brinda algunas ventajas tales como:
- Certidumbre en el tamaño del mercado.
- Claridad al establecer planes de acción
- Identificación de los consumidores integrantes del mercado
- Reconocimiento de actividades y deseos del consumidor
- Simplificación en la estructura de marcas
- Facilidad para la realización de actividades promocionales
- Simplicidad para planear
Para segmentar un mercado será necesario utilizar unas variables que nos
ayudaran a definir el segmento del mercado de forma más clara y precisa.
Las más habituales son:
- Variables demográficas: edad, sexo, nivel socioeconómico, estado civil, nivel
académico, religión…
- Variables geográficas: País de residencia, condiciones geográficas, raza, tipo de
población…
- Variables Psicográficas: Grupos de referencia, clase social, personalidad,
cultura, ciclo de vida familiar, motivos de compra…
- Variables de posición de usuario o de uso: frecuencia de uso, tasa de uso,
lealtad, disposición de compra…
- Análisis RFM (Recency, Frequency, Monetary) Segmentar a los clientes en
funcion de lo reciente de sus compras en función del número de días de su última
1 Entenderemos Mercado desde el punto de vista del marketing y que podemos definir como el
conjunto de clientes actuales o potenciales de un determinado producto o servicio.
TFM. Máster en Inteligencia de Negocio y Big Data - 2016 -2018.
Jorge Rosario Mata 11
compra, la frecuencia de sus
compras considerando el número
de compras en un periodo de
tiempo y también por el Monto de
las compras.
- Segmentaión en función de la
rentabilidad del cliente.
- Segmentación por artículos
consumidos consumidos o
familias de artículos.
Las variables anteriores pueden ser consideradas en análisis cualitativos y
cuantitativos cuando se disponga de datos históricos de n individuos de los
cuales se han observado m caracteristicas mediante técnicas de clustering
y clasificación de minería de datos.
Notese que por procedimientos equivalentes y redefiniendo algunas
variables se puede hacer segmentación de mercados industriales.
La propia naturaleza y ecosistema de las transacciones comerciales online
e internet facilitan la captura de datos tanto propios de los clientes como de
su comportamiento frente a un e-commerce para su posterior análisis. Entre
otros muchos se pueden recoger datos para hacer segmentación y
clasificación, y así ganar en conocimiento de los mismos,de unos de
clientes cada vez más informados y mejor preparados.
En este TFM y en lo referente a segmentación y clasificación trataremos
además de hacer un análisis descriptivo de el dataset, segmentar los
clientes mediante algún análisis RFM y de rentabilidad.
1.1.3 Análisis de la cesta de la compra (Market Basket analysis)
Conocido en minería de datos como el Association Discovery del retail tiene
como objetivo conocer que asociaciones de artículos se compran juntos
habitualmente o con más frecuencia que otras asociaciones de artículos.
Entre sus utilidades destacarían tanto para tiendas físicas como para e-
commerce el posicionamiento de productos en el lineal sea real o virtual, la
selección de surtido, la elaboración de ofertas y promociones o las ventas
cross-selling.
Este tipo de análisis también tiene aplicaciones en otros campos como el
sanitario para identificar factores de riesgo en la aparición o complicación
de enfermedades.
En la práctica se utilizan algoritmos de asociación tales como: Algoritmo a
Priori o el Algoritmo FP-Growth.
En lo referente a nuestro trabajo realizaremos un Market Basket Analysis
del que extraeremos las principales reglas de asociación de nuestro
dataset.
TFM. Máster en Inteligencia de Negocio y Big Data - 2016 -2018.
Jorge Rosario Mata 12
1.2 Objetivos del Trabajo
1- Enriquecer el dataset mediante la adición de categorias, márgenes y
niveles superiores de agregación.
2- Realizar un análisis descriptivo de los hábitos de compra por cliente.
3- Realizar segmentaciones de clientes.
4- Realizar análisis de la cesta de la compra.
1.3 Enfoque y método seguido
La metodología escogida será la aplicación de una suerte de metodología
CRISP – DM (Roig, 2016) ad hoc inmersa en un proceso iterativo de
revisión y mejora que podría ser la siguiente:
1. Justificación de los objetivos.
2. Comprensión de los datos:
a. primera exploración
b. significado
c. calidad.
3. Preparación de datos: descripción de datos
a. selección de datos
b. limpieza de datos
c. formateo de datos si procede.
d. construcción de posibles atributos derivados
e. integración de datos con otros conjuntos para su enriquecimiento
4. Modelado:
a. Selección de técnicas de modelado
b. informe de análisis
c. Construcción de modelos de segmentado y análisis de la cesta de la
compra
5. Evaluación de resultados:
a. Resultados
b. Utilidad/ aplicaciones de los resultados para el negocio
6. Conclusiones.
7. Elaboración y edición de los documentos finales.
TFM. Máster en Inteligencia de Negocio y Big Data - 2016 -2018.
Jorge Rosario Mata 13
1.4 Planificación del Trabajo
Fechadeinicio:14/03/2018Fechafin:03/04/2018
LMXJVSDLMXJVSDLMXJVSDLMXJVSDLMXJVSDLMXJVSD
PEC1
1.1Decisióndelalineadetrabajoydeldatasetaanalizar
1.2Redaccióndelapropuestadelproyectoyplanificacióntemporal
Fechadeinicio:04/04/2018Fechafin:30/04/2018
LMXJVSDLMXJVSDLMXJVSDLMXJVSDLMXJVSDLMXJVSD
PEC2
2.1
2.2
2.3
2.4
2.5
2.6
2.7
Fechadeinicio:01/05/2018Fechafin:04/06/2018
LMXJVSDLMXJVSDLMXJVSDLMXJVSDLMXJVSDLMXJVSD
PEC3
3.1
3.2
3.3
3.4
3.5
Fechadeinicio:05/06/2018Fechafin:25/06/2018
LMXJVSDLMXJVSDLMXJVSDLMXJVSDLMXJVSDLMXJVSD
4
4.1
4.2
4.3
Fechainicio:03/07/2018Fechafin:10/07/2018
LMXJVSDLMXJVSDLMXJVSDLMXJVSDLMXJVSDLMXJVSD
5
RedaccióndelTFMenversiónpresentación
Defensaanteeltribunal
Primeraversióndelamemoria
Revisióndelapropuestainicial
Esbozoderesultadosyprimerasconclusiones
Entregafinal
Reconsideraionesfinales
RedaciónypulidodelTFM
Búsquedadedatosodesarrollodeunaoperativaparaelenriquecimientodeldataset
Primeranálisisdescriptivodehábitosdecompra
Investigaciónyestudiodelametodologíaexistentepararealizarsegmentaciones
Desarrolloprimerasegmentacióndeclientes
Investigaciónyestudiodelametodologíaexistenteenelanálisisdelacestadelacompra
Desarrolloprimeranálisisdecestadelacompra
2018-282018-272018-262018-242018-232018-25
2018-282018-272018-262018-242018-232018-25
2018-232018-222018-212018-192018-182018-20
2018-192018-182018-172018-162018-152018-14
ESTRUCTURADELAMEMORIA
2018-162018-152018-142018-132018-112018-12
Investigaciónyestudiodelametodologíaexistenteparaelanálisisdescriptivodehábitosdecompra
Mejoradelanálisisdescriptivodelacestadelacompradesarrolladodurantelafaseanterior:revisión
deobjetivos,redimensionado,rediseño,profundización,leccionesaprendidas.
Mejoradelasegmentacióndeclientesdesarrolladadurantelafaseanterior:revisióndeobjetivos,
redimensionado,rediseño,profundización,leccionesaprendidas.
Mejoradelanálisisdelacestadelacompradesarrolladodurantelafaseanterior:revisióndeobjetivos,
redimensionado,rediseño,profundización,leccionesaprendidas.
SELECCIÓNDELTRABAJOYPROPUESTAINICIAL
TFM. Máster en Inteligencia de Negocio y Big Data - 2016 -2018.
Jorge Rosario Mata 14
1.5 Breve sumario de productos obtenidos
Teniendo en cuenta la metodología, los objetivos y el dataset con el que se
ha trabajado, los resultados que se han obtenido son los siguientes:
1- Preparación del conjunto de datos y descripción.
Se ha trabajado con el data set original y se han ido un proceso de
adecuación del conjunto de datos para poder trabajar con el de una manera
más adecuada a nuestros objetivos.
2- Análisis descriptivo del dataset.
3- Segmentación y análisis RFM de los clientes.
Debido a que no disponíamos de variables tradicionales de segmentación
se ha optado por este tipo de segmentación que se basa principalmente en
los hábitos de compra a partir de transacciones.
4- Análisis de la cesta de la compra.
Se ha realizado un análisis de la cesta de la compra utilizando el algoritmo
Apriori del paquete Arules de R además de algunas representaciones
gráficas de estas reglas.
1.6 Breve descripción de los otros capítulos de la memoria
En el capítulo 2º se habla del estado del arte. Tras una breve introducción
se detallan numerosas obras relacionadas con la segmentación de clientes
e-shoppers vía online o móvil, además de herramientas disponibles en la
web bien libres bien propietarias de las que pueden hacer uso los
propietarios de un e-commerce para realizar análisis de datos de sus
negocios. Se proporciona también por un lado una lista de algoritmos de
agrupación y por otro un listado de algoritmos de análisis de la cesta de la
compra, ambos con algoritmos actualmente utilizados.
En el tercer capítulo se habla de los 5 productos principales obtenidos.
Siempre bajo el amparo del lenguaje de programación R, en primer lugar
se ofrece una metodología comentada de preparación de datos en línea de
la propuesta en este primer capítulo, CRISP-DM. En tercer lugar consiste
en un análisis descriptivo de los datos principalmente visual. La cuarta
parte consiste en un análisis RFM (Recency, Frecuency, Monetary) que
hace una propuesta de segmentación de clientes en función de sus hábitos
de compra. El quinto producto principal obtenido es un análisis de la cesta
de la compra y la presentación de las principales reglas obtenidas.
En el 4º capítulo se exponen las principales conclusiones obtenidas del
presente trabajo y un análisis crítico del mismo exponiendo las limitaciones
propias y escollos encontrados además de tratar las futuras líneas de
investigación. El 5º capítulo es un glosario de terminología utilizada en el
presente trabajo. El 6º y 7º capítulos tratan de la bibliografía referenciada y
de los anexos a este trabajo respectivamente.
TFM. Máster en Inteligencia de Negocio y Big Data - 2016 -2018.
Jorge Rosario Mata 15
2. Estado del arte
El paradigma propio del e-commerce y sus diferencias con el modelo
tradicional hacen muy recomendable la reorientación de las
segmentaciones en marketing. Aquellas 4Ps postuladas por McCarty en
1960 para el marketing mix: Product, Price, Promotion y Place
prácticamente desaparecen en el comercio electrónico y parece ser que
van a ser reemplazadas por las 4Cs: Customer Value, Cost, Convenience
y Communication. Además de las variables “clásicas” para segmentar tales
como las demográficas, geográficas o psicográficas han surgido otras
nuevas tales como el uso que hacen los individuos de internet, la
geolocalización, el dispositivo a través del cual se conectan o la
configuración del mismo.
En la literatura existen no pocos trabajos que realizan segmentaciones de
e-shoppers según las diferentes variables consideradas:
Fuente/Perfil Variables consideradas Context
o
(KAU, 2003)
- Comprador on-off
- Dual
- Comparador
- Rezagado
- Tradicional
-Buscador de información
- Género
- Edad
- Experiencia
- Actitudes
- Información
- Online
(SWINYARD, 2003)
- Los amantes de las compras
- Los exploradores aventureros
- Estudiantes sospechosos
- Los usuarios empresariales
- Estilo de vida - Online
(ROHM, 2004)
- Comprador de conveniencia
- Buscador de variedad
- Comprador equilibrado
- Comprador orientado a la
tienda
- Beneficios buscados:
conveniencia
- Señales percibidas: riesgo
en ingresos
- Online
(BHATNAGAR, 2004b)
- Los que observan un alto
riesgo en los productos y de
seguridad
- Los que tienen un moderado
riesgo en el producto y bajo
riesgo de seguridad
- Los que presentan un bajo
riesgo de producto y el riesgo
de seguridad es moderado
- Señales percibidas: riesgo
en ingresos y riesgo en
costes
- Online
(BIGNÉ, 2005) - Edad, ingresos, géneros ,
experiencia
(JAYAWARDHENA, 2007)
Compradores activos
Sensibles a los precios
Los compradores más
exigentes
Leales a la marca
Orientación de la compra(
lealtad, activo, inactivo,
precio y conveniencia)
Online
TFM. Máster en Inteligencia de Negocio y Big Data - 2016 -2018.
Jorge Rosario Mata 16
Orientado hacia la comodidad
(BARNES, 2007)
- Los escépticos con aversión al
riesgo
- Compradores online de mente
abierta
- Reservados que buscan
información
Personalidad Online
(RUIZ, 2006) Edad, ingresos, nivel de
estudios
personalidad(implicación),
señales percibidas: riesgos
en los ingresos
Online
(JIMÉNEZ TORRES, 2010)
- Prácticos
- Indiferentes
- Desconfiados
Señales percibidas:
Independientes y
contingentes a la venta
Móvil
(ALJUKHADAR, 2011)
- Los comunicadores
- Los compradores al acecho
- Los sociales
Usos de internet Online
(PASCUAL DEL RIQUELME,
2011)
- Desconfiados en general
- Los que (específicamente)
desconfían de la venta
tradicional
- Los que (específicamente)
desconfían de la venta en
internet
Valores, personalidad (
aversión al riesgo),
desconfianza
Online
(LIMA-FILHO, 2012)
- Controlados
- Compradores
- Jóvenes
- Compradores básicos
- Compradores convencionales
Género, edad, ingresos,
personalidad
Online
(PRODANOVA, 2012)
- Escépticos
- Reflexivos
- Prácticos
Personalidad, confianza,
señales percibidas
Online
Figura 8. Tabla de fuentes y variables consideradas sobre segmentaciones. Elaboración
propia a partir de (Paula Rodriguez Torrico, 2012).
Cabe destacar que pese a la multitud de variables puestas a consideración
para realizar segmentaciones no siempre es sencillo o razonable para las
empresas realizar segmentaciones en base a ellas al menos en el corto o
TFM. Máster en Inteligencia de Negocio y Big Data - 2016 -2018.
Jorge Rosario Mata 17
medio plazo bien por razones técnicas, bien por la subjetividad de algunas
de ellas.
No obstante para este canal de ventas existe el llamado “Behabioural
Targeting” que consiste en el análisis de pautas de navegación e
interacción en un e-commerce por parte de sus visitantes. Como apoyo a
los e-commerce existen herramientas online que pueden ayudar en esta
dirección, que ayudan en tiempo real o prácticamente en tiempo real, tales
como: Google Analytics, Piwik, The Webalizer, KissMetrics,
Cliky,Woopra,OpenWeb Analytics, o W3Counter. Pueden ser bien de pago
o bien gratuitas, más o menos sencillas de instalar o manejar pero todas
ellas aportan en mayor o menor medida gráficos y estadísticas sobre las
búsquedas, conexiones, palabras buscadas, fuentes de tráfico, etc. de los
visitantes de la web.
Desde un punto de vista más avanzado se pueden utilizar técnicas
estadísticas de análisis clúster también llamado clustering, análisis de
conglomerados o clasificación no supervisada. Estas técnicas intentan
formar a partir de un conjunto de individuos, subgrupos relativamente
homogéneos y lo más heterogéneos posible entre ellos en función de
alguna distancia o función matemática. Una posible clasificación no
exhaustiva de estas técnicas podría ser la siguiente (Fernández, 2011):
- Métodos Jerárquicos:
oAsociativos o aglomerativos:
 Simple Linkage ( vecino más próximo)
 Complete linkage (vecino más lejano)
 Promedio entre grupos
 Método del centroide
 Método de la mediana
 Método de Ward
oDisociativos:
 Linkage Simple
 Linkage Completo
 Promedio entre grupos
 Método del centroide
 Método de la mediana
 Método de Ward
 Análisis de asociación
- Métodos no jerárquicos:
oReasignación
 K- medias
 Nubes dinámicas
oBúsqueda de densidad
 Análisis modal
 Métodos Taxap
 Método Fortin
 Método de Wolf
oMétodos directos: Block clustering
oMétodos reductivos: Análisis factorial tipo Q.
TFM. Máster en Inteligencia de Negocio y Big Data - 2016 -2018.
Jorge Rosario Mata 18
El análisis de la cesta de la compra que entraría en las llamadas técnicas
de asociación. Estas son técnicas estadísticas que permiten descubrir
hechos que ocurren en común dentro de un conjunto de datos. Es un
método descriptivo que se utiliza con datos nominales. Algunos de los
algoritmos más utilizados son:
- Algoritmo A priori
- GSP
- FP-Growth
- E- A priori
- EH-A priori
- FITI
- Gen-FCE
- Gen-REAR
- MINEPI
- MOWCATL
- ITARM
Existen además y concretamente para este conjunto de datos con
calidades variables, algunos en R, otros en RMarkDown y otros en Phyton,
en la plataforma Kaggle, diversos análisis puestos al servicio de su
comunidad de usuarios. Generalmente se tratan de análisis descriptivos
segmentaciones, ACPs y predicciones de demanda:
https://www.kaggle.com/carrie1/ecommerce-data/kernels
3. Resultados
3.1 Preparación y descripción del conjunto de datos.
Los datos provienen del dataset “E-commerce de kaggle” y son parte de
las transacciones de un e-commerce de UK. Los datos se presentan en
formato “.csv” y se pueden obtener desde:
https://www.kaggle.com/carrie1/ecommerce-data
El conjunto de datos presenta 8 atributos y 541909 instancias
InvoiceNo: número de factura. Nominal, un número integral de 6 dígitos
asignado de forma única a cada transacción. Si este código comienza con
la letra 'c', indica una cancelación.
StockCode: código del producto (artículo). Nominal, un número integral de
5 dígitos asignado de manera única a cada producto distinto.
Description: Nombre del producto. Nominal.
Quantity: las cantidades de cada producto (artículo) por transacción.
Numérico.
InvoiceDate: fecha y hora de la factura. Numérico, el día y la hora en que
se generó cada transacción.
TFM. Máster en Inteligencia de Negocio y Big Data - 2016 -2018.
Jorge Rosario Mata 19
UnitPrice: precio unitario. Numérico, precio del producto por unidad en
libras esterlinas.
CustomerID número de cliente. Nominal, un número integral de 5 dígitos
asignado de forma exclusiva a cada cliente.
Country: nombre del país. Nominal, el nombre del país donde reside cada
cliente
Respecto a la calidad de los datos realizaremos algunas puntualizaciones:
- En el Campo “StockCode”, no siempre se cumple que sea un código
alfanumérico. Existen excepciones en el código de producto: “Bank
charges”,C2“,”D“,”DOT“,”M“,”POST“,”S" o “PAD” que parecen responder a
otros criterios como descuentos a los clientes, gastos de envío, gastos
bancarios, etc.
- Los formatos de los datos no son los más convenientes.
- Existen más de 135000 registros con valores NA.
- Explorando visualmente la tabla de datos el campo “Descripction”
parece justificar el porqué no tienen el “CustomerID” parece ser que se
corresponden con movimientos de stock de los artículos que no
corresponden ni a ventas ni a devoluciones que no han sido recogidos en
el campo “StockCode”.
- El campo InvoiceNo recoge tanto los pedidos efectivamente enviados
como los cancelados, añadiéndoles una C al principio del número para
indicar la cancelación.
- Existen además 5268 registros duplicados.
- A la vista de una exploración visual de los datos vemos que
probablemente existen algunos valores anormales (outliers) para la
variable “quantity” a los que tendremos que darles algún tratamiento. Los
más extremos parecen corresponderse con errores en las cantidades
pedidas puesto que llevan aparejadas cancelaciones. Aunque estos no
afectarán a la media, sí lo harán a otras medidas de dispersión.
- En este diagrama de cajas podemos observar lo comentado respecto a
la variable “quantity”: existen valores muy alejados de lo que parece ser la
media. Además estos valores parecen simétricos por debajo y por arriba
del cero. Esto nos hace sospechar que posiblemente se trate de algún
error.
TFM. Máster en Inteligencia de Negocio y Big Data - 2016 -2018.
Jorge Rosario Mata 20
-
Figura 9. Diagrama de cajas de la variable Quantity antes de la limpieza de datos.
- Histograma con 10 clases:
Figura 10 Histograma de la variable Quantity antes de la limpieza.
TFM. Máster en Inteligencia de Negocio y Big Data - 2016 -2018.
Jorge Rosario Mata 21
A fin de realizar mejoras en la calidad de los datos y poder utilizarlos de
forma más segura decidimos tomar algunas acciones sobre ellos
(básicamente de limpieza de datos dudosos) tales como:
- Optamos por eliminar aquellos registros cuyo StockCode no es un código
de 5 números tal como reza la descripción. Número de registros restantes:
539031
- Optamos por eliminar los registros con el campo CustomerID vacío ya que
concluimos que se trata de movimientos de stock no atribuibles a
movimientos reales de ventas. Número de registros restantes:404909
- Optamos por eliminar también los duplicados: Número de registros
restantes: 399689
- Realizamos algunas acciones de formateo de datos
Qué es un outlier no es una cuestión banal. Optamos por calificar como
outliers aquellos valores de la variable que superan 2 veces el rango
intercuartílico. A partir de la mediana Evidentemente aquí asumimos un
riesgo y eliminaremos valores que no deberían ser eliminados. Decidimos
eliminar los outliers del data set quedándonos con: 375437 registros
“buenos”.
Nueva breve exploración visual. Podemos observar que los rangos quedan
mucho más contenidos que en el caso anterior.
Figura 11 Diagrama de caja de la variable 'Quantity' después de limpiar los datos
TFM. Máster en Inteligencia de Negocio y Big Data - 2016 -2018.
Jorge Rosario Mata 22
•
Figura 12 Histograma de la variable 'Quantity después de limpiar los datos'
Como se ha comentado anteriormente existen ordines de pedido que
posteriormente fueron canceladas. Desde nuestro punto de vista el
mantener estas órdenes y sus contraórdenes no nos interesa en absoluto
por lo que decidimos eliminarlas. Para comprobar si después de la limpieza
efectuada todavía queda alguna orden de este tipo, lo que haremos es lo
siguiente
–1-Para ello primero seleccionamos las órdenes que empiezan por
C(Cancellation):
–2- Intentamos averiguar que registros de los que nos quedan en el dataset
se corresponden con las órdenes originales de las órdenes canceladas.
Estas serán aquellas con una orden de pedido igual pero sin la letra C
El número de órdenes (pedidos) que cumplen estos requisitos es: 0.
Ninguna. Por lo que al tratarse de devoluciones de, teóricamente ya que no
están sus parejas, compras no incluidas en el conjunto elegido optamos
también por eliminarlas del data set:
Finalmente optamos por construir algunos atributos derivados que nos
facilitaran trabajar con los datos y extraer más conocimiento de ellos.
Concretamente a partir de la descomposición de la fecha de la factura
podemos extraer algunos como: año, mes, día, día de la semana, o la hora,
que pueden resultar interesantes para un posterior análisis:
TFM. Máster en Inteligencia de Negocio y Big Data - 2016 -2018.
Jorge Rosario Mata 23
## InvoiceNo StockCode Description Quantity
## 1 536365 85123A WHITE HANGING HEART T-LIGHT HOLDER 6
## 2 536365 71053 WHITE METAL LANTERN 6
## 3 536365 84406B CREAM CUPID HEARTS COAT HANGER 8
## 4 536365 84029G KNITTED UNION FLAG HOT WATER BOTTLE 6
## 5 536365 84029E RED WOOLLY HOTTIE WHITE HEART. 6
## InvoiceDate UnitPrice CustomerID Country ParteFecha
## 1 12/1/2010 8:26 2.55 17850 United Kingdom 2010-12-01
## 2 12/1/2010 8:26 3.39 17850 United Kingdom 2010-12-01
## 3 12/1/2010 8:26 2.75 17850 United Kingdom 2010-12-01
## 4 12/1/2010 8:26 3.39 17850 United Kingdom 2010-12-01
## 5 12/1/2010 8:26 3.39 17850 United Kingdom 2010-12-01
## AnyoFactura MesFactura DiaFactura DiaSemFactura HoraFactura
## 1 2010 diciembre 1 miércoles 8
## 2 2010 diciembre 1 miércoles 8
## 3 2010 diciembre 1 miércoles 8
## 4 2010 diciembre 1 miércoles 8
## 5 2010 diciembre 1 miércoles 8
Conclusiones:
Durante el proceso de preparación de datos se ha reducido
significativamente el número de registros de más de 540000 a unos
375000, es decir se han descartado de una manera que entendemos
razonada aproximadamente un 30% de los registros. Los motivos han sido
diversos: duplicados, registros con algún campo vacío, registros que
entendemos que no debían estar en este conjunto tales como movimientos
de stock, correcciones o incluso pedidos realizados y cancelados y también
los que hemos considerado outliers.
3.2 Enriquecimiento del dataset.
Enriquecemos el conjunto “data” artificialmente para poder hacer un
análisis más completo. Para ello introduciremos 8 categorías (A -H) (a las
que les daremos una probabilidad de presencia de mayor a menor
siguiendo una secuencia tipo Pareto: 0.4 para los A, 0.3 para los B, 0.1 para
los C, 0.1 para los D, 0.05 para los E, 0.025 para los F, 0.015 para los G y
0.010 para los H ). Cada categoría llevará aparejada un margen de
beneficio: A un 15%,B un 100%, C un 30%, D un 25%, E un 25%,F un
200%, G un 10% y H un 10%.
Posibles alternativas a este método: la construcción de un Tesauro,
consultar la base de datos original o hacer segmentaciones en función de
su descripción por ejemplo mediante técnicas de Text Minning.
3.3 Análisis Visual descriptivo del conjunto resultante.
Pedidos por mes: Empezaremos poniendo de manifiesto el cómo se
distribuyen las ventas según el mes del año. Observamos que el mayor
número de pedidos se produce hacia finales de año, durante los meses de
TFM. Máster en Inteligencia de Negocio y Big Data - 2016 -2018.
Jorge Rosario Mata 24
septiembre, octubre y noviembre, posiblemente por la cercanía de las
fechas navideñas
Figura 13 Número de Pedidos por mes.
• Pedidos por día de la semana: En el siguiente gráfico podemos observar
qué son los jueves los días de más venta y los viernes los días de menos.
Además también es muy destacable que no haya ninguna venta los
sábados
Figura 14 Número de pedidos por día de la semana
• La siguiente figura recoge el número de pedidos en los que aparece,
para el periodo considerado, algún artículo de la familia correspondiente.
TFM. Máster en Inteligencia de Negocio y Big Data - 2016 -2018.
Jorge Rosario Mata 25
Figura 15 Pedidos por familia
• Unidades vendidas por familia. Representa para cada familia de artículos
el número de unidades de cada una de ellas el número de artículos que han
sido vendidos. Notad que siguen las proporciones comentadas en su
construcción.
Figura 16. Unidades vendidas por familia de artículos.
• Ventas por día. Mostramos la evolución de las ventas por día en libras
durante el periodo considerado. Entre enero y Septiembre no parece
detectarse ningún patrón. A partir de septiembre se aprecia cómo
TFM. Máster en Inteligencia de Negocio y Big Data - 2016 -2018.
Jorge Rosario Mata 26
aumentan las ventas.
Figura 17 Evolución ventas en libras
• Beneficio por familia. Muestra el beneficio acumulado o margen
acumulado de las ventas de todos los artículos de cada familia.
Figura 18. Beneficio por familia.
TFM. Máster en Inteligencia de Negocio y Big Data - 2016 -2018.
Jorge Rosario Mata 27
• Pedidos por país: Destaca y mucho el número de transacciones
provenientes de UK. Le siguen Francia y Alemania, probablemente por
proximidad.
Figura 19 Porcentajes de órdenes de compra por país
Número de pedidos por hora. Desde el punto de vista de las horas del
día observamos que son las horas centrales del día en las que mayor
número de transacciones se produce, alcanzando el máximo a las 12 del
mediodía. También es destacable que entre las 20:00 horas y las 6:00 no
se producen apenas transacciones.
Figura 20 Número pedidos según hora del día
TFM. Máster en Inteligencia de Negocio y Big Data - 2016 -2018.
Jorge Rosario Mata 28
• El siguiente gráfico nos muestra los 20 artículos más vendidos. El artículo
más vendido resulta ser el 85123A, “White hanging heart t-light holder”, que
parece ser una especie de farolillo para velas en forma de corazón.
Figura 21 Artículos más demandados
• Top20 pedidos por margen o beneficio.
Figura 22. Top pedidos por margen en libras.
TFM. Máster en Inteligencia de Negocio y Big Data - 2016 -2018.
Jorge Rosario Mata 29
• Top 20 clientes más rentables:
Figura 23. TOP IDs de clientes más rentables.
• Beneficios por mes.
Figura 24. Beneficios acumulados por mes estudiado.
TFM. Máster en Inteligencia de Negocio y Big Data - 2016 -2018.
Jorge Rosario Mata 30
Conclusiones:
Respecto a las ventas (en el sentido de unidades vendidas, de número de
pedidos y de monto de ventas) de artículos se ha comprobado que son los
jueves los días de la semana con más ventas. Respecto a los meses,
octubre y noviembre han sido los meses con más ventas. Desde el punto
de vista de la hora del día, ha resultado ser las horas de mediodía 11:00,
12:00 y 13:00 las horas que acaparan más ventas. Resulta especialmente
llamativo que no exista ninguna venta en día sábado por lo que hemos de
entender que este conjunto ha sufrido ciertos retoques antes de ser colgado
en la Web.
Respecto a las familias es la familia “A” la que más presencia tiene en los
pedidos posiblemente porque es la más numerosa. Lo mismo pasa con las
unidades vendidas por familia.
Respecto al beneficio por familia destacan “B” y “G” que aportan un gran
beneficio en comparación con el número de artículos que lo componente.
La explicación es que en su construcción se les ha puesto un gran margen
de beneficio.
Respecto a los pedidos con más margen tenemos el 578305, el 580727 y
el 571281 con unos “beneficios” de 3987, 3118 y 3116 libras
respectivamente.
- Respecto a los países es el Reino unido el que acapara la inmensa
mayoría de transacciones con prácticamente el 90%.
- Respecto a los artículos los más vendidos han sido el 85123A, “White
hanging heart t-light holder”, el 84879 “Assorted colour bird ornament” y el
21212 “Pack of 72 retrspot cake cases”.
Respecto a los clientes más rentables destacan el 14911, el 14096 y el
13089 con unos beneficios acumulados de 48725, 24252 y de 19595
respectivamente.
Finalmente el mes con más beneficio neto es también el mes en el que se
registran mas transacciones Noviembre, seguido de Octubre.
3.4. Análisis RFM/Segmentación de clientes.
Basado en el principio de comercialización de Wilfredo Pareto de que el
80% de el negocio de una empresa proviene del 20% de sus clientes, el
análisis RFM ayuda a identificar a los clientes que tienen más
probabilidades de responder a las promociones comerciales
segmentándolos en varias categorías.
El análisis RFM (Recency, Frecuency, Monetary) es una técnica basada en
el comportamiento que se utiliza para segmentar clientes mediante el
examen de su historial de transacciones sobre: qué tan recientemente un
TFM. Máster en Inteligencia de Negocio y Big Data - 2016 -2018.
Jorge Rosario Mata 31
cliente ha comprado (reciente), con qué frecuencia compran (frecuencia) o
cuánto gasta el cliente (monetario).
Por lo general se establecen 5 categorías sobre la “recencia” de las
compras mediante 5 quintiles. Si el cliente cae en el primer segmento
inferior recibe un 1 de puntuación, si lo hace entre el quintil2 y el quintil3
recibe un 2 de puntuación y así sucesivamente. De forma análoga se
puntúa sobre la frecuencia y sobre el monto de la compra Cada cliente es
clasificado en cada una de esas 5 categorías y se le asigna una puntuación
mediante unas ponderaciones para cada una de ellas A partir de ahí se
establecen segmentos dependiendo de las puntuaciones obtenidas con el
fin de aplicar técnicas de marketing más adecuadas a cada uno de ellos.
Una vez aplicado el sistema obtenemos una división del conjunto de
clientes en 125 subgrupos siendo cada cliente asignado a uno de esos
segmentos.
Pensamos que este sistema es adecuado para segmentar nuestro conjunto
de datos pues carecemos de otro tipo de variables para segmentar como
podrían ser demográficas o psicográficas..
Veamos ahora un mapa de que nos da una muy buena visión de qué
segmentos interesan más y calor cuáles menos desde el punto de vista de
la recencia y de la frecuencia de las compras el valor monetario promedio
de cada segmento de clientes. Podemos comprobar que los segmentos
más valiosos son aquel que tiene la variable de Recencia=3 y la Frecuencia
=1. Y le sigue el segmento de Recencia 3 y Frecuencia = 4. Después el
R=4, F=5.
Figura 25 Mapa de calor de la segmentación RFM por compras totales por segmento
TFM. Máster en Inteligencia de Negocio y Big Data - 2016 -2018.
Jorge Rosario Mata 32
De una manera más detallada mostramos a continuación unos gráficos de
barras según frecuencia y recencia que nos permiten ver visualmente el
valor monetario de cada subgrupo.
Podemos observar que los segmentos más interesantes son según la
nomenclatura R-F-M todos aquellos con (R=5 y F=5) y aquellos con (R=1
y F=1). Los menos interesantes son aquellos con (R=1, F= 3, 4 o 5). Los
responsables de la gestión de clientes debería actuar según el caso quizá
dedicando recursos a los grupos más valiosos y quizá desistir de dedicarlos
a los grupos menos valiosos.
Figura 26 Gráfico descriptivo de los segmentos hallados mediante RFM
TFM. Máster en Inteligencia de Negocio y Big Data - 2016 -2018.
Jorge Rosario Mata 33
Figura 27 Top segmentos por la compra media de sus integrantes
Podemos apreciar que los grupos con menos miembros y compras por
debajo de la media son en general los predominantes
Figura 28 Miembros por segmento vs gasto medio por segmento
En la figura 29 se aprecia cómo se distribuye la recencia. Como es de
suponer para grupos con más días entre compra y compra tienen valores
más dispares entre sí. Los que tienen la recencia más alta, aquellos que
comienzan por 5 tienen los extremos más cercanos a la media y a la
mediana.
TFM. Máster en Inteligencia de Negocio y Big Data - 2016 -2018.
Jorge Rosario Mata 34
Figura 29 Variables descriptivas de la recencia
Respecto a la frecuencia, vemos que están para cada subgrupo más a la
derecha aquellos segmentos con valores más altos.
Figura 30. Variables descriptivas para la frecuencia
TFM. Máster en Inteligencia de Negocio y Big Data - 2016 -2018.
Jorge Rosario Mata 35
Desde el punto de vista del monto podemos apreciar que las variables se
comportan de forma muy similar alcanzándose el máximo global en un segmento
del grupo 3.
Figura 31. Variables descriptivas para el monto.
En el siguiente gráfico podemos apreciar que como es habitual, la inmensa
mayoría de clientes lo son con baja frecuencia:
Figura 32 Histograma sobre el número de transacciones
TFM. Máster en Inteligencia de Negocio y Big Data - 2016 -2018.
Jorge Rosario Mata 36
La siguiente imagen nos muestra que no existe una relación directa entre
el monto de las compras y la reciente de las compras:
Figura 33 Relación entre Recencia y Monto
Ponemos de manifiesto la relación entre frecuencia y monto
Figura 34 relación entre Frecuencia y Monto
TFM. Máster en Inteligencia de Negocio y Big Data - 2016 -2018.
Jorge Rosario Mata 37
Hacemos lo mismo para recencia y frecuencia:
Figura 35 Relación entre Recencia y Frecuencia
Proponemos finalmente a título de ejemplo una propuesta de clasificación
de los segmentos según las puntuaciones RFM obtenidas.
Figura 36 Breve propuesta de clasificación según puntuación RFM
Conclusiones:
-Los segmentos más interesantes desde el punto de vista del gasto parecen
ser el 145, 315, 215 y 115 desde el punto de vista de la compra media.
-No parece haber una relación entre frecuencia, recencia y monto.
TFM. Máster en Inteligencia de Negocio y Big Data - 2016 -2018.
Jorge Rosario Mata 38
3.5 Análisis de la cesta de la compra
Creamos reglas utilizando el algoritmo Apriori, propuesto en 1994 por
Agrawal y Srikant, del paquete arules en R.
Las reglas son asociaciones entre ítems, expresiones de la forma X Y
donde X e Y son conjuntos de ítems. En este contexto representan la
relación que hay entre artículos de una cesta de la compra; por ejemplo
pasta de dientes y cepillos de dientes.
El soporte de una regla es la fracción de transacciones que contienen tanto
a X como a Y. La confianza de una regla es la fracción de las transacciones
en las que aparece X que incluyen también a Y. Según la Wikipedia, “El
indicador lift expresa cuál es la proporción del soporte observado de un
conjunto de productos respecto del soporte teórico de ese conjunto dado el
supuesto de independencia. Un valor de lift = 1 indica que ese conjunto
aparece una cantidad de veces acorde a lo esperado bajo condiciones de
independencia. Un valor de lift > 1 indica que ese conjunto aparece una
cantidad de veces superior a lo esperado bajo condiciones de
independencia (por lo que se puede intuir que existe una relación que hace
que los productos se encuentren en el conjunto más veces de lo normal).
Un valor de lift < 1 indica que ese conjunto aparece una cantidad de veces
inferior a lo esperado bajo condiciones de independencia (por lo que se
puede intuir que existe una relación que hace que los productos no estén
formando parte del mismo conjunto más veces de lo normal).”
Debemos comentar en este punto que aunque en general la medida de
interés “Lift” mejora la confianza de las reglas, también tiene sus
limitaciones y que existen además multitud de medidas de interés
alternativas con diferentes propiedades que pueden ser utilizadas o no en
función de los intereses del analista. Algunas de ellas las podemos
encontrar en (Berzal).
Seleccionamos aquellas que tengan un soporte (fracción de transacciones
que contengan tanto al antecedente como al consecuente) de al menos un
1 % por la cantidad e transacciones que hay. Optamos también elegir una
confianza (porcentaje de las transacciones que cuando aparece el
antecedente aparece también el consecuente) de al menos el 50% para
eliminar así l efecto de artículos muy frecuentes.(Un artículo muy frecuente
aparecerá en el consecuente de muchas reglas independientemente de su
relación con el antecedente de la regla).
Figura 37 Representación tabular de algunas reglas
TFM. Máster en Inteligencia de Negocio y Big Data - 2016 -2018.
Jorge Rosario Mata 39
A continuación mostramos unos intentos de representación gráfica de
algunas reglas. Cabe comentar que no encontramos ningún tipo de gráfico
en el paquete utilizado “arulesviz” que recoja las relaciones entre las reglas
y los ítems utilizados de una forma medianamente aceptable.
Comenzamos la representación con un gráfico de tipo red
Representa las reglas (o conjuntos de elementos) como un gráfico con
elementos como vértices etiquetados y reglas (o conjuntos de elementos)
representados como vértices conectados a elementos mediante flechas.
Los elementos desde los que sale la fleche están en la parte LHS de la
regla. Los elementos a los que apuntan las flechas son los
correspondientes de RHS. Los globos quedan determinados por su tamaño
y color en función del valor del soporte de la regla y el lift.
3
Figura 38 Representación en forma de gráfico de red de algunas reglas
TFM. Máster en Inteligencia de Negocio y Big Data - 2016 -2018.
Jorge Rosario Mata 40
Otra visualización es la un diagrama de dispersión de todas las reglas
representando el soporte y la confianza de las reglas en los ejes y el lift en
el color de los puntos.
Figura 39 Representación de la dispersión de las reglas resultantes
TFM. Máster en Inteligencia de Negocio y Big Data - 2016 -2018.
Jorge Rosario Mata 41
4. Conclusiones
Este trabajo se ha centrado en extraer información diversa sobre un data
set de transacciones de un e-commece de Reino Unido durante el periodo
que media entre enero y diciembre de 2011.
En el análisis RFM se ha decidido segmentar los clientes en 125 segmentos
de la manera explicada en el punto 3.3.
Se ha comprobado que los segmentos más interesantes son según la
nomenclatura R-F-M todos aquellos con (R=5 y F=5) y aquellos con (R=1
y F=1) y que los menos interesantes son aquellos con (R=1, F= 3, 4 o 5).
Se ha comprobado también que no existe relación significativa alguna entre
las variables recencia, frecuencia y monto. El incremento o decremento de
alguna de ellas no lleva en general el incremento o decremento de ninguna
de las otras.
Respecto al análisis de la cesta de la compra con las restricciones
comentadas, quedan seleccionadas aquellas reglas que tengan un
soporte de al menos un 1 % y una confianza de al menos el 50%, se han
obtenido un total de 324 reglas con el subconjunto de datos seleccionado.
Por destacar algunas podemos destacar las tres primeras en función del
“lift”, que es una medida de interés 8 o de importancia o medida de
correlación) de la regla; a saber:
lhs rhs support confidence lift count
[1] {23172} => {23171} 0.01014905 0.8883249 64.90418 175
[2] {23171} => {23172} 0.01014905 0.7415254 64.90418 175
[3] {23175} => {23174} 0.01154092 0.7566540 50.18071 199
Siendo los artículos:
23171= “Regency tea plate green”
23172 = “Regency tea plate pink”
23173= “Regency teapot roses”
23174= “Regency sugar bowl Green”
23175=”Regency milk jug pink”
…que parecen ser los elementos de un juego de té.
Una vez comentadas las principales conclusiones obtenidas del trabajo a
nivel de información obtenida del mismo pasaremos a comentar algunas
reflexiones y algo de autocrítica sobre los objetivos iniciales y su
consecución.
TFM. Máster en Inteligencia de Negocio y Big Data - 2016 -2018.
Jorge Rosario Mata 42
Considero que técnicamente se han alcanzado en general todos los
objetivos aunque hemos de destacar que posiblemente no hemos
alcanzado un buen enriquecimiento del dataset, al menos no un
enriquecimiento fiel. Simplemente hemos ofrecido una solución para
enriquecerlo. Sinceramente opino que este objetivo era o es relativamente
dificil de alcanzar si queremos hacerlo bien. ¿Cómo podemos realizar la
clasificación en familias y subfamilias de un conjunto de más de 4000
artículos variopintos a partir de sus descripciones? ¿Quizá con un
Tesauro?, ¿accediendo a los datos de los cuales ha sido extraído este
dataset en el que posiblemente figure tal clasificación?, ¿ manualmente?.
Quiero añadir también que el uso del software R me resulta interesante
pero al no dominarlo lo suficiente en alguna ocasión ha resultado ser un
lastre, al igual que el tema del RStudio, las actualizaciones de paquetes,
las compatibilidades, etc. En cualquier caso elegí su uso libremente.
He tenido también que solicitar a mi tutor un par de pequeñas demoras en
la entrega de los entregables, a las que el accedió amablemente,
posiblemente porque no hice una planificación del todo adecuada de los
tiempos de cada apartado.
Como parte positiva, la planificación del trabajo a nivel de tareas y
subtareas ha sido bastante buena pues he podido seguir, casi fielmente, la
planificación inicial aunque como ya se ha comentado no la
temporalización inicial
Trabajos futuros.
A continuación nombramos algunos puntos que no se han podido llevar a
cabo y cuya elaboración sería muy interesantes en futuros trabajos:
- Uso de gráficos interactivos debido a la gran cantidad de datos a
representar.
- Comparar resultados con otros algoritmos o técnicas a fin de refinar las
soluciones.
- Realizar predicciones de la demanda.
- Creación de familias o subfamilias de productos de manera automatizada
por ejemplo a través de técnicas de técnicas de Text Mining a partir de la
descripción.
- Elaboración de un Tesauro.
Por otro lado y desde el punto de vista de la investigación diremos que
debido principalmente a nuevas necesidades surgidas del Big Data, la
tendencia general para todos los algoritmos mencionados en este apartado
es su evolución y refinamiento hacia técnicas de computación paralela,
sistemas distribuidos e integración con series temporales y bases de datos
geoespaciales.
TFM. Máster en Inteligencia de Negocio y Big Data - 2016 -2018.
Jorge Rosario Mata 43
5. Glosario
(Fuente: Wikipedia)
Algoritmo a Priori: El algoritmo a priori es
un algoritmo utilizado en minería de datos,
sobre bases de datos transaccionales,
que permite encontrar de forma eficiente
"conjuntos de ítems frecuentes", los
cuales sirven de base para generar reglas
de asociación. Procede identificando los
ítems individuales frecuentes en la base y
extendiéndolos a conjuntos de mayor
tamaño siempre y cuando esos conjuntos
de datos aparezcan suficientemente
seguidos en dicha base de datos. Este
algoritmo se ha aplicado grandemente en
el análisis de transacciones comerciales y
en problemas de predicción., 12
cross-selling: En marketing, se llama
'venta cruzada ' (del inglés cross-selling) a
la táctica mediante la cual un vendedor
intenta vender productos
complementarios a los que consume o
pretende consumir un cliente. Su objetivo
es aumentar los ingresos de una
compañía., 12
data mining marketing: Minería de datos
aplicada al campo del marketing., 6
Dataset: Conjunto de datos., 1
geolocalización: La geolocalización es la
capacidad para obtener la ubicación
geográfica real de un objeto, como un
radar, un teléfono móvil o un ordenador
conectado a Internet. La geolocalización
puede referirse a la consulta de la
ubicación, o bien para la consulta real de
la ubicación., 17
Kaggle: es una plataforma para el
modelado predictivo y competencias de
análisis en el que estadísticos y mineros
de datos compiten para producir los
mejores modelos para predecir y describir
los conjuntos de datos cargados por
empresas y usuarios., ii; Kaggle es una
plataforma para el modelado predictivo y
competencias de análisis en el que
estadísticos y mineros de datos compiten
para producir los mejores modelos para
predecir y describir los conjuntos de datos
cargados por empresas y usuarios., i, 6,
20
McCarty: E. Jerome McCarthy era un
profesor de contabilidad estadounidense
en la Michigan State University. Él es el
autor del influyente libro básico de
comercialización. Un enfoque de gestión
(ahora en su 16 ª edición y con otros co-
autores). El profesor E. Jerome McCarthy,
en 1960, redujo el concepto de Marketing
Mix a 4 elementos, 17
metodología CRISP – DM: CRISP-DM
(Cross Industry Standard Process for
Data Mining) proporciona una descripción
normalizada del ciclo de vida de un
proyecto estándar de análisis de datos, de
forma análoga a como se hace en la
ingeniería del software con los modelos
de ciclo de vida de desarrollo de software.
El modelo CRISP-DM cubre las fases de
un proyecto, sus tareas respectivas, y las
relaciones entre estas tareas., 12
psicográficas: Variables Psicográficas;
personalidad, estilo de vida, valores,
actitudes, intereses. Variables
conductuales; Búsqueda del beneficio,
tasa de utilización del producto, fidelidad
a la marca, utilización del producto final,
nivel de "listo-para-consumir", unidad de
toma de decisión., 17, 33
Text Minning.: La extracción de texto ,
también conocida como minería de datos
de texto , más o menos equivalente a la
analítica de texto , es el proceso de
derivar información de alta calidad del
texto . La información de alta calidad se
obtiene típicamente a través de la
elaboración de patrones y tendencias a
través de medios tales como el
aprendizaje estadístico de patrones . La
minería de texto generalmente implica el
proceso de estructurar el texto de entrada
(generalmente el análisis sintáctico, junto
con la adición de algunas características
lingüísticas derivadas y la eliminación de
otras, y la posterior inserción en una base
de datos ), derivando patrones dentro de
los datos estructuradosy, finalmente,
evaluación e interpretación del resultado.,
25
TFM. Máster en Inteligencia de Negocio y Big Data - 2016 -2018.
Jorge Rosario Mata 44
6. Bibliografía
ALJUKHADAR, M. y. (2011). Segmenting the online consumer market,. En
Marketing Intelligence & Planning, Vol. 29, no 4, (págs. 421-435).
BARNES, S. B. (2007). Segmenting cyberspace: a customer typology for the
internet. En European Journal of Marketing, vol 41, no1/2 (págs. 71-93).
Berzal, F. (s.f.).
http://elvex.ugr.es/decsai/intelligent/slides/dm/D2%20Association.pdf.
Recuperado el 3 de 6 de 2018, de
http://elvex.ugr.es/decsai/intelligent/slides/dm/D2%20Association.pdf
BHATNAGAR, A. y. (2004b). Segmenting customers based on the benefits and
risks of internet shopping. En Journal of Business Research, Vol. 57,.
BIGNÉ, E. R. (2005). The impact of internet user shopping patterns and
demographics on consumer mobile buying behaviour. En Journal of
Electronic Commerce research Vol 6, no3 (págs. 193-209).
Ecommerce.org. (Visitado el 1 de Abril de 2018).
https://www.ecommercewiki.org/wikis/www.ecommercewiki.org/images/5
/56/Global_B2C_Ecommerce_Report_2016.pdf. Obtenido de
www.ecommercewiki.org
Fernández, S. d. (2011). Análisis de conglomerados. Obtenido de
http://www.fuenterrebollo.com/Economicas/ECONOMETRIA/SEGMENT
ACION/CONGLOMERADOS/conglomerados.pdf
JAYAWARDHENA, C. W. (2007). Consumers online: intentions, orientations and
segmentation. En International Journal of Retail & Distribution
Management, Vol. 35, no 6, (págs. 515-526).
JIMÉNEZ TORRES, N. y. (2010). Obtenido de
http://www.revistasice.com/CachePDF/BICE_2987_11-
KAU, A. K. (2003). Typology of online shoppers. En The Journal of Consumer
managment vol 20 (págs. 139-156).
LIMA-FILHO, D. D.-S. (2012). Profile of the electronic commerce consumer: A
study with brazilian university students. En Journal of Internet Banking and
Commerce, Vol. 17, no 1 (págs. 1-16).
ONTSI. (2016). (Visitado el 1 de Abril de 2018.) www.ontsi.red.es. Obtenido de
Observatorio Nacional de las Telecomunicaciones y dela Sociedad de la
Informacion:
http://www.ontsi.red.es/ontsi/sites/ontsi/files/Informe%20B2C%202016.%
20Edici%C3%B3n%202017.pdf
PASCUAL DEL RIQUELME, M. R.-N.-H. (2011). Desconfianza hacia la venta
tradicional y electrónica: Un estudio sobre el perfil del consumidor
desconfiado. En Universia Business Review.
Paula Rodriguez Torrico, S. S. (2012). Multiples formas para segmentar el
mercado de compradores online y movil. Cuadernos de Estudios
Empresariales, 22, 99-128
http://revistas.ucm.es/index.php/CESE/article/view/44647.
PRODANOVA, J. y. (2012). Boletín económico del ICE nº 3029,. Obtenido de de
transporte no son iguales, Boletín económico del ICE nº 3029, 2012,
ROHM, A. J. (2004). A typology of online shoppers based on shopping
motivations. En Journal of Business Research, Vol. 57 (págs. 748-757).
Roig, J. G. (2016). Metodologías y estándares: Business analytics y data minning
en contexto. Barcelona: UOC.
TFM. Máster en Inteligencia de Negocio y Big Data - 2016 -2018.
Jorge Rosario Mata 45
RUIZ, C. y. (2006). Explaining Internet dependency. An exploratory study of
future purchase intention of Spanish Internet users. En Internet Research
vol 16, no4 (págs. 380-397).
SWINYARD, W. y. (2003). Why people don’t shop online: a lifestyle study of
internet consumer. En Psychology & Marketing, Vol. 20, no 7 (págs. 567 -
597).
Valiñas, R. F. (2009). Segmentación de mercados 3ª edición. Mexico: McGraw-
Hill.
7. Anexos
Como único anexo al trabajo se adjunta el código .Rmd que se ha utilizado
en la realización del presente proyecto que ha sido elaborado con el
lenguaje de programación RMarkDown, version 3.4.0 (2017-04-21) “You
Stupid Darkness” sobre RStudio, Version 1.1.453 – © 2009-2018
RStudio, Inc. Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/538.1
(KHTML, like Gecko) Rstudio Safari/538.1 Qt/5.4.1
Está disponible en:
https://drive.google.com/file/d/1cemoDr6yU51M8aHENl00Z-
wn0nh2EckC/view?usp=sharing

Más contenido relacionado

La actualidad más candente

Making Sense of Analytics
Making Sense of AnalyticsMaking Sense of Analytics
Making Sense of AnalyticsDana DiTomaso
 
Zuora Sales Deck
Zuora Sales DeckZuora Sales Deck
Zuora Sales DeckRyan Gum
 
Beyond Pride: Making Digital Marketing & SEO Authentically LGBTQ+ Inclusive -...
Beyond Pride: Making Digital Marketing & SEO Authentically LGBTQ+ Inclusive -...Beyond Pride: Making Digital Marketing & SEO Authentically LGBTQ+ Inclusive -...
Beyond Pride: Making Digital Marketing & SEO Authentically LGBTQ+ Inclusive -...AccuraCast
 
ShipBob Presents: Shifting Logistics from a Cost Center to Revenue Drive
ShipBob Presents: Shifting Logistics from a Cost Center to Revenue DriveShipBob Presents: Shifting Logistics from a Cost Center to Revenue Drive
ShipBob Presents: Shifting Logistics from a Cost Center to Revenue DriveTinuiti
 
Plantee Seed Pitch Deck for TC Pitch Deck Teardown
Plantee Seed Pitch Deck for TC Pitch Deck TeardownPlantee Seed Pitch Deck for TC Pitch Deck Teardown
Plantee Seed Pitch Deck for TC Pitch Deck TeardownHajeJanKamps
 

La actualidad más candente (9)

Making Sense of Analytics
Making Sense of AnalyticsMaking Sense of Analytics
Making Sense of Analytics
 
Zuora Sales Deck
Zuora Sales DeckZuora Sales Deck
Zuora Sales Deck
 
매쉬업엔젤스 미디어킷 (2019) Mashupangels
매쉬업엔젤스 미디어킷 (2019) Mashupangels매쉬업엔젤스 미디어킷 (2019) Mashupangels
매쉬업엔젤스 미디어킷 (2019) Mashupangels
 
Beyond Pride: Making Digital Marketing & SEO Authentically LGBTQ+ Inclusive -...
Beyond Pride: Making Digital Marketing & SEO Authentically LGBTQ+ Inclusive -...Beyond Pride: Making Digital Marketing & SEO Authentically LGBTQ+ Inclusive -...
Beyond Pride: Making Digital Marketing & SEO Authentically LGBTQ+ Inclusive -...
 
La statistica
La statisticaLa statistica
La statistica
 
Slide Francesco Morace
Slide Francesco MoraceSlide Francesco Morace
Slide Francesco Morace
 
ShipBob Presents: Shifting Logistics from a Cost Center to Revenue Drive
ShipBob Presents: Shifting Logistics from a Cost Center to Revenue DriveShipBob Presents: Shifting Logistics from a Cost Center to Revenue Drive
ShipBob Presents: Shifting Logistics from a Cost Center to Revenue Drive
 
Cadee
CadeeCadee
Cadee
 
Plantee Seed Pitch Deck for TC Pitch Deck Teardown
Plantee Seed Pitch Deck for TC Pitch Deck TeardownPlantee Seed Pitch Deck for TC Pitch Deck Teardown
Plantee Seed Pitch Deck for TC Pitch Deck Teardown
 

Similar a Análisis e-commerce

TFM sobre Modelos de Aprendizaje Automático en Ecommerce
TFM sobre Modelos de Aprendizaje Automático en Ecommerce TFM sobre Modelos de Aprendizaje Automático en Ecommerce
TFM sobre Modelos de Aprendizaje Automático en Ecommerce MJ Cachón Yáñez
 
Monografía informe técnico e informe fundamental para el mercado de capitales
Monografía informe técnico e informe fundamental para el mercado de capitales Monografía informe técnico e informe fundamental para el mercado de capitales
Monografía informe técnico e informe fundamental para el mercado de capitales www.SmartColombia.org
 
Berenice Abreu DEP Autoevaluación.docx
Berenice Abreu  DEP  Autoevaluación.docxBerenice Abreu  DEP  Autoevaluación.docx
Berenice Abreu DEP Autoevaluación.docxbereniceabreu0322
 
Ecommerce inmobiliario en guatemala
Ecommerce inmobiliario en guatemalaEcommerce inmobiliario en guatemala
Ecommerce inmobiliario en guatemalaAl Cougar
 
Introducción a la ciencia de datos y el big data
Introducción a la ciencia de datos y el big dataIntroducción a la ciencia de datos y el big data
Introducción a la ciencia de datos y el big dataAlmudena Casado
 
Hr introducción a la computación avanzada (clase 01)
Hr   introducción a la computación avanzada (clase 01)Hr   introducción a la computación avanzada (clase 01)
Hr introducción a la computación avanzada (clase 01)Héctor Revelo Herrera
 
Modelo - Metodologia HEFESTO.pdf
Modelo - Metodologia HEFESTO.pdfModelo - Metodologia HEFESTO.pdf
Modelo - Metodologia HEFESTO.pdfBrigithJaveMendoza
 
Informe de Investigación Propedeutico UNADM
Informe de Investigación Propedeutico UNADMInforme de Investigación Propedeutico UNADM
Informe de Investigación Propedeutico UNADMebaltazar
 
White Paper - Retorno de la inversión (ROI) en datos de productos
White Paper - Retorno de la inversión (ROI) en datos de productosWhite Paper - Retorno de la inversión (ROI) en datos de productos
White Paper - Retorno de la inversión (ROI) en datos de productosInformatica Latinoamerica
 
Valuación de Mercado Libre (MELI)
Valuación de Mercado Libre (MELI)Valuación de Mercado Libre (MELI)
Valuación de Mercado Libre (MELI)Marcos Pueyrredon
 
Hacia una integración tecnológica total con erp, crm y business intelligence
Hacia una integración tecnológica total con erp, crm y business intelligenceHacia una integración tecnológica total con erp, crm y business intelligence
Hacia una integración tecnológica total con erp, crm y business intelligencePMTK Lean IT
 
Business intelligence para Pymes
Business intelligence para PymesBusiness intelligence para Pymes
Business intelligence para PymesRebeca Mora Anca
 
Resumen del estudio comparativo
Resumen del estudio comparativo Resumen del estudio comparativo
Resumen del estudio comparativo Varias
 

Similar a Análisis e-commerce (20)

TFM sobre Modelos de Aprendizaje Automático en Ecommerce
TFM sobre Modelos de Aprendizaje Automático en Ecommerce TFM sobre Modelos de Aprendizaje Automático en Ecommerce
TFM sobre Modelos de Aprendizaje Automático en Ecommerce
 
Resumen ejecutivo Estudio Comercio Electrónico 2011
Resumen ejecutivo  Estudio Comercio Electrónico 2011Resumen ejecutivo  Estudio Comercio Electrónico 2011
Resumen ejecutivo Estudio Comercio Electrónico 2011
 
"Algoconomy: el futuro que te espera"
"Algoconomy: el futuro que te espera""Algoconomy: el futuro que te espera"
"Algoconomy: el futuro que te espera"
 
Comercio Electrónico para PyMEs
Comercio Electrónico para PyMEsComercio Electrónico para PyMEs
Comercio Electrónico para PyMEs
 
Monografía informe técnico e informe fundamental para el mercado de capitales
Monografía informe técnico e informe fundamental para el mercado de capitales Monografía informe técnico e informe fundamental para el mercado de capitales
Monografía informe técnico e informe fundamental para el mercado de capitales
 
Berenice Abreu DEP Autoevaluación.docx
Berenice Abreu  DEP  Autoevaluación.docxBerenice Abreu  DEP  Autoevaluación.docx
Berenice Abreu DEP Autoevaluación.docx
 
Ecommerce inmobiliario en guatemala
Ecommerce inmobiliario en guatemalaEcommerce inmobiliario en guatemala
Ecommerce inmobiliario en guatemala
 
Introducción a la ciencia de datos y el big data
Introducción a la ciencia de datos y el big dataIntroducción a la ciencia de datos y el big data
Introducción a la ciencia de datos y el big data
 
Hr introducción a la computación avanzada (clase 01)
Hr   introducción a la computación avanzada (clase 01)Hr   introducción a la computación avanzada (clase 01)
Hr introducción a la computación avanzada (clase 01)
 
Tema 8-u2-cad-segpi
Tema 8-u2-cad-segpiTema 8-u2-cad-segpi
Tema 8-u2-cad-segpi
 
Consumidor convencional digital
Consumidor convencional digitalConsumidor convencional digital
Consumidor convencional digital
 
Modelo - Metodologia HEFESTO.pdf
Modelo - Metodologia HEFESTO.pdfModelo - Metodologia HEFESTO.pdf
Modelo - Metodologia HEFESTO.pdf
 
Informe de Investigación Propedeutico UNADM
Informe de Investigación Propedeutico UNADMInforme de Investigación Propedeutico UNADM
Informe de Investigación Propedeutico UNADM
 
White Paper - Retorno de la inversión (ROI) en datos de productos
White Paper - Retorno de la inversión (ROI) en datos de productosWhite Paper - Retorno de la inversión (ROI) en datos de productos
White Paper - Retorno de la inversión (ROI) en datos de productos
 
Valuación de Mercado Libre (MELI)
Valuación de Mercado Libre (MELI)Valuación de Mercado Libre (MELI)
Valuación de Mercado Libre (MELI)
 
Hacia una integración tecnológica total con erp, crm y business intelligence
Hacia una integración tecnológica total con erp, crm y business intelligenceHacia una integración tecnológica total con erp, crm y business intelligence
Hacia una integración tecnológica total con erp, crm y business intelligence
 
Business intelligence para Pymes
Business intelligence para PymesBusiness intelligence para Pymes
Business intelligence para Pymes
 
Resumen del estudio comparativo
Resumen del estudio comparativo Resumen del estudio comparativo
Resumen del estudio comparativo
 
50014
5001450014
50014
 
Tics
TicsTics
Tics
 

Último

Reservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdf
Reservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdfReservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdf
Reservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdfJC Díaz Herrera
 
presentacion de conjuntos para primaria.ppt
presentacion de conjuntos para primaria.pptpresentacion de conjuntos para primaria.ppt
presentacion de conjuntos para primaria.pptMelina Alama Visitacion
 
PANTEÓN DE Paris en historia de la arquitectura
PANTEÓN DE Paris en historia de la arquitecturaPANTEÓN DE Paris en historia de la arquitectura
PANTEÓN DE Paris en historia de la arquitecturaRosaHurtado26
 
Evolución de la fortuna de la familia Slim (1994-2024).pdf
Evolución de la fortuna de la familia Slim (1994-2024).pdfEvolución de la fortuna de la familia Slim (1994-2024).pdf
Evolución de la fortuna de la familia Slim (1994-2024).pdfJC Díaz Herrera
 
CNEB-CURRICULO NACIONAL DE EDUCACION BASICA
CNEB-CURRICULO NACIONAL DE EDUCACION BASICACNEB-CURRICULO NACIONAL DE EDUCACION BASICA
CNEB-CURRICULO NACIONAL DE EDUCACION BASICAYOSHELINSARAIMAMANIS2
 
PIB PERÚ datos y análisis de los últimos años
PIB PERÚ datos y análisis de los últimos añosPIB PERÚ datos y análisis de los últimos años
PIB PERÚ datos y análisis de los últimos añosEstefaniaRojas54
 
Las mujeres más ricas del mundo (2024).pdf
Las mujeres más ricas del mundo (2024).pdfLas mujeres más ricas del mundo (2024).pdf
Las mujeres más ricas del mundo (2024).pdfJC Díaz Herrera
 
triptico-de-las-drogas en la adolescencia
triptico-de-las-drogas en la adolescenciatriptico-de-las-drogas en la adolescencia
triptico-de-las-drogas en la adolescenciaferg6120
 
Premios_nobel_por_grupo_racial_ (2024).pdf
Premios_nobel_por_grupo_racial_ (2024).pdfPremios_nobel_por_grupo_racial_ (2024).pdf
Premios_nobel_por_grupo_racial_ (2024).pdfJC Díaz Herrera
 
Presentacion-Prevencion-Incendios-Forestales.pdf
Presentacion-Prevencion-Incendios-Forestales.pdfPresentacion-Prevencion-Incendios-Forestales.pdf
Presentacion-Prevencion-Incendios-Forestales.pdfDodiAcuaArstica
 
Cuáles son las características biológicas que están marcadas en tu individual...
Cuáles son las características biológicas que están marcadas en tu individual...Cuáles son las características biológicas que están marcadas en tu individual...
Cuáles son las características biológicas que están marcadas en tu individual...israel garcia
 
Países por velocidad de sus misiles hipersónicos (2024).pdf
Países por velocidad de sus misiles hipersónicos  (2024).pdfPaíses por velocidad de sus misiles hipersónicos  (2024).pdf
Países por velocidad de sus misiles hipersónicos (2024).pdfJC Díaz Herrera
 
Las marcas automotrices con más ventas de vehículos (2024).pdf
Las marcas automotrices con más ventas de vehículos (2024).pdfLas marcas automotrices con más ventas de vehículos (2024).pdf
Las marcas automotrices con más ventas de vehículos (2024).pdfJC Díaz Herrera
 
Posiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdf
Posiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdfPosiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdf
Posiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdfJC Díaz Herrera
 
Novelas Turcas vs Series de EUA en audiencia (2024).pdf
Novelas Turcas vs Series de EUA en audiencia  (2024).pdfNovelas Turcas vs Series de EUA en audiencia  (2024).pdf
Novelas Turcas vs Series de EUA en audiencia (2024).pdfJC Díaz Herrera
 
INTRODUCCION-A-LOS-ALGORITMOS-BASICOS.pptx
INTRODUCCION-A-LOS-ALGORITMOS-BASICOS.pptxINTRODUCCION-A-LOS-ALGORITMOS-BASICOS.pptx
INTRODUCCION-A-LOS-ALGORITMOS-BASICOS.pptxJamesHerberthBacaTel
 
Análisis de datos en acción: Optimizando el crecimiento de Cyclistic
Análisis de datos en acción: Optimizando el crecimiento de CyclisticAnálisis de datos en acción: Optimizando el crecimiento de Cyclistic
Análisis de datos en acción: Optimizando el crecimiento de CyclisticJamithGarcia1
 
La importancia de las pruebas de producto para tu empresa
La importancia de las pruebas de producto para tu empresaLa importancia de las pruebas de producto para tu empresa
La importancia de las pruebas de producto para tu empresamerca6
 
Panorama Sociodemográfico de México 2020: GUANAJUATO
Panorama Sociodemográfico de México 2020: GUANAJUATOPanorama Sociodemográfico de México 2020: GUANAJUATO
Panorama Sociodemográfico de México 2020: GUANAJUATOJuan Carlos Fonseca Mata
 
Los_países_con_la_mayor_cantidad_de_rascacielos (2023).pdf
Los_países_con_la_mayor_cantidad_de_rascacielos (2023).pdfLos_países_con_la_mayor_cantidad_de_rascacielos (2023).pdf
Los_países_con_la_mayor_cantidad_de_rascacielos (2023).pdfJC Díaz Herrera
 

Último (20)

Reservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdf
Reservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdfReservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdf
Reservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdf
 
presentacion de conjuntos para primaria.ppt
presentacion de conjuntos para primaria.pptpresentacion de conjuntos para primaria.ppt
presentacion de conjuntos para primaria.ppt
 
PANTEÓN DE Paris en historia de la arquitectura
PANTEÓN DE Paris en historia de la arquitecturaPANTEÓN DE Paris en historia de la arquitectura
PANTEÓN DE Paris en historia de la arquitectura
 
Evolución de la fortuna de la familia Slim (1994-2024).pdf
Evolución de la fortuna de la familia Slim (1994-2024).pdfEvolución de la fortuna de la familia Slim (1994-2024).pdf
Evolución de la fortuna de la familia Slim (1994-2024).pdf
 
CNEB-CURRICULO NACIONAL DE EDUCACION BASICA
CNEB-CURRICULO NACIONAL DE EDUCACION BASICACNEB-CURRICULO NACIONAL DE EDUCACION BASICA
CNEB-CURRICULO NACIONAL DE EDUCACION BASICA
 
PIB PERÚ datos y análisis de los últimos años
PIB PERÚ datos y análisis de los últimos añosPIB PERÚ datos y análisis de los últimos años
PIB PERÚ datos y análisis de los últimos años
 
Las mujeres más ricas del mundo (2024).pdf
Las mujeres más ricas del mundo (2024).pdfLas mujeres más ricas del mundo (2024).pdf
Las mujeres más ricas del mundo (2024).pdf
 
triptico-de-las-drogas en la adolescencia
triptico-de-las-drogas en la adolescenciatriptico-de-las-drogas en la adolescencia
triptico-de-las-drogas en la adolescencia
 
Premios_nobel_por_grupo_racial_ (2024).pdf
Premios_nobel_por_grupo_racial_ (2024).pdfPremios_nobel_por_grupo_racial_ (2024).pdf
Premios_nobel_por_grupo_racial_ (2024).pdf
 
Presentacion-Prevencion-Incendios-Forestales.pdf
Presentacion-Prevencion-Incendios-Forestales.pdfPresentacion-Prevencion-Incendios-Forestales.pdf
Presentacion-Prevencion-Incendios-Forestales.pdf
 
Cuáles son las características biológicas que están marcadas en tu individual...
Cuáles son las características biológicas que están marcadas en tu individual...Cuáles son las características biológicas que están marcadas en tu individual...
Cuáles son las características biológicas que están marcadas en tu individual...
 
Países por velocidad de sus misiles hipersónicos (2024).pdf
Países por velocidad de sus misiles hipersónicos  (2024).pdfPaíses por velocidad de sus misiles hipersónicos  (2024).pdf
Países por velocidad de sus misiles hipersónicos (2024).pdf
 
Las marcas automotrices con más ventas de vehículos (2024).pdf
Las marcas automotrices con más ventas de vehículos (2024).pdfLas marcas automotrices con más ventas de vehículos (2024).pdf
Las marcas automotrices con más ventas de vehículos (2024).pdf
 
Posiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdf
Posiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdfPosiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdf
Posiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdf
 
Novelas Turcas vs Series de EUA en audiencia (2024).pdf
Novelas Turcas vs Series de EUA en audiencia  (2024).pdfNovelas Turcas vs Series de EUA en audiencia  (2024).pdf
Novelas Turcas vs Series de EUA en audiencia (2024).pdf
 
INTRODUCCION-A-LOS-ALGORITMOS-BASICOS.pptx
INTRODUCCION-A-LOS-ALGORITMOS-BASICOS.pptxINTRODUCCION-A-LOS-ALGORITMOS-BASICOS.pptx
INTRODUCCION-A-LOS-ALGORITMOS-BASICOS.pptx
 
Análisis de datos en acción: Optimizando el crecimiento de Cyclistic
Análisis de datos en acción: Optimizando el crecimiento de CyclisticAnálisis de datos en acción: Optimizando el crecimiento de Cyclistic
Análisis de datos en acción: Optimizando el crecimiento de Cyclistic
 
La importancia de las pruebas de producto para tu empresa
La importancia de las pruebas de producto para tu empresaLa importancia de las pruebas de producto para tu empresa
La importancia de las pruebas de producto para tu empresa
 
Panorama Sociodemográfico de México 2020: GUANAJUATO
Panorama Sociodemográfico de México 2020: GUANAJUATOPanorama Sociodemográfico de México 2020: GUANAJUATO
Panorama Sociodemográfico de México 2020: GUANAJUATO
 
Los_países_con_la_mayor_cantidad_de_rascacielos (2023).pdf
Los_países_con_la_mayor_cantidad_de_rascacielos (2023).pdfLos_países_con_la_mayor_cantidad_de_rascacielos (2023).pdf
Los_países_con_la_mayor_cantidad_de_rascacielos (2023).pdf
 

Análisis e-commerce

  • 1. Análisis descriptivo, Segmentación y Análisis de la Cesta de la Compra de un Dataset de E- commerce. Jorge Rosario Mata Máster en Inteligencia de negocio y Big Data. UOC (2016-2018) Área: Análisis de datos Nombre Profesor/a responsable de la asignatura: María Pujol Jover Fecha Entrega: 24/06/2018 Esta obra está sujeta a una licencia de Reconocimiento-NoComercial- SinObraDerivada 3.0 España de Creative Commons
  • 2. i FICHA DEL TRABAJO FINAL Título del trabajo: Análisis descriptivo, segmentación y análisis de la cesta de la compra de un dataset de e-commerce. Nombre del autor: Jorge Rosario Mata Nombre del consultor/a: Enrique Rodríguez García Nombre del PRA: Maria Pujol Jover Fecha de entrega (mm/aaaa): 06/2018 Titulación:: Máster en Inteligencia de Negocio y Big Data Área del Trabajo Final: Análisis de datos Idioma del trabajo: Español Palabras clave Data mining marketing, e-commerce, Market Basquet Analysis Resumen del Trabajo El principal objetivo del presente trabajo ha sido la realización de un estudio de transacciones comerciales de un e-commerce durante un periodo de aproximadamente un año, el 2011. El dataset se ha obtenido de la plataforma Kaggle. En una primera parte del trabajo se habla del e-commerce, su penetración y sus tendencias. En una segunda parte se aborda el análisis del dataset en cinco fases principales: Una fase de transformación de los datos en el que se reduce el número de registros aproximadamente en un 30%. Una fase en la que se enriquece artificialmente el dataset categorizando los artículos que se vende en el e-commerce además de un margen de beneficio. Una fase en la que se realiza un análisis descriptivo del dataset desde el punto de vista temp0oral, de los artículos, de los clientes, de las transacciones, de las familias y de los márgenes de beneficios, en la que descubrimos que los juegos de té son los artículos más demandados y noviembre el mes con mayor número de transacciones. Una fase en la que se realiza un análisis RFM( Recency Frecuency, Monetary) sobre el comportamiento de los consumidores en los que se diferencian 125 segmentos.
  • 3. ii Una última fase en la que se realiza un análisis de la cesta de la compra obteniendo las principales reglas de asociación entre los diferentes artículos de la cesta con el uso del algoritmo A priori. Abstract The main objective of this work has been the realization of a study of the commercial transactions of an e-commerce during a period of approximately one year, 2011. The dataset has been obtained from the Kaggle platform. In the first part of the work, it talks about e-commerce, its penetration and its tendencies. In a second part, the dataset analysis is addressed in five main phases: A phase of transformation of the data in which the number of records is reduced by approximately 30%. A phase in which the dataset is artificially enriched by categorizing the items sold in the e-commerce as well as a profit margin. A phase in which a descriptive analysis of the dataset is made from the temporal point of view, of the articles, of the clients, of the transactions, of the families and of the profit margins, in which we discovered that the Tea sets are the most demanded items and November the month with the highest number of transactions. A phase in which an RFM analysis (Recency Frequency, Monetary) of the behavior of consumers in which 125 segments are differentiated. A final phase in which an analysis of the shopping basket is made, obtaining the main rules of association between the different items in the basket with the use of the A priori algorithm.
  • 4. iii Contenido 1. Introducción.................................................................................................... 6 1.1 Contexto y justificación del Trabajo...................................................... 6 1.1.1 E-commerce.......................................................................................... 6 1.1.2 Segmentación de mercados.............................................................. 10 1.1.3 Análisis de la cesta de la compra (Market Basket analysis)........... 11 1.2 Objetivos del Trabajo............................................................................ 12 1.3 Enfoque y método seguido .................................................................. 12 1.4 Planificación del Trabajo ...................................................................... 13 1.5 Breve sumario de productos obtenidos.............................................. 14 1.6 Breve descripción de los otros capítulos de la memoria .................. 14 2. Estado del arte ............................................................................................. 15 3. Resultados ................................................................................................... 18 3.1 Preparación y descripción del conjunto de datos.............................. 18 3.2 Enriquecimiento del dataset............................................................. 23 3.3 Análisis Visual descriptivo del conjunto resultante. ..................... 23 3.4. Análisis RFM/Segmentación de clientes............................................ 30 3.5 Análisis de la cesta de la compra ........................................................ 38 4. Conclusiones................................................................................................ 41 Trabajos futuros. ......................................................................................... 42 5. Glosario........................................................................................................ 43 6. Bibliografía ................................................................................................... 44 7. Anexos ......................................................................................................... 45
  • 5. Lista de figuras Figura 1. Crecimiento global de ventas en e-commerce. (Ecommerce.org, 2016) .....................................7 Figura 2. Cuota de mercado en ventas e-commerce. (Ecommerce.org, 2016)...........................................7 Figura 3. “Top Ten” Gasto promedio por E-Shopper (Ecommerce.org, 2016)..............................................8 Figura 4. Evolución de la cifra de negocio del comercio electrónico B2C en España en millones de euros. (ONTSI, 2016)................................................................................................................................................8 Figura 5. Evolución del número de internautas Vs internautas compradores(%) (ONTSI, 2016) .................9 Figura 6. Tabla que recoge la evolución del gasto promedio total de los internautas compradores durante el periodo 2007 – 2016.................................................................................................................................9 Figura 7. Bienes y Servicios comprados por internet en España en 2016 (%). (ONTSI, 2016)......................9 Figura 8. Tabla de fuentes y variables consideradas sobre segmentaciones. Elaboración propia a partir de (Paula Rodriguez Torrico, 2012). ................................................................................................................16 Figura 9. Diagrama de cajas de la variable Quantity antes de la limpieza de datos..................................20 Figura 10 Histograma de la variable Quantity antes de la limpieza...........................................................20 Figura 11 Diagrama de caja de la variable 'Quantity' después de limpiar los datos..................................21 Figura 12 Histograma de la variable 'Quantity después de limpiar los datos' ...........................................22 Figura 13 Número de Pedidos por mes.......................................................................................................24 Figura 14 Número de pedidos por día de la semana..................................................................................24 Figura 15 Pedidos por familia.....................................................................................................................25 Figura 16. Unidades vendidas por familia de artículos...............................................................................25 Figura 17 Evolución ventas en libras ..........................................................................................................26 Figura 18. Beneficio por familia..................................................................................................................26 Figura 19 Porcentajes de órdenes de compra por país...............................................................................27 Figura 20 Número pedidos según hora del día...........................................................................................27 Figura 21 Artículos más demandados ........................................................................................................28 Figura 22. Top pedidos por margen en libras. ............................................................................................28 Figura 23. TOP IDs de clientes más rentables.............................................................................................29 Figura 24. Beneficios acumulados por mes estudiado................................................................................29 Figura 25 Mapa de calor de la segmentación RFM por compras totales por segmento............................31 Figura 26 Gráfico descriptivo de los segmentos hallados mediante RFM ..................................................32 Figura 27 Top segmentos por la compra media de sus integrantes...........................................................33 Figura 28 Miembros por segmento vs gasto medio por segmento ............................................................33 Figura 29 Variables descriptivas de la recencia..........................................................................................34 Figura 30. Variables descriptivas para la frecuencia..................................................................................34 Figura 31. Variables descriptivas para el monto. .......................................................................................35 Figura 32 Histograma sobre el número de transacciones ..........................................................................35 Figura 33 Relación entre Recencia y Monto ...............................................................................................36 Figura 34 relación entre Frecuencia y Monto.............................................................................................36 Figura 35 Relación entre Recencia y Frecuencia.........................................................................................37 Figura 36 Breve propuesta de clasificación según puntuación RFM ..........................................................37 Figura 37 Representación tabular de algunas reglas .................................................................................38 Figura 38 Representación en forma de gráfico de red de algunas reglas ..................................................39 Figura 39 Representación de la dispersión de las reglas resultantes .........................................................40
  • 6. “Hoy en día hay que correr más para estar en el mismo lugar” Philip Kloter.
  • 7. TFM. Máster en Inteligencia de Negocio y Big Data - 2016 -2018. Jorge Rosario Mata 6 1. Introducción 1.1 Contexto y justificación del Trabajo En el marco del máster Inteligencia de negocio y Big data de la UOC y para la última asignatura del mismo se ha optado a partir de un fichero de e- commerce, en concreto el e-Commerce de Kaggle, realizar el trabajo fin de master, TFM. Se trata de un archivo con más de medio millón de filas y 8 columnas del que esperamos hacer diversos análisis segmentaciones de clientes todos ellos en el campo del data mining marketing. En primer lugar hablaremos de e-commerce con la intención de poner en foco su relevancia presente y futura. En segundo lugar hablaremos de segmentación de mercados. Finalmente en un tercer punto hablaremos del análisis de la cesta de la compra y su utilidad en marketing. 1.1.1 E-commerce. El e-commerce o electronic commerce consiste en la compra de productos y/o servicios a través de medios electrónicos como internet con el soporte de dispositivos tales como ordenadores, teléfonos inteligentes o tablets ( en este caso es conocido como m-commerce o mobile commerce). Existen diferentes tipos de Ecommerce siendo el más relevante el B2C: - B2C Bussines to Consummer, venta directa - B2B Business to Business, venta directa entre empresas - C2C Consumer to Consumer, comercio entre particulares, puede ser subasta, venta directa o anuncios clasificados. - G2C Goverment to Consumer, cualquier tipo de transacción gubernamental que nos permita hacer pagos online a través de su sistema - P2P Peer to Peer, relación entre pares. Es un sistema de red donde los archivos se reparten entre distintos terminales y los usuarios acceden a uno u otro mediante un servidor central. Según el estudio de (Ecommerce.org, 2016) el uso del e-commerce en un país viene modelado por variables como: logística y comunicaciones, producto interior bruto, penetración de internet,tamaño y edad de la población, uso de dispositivos conectados, inflación del país o tasa de desempleo. Las ventas a nivel mundial en ecommerce crecen año tras año y el porcetanje de crecimiento para los datos del informe es de dos dígitos tal como podemos apreciar en la siguiente figura:
  • 8. TFM. Máster en Inteligencia de Negocio y Big Data - 2016 -2018. Jorge Rosario Mata 7 Figura 1. Crecimiento global de ventas en e-commerce. (Ecommerce.org, 2016) El “top ten” de países en cuota de mercado en e-commerce en el año 2015 estaba encabezado por China con una cuota del 33,7 % (con un incremento del 5,6 % respecto al año anterior) seguido de USA con una cuota del 26,2 %. En Europa el país dominante es El Reino Unido con una cuota del 7,7 %. Podemos apreciar en la siguiente figura que Reino Unido es además el país donde el gasto promedio por usuario es mayor. Es destacable que los usuarios Chinos gasten más que usuarios Alemanes o Japoneses cuyos países tienen unas rentas per cápita mayores. Figura 2. Cuota de mercado en ventas e-commerce. (Ecommerce.org, 2016)
  • 9. TFM. Máster en Inteligencia de Negocio y Big Data - 2016 -2018. Jorge Rosario Mata 8 Respecto a la situación española y según el informe “Estudio sobre el comercio electrónico en España·B2C” (ONTSI, 2016), la evolución del volumen de ventas de comercio electrónico B2C también ha sufrido un incremento muy importante año tras año tal como apreciamos en la siguiente figura: Figura 4. Evolución de la cifra de negocio del comercio electrónico B2C en España en millones de euros. (ONTSI, 2016) El estudio también muestra la evolución de internautas y la de internautas compradores además de la del gasto promedio por iternauta comprador ( e-shopper). Figura 3. “Top Ten” Gasto promedio por E-Shopper (Ecommerce.org, 2016)
  • 10. TFM. Máster en Inteligencia de Negocio y Big Data - 2016 -2018. Jorge Rosario Mata 9 Figura 5. Evolución del número de internautas Vs internautas compradores(%) (ONTSI, 2016) Tal y como podemos apreciar el aumento del volumen de compra ha estado presente en prácticamente todos los años. El abanico de transacciones llevabas a cabo a través del comercio electrónico abarca desde reservas de hoteles, compra de libros, ocio o joyería: Figura 7. Bienes y Servicios comprados por internet en España en 2016 (%). (ONTSI, 2016) Figura 6. Tabla que recoge la evolución del gasto promedio total de los internautas compradores durante el periodo 2007 – 2016.
  • 11. TFM. Máster en Inteligencia de Negocio y Big Data - 2016 -2018. Jorge Rosario Mata 10 Dando por introducida y justificada la relevancia del comercio electrónico a nivel nacional y pasamos a hablar de quienes y como conocer a aquellos hacen posible que existan las empresas en cualquiera de sus formas: los clientes. 1.1.2 Segmentación de mercados. Una definición de qué o quiénes son los clientes podría ser la siguiente. “Los clientes son aquellas personas, entidades o empresas que adquieren los bienes o servicios brindados por otra y son sin duda el elemento más importante para cualquier empresa.” Casi nadie dudará de que el conocimiento en mayor o menor medida de los mismos debe estar en la hoja de ruta de cualquier organización. Según (Valiñas, 2009) (pág9): “…debido a que cada ser humano es único y distinto y por ende lo serán sus gustos y sus compras, sí se pueden hacer grupos de personas o segmentos que tengan gustos y preferencias parecidos”. La mercadotecnia es precisamente la disciplina que ayuda a las empresas a navegar en esta dirección siendo la Segmentación de Mercados1, la herramienta que trata de conformar grupos de consumidores lo más homogéneos posible mediante la aplicación de diversas técnicas. La segmentación de mercados brinda algunas ventajas tales como: - Certidumbre en el tamaño del mercado. - Claridad al establecer planes de acción - Identificación de los consumidores integrantes del mercado - Reconocimiento de actividades y deseos del consumidor - Simplificación en la estructura de marcas - Facilidad para la realización de actividades promocionales - Simplicidad para planear Para segmentar un mercado será necesario utilizar unas variables que nos ayudaran a definir el segmento del mercado de forma más clara y precisa. Las más habituales son: - Variables demográficas: edad, sexo, nivel socioeconómico, estado civil, nivel académico, religión… - Variables geográficas: País de residencia, condiciones geográficas, raza, tipo de población… - Variables Psicográficas: Grupos de referencia, clase social, personalidad, cultura, ciclo de vida familiar, motivos de compra… - Variables de posición de usuario o de uso: frecuencia de uso, tasa de uso, lealtad, disposición de compra… - Análisis RFM (Recency, Frequency, Monetary) Segmentar a los clientes en funcion de lo reciente de sus compras en función del número de días de su última 1 Entenderemos Mercado desde el punto de vista del marketing y que podemos definir como el conjunto de clientes actuales o potenciales de un determinado producto o servicio.
  • 12. TFM. Máster en Inteligencia de Negocio y Big Data - 2016 -2018. Jorge Rosario Mata 11 compra, la frecuencia de sus compras considerando el número de compras en un periodo de tiempo y también por el Monto de las compras. - Segmentaión en función de la rentabilidad del cliente. - Segmentación por artículos consumidos consumidos o familias de artículos. Las variables anteriores pueden ser consideradas en análisis cualitativos y cuantitativos cuando se disponga de datos históricos de n individuos de los cuales se han observado m caracteristicas mediante técnicas de clustering y clasificación de minería de datos. Notese que por procedimientos equivalentes y redefiniendo algunas variables se puede hacer segmentación de mercados industriales. La propia naturaleza y ecosistema de las transacciones comerciales online e internet facilitan la captura de datos tanto propios de los clientes como de su comportamiento frente a un e-commerce para su posterior análisis. Entre otros muchos se pueden recoger datos para hacer segmentación y clasificación, y así ganar en conocimiento de los mismos,de unos de clientes cada vez más informados y mejor preparados. En este TFM y en lo referente a segmentación y clasificación trataremos además de hacer un análisis descriptivo de el dataset, segmentar los clientes mediante algún análisis RFM y de rentabilidad. 1.1.3 Análisis de la cesta de la compra (Market Basket analysis) Conocido en minería de datos como el Association Discovery del retail tiene como objetivo conocer que asociaciones de artículos se compran juntos habitualmente o con más frecuencia que otras asociaciones de artículos. Entre sus utilidades destacarían tanto para tiendas físicas como para e- commerce el posicionamiento de productos en el lineal sea real o virtual, la selección de surtido, la elaboración de ofertas y promociones o las ventas cross-selling. Este tipo de análisis también tiene aplicaciones en otros campos como el sanitario para identificar factores de riesgo en la aparición o complicación de enfermedades. En la práctica se utilizan algoritmos de asociación tales como: Algoritmo a Priori o el Algoritmo FP-Growth. En lo referente a nuestro trabajo realizaremos un Market Basket Analysis del que extraeremos las principales reglas de asociación de nuestro dataset.
  • 13. TFM. Máster en Inteligencia de Negocio y Big Data - 2016 -2018. Jorge Rosario Mata 12 1.2 Objetivos del Trabajo 1- Enriquecer el dataset mediante la adición de categorias, márgenes y niveles superiores de agregación. 2- Realizar un análisis descriptivo de los hábitos de compra por cliente. 3- Realizar segmentaciones de clientes. 4- Realizar análisis de la cesta de la compra. 1.3 Enfoque y método seguido La metodología escogida será la aplicación de una suerte de metodología CRISP – DM (Roig, 2016) ad hoc inmersa en un proceso iterativo de revisión y mejora que podría ser la siguiente: 1. Justificación de los objetivos. 2. Comprensión de los datos: a. primera exploración b. significado c. calidad. 3. Preparación de datos: descripción de datos a. selección de datos b. limpieza de datos c. formateo de datos si procede. d. construcción de posibles atributos derivados e. integración de datos con otros conjuntos para su enriquecimiento 4. Modelado: a. Selección de técnicas de modelado b. informe de análisis c. Construcción de modelos de segmentado y análisis de la cesta de la compra 5. Evaluación de resultados: a. Resultados b. Utilidad/ aplicaciones de los resultados para el negocio 6. Conclusiones. 7. Elaboración y edición de los documentos finales.
  • 14. TFM. Máster en Inteligencia de Negocio y Big Data - 2016 -2018. Jorge Rosario Mata 13 1.4 Planificación del Trabajo Fechadeinicio:14/03/2018Fechafin:03/04/2018 LMXJVSDLMXJVSDLMXJVSDLMXJVSDLMXJVSDLMXJVSD PEC1 1.1Decisióndelalineadetrabajoydeldatasetaanalizar 1.2Redaccióndelapropuestadelproyectoyplanificacióntemporal Fechadeinicio:04/04/2018Fechafin:30/04/2018 LMXJVSDLMXJVSDLMXJVSDLMXJVSDLMXJVSDLMXJVSD PEC2 2.1 2.2 2.3 2.4 2.5 2.6 2.7 Fechadeinicio:01/05/2018Fechafin:04/06/2018 LMXJVSDLMXJVSDLMXJVSDLMXJVSDLMXJVSDLMXJVSD PEC3 3.1 3.2 3.3 3.4 3.5 Fechadeinicio:05/06/2018Fechafin:25/06/2018 LMXJVSDLMXJVSDLMXJVSDLMXJVSDLMXJVSDLMXJVSD 4 4.1 4.2 4.3 Fechainicio:03/07/2018Fechafin:10/07/2018 LMXJVSDLMXJVSDLMXJVSDLMXJVSDLMXJVSDLMXJVSD 5 RedaccióndelTFMenversiónpresentación Defensaanteeltribunal Primeraversióndelamemoria Revisióndelapropuestainicial Esbozoderesultadosyprimerasconclusiones Entregafinal Reconsideraionesfinales RedaciónypulidodelTFM Búsquedadedatosodesarrollodeunaoperativaparaelenriquecimientodeldataset Primeranálisisdescriptivodehábitosdecompra Investigaciónyestudiodelametodologíaexistentepararealizarsegmentaciones Desarrolloprimerasegmentacióndeclientes Investigaciónyestudiodelametodologíaexistenteenelanálisisdelacestadelacompra Desarrolloprimeranálisisdecestadelacompra 2018-282018-272018-262018-242018-232018-25 2018-282018-272018-262018-242018-232018-25 2018-232018-222018-212018-192018-182018-20 2018-192018-182018-172018-162018-152018-14 ESTRUCTURADELAMEMORIA 2018-162018-152018-142018-132018-112018-12 Investigaciónyestudiodelametodologíaexistenteparaelanálisisdescriptivodehábitosdecompra Mejoradelanálisisdescriptivodelacestadelacompradesarrolladodurantelafaseanterior:revisión deobjetivos,redimensionado,rediseño,profundización,leccionesaprendidas. Mejoradelasegmentacióndeclientesdesarrolladadurantelafaseanterior:revisióndeobjetivos, redimensionado,rediseño,profundización,leccionesaprendidas. Mejoradelanálisisdelacestadelacompradesarrolladodurantelafaseanterior:revisióndeobjetivos, redimensionado,rediseño,profundización,leccionesaprendidas. SELECCIÓNDELTRABAJOYPROPUESTAINICIAL
  • 15. TFM. Máster en Inteligencia de Negocio y Big Data - 2016 -2018. Jorge Rosario Mata 14 1.5 Breve sumario de productos obtenidos Teniendo en cuenta la metodología, los objetivos y el dataset con el que se ha trabajado, los resultados que se han obtenido son los siguientes: 1- Preparación del conjunto de datos y descripción. Se ha trabajado con el data set original y se han ido un proceso de adecuación del conjunto de datos para poder trabajar con el de una manera más adecuada a nuestros objetivos. 2- Análisis descriptivo del dataset. 3- Segmentación y análisis RFM de los clientes. Debido a que no disponíamos de variables tradicionales de segmentación se ha optado por este tipo de segmentación que se basa principalmente en los hábitos de compra a partir de transacciones. 4- Análisis de la cesta de la compra. Se ha realizado un análisis de la cesta de la compra utilizando el algoritmo Apriori del paquete Arules de R además de algunas representaciones gráficas de estas reglas. 1.6 Breve descripción de los otros capítulos de la memoria En el capítulo 2º se habla del estado del arte. Tras una breve introducción se detallan numerosas obras relacionadas con la segmentación de clientes e-shoppers vía online o móvil, además de herramientas disponibles en la web bien libres bien propietarias de las que pueden hacer uso los propietarios de un e-commerce para realizar análisis de datos de sus negocios. Se proporciona también por un lado una lista de algoritmos de agrupación y por otro un listado de algoritmos de análisis de la cesta de la compra, ambos con algoritmos actualmente utilizados. En el tercer capítulo se habla de los 5 productos principales obtenidos. Siempre bajo el amparo del lenguaje de programación R, en primer lugar se ofrece una metodología comentada de preparación de datos en línea de la propuesta en este primer capítulo, CRISP-DM. En tercer lugar consiste en un análisis descriptivo de los datos principalmente visual. La cuarta parte consiste en un análisis RFM (Recency, Frecuency, Monetary) que hace una propuesta de segmentación de clientes en función de sus hábitos de compra. El quinto producto principal obtenido es un análisis de la cesta de la compra y la presentación de las principales reglas obtenidas. En el 4º capítulo se exponen las principales conclusiones obtenidas del presente trabajo y un análisis crítico del mismo exponiendo las limitaciones propias y escollos encontrados además de tratar las futuras líneas de investigación. El 5º capítulo es un glosario de terminología utilizada en el presente trabajo. El 6º y 7º capítulos tratan de la bibliografía referenciada y de los anexos a este trabajo respectivamente.
  • 16. TFM. Máster en Inteligencia de Negocio y Big Data - 2016 -2018. Jorge Rosario Mata 15 2. Estado del arte El paradigma propio del e-commerce y sus diferencias con el modelo tradicional hacen muy recomendable la reorientación de las segmentaciones en marketing. Aquellas 4Ps postuladas por McCarty en 1960 para el marketing mix: Product, Price, Promotion y Place prácticamente desaparecen en el comercio electrónico y parece ser que van a ser reemplazadas por las 4Cs: Customer Value, Cost, Convenience y Communication. Además de las variables “clásicas” para segmentar tales como las demográficas, geográficas o psicográficas han surgido otras nuevas tales como el uso que hacen los individuos de internet, la geolocalización, el dispositivo a través del cual se conectan o la configuración del mismo. En la literatura existen no pocos trabajos que realizan segmentaciones de e-shoppers según las diferentes variables consideradas: Fuente/Perfil Variables consideradas Context o (KAU, 2003) - Comprador on-off - Dual - Comparador - Rezagado - Tradicional -Buscador de información - Género - Edad - Experiencia - Actitudes - Información - Online (SWINYARD, 2003) - Los amantes de las compras - Los exploradores aventureros - Estudiantes sospechosos - Los usuarios empresariales - Estilo de vida - Online (ROHM, 2004) - Comprador de conveniencia - Buscador de variedad - Comprador equilibrado - Comprador orientado a la tienda - Beneficios buscados: conveniencia - Señales percibidas: riesgo en ingresos - Online (BHATNAGAR, 2004b) - Los que observan un alto riesgo en los productos y de seguridad - Los que tienen un moderado riesgo en el producto y bajo riesgo de seguridad - Los que presentan un bajo riesgo de producto y el riesgo de seguridad es moderado - Señales percibidas: riesgo en ingresos y riesgo en costes - Online (BIGNÉ, 2005) - Edad, ingresos, géneros , experiencia (JAYAWARDHENA, 2007) Compradores activos Sensibles a los precios Los compradores más exigentes Leales a la marca Orientación de la compra( lealtad, activo, inactivo, precio y conveniencia) Online
  • 17. TFM. Máster en Inteligencia de Negocio y Big Data - 2016 -2018. Jorge Rosario Mata 16 Orientado hacia la comodidad (BARNES, 2007) - Los escépticos con aversión al riesgo - Compradores online de mente abierta - Reservados que buscan información Personalidad Online (RUIZ, 2006) Edad, ingresos, nivel de estudios personalidad(implicación), señales percibidas: riesgos en los ingresos Online (JIMÉNEZ TORRES, 2010) - Prácticos - Indiferentes - Desconfiados Señales percibidas: Independientes y contingentes a la venta Móvil (ALJUKHADAR, 2011) - Los comunicadores - Los compradores al acecho - Los sociales Usos de internet Online (PASCUAL DEL RIQUELME, 2011) - Desconfiados en general - Los que (específicamente) desconfían de la venta tradicional - Los que (específicamente) desconfían de la venta en internet Valores, personalidad ( aversión al riesgo), desconfianza Online (LIMA-FILHO, 2012) - Controlados - Compradores - Jóvenes - Compradores básicos - Compradores convencionales Género, edad, ingresos, personalidad Online (PRODANOVA, 2012) - Escépticos - Reflexivos - Prácticos Personalidad, confianza, señales percibidas Online Figura 8. Tabla de fuentes y variables consideradas sobre segmentaciones. Elaboración propia a partir de (Paula Rodriguez Torrico, 2012). Cabe destacar que pese a la multitud de variables puestas a consideración para realizar segmentaciones no siempre es sencillo o razonable para las empresas realizar segmentaciones en base a ellas al menos en el corto o
  • 18. TFM. Máster en Inteligencia de Negocio y Big Data - 2016 -2018. Jorge Rosario Mata 17 medio plazo bien por razones técnicas, bien por la subjetividad de algunas de ellas. No obstante para este canal de ventas existe el llamado “Behabioural Targeting” que consiste en el análisis de pautas de navegación e interacción en un e-commerce por parte de sus visitantes. Como apoyo a los e-commerce existen herramientas online que pueden ayudar en esta dirección, que ayudan en tiempo real o prácticamente en tiempo real, tales como: Google Analytics, Piwik, The Webalizer, KissMetrics, Cliky,Woopra,OpenWeb Analytics, o W3Counter. Pueden ser bien de pago o bien gratuitas, más o menos sencillas de instalar o manejar pero todas ellas aportan en mayor o menor medida gráficos y estadísticas sobre las búsquedas, conexiones, palabras buscadas, fuentes de tráfico, etc. de los visitantes de la web. Desde un punto de vista más avanzado se pueden utilizar técnicas estadísticas de análisis clúster también llamado clustering, análisis de conglomerados o clasificación no supervisada. Estas técnicas intentan formar a partir de un conjunto de individuos, subgrupos relativamente homogéneos y lo más heterogéneos posible entre ellos en función de alguna distancia o función matemática. Una posible clasificación no exhaustiva de estas técnicas podría ser la siguiente (Fernández, 2011): - Métodos Jerárquicos: oAsociativos o aglomerativos:  Simple Linkage ( vecino más próximo)  Complete linkage (vecino más lejano)  Promedio entre grupos  Método del centroide  Método de la mediana  Método de Ward oDisociativos:  Linkage Simple  Linkage Completo  Promedio entre grupos  Método del centroide  Método de la mediana  Método de Ward  Análisis de asociación - Métodos no jerárquicos: oReasignación  K- medias  Nubes dinámicas oBúsqueda de densidad  Análisis modal  Métodos Taxap  Método Fortin  Método de Wolf oMétodos directos: Block clustering oMétodos reductivos: Análisis factorial tipo Q.
  • 19. TFM. Máster en Inteligencia de Negocio y Big Data - 2016 -2018. Jorge Rosario Mata 18 El análisis de la cesta de la compra que entraría en las llamadas técnicas de asociación. Estas son técnicas estadísticas que permiten descubrir hechos que ocurren en común dentro de un conjunto de datos. Es un método descriptivo que se utiliza con datos nominales. Algunos de los algoritmos más utilizados son: - Algoritmo A priori - GSP - FP-Growth - E- A priori - EH-A priori - FITI - Gen-FCE - Gen-REAR - MINEPI - MOWCATL - ITARM Existen además y concretamente para este conjunto de datos con calidades variables, algunos en R, otros en RMarkDown y otros en Phyton, en la plataforma Kaggle, diversos análisis puestos al servicio de su comunidad de usuarios. Generalmente se tratan de análisis descriptivos segmentaciones, ACPs y predicciones de demanda: https://www.kaggle.com/carrie1/ecommerce-data/kernels 3. Resultados 3.1 Preparación y descripción del conjunto de datos. Los datos provienen del dataset “E-commerce de kaggle” y son parte de las transacciones de un e-commerce de UK. Los datos se presentan en formato “.csv” y se pueden obtener desde: https://www.kaggle.com/carrie1/ecommerce-data El conjunto de datos presenta 8 atributos y 541909 instancias InvoiceNo: número de factura. Nominal, un número integral de 6 dígitos asignado de forma única a cada transacción. Si este código comienza con la letra 'c', indica una cancelación. StockCode: código del producto (artículo). Nominal, un número integral de 5 dígitos asignado de manera única a cada producto distinto. Description: Nombre del producto. Nominal. Quantity: las cantidades de cada producto (artículo) por transacción. Numérico. InvoiceDate: fecha y hora de la factura. Numérico, el día y la hora en que se generó cada transacción.
  • 20. TFM. Máster en Inteligencia de Negocio y Big Data - 2016 -2018. Jorge Rosario Mata 19 UnitPrice: precio unitario. Numérico, precio del producto por unidad en libras esterlinas. CustomerID número de cliente. Nominal, un número integral de 5 dígitos asignado de forma exclusiva a cada cliente. Country: nombre del país. Nominal, el nombre del país donde reside cada cliente Respecto a la calidad de los datos realizaremos algunas puntualizaciones: - En el Campo “StockCode”, no siempre se cumple que sea un código alfanumérico. Existen excepciones en el código de producto: “Bank charges”,C2“,”D“,”DOT“,”M“,”POST“,”S" o “PAD” que parecen responder a otros criterios como descuentos a los clientes, gastos de envío, gastos bancarios, etc. - Los formatos de los datos no son los más convenientes. - Existen más de 135000 registros con valores NA. - Explorando visualmente la tabla de datos el campo “Descripction” parece justificar el porqué no tienen el “CustomerID” parece ser que se corresponden con movimientos de stock de los artículos que no corresponden ni a ventas ni a devoluciones que no han sido recogidos en el campo “StockCode”. - El campo InvoiceNo recoge tanto los pedidos efectivamente enviados como los cancelados, añadiéndoles una C al principio del número para indicar la cancelación. - Existen además 5268 registros duplicados. - A la vista de una exploración visual de los datos vemos que probablemente existen algunos valores anormales (outliers) para la variable “quantity” a los que tendremos que darles algún tratamiento. Los más extremos parecen corresponderse con errores en las cantidades pedidas puesto que llevan aparejadas cancelaciones. Aunque estos no afectarán a la media, sí lo harán a otras medidas de dispersión. - En este diagrama de cajas podemos observar lo comentado respecto a la variable “quantity”: existen valores muy alejados de lo que parece ser la media. Además estos valores parecen simétricos por debajo y por arriba del cero. Esto nos hace sospechar que posiblemente se trate de algún error.
  • 21. TFM. Máster en Inteligencia de Negocio y Big Data - 2016 -2018. Jorge Rosario Mata 20 - Figura 9. Diagrama de cajas de la variable Quantity antes de la limpieza de datos. - Histograma con 10 clases: Figura 10 Histograma de la variable Quantity antes de la limpieza.
  • 22. TFM. Máster en Inteligencia de Negocio y Big Data - 2016 -2018. Jorge Rosario Mata 21 A fin de realizar mejoras en la calidad de los datos y poder utilizarlos de forma más segura decidimos tomar algunas acciones sobre ellos (básicamente de limpieza de datos dudosos) tales como: - Optamos por eliminar aquellos registros cuyo StockCode no es un código de 5 números tal como reza la descripción. Número de registros restantes: 539031 - Optamos por eliminar los registros con el campo CustomerID vacío ya que concluimos que se trata de movimientos de stock no atribuibles a movimientos reales de ventas. Número de registros restantes:404909 - Optamos por eliminar también los duplicados: Número de registros restantes: 399689 - Realizamos algunas acciones de formateo de datos Qué es un outlier no es una cuestión banal. Optamos por calificar como outliers aquellos valores de la variable que superan 2 veces el rango intercuartílico. A partir de la mediana Evidentemente aquí asumimos un riesgo y eliminaremos valores que no deberían ser eliminados. Decidimos eliminar los outliers del data set quedándonos con: 375437 registros “buenos”. Nueva breve exploración visual. Podemos observar que los rangos quedan mucho más contenidos que en el caso anterior. Figura 11 Diagrama de caja de la variable 'Quantity' después de limpiar los datos
  • 23. TFM. Máster en Inteligencia de Negocio y Big Data - 2016 -2018. Jorge Rosario Mata 22 • Figura 12 Histograma de la variable 'Quantity después de limpiar los datos' Como se ha comentado anteriormente existen ordines de pedido que posteriormente fueron canceladas. Desde nuestro punto de vista el mantener estas órdenes y sus contraórdenes no nos interesa en absoluto por lo que decidimos eliminarlas. Para comprobar si después de la limpieza efectuada todavía queda alguna orden de este tipo, lo que haremos es lo siguiente –1-Para ello primero seleccionamos las órdenes que empiezan por C(Cancellation): –2- Intentamos averiguar que registros de los que nos quedan en el dataset se corresponden con las órdenes originales de las órdenes canceladas. Estas serán aquellas con una orden de pedido igual pero sin la letra C El número de órdenes (pedidos) que cumplen estos requisitos es: 0. Ninguna. Por lo que al tratarse de devoluciones de, teóricamente ya que no están sus parejas, compras no incluidas en el conjunto elegido optamos también por eliminarlas del data set: Finalmente optamos por construir algunos atributos derivados que nos facilitaran trabajar con los datos y extraer más conocimiento de ellos. Concretamente a partir de la descomposición de la fecha de la factura podemos extraer algunos como: año, mes, día, día de la semana, o la hora, que pueden resultar interesantes para un posterior análisis:
  • 24. TFM. Máster en Inteligencia de Negocio y Big Data - 2016 -2018. Jorge Rosario Mata 23 ## InvoiceNo StockCode Description Quantity ## 1 536365 85123A WHITE HANGING HEART T-LIGHT HOLDER 6 ## 2 536365 71053 WHITE METAL LANTERN 6 ## 3 536365 84406B CREAM CUPID HEARTS COAT HANGER 8 ## 4 536365 84029G KNITTED UNION FLAG HOT WATER BOTTLE 6 ## 5 536365 84029E RED WOOLLY HOTTIE WHITE HEART. 6 ## InvoiceDate UnitPrice CustomerID Country ParteFecha ## 1 12/1/2010 8:26 2.55 17850 United Kingdom 2010-12-01 ## 2 12/1/2010 8:26 3.39 17850 United Kingdom 2010-12-01 ## 3 12/1/2010 8:26 2.75 17850 United Kingdom 2010-12-01 ## 4 12/1/2010 8:26 3.39 17850 United Kingdom 2010-12-01 ## 5 12/1/2010 8:26 3.39 17850 United Kingdom 2010-12-01 ## AnyoFactura MesFactura DiaFactura DiaSemFactura HoraFactura ## 1 2010 diciembre 1 miércoles 8 ## 2 2010 diciembre 1 miércoles 8 ## 3 2010 diciembre 1 miércoles 8 ## 4 2010 diciembre 1 miércoles 8 ## 5 2010 diciembre 1 miércoles 8 Conclusiones: Durante el proceso de preparación de datos se ha reducido significativamente el número de registros de más de 540000 a unos 375000, es decir se han descartado de una manera que entendemos razonada aproximadamente un 30% de los registros. Los motivos han sido diversos: duplicados, registros con algún campo vacío, registros que entendemos que no debían estar en este conjunto tales como movimientos de stock, correcciones o incluso pedidos realizados y cancelados y también los que hemos considerado outliers. 3.2 Enriquecimiento del dataset. Enriquecemos el conjunto “data” artificialmente para poder hacer un análisis más completo. Para ello introduciremos 8 categorías (A -H) (a las que les daremos una probabilidad de presencia de mayor a menor siguiendo una secuencia tipo Pareto: 0.4 para los A, 0.3 para los B, 0.1 para los C, 0.1 para los D, 0.05 para los E, 0.025 para los F, 0.015 para los G y 0.010 para los H ). Cada categoría llevará aparejada un margen de beneficio: A un 15%,B un 100%, C un 30%, D un 25%, E un 25%,F un 200%, G un 10% y H un 10%. Posibles alternativas a este método: la construcción de un Tesauro, consultar la base de datos original o hacer segmentaciones en función de su descripción por ejemplo mediante técnicas de Text Minning. 3.3 Análisis Visual descriptivo del conjunto resultante. Pedidos por mes: Empezaremos poniendo de manifiesto el cómo se distribuyen las ventas según el mes del año. Observamos que el mayor número de pedidos se produce hacia finales de año, durante los meses de
  • 25. TFM. Máster en Inteligencia de Negocio y Big Data - 2016 -2018. Jorge Rosario Mata 24 septiembre, octubre y noviembre, posiblemente por la cercanía de las fechas navideñas Figura 13 Número de Pedidos por mes. • Pedidos por día de la semana: En el siguiente gráfico podemos observar qué son los jueves los días de más venta y los viernes los días de menos. Además también es muy destacable que no haya ninguna venta los sábados Figura 14 Número de pedidos por día de la semana • La siguiente figura recoge el número de pedidos en los que aparece, para el periodo considerado, algún artículo de la familia correspondiente.
  • 26. TFM. Máster en Inteligencia de Negocio y Big Data - 2016 -2018. Jorge Rosario Mata 25 Figura 15 Pedidos por familia • Unidades vendidas por familia. Representa para cada familia de artículos el número de unidades de cada una de ellas el número de artículos que han sido vendidos. Notad que siguen las proporciones comentadas en su construcción. Figura 16. Unidades vendidas por familia de artículos. • Ventas por día. Mostramos la evolución de las ventas por día en libras durante el periodo considerado. Entre enero y Septiembre no parece detectarse ningún patrón. A partir de septiembre se aprecia cómo
  • 27. TFM. Máster en Inteligencia de Negocio y Big Data - 2016 -2018. Jorge Rosario Mata 26 aumentan las ventas. Figura 17 Evolución ventas en libras • Beneficio por familia. Muestra el beneficio acumulado o margen acumulado de las ventas de todos los artículos de cada familia. Figura 18. Beneficio por familia.
  • 28. TFM. Máster en Inteligencia de Negocio y Big Data - 2016 -2018. Jorge Rosario Mata 27 • Pedidos por país: Destaca y mucho el número de transacciones provenientes de UK. Le siguen Francia y Alemania, probablemente por proximidad. Figura 19 Porcentajes de órdenes de compra por país Número de pedidos por hora. Desde el punto de vista de las horas del día observamos que son las horas centrales del día en las que mayor número de transacciones se produce, alcanzando el máximo a las 12 del mediodía. También es destacable que entre las 20:00 horas y las 6:00 no se producen apenas transacciones. Figura 20 Número pedidos según hora del día
  • 29. TFM. Máster en Inteligencia de Negocio y Big Data - 2016 -2018. Jorge Rosario Mata 28 • El siguiente gráfico nos muestra los 20 artículos más vendidos. El artículo más vendido resulta ser el 85123A, “White hanging heart t-light holder”, que parece ser una especie de farolillo para velas en forma de corazón. Figura 21 Artículos más demandados • Top20 pedidos por margen o beneficio. Figura 22. Top pedidos por margen en libras.
  • 30. TFM. Máster en Inteligencia de Negocio y Big Data - 2016 -2018. Jorge Rosario Mata 29 • Top 20 clientes más rentables: Figura 23. TOP IDs de clientes más rentables. • Beneficios por mes. Figura 24. Beneficios acumulados por mes estudiado.
  • 31. TFM. Máster en Inteligencia de Negocio y Big Data - 2016 -2018. Jorge Rosario Mata 30 Conclusiones: Respecto a las ventas (en el sentido de unidades vendidas, de número de pedidos y de monto de ventas) de artículos se ha comprobado que son los jueves los días de la semana con más ventas. Respecto a los meses, octubre y noviembre han sido los meses con más ventas. Desde el punto de vista de la hora del día, ha resultado ser las horas de mediodía 11:00, 12:00 y 13:00 las horas que acaparan más ventas. Resulta especialmente llamativo que no exista ninguna venta en día sábado por lo que hemos de entender que este conjunto ha sufrido ciertos retoques antes de ser colgado en la Web. Respecto a las familias es la familia “A” la que más presencia tiene en los pedidos posiblemente porque es la más numerosa. Lo mismo pasa con las unidades vendidas por familia. Respecto al beneficio por familia destacan “B” y “G” que aportan un gran beneficio en comparación con el número de artículos que lo componente. La explicación es que en su construcción se les ha puesto un gran margen de beneficio. Respecto a los pedidos con más margen tenemos el 578305, el 580727 y el 571281 con unos “beneficios” de 3987, 3118 y 3116 libras respectivamente. - Respecto a los países es el Reino unido el que acapara la inmensa mayoría de transacciones con prácticamente el 90%. - Respecto a los artículos los más vendidos han sido el 85123A, “White hanging heart t-light holder”, el 84879 “Assorted colour bird ornament” y el 21212 “Pack of 72 retrspot cake cases”. Respecto a los clientes más rentables destacan el 14911, el 14096 y el 13089 con unos beneficios acumulados de 48725, 24252 y de 19595 respectivamente. Finalmente el mes con más beneficio neto es también el mes en el que se registran mas transacciones Noviembre, seguido de Octubre. 3.4. Análisis RFM/Segmentación de clientes. Basado en el principio de comercialización de Wilfredo Pareto de que el 80% de el negocio de una empresa proviene del 20% de sus clientes, el análisis RFM ayuda a identificar a los clientes que tienen más probabilidades de responder a las promociones comerciales segmentándolos en varias categorías. El análisis RFM (Recency, Frecuency, Monetary) es una técnica basada en el comportamiento que se utiliza para segmentar clientes mediante el examen de su historial de transacciones sobre: qué tan recientemente un
  • 32. TFM. Máster en Inteligencia de Negocio y Big Data - 2016 -2018. Jorge Rosario Mata 31 cliente ha comprado (reciente), con qué frecuencia compran (frecuencia) o cuánto gasta el cliente (monetario). Por lo general se establecen 5 categorías sobre la “recencia” de las compras mediante 5 quintiles. Si el cliente cae en el primer segmento inferior recibe un 1 de puntuación, si lo hace entre el quintil2 y el quintil3 recibe un 2 de puntuación y así sucesivamente. De forma análoga se puntúa sobre la frecuencia y sobre el monto de la compra Cada cliente es clasificado en cada una de esas 5 categorías y se le asigna una puntuación mediante unas ponderaciones para cada una de ellas A partir de ahí se establecen segmentos dependiendo de las puntuaciones obtenidas con el fin de aplicar técnicas de marketing más adecuadas a cada uno de ellos. Una vez aplicado el sistema obtenemos una división del conjunto de clientes en 125 subgrupos siendo cada cliente asignado a uno de esos segmentos. Pensamos que este sistema es adecuado para segmentar nuestro conjunto de datos pues carecemos de otro tipo de variables para segmentar como podrían ser demográficas o psicográficas.. Veamos ahora un mapa de que nos da una muy buena visión de qué segmentos interesan más y calor cuáles menos desde el punto de vista de la recencia y de la frecuencia de las compras el valor monetario promedio de cada segmento de clientes. Podemos comprobar que los segmentos más valiosos son aquel que tiene la variable de Recencia=3 y la Frecuencia =1. Y le sigue el segmento de Recencia 3 y Frecuencia = 4. Después el R=4, F=5. Figura 25 Mapa de calor de la segmentación RFM por compras totales por segmento
  • 33. TFM. Máster en Inteligencia de Negocio y Big Data - 2016 -2018. Jorge Rosario Mata 32 De una manera más detallada mostramos a continuación unos gráficos de barras según frecuencia y recencia que nos permiten ver visualmente el valor monetario de cada subgrupo. Podemos observar que los segmentos más interesantes son según la nomenclatura R-F-M todos aquellos con (R=5 y F=5) y aquellos con (R=1 y F=1). Los menos interesantes son aquellos con (R=1, F= 3, 4 o 5). Los responsables de la gestión de clientes debería actuar según el caso quizá dedicando recursos a los grupos más valiosos y quizá desistir de dedicarlos a los grupos menos valiosos. Figura 26 Gráfico descriptivo de los segmentos hallados mediante RFM
  • 34. TFM. Máster en Inteligencia de Negocio y Big Data - 2016 -2018. Jorge Rosario Mata 33 Figura 27 Top segmentos por la compra media de sus integrantes Podemos apreciar que los grupos con menos miembros y compras por debajo de la media son en general los predominantes Figura 28 Miembros por segmento vs gasto medio por segmento En la figura 29 se aprecia cómo se distribuye la recencia. Como es de suponer para grupos con más días entre compra y compra tienen valores más dispares entre sí. Los que tienen la recencia más alta, aquellos que comienzan por 5 tienen los extremos más cercanos a la media y a la mediana.
  • 35. TFM. Máster en Inteligencia de Negocio y Big Data - 2016 -2018. Jorge Rosario Mata 34 Figura 29 Variables descriptivas de la recencia Respecto a la frecuencia, vemos que están para cada subgrupo más a la derecha aquellos segmentos con valores más altos. Figura 30. Variables descriptivas para la frecuencia
  • 36. TFM. Máster en Inteligencia de Negocio y Big Data - 2016 -2018. Jorge Rosario Mata 35 Desde el punto de vista del monto podemos apreciar que las variables se comportan de forma muy similar alcanzándose el máximo global en un segmento del grupo 3. Figura 31. Variables descriptivas para el monto. En el siguiente gráfico podemos apreciar que como es habitual, la inmensa mayoría de clientes lo son con baja frecuencia: Figura 32 Histograma sobre el número de transacciones
  • 37. TFM. Máster en Inteligencia de Negocio y Big Data - 2016 -2018. Jorge Rosario Mata 36 La siguiente imagen nos muestra que no existe una relación directa entre el monto de las compras y la reciente de las compras: Figura 33 Relación entre Recencia y Monto Ponemos de manifiesto la relación entre frecuencia y monto Figura 34 relación entre Frecuencia y Monto
  • 38. TFM. Máster en Inteligencia de Negocio y Big Data - 2016 -2018. Jorge Rosario Mata 37 Hacemos lo mismo para recencia y frecuencia: Figura 35 Relación entre Recencia y Frecuencia Proponemos finalmente a título de ejemplo una propuesta de clasificación de los segmentos según las puntuaciones RFM obtenidas. Figura 36 Breve propuesta de clasificación según puntuación RFM Conclusiones: -Los segmentos más interesantes desde el punto de vista del gasto parecen ser el 145, 315, 215 y 115 desde el punto de vista de la compra media. -No parece haber una relación entre frecuencia, recencia y monto.
  • 39. TFM. Máster en Inteligencia de Negocio y Big Data - 2016 -2018. Jorge Rosario Mata 38 3.5 Análisis de la cesta de la compra Creamos reglas utilizando el algoritmo Apriori, propuesto en 1994 por Agrawal y Srikant, del paquete arules en R. Las reglas son asociaciones entre ítems, expresiones de la forma X Y donde X e Y son conjuntos de ítems. En este contexto representan la relación que hay entre artículos de una cesta de la compra; por ejemplo pasta de dientes y cepillos de dientes. El soporte de una regla es la fracción de transacciones que contienen tanto a X como a Y. La confianza de una regla es la fracción de las transacciones en las que aparece X que incluyen también a Y. Según la Wikipedia, “El indicador lift expresa cuál es la proporción del soporte observado de un conjunto de productos respecto del soporte teórico de ese conjunto dado el supuesto de independencia. Un valor de lift = 1 indica que ese conjunto aparece una cantidad de veces acorde a lo esperado bajo condiciones de independencia. Un valor de lift > 1 indica que ese conjunto aparece una cantidad de veces superior a lo esperado bajo condiciones de independencia (por lo que se puede intuir que existe una relación que hace que los productos se encuentren en el conjunto más veces de lo normal). Un valor de lift < 1 indica que ese conjunto aparece una cantidad de veces inferior a lo esperado bajo condiciones de independencia (por lo que se puede intuir que existe una relación que hace que los productos no estén formando parte del mismo conjunto más veces de lo normal).” Debemos comentar en este punto que aunque en general la medida de interés “Lift” mejora la confianza de las reglas, también tiene sus limitaciones y que existen además multitud de medidas de interés alternativas con diferentes propiedades que pueden ser utilizadas o no en función de los intereses del analista. Algunas de ellas las podemos encontrar en (Berzal). Seleccionamos aquellas que tengan un soporte (fracción de transacciones que contengan tanto al antecedente como al consecuente) de al menos un 1 % por la cantidad e transacciones que hay. Optamos también elegir una confianza (porcentaje de las transacciones que cuando aparece el antecedente aparece también el consecuente) de al menos el 50% para eliminar así l efecto de artículos muy frecuentes.(Un artículo muy frecuente aparecerá en el consecuente de muchas reglas independientemente de su relación con el antecedente de la regla). Figura 37 Representación tabular de algunas reglas
  • 40. TFM. Máster en Inteligencia de Negocio y Big Data - 2016 -2018. Jorge Rosario Mata 39 A continuación mostramos unos intentos de representación gráfica de algunas reglas. Cabe comentar que no encontramos ningún tipo de gráfico en el paquete utilizado “arulesviz” que recoja las relaciones entre las reglas y los ítems utilizados de una forma medianamente aceptable. Comenzamos la representación con un gráfico de tipo red Representa las reglas (o conjuntos de elementos) como un gráfico con elementos como vértices etiquetados y reglas (o conjuntos de elementos) representados como vértices conectados a elementos mediante flechas. Los elementos desde los que sale la fleche están en la parte LHS de la regla. Los elementos a los que apuntan las flechas son los correspondientes de RHS. Los globos quedan determinados por su tamaño y color en función del valor del soporte de la regla y el lift. 3 Figura 38 Representación en forma de gráfico de red de algunas reglas
  • 41. TFM. Máster en Inteligencia de Negocio y Big Data - 2016 -2018. Jorge Rosario Mata 40 Otra visualización es la un diagrama de dispersión de todas las reglas representando el soporte y la confianza de las reglas en los ejes y el lift en el color de los puntos. Figura 39 Representación de la dispersión de las reglas resultantes
  • 42. TFM. Máster en Inteligencia de Negocio y Big Data - 2016 -2018. Jorge Rosario Mata 41 4. Conclusiones Este trabajo se ha centrado en extraer información diversa sobre un data set de transacciones de un e-commece de Reino Unido durante el periodo que media entre enero y diciembre de 2011. En el análisis RFM se ha decidido segmentar los clientes en 125 segmentos de la manera explicada en el punto 3.3. Se ha comprobado que los segmentos más interesantes son según la nomenclatura R-F-M todos aquellos con (R=5 y F=5) y aquellos con (R=1 y F=1) y que los menos interesantes son aquellos con (R=1, F= 3, 4 o 5). Se ha comprobado también que no existe relación significativa alguna entre las variables recencia, frecuencia y monto. El incremento o decremento de alguna de ellas no lleva en general el incremento o decremento de ninguna de las otras. Respecto al análisis de la cesta de la compra con las restricciones comentadas, quedan seleccionadas aquellas reglas que tengan un soporte de al menos un 1 % y una confianza de al menos el 50%, se han obtenido un total de 324 reglas con el subconjunto de datos seleccionado. Por destacar algunas podemos destacar las tres primeras en función del “lift”, que es una medida de interés 8 o de importancia o medida de correlación) de la regla; a saber: lhs rhs support confidence lift count [1] {23172} => {23171} 0.01014905 0.8883249 64.90418 175 [2] {23171} => {23172} 0.01014905 0.7415254 64.90418 175 [3] {23175} => {23174} 0.01154092 0.7566540 50.18071 199 Siendo los artículos: 23171= “Regency tea plate green” 23172 = “Regency tea plate pink” 23173= “Regency teapot roses” 23174= “Regency sugar bowl Green” 23175=”Regency milk jug pink” …que parecen ser los elementos de un juego de té. Una vez comentadas las principales conclusiones obtenidas del trabajo a nivel de información obtenida del mismo pasaremos a comentar algunas reflexiones y algo de autocrítica sobre los objetivos iniciales y su consecución.
  • 43. TFM. Máster en Inteligencia de Negocio y Big Data - 2016 -2018. Jorge Rosario Mata 42 Considero que técnicamente se han alcanzado en general todos los objetivos aunque hemos de destacar que posiblemente no hemos alcanzado un buen enriquecimiento del dataset, al menos no un enriquecimiento fiel. Simplemente hemos ofrecido una solución para enriquecerlo. Sinceramente opino que este objetivo era o es relativamente dificil de alcanzar si queremos hacerlo bien. ¿Cómo podemos realizar la clasificación en familias y subfamilias de un conjunto de más de 4000 artículos variopintos a partir de sus descripciones? ¿Quizá con un Tesauro?, ¿accediendo a los datos de los cuales ha sido extraído este dataset en el que posiblemente figure tal clasificación?, ¿ manualmente?. Quiero añadir también que el uso del software R me resulta interesante pero al no dominarlo lo suficiente en alguna ocasión ha resultado ser un lastre, al igual que el tema del RStudio, las actualizaciones de paquetes, las compatibilidades, etc. En cualquier caso elegí su uso libremente. He tenido también que solicitar a mi tutor un par de pequeñas demoras en la entrega de los entregables, a las que el accedió amablemente, posiblemente porque no hice una planificación del todo adecuada de los tiempos de cada apartado. Como parte positiva, la planificación del trabajo a nivel de tareas y subtareas ha sido bastante buena pues he podido seguir, casi fielmente, la planificación inicial aunque como ya se ha comentado no la temporalización inicial Trabajos futuros. A continuación nombramos algunos puntos que no se han podido llevar a cabo y cuya elaboración sería muy interesantes en futuros trabajos: - Uso de gráficos interactivos debido a la gran cantidad de datos a representar. - Comparar resultados con otros algoritmos o técnicas a fin de refinar las soluciones. - Realizar predicciones de la demanda. - Creación de familias o subfamilias de productos de manera automatizada por ejemplo a través de técnicas de técnicas de Text Mining a partir de la descripción. - Elaboración de un Tesauro. Por otro lado y desde el punto de vista de la investigación diremos que debido principalmente a nuevas necesidades surgidas del Big Data, la tendencia general para todos los algoritmos mencionados en este apartado es su evolución y refinamiento hacia técnicas de computación paralela, sistemas distribuidos e integración con series temporales y bases de datos geoespaciales.
  • 44. TFM. Máster en Inteligencia de Negocio y Big Data - 2016 -2018. Jorge Rosario Mata 43 5. Glosario (Fuente: Wikipedia) Algoritmo a Priori: El algoritmo a priori es un algoritmo utilizado en minería de datos, sobre bases de datos transaccionales, que permite encontrar de forma eficiente "conjuntos de ítems frecuentes", los cuales sirven de base para generar reglas de asociación. Procede identificando los ítems individuales frecuentes en la base y extendiéndolos a conjuntos de mayor tamaño siempre y cuando esos conjuntos de datos aparezcan suficientemente seguidos en dicha base de datos. Este algoritmo se ha aplicado grandemente en el análisis de transacciones comerciales y en problemas de predicción., 12 cross-selling: En marketing, se llama 'venta cruzada ' (del inglés cross-selling) a la táctica mediante la cual un vendedor intenta vender productos complementarios a los que consume o pretende consumir un cliente. Su objetivo es aumentar los ingresos de una compañía., 12 data mining marketing: Minería de datos aplicada al campo del marketing., 6 Dataset: Conjunto de datos., 1 geolocalización: La geolocalización es la capacidad para obtener la ubicación geográfica real de un objeto, como un radar, un teléfono móvil o un ordenador conectado a Internet. La geolocalización puede referirse a la consulta de la ubicación, o bien para la consulta real de la ubicación., 17 Kaggle: es una plataforma para el modelado predictivo y competencias de análisis en el que estadísticos y mineros de datos compiten para producir los mejores modelos para predecir y describir los conjuntos de datos cargados por empresas y usuarios., ii; Kaggle es una plataforma para el modelado predictivo y competencias de análisis en el que estadísticos y mineros de datos compiten para producir los mejores modelos para predecir y describir los conjuntos de datos cargados por empresas y usuarios., i, 6, 20 McCarty: E. Jerome McCarthy era un profesor de contabilidad estadounidense en la Michigan State University. Él es el autor del influyente libro básico de comercialización. Un enfoque de gestión (ahora en su 16 ª edición y con otros co- autores). El profesor E. Jerome McCarthy, en 1960, redujo el concepto de Marketing Mix a 4 elementos, 17 metodología CRISP – DM: CRISP-DM (Cross Industry Standard Process for Data Mining) proporciona una descripción normalizada del ciclo de vida de un proyecto estándar de análisis de datos, de forma análoga a como se hace en la ingeniería del software con los modelos de ciclo de vida de desarrollo de software. El modelo CRISP-DM cubre las fases de un proyecto, sus tareas respectivas, y las relaciones entre estas tareas., 12 psicográficas: Variables Psicográficas; personalidad, estilo de vida, valores, actitudes, intereses. Variables conductuales; Búsqueda del beneficio, tasa de utilización del producto, fidelidad a la marca, utilización del producto final, nivel de "listo-para-consumir", unidad de toma de decisión., 17, 33 Text Minning.: La extracción de texto , también conocida como minería de datos de texto , más o menos equivalente a la analítica de texto , es el proceso de derivar información de alta calidad del texto . La información de alta calidad se obtiene típicamente a través de la elaboración de patrones y tendencias a través de medios tales como el aprendizaje estadístico de patrones . La minería de texto generalmente implica el proceso de estructurar el texto de entrada (generalmente el análisis sintáctico, junto con la adición de algunas características lingüísticas derivadas y la eliminación de otras, y la posterior inserción en una base de datos ), derivando patrones dentro de los datos estructuradosy, finalmente, evaluación e interpretación del resultado., 25
  • 45. TFM. Máster en Inteligencia de Negocio y Big Data - 2016 -2018. Jorge Rosario Mata 44 6. Bibliografía ALJUKHADAR, M. y. (2011). Segmenting the online consumer market,. En Marketing Intelligence & Planning, Vol. 29, no 4, (págs. 421-435). BARNES, S. B. (2007). Segmenting cyberspace: a customer typology for the internet. En European Journal of Marketing, vol 41, no1/2 (págs. 71-93). Berzal, F. (s.f.). http://elvex.ugr.es/decsai/intelligent/slides/dm/D2%20Association.pdf. Recuperado el 3 de 6 de 2018, de http://elvex.ugr.es/decsai/intelligent/slides/dm/D2%20Association.pdf BHATNAGAR, A. y. (2004b). Segmenting customers based on the benefits and risks of internet shopping. En Journal of Business Research, Vol. 57,. BIGNÉ, E. R. (2005). The impact of internet user shopping patterns and demographics on consumer mobile buying behaviour. En Journal of Electronic Commerce research Vol 6, no3 (págs. 193-209). Ecommerce.org. (Visitado el 1 de Abril de 2018). https://www.ecommercewiki.org/wikis/www.ecommercewiki.org/images/5 /56/Global_B2C_Ecommerce_Report_2016.pdf. Obtenido de www.ecommercewiki.org Fernández, S. d. (2011). Análisis de conglomerados. Obtenido de http://www.fuenterrebollo.com/Economicas/ECONOMETRIA/SEGMENT ACION/CONGLOMERADOS/conglomerados.pdf JAYAWARDHENA, C. W. (2007). Consumers online: intentions, orientations and segmentation. En International Journal of Retail & Distribution Management, Vol. 35, no 6, (págs. 515-526). JIMÉNEZ TORRES, N. y. (2010). Obtenido de http://www.revistasice.com/CachePDF/BICE_2987_11- KAU, A. K. (2003). Typology of online shoppers. En The Journal of Consumer managment vol 20 (págs. 139-156). LIMA-FILHO, D. D.-S. (2012). Profile of the electronic commerce consumer: A study with brazilian university students. En Journal of Internet Banking and Commerce, Vol. 17, no 1 (págs. 1-16). ONTSI. (2016). (Visitado el 1 de Abril de 2018.) www.ontsi.red.es. Obtenido de Observatorio Nacional de las Telecomunicaciones y dela Sociedad de la Informacion: http://www.ontsi.red.es/ontsi/sites/ontsi/files/Informe%20B2C%202016.% 20Edici%C3%B3n%202017.pdf PASCUAL DEL RIQUELME, M. R.-N.-H. (2011). Desconfianza hacia la venta tradicional y electrónica: Un estudio sobre el perfil del consumidor desconfiado. En Universia Business Review. Paula Rodriguez Torrico, S. S. (2012). Multiples formas para segmentar el mercado de compradores online y movil. Cuadernos de Estudios Empresariales, 22, 99-128 http://revistas.ucm.es/index.php/CESE/article/view/44647. PRODANOVA, J. y. (2012). Boletín económico del ICE nº 3029,. Obtenido de de transporte no son iguales, Boletín económico del ICE nº 3029, 2012, ROHM, A. J. (2004). A typology of online shoppers based on shopping motivations. En Journal of Business Research, Vol. 57 (págs. 748-757). Roig, J. G. (2016). Metodologías y estándares: Business analytics y data minning en contexto. Barcelona: UOC.
  • 46. TFM. Máster en Inteligencia de Negocio y Big Data - 2016 -2018. Jorge Rosario Mata 45 RUIZ, C. y. (2006). Explaining Internet dependency. An exploratory study of future purchase intention of Spanish Internet users. En Internet Research vol 16, no4 (págs. 380-397). SWINYARD, W. y. (2003). Why people don’t shop online: a lifestyle study of internet consumer. En Psychology & Marketing, Vol. 20, no 7 (págs. 567 - 597). Valiñas, R. F. (2009). Segmentación de mercados 3ª edición. Mexico: McGraw- Hill. 7. Anexos Como único anexo al trabajo se adjunta el código .Rmd que se ha utilizado en la realización del presente proyecto que ha sido elaborado con el lenguaje de programación RMarkDown, version 3.4.0 (2017-04-21) “You Stupid Darkness” sobre RStudio, Version 1.1.453 – © 2009-2018 RStudio, Inc. Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/538.1 (KHTML, like Gecko) Rstudio Safari/538.1 Qt/5.4.1 Está disponible en: https://drive.google.com/file/d/1cemoDr6yU51M8aHENl00Z- wn0nh2EckC/view?usp=sharing