1. Como extraer conocimiento de los datos
Extractos de la conferencia dictada como invitado en la
Asociación de Marketing Directo de México
México 2005
Hugo Cisternas, Director Innovandis
hcisternas@innovandis.org
5. Hugo Cisternas hcisternas@innovandis.orgHugo Cisternas hcisternas@innovandis.org
Marco de referencia conceptual
Estrategia
Datos
Análisis
Conocimiento
Marco de referencia conceptual
6. Hugo Cisternas hcisternas@innovandis.org
Marco de referencia conceptual
Evolución del conocimiento
• Tres métodos de organización para aprehender el mundo
real
– Diferenciar la experiencia en objetos diferentes
• Y en sus atributos
– Distinción entre un todo y sus partes constituyentes
– Distinción entre distintas clases de objetos
• Categorías de comportamientos
– Causalidad directa
– Similaridad en la evolución histórica
– Similaridad en la función
Identificar
Diferenciar
7. Hugo Cisternas hcisternas@innovandis.org
Fundamento básico de la experiencia humana
• El futuro próximo será parecido al pasado reciente
– a nivel de experiencia individual
– a nivel de experiencia social
• El comportamiento futuro de un individuo será parecido a su
comportamiento pasado
• … Pero no siempre
9. Hugo Cisternas hcisternas@innovandis.org
¿Qué es el riesgo?
Riesgo es exposición a la incerteza
• Si hay certeza, no hay riesgo
• Si hay incerteza, pero no se está expuesto a los resultados, no
hay riesgo
Aprender… modelar
11. Hugo Cisternas hcisternas@innovandis.org
Más allá de la elección de una marca o de un estilo de vida existen
motivaciones más profundas…..valores.
Young & Rubicam New York fue uno de los pioneros en utilizar los
valores para crear estrategias publicitarias.
Durante los ’80s, Y&R establece su propia
segmentación valórica de carácter internacional:
4C´s.
4C’s = Cross-Cultural-Consumer-Characterization
Segmentación sicográfica: 4C’s
12. Hugo Cisternas hcisternas@innovandis.org
Establece 7
tipologías de
personas.
Estas responden
a sus metas,
motivaciones y
valores que
determinan sus
conductas, así
como también
sus
comportamientos
de compra e
incluso la
selección de
marcas.
Segmentación sicográfica:4C’S
Auto Expresión
Control
Status
Descubrimiento
Subsistencia
Seguridad
Escape
Reformadores
Exitosos
Exploradores
Simuladores
Integrados
Resignados
Disconformes
Ajustados mayoría
promedio
Externamente
orientados
Viven según los
patrones establecidos y
expectativas de vida en
función de otros.
Innovadores
Internamente orientados
Búsqueda de desarrollo
personal y de la sociedad
Necesitados
Movidos por sus carencias
Resolver problemas y
necesidades básicas
(alimentos, abrigo, vivienda).
*Fuente: BAV.
14. Hugo Cisternas hcisternas@innovandis.org
BES
Brand Experience Scorecard®
Dimensiones
claves que afectan
la Lealtad
Niveles de
Lealtad
Nivel III
Nivel II
Nivel I
Behavioral Be
Functional
Behavioral Channel
Functional
Socio-
Emotional
Behavioral
Comunidad: “Me hace sentir que soy partede algo”
Desempeño: “Cumple mejor con mis necesidades”
Trato: “Me conoce y lo demuestra”
16. Hugo Cisternas hcisternas@innovandis.org
Los Datos
• Hay que tener datos
– Sin datos no hay análisis… solo teoría
– Es necesario mantener un registro: Base de Datos
• ¿Cualquier dato sirve?
– No…
– Pero mientras no analicemos, no sabemos cual sirve y cual no
• Si los datos son de mala calidad
– El análisis no mejorará la calidad de los datos
– Bueno…a veces sí… si planificamos bien
17. Hugo Cisternas hcisternas@innovandis.org
Los Datos
La “paradoja de los datos”
Planificar los datos:
decidir
cuidadosamente qué
datos vamos a
registrar
Análisis: No sabemos
qué datos sirven
mientras no los
analicemos
Solo a partir del análisis podemos planificar el dato
Solo con datos bien planificados se puede hacer análisis
18. Hugo Cisternas hcisternas@innovandis.org
Los Datos
La “paradoja de los datos”
Planificar los datos:
decidir
cuidadosamente qué
datos vamos a
registrar
Análisis: No sabemos
qué datos sirven
mientras no los
analicemos
Solo a partir del análisis podemos planificar el dato
Solo con datos bien planificados se puede hacer análisis
Bootstrap: Hay que empezar con algo… y mejorar continuamente
19. Hugo Cisternas hcisternas@innovandis.org
¿Qué datos son importantes?
• Todos los datos pueden ser importantes
• Sin embargo, no todos los datos llegarán a ser igualmente
importantes
• Al comienzo…
– El análisis debe omitir prejuicios respecto a la importancia de un ítem
de dato
• Existen interacciones entre algunos datos
– Las personas mayores, en general, tendrán mayor antigüedad en el
empleo
– Propietarios de casa, en general, tendrán sueldos mayores que los
que arriendan
– Los solteros, en general, tendrán menos cargas familiares
– Quienes viven en Las Condes tendrán, en general, sueldos mas altos
que quienes viven en Pudahuel
• Al comienzo, el grado de interacción no se conoce
20. Hugo Cisternas hcisternas@innovandis.org
Organizar datos
• Ejemplo de Churn:
• Armar el set de datos a analizar:
– Obtener un conjunto de registros con resultado conocido
ActivosActivos
InactivosInactivos
Clientes
Set de DatosSet de Datos
“Churn”
“Activo”
22. Hugo Cisternas hcisternas@innovandis.org
Conjunto de datos para análisis
• Establecer línea de tiempo base
• Obtener datos históricos para el período de análisis
• Marcar resultado al final de período de análisis
• Intentar eliminar factores estacionales o coyunturales
Inicio
Final
Activos
Churn
6 meses
9 meses
12 meses
¿?
Cohortes o“Camadas” de datos
23. Hugo Cisternas hcisternas@innovandis.org
Ejemplo retail
El promedio mensual de
consumo de $100 para el
abandonador vs. $140 para
el cliente activo.
El consumo del cliente
Activo es un 50% superior
al del Abandonador en
período previo al abandono
Evolución del Consumo
0
20
40
60
80
100
120
140
160
180
Jun-
00
Jul-
00
Ago-
00
Sep-
00
Oct-
00
Nov-
00
Dic-
00
Ene-
01
Feb-
01
Mar-
01
ConsumoPromedio($)
Abandonador Activo
El Cliente Abandonador
viene cada vez menos
antes de Abandonar
Recencia Promedio
5
7
9
11
13
15
Abandonador Activo
24. Hugo Cisternas hcisternas@innovandis.org
Retail con tarjeta propia:
Esquema riesgo crédito
15 “CAMADAS” de datos
Mes 15Mes 1
Clientes únicos
Un año de comportamiento
1
Mes más cercano al mes de la
Camada.
12
Mes más lejano
Se selecciona a…
Bueno malo
25. Hugo Cisternas hcisternas@innovandis.org
Clientes en mora
0%
20%
40%
60%
80%
100%
0 20 40 60 80 100 120 140 160 180
Pago clientes morosos
Porcentaje de Clientes que han pagado al día x
No todos los
clientes tienen la
intención de NO
pagar, algunos
simplemente se
demoran en
hacerlo.
28. Hugo Cisternas hcisternas@innovandis.org
La estrategia
Explicar
Influir
Resultado
Comportamiento
Estructura •Identificar
•Segmentar
•Eventos
•Triggers/Eventos
•Segmentar
•Valorar
•Segmentar
•Predecir
29. Hugo Cisternas hcisternas@innovandis.org
Tipos de variables para la estrategia y el análisis
Variables
Estructurales
Explicativas
Permiten clasificar
Ejecución
Accionables
Permiten identificar estímulos
eficaces
1 3
4
2
Comportamiento
Influenciables
Permiten influir para cambiar o
reforzar comportamiento
deseado
30. Hugo Cisternas hcisternas@innovandis.org
Tipos de segmentación
Demográficas
• Edad
• Estado civil
• NSE
• Etc.
Estilos de Vida
• 4 C’S
• Behaviour pattern
Geográficas
• Ciudad
• Región
• Comuna
• Etc.
Valor
• Paretto
• Deciles
• RFM (P)
Ciclo de Vida
• Triggers
• Behavior pattern
• L.T.V.
Comportamiento
• Pago
• Compra
• Etc.
33. Hugo Cisternas hcisternas@innovandis.org
Segmentación: Ciclo de vida familiar
Soltería:
jóvenes y solteros
que no viven con
sus padres. Pocas
cargas financieras.
Líderes de opinión
en modas.
Hogar establecido I:
hijo menor de <6 años.
Cúspide de las compras
para el hogar.
Insatisfechos con la
posición financiera y con la
cantidad de dinero
ahorrado. Interesados en
nuevos productos.
Hogar establecido III:
parejas maduras c/hijos
dependientes. Posición
financiera aún mejor si
algunos hijos obtienen
empleo. Difíciles de influir
con la publicidad. Alto
promedio de compra de
artículos imperecederos.
Sobreviviente
solitario,
jubilado.
Necesidades médicas;
reducción drástica de
sus ingresos.
Demanda especial de
atención, afecto y
seguridad.
Recién casados:
jóvenes y sin hijos.
Mejor posición
económica que en un
futuro cercano. Índice
más alto de compra y el
promedio más alto de
compra de artículos
duraderos.
Hogar establecido
II: su hijo menor es
>6 años o más. Mejor
posición financiera.
Algunas esposas
trabajan. Compran
paquetes de mayor
tamaño.
Hogar vacío: parejas
maduras, sin hijos.
Cúspide del poder
adquisitivo de bienes
inmuebles. No están
interesados en productos
nuevos. Algunos conservan
su casa, otros se achican.
34. Hugo Cisternas hcisternas@innovandis.org
Clasificación por valor: Best Customers
Platino / oro: Gratificación
Plata / Bronce:
Retención, Rentabilidad,
Cross y Up Sell
Atractividad % Consumo
Platino
Oro
Plata
10%
15%
20%
25%
30%
Bronce
Cobre
4%
18%
23%
25%
28%
Abandonadores
Cobre:
Clientes nuevos:
frecuencia y monto
Poco atractivos:
indiferencia
Abandonadores: winback
35. Hugo Cisternas hcisternas@innovandis.org
Areas de intervención de datos
Ejemplo Retail
• Desarrollo por categoría (foco en el producto)
• Ejecución en tienda
Canasta compras
Individuo
• Valor
• Ciclo de vida
• Estilo de vida
Hogar
• Valor
• Ciclo de vida
• Estilo de vida
Crédito
•Scoring
•Comportamiento
Data
Warehouse
Resultados
• Influir comportamientos
• Controlar exposición Programa
Fidelización
37. Hugo Cisternas hcisternas@innovandis.org
Lo básico… Contar
• Para cada ítem de datos
– En cada categoría
• ¿Cuantos “buenos”, cuantos respondieron, cuantos son leales?
• ¿Cuantos “malos”, cuantos no responden, cuantos se fugan?
• Ejemplo credit scoring… variables demográficas:
– ¿Cuántos propietarios resultaron buenos?¿malos?
– ¿Cuántos arrendatarios resultaron buenos?¿malos?
– ¿Cuántos solteros resultaron buenos?¿malos?
– ¿Cuántos casados resultaron buenos?¿malos?
Análisis exploratorio de datos
Conocimiento íntimo de los datos
38. Hugo Cisternas hcisternas@innovandis.org
Ejemplo: Vivienda
Buenos Malos
# % # %
Propietarios 600 60% 300 30%
Arrendatarios 300 30% 600 60%
Otros 100 10% 100 10%
• Muestra de 1.000 buenos y 1.000 malos
• Propiedad de la vivienda
39. Hugo Cisternas hcisternas@innovandis.org
Porcentaje de saldo sobre línea de crédito
• Cof. Concordancia : 61.50
% SALDO MES (LCA)
0
10
20
30
40
50
60
<25% 25 < 55% 55 < 90% >= 90%
0,50
0,55
0,60
0,65
0,70
0,75
0,80
0,85
(%) No pago (%) Pago P prob.
Categorías No Pago Pago Total P (%) No pago (%) Pago prob.
<25% 41671 187421 229092 0,82 29,43 52,43 0,64
25 < 55% 35769 83421 119190 0,70 25,26 23,34 0,52
55 < 90% 31348 51204 82552 0,62 22,14 14,32 0,61
>= 90% 32826 35410 68236 0,52 23,18 9,91 0,70
141614 357456 499070 0,72 100,00 100,00 0,50
40. Hugo Cisternas hcisternas@innovandis.org
Cantidad de meses en mora último año
(Ejemplo simulado)
Categorias No pago Pago Total P (%) Pago (%) No Pago
0 620 2.080 2.700 0,77 39,26 59,52
1 364 646 1.010 0,64 23,02 18,50
2 258 342 600 0,57 16,34 9,79
3 166 194 360 0,54 10,49 5,56
4 87 98 185 0,53 5,51 2,81
5 39 48 87 0,55 2,48 1,37
6 23 34 57 0,59 1,48 0,96
7 18 33 50 0,65 1,11 0,93
8 o mas 5 20 25 0,80 0,32 0,57
0,50
0,55
0,60
0,65
0,70
0,75
0,80
0,85
0 1 2 3 4 5 6 7 8 o
mas
0,00
10,00
20,00
30,00
40,00
50,00
60,00
0,50
0,55
0,60
0,65
0,70
0,75
0,80
0,00
10,00
20,00
30,00
40,00
50,00
60,00
Cantidad de meses, en el
ultimo año, en que tuvo
morosidad (entre 15 y 30
dias)
41. Hugo Cisternas hcisternas@innovandis.org
Modelo Predictivo
P = probabilidad de cumplirse la condición de definida
P ~~ 0: cuenta continuará con buen comportamiento
P ~~1: cuenta con posibilidad de pasar a ser “malo”
44. Hugo Cisternas hcisternas@innovandis.org
Total
Sep-DivSep-DivViu-SolViu-SolCasadoCasado
HijosHijos + Hijos+ Hijos
SexoSexo Edad
Edad SexoSexo
Edad + Edad
SexoSexo
Edad Edad
• Los Casados son los más
propensos a ser Heavy User.
• Al tener Muchos Hijos la Edad
se vuelve preponderante.
• A la hora de diferenciar por
sexo, las Mujeres son las más
consumidoras.
• Los Casados son los más
propensos a ser Heavy User.
• Al tener Muchos Hijos la Edad
se vuelve preponderante.
• A la hora de diferenciar por
sexo, las Mujeres son las más
consumidoras.
Modelos Demográficos
• Se realizó un árbol de decisión (CHAID) buscando correlaciones
óptimas. La estructura de segmentación es la siguiente:
45. Hugo Cisternas hcisternas@innovandis.org
• En segundo lugar las
Mujeres, Casadas, con 4
integrantes, entre 50 y 60
años (Lift = 47%).
• En último lugar se
encuentran los Solteros-
Viudos, Mayores de 60
Años con un solo
integrante (Lift = -60%)).
Cinco;Seis o Más
Edad
Chi-cuadrado=25,3200; gl=1
Cat. % n
No 50.70 432
Si 49.30 420
Total (8,53) 852
Cat. % n
No 53.48 591
Si 46.52 514
Total (11,06) 1105
Mujer
(+ 39 Años )
sexo
Nivel crítico=0.0007; Chi-cuadrado=11,5591;
gl=1
Cat. % n
No 56.82 83
Si 43.18 95
Total (13,80) 178
Cat. % n
No 62.85 159
Si 37.15 94
Total (2,53) 253
Hombre
Modelos Demográficos
• Los Casados - Más de 4 integrantes - Mayores de 40 años -
Mujeres, es el grupo más propenso a ser Heavy User (Lift del
56%)
51. Hugo Cisternas hcisternas@innovandis.org
Variables Demográficas (ejemplo)
Nombre Descripción %
Modelo1 Modelo2
G_ABC1 Grupo socio-económico ABC1 3,7 18,40
G_C2 Grupo socio-económico C2 44,8 15,10
G_DE Grupo socio-económico D o E 14,0 -18,61
PROPT Propietario 48,0 7,01
ARRED Arrendatario 11,0 -11,01
ADULTO Adulto >= 55 años 14,4 15,64
D_CASA Dueña casa 5,8 15,35
JUB_PEN Jubilados, Pensionados 6,6 2,74
PROFES_1 Profesionales: Médico, Matrona, Dentista, Ing. Civ 2,4 10,15
SALUD Giro Comercial Empresa área Salud 5,4 3,24
FIS_PREV Giro Comercial Empresa Fiscal o Previsional. 6,8 3,54
ARM_INV Actividad Armada o Investigaciones 5,9 3,64
OP_OB Actividad Operario u Obrero 6,8 -5,49
RENTA Monto de renta >= $460,000 16,2 3,55
beta
• El modelo predictivo se expresa como una pauta de calificación, es
decir, dependiendo de las variables, el cliente obtiene un puntaje
positivo o negativo. El resultado final de las variables predictoras lo
situará en un segmento específico.
52. Hugo Cisternas hcisternas@innovandis.org
Ejemplo de Score Card
Ejemplo básico solo demográfico
Variable Puntaje
Actividad
Empleado 13
Comerciante -8
Profesional 13
Otros -10
Vivienda
Propia 3
Arrendada -6
Otros 0
Edad
18-25 11
26-31 13
32-34 15
35-62 24
63 o más 27
Antigüedad empleo
Menos de 1 año -15
1-2 años -13
3-6 años -8
7-12 años -5
Más de 12 años 0
Género
Hombre -3
Mujer 0
Tiene Cuenta Coriente 3
CONSTANTE 55
TOTAL
Nota: en aplicaciones reales, las variables demográficas son muy poco útiles, se
buscan variables de comportamiento y de ejecución… ejemplo solo para uso didáctico
53. Hugo Cisternas hcisternas@innovandis.org
No todas las variables son iguales
Variables Predictivas
Estructurales
Explicativas
Permiten establecer marco de
referencia
Ejecución
Accionables
Permiten cambiar
comportamiento futuro
Modelo predictivo
+
Comportamiento
Tendencia
Permiten predecir
54. Hugo Cisternas hcisternas@innovandis.org
Requisitos importantes para el análisis
• Grandes cantidades de datos de calidad consistente
• Un marco conceptual y un objetivo
• Pool de expertos en:
– El negocio, el área de aplicación
– Bases de Datos (Data warehouse)
– Estadísticas y data mining
• Tiempo y Paciencia
55. Hugo Cisternas hcisternas@innovandis.org
Campañas
Clientes
Universo S Clientes
deseados
RF
Campaña
Segmentación
Por valor,
E.Vida, etc.
Selección
Clientes
(cupo, scrore crédito, etc)
Modelo
predictivo
Respuesta
Basado en modelos predictivos, anticipar quienes tienen mayor probabilidad de
responder a campañas del programa
Grupo
Control
Clientes
en campaña
Mediciónyresultados
Aprender, refinar, corregir, mejorar....
56. Hugo Cisternas hcisternas@innovandis.org
Retención temprana
control de la recencia e inactividad
Clientes
Probables
inactivos S
Clientes
a
reteactivar
RF Acción de
Reactivación temprana
Modelo
predictivo
Inactividad
Selección
Clientes
Deseados
Modelo
predictivo
Respuesta
Clientes retenidos
Basado en modelos predictivos, anticipar situaciones de aumento de la recencia y
tendencias de inactividad para realizar acciones de retención temprana.
Resultados y ajustes al modelo
57. Hugo Cisternas hcisternas@innovandis.orgHugo Cisternas hcisternas@innovandis.org
Para terminar… algunas reflexiones
No intentes venderle café a alguien que sufre de insomnio
No le ofrezcas un filete jugoso y exquisito a un vegetariano
59. Hugo Cisternas hcisternas@innovandis.org
Mis Leyes del Análisis
Leyes de Hugo Cisternas del Marketing Directo
• Los clientes que mas compran… son los que mas compran
– Corolario: los clientes que menos compran… son los que menos
compran
• Un cliente que ya compró… ya compró
– Corolario: Un cliente que no ha comprado… todavía es un
prospecto
– Corolario 2: Hay clientes que no van a comprar
• Los clientes mas leales… son los que se quedan
– Corolario: los clientes menos leales… se cambian a cada rato
– Corolario 2: los clientes mas leales no son necesariamente los que
mas compran
• Los clientes que saben lo que quieren… saben lo que quieren
– Corolario: Y también saben su precio
– Corolario 2: No tiene sentido hacer descuentos a un cliente que
sabe lo que quiere
61. Hugo Cisternas hcisternas@innovandis.org
El Yin y Yang de la Segmentación
Criterio
Mensaje
Planificació n estratégica
Estadísticas
Base de Datos
Creatividad
La razón La intuición
La técnica El arte
62. Hugo Cisternas hcisternas@innovandis.org
Algunas precauciones
• Muchos procesos analíticos fallan
• Las razones generalmente no tienen mucho que ver con
los métodos de modelamiento
– Fallan porque no se diseñó correctamente
– Fallan porque no se ha organizado bien los datos
– Fallan porque en la implementación del modelo
• Pero el proceso analítico siempre nos puede enseñar
mucho del consumidor
• ... Y la ejecución es la clave
– Testear… medir… testear… medir….
63. Hugo Cisternas hcisternas@innovandis.org
Algunas precauciones
• Es difícil obtener los datos correctos... Correctamente
• Es mas difícil aun obtener suficiente historia de datos
• Los modelos deben ser revisados continuamente
• Es típico que a un modelo se le pida más de lo que se
consideró en su diseño
66. Hugo Cisternas
DIRECTOR INNOVANDIS
Database Marketing / Planificación Estratégica / Market Research
Contacto: hcisternas@innovandis.org
Con más de 25 años de experiencia en Bases de Datos, Arquitectura de
Información y Análisis Estadísticos, tiene la responsabilidad de los
servicios de Database Marketing y Planificación Estratégica de
Marketing para los clientes de Wunderman entre 1999 y 2010
Durante este período ha dirigido al equipo de Planning y de Database
Marketing en la planificación estratégica requerida por los clientes de
la agencia, tanto en las áreas de marketing directo, marketing interno,
promociones, marketing B-to-B y posicionamiento de marca, como en
la asesoría, diseño, implementación y administración de campañas,
database marketing y CRM.
Actualmente desarrolla trabajos de consultoría especializada, aplicando
tecnología e innovación a las exigentes necesidades comerciales y de
marketing que tiene la empresa de hoy. Además hace clases y dicta
conferencias.
67. HUGO CISTERNAS
Ha participado en proyectos destacados como:
Database Marketing para Financiera ATLAS de Citibank, CMR Falabella,
Johnson’s, Codigas, Enagas, Isapre Consalud, Entel S.A., Entel PCS,
Seguros Cruz del Sur, Transbank, LanPass, Soprole, Caja de
Compensación Los Héroes, Ripley, Larraín Vial corredores de bolsa,
Consultorías CRM para VTR Cable, Euroamérica Seguros, Torre, Larraín Vial
Marketing Directo para Citibank y Atlas, CMR Falabella, Tarjeta Multiopción
de Johnson’s, Codigas, Enagas, Isapre Consalud, Entel S.A., Entel PCS,
Seguros Cruz del Sur, Transbank, Caja de Compensación Los Héroes,
Metrogas, etc.
Posicionamiento y gestión estratégica de marcas como: ATLAS Citibank,
Johnson’s, Isapre Consalud, Transbank, Caja de Compensación Los
Héroes, Ripley, Aguas Andinas, Mademsa, Cousiño Macul, Toblerone ,
entre otras
Planificación y desarrollo de marketing interno para empresas como ING,
Metrogas, EntelPCS, Aguas Andinas.
Participación en proyectos tecnológicos y de bases de datos de gran
envergadura como por ejemplo: Servicio de Impuestos Internos,
Biblioteca del Congreso Nacional, Telefónica CTC, Mutual de
Seguridad, CTC Celular (Movistar), Movistar (Argentina), TelCel
(Venezuela), Ministerio de Agricultura, Ministerio de Justicia, Ministerio
de Relaciones Exteriores, Canal 13 de Televisión
Hugo Cisternas hcisternas@innovandis.org
Notas del editor
CHAID: Basado en Chi Cuadrado, tiene debilidades
Regresión Logística: Mejor
Redes Neurales: Puede ser muy exacto, pero poco transparente