2. Temario
UNIDAD 1: Introducción al Análisis multivariado y limpieza de
base de datos.
UNIDAD 2: Análisis de segmentación de mercados utilizando
modelos de interdependencia.
UNIDAD 3: Análisis de técnicas multivariadas para la reducción
de dimensiones
UNIDAD 4: Análisis de segmentación de mercados utilizando
modelos de dependencia.
UNIDAD 5: Análisis de pronósticos utilizando técnicas
multivariadas.
3. Calificación
Primer Momento
Unidades de Aprendizaje 1 y 2
Segundo Momento
Unidades de Aprendizaje 3 y 4
Momento Final
Unidad de Aprendizaje 5 y Trabajo Final
4. Calificación
Primera Unidad
Segundo a Cuarta Unidad
Momento Final
Evaluación Final - Trabajo Final 100%
AS- Examen Unidad 1 50% Individual Cuestionario
Trabajos en Aula 20% Individual Ejercicios prácticos
Trabajos para la casa 20% Grupal Ejercicios prácticos
Participación en aula - exámenes orales 10% Individual Prueba oral
AS- Examen Unidad 2 50% Individual Cuestionario
Trabajos en Aula 15% Individual Ejercicios prácticos
Trabajos para la casa 15% Grupal Ejercicios prácticos
Participación en aula - exámenes orales 10% Individual Prueba oral
Avance Trabajo Final 10% Individual Proyectos
AS- Examen Unidad 5 50% Individual Cuestionario
Trabajos en Aula 15% Individual Ejercicios prácticos
Trabajos para la casa 15% Grupal Ejercicios prácticos
Participación en aula - exámenes orales 10% Individual Prueba oral
Avance Trabajo Final 10% Individual Proyectos
7. Naturaleza del análisis multivariado
Conjunto de métodos estadísticos cuya finalidad es
analizar simultáneamente conjuntos de datos
multivariantes, existiendo varias variables medidas
simultáneamente para cada individuo u objeto
estudiado.
Se logra mejor comprensión del fenómeno.
8. Clasificación de las técnicas de
análisis multivariante
Métodos de
Dependencia
Métodos de
Interdependencia
Métodos
Estructurales
9. Métodos de Dependencia
Variable dependientes e independientes. Determinan si
las independientes afectan a las dependientes.
Se pueden clasificar en dos grupos:
Dependencia
Métrica
Dependencia
No Métrica
10. Dependiente cuantitativa Métrica
Predecir el ticket m
Información base para el
cálculo del LTV.
Análisis de Regresión Análisis de Supervivencia
Variable dependiente, es el
tiempo de supervivencia
del individuo. Ejemplo:
Predecir tiempo de
permanencia como cliente
en la empresa de un cliente
a partir de su consumo
promedio y de su edad.
Información base para el
cálculo del LTV.
11. Dependiente cuantitativa Métrica
Variables independientes
no son métricas y las
dependientes son métricas
y las dependientes son
métricas. Averiguan si hay
diferencia entre grupos.
Ejemplo: ¿hay diferencias
en el nivel de colesterol
por sexos?
Análisis de varianza Correlación Canónica
Relaciona variables
métricas dependientes e
interdependientes
calculando las
combinaciones lineales
que maximizan la
correlación existente.
Ejemplo: Analizar como
están relacionados el
tiempo dedicado al trabajo
y al ocio de una persona
con su nivel de ingresos,
edad y nivel de educación.
13. Métodos de interdependencia
No distinguen entre variables dependientes e
independientes y su objetivo consiste en identificar que
variables están relacionadas, cómo lo están y el porqué.
Se pueden clasificar en dos grupos:
Datos
métricos
Datos no
métricos
16. Métodos estructurales
Analizan las relaciones existentes entre un grupo de
variables representadas por sistemas de ecuaciones
simultáneas en las que se suponen que algunas de ellas
(denominadas constructos) se miden con error a partir
de otras variables observables denominadas
indicadores.
Constan de 2 partes:
17.
18.
19. LIMPIEZA DE DATOS
Sus datos se caracterizan por:
No debería tener datos faltantes -› SPSS remplaza los
datos faltantes con la media y los resultados se pueden
distorsionar.
No se desvía mucho de la desviación normal.
No existen datos extremos (outliers) -› Previamente
deberá haber realizado
limpieza de datos.
20. ELIMINAR DATOS FALTANTES
No debería tener datos faltantes.
Usted debería eliminar los datos faltantes de la matriz
de datos:
Usted puede utilizar la siguiente sintaxis para realizar la
eliminación automática de casos por usted.
Filter off.
use all.
select if(not missing(NOMBRE DE LA VARIABLE)).
execute.
22. IDENTIFICAR OUTLIERS
No existen datos extremos (outliers).
Basado en Tukey (1977) con el outlier labeling rule , para detectar outliers.
Analice las distribuciones de los datos (Inicie SPSS -› Analizar -› Explorar)
En Gráficas seleccione Histograma y en Estadísticas seleccione Valores atípicos y
Percentiles.
23. PASOS PARA REALIZAR ANÁLISIS DE
COMPONENTES PRINCIPALES
Analice el histograma: ¿Cómo determinar que los valores de la
izquierda no son Outliers.
Determine donde se encuentra el primer y el tercer cuartil para
determinar el limite superior y limite inferior.
24. PASOS PARA REALIZAR ANÁLISIS DE
COMPONENTES PRINCIPALES
Utilizando el primer cuartil (Q1) y tercer cuartil (Q3) calcule los límites
utilizando la siguiente fórmula propuesta por Tukey (1977) y corregida por
Hoagling et al. (1987):
Límite superior = Q3 + 1.5 * (Q3 - Q1)
Límite inferior = Q1 - 1.5 * (Q3 - Q1)
Compare el límite superior con los outliers que identificó SPSS:
Límite superior = Q3 + 1.5 * (Q3 - Q1 ) = 9 + 1.5*(2) = 12.0
Límite inferior = Q1 - 1.5 * (Q3 - Q1 ) = 7 - 1.5*(2) = 4.0
Existen valores en éste caso superiores a 12.0 y menores a 4.0
Revisar para todas las variables!!
25. PASOS PARA REALIZAR ANÁLISIS DE
COMPONENTES PRINCIPALES
Si identificó outliers, elimínelos manualmente para tener una
base de datos sin outliers (Repetir para todas las variables)
Límite superior = 12.0
Límite inferior = 4.0
26. PASOS PARA REALIZAR ANÁLISIS DE
COMPONENTES PRINCIPALES
Utilizando el primer cuartil (Q1) y tercer cuartil (Q3) calcule los limites
utilizando la siguiente formula propuesta por Tukey (1977) y corregida por
Hoagling et al. (1987):
Límite superior = Q1 + 2.2 * (Q3 - Q1)
Limite inferior = Q3 - 2.2 * (Q3 - Q1)
Compare el limite superior con los outliers que identifico SPSS:
Limite superior = Q1 + 2.2 * (Q3 - Q1 ) = 7 + 2.2*(2) = 11.4
Limite inferior = Q2 - 2.2 * (Q3 - Q1 ) = 9 - 2.2*(2) = 4.6
No Existen valores en éste caso superiores a 11.4 y menores a 4.6
Revisar para todas las variables!!
29. Definición de Mercado
Bajo la perspectiva de la demanda, el mercado puede
definirse como el conjunto de consumidores y/o
compradores que ejercen una demanda específica
sobre un producto o tipo de producto específico, y se
clasifica como:
Mercado Disponible.
Mercado Real.
Mercado Potencial.
Mercado Meta.
31. Definición de Segmentación
Proceso de división del mercado en
subgrupos homogéneos con el fin de llevar
a cabo una estrategia comercial
diferenciada que permita satisfacer de
forma más efectiva sus necesidades y
alcanzar los objetivos comerciales de la
empresa.
32. ENFOQUES
Segmentación a priori / posteriori.
Macrosegmentación / microsegmentación.
Segmentación de mercados / de productos.
37. ESQUEMA DE LA ESTADISTICA
ESTADISTICA DESCRIPTIVA 1 2 P
ESTIMACION TEST DE HIPOTESIS
ESTADISTICA INFERENCIAL
1 2 P 1 2 P
PROBABILIDADES
VARIABLE ALEATORIA
DISTRIBUCIONES DE PROBABILIDAD
DISTRIBUCIONES TEORICAS
BASES DE INFERENCIA
EDA
EXPLORING DATA ANALYSIS
1 2 P
ANÁLISIS EXPLORATORIO DE DATOS
RESUMEN DE LOS DATOS
GENERALIZACIÓN DE LOS DATOS
CONTROL DE CALIDAD DATOS
CHAID
38. PROCESO DE DATA MINING - CHAID
DETERMINACION DE
LOS OBJETIVOS
PRE
PROCESAMIENTO DE
LOS DATOS
DETERMINACION
DEL MODELO
ANALISIS DE LOS
RESULTADOS
BASE DE
DATOS
ANALISIS
MULTIVA
RIANTE
Requerimientos del
cliente
Selección
Limpieza
Reducción
Transformación
Análisis Estadístico
Visualización gráfica
LA MINERÍA DE DATOS ES LA EXTRACCIÓN
DE INFORMACIÓN IMPLÍCITA,
PREVIAMENTE DESCONOCIDA Y
POTENCIALMENTE ÚTIL A PARTIR DE
DATOS.
CHAID
39. ALGORITMOS DE DATA MINING - CHAID
CHAID
ALGORITMOS
PREDICCION
DESCRIPCION
SEGMENTACION
EXPLORATORIO
CLASIFICACION
REGRESION
DEPENDENCIA
ASOCIACION
CHAID
40. CHAID – METODOS MULTIVARIANTES
Y X1 X2 ... Xi ... Xp
1
2
...
j
...
n
X1 X2 ... Xi ... Xp X1 X2 ... Xi ... Xp X1 X2 ... Xi ... Xp X1 X2 ... Xi ... Xp
ACP CLUSTER CORRELACIÓN
CANÓNICA
MANOVA
RLB
41.
42. TEST DE INDEPENDENCIA 𝑿𝟐
𝑋2
=
𝑖=1
𝑝
𝑗=1
𝑞 𝑛𝑖𝑗 − 𝑛..𝑃𝑖𝑗
2
𝑛..𝑃𝑖𝑗
𝑛𝑖𝑗: 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑑𝑎 𝑏𝑖𝑑𝑖𝑚𝑒𝑛𝑠𝑖𝑜𝑛𝑎𝑙
𝑛..𝑃𝑖𝑗: 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑒𝑠𝑝𝑒𝑟𝑎𝑑𝑎 𝑏𝑖𝑑𝑖𝑚𝑒𝑛𝑠𝑖𝑜𝑛𝑎𝑙 en condición de independencia
𝐻0: 𝐼𝑁𝐷𝐸𝑃𝐸𝑁𝐷𝐸𝑁𝐶𝐼𝐴 𝐸𝑁𝑇𝑅𝐸 𝐿𝑂𝑆 𝐷𝑂𝑆 𝐶𝑅𝐼𝑇𝐸𝑅𝐼𝑂𝑆
𝐻1: 𝐷𝐸𝑃𝐸𝑁𝐷𝐸𝑁𝐶𝐼𝐴 𝐸𝑁𝑇𝑅𝐸 𝐿𝑂𝑆 𝐷𝑂𝑆 𝐶𝑅𝐼𝑇𝐸𝑅𝐼𝑂𝑆
43. TEST DE INDEPENDENCIA 𝑿𝟐
Ausencias Aprobado Reprobado
0 - 3 135 110
4 - 6 36 4
7 - 15 9 6
44. TEST DE INDEPENDENCIA 𝑿𝟐
Y1 Y2 . . .
Yj . . . Yq ni.
X12
X2
.
.
.
Xi nij
.
.
.
Xp
n.j n..
Y1 Y2 . . .
Yj . . . Yq
X12
X2
.
.
.
Xi
.
.
.
Xp
1
TABLA DE FRECUENCIA OBSERVADA TABLA DE FRECUENCIA ESPERADA
45. P - value
P – VALUE: ES UNA PROBABILIDAD. ES EL NIVEL (DE
SIGNIFICANCIA) MÁS BAJO EN EL QUE EL VALOR
OBSERVADO DE LA ESTADÍSTICA DE PRUEBA ES
SIGNIFICATIVO.
EL VALOR P - VALUE ES EL NIVEL DE SIGNIFICANCIA
MÁS PEQUEÑO QUE CONDUCE AL RECHAZO DE LA
HIPÓTESIS NULA HO.
49. QUE ES CHAID?
CHAID ES DESARROLLADA POR KASS, 1980 Y APORTACIONES DE
MAGIDSON, 1992.
EL MODELO CHAID ES UN MÉTODO EXPLORATORIO DEL
ANÁLISIS DE DATOS USADO PARA ESTUDIAR LAS RELACIONES
ENTRE UNA VARIABLE DEPENDIENTE Y UNA SERIE GRANDE DE
VARIABLES PREDICTORAS
CHAID SELECCIONA UN SISTEMA DE PREDICTORES Y DE SUS
INTERACCIONES QUE PREDICEN ÓPTIMAMENTE LA MEDIDA
DE LA VARIABLE DEPENDIENTE
50. CHAID
TIPOS DE VARIABLES EN UN ANÁLISIS
CHAID
VARIABLES PREDICTORAS: UNA O MÁS VARIABLES
PREDICTORAS, SE USAN PARA DEFINIR LOS SEGMENTOS
VARIABLE DEPENDIENTE: CRITERIO PARA CONSTRUIR
LOS SEGMENTOS. DEBE SER UNA VARIABLE
CATEGÓRICA.
51. CHAID
CLASIFICACIÓN DE LAS VARIABLES
PREDICTORAS
MONOTONIC: VARIABLES CUYAS CATEGORÍAS TIENEN
UN ORDEN NATURAL EN TODOS SUS NIVELES
FLOAT: VARIABLES MONOTONIC CON UNA ÚLTIMA
CATEGORÍA DE DATO PERDIDO
FREE: VARIABLES CUYAS CATEGORÍAS NO TIEN UN
ORDEN NATURAL. VARIABLES NOMINALES
52. CHAID
ALGORITMOS DE ÁRBOLES DE DECISIÓN
CHAID (Chi square Automatic Interaction Detector)
CHAID EXAUSTIVO
C&RT (Classification and Regression Tree)
QUEST (Quick Unbiased Efficient Statistical Test)
53. PERMITE LA DETECCIÓN AUTOMÁTICA DE INTERACCIONES
MEDIANTE CHI-CUADRADO. EN CADA PASO, CHAID ELIGE LA
VARIABLE INDEPENDIENTE (PREDICTORA) QUE PRESENTA LA
INTERACCIÓN MÁS FUERTE CON LA VARIABLE DEPENDIENTE.
LAS CATEGORÍAS DE CADA PREDICTOR SE FUNDEN SI NO SON
SIGNIFICATIVAMENTE DISTINTAS RESPECTO A LA VARIABLE
DEPENDIENTE
[HELP SPSS, 2017]
ALGORITMO CHAID
54. CHAID EXHAUSTIVO: SUPONE UNA
MODIFICACIÓN DE CHAID QUE EXAMINA TODAS
LAS DIVISIONES POSIBLES PARA CADA PREDICTOR
Y TRATA TODAS LAS VARIABLES POR IGUAL,
INDEPENDIENTEMENTE DEL TIPO Y EL NÚMERO
DE CATEGORÍAS [HELP SPSS, 2017]
ALGORITMO CHAID EXHAUSTIVO
55. (CRT-CLASSIFICATION AND REGRESSION TREES): CONSISTE EN
UN ALGORITMO DE ÁRBOLES DE CLASIFICACION Y
REGRESIÓN QUE HACE PARTICIONES DE LOS DATOS Y
GENERA SUBCONJUNTOS PRECISOS Y HOMOGÉNEOS.
CRT DIVIDE LOS DATOS EN SEGMENTOS PARA QUE SEAN LO
MÁS HOMOGÉNEOS POSIBLE RESPECTO A LA VARIABLE
DEPENDIENTE. UN NODO TERMINAL EN EL QUE TODOS LOS
CASOS TOMAN EL MISMO VALOR EN LA VARIABLE
DEPENDIENTE ES UN NODO HOMOGENEO Y “PURO”. [HELP SPSS,
2017]
ALGORITMO CRT
56. QUEST (QUICK, UNBIASED, EFFICIENT, STATISTICAL
TREE): ARBOL ESTADISTICO RAPIDO, INSESGADO Y
EFICIENTE. METODO RAPIDO Y QUE EVITA EL SESGO
QUE PRESENTAN OTROS METODOS AL FAVORECER
LOS PREDICTORES CON MUCHAS CATEGORIAS.
SOLO PUEDE ESPECIFICARSE SI LA VARIABLE
DEPENDIENTE ES NOMINAL. [HELP SPSS, 2017]
ALGORITMO QUEST
57. PROCESO CHAID
1. DETERMINACIÓN DE LAS VARIABLES A EXPLICAR Y DE LAS
VARIABLES PREDICTORAS.
2. TABULACIONES CRUZADAS ENTRE LAS VARIABLES
PREDICTORAS Y LA VARIABLE DEPENDIENTE
3. CÁLCULO DEL X2 PARA CADA TABLA FORMADA POR CADA
PAR DE CATEGORÍAS SUSCEPTIBLES DE UNIÓN Y LA
VARIABLE DEPENDIENTE.
4. ENTRE LOS PARES QUE RESULTAN NO SIGNIFICATIVOS
ESTADÍSTICAMENTE SE UNEN EN UNA SOLA CATEGORÍA.
5. OBTENCIÓN DEL P-VALUE. LA VARIABLE QUE TENGA EL
VALOR MÁS BAJO SE UTILIZA PARA DIVIDIR.
6. EL PROCESO SE REPITE HASTA QUE SE CONSIDEREN GRUPOS
DEMASIADO REDUCIDOS.
58. PROCESO CHAID
RESULTADO:
1. Información sobre las variables
2. Diagrama en árbol
3. Detalle de tablas cruzadas para cada nivel de la
segmentación
4. Tablas de ganancia
ESTO PERMITE DISPONER:
1. Segmentos identificados y sus características
2. Secuencia de partición con los predictores seleccionados
3. Agrupaciones entre categorías
4. Información sobre las interacciones entre variables.
61. PROCEDIMIENTO CHAID EN SPSS
PASO 1: INDICAR CUALES SON LAS VARIABLES PREDICTORAS
Y CUAL ES LA VARIABLE DEPENDIENTE
PASO 2: SELECCIÓN DE LA CATEGORIA DE INTERES EN LA
VARIABLE DEPENDIENTE
PASO 3. DEFINIR OPCIONES ESTANDAR DEL ALGORITMO DE
SEGMENTACION: MAXIMA PROFUNDIDAD DEL ARBOL,
TAMAÑO MINIMO DE SEGMENTO EN NODO PADRE Y
NODOS HIJO
PASO 4. EJECUTAR EL PROCEDIMIENTO
62. APLICACION DE CHAID EN SPSS
N = 2000 REGISTROS
EDAD. EDAD DEL INDIVIDUO: MENOS DE 30 AÑOS, DE 31 A 40, DE 41 A 55 Y MÁS DE 55
AÑOS.
ESTUDIOS REALIZADOS. ESTUDIOS REALIZADOS POR EL ENTREVISTADO: SIN
ESTUDIOS, PRIMARIOS, SECUNDARIO, LICENCIADO Y POSGRADO.
SEXO. SEXO DE LA PERSONA QUE RESPONDE: HOMBRE O MUJER
NIÑOS-4. PERTENECE A UNA FAMILIA CON O SIN HIJOS MENORES DE 4 AÑOS
ESTRUCF. ESTRUCTURA FAMILIAR, DISTINGUIENDO ENTRE: UNIPERSONAL,
MATRIMONIO SIN HIJOS, MATRIMONIO CON HIJOS, BIGENERACIONAL, SÓLO HIJOS Y
OTROS.
CAMEST. EN LOS DOS ÚLTIMOS AÑOS HA CAMBIADO (O NO) DE ESTABLECIMIENTO
COMERCIAL HABITUAL DONDE REALIZA SUS COMPRAS.