Analisis Multivariado Analisis Multivariado.pptx

Temario
 UNIDAD 1: Introducción al Análisis multivariado y limpieza de
base de datos.
 UNIDAD 2: Análisis de segmentación de mercados utilizando
modelos de interdependencia.
 UNIDAD 3: Análisis de técnicas multivariadas para la reducción
de dimensiones
 UNIDAD 4: Análisis de segmentación de mercados utilizando
modelos de dependencia.
 UNIDAD 5: Análisis de pronósticos utilizando técnicas
multivariadas.

Calificación
 Primer Momento
Unidades de Aprendizaje 1 y 2
 Segundo Momento
Unidades de Aprendizaje 3 y 4
 Momento Final
Unidad de Aprendizaje 5 y Trabajo Final

Calificación
 Primera Unidad
 Segundo a Cuarta Unidad
 Momento Final
 Evaluación Final - Trabajo Final 100%
AS- Examen Unidad 1 50% Individual Cuestionario
Trabajos en Aula 20% Individual Ejercicios prácticos
Trabajos para la casa 20% Grupal Ejercicios prácticos
Participación en aula - exámenes orales 10% Individual Prueba oral
Avance Trabajo Final 10% Individual Proyectos
Avance Trabajo Final 10% Individual Proyectos

Software a Utilizar:
 Excel - Office
 SPSS 21 o superior
 R – R Studio
 Python

Naturaleza del análisis multivariado
 Conjunto de métodos estadísticos cuya finalidad es
analizar simultáneamente conjuntos de datos
multivariantes, existiendo varias variables medidas
simultáneamente para cada individuo u objeto
estudiado.
 Se logra mejor comprensión del fenómeno.

Clasificación de las técnicas de
análisis multivariante
Métodos de
Dependencia
Métodos de
Interdependencia
Métodos
Estructurales

Métodos de Dependencia
Variable dependientes e independientes. Determinan si
las independientes afectan a las dependientes.
Se pueden clasificar en dos grupos:
Dependencia
Métrica
Dependencia
No Métrica

Dependiente cuantitativa Métrica
Predecir el ticket m
Información base para el
cálculo del LTV.
Análisis de Regresión Análisis de Supervivencia
Variable dependiente, es el
tiempo de supervivencia
del individuo. Ejemplo:
Predecir tiempo de
permanencia como cliente
en la empresa de un cliente
a partir de su consumo
promedio y de su edad.
Información base para el
cálculo del LTV.

Dependiente cuantitativa Métrica
Variables independientes
no son métricas y las
dependientes son métricas
y las dependientes son
métricas. Averiguan si hay
diferencia entre grupos.
Ejemplo: ¿hay diferencias
en el nivel de colesterol
por sexos?
Análisis de varianza Correlación Canónica
Relaciona variables
métricas dependientes e
interdependientes
calculando las
combinaciones lineales
que maximizan la
correlación existente.
Ejemplo: Analizar como
están relacionados el
tiempo dedicado al trabajo
y al ocio de una persona
con su nivel de ingresos,
edad y nivel de educación.

Dependiente cualitativa no Métrica

Métodos de interdependencia
 No distinguen entre variables dependientes e
independientes y su objetivo consiste en identificar que
variables están relacionadas, cómo lo están y el porqué.
 Se pueden clasificar en dos grupos:
Datos
métricos
Datos no
métricos

Métodos estructurales
 Analizan las relaciones existentes entre un grupo de
variables representadas por sistemas de ecuaciones
simultáneas en las que se suponen que algunas de ellas
(denominadas constructos) se miden con error a partir
de otras variables observables denominadas
indicadores.
 Constan de 2 partes:

LIMPIEZA DE DATOS
Sus datos se caracterizan por:
 No debería tener datos faltantes -› SPSS remplaza los
datos faltantes con la media y los resultados se pueden
distorsionar.
 No se desvía mucho de la desviación normal.
 No existen datos extremos (outliers) -› Previamente
deberá haber realizado
 limpieza de datos.

ELIMINAR DATOS FALTANTES
No debería tener datos faltantes.
Usted debería eliminar los datos faltantes de la matriz
de datos:
 Usted puede utilizar la siguiente sintaxis para realizar la
eliminación automática de casos por usted.
Filter off.
use all.
select if(not missing(NOMBRE DE LA VARIABLE)).
execute.

IDENTIFICAR OUTLIERS
No existen datos extremos (outliers).
 Basado en Tukey (1977) con el outlier labeling rule , para detectar outliers.
 Analice las distribuciones de los datos (Inicie SPSS -› Analizar -› Explorar)
 En Gráficas seleccione Histograma y en Estadísticas seleccione Valores atípicos y
Percentiles.

PASOS PARA REALIZAR ANÁLISIS DE
COMPONENTES PRINCIPALES
 Analice el histograma: ¿Cómo determinar que los valores de la
izquierda no son Outliers.
 Determine donde se encuentra el primer y el tercer cuartil para
determinar el limite superior y limite inferior.

 Utilizando el primer cuartil (Q1) y tercer cuartil (Q3) calcule los límites
utilizando la siguiente fórmula propuesta por Tukey (1977) y corregida por
Hoagling et al. (1987):
 Límite superior = Q3 + 1.5 * (Q3 - Q1)
 Límite inferior = Q1 - 1.5 * (Q3 - Q1)
 Compare el límite superior con los outliers que identificó SPSS:
 Límite superior = Q3 + 1.5 * (Q3 - Q1 ) = 9 + 1.5*(2) = 12.0
 Límite inferior = Q1 - 1.5 * (Q3 - Q1 ) = 7 - 1.5*(2) = 4.0
Existen valores en éste caso superiores a 12.0 y menores a 4.0
Revisar para todas las variables!!

 Si identificó outliers, elimínelos manualmente para tener una
base de datos sin outliers (Repetir para todas las variables)
 Límite superior = 12.0
 Límite inferior = 4.0

 Utilizando el primer cuartil (Q1) y tercer cuartil (Q3) calcule los limites
utilizando la siguiente formula propuesta por Tukey (1977) y corregida por
Hoagling et al. (1987):
 Límite superior = Q1 + 2.2 * (Q3 - Q1)
 Limite inferior = Q3 - 2.2 * (Q3 - Q1)
 Compare el limite superior con los outliers que identifico SPSS:
 Limite superior = Q1 + 2.2 * (Q3 - Q1 ) = 7 + 2.2*(2) = 11.4
 Limite inferior = Q2 - 2.2 * (Q3 - Q1 ) = 9 - 2.2*(2) = 4.6
No Existen valores en éste caso superiores a 11.4 y menores a 4.6
Revisar para todas las variables!!

Ing. Nicos Gustavo Escobar Prado

Definición de Mercado
Bajo la perspectiva de la demanda, el mercado puede
definirse como el conjunto de consumidores y/o
compradores que ejercen una demanda específica
sobre un producto o tipo de producto específico, y se
clasifica como:
Mercado Disponible.
Mercado Real.
Mercado Potencial.
Mercado Meta.

Niveles de Mercado
TAM
PAM
SAM
SOM

Definición de Segmentación
Proceso de división del mercado en
subgrupos homogéneos con el fin de llevar
a cabo una estrategia comercial
diferenciada que permita satisfacer de
forma más efectiva sus necesidades y
alcanzar los objetivos comerciales de la
empresa.

ENFOQUES
Segmentación a priori / posteriori.
Macrosegmentación / microsegmentación.
Segmentación de mercados / de productos.

CRITERIOS DE SEGMENTACIÓN
Objetivos.
 Generales.
 Específicos.
Subjetivos.
 Generales.
 Específicos.

ESTRATEGIAS DE SEGMENTACIÓN
Estrategias Genéricas de Segmentación:
 Diferenciada o generalista.
 Indiferenciada.
 Concentrada.
Estrategias Producto/Segmento:
 Especialista en Segmento.
 Especialista en Producto.
 Concentrado.
 Cobertura Total.
 Selectivo.
Multisegmento

SEGMENTACIÓN Y EL FUNNEL DE
VENTAS

ESQUEMA DE LA ESTADISTICA
ESTADISTICA DESCRIPTIVA 1 2 P
ESTIMACION TEST DE HIPOTESIS
ESTADISTICA INFERENCIAL
1 2 P 1 2 P
PROBABILIDADES
VARIABLE ALEATORIA
DISTRIBUCIONES DE PROBABILIDAD
DISTRIBUCIONES TEORICAS
BASES DE INFERENCIA
EDA
EXPLORING DATA ANALYSIS
1 2 P
ANÁLISIS EXPLORATORIO DE DATOS
RESUMEN DE LOS DATOS
GENERALIZACIÓN DE LOS DATOS
CONTROL DE CALIDAD DATOS
CHAID

PROCESO DE DATA MINING - CHAID
DETERMINACION DE
LOS OBJETIVOS
PRE
PROCESAMIENTO DE
LOS DATOS
DETERMINACION
DEL MODELO
ANALISIS DE LOS
RESULTADOS
BASE DE
DATOS
ANALISIS
MULTIVA
RIANTE
Requerimientos del
cliente
Selección
Limpieza
Reducción
Transformación
Análisis Estadístico
Visualización gráfica
LA MINERÍA DE DATOS ES LA EXTRACCIÓN
DE INFORMACIÓN IMPLÍCITA,
PREVIAMENTE DESCONOCIDA Y
POTENCIALMENTE ÚTIL A PARTIR DE
DATOS.
CHAID

ALGORITMOS DE DATA MINING - CHAID
CHAID
ALGORITMOS
PREDICCION
DESCRIPCION
SEGMENTACION
EXPLORATORIO
CLASIFICACION
REGRESION
DEPENDENCIA
ASOCIACION
CHAID

CHAID – METODOS MULTIVARIANTES
Y X1 X2 ... Xi ... Xp
1
2
...
j
...
n
X1 X2 ... Xi ... Xp X1 X2 ... Xi ... Xp X1 X2 ... Xi ... Xp X1 X2 ... Xi ... Xp
ACP CLUSTER CORRELACIÓN
CANÓNICA
MANOVA
RLB

TEST DE INDEPENDENCIA 𝑿𝟐
𝑋2
=
𝑖=1
𝑝
𝑗=1
𝑞 𝑛𝑖𝑗 − 𝑛..𝑃𝑖𝑗
2
𝑛..𝑃𝑖𝑗
𝑛𝑖𝑗: 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑑𝑎 𝑏𝑖𝑑𝑖𝑚𝑒𝑛𝑠𝑖𝑜𝑛𝑎𝑙
𝑛..𝑃𝑖𝑗: 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑒𝑠𝑝𝑒𝑟𝑎𝑑𝑎 𝑏𝑖𝑑𝑖𝑚𝑒𝑛𝑠𝑖𝑜𝑛𝑎𝑙 en condición de independencia
𝐻0: 𝐼𝑁𝐷𝐸𝑃𝐸𝑁𝐷𝐸𝑁𝐶𝐼𝐴 𝐸𝑁𝑇𝑅𝐸 𝐿𝑂𝑆 𝐷𝑂𝑆 𝐶𝑅𝐼𝑇𝐸𝑅𝐼𝑂𝑆
𝐻1: 𝐷𝐸𝑃𝐸𝑁𝐷𝐸𝑁𝐶𝐼𝐴 𝐸𝑁𝑇𝑅𝐸 𝐿𝑂𝑆 𝐷𝑂𝑆 𝐶𝑅𝐼𝑇𝐸𝑅𝐼𝑂𝑆

Ausencias Aprobado Reprobado
0 - 3 135 110
4 - 6 36 4
7 - 15 9 6

Y1 Y2 . . .
Yj . . . Yq ni.
X12
X2
.
.
.
Xi nij
.
.
.
Xp
n.j n..
Y1 Y2 . . .
Yj . . . Yq
X12
X2
.
.
.
Xi
.
.
.
Xp
1
TABLA DE FRECUENCIA OBSERVADA TABLA DE FRECUENCIA ESPERADA

P - value
P – VALUE: ES UNA PROBABILIDAD. ES EL NIVEL (DE
SIGNIFICANCIA) MÁS BAJO EN EL QUE EL VALOR
OBSERVADO DE LA ESTADÍSTICA DE PRUEBA ES
SIGNIFICATIVO.
EL VALOR P - VALUE ES EL NIVEL DE SIGNIFICANCIA
MÁS PEQUEÑO QUE CONDUCE AL RECHAZO DE LA
HIPÓTESIS NULA HO.

POTENCIA DE UN TEST Y TAMANO DE MUESTRA
𝐻0 VERDADERA 𝐻1 VERDADERA
𝐴𝐻0 1 - 𝛼 𝛽
𝑅𝐻0 𝛼 1 − 𝛽
1- 𝛼: 𝑁𝐼𝑉𝐸𝐿 𝐷𝐸 𝐶𝑂𝑁𝐹𝐼𝐴𝑁𝑍𝐴. 𝑃𝑅𝑂𝐵𝐴𝐵𝐼𝐿𝐼𝐷𝐴𝐷 𝐷𝐸 𝐴𝐶𝐸𝑃𝑇𝐴𝑅 𝐿𝐴 𝐻𝑜 𝐶𝑈𝐴𝑁𝐷𝑂 𝐸𝑆 𝑉𝐸𝑅𝐷𝐴𝐷𝐸𝑅𝐴
1 − 𝛽: 𝑃𝑂𝑇𝐸𝑁𝐶𝐼𝐴 𝐷𝐸𝐿 𝑇𝐸𝑆𝑇. 𝑃𝑅𝑂𝐵𝐴𝐵𝐼𝐿𝐼𝐷𝐴𝐷 𝐷𝐸 𝑅𝐸𝐶𝐻𝐴𝑅 𝐿𝐴 𝐻𝑜 𝐶𝑈𝐴𝑁𝐷𝑂 𝐸𝑆 𝐹𝐴𝐿𝑆𝐴
𝛼: 𝐸𝑅𝑅𝑂𝑅 𝑇𝐼𝑃𝑂 𝐼. 𝑃𝑅𝑂𝐵𝐴𝐵𝐼𝐿𝐼𝐷𝐴𝐷 𝐷𝐸 𝑅𝐸𝐶𝐻𝐴𝑅 𝐿𝐴 𝐻𝑜 𝐶𝑈𝐴𝑁𝐷𝑂 𝐸𝑆 𝑉𝐸𝑅𝐷𝐴𝐷𝐸𝑅𝐴
𝛽: 𝐸𝑅𝑅𝑂𝑅 𝑇𝐼𝑃𝑂 𝐼𝐼. 𝑃𝑅𝑂𝐵𝐴𝐵𝐼𝐿𝐼𝐷𝐴𝐷 𝐷𝐸 𝐴𝐶𝐸𝑃𝑇𝐴𝑅 𝐿𝐴 𝐻𝑜 𝐶𝑈𝐴𝑁𝐷𝑂 𝐸𝑆 𝐹𝐴𝐿𝑆𝐴

SEGMENTACIÓN
PROCESO DE IDENTIFICACIÓN DE SUBCONJUNTOS
HOMOGÉNEOS RESPECTO DE DETERMINADAS
CARACTERÍSTICAS Y HETEROGÉNEAS ENTRE SÍ.

QUE ES CHAID?
CHAID ES DESARROLLADA POR KASS, 1980 Y APORTACIONES DE
MAGIDSON, 1992.
EL MODELO CHAID ES UN MÉTODO EXPLORATORIO DEL
ANÁLISIS DE DATOS USADO PARA ESTUDIAR LAS RELACIONES
ENTRE UNA VARIABLE DEPENDIENTE Y UNA SERIE GRANDE DE
VARIABLES PREDICTORAS
CHAID SELECCIONA UN SISTEMA DE PREDICTORES Y DE SUS
INTERACCIONES QUE PREDICEN ÓPTIMAMENTE LA MEDIDA
DE LA VARIABLE DEPENDIENTE

CHAID
TIPOS DE VARIABLES EN UN ANÁLISIS
CHAID
 VARIABLES PREDICTORAS: UNA O MÁS VARIABLES
PREDICTORAS, SE USAN PARA DEFINIR LOS SEGMENTOS
 VARIABLE DEPENDIENTE: CRITERIO PARA CONSTRUIR
LOS SEGMENTOS. DEBE SER UNA VARIABLE
CATEGÓRICA.

CHAID
CLASIFICACIÓN DE LAS VARIABLES
PREDICTORAS
 MONOTONIC: VARIABLES CUYAS CATEGORÍAS TIENEN
UN ORDEN NATURAL EN TODOS SUS NIVELES
 FLOAT: VARIABLES MONOTONIC CON UNA ÚLTIMA
CATEGORÍA DE DATO PERDIDO
 FREE: VARIABLES CUYAS CATEGORÍAS NO TIEN UN
ORDEN NATURAL. VARIABLES NOMINALES

CHAID
ALGORITMOS DE ÁRBOLES DE DECISIÓN
 CHAID (Chi square Automatic Interaction Detector)
 CHAID EXAUSTIVO
 C&RT (Classification and Regression Tree)
 QUEST (Quick Unbiased Efficient Statistical Test)

PERMITE LA DETECCIÓN AUTOMÁTICA DE INTERACCIONES
MEDIANTE CHI-CUADRADO. EN CADA PASO, CHAID ELIGE LA
VARIABLE INDEPENDIENTE (PREDICTORA) QUE PRESENTA LA
INTERACCIÓN MÁS FUERTE CON LA VARIABLE DEPENDIENTE.
LAS CATEGORÍAS DE CADA PREDICTOR SE FUNDEN SI NO SON
SIGNIFICATIVAMENTE DISTINTAS RESPECTO A LA VARIABLE
DEPENDIENTE
[HELP SPSS, 2017]
ALGORITMO CHAID

CHAID EXHAUSTIVO: SUPONE UNA
MODIFICACIÓN DE CHAID QUE EXAMINA TODAS
LAS DIVISIONES POSIBLES PARA CADA PREDICTOR
Y TRATA TODAS LAS VARIABLES POR IGUAL,
INDEPENDIENTEMENTE DEL TIPO Y EL NÚMERO
DE CATEGORÍAS [HELP SPSS, 2017]
ALGORITMO CHAID EXHAUSTIVO

(CRT-CLASSIFICATION AND REGRESSION TREES): CONSISTE EN
UN ALGORITMO DE ÁRBOLES DE CLASIFICACION Y
REGRESIÓN QUE HACE PARTICIONES DE LOS DATOS Y
GENERA SUBCONJUNTOS PRECISOS Y HOMOGÉNEOS.
CRT DIVIDE LOS DATOS EN SEGMENTOS PARA QUE SEAN LO
MÁS HOMOGÉNEOS POSIBLE RESPECTO A LA VARIABLE
DEPENDIENTE. UN NODO TERMINAL EN EL QUE TODOS LOS
CASOS TOMAN EL MISMO VALOR EN LA VARIABLE
DEPENDIENTE ES UN NODO HOMOGENEO Y “PURO”. [HELP SPSS,
2017]
ALGORITMO CRT

QUEST (QUICK, UNBIASED, EFFICIENT, STATISTICAL
TREE): ARBOL ESTADISTICO RAPIDO, INSESGADO Y
EFICIENTE. METODO RAPIDO Y QUE EVITA EL SESGO
QUE PRESENTAN OTROS METODOS AL FAVORECER
LOS PREDICTORES CON MUCHAS CATEGORIAS.
SOLO PUEDE ESPECIFICARSE SI LA VARIABLE
DEPENDIENTE ES NOMINAL. [HELP SPSS, 2017]
ALGORITMO QUEST

PROCESO CHAID
1. DETERMINACIÓN DE LAS VARIABLES A EXPLICAR Y DE LAS
VARIABLES PREDICTORAS.
2. TABULACIONES CRUZADAS ENTRE LAS VARIABLES
PREDICTORAS Y LA VARIABLE DEPENDIENTE
3. CÁLCULO DEL X2 PARA CADA TABLA FORMADA POR CADA
PAR DE CATEGORÍAS SUSCEPTIBLES DE UNIÓN Y LA
VARIABLE DEPENDIENTE.
4. ENTRE LOS PARES QUE RESULTAN NO SIGNIFICATIVOS
ESTADÍSTICAMENTE SE UNEN EN UNA SOLA CATEGORÍA.
5. OBTENCIÓN DEL P-VALUE. LA VARIABLE QUE TENGA EL
VALOR MÁS BAJO SE UTILIZA PARA DIVIDIR.
6. EL PROCESO SE REPITE HASTA QUE SE CONSIDEREN GRUPOS
DEMASIADO REDUCIDOS.

PROCESO CHAID
RESULTADO:
1. Información sobre las variables
2. Diagrama en árbol
3. Detalle de tablas cruzadas para cada nivel de la
segmentación
4. Tablas de ganancia
ESTO PERMITE DISPONER:
1. Segmentos identificados y sus características
2. Secuencia de partición con los predictores seleccionados
3. Agrupaciones entre categorías
4. Información sobre las interacciones entre variables.

PROCEDIMIENTO CHAID EN SPSS
 PASO 1: INDICAR CUALES SON LAS VARIABLES PREDICTORAS
Y CUAL ES LA VARIABLE DEPENDIENTE
 PASO 2: SELECCIÓN DE LA CATEGORIA DE INTERES EN LA
VARIABLE DEPENDIENTE
 PASO 3. DEFINIR OPCIONES ESTANDAR DEL ALGORITMO DE
SEGMENTACION: MAXIMA PROFUNDIDAD DEL ARBOL,
TAMAÑO MINIMO DE SEGMENTO EN NODO PADRE Y
NODOS HIJO
 PASO 4. EJECUTAR EL PROCEDIMIENTO

APLICACION DE CHAID EN SPSS
N = 2000 REGISTROS
EDAD. EDAD DEL INDIVIDUO: MENOS DE 30 AÑOS, DE 31 A 40, DE 41 A 55 Y MÁS DE 55
AÑOS.
ESTUDIOS REALIZADOS. ESTUDIOS REALIZADOS POR EL ENTREVISTADO: SIN
ESTUDIOS, PRIMARIOS, SECUNDARIO, LICENCIADO Y POSGRADO.
SEXO. SEXO DE LA PERSONA QUE RESPONDE: HOMBRE O MUJER
NIÑOS-4. PERTENECE A UNA FAMILIA CON O SIN HIJOS MENORES DE 4 AÑOS
ESTRUCF. ESTRUCTURA FAMILIAR, DISTINGUIENDO ENTRE: UNIPERSONAL,
MATRIMONIO SIN HIJOS, MATRIMONIO CON HIJOS, BIGENERACIONAL, SÓLO HIJOS Y
OTROS.
CAMEST. EN LOS DOS ÚLTIMOS AÑOS HA CAMBIADO (O NO) DE ESTABLECIMIENTO
COMERCIAL HABITUAL DONDE REALIZA SUS COMPRAS.

Analisis Multivariado Analisis Multivariado.pptx

Analisis Multivariado Analisis Multivariado.pptx

Recomendados

Recomendados

Más contenido relacionado

Similar a Analisis Multivariado Analisis Multivariado.pptx

Similar a Analisis Multivariado Analisis Multivariado.pptx (20)

Último

Último (20)

Analisis Multivariado Analisis Multivariado.pptx