SlideShare una empresa de Scribd logo
1 de 63
Ing. Nicos Escobar Prado
Temario
 UNIDAD 1: Introducción al Análisis multivariado y limpieza de
base de datos.
 UNIDAD 2: Análisis de segmentación de mercados utilizando
modelos de interdependencia.
 UNIDAD 3: Análisis de técnicas multivariadas para la reducción
de dimensiones
 UNIDAD 4: Análisis de segmentación de mercados utilizando
modelos de dependencia.
 UNIDAD 5: Análisis de pronósticos utilizando técnicas
multivariadas.
Calificación
 Primer Momento
Unidades de Aprendizaje 1 y 2
 Segundo Momento
Unidades de Aprendizaje 3 y 4
 Momento Final
Unidad de Aprendizaje 5 y Trabajo Final
Calificación
 Primera Unidad
 Segundo a Cuarta Unidad
 Momento Final
 Evaluación Final - Trabajo Final 100%
AS- Examen Unidad 1 50% Individual Cuestionario
Trabajos en Aula 20% Individual Ejercicios prácticos
Trabajos para la casa 20% Grupal Ejercicios prácticos
Participación en aula - exámenes orales 10% Individual Prueba oral
AS- Examen Unidad 2 50% Individual Cuestionario
Trabajos en Aula 15% Individual Ejercicios prácticos
Trabajos para la casa 15% Grupal Ejercicios prácticos
Participación en aula - exámenes orales 10% Individual Prueba oral
Avance Trabajo Final 10% Individual Proyectos
AS- Examen Unidad 5 50% Individual Cuestionario
Trabajos en Aula 15% Individual Ejercicios prácticos
Trabajos para la casa 15% Grupal Ejercicios prácticos
Participación en aula - exámenes orales 10% Individual Prueba oral
Avance Trabajo Final 10% Individual Proyectos
Software a Utilizar:
 Excel - Office
 SPSS 21 o superior
 R – R Studio
 Python
Naturaleza del análisis multivariado
 Conjunto de métodos estadísticos cuya finalidad es
analizar simultáneamente conjuntos de datos
multivariantes, existiendo varias variables medidas
simultáneamente para cada individuo u objeto
estudiado.
 Se logra mejor comprensión del fenómeno.
Clasificación de las técnicas de
análisis multivariante
Métodos de
Dependencia
Métodos de
Interdependencia
Métodos
Estructurales
Métodos de Dependencia
Variable dependientes e independientes. Determinan si
las independientes afectan a las dependientes.
Se pueden clasificar en dos grupos:
Dependencia
Métrica
Dependencia
No Métrica
Dependiente cuantitativa Métrica
Predecir el ticket m
Información base para el
cálculo del LTV.
Análisis de Regresión Análisis de Supervivencia
Variable dependiente, es el
tiempo de supervivencia
del individuo. Ejemplo:
Predecir tiempo de
permanencia como cliente
en la empresa de un cliente
a partir de su consumo
promedio y de su edad.
Información base para el
cálculo del LTV.
Dependiente cuantitativa Métrica
Variables independientes
no son métricas y las
dependientes son métricas
y las dependientes son
métricas. Averiguan si hay
diferencia entre grupos.
Ejemplo: ¿hay diferencias
en el nivel de colesterol
por sexos?
Análisis de varianza Correlación Canónica
Relaciona variables
métricas dependientes e
interdependientes
calculando las
combinaciones lineales
que maximizan la
correlación existente.
Ejemplo: Analizar como
están relacionados el
tiempo dedicado al trabajo
y al ocio de una persona
con su nivel de ingresos,
edad y nivel de educación.
Dependiente cualitativa no Métrica
Métodos de interdependencia
 No distinguen entre variables dependientes e
independientes y su objetivo consiste en identificar que
variables están relacionadas, cómo lo están y el porqué.
 Se pueden clasificar en dos grupos:
Datos
métricos
Datos no
métricos
Datos métricos
Datos no métricos
Métodos estructurales
 Analizan las relaciones existentes entre un grupo de
variables representadas por sistemas de ecuaciones
simultáneas en las que se suponen que algunas de ellas
(denominadas constructos) se miden con error a partir
de otras variables observables denominadas
indicadores.
 Constan de 2 partes:
LIMPIEZA DE DATOS
Sus datos se caracterizan por:
 No debería tener datos faltantes -› SPSS remplaza los
datos faltantes con la media y los resultados se pueden
distorsionar.
 No se desvía mucho de la desviación normal.
 No existen datos extremos (outliers) -› Previamente
deberá haber realizado
 limpieza de datos.
ELIMINAR DATOS FALTANTES
No debería tener datos faltantes.
Usted debería eliminar los datos faltantes de la matriz
de datos:
 Usted puede utilizar la siguiente sintaxis para realizar la
eliminación automática de casos por usted.
Filter off.
use all.
select if(not missing(NOMBRE DE LA VARIABLE)).
execute.
USO DE SINTAXIS EN SPSS
IDENTIFICAR OUTLIERS
No existen datos extremos (outliers).
 Basado en Tukey (1977) con el outlier labeling rule , para detectar outliers.
 Analice las distribuciones de los datos (Inicie SPSS -› Analizar -› Explorar)
 En Gráficas seleccione Histograma y en Estadísticas seleccione Valores atípicos y
Percentiles.
PASOS PARA REALIZAR ANÁLISIS DE
COMPONENTES PRINCIPALES
 Analice el histograma: ¿Cómo determinar que los valores de la
izquierda no son Outliers.
 Determine donde se encuentra el primer y el tercer cuartil para
determinar el limite superior y limite inferior.
PASOS PARA REALIZAR ANÁLISIS DE
COMPONENTES PRINCIPALES
 Utilizando el primer cuartil (Q1) y tercer cuartil (Q3) calcule los límites
utilizando la siguiente fórmula propuesta por Tukey (1977) y corregida por
Hoagling et al. (1987):
 Límite superior = Q3 + 1.5 * (Q3 - Q1)
 Límite inferior = Q1 - 1.5 * (Q3 - Q1)
 Compare el límite superior con los outliers que identificó SPSS:
 Límite superior = Q3 + 1.5 * (Q3 - Q1 ) = 9 + 1.5*(2) = 12.0
 Límite inferior = Q1 - 1.5 * (Q3 - Q1 ) = 7 - 1.5*(2) = 4.0
Existen valores en éste caso superiores a 12.0 y menores a 4.0
Revisar para todas las variables!!
PASOS PARA REALIZAR ANÁLISIS DE
COMPONENTES PRINCIPALES
 Si identificó outliers, elimínelos manualmente para tener una
base de datos sin outliers (Repetir para todas las variables)
 Límite superior = 12.0
 Límite inferior = 4.0
PASOS PARA REALIZAR ANÁLISIS DE
COMPONENTES PRINCIPALES
 Utilizando el primer cuartil (Q1) y tercer cuartil (Q3) calcule los limites
utilizando la siguiente formula propuesta por Tukey (1977) y corregida por
Hoagling et al. (1987):
 Límite superior = Q1 + 2.2 * (Q3 - Q1)
 Limite inferior = Q3 - 2.2 * (Q3 - Q1)
 Compare el limite superior con los outliers que identifico SPSS:
 Limite superior = Q1 + 2.2 * (Q3 - Q1 ) = 7 + 2.2*(2) = 11.4
 Limite inferior = Q2 - 2.2 * (Q3 - Q1 ) = 9 - 2.2*(2) = 4.6
No Existen valores en éste caso superiores a 11.4 y menores a 4.6
Revisar para todas las variables!!
Ing. Nicos Gustavo Escobar Prado
Definición de Mercado
Bajo la perspectiva de la demanda, el mercado puede
definirse como el conjunto de consumidores y/o
compradores que ejercen una demanda específica
sobre un producto o tipo de producto específico, y se
clasifica como:
Mercado Disponible.
Mercado Real.
Mercado Potencial.
Mercado Meta.
Niveles de Mercado
TAM
PAM
SAM
SOM
Definición de Segmentación
Proceso de división del mercado en
subgrupos homogéneos con el fin de llevar
a cabo una estrategia comercial
diferenciada que permita satisfacer de
forma más efectiva sus necesidades y
alcanzar los objetivos comerciales de la
empresa.
ENFOQUES
Segmentación a priori / posteriori.
Macrosegmentación / microsegmentación.
Segmentación de mercados / de productos.
CRITERIOS DE SEGMENTACIÓN
Objetivos.
 Generales.
 Específicos.
Subjetivos.
 Generales.
 Específicos.
ESTRATEGIAS DE SEGMENTACIÓN
Estrategias Genéricas de Segmentación:
 Diferenciada o generalista.
 Indiferenciada.
 Concentrada.
Estrategias Producto/Segmento:
 Especialista en Segmento.
 Especialista en Producto.
 Concentrado.
 Cobertura Total.
 Selectivo.
Multisegmento
SEGMENTACIÓN Y EL FUNNEL DE
VENTAS
ESQUEMA DE LA ESTADISTICA
ESTADISTICA DESCRIPTIVA 1 2 P
ESTIMACION TEST DE HIPOTESIS
ESTADISTICA INFERENCIAL
1 2 P 1 2 P
PROBABILIDADES
VARIABLE ALEATORIA
DISTRIBUCIONES DE PROBABILIDAD
DISTRIBUCIONES TEORICAS
BASES DE INFERENCIA
EDA
EXPLORING DATA ANALYSIS
1 2 P
ANÁLISIS EXPLORATORIO DE DATOS
RESUMEN DE LOS DATOS
GENERALIZACIÓN DE LOS DATOS
CONTROL DE CALIDAD DATOS
CHAID
PROCESO DE DATA MINING - CHAID
DETERMINACION DE
LOS OBJETIVOS
PRE
PROCESAMIENTO DE
LOS DATOS
DETERMINACION
DEL MODELO
ANALISIS DE LOS
RESULTADOS
BASE DE
DATOS
ANALISIS
MULTIVA
RIANTE
Requerimientos del
cliente
Selección
Limpieza
Reducción
Transformación
Análisis Estadístico
Visualización gráfica
LA MINERÍA DE DATOS ES LA EXTRACCIÓN
DE INFORMACIÓN IMPLÍCITA,
PREVIAMENTE DESCONOCIDA Y
POTENCIALMENTE ÚTIL A PARTIR DE
DATOS.
CHAID
ALGORITMOS DE DATA MINING - CHAID
CHAID
ALGORITMOS
PREDICCION
DESCRIPCION
SEGMENTACION
EXPLORATORIO
CLASIFICACION
REGRESION
DEPENDENCIA
ASOCIACION
CHAID
CHAID – METODOS MULTIVARIANTES
Y X1 X2 ... Xi ... Xp
1
2
...
j
...
n
X1 X2 ... Xi ... Xp X1 X2 ... Xi ... Xp X1 X2 ... Xi ... Xp X1 X2 ... Xi ... Xp
ACP CLUSTER CORRELACIÓN
CANÓNICA
MANOVA
RLB
TEST DE INDEPENDENCIA 𝑿𝟐
𝑋2
=
𝑖=1
𝑝
𝑗=1
𝑞 𝑛𝑖𝑗 − 𝑛..𝑃𝑖𝑗
2
𝑛..𝑃𝑖𝑗
𝑛𝑖𝑗: 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑑𝑎 𝑏𝑖𝑑𝑖𝑚𝑒𝑛𝑠𝑖𝑜𝑛𝑎𝑙
𝑛..𝑃𝑖𝑗: 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑒𝑠𝑝𝑒𝑟𝑎𝑑𝑎 𝑏𝑖𝑑𝑖𝑚𝑒𝑛𝑠𝑖𝑜𝑛𝑎𝑙 en condición de independencia
𝐻0: 𝐼𝑁𝐷𝐸𝑃𝐸𝑁𝐷𝐸𝑁𝐶𝐼𝐴 𝐸𝑁𝑇𝑅𝐸 𝐿𝑂𝑆 𝐷𝑂𝑆 𝐶𝑅𝐼𝑇𝐸𝑅𝐼𝑂𝑆
𝐻1: 𝐷𝐸𝑃𝐸𝑁𝐷𝐸𝑁𝐶𝐼𝐴 𝐸𝑁𝑇𝑅𝐸 𝐿𝑂𝑆 𝐷𝑂𝑆 𝐶𝑅𝐼𝑇𝐸𝑅𝐼𝑂𝑆
TEST DE INDEPENDENCIA 𝑿𝟐
Ausencias Aprobado Reprobado
0 - 3 135 110
4 - 6 36 4
7 - 15 9 6
TEST DE INDEPENDENCIA 𝑿𝟐
Y1 Y2 . . .
Yj . . . Yq ni.
X12
X2
.
.
.
Xi nij
.
.
.
Xp
n.j n..
Y1 Y2 . . .
Yj . . . Yq
X12
X2
.
.
.
Xi
.
.
.
Xp
1
TABLA DE FRECUENCIA OBSERVADA TABLA DE FRECUENCIA ESPERADA
P - value
P – VALUE: ES UNA PROBABILIDAD. ES EL NIVEL (DE
SIGNIFICANCIA) MÁS BAJO EN EL QUE EL VALOR
OBSERVADO DE LA ESTADÍSTICA DE PRUEBA ES
SIGNIFICATIVO.
EL VALOR P - VALUE ES EL NIVEL DE SIGNIFICANCIA
MÁS PEQUEÑO QUE CONDUCE AL RECHAZO DE LA
HIPÓTESIS NULA HO.
POTENCIA DE UN TEST Y TAMANO DE MUESTRA
𝐻0 VERDADERA 𝐻1 VERDADERA
𝐴𝐻0 1 - 𝛼 𝛽
𝑅𝐻0 𝛼 1 − 𝛽
1- 𝛼: 𝑁𝐼𝑉𝐸𝐿 𝐷𝐸 𝐶𝑂𝑁𝐹𝐼𝐴𝑁𝑍𝐴. 𝑃𝑅𝑂𝐵𝐴𝐵𝐼𝐿𝐼𝐷𝐴𝐷 𝐷𝐸 𝐴𝐶𝐸𝑃𝑇𝐴𝑅 𝐿𝐴 𝐻𝑜 𝐶𝑈𝐴𝑁𝐷𝑂 𝐸𝑆 𝑉𝐸𝑅𝐷𝐴𝐷𝐸𝑅𝐴
1 − 𝛽: 𝑃𝑂𝑇𝐸𝑁𝐶𝐼𝐴 𝐷𝐸𝐿 𝑇𝐸𝑆𝑇. 𝑃𝑅𝑂𝐵𝐴𝐵𝐼𝐿𝐼𝐷𝐴𝐷 𝐷𝐸 𝑅𝐸𝐶𝐻𝐴𝑅 𝐿𝐴 𝐻𝑜 𝐶𝑈𝐴𝑁𝐷𝑂 𝐸𝑆 𝐹𝐴𝐿𝑆𝐴
𝛼: 𝐸𝑅𝑅𝑂𝑅 𝑇𝐼𝑃𝑂 𝐼. 𝑃𝑅𝑂𝐵𝐴𝐵𝐼𝐿𝐼𝐷𝐴𝐷 𝐷𝐸 𝑅𝐸𝐶𝐻𝐴𝑅 𝐿𝐴 𝐻𝑜 𝐶𝑈𝐴𝑁𝐷𝑂 𝐸𝑆 𝑉𝐸𝑅𝐷𝐴𝐷𝐸𝑅𝐴
𝛽: 𝐸𝑅𝑅𝑂𝑅 𝑇𝐼𝑃𝑂 𝐼𝐼. 𝑃𝑅𝑂𝐵𝐴𝐵𝐼𝐿𝐼𝐷𝐴𝐷 𝐷𝐸 𝐴𝐶𝐸𝑃𝑇𝐴𝑅 𝐿𝐴 𝐻𝑜 𝐶𝑈𝐴𝑁𝐷𝑂 𝐸𝑆 𝐹𝐴𝐿𝑆𝐴
SEGMENTACIÓN
PROCESO DE IDENTIFICACIÓN DE SUBCONJUNTOS
HOMOGÉNEOS RESPECTO DE DETERMINADAS
CARACTERÍSTICAS Y HETEROGÉNEAS ENTRE SÍ.
QUE ES CHAID?
CHAID ES DESARROLLADA POR KASS, 1980 Y APORTACIONES DE
MAGIDSON, 1992.
EL MODELO CHAID ES UN MÉTODO EXPLORATORIO DEL
ANÁLISIS DE DATOS USADO PARA ESTUDIAR LAS RELACIONES
ENTRE UNA VARIABLE DEPENDIENTE Y UNA SERIE GRANDE DE
VARIABLES PREDICTORAS
CHAID SELECCIONA UN SISTEMA DE PREDICTORES Y DE SUS
INTERACCIONES QUE PREDICEN ÓPTIMAMENTE LA MEDIDA
DE LA VARIABLE DEPENDIENTE
CHAID
TIPOS DE VARIABLES EN UN ANÁLISIS
CHAID
 VARIABLES PREDICTORAS: UNA O MÁS VARIABLES
PREDICTORAS, SE USAN PARA DEFINIR LOS SEGMENTOS
 VARIABLE DEPENDIENTE: CRITERIO PARA CONSTRUIR
LOS SEGMENTOS. DEBE SER UNA VARIABLE
CATEGÓRICA.
CHAID
CLASIFICACIÓN DE LAS VARIABLES
PREDICTORAS
 MONOTONIC: VARIABLES CUYAS CATEGORÍAS TIENEN
UN ORDEN NATURAL EN TODOS SUS NIVELES
 FLOAT: VARIABLES MONOTONIC CON UNA ÚLTIMA
CATEGORÍA DE DATO PERDIDO
 FREE: VARIABLES CUYAS CATEGORÍAS NO TIEN UN
ORDEN NATURAL. VARIABLES NOMINALES
CHAID
ALGORITMOS DE ÁRBOLES DE DECISIÓN
 CHAID (Chi square Automatic Interaction Detector)
 CHAID EXAUSTIVO
 C&RT (Classification and Regression Tree)
 QUEST (Quick Unbiased Efficient Statistical Test)
PERMITE LA DETECCIÓN AUTOMÁTICA DE INTERACCIONES
MEDIANTE CHI-CUADRADO. EN CADA PASO, CHAID ELIGE LA
VARIABLE INDEPENDIENTE (PREDICTORA) QUE PRESENTA LA
INTERACCIÓN MÁS FUERTE CON LA VARIABLE DEPENDIENTE.
LAS CATEGORÍAS DE CADA PREDICTOR SE FUNDEN SI NO SON
SIGNIFICATIVAMENTE DISTINTAS RESPECTO A LA VARIABLE
DEPENDIENTE
[HELP SPSS, 2017]
ALGORITMO CHAID
CHAID EXHAUSTIVO: SUPONE UNA
MODIFICACIÓN DE CHAID QUE EXAMINA TODAS
LAS DIVISIONES POSIBLES PARA CADA PREDICTOR
Y TRATA TODAS LAS VARIABLES POR IGUAL,
INDEPENDIENTEMENTE DEL TIPO Y EL NÚMERO
DE CATEGORÍAS [HELP SPSS, 2017]
ALGORITMO CHAID EXHAUSTIVO
(CRT-CLASSIFICATION AND REGRESSION TREES): CONSISTE EN
UN ALGORITMO DE ÁRBOLES DE CLASIFICACION Y
REGRESIÓN QUE HACE PARTICIONES DE LOS DATOS Y
GENERA SUBCONJUNTOS PRECISOS Y HOMOGÉNEOS.
CRT DIVIDE LOS DATOS EN SEGMENTOS PARA QUE SEAN LO
MÁS HOMOGÉNEOS POSIBLE RESPECTO A LA VARIABLE
DEPENDIENTE. UN NODO TERMINAL EN EL QUE TODOS LOS
CASOS TOMAN EL MISMO VALOR EN LA VARIABLE
DEPENDIENTE ES UN NODO HOMOGENEO Y “PURO”. [HELP SPSS,
2017]
ALGORITMO CRT
QUEST (QUICK, UNBIASED, EFFICIENT, STATISTICAL
TREE): ARBOL ESTADISTICO RAPIDO, INSESGADO Y
EFICIENTE. METODO RAPIDO Y QUE EVITA EL SESGO
QUE PRESENTAN OTROS METODOS AL FAVORECER
LOS PREDICTORES CON MUCHAS CATEGORIAS.
SOLO PUEDE ESPECIFICARSE SI LA VARIABLE
DEPENDIENTE ES NOMINAL. [HELP SPSS, 2017]
ALGORITMO QUEST
PROCESO CHAID
1. DETERMINACIÓN DE LAS VARIABLES A EXPLICAR Y DE LAS
VARIABLES PREDICTORAS.
2. TABULACIONES CRUZADAS ENTRE LAS VARIABLES
PREDICTORAS Y LA VARIABLE DEPENDIENTE
3. CÁLCULO DEL X2 PARA CADA TABLA FORMADA POR CADA
PAR DE CATEGORÍAS SUSCEPTIBLES DE UNIÓN Y LA
VARIABLE DEPENDIENTE.
4. ENTRE LOS PARES QUE RESULTAN NO SIGNIFICATIVOS
ESTADÍSTICAMENTE SE UNEN EN UNA SOLA CATEGORÍA.
5. OBTENCIÓN DEL P-VALUE. LA VARIABLE QUE TENGA EL
VALOR MÁS BAJO SE UTILIZA PARA DIVIDIR.
6. EL PROCESO SE REPITE HASTA QUE SE CONSIDEREN GRUPOS
DEMASIADO REDUCIDOS.
PROCESO CHAID
RESULTADO:
1. Información sobre las variables
2. Diagrama en árbol
3. Detalle de tablas cruzadas para cada nivel de la
segmentación
4. Tablas de ganancia
ESTO PERMITE DISPONER:
1. Segmentos identificados y sus características
2. Secuencia de partición con los predictores seleccionados
3. Agrupaciones entre categorías
4. Información sobre las interacciones entre variables.
ÁRBOL CHAID
PROCEDIMIENTO CHAID EN SPSS
PROCEDIMIENTO CHAID EN SPSS
 PASO 1: INDICAR CUALES SON LAS VARIABLES PREDICTORAS
Y CUAL ES LA VARIABLE DEPENDIENTE
 PASO 2: SELECCIÓN DE LA CATEGORIA DE INTERES EN LA
VARIABLE DEPENDIENTE
 PASO 3. DEFINIR OPCIONES ESTANDAR DEL ALGORITMO DE
SEGMENTACION: MAXIMA PROFUNDIDAD DEL ARBOL,
TAMAÑO MINIMO DE SEGMENTO EN NODO PADRE Y
NODOS HIJO
 PASO 4. EJECUTAR EL PROCEDIMIENTO
APLICACION DE CHAID EN SPSS
N = 2000 REGISTROS
EDAD. EDAD DEL INDIVIDUO: MENOS DE 30 AÑOS, DE 31 A 40, DE 41 A 55 Y MÁS DE 55
AÑOS.
ESTUDIOS REALIZADOS. ESTUDIOS REALIZADOS POR EL ENTREVISTADO: SIN
ESTUDIOS, PRIMARIOS, SECUNDARIO, LICENCIADO Y POSGRADO.
SEXO. SEXO DE LA PERSONA QUE RESPONDE: HOMBRE O MUJER
NIÑOS-4. PERTENECE A UNA FAMILIA CON O SIN HIJOS MENORES DE 4 AÑOS
ESTRUCF. ESTRUCTURA FAMILIAR, DISTINGUIENDO ENTRE: UNIPERSONAL,
MATRIMONIO SIN HIJOS, MATRIMONIO CON HIJOS, BIGENERACIONAL, SÓLO HIJOS Y
OTROS.
CAMEST. EN LOS DOS ÚLTIMOS AÑOS HA CAMBIADO (O NO) DE ESTABLECIMIENTO
COMERCIAL HABITUAL DONDE REALIZA SUS COMPRAS.
Analisis Multivariado Analisis Multivariado.pptx

Más contenido relacionado

Similar a Analisis Multivariado Analisis Multivariado.pptx

TRABAJO FINAL ESTADISTICA (1) (1).pdf
TRABAJO FINAL ESTADISTICA (1) (1).pdfTRABAJO FINAL ESTADISTICA (1) (1).pdf
TRABAJO FINAL ESTADISTICA (1) (1).pdfKiraAleMt
 
Blog, conceptos de programación, métodos estadísticos (1)
Blog, conceptos  de programación, métodos estadísticos (1)Blog, conceptos  de programación, métodos estadísticos (1)
Blog, conceptos de programación, métodos estadísticos (1)Juanda Mosquera
 
Clase 5 Datos e información.pptx
Clase 5 Datos e información.pptxClase 5 Datos e información.pptx
Clase 5 Datos e información.pptxHaroldOyarvide
 
Clase de introducción a la estadística
Clase de introducción a la estadísticaClase de introducción a la estadística
Clase de introducción a la estadísticaDaniel Remondegui
 
10. Análisis de datos cuantitativos.pptx
10. Análisis de datos cuantitativos.pptx10. Análisis de datos cuantitativos.pptx
10. Análisis de datos cuantitativos.pptxVictorReyes883901
 
_Mundo de los Datos (1).pdf
_Mundo de los Datos  (1).pdf_Mundo de los Datos  (1).pdf
_Mundo de los Datos (1).pdfKamZee1
 
iWe_3 Selección de Mercados, Canales y Clientes
iWe_3 Selección de Mercados, Canales y ClientesiWe_3 Selección de Mercados, Canales y Clientes
iWe_3 Selección de Mercados, Canales y ClientesElías Azulay Tapiero
 
Probabilidad y estadística
Probabilidad y estadísticaProbabilidad y estadística
Probabilidad y estadísticaLeo Cisf
 
Taller en clase 02
Taller en clase 02Taller en clase 02
Taller en clase 02bsllozad
 
Proyeccion de la demanda
Proyeccion de la demandaProyeccion de la demanda
Proyeccion de la demandamerlicmedina910
 
Uso de herramientas estadisticas con minitab
Uso de herramientas estadisticas con minitabUso de herramientas estadisticas con minitab
Uso de herramientas estadisticas con minitabCESAR MORENO
 

Similar a Analisis Multivariado Analisis Multivariado.pptx (20)

Estudio demercado
Estudio demercadoEstudio demercado
Estudio demercado
 
TRABAJO FINAL ESTADISTICA (1) (1).pdf
TRABAJO FINAL ESTADISTICA (1) (1).pdfTRABAJO FINAL ESTADISTICA (1) (1).pdf
TRABAJO FINAL ESTADISTICA (1) (1).pdf
 
Blog, conceptos de programación, métodos estadísticos (1)
Blog, conceptos  de programación, métodos estadísticos (1)Blog, conceptos  de programación, métodos estadísticos (1)
Blog, conceptos de programación, métodos estadísticos (1)
 
Clase 5 Datos e información.pptx
Clase 5 Datos e información.pptxClase 5 Datos e información.pptx
Clase 5 Datos e información.pptx
 
estadisticas.pdf
estadisticas.pdfestadisticas.pdf
estadisticas.pdf
 
Clase de introducción a la estadística
Clase de introducción a la estadísticaClase de introducción a la estadística
Clase de introducción a la estadística
 
Estadística descriptiva
Estadística descriptivaEstadística descriptiva
Estadística descriptiva
 
Estadística educativa mhd 2013 2
Estadística educativa mhd 2013 2Estadística educativa mhd 2013 2
Estadística educativa mhd 2013 2
 
10. Análisis de datos cuantitativos.pptx
10. Análisis de datos cuantitativos.pptx10. Análisis de datos cuantitativos.pptx
10. Análisis de datos cuantitativos.pptx
 
_Mundo de los Datos (1).pdf
_Mundo de los Datos  (1).pdf_Mundo de los Datos  (1).pdf
_Mundo de los Datos (1).pdf
 
iWe_3 Selección de Mercados, Canales y Clientes
iWe_3 Selección de Mercados, Canales y ClientesiWe_3 Selección de Mercados, Canales y Clientes
iWe_3 Selección de Mercados, Canales y Clientes
 
Rolinvestigacion
RolinvestigacionRolinvestigacion
Rolinvestigacion
 
Estadística 1
Estadística                                                         1Estadística                                                         1
Estadística 1
 
Probabilidad y estadística
Probabilidad y estadísticaProbabilidad y estadística
Probabilidad y estadística
 
Taller en clase 02
Taller en clase 02Taller en clase 02
Taller en clase 02
 
Proyeccion de la demanda
Proyeccion de la demandaProyeccion de la demanda
Proyeccion de la demanda
 
Invest Mercados 1 - Sem 2.ppt
Invest Mercados 1 - Sem 2.pptInvest Mercados 1 - Sem 2.ppt
Invest Mercados 1 - Sem 2.ppt
 
Estadistica
EstadisticaEstadistica
Estadistica
 
Uso de herramientas estadisticas con minitab
Uso de herramientas estadisticas con minitabUso de herramientas estadisticas con minitab
Uso de herramientas estadisticas con minitab
 
Unidad 3. investigación de mercado y su proceso.
Unidad 3. investigación de mercado y su proceso.Unidad 3. investigación de mercado y su proceso.
Unidad 3. investigación de mercado y su proceso.
 

Último

Continex para educación, Portafolio de servicios
Continex para educación, Portafolio de serviciosContinex para educación, Portafolio de servicios
Continex para educación, Portafolio de serviciosFundación YOD YOD
 
MANUAL SKIDDER manual manual manual manua
MANUAL SKIDDER manual manual manual manuaMANUAL SKIDDER manual manual manual manua
MANUAL SKIDDER manual manual manual manuaasesoriam4m
 
estadistica funcion distribucion normal.ppt
estadistica funcion distribucion normal.pptestadistica funcion distribucion normal.ppt
estadistica funcion distribucion normal.pptMiguelAngel653470
 
Coca cola organigrama de proceso empresariales.pptx
Coca cola organigrama de proceso empresariales.pptxCoca cola organigrama de proceso empresariales.pptx
Coca cola organigrama de proceso empresariales.pptxJesDavidZeta
 
JOSSELYN SALINfffffffAS- CAPITULO 4 Y 5.pptx
JOSSELYN SALINfffffffAS- CAPITULO 4 Y 5.pptxJOSSELYN SALINfffffffAS- CAPITULO 4 Y 5.pptx
JOSSELYN SALINfffffffAS- CAPITULO 4 Y 5.pptxJosVidal41
 
T.A- CONTRUCCION DEL PUERTO DE CHANCAY.pdf
T.A- CONTRUCCION DEL PUERTO DE CHANCAY.pdfT.A- CONTRUCCION DEL PUERTO DE CHANCAY.pdf
T.A- CONTRUCCION DEL PUERTO DE CHANCAY.pdfLizCarolAmasifuenIba
 
15. NORMATIVA DE SST - LA LEY 29783.pptx
15. NORMATIVA DE SST - LA LEY 29783.pptx15. NORMATIVA DE SST - LA LEY 29783.pptx
15. NORMATIVA DE SST - LA LEY 29783.pptxAndreaAlessandraBoli
 
Pensamiento Lógico - Matemático USB Empresas
Pensamiento Lógico - Matemático USB EmpresasPensamiento Lógico - Matemático USB Empresas
Pensamiento Lógico - Matemático USB Empresasanglunal456
 
DO_FCE_310_PO_.pdf. La contabilidad gubernamental SOS de suma importancia fu...
DO_FCE_310_PO_.pdf.  La contabilidad gubernamental SOS de suma importancia fu...DO_FCE_310_PO_.pdf.  La contabilidad gubernamental SOS de suma importancia fu...
DO_FCE_310_PO_.pdf. La contabilidad gubernamental SOS de suma importancia fu...ssuser2887fd1
 
Mapa Conceptual relacionado con la Gerencia Industrial, su ámbito de aplicaci...
Mapa Conceptual relacionado con la Gerencia Industrial, su ámbito de aplicaci...Mapa Conceptual relacionado con la Gerencia Industrial, su ámbito de aplicaci...
Mapa Conceptual relacionado con la Gerencia Industrial, su ámbito de aplicaci...antonellamujica
 
CODIGO DE ETICA PARA EL PROFESIONAL DE LA CONTABILIDAD IFAC (4).pdf
CODIGO DE ETICA PARA EL PROFESIONAL DE LA CONTABILIDAD IFAC (4).pdfCODIGO DE ETICA PARA EL PROFESIONAL DE LA CONTABILIDAD IFAC (4).pdf
CODIGO DE ETICA PARA EL PROFESIONAL DE LA CONTABILIDAD IFAC (4).pdfmelissafelipe28
 
20240418-CambraSabadell-SesInf-AdopTecnologica-CasoPractico.pdf
20240418-CambraSabadell-SesInf-AdopTecnologica-CasoPractico.pdf20240418-CambraSabadell-SesInf-AdopTecnologica-CasoPractico.pdf
20240418-CambraSabadell-SesInf-AdopTecnologica-CasoPractico.pdfRamon Costa i Pujol
 
PLANILLA DE CONTROL LIMPIEZA TRAMPA DE GRASA
PLANILLA DE CONTROL LIMPIEZA TRAMPA DE GRASAPLANILLA DE CONTROL LIMPIEZA TRAMPA DE GRASA
PLANILLA DE CONTROL LIMPIEZA TRAMPA DE GRASAAlexandraSalgado28
 
T.A CONSTRUCCION DEL PUERTO DE CHANCAY.pptx
T.A CONSTRUCCION DEL PUERTO DE CHANCAY.pptxT.A CONSTRUCCION DEL PUERTO DE CHANCAY.pptx
T.A CONSTRUCCION DEL PUERTO DE CHANCAY.pptxLizCarolAmasifuenIba
 
PROCESO PRESUPUESTARIO - .administracion
PROCESO PRESUPUESTARIO - .administracionPROCESO PRESUPUESTARIO - .administracion
PROCESO PRESUPUESTARIO - .administracionDayraCastaedababilon
 
AFILIACION CAJA NACIONAL DE SALUD WOM 1 .pdf
AFILIACION CAJA NACIONAL DE SALUD WOM 1 .pdfAFILIACION CAJA NACIONAL DE SALUD WOM 1 .pdf
AFILIACION CAJA NACIONAL DE SALUD WOM 1 .pdfOdallizLucanaJalja1
 
Presentación La mujer en la Esperanza AC.pptx
Presentación La mujer en la Esperanza AC.pptxPresentación La mujer en la Esperanza AC.pptx
Presentación La mujer en la Esperanza AC.pptxDanielFerreiraDuran1
 
La electrónica y electricidad finall.pdf
La electrónica y electricidad finall.pdfLa electrónica y electricidad finall.pdf
La electrónica y electricidad finall.pdfDiegomauricioMedinam
 
Teleconferencia Accionistas Q1 2024 . Primer Trimestre-
Teleconferencia Accionistas Q1 2024 . Primer Trimestre-Teleconferencia Accionistas Q1 2024 . Primer Trimestre-
Teleconferencia Accionistas Q1 2024 . Primer Trimestre-ComunicacionesIMSA
 
Rendicion de cuentas del Administrador de Condominios
Rendicion de cuentas del Administrador de CondominiosRendicion de cuentas del Administrador de Condominios
Rendicion de cuentas del Administrador de CondominiosCondor Tuyuyo
 

Último (20)

Continex para educación, Portafolio de servicios
Continex para educación, Portafolio de serviciosContinex para educación, Portafolio de servicios
Continex para educación, Portafolio de servicios
 
MANUAL SKIDDER manual manual manual manua
MANUAL SKIDDER manual manual manual manuaMANUAL SKIDDER manual manual manual manua
MANUAL SKIDDER manual manual manual manua
 
estadistica funcion distribucion normal.ppt
estadistica funcion distribucion normal.pptestadistica funcion distribucion normal.ppt
estadistica funcion distribucion normal.ppt
 
Coca cola organigrama de proceso empresariales.pptx
Coca cola organigrama de proceso empresariales.pptxCoca cola organigrama de proceso empresariales.pptx
Coca cola organigrama de proceso empresariales.pptx
 
JOSSELYN SALINfffffffAS- CAPITULO 4 Y 5.pptx
JOSSELYN SALINfffffffAS- CAPITULO 4 Y 5.pptxJOSSELYN SALINfffffffAS- CAPITULO 4 Y 5.pptx
JOSSELYN SALINfffffffAS- CAPITULO 4 Y 5.pptx
 
T.A- CONTRUCCION DEL PUERTO DE CHANCAY.pdf
T.A- CONTRUCCION DEL PUERTO DE CHANCAY.pdfT.A- CONTRUCCION DEL PUERTO DE CHANCAY.pdf
T.A- CONTRUCCION DEL PUERTO DE CHANCAY.pdf
 
15. NORMATIVA DE SST - LA LEY 29783.pptx
15. NORMATIVA DE SST - LA LEY 29783.pptx15. NORMATIVA DE SST - LA LEY 29783.pptx
15. NORMATIVA DE SST - LA LEY 29783.pptx
 
Pensamiento Lógico - Matemático USB Empresas
Pensamiento Lógico - Matemático USB EmpresasPensamiento Lógico - Matemático USB Empresas
Pensamiento Lógico - Matemático USB Empresas
 
DO_FCE_310_PO_.pdf. La contabilidad gubernamental SOS de suma importancia fu...
DO_FCE_310_PO_.pdf.  La contabilidad gubernamental SOS de suma importancia fu...DO_FCE_310_PO_.pdf.  La contabilidad gubernamental SOS de suma importancia fu...
DO_FCE_310_PO_.pdf. La contabilidad gubernamental SOS de suma importancia fu...
 
Mapa Conceptual relacionado con la Gerencia Industrial, su ámbito de aplicaci...
Mapa Conceptual relacionado con la Gerencia Industrial, su ámbito de aplicaci...Mapa Conceptual relacionado con la Gerencia Industrial, su ámbito de aplicaci...
Mapa Conceptual relacionado con la Gerencia Industrial, su ámbito de aplicaci...
 
CODIGO DE ETICA PARA EL PROFESIONAL DE LA CONTABILIDAD IFAC (4).pdf
CODIGO DE ETICA PARA EL PROFESIONAL DE LA CONTABILIDAD IFAC (4).pdfCODIGO DE ETICA PARA EL PROFESIONAL DE LA CONTABILIDAD IFAC (4).pdf
CODIGO DE ETICA PARA EL PROFESIONAL DE LA CONTABILIDAD IFAC (4).pdf
 
20240418-CambraSabadell-SesInf-AdopTecnologica-CasoPractico.pdf
20240418-CambraSabadell-SesInf-AdopTecnologica-CasoPractico.pdf20240418-CambraSabadell-SesInf-AdopTecnologica-CasoPractico.pdf
20240418-CambraSabadell-SesInf-AdopTecnologica-CasoPractico.pdf
 
PLANILLA DE CONTROL LIMPIEZA TRAMPA DE GRASA
PLANILLA DE CONTROL LIMPIEZA TRAMPA DE GRASAPLANILLA DE CONTROL LIMPIEZA TRAMPA DE GRASA
PLANILLA DE CONTROL LIMPIEZA TRAMPA DE GRASA
 
T.A CONSTRUCCION DEL PUERTO DE CHANCAY.pptx
T.A CONSTRUCCION DEL PUERTO DE CHANCAY.pptxT.A CONSTRUCCION DEL PUERTO DE CHANCAY.pptx
T.A CONSTRUCCION DEL PUERTO DE CHANCAY.pptx
 
PROCESO PRESUPUESTARIO - .administracion
PROCESO PRESUPUESTARIO - .administracionPROCESO PRESUPUESTARIO - .administracion
PROCESO PRESUPUESTARIO - .administracion
 
AFILIACION CAJA NACIONAL DE SALUD WOM 1 .pdf
AFILIACION CAJA NACIONAL DE SALUD WOM 1 .pdfAFILIACION CAJA NACIONAL DE SALUD WOM 1 .pdf
AFILIACION CAJA NACIONAL DE SALUD WOM 1 .pdf
 
Presentación La mujer en la Esperanza AC.pptx
Presentación La mujer en la Esperanza AC.pptxPresentación La mujer en la Esperanza AC.pptx
Presentación La mujer en la Esperanza AC.pptx
 
La electrónica y electricidad finall.pdf
La electrónica y electricidad finall.pdfLa electrónica y electricidad finall.pdf
La electrónica y electricidad finall.pdf
 
Teleconferencia Accionistas Q1 2024 . Primer Trimestre-
Teleconferencia Accionistas Q1 2024 . Primer Trimestre-Teleconferencia Accionistas Q1 2024 . Primer Trimestre-
Teleconferencia Accionistas Q1 2024 . Primer Trimestre-
 
Rendicion de cuentas del Administrador de Condominios
Rendicion de cuentas del Administrador de CondominiosRendicion de cuentas del Administrador de Condominios
Rendicion de cuentas del Administrador de Condominios
 

Analisis Multivariado Analisis Multivariado.pptx

  • 2. Temario  UNIDAD 1: Introducción al Análisis multivariado y limpieza de base de datos.  UNIDAD 2: Análisis de segmentación de mercados utilizando modelos de interdependencia.  UNIDAD 3: Análisis de técnicas multivariadas para la reducción de dimensiones  UNIDAD 4: Análisis de segmentación de mercados utilizando modelos de dependencia.  UNIDAD 5: Análisis de pronósticos utilizando técnicas multivariadas.
  • 3. Calificación  Primer Momento Unidades de Aprendizaje 1 y 2  Segundo Momento Unidades de Aprendizaje 3 y 4  Momento Final Unidad de Aprendizaje 5 y Trabajo Final
  • 4. Calificación  Primera Unidad  Segundo a Cuarta Unidad  Momento Final  Evaluación Final - Trabajo Final 100% AS- Examen Unidad 1 50% Individual Cuestionario Trabajos en Aula 20% Individual Ejercicios prácticos Trabajos para la casa 20% Grupal Ejercicios prácticos Participación en aula - exámenes orales 10% Individual Prueba oral AS- Examen Unidad 2 50% Individual Cuestionario Trabajos en Aula 15% Individual Ejercicios prácticos Trabajos para la casa 15% Grupal Ejercicios prácticos Participación en aula - exámenes orales 10% Individual Prueba oral Avance Trabajo Final 10% Individual Proyectos AS- Examen Unidad 5 50% Individual Cuestionario Trabajos en Aula 15% Individual Ejercicios prácticos Trabajos para la casa 15% Grupal Ejercicios prácticos Participación en aula - exámenes orales 10% Individual Prueba oral Avance Trabajo Final 10% Individual Proyectos
  • 5. Software a Utilizar:  Excel - Office  SPSS 21 o superior  R – R Studio  Python
  • 6.
  • 7. Naturaleza del análisis multivariado  Conjunto de métodos estadísticos cuya finalidad es analizar simultáneamente conjuntos de datos multivariantes, existiendo varias variables medidas simultáneamente para cada individuo u objeto estudiado.  Se logra mejor comprensión del fenómeno.
  • 8. Clasificación de las técnicas de análisis multivariante Métodos de Dependencia Métodos de Interdependencia Métodos Estructurales
  • 9. Métodos de Dependencia Variable dependientes e independientes. Determinan si las independientes afectan a las dependientes. Se pueden clasificar en dos grupos: Dependencia Métrica Dependencia No Métrica
  • 10. Dependiente cuantitativa Métrica Predecir el ticket m Información base para el cálculo del LTV. Análisis de Regresión Análisis de Supervivencia Variable dependiente, es el tiempo de supervivencia del individuo. Ejemplo: Predecir tiempo de permanencia como cliente en la empresa de un cliente a partir de su consumo promedio y de su edad. Información base para el cálculo del LTV.
  • 11. Dependiente cuantitativa Métrica Variables independientes no son métricas y las dependientes son métricas y las dependientes son métricas. Averiguan si hay diferencia entre grupos. Ejemplo: ¿hay diferencias en el nivel de colesterol por sexos? Análisis de varianza Correlación Canónica Relaciona variables métricas dependientes e interdependientes calculando las combinaciones lineales que maximizan la correlación existente. Ejemplo: Analizar como están relacionados el tiempo dedicado al trabajo y al ocio de una persona con su nivel de ingresos, edad y nivel de educación.
  • 13. Métodos de interdependencia  No distinguen entre variables dependientes e independientes y su objetivo consiste en identificar que variables están relacionadas, cómo lo están y el porqué.  Se pueden clasificar en dos grupos: Datos métricos Datos no métricos
  • 16. Métodos estructurales  Analizan las relaciones existentes entre un grupo de variables representadas por sistemas de ecuaciones simultáneas en las que se suponen que algunas de ellas (denominadas constructos) se miden con error a partir de otras variables observables denominadas indicadores.  Constan de 2 partes:
  • 17.
  • 18.
  • 19. LIMPIEZA DE DATOS Sus datos se caracterizan por:  No debería tener datos faltantes -› SPSS remplaza los datos faltantes con la media y los resultados se pueden distorsionar.  No se desvía mucho de la desviación normal.  No existen datos extremos (outliers) -› Previamente deberá haber realizado  limpieza de datos.
  • 20. ELIMINAR DATOS FALTANTES No debería tener datos faltantes. Usted debería eliminar los datos faltantes de la matriz de datos:  Usted puede utilizar la siguiente sintaxis para realizar la eliminación automática de casos por usted. Filter off. use all. select if(not missing(NOMBRE DE LA VARIABLE)). execute.
  • 21. USO DE SINTAXIS EN SPSS
  • 22. IDENTIFICAR OUTLIERS No existen datos extremos (outliers).  Basado en Tukey (1977) con el outlier labeling rule , para detectar outliers.  Analice las distribuciones de los datos (Inicie SPSS -› Analizar -› Explorar)  En Gráficas seleccione Histograma y en Estadísticas seleccione Valores atípicos y Percentiles.
  • 23. PASOS PARA REALIZAR ANÁLISIS DE COMPONENTES PRINCIPALES  Analice el histograma: ¿Cómo determinar que los valores de la izquierda no son Outliers.  Determine donde se encuentra el primer y el tercer cuartil para determinar el limite superior y limite inferior.
  • 24. PASOS PARA REALIZAR ANÁLISIS DE COMPONENTES PRINCIPALES  Utilizando el primer cuartil (Q1) y tercer cuartil (Q3) calcule los límites utilizando la siguiente fórmula propuesta por Tukey (1977) y corregida por Hoagling et al. (1987):  Límite superior = Q3 + 1.5 * (Q3 - Q1)  Límite inferior = Q1 - 1.5 * (Q3 - Q1)  Compare el límite superior con los outliers que identificó SPSS:  Límite superior = Q3 + 1.5 * (Q3 - Q1 ) = 9 + 1.5*(2) = 12.0  Límite inferior = Q1 - 1.5 * (Q3 - Q1 ) = 7 - 1.5*(2) = 4.0 Existen valores en éste caso superiores a 12.0 y menores a 4.0 Revisar para todas las variables!!
  • 25. PASOS PARA REALIZAR ANÁLISIS DE COMPONENTES PRINCIPALES  Si identificó outliers, elimínelos manualmente para tener una base de datos sin outliers (Repetir para todas las variables)  Límite superior = 12.0  Límite inferior = 4.0
  • 26. PASOS PARA REALIZAR ANÁLISIS DE COMPONENTES PRINCIPALES  Utilizando el primer cuartil (Q1) y tercer cuartil (Q3) calcule los limites utilizando la siguiente formula propuesta por Tukey (1977) y corregida por Hoagling et al. (1987):  Límite superior = Q1 + 2.2 * (Q3 - Q1)  Limite inferior = Q3 - 2.2 * (Q3 - Q1)  Compare el limite superior con los outliers que identifico SPSS:  Limite superior = Q1 + 2.2 * (Q3 - Q1 ) = 7 + 2.2*(2) = 11.4  Limite inferior = Q2 - 2.2 * (Q3 - Q1 ) = 9 - 2.2*(2) = 4.6 No Existen valores en éste caso superiores a 11.4 y menores a 4.6 Revisar para todas las variables!!
  • 27. Ing. Nicos Gustavo Escobar Prado
  • 28.
  • 29. Definición de Mercado Bajo la perspectiva de la demanda, el mercado puede definirse como el conjunto de consumidores y/o compradores que ejercen una demanda específica sobre un producto o tipo de producto específico, y se clasifica como: Mercado Disponible. Mercado Real. Mercado Potencial. Mercado Meta.
  • 31. Definición de Segmentación Proceso de división del mercado en subgrupos homogéneos con el fin de llevar a cabo una estrategia comercial diferenciada que permita satisfacer de forma más efectiva sus necesidades y alcanzar los objetivos comerciales de la empresa.
  • 32. ENFOQUES Segmentación a priori / posteriori. Macrosegmentación / microsegmentación. Segmentación de mercados / de productos.
  • 33. CRITERIOS DE SEGMENTACIÓN Objetivos.  Generales.  Específicos. Subjetivos.  Generales.  Específicos.
  • 34. ESTRATEGIAS DE SEGMENTACIÓN Estrategias Genéricas de Segmentación:  Diferenciada o generalista.  Indiferenciada.  Concentrada. Estrategias Producto/Segmento:  Especialista en Segmento.  Especialista en Producto.  Concentrado.  Cobertura Total.  Selectivo. Multisegmento
  • 35. SEGMENTACIÓN Y EL FUNNEL DE VENTAS
  • 36.
  • 37. ESQUEMA DE LA ESTADISTICA ESTADISTICA DESCRIPTIVA 1 2 P ESTIMACION TEST DE HIPOTESIS ESTADISTICA INFERENCIAL 1 2 P 1 2 P PROBABILIDADES VARIABLE ALEATORIA DISTRIBUCIONES DE PROBABILIDAD DISTRIBUCIONES TEORICAS BASES DE INFERENCIA EDA EXPLORING DATA ANALYSIS 1 2 P ANÁLISIS EXPLORATORIO DE DATOS RESUMEN DE LOS DATOS GENERALIZACIÓN DE LOS DATOS CONTROL DE CALIDAD DATOS CHAID
  • 38. PROCESO DE DATA MINING - CHAID DETERMINACION DE LOS OBJETIVOS PRE PROCESAMIENTO DE LOS DATOS DETERMINACION DEL MODELO ANALISIS DE LOS RESULTADOS BASE DE DATOS ANALISIS MULTIVA RIANTE Requerimientos del cliente Selección Limpieza Reducción Transformación Análisis Estadístico Visualización gráfica LA MINERÍA DE DATOS ES LA EXTRACCIÓN DE INFORMACIÓN IMPLÍCITA, PREVIAMENTE DESCONOCIDA Y POTENCIALMENTE ÚTIL A PARTIR DE DATOS. CHAID
  • 39. ALGORITMOS DE DATA MINING - CHAID CHAID ALGORITMOS PREDICCION DESCRIPCION SEGMENTACION EXPLORATORIO CLASIFICACION REGRESION DEPENDENCIA ASOCIACION CHAID
  • 40. CHAID – METODOS MULTIVARIANTES Y X1 X2 ... Xi ... Xp 1 2 ... j ... n X1 X2 ... Xi ... Xp X1 X2 ... Xi ... Xp X1 X2 ... Xi ... Xp X1 X2 ... Xi ... Xp ACP CLUSTER CORRELACIÓN CANÓNICA MANOVA RLB
  • 41.
  • 42. TEST DE INDEPENDENCIA 𝑿𝟐 𝑋2 = 𝑖=1 𝑝 𝑗=1 𝑞 𝑛𝑖𝑗 − 𝑛..𝑃𝑖𝑗 2 𝑛..𝑃𝑖𝑗 𝑛𝑖𝑗: 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑑𝑎 𝑏𝑖𝑑𝑖𝑚𝑒𝑛𝑠𝑖𝑜𝑛𝑎𝑙 𝑛..𝑃𝑖𝑗: 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑒𝑠𝑝𝑒𝑟𝑎𝑑𝑎 𝑏𝑖𝑑𝑖𝑚𝑒𝑛𝑠𝑖𝑜𝑛𝑎𝑙 en condición de independencia 𝐻0: 𝐼𝑁𝐷𝐸𝑃𝐸𝑁𝐷𝐸𝑁𝐶𝐼𝐴 𝐸𝑁𝑇𝑅𝐸 𝐿𝑂𝑆 𝐷𝑂𝑆 𝐶𝑅𝐼𝑇𝐸𝑅𝐼𝑂𝑆 𝐻1: 𝐷𝐸𝑃𝐸𝑁𝐷𝐸𝑁𝐶𝐼𝐴 𝐸𝑁𝑇𝑅𝐸 𝐿𝑂𝑆 𝐷𝑂𝑆 𝐶𝑅𝐼𝑇𝐸𝑅𝐼𝑂𝑆
  • 43. TEST DE INDEPENDENCIA 𝑿𝟐 Ausencias Aprobado Reprobado 0 - 3 135 110 4 - 6 36 4 7 - 15 9 6
  • 44. TEST DE INDEPENDENCIA 𝑿𝟐 Y1 Y2 . . . Yj . . . Yq ni. X12 X2 . . . Xi nij . . . Xp n.j n.. Y1 Y2 . . . Yj . . . Yq X12 X2 . . . Xi . . . Xp 1 TABLA DE FRECUENCIA OBSERVADA TABLA DE FRECUENCIA ESPERADA
  • 45. P - value P – VALUE: ES UNA PROBABILIDAD. ES EL NIVEL (DE SIGNIFICANCIA) MÁS BAJO EN EL QUE EL VALOR OBSERVADO DE LA ESTADÍSTICA DE PRUEBA ES SIGNIFICATIVO. EL VALOR P - VALUE ES EL NIVEL DE SIGNIFICANCIA MÁS PEQUEÑO QUE CONDUCE AL RECHAZO DE LA HIPÓTESIS NULA HO.
  • 46. POTENCIA DE UN TEST Y TAMANO DE MUESTRA 𝐻0 VERDADERA 𝐻1 VERDADERA 𝐴𝐻0 1 - 𝛼 𝛽 𝑅𝐻0 𝛼 1 − 𝛽 1- 𝛼: 𝑁𝐼𝑉𝐸𝐿 𝐷𝐸 𝐶𝑂𝑁𝐹𝐼𝐴𝑁𝑍𝐴. 𝑃𝑅𝑂𝐵𝐴𝐵𝐼𝐿𝐼𝐷𝐴𝐷 𝐷𝐸 𝐴𝐶𝐸𝑃𝑇𝐴𝑅 𝐿𝐴 𝐻𝑜 𝐶𝑈𝐴𝑁𝐷𝑂 𝐸𝑆 𝑉𝐸𝑅𝐷𝐴𝐷𝐸𝑅𝐴 1 − 𝛽: 𝑃𝑂𝑇𝐸𝑁𝐶𝐼𝐴 𝐷𝐸𝐿 𝑇𝐸𝑆𝑇. 𝑃𝑅𝑂𝐵𝐴𝐵𝐼𝐿𝐼𝐷𝐴𝐷 𝐷𝐸 𝑅𝐸𝐶𝐻𝐴𝑅 𝐿𝐴 𝐻𝑜 𝐶𝑈𝐴𝑁𝐷𝑂 𝐸𝑆 𝐹𝐴𝐿𝑆𝐴 𝛼: 𝐸𝑅𝑅𝑂𝑅 𝑇𝐼𝑃𝑂 𝐼. 𝑃𝑅𝑂𝐵𝐴𝐵𝐼𝐿𝐼𝐷𝐴𝐷 𝐷𝐸 𝑅𝐸𝐶𝐻𝐴𝑅 𝐿𝐴 𝐻𝑜 𝐶𝑈𝐴𝑁𝐷𝑂 𝐸𝑆 𝑉𝐸𝑅𝐷𝐴𝐷𝐸𝑅𝐴 𝛽: 𝐸𝑅𝑅𝑂𝑅 𝑇𝐼𝑃𝑂 𝐼𝐼. 𝑃𝑅𝑂𝐵𝐴𝐵𝐼𝐿𝐼𝐷𝐴𝐷 𝐷𝐸 𝐴𝐶𝐸𝑃𝑇𝐴𝑅 𝐿𝐴 𝐻𝑜 𝐶𝑈𝐴𝑁𝐷𝑂 𝐸𝑆 𝐹𝐴𝐿𝑆𝐴
  • 47. SEGMENTACIÓN PROCESO DE IDENTIFICACIÓN DE SUBCONJUNTOS HOMOGÉNEOS RESPECTO DE DETERMINADAS CARACTERÍSTICAS Y HETEROGÉNEAS ENTRE SÍ.
  • 48.
  • 49. QUE ES CHAID? CHAID ES DESARROLLADA POR KASS, 1980 Y APORTACIONES DE MAGIDSON, 1992. EL MODELO CHAID ES UN MÉTODO EXPLORATORIO DEL ANÁLISIS DE DATOS USADO PARA ESTUDIAR LAS RELACIONES ENTRE UNA VARIABLE DEPENDIENTE Y UNA SERIE GRANDE DE VARIABLES PREDICTORAS CHAID SELECCIONA UN SISTEMA DE PREDICTORES Y DE SUS INTERACCIONES QUE PREDICEN ÓPTIMAMENTE LA MEDIDA DE LA VARIABLE DEPENDIENTE
  • 50. CHAID TIPOS DE VARIABLES EN UN ANÁLISIS CHAID  VARIABLES PREDICTORAS: UNA O MÁS VARIABLES PREDICTORAS, SE USAN PARA DEFINIR LOS SEGMENTOS  VARIABLE DEPENDIENTE: CRITERIO PARA CONSTRUIR LOS SEGMENTOS. DEBE SER UNA VARIABLE CATEGÓRICA.
  • 51. CHAID CLASIFICACIÓN DE LAS VARIABLES PREDICTORAS  MONOTONIC: VARIABLES CUYAS CATEGORÍAS TIENEN UN ORDEN NATURAL EN TODOS SUS NIVELES  FLOAT: VARIABLES MONOTONIC CON UNA ÚLTIMA CATEGORÍA DE DATO PERDIDO  FREE: VARIABLES CUYAS CATEGORÍAS NO TIEN UN ORDEN NATURAL. VARIABLES NOMINALES
  • 52. CHAID ALGORITMOS DE ÁRBOLES DE DECISIÓN  CHAID (Chi square Automatic Interaction Detector)  CHAID EXAUSTIVO  C&RT (Classification and Regression Tree)  QUEST (Quick Unbiased Efficient Statistical Test)
  • 53. PERMITE LA DETECCIÓN AUTOMÁTICA DE INTERACCIONES MEDIANTE CHI-CUADRADO. EN CADA PASO, CHAID ELIGE LA VARIABLE INDEPENDIENTE (PREDICTORA) QUE PRESENTA LA INTERACCIÓN MÁS FUERTE CON LA VARIABLE DEPENDIENTE. LAS CATEGORÍAS DE CADA PREDICTOR SE FUNDEN SI NO SON SIGNIFICATIVAMENTE DISTINTAS RESPECTO A LA VARIABLE DEPENDIENTE [HELP SPSS, 2017] ALGORITMO CHAID
  • 54. CHAID EXHAUSTIVO: SUPONE UNA MODIFICACIÓN DE CHAID QUE EXAMINA TODAS LAS DIVISIONES POSIBLES PARA CADA PREDICTOR Y TRATA TODAS LAS VARIABLES POR IGUAL, INDEPENDIENTEMENTE DEL TIPO Y EL NÚMERO DE CATEGORÍAS [HELP SPSS, 2017] ALGORITMO CHAID EXHAUSTIVO
  • 55. (CRT-CLASSIFICATION AND REGRESSION TREES): CONSISTE EN UN ALGORITMO DE ÁRBOLES DE CLASIFICACION Y REGRESIÓN QUE HACE PARTICIONES DE LOS DATOS Y GENERA SUBCONJUNTOS PRECISOS Y HOMOGÉNEOS. CRT DIVIDE LOS DATOS EN SEGMENTOS PARA QUE SEAN LO MÁS HOMOGÉNEOS POSIBLE RESPECTO A LA VARIABLE DEPENDIENTE. UN NODO TERMINAL EN EL QUE TODOS LOS CASOS TOMAN EL MISMO VALOR EN LA VARIABLE DEPENDIENTE ES UN NODO HOMOGENEO Y “PURO”. [HELP SPSS, 2017] ALGORITMO CRT
  • 56. QUEST (QUICK, UNBIASED, EFFICIENT, STATISTICAL TREE): ARBOL ESTADISTICO RAPIDO, INSESGADO Y EFICIENTE. METODO RAPIDO Y QUE EVITA EL SESGO QUE PRESENTAN OTROS METODOS AL FAVORECER LOS PREDICTORES CON MUCHAS CATEGORIAS. SOLO PUEDE ESPECIFICARSE SI LA VARIABLE DEPENDIENTE ES NOMINAL. [HELP SPSS, 2017] ALGORITMO QUEST
  • 57. PROCESO CHAID 1. DETERMINACIÓN DE LAS VARIABLES A EXPLICAR Y DE LAS VARIABLES PREDICTORAS. 2. TABULACIONES CRUZADAS ENTRE LAS VARIABLES PREDICTORAS Y LA VARIABLE DEPENDIENTE 3. CÁLCULO DEL X2 PARA CADA TABLA FORMADA POR CADA PAR DE CATEGORÍAS SUSCEPTIBLES DE UNIÓN Y LA VARIABLE DEPENDIENTE. 4. ENTRE LOS PARES QUE RESULTAN NO SIGNIFICATIVOS ESTADÍSTICAMENTE SE UNEN EN UNA SOLA CATEGORÍA. 5. OBTENCIÓN DEL P-VALUE. LA VARIABLE QUE TENGA EL VALOR MÁS BAJO SE UTILIZA PARA DIVIDIR. 6. EL PROCESO SE REPITE HASTA QUE SE CONSIDEREN GRUPOS DEMASIADO REDUCIDOS.
  • 58. PROCESO CHAID RESULTADO: 1. Información sobre las variables 2. Diagrama en árbol 3. Detalle de tablas cruzadas para cada nivel de la segmentación 4. Tablas de ganancia ESTO PERMITE DISPONER: 1. Segmentos identificados y sus características 2. Secuencia de partición con los predictores seleccionados 3. Agrupaciones entre categorías 4. Información sobre las interacciones entre variables.
  • 61. PROCEDIMIENTO CHAID EN SPSS  PASO 1: INDICAR CUALES SON LAS VARIABLES PREDICTORAS Y CUAL ES LA VARIABLE DEPENDIENTE  PASO 2: SELECCIÓN DE LA CATEGORIA DE INTERES EN LA VARIABLE DEPENDIENTE  PASO 3. DEFINIR OPCIONES ESTANDAR DEL ALGORITMO DE SEGMENTACION: MAXIMA PROFUNDIDAD DEL ARBOL, TAMAÑO MINIMO DE SEGMENTO EN NODO PADRE Y NODOS HIJO  PASO 4. EJECUTAR EL PROCEDIMIENTO
  • 62. APLICACION DE CHAID EN SPSS N = 2000 REGISTROS EDAD. EDAD DEL INDIVIDUO: MENOS DE 30 AÑOS, DE 31 A 40, DE 41 A 55 Y MÁS DE 55 AÑOS. ESTUDIOS REALIZADOS. ESTUDIOS REALIZADOS POR EL ENTREVISTADO: SIN ESTUDIOS, PRIMARIOS, SECUNDARIO, LICENCIADO Y POSGRADO. SEXO. SEXO DE LA PERSONA QUE RESPONDE: HOMBRE O MUJER NIÑOS-4. PERTENECE A UNA FAMILIA CON O SIN HIJOS MENORES DE 4 AÑOS ESTRUCF. ESTRUCTURA FAMILIAR, DISTINGUIENDO ENTRE: UNIPERSONAL, MATRIMONIO SIN HIJOS, MATRIMONIO CON HIJOS, BIGENERACIONAL, SÓLO HIJOS Y OTROS. CAMEST. EN LOS DOS ÚLTIMOS AÑOS HA CAMBIADO (O NO) DE ESTABLECIMIENTO COMERCIAL HABITUAL DONDE REALIZA SUS COMPRAS.