Investigación de Mercados II
Tema: Análisis Multivariado
Alumno: GARCIA LAIME CARLOS ARMANDO
Docente: Mgr. José Ramiro Zapata Barrientos
Pensamiento: "TODO ES EDITABLE R.Zapata"
1. GARCIA LAIME CARLOS ARMANDO
Docente: Mgr. José Ramiro Zapata Barrientos
Materia: Investigación de Mercados II
“LIBEREMOS BOLIVIA”
P á g i n a 1 | 17
“Análisis Multivariado”
“El principio es la mitad del todo”
Pitágoras
INTRODUCCION. -
7El origen del análisis multivariado se remonta a los comienzos del siglo XX, con
Pearson y Sperman, época en la cual se empezaron a introducir los conceptos de
la estadística moderna. 7 Las bases definitivas de este tipo de análisis se establecieron
en la década 1930-40 con Hotelling, Wilks, Fisher, Mahalanobis, y Bartlett (Bramardi,
2002). En términos generales, el análisis multivariado se refiere a todos aquellos
métodos estadísticos que analizan simultáneamente medidas múltiples (más de
dos variables) de cada individuo.
7Por su parte Hair (Hair et al., 1992) puntualiza que para el caso del análisis de datos
resultantes de caracterización de recursos genéticos vegetales (colecciones de
germoplasma), el problema es representar geométricamente, cuantificar la asociación
entre individuos y clasificarlos respecto a un conjunto de variables, las cuales pueden
ser cuantitativas, cualitativas o la combinación de ambas. Teniendo en cuenta los
objetivos que se desean alcanzar, este investigador clasifica los métodos multivariados
en dos grandes grupos.
7 El primero se denomina de ordenación ó reducción de datos y permite arreglar y
representar gráficamente el material bajo estudio en un número reducido de
dimensiones.
7 El segundo se denomina de clasificación y permite la búsqueda de grupos similares
lo más homogéneos posible para clasificar los elementos. 7 Cada base de datos está
compuesta por un conjunto de objetos o casos representativos de un problema en
cuestión (en este caso son las accesiones) y a su vez, cada objeto, se describe
mediante un conjunto de atributos o rasgos, también conocidos como variables de
entrada o características (en este caso son los descriptores), los cuales pueden ser
cualitativos (categóricos) o cuantitativos (numéricos).
7En ocasiones algunas variables pueden crear ruido en los datos, pues aquellas que
son redundantes ó irrelevantes degradan la clasificación. La eliminación de estos
rasgos resulta en una igual o mejor clasificación que con el conjunto completo, no
obstante, pueden obtenerse resultados no consistentes, por lo cual los investigadores
2. GARCIA LAIME CARLOS ARMANDO
Docente: Mgr. José Ramiro Zapata Barrientos
Materia: Investigación de Mercados II
“LIBEREMOS BOLIVIA”
P á g i n a 2 | 17
no deben hacer uso indiscriminado de los métodos de selección de variables. 7La
reducción de la dimensionalidad con la de extracción de atributos se trata de encontrar
un número más reducido de nuevos atributos a partir de transformaciones de los
iniciales.
7 Entre las técnicas de extracción más conocidas tenemos el análisis por factores que
se emplea frecuentemente para crear nuevas variables que resuman toda la
información de la que podría disponerse en las variables originales, por tanto, es
indudable su uso en la reducción de la dimensionalidad del conjunto de datos. 7El nuevo
conjunto de variables no correlacionadas obtenidas, llamadas factores subyacentes se
pueden usar en el análisis futuro de los datos (Johnson, 2000). 7Otra de las técnicas
más usadas en la reducción de datos son las técnicas de escalamiento óptimo, dentro
de las cuales el análisis de correspondencias múltiple, también conocido como análisis
de homogeneidad, permite encontrar las cuantificaciones óptimas, es decir, que
separen al máximo las categorías entre sí. 7Esto implica que los objetos de la misma
categoría se representan cercanos entre sí, mientras que los objetos de categorías
diferentes se representan lo más alejado posible. 7 En ambos métodos se toma el mayor
número de nuevas variables que expliquen la mayor variabilidad posible7.
DESARROLLO. -
1)
¿Qué es el análisis multivariado?
Análisis multivariados.
Es un conjunto de métodos estadísticos y matemáticos, destinados a describir e interpretar los datos
que provienen de múltiples variables, que pueden ser cuantitativas, cualitativas o mezcladas2
.
Todo estudio de investigación tiene por objeto definir si existe asociación entre una variable a la
que llamamos predictora y otra a la que denominamos resultado, respuesta o evento. Para
determinar si esa asociación existe más allá del azar es que realizamos tests estadísticos. Empleamos
habitualmente un valor de p< 0.05, lo cual implica una probabilidad < 5% de que la asociación
hallada sea azarosa. Decimos entonces que la asociación es estadísticamente significativa1
.
Si la variable respuesta es dicotómica, podremos expresar la fuerza de asociación entre la variable
predictora (dicotómica o continua) y la respuesta como riesgo relativo u odds ratio. Si
3. GARCIA LAIME CARLOS ARMANDO
Docente: Mgr. José Ramiro Zapata Barrientos
Materia: Investigación de Mercados II
“LIBEREMOS BOLIVIA”
P á g i n a 3 | 17
específicamente queremos hallar el odds ratio usaremos la regresión logística para encontrar dicho
valor1
.
Si lo que buscamos es encontrar la asociación lineal entre dos variables continuas definiremos dicho
grado de asociación lineal con el coeficiente de correlación r. Si queremos predecir el valor de una
variable respuesta continua a partir de una variable predictora dicotómica o continua, emplearemos
la regresión lineal (con la determinación del coeficiente beta)1
.
Si la variable respuesta es el tiempo a una variable respuesta dicotómica recurriremos al análisis de
sobrevida para encontrar la asociación entre la variable predictora dicotómica o continua y la
variable respuesta, expresada como hazard ratio1
.
En resumen, expresaremos la asociación entre la variable predictora y la respuesta, según cuál sea,
como riesgo relativo, odds ratio, coeficiente beta o hazard ratio, y si el test estadístico
correspondiente arroja un valor de p <0.05, entenderemos que la probabilidad de que se deba al
azar es menor del 5%, y diremos que la asociación es estadísticamente significativa1
.
Cualquiera sea el método empleado, según la naturaleza de la variable respuesta, para encontrar la
asociación entre cada variable predictora por separado y la variable respuesta es un análisis simple
(por ejemplo, una regresión logística simple, una regresión lineal simple). Hablamos de un análisis
bivariado porque hay solo dos variables consideradas: la predictora y la respuesta. Es lo que
habitualmente, y porque solo se piensa en la variable predictora, denominamos análisis univariado1
.
También lo expresado al hablar de confundidores. Dijimos que la asociación que encontramos entre
dos variables puede deberse a la presencia de una tercera variable, vinculada en forma
estadísticamente significativa con la exposición o variable predictora, y con el evento o variable
respuesta, a la que llamamos confundidor. Esto significa que la asociación estadísticamente
significativa que encontramos entre una variable y otra puede dejar de serlo al considerar la
presencia del confundidor. O puede ser que la asociación siga siendo significativa, pero que el valor
que la expresa (riesgo relativo, odds ratio, etc.) cambie en presencia del confundidor1
.
Si, pese a considerar la presencia de los confundidores, sigue siendo significativa la asociación
encontrada, diremos entonces que la variable predictora está asociada independientemente con el
evento; diremos que es un predictor independiente. El análisis que llevamos a cabo para definir
dicha independencia de otros factores se denomina análisis multivariado1
.
4. GARCIA LAIME CARLOS ARMANDO
Docente: Mgr. José Ramiro Zapata Barrientos
Materia: Investigación de Mercados II
“LIBEREMOS BOLIVIA”
P á g i n a 4 | 17
Así, por ejemplo, en una regresión logística múltiple, se analizan conjuntamente todas las variables
que fueron significativas en las correspondientes regresiones logísticas simples. Es más, para no
perder información, pueden ser incluidas todas aquellas variables para las que se encontró un valor
de p < 0.10, o incluso < 0.20. Hay diferentes maneras de llevar a cabo el análisis: considerar de
entrada a todas las variables simultáneamente, o hacer un análisis escalonado, hacia adelante (se
van incluyendo de a una las variables) o hacia atrás (se van retirando de a una las variables). Pero lo
importante es que finalmente se define el set de variables que, puestas a jugar en conjunto,
mantienen significación estadística, aquí sí claramente definida por un valor de p <0.051
.
Más allá de los confundidores, en ocasiones el análisis multivariado toma también en cuenta el
fenómeno de interacción. Si explorar el efecto de la interacción entre dos variables es importante a
la hora de definir la asociación de las variables predictoras con la respuesta o predecir el valor de la
misma, se generará el llamado término de interacción, y se explorará el valor predictivo de cada una
de las variables por separado, y el de su interacción1
.
Dr. Jorge Thierer
2)
Análisis por Factores
El Análisis por Factores es una técnica de reducción de la dimensionalidad de datos cuantitativos, el
procedimiento consiste en crear nuevas variables ficticias (factores) que son combinaciones lineales
de las variables originales2
. Uno de los objetivos básicos de este análisis es determinar si las variables
originales exhiben patrones de relación entre sí, de forma tal que se puedan dividir en subconjuntos,
en el que cada uno conste de un grupo de variables que tiendan a estar más fuertemente
relacionadas con las demás variables dentro del conjunto que con las de los otros subconjuntos2
.
(Johnson, 2000)
El Análisis por Factores consta de cuatro fases características: el cálculo de una matriz capaz de
expresar la variabilidad conjunta de todas las variables2
, le extracción del número óptimo de
factores, la rotación de la solución para facilitar su interpretación y la estimación de las
puntuaciones de los sujetos en las nuevas dimensiones2
.
Existen contrastes previos a la extracción de los factores, que tratan de analizar la pertinencia de la
aplicación del análisis factorial a un conjunto de variables observables2
. La adecuación de los datos
al Análisis por Factores se contrasta mediante la medida de adecuación muestral KMO (Keiser-
Meyer-Olkin) y prueba de esfericidad de Bartlett2
.
5. GARCIA LAIME CARLOS ARMANDO
Docente: Mgr. José Ramiro Zapata Barrientos
Materia: Investigación de Mercados II
“LIBEREMOS BOLIVIA”
P á g i n a 5 | 17
La medida de adecuación muestral KMO contrasta si las correlaciones parciales entre las variables
son suficientemente pequeñas. Permite comparar la magnitud de los coeficientes de correlación
observados con la magnitud de los coeficientes de correlación parcial. Los valores pequeños
(menores que 0.5) indican que no debe utilizarse este análisis con los datos muéstrales que se están
analizando2
.
La prueba de esfericidad de Bartlett contrasta la hipótesis nula de que la matriz de correlaciones es
una matriz identidad2
, en cuyo caso no existirían correlaciones significativas entre las variables y el
modelo factorial no sería pertinente.
El Análisis de Componentes Principales se puede encontrar implementado en la función prcomp()
del paquete stats y en la función PCA() del paquete FactoMineR en lenguaje R.2
Análisis de Correspondencias Múltiple (MCA)
El Análisis de Correspondencias Múltiple es una extensión del Análisis de Correspondencias Simple.
La estructura de datos sobre los que se aplica el MCA puede ser una matriz formada por variables
ficticias de ausencia – presencia de cada nivel de las variables nominales ó una matriz Burt, que no
es más que el conjunto de todas las tablas de contingencia par a par del conjunto de variables que
están siendo analizadas2
. (Greenacre, 2007). El MCA cuantifica los datos nominales (categóricos)
mediante la asignación de valores numéricos a los individuos y a las categorías, de manera que los
individuos de la misma categoría estén cerca los unos de los otros y los individuos de categorías
diferentes estén alejados los unos de los otros2
. Cada individuo se encuentra lo más cerca posible
de los puntos de las categorías que se aplican a cada uno de ellos. De esta manera, las categorías
dividen los individuos en subgrupos homogéneos. Las variables se consideran homogéneas cuando
clasifican individuos de las mismas categorías en los mismos subgrupos2
.
La función MCA() está implementada en el paquete MASS y FactoMineR en el lenguaje R.2
3)
OBJETIVOS de los métodos multivariados:
1) Simplificación: Los métodos multivariados son un conjunto de técnicas
que permiten al investigador interpretar y visualizar conjuntos grandes
de datos (tanto en individuos como en variables) 3
.
2) Relación: Encontrar relaciones entre variables, entre individuos y entre
6. GARCIA LAIME CARLOS ARMANDO
Docente: Mgr. José Ramiro Zapata Barrientos
Materia: Investigación de Mercados II
“LIBEREMOS BOLIVIA”
P á g i n a 6 | 17
ambos.3
Relación entre variables: Existe relación entre variables cuando las
variables miden una característica común. Ejemplo: Suponga que
se realizan exámenes de lectura, ortografía, aritmética y álgebra a
estudiantes de 6º de primaria. Si cada uno de los estudiantes
obtiene calificaciones altas, regulares o bajas en los cuatro
exámenes, entonces los exámenes estarían relacionados entre sí. En
este caso, la característica común que estos exámenes pueden estar
midiendo podría ser la "inteligencia global" 3
.
Relación entre individuos: Existe relación entre individuos si
alguno de ellos es semejante entre sí. Ejemplo: Suponga que se
evalúan cereales (para el desayudo) respecto a su contenido
nutricional y se miden, por ejemplo, los gramos de grasa, proteínas3
Tipos de variables
1. Numéricas Categóricas
2. Continuas Discretas
3. Ordenadas
4. No ordenadas carbohidratos y
5. sodio a cada uno de ellos.
Se podría esperar que los cereales de fibra estén relacionados entre sí, o que los cereales endulzados
tengan cierta relación entre sí, además se podría esperar que ambos grupos fueran diferentes de
uno a otro 3
.
❖ Uso de los métodos multivariados: Minerías de datos (data mining).
❖ Los métodos multivariados son realmente un conjunto de técnicas que en su gran
mayoría tienen un carácter exploratorio y no tanto inferencial.
• CLASIFICACIÓN de los métodos multivariados:
7. GARCIA LAIME CARLOS ARMANDO
Docente: Mgr. José Ramiro Zapata Barrientos
Materia: Investigación de Mercados II
“LIBEREMOS BOLIVIA”
P á g i n a 7 | 17
1) Dirigidas o motivadas por las variables: se enfocan en las relaciones
entre variables. Ejemplos: matrices de correlación, análisis de
componentes principales, análisis de factores, análisis de regresión y
análisis de correlación canónica 3
.
2) Dirigidas o motivadas por los individuos: se enfocan en las relaciones
entre individuos. Ejemplos: análisis discriminante, análisis de cúmulos
y análisis multivariado de varianza 3
.
Ejemplo 2. (Johnson, 2000). Consumo de caucho y otras variables desde
1948 hasta 1963.
Variables.
CTC: Consumo total de caucho
CCN: Consumo de caucho para neumáticos
PA: Producción de automóviles
PNB: Producto nacional bruto
IPD: Ingreso personal disponible
CCM: Consumo de combustible por motor 3
Análisis exploratorio multivariado
Estadísticas multivariadas descriptivas
• Las estadísticas descriptivas (multivariadas), como su nombre lo indica,
sirven para describir el comportamiento de un conjunto de datos 3
.
• Formalmente, un conjunto de datos es una realización de una muestra
aleatoria 1 2 Xn X de una distribución multiv ,X ,..., ariada. Es decir, para
i=1,...,n,
8. GARCIA LAIME CARLOS ARMANDO
Docente: Mgr. José Ramiro Zapata Barrientos
Materia: Investigación de Mercados II
“LIBEREMOS BOLIVIA”
P á g i n a 8 | 17
En otras palabras, cada Xi es una variable aleatoria multivariada de
dimensión p.
• Por lo tanto, un conjunto de datos esta formado por n realizaciones de p
variables aleatorias 3
.
• MEDIA MUESTRAL:
que en realidad, escribiendo el vector completo, se puede expresar como:
• VARIANZA MUESTRAL:
9. GARCIA LAIME CARLOS ARMANDO
Docente: Mgr. José Ramiro Zapata Barrientos
Materia: Investigación de Mercados II
“LIBEREMOS BOLIVIA”
P á g i n a 9 | 17
CORRELACIÓN MUESTRAL:
10. GARCIA LAIME CARLOS ARMANDO
Docente: Mgr. José Ramiro Zapata Barrientos
Materia: Investigación de Mercados II
“LIBEREMOS BOLIVIA”
P á g i n a 10 | 17
• CUARTILES MUESTRALES: Estas estadísticas de orden se obtienen como en
el caso univariado para cada una de las variables.
R: summary
Análisis gráfico de datos multivariados
• DIAGRAMAS DE DISPERSIÓN (bidimensional).
Este tipo de diagrama consiste en graficar simultáneamente en dos
dimensiones diagramas de dispersión entre todas las posibles parejas de
variables.
R: plot, pairs 3
• DIAGRAMAS DE DISPERSIÓN (tridimensional)
Este tipo de diagrama consiste en graficar en tres dimensiones tres
variables simultáneamente 3
.
• DIAGRAMA DE BURBUJAS (tridimensional)
Este tipo de diagrama consiste en graficar en dos dimensiones tres variables en forma
de burbujas de la siguiente manera: El eje de las X's corresponde a una de las variables,
el eje de las Y's corresponde a otra de las variables, y la tercera variable quedará
representada por el tamaño de la burbuja.
R: symbols 3
• CARAS DE CHERNOFF (multidimensional)
Este tipo de diagrama consiste en graficar un conjunto multivariado de variables en
forma de caras, asociando características faciales diferentes a variables diferentes. Por
ejemplo, una variable se podría asociar con el ancho vertical del ojo, la segunda con el
ancho horizontal, la tercera con el tamaño del iris, y las otras se podrían asociar con el
espaciamiento de los ojos, la altura de los ojos, la longitud de la nariz, en ancho de la
nariz, la longitud de las cejas, el ancho de las cejas. La inclinación de las cejas, el ancho
de las orejas, la longitud de las orejas, la abertura de la boca, la sonrisa, etc 3
.
Estos diagramas son útiles para detectar datos extremos (outliers).
R: faces, faces2
• DIAGRAMA DE ESTRELLAS (multidimensional)
11. GARCIA LAIME CARLOS ARMANDO
Docente: Mgr. José Ramiro Zapata Barrientos
Materia: Investigación de Mercados II
“LIBEREMOS BOLIVIA”
P á g i n a 11 | 17
Este tipo de diagrama se aplica cuando todas las variables toman valores positivos y
consisten en graficar rayos o ejes que parten de un punto central. La longitud del rayo
corresponde al valor de la variable y se tiene un rayo para cada variable. Por ejemplo,
vectores de datos con 5 variables requerirán 5 rayos separados entre sí por un ángulo
de 72 grados. La primera variable generalmente corresponde con el rayo que apunta
hacia el norte y las otras variables se representan sobre los otros rayos en el orden del
sentido del movimiento de las manecillas del reloj.
R: stars 3
• DIAGRAMA DE ANDREWS (multidimensional)
Este tipo de diagrama consiste en representar a la observación i-ésima de
un vector aleatorio p-variado 3
• Estos diagramas son útiles para encontrar agrupamientos en los datos. También son
útiles para localizar datos extremos.
• Es recomendable que las variables estén medidas en unidades semejantes
(estandarización).
• El orden de las variables afecta la interpretación.
12. GARCIA LAIME CARLOS ARMANDO
Docente: Mgr. José Ramiro Zapata Barrientos
Materia: Investigación de Mercados II
“LIBEREMOS BOLIVIA”
P á g i n a 12 | 17
4)
Tipos de métodos de análisis multivariante
Los métodos multivariantes pueden subdividirse según diferentes aspectos. En primer lugar, se
diferencian en función de si se debe descubrir o verificar una estructura con ellos. Los métodos de
determinación de la estructura incluyen el dominio4
:
• Análisis factorial: Reduce la estructura a datos relevantes y variables individuales. Los estudios
factoriales se centran en diferentes variables, por lo que se subdividen en análisis de componentes
principales y análisis de correspondencia. Por ejemplo: ¿Qué elementos de la web influyen más en
el comportamiento de compra? 4
• Análisis de clusters: Las observaciones se asignan gráficamente a grupos de variables individuales y
se clasifican sobre la base de ellas. Los resultados son clusters y segmentos, como el número de
compradores de un producto en particular, que tienen entre 35 y 47 años y tienen un alto nivel de
ingresos4
.
Los procedimientos de revisión estructural incluyen, entre otros, el TLD:
• Análisis de regresión: Investiga la influencia de dos tipos de variables una sobre la otra. Se habla de
variables dependientes y no dependientes. Las primeras son las llamadas variables explicadas,
mientras que las segundas son variables explicativas. El primero describe el estado real sobre la base
de los datos, el segundo explica estos datos por medio de relaciones de dependencia entre las dos
variables. En la práctica, varios cambios de los elementos de la página web corresponden a variables
independientes, mientras que los efectos sobre la tasa de conversión serían la variable
dependiente4
.
• Análisis de desviaciones: Determina la influencia de varias variables o de variables individuales en
grupos calculando promedios estadísticos. Aquí se pueden comparar variables dentro de un grupo
así como diferentes grupos, dependiendo de dónde se deben suponer las desviaciones. Por ejemplo:
¿Qué grupos hacen clic con más frecuencia en el botón "Comprar ahora" de su cesta de la compra?
4
• Análisis discriminante: Se utiliza en el contexto del análisis de desviaciones para diferenciar entre
grupos que se pueden describir con características similares o idénticas. Por ejemplo, ¿en qué
variables difieren los diferentes grupos de compradores? 4
Importancia para la usabilidad
Como método cuantitativo, el análisis multivariante es uno de los métodos más efectivos para
probar la usabilidad. Al mismo tiempo, es muy complejo y a veces costoso. Se puede utilizar
13. GARCIA LAIME CARLOS ARMANDO
Docente: Mgr. José Ramiro Zapata Barrientos
Materia: Investigación de Mercados II
“LIBEREMOS BOLIVIA”
P á g i n a 13 | 17
software para ayudar, pero las pruebas como tales son considerablemente más complejas que las
pruebas A/B en términos de diseño de estudios. La ventaja decisiva radica en el número de variables
que pueden considerarse y su ponderación como medida de la importancia de determinadas
variables. 4
Incluso cuatro versiones diferentes de los titulares de un artículo pueden dar lugar a tasas de clics
completamente diferentes. Lo mismo se aplica al diseño de los botones o al color de fondo del
formulario de pedido. En casos individuales, por lo tanto, vale la pena considerar desde una
perspectiva multivariante también desde el punto de vista financiero, especialmente para las webs
con orientación comercial, como las tiendas online o los sitios web, que deben amortizarse a través
de la publicidad 4
5)
ESCALAS DE MEDIDA
El análisis de los datos implica la separación, identificación y medida de la variación en un conjunto
de variables, tanto entre ellas mismas como entre una variable dependiente y una o más variables
independientes.5
El término clave aquí es medida, dado que el investigador no puede separar o
identificar una variación a menos que pueda ser mesurable. La medida es importante para
representar con precisión el concepto de nuestro interés y es crucial en la selección del método de
análisis multivariante apropiado. En los siguientes párrafos vamos a discutir el concepto de medida
en lo que se refiere al análisis de datos y particularmente a las diversas técnicas multivariantes. 5
Existen dos tipos básicos de datos: no métricos (cualitativos) y métricos (cuantitativos). Los datos
no métricos son atributos, características o propiedades categóricas que identifican o describen a
un sujeto. 5
Describen diferencias en tipo o clase indicando la presencia o ausencia de una
característica o propiedad. Muchas propiedades son discretas porque tienen una característica
peculiar que excluye todas las demás características. 5
Por ejemplo, si uno es hombre, no puede ser
mujer; No hay cantidad de «género», sólo la condición de ser hombre o mujer. Por el contrario, las
medidas de datos métricos están constituidas de tal forma que los sujetos pueden ser identificados
por diferencias entre grado o cantidad. 5
Las variables medidas métricamente reflejan cantidades
relativas o grado. Las medidas métricas son las más apropiadas para casos que involucran cantidad
o magnitud, tales como el nivel de satisfacción o la demanda de trabajo. 5
14. GARCIA LAIME CARLOS ARMANDO
Docente: Mgr. José Ramiro Zapata Barrientos
Materia: Investigación de Mercados II
“LIBEREMOS BOLIVIA”
P á g i n a 14 | 17
SIGNIFICACION ESTADISTICA FRENTE A POTENCIA ESTADISTICA
Todas las técnicas multivariantes, excepto el análisis cluster y el análisis multidimensional, se basan
en la inferencia estadística de los valores de una población o la relación entre variables de una
muestra escogida aleatoriamente de esa población. 5
si estamos realizando un Censo de toda la
población, entonces la inferencia estadística no es necesaria, porque cualquier diferencia o relación,
por pequeña que sea, es «verdad» y existe. Pero rara vez, casi nunca, se realiza un censo; por tanto,
el investigador está obligado a deducir inferencias de una muestra.
Para interpretar las inferencias estadísticas, el investigador debe especificar los niveles aceptables
de error estadístico. El modo de aproximación más común es determinar el nivel de error de Tipo I,
también conocido como alfa (α). El error de Tipo I es la probabilidad de rechazar la hipótesis nula
cuando es cierta, o expresado en términos más sencillos, la posibilidad de que la prueba muestre
significación estadística cuando en realidad no está presente (el caso de un «positivo falso»).
Especificando un nivel alfa, el investigador fija los márgenes admisibles de error especificando la
probabilidad de concluir que la significación existe cuando en realidad no existe. 5
Al especificar el nivel de error de Tipo I. el investigador también determina un error asociado.
denominado el error de Tipo II o beta (β). El error de Tipo II es la probabilidad de fallar en rechazar
la hipótesis nula cuando es realmente falsa.5
Una probabilidad más interesante es 1 - β, denominado
la potencia del test de inferencia estadística. Potencia es la probabilidad de rechazar correctamente
la hipótesis nula cuando debe ser rechazada. Por tanto, la potencia es la probabilidad de que la
inferencia estadística se indique cuando esté presente. 5
Aunque la especificación alfa establece el nivel de significación estadística aceptable, es el nivel de
potencia el que dicta la probabilidad de «éxito» en la búsqueda de las diferencias si es que
realmente existen. 5
entonces, ¿por qué no se plantean niveles aceptables tanto de alfa como de
beta? Porque los errores de Tipo I y Tipo II están inversamente relacionados, y a medida que el error
de Tipo I se hace más restrictivo (se acerca a cero), el error de Tipo II aumenta. Al disminuir el error
de Tipo I también se reduce el poder de la prueba estadística. Por tanto, el analista tiene que
conseguir un equilibrio entre el nivel de alfa y la potencia resultante. 5
VALIDAR LOS RESULTADOS
La capacidad del análisis multivariante para identificar interrelaciones complejas también implica
que puede darse el caso de que los resultados sean especificas sólo para la muestra y no
generalizables a la población. 5
El investigador debe siempre asegurar que existen observaciones
suficientes por parámetro estimado para evitar el «sobreajuste» de la muestra. como se ha discu-
tido antes. Pero igual de importantes son los esfuerzos destinados a validar los resultados mediante
15. GARCIA LAIME CARLOS ARMANDO
Docente: Mgr. José Ramiro Zapata Barrientos
Materia: Investigación de Mercados II
“LIBEREMOS BOLIVIA”
P á g i n a 15 | 17
diferentes métodos, que incluyen (1) división de la muestra y el uso de una submuestra para estimar
el modelo y usar una segunda submuestra para estimar la precisión predictiva. (2) empleo de un
análisis de «bootstrapping»5
. o (3) incluso conseguir una muestra distinta para asegurar que los
resultados son apropiados para otras muestras. Cualquiera que sea la técnica multivariante
empleada. el investigador debe centrarse no sólo en estimar un modelo significativo sino también
en asegurar que es representativo de la población en su conjunto. Recordemos que el objetivo no
es encontrar el mejor «ajuste» sólo para la muestra sino desarrollar el modelo que mejor describa
a la población en su conjunto5
.
6)
ETAPAS DE UN ANALISIS MULTIVARIANTE
Pueden sintetizarse en seis:
1) Objetivos del análisis
Se define el problema especificando los objetivos y las técnicas multivariantes que se van
utilizar
El investigador debe establecer el problema en términos conceptuales definiendo los
conceptos y las relaciones fundamentales que se van a investigar. Se deben establecer si
dichas relaciones van a ser relaciones de dependencia o de interdependencia. Con todo esto
se determinan las variables a observar6
.
2) Diseño del análisis.
Se determina el tamaño muestral, las ecuaciones a estimar (si procede), las distancias a
calcular (si procede) y las técnicas de estimación a emplear. Una vez determinado todo esto
se proceden a observar los datos6
3) Hipótesis del análisis
Se evalúan las hipótesis subyacentes a la técnica multivariante. Dichas hipótesis pueden ser de
normalidad, linealidad, independencia, homocedasticidad, etc. También se debe decidir qué
hacer con los datos missing6
4) Realización del análisis
Se estima el modelo y se evalúa el ajuste a los datos. En este paso pueden aparecer
observaciones atípicas (outliers) o influyentes cuya influencia sobre las estimaciones y la
bondad de ajuste se debe analizar6
.
5) Interpretación de los resultados
16. GARCIA LAIME CARLOS ARMANDO
Docente: Mgr. José Ramiro Zapata Barrientos
Materia: Investigación de Mercados II
“LIBEREMOS BOLIVIA”
P á g i n a 16 | 17
6
Dichas interpretaciones pueden llevar a Re especificaciones adicionales de las variables o
del modelo con lo cual se puede volver de nuevo a los pasos 3) y 4)
6) Validación del análisis
6
Consiste en establecer la validez de los resultados obtenidos analizando sí los
resultados obtenidos con la muestra se generalizar a la población de la que procede. Para
ello se puede dividir la muestra en varias partes en las que el modelo se vuelve a estimar y
se comparan los resultados. Otras técnicas que se pueden utilizar aquí son las técnicas de
muestreo (jacknife y bootstrap) 6
CONCLUSIONES. –
Como se ha podido comprobar, el análisis multivariante tiene un carácter variado y puede ser
bastante poderoso. Este poder es especialmente tentador cuando el investigador no está seguro del
diseño del análisis más apropiado. Incluso cuando se aplica correctamente, los esfuerzos por
acomodar las múltiples variables y relaciones crean complejidades adicionales en los resultados y
su interpretación. Por tanto, su uso sin la base conceptual apropiada para apoyar la técnica
seleccionada sobre aquellos conceptos básicos mencionados en el desarrollo dependerá tener claro
estos conceptos.
REFERENCIAS. –
1. https://www.sac.org.ar/cuestion-de-metodo/que-es-el-analisis-multivariado-parte-1/
2. https://www.ecured.cu/An%C3%A1lisis_multivariados
3. http://allman.rhon.itam.mx/~lnieto/index_archivos/Modulo61.pdf
4. https://es.ryte.com/wiki/An%C3%A1lisis_Multivariante#Tipos_de_m.C3.A9todos_de_an.C
3.A1lisis_multivariante
5. http://www.cyta.com.ar/biblioteca/bddoc/bdlibros/guia_multivariante/guia_multivariant
e.htm
6. http://www.ciberconta.unizar.es/leccion/anamul/inicio.html
7. https://www.ecured.cu/An%C3%A1lisis_multivariados#:~:text=El%20origen%20del%20an
%C3%A1lisis%20multivariado,conceptos%20de%20la%20estad%C3%ADstica%20moderna.
17. GARCIA LAIME CARLOS ARMANDO
Docente: Mgr. José Ramiro Zapata Barrientos
Materia: Investigación de Mercados II
“LIBEREMOS BOLIVIA”
P á g i n a 17 | 17
VIDEOS. –
https://www.youtube.com/watch?v=6xNe1uklDHM
https://www.youtube.com/watch?v=__NwvXa3zjQ
https://www.youtube.com/watch?v=3o-pl5-sBZE