El análisis multivariante o análisis multivariado es un método estadístico utilizado para determinar la contribución de varios factores en un simple evento o resultado.
Los factores de estudio son los llamados factores de riesgo (bioestadística), variables independientes o variables explicativas.
El resultado estudiado es el evento, la variable dependiente o la variable respuesta.
El análisis multivariante mediante técnicas de proyección sobre variables latentes tiene muchas ventajas sobre los métodos de regresión tradicionales.
1. Diana Aguilar Alvarez
Mgr. José Ramiro Zapata Barrientos
Materia: Investigación de Mercados II
Grupo:09
Gestión: II/2020
“LIBEREMOS BOLIVIA”
ANALISIS MULTIVARIANTE
1. Introducción
El origendel análisismultivariadose remontaa loscomienzosdel sigloXX,con Pearsony Sperman,
época en la cual se empezaron a introducir los conceptos de la estadística moderna. Las bases
definitivasde este tipode análisisse establecieronenladécada1930-40 con Hotelling,Wilks,Fisher,
Mahalanobis,yBartlett(Bramardi,2002).En términosgenerales,elanálisismultivariadose refiere a
todosaquellosmétodosestadísticosque analizansimultáneamente medidasmúltiples(másde dos
variables) de cadaindividuo.1
2. Desarrollo
El análisis multivariante o análisis multivariado es un método estadístico utilizado para determinar
la contribución de variosfactoresenunsimple eventooresultado.
Losfactoresde estudiosonlosllamadosfactoresderiesgo(bioestadística),variablesindependientes
o variablesexplicativas.
El resultadoestudiadoesel evento,lavariable dependienteolavariable respuesta.
El análisis multivariante mediante técnicas de proyección sobre variables latentes tiene muchas
ventajassobre losmétodosde regresióntradicionales:
- se puede utilizar la información de múltiples variables de entrada, aunque éstas no sean
linealmenteindependientes
- puede trabajarcon matricesque contenganmásvariablesque observaciones
- puede trabajar con matrices incompletas, siempre que los valores faltantes estén
aleatoriamentedistribuidosynosuperenun10%
- puestoque se basanenla extracciónsecuencialde losfactores,queextraenlamayorvariabilidad
posible de lamatrizdelasX(variablesexplicativas,tienenque serdependientes) puedenseparar
la informacióndel ruido.Se asume que lasXse midenconruido.2
Tipos de métodos de análisismultivariante
Los métodos multivariantes pueden subdividirse según diferentes aspectos. En primer lugar, se
diferencianen función de si se debe descubrir o verificar una estructura con ellos. Los métodos de
determinaciónde laestructuraincluyenel dominio:
Análisis factorial: Reduce la estructura a datos relevantes y variables individuales. Los
estudios factorialesse centran en diferentes variables, por lo que se subdividen enanálisis
2. Diana Aguilar Alvarez
Mgr. José Ramiro Zapata Barrientos
Materia: Investigación de Mercados II
Grupo:09
Gestión: II/2020
“LIBEREMOS BOLIVIA”
de componentesprincipalesyanálisisde correspondencia.Porejemplo:¿Qué elementosde
lawebinfluyenmásenel comportamientode compra?
Análisis de clusters: Las observaciones se asignan gráficamente a grupos de variables
individuales y se clasifican sobre la base de ellas. Los resultados son clusters y segmentos,
como el número de compradores de un producto en particular, que tienen entre 35 y 47
años ytienenunaltonivel de ingresos.
Los procedimientosde revisiónestructural incluyen,entre otros,el TLD:
Análisis de regresión: Investiga la influencia de dos tipos de variables una sobre la otra. Se
hablade variablesdependientesynodependientes.Lasprimerassonlasllamadasvariables
explicadas, mientras que las segundas son variables explicativas. El primero describe el
estadoreal sobre labasede losdatos,el segundoexplicaestosdatospormedioderelaciones
de dependenciaentrelasdosvariables.Enlapráctica,varioscambiosde loselementosde la
páginawebcorrespondenavariablesindependientes,mientrasque losefectossobre latasa
de conversiónseríanlavariable dependiente.
Análisis de desviaciones: Determina la influencia de varias variables o de variables
individuales en grupos calculando promedios estadísticos. Aquí se pueden comparar
variablesdentrode un grupo así como diferentesgrupos,dependiendode dónde se deben
suponer las desviaciones. Por ejemplo: ¿Qué grupos hacen clic con más frecuencia en el
botón"Comprar ahora"de sucesta de la compra?
Análisisdiscriminante: Se utilizaenel contextodel análisisde desviacionesparadiferenciar
entre gruposque se puedendescribirconcaracterísticassimilaresoidénticas.Porejemplo,
¿enqué variablesdifierenlosdiferentesgruposde compradores?3
REPRESENTACION PARA EL ANALISIS MULTIVARIANTE INTERPRETACION
El análisismultivariante tiene uncaráctervariadoy puede serbastante poderoso.Este poderes
especialmente tentador cuando el investigador no está seguro del diseño del análisis más
apropiadoy utilizael análisismultivariantecomounsustitutodel necesarioanálisisconceptual.
Incluso cuando se aplica correctamente, los esfuerzos por acomodar las múltiples variablesy
relaciones crean complejidades adicionales en los resultados y su interpretación. Por tanto,
advertimos contra su uso sin la base conceptual apropiada para apoyar la técnica seleccionada
sobre aquellos conceptos básicos mencionados previamente y los temas abordados en la
siguiente sección.
Mientrasno existaunaúnica «respuesta»,hemosencontradoque el análisisylainterpretación
de cualquier problema multivariante puede verse ayudado por un conjunto general de
directrices.Nose trata de ningúnmodode una listaexhaustivade consideraciones,sinoque la
3. Diana Aguilar Alvarez
Mgr. José Ramiro Zapata Barrientos
Materia: Investigación de Mercados II
Grupo:09
Gestión: II/2020
“LIBEREMOS BOLIVIA”
lista representa más bien una «filosofía del análisis multivariante». Las siguientes secciones
discutenestospuntosperonoenun ordenconcreto,sinohaciendoigual énfasisentodosellos.
establecerlasignificacionpracticaasi como laestadistica
La fuerza del análisis multivariante reside en sus medios aparentemente «mágicos» para
clasificarunavariedadde posiblesalternativasyencontraraquellasque tienensignificación
estadística. Pero con este poder debemos tener precaución. Muchos investigadores se
vuelven miopes al fijarse solamente en la significación conseguida por los resultados sin
entendersusinterpretaciones,buenasomalas.Ensulugar.el investigadordebeatenderno
sólo a la significación estadística de los resultados sinotambiéna su significaciónpráctica.
La significación práctica se refiere a la cuestión, «¿y para qué'?». Para cualquier aplicación
en lagestión,losresultadosdebentenerunefectodemostrable que justifique laacción.En
el terrenoacadémico,el investigadorse llegaafijarnosóloenla significaciónestadísticade
los resultados sino también en sus implicaciones teóricas y sustantivas, que en muchas
ocasionesse deducende susignificaciónpráctica.
Como ejemploilustrativode estasituaciónconsideramosunanálisisde regresiónparapredecir
lasintencionesde compra,medidascomola probabilidadentreOy100 de que el clientevolverá
a comprar a la empresa. El estudio se lleva a cabo y el resultado es significativo al nivel de
significación de 0,05. Los ejecutivos aceptan los resultados y modifican la estrategia de la
empresa.Pero loquenose hapercibidoesquemientraslarelaciónerasignificativa,lacapacidad
predictivaerabaja, tan baja que la estimaciónde la posibilidadde repetircomprapodría variar
tanto como un 20 por ciento al nivel de significación del 0,05. ¡La relación de la «significación
estadística» podríaentoncestenerunrango de errorde 40 puntosporcentuales!Uncliente del
cual se predice que tiene una oportunidad de volver de 50/50 podría realmente tener
probabilidades del 30 al 70 por ciento, representando niveles inaceptables sobre los cuales
actuar. Losinvestigadoresylosgerentesnohanprobadolasignificaciónprácticaode gestiónde
losresultados.olvidandoque larelacióntodavíanecesitabaunulteriorrefinamiento.
tamañomuestral afectaa todoslos resultados
La discusión de la potencia estadística demuestra que el impacto sustancial del tamaño
muestral opera en la consecución de la significación estadística, tanto en tamaños
muestrales grandes como pequeños. Para muestras pequeñas, la sofistificación y la
complejidad del análisis multivariante puede fácilmente resultar tanto en (1) muy poca
potenciaestadísticade la pruebapara identificarde formarealistaresultadossignificativos
4. Diana Aguilar Alvarez
Mgr. José Ramiro Zapata Barrientos
Materia: Investigación de Mercados II
Grupo:09
Gestión: II/2020
“LIBEREMOS BOLIVIA”
o (2) fácilmente un «sobreaprovechamiento» de los datos de tal forma que sean
artificialmente buenos porque se ajustan muy bien a la muestra, aunque no sean
generalizables.Lomismoocurre paramuestrasgrandesque,comoyase ha discutidoantes,
pueden hacer a los test estadísticos altamente sensibles. Siempre que los tamaños
muestrales excedanlos 200 o 400 encuestados, el investigador debería examinar todos los
resultados signifi-cativos para asegurarse que tienen significación práctica debido al
aumento de la potencia estadística como consecuencia del tamaño muestral. Los tamaños
muestrales también afectan a los resultados cuando los análisis implican grupos de
encuestados,comoocurre en el análisisdiscriminante oen MANOVA.Tamañosmuestrales
desiguales entre los grupos influencian a los resultados y requieren un análisis y/o
interpretación adicional. Por tanto, el investigador o usuario del análisis multivariante
deberíasiempre valorarlosresultadosalaluzde la muestrautilizada.
conocerlosdatos
Las técnicas del análisis multivariante, por su propia naturaleza, identifican relaciones
complejasque sondifícilesde representarde formasimple.Comoresultado,latendenciaes
aceptar losre-sultadossinel típico examenque unoemprende enlosanálisisunivariantey
bivariante (porejem-plo,gráficode dispersiónde correlacionesyboxplotsde comparaciones
de media).Peroestos«atajos» puedenserel preludiodel desastre.El análisismultivariante
requiere un examen incluso más riguroso de los datos porque la influencia de atípicos,
violaciones de los supuestos y la pér-dida de datos puede agravarse a través de varias
variables y tener efectos sustancialmente diferentes. Para servirse de todos los beneficios
de las técnicas multivariantes, el analista debe también «sa-ber dónde mirar» con
formulaciones alternativas del modelo original, tales como relaciones no li-neales e
interactivas. El analista tiene, sin embargo, un conjunto de técnicas de diagnóstico en
continuaexpansiónque permitenque estasrelacionesmultivariantesseandescubiertaspor
medios similares a los métodos univariantes y bivariantes. El investigador de un problema
multivariante debe tomarse su tiempo en utilizar estas medidas de diagnóstico para un
mayor entendimientode losdatosyde lasrelaciones básicasque existen.
procurar la parsimoniadel modelo
Las técnicas multivariantes se diseñan para acomodar las variables en el análisis. Este
carácter, sin embargo,no debería sustituirel desarrollode modelosconceptualesantesde
que se apliquenlas técnicasmultivariantes.Aunqueessiempreimportanteevitaromitiruna
variable predictorcrítica,denominadaerrorde especificación,porvariasrazonesel analista
debe también intentar evi-tar insertar variables indiscriminadamente. En primer lugar, las
5. Diana Aguilar Alvarez
Mgr. José Ramiro Zapata Barrientos
Materia: Investigación de Mercados II
Grupo:09
Gestión: II/2020
“LIBEREMOS BOLIVIA”
variables irrelevantes habitualmente aumentan la capacidad del análisis para ajustar la
muestra de datos pero a costa de sobreajustar los datos y hacerlos menos generalizables
para la población. En segundo lugar, las variables irrelevantes no sesgan típicamente las
estimaciones de las variables relevantes, pero pueden enmascarar los efectos verdaderos
debidoa la multicolinealidad.La multicolinealidadrepresentael gradoen el que cual-quier
efecto de una variable puede ser prevista o explicada por las otras variables del análisis. A
medida que aumenta la multicolinealidad. la capacidad para definir el efecto de cualquier
variable disminuye.Portanto,incluyendovariablesquenosonrelevantesconceptualmente
podemostenervariosefectospotencialmentedañinos.inclusosi lasvariablesadicionalesno
sesgandirectamente losresultadosdel modelo.
atendera loserrores
Incluso con la capacidad del análisis multivariante. difícilmente conseguiremos la mejor
predicciónenel primeranálisis.El analistase enfrentacon la cuestión.«¿adónde podemos
ir desde aquí?». La mejor respuesta es mirar a los errores en la predicción. tanto si son los
residuosdel análisisde regresión.laausenciade clasificaciónde observacionesenelanálisis
discriminante olosatípicosdel análisiscluster.
En cada caso. el analista debería utilizar los errores de predicciónno como una medida de
error o como algo meramente aeliminar.sinocomoun punto de partidapara diagnosticar
la validez de los resultados obtenidos y como una indicación de las relaciones que quedan
sinexplicar.
validarlosresultados
La capacidad del análisis multivariante para identificar interrelaciones complejas también
impli-caque puededarse el casode que losresultadosseanespecificassóloparalamuestra
y no generalizables a la población. El investigador debe siempre asegurar que existen
observaciones suficientes por parámetro estimado para evitar el «sobreajuste» de la
muestra. como se ha discu-tido antes. Pero igual de importantes son los esfuerzos
destinados a validar los resultados mediante diferentes métodos, que incluyen (1) división
de la muestra y el uso de una submuestra para estimar el modelo y usar una segunda
submuestra para estimar la precisión predictiva. (2) empleo de un análisis de
«bootstrapping» [9]. o (3) incluso conseguir una muestra distinta para asegurar que los
resultadossonapropiadosparaotras muestras.Cualquieraque sealatécnica multivariante
empleada. el investigador debe centrarse no sólo en estimar un modelo significativo sino
tambiénenasegurarque esrepresentativode lapoblaciónensuconjunto.Recordemosque
6. Diana Aguilar Alvarez
Mgr. José Ramiro Zapata Barrientos
Materia: Investigación de Mercados II
Grupo:09
Gestión: II/2020
“LIBEREMOS BOLIVIA”
el objetivonoesencontrarelmejor«ajuste»sóloparalamuestrasinodesarrollarel modelo
que mejordescribaa lapoblaciónensuconjunto.4
Tipologíade técnicasmultivariantes
Una manera de entender qué es el Análisis Multivariante es la descripción de los principales
procedimientos que engloba. Sin ánimo de ser exhaustivos, éstos pueden ser agrupados en los
siguientestipos:
a) Modelosde rango completoynocompleto.
Supóngase que en el problema objeto de estudio se tiene una variable dependiente (Y) y una
colección de variables independientes que se suponen explicativas de la anterior bajo una forma
lineal olinealizable (X1,X2,...,Xn)
Si tanto lavariable aexplicarcomolasvariables“explicativas”soncuantitativasylosdatosrelativos
a las últimas conforman una matriz de rango completo, la técnica que, entre otras cosas,
proporciona la relación lineal de Y con X1, X2,...,Xn,o en otros términos, que permite predecir los
cambiosenel valordeenrespuestaaloscambiosenlosvaloresde X1,X2,...,Xn), o,loqueeslomismo,
la "explicación" del comportamiento de la variable de nuestro interés mediante la información
suministrada por una serie de variables de las que se supone depende linealmente, se denomina
regresiónmúltiple.El modelode regresiónmúltiple viene dado por yi = β0 + β1χ1i + β2χ2i + ... + βpχpi +
еi o, en términosmatriciales,Υ= Xβ+ е, donde Xes una matrizde cantidadesconocidasyde rango
completo y la inclusión del término de error se justifica por la omisión en el modelo de variables
explicativasrelevantesoerroresde medida.
Si las variables X1, X2,...,Xn fuesenlos niveles de un factor o variable cualitativa, o susceptible de
tratarse como tal (por ejemplo, varón y mujer son los niveles del factor sexo), y se pretendiese
estimar el efecto de que sobre la variable Y tiene el hecho de que una determinada observación
pertenezca a un determinadonivel del factor, la técnica que se ocupa de estas cuestioneses el
Análisisde lavarianza(ANOVA).Nóteseque comolasobservacionestienenque perteneceraunoy
solo uno de los nivelesdel factor considerado, la matriz Xes de rango no completo, por lo cual no
se podránestimardichosefectossinocombinacioneslinealesde ellos,sinqueestosuponganingún
deméritoparael análisis.A modode ejemplo,elANOVArespondepreguntascomo¿cuál esel efecto
diferencialentre hombresymujeresparadosenel tiempode búsquedade empleo,suponiéndoles
iguales en cuanto a otras características de interés? Originalmente el ANOVA se utilizó para
determinarel efectosobre lascosechasde distintostratamientosonivelesde fertilizante.Porotra
parte, resulta relativamente sencillo “reparametrizar” el modelo y convertirlo en un modelo de
regresiónmúltiple.
Si los factores son dos o más, cobra especial relevancia el efecto de la interacción de sus niveles
sobre la variable aexplicar.
7. Diana Aguilar Alvarez
Mgr. José Ramiro Zapata Barrientos
Materia: Investigación de Mercados II
Grupo:09
Gestión: II/2020
“LIBEREMOS BOLIVIA”
En caso de que algunas de las variables explicativas fuesen de carácter cualitativo y otras de tipo
cuantitativo,el modelose denominamodelode análisisde lacovarianza(ANCOVA).Evidentemente,
resultan de especial interés las interacciones entre las variables explicativas. Si las variables a
explicar son dos o más el procedimiento se denomina análisis multivariante de la varianza (si las
variables explicativas son todas ellas factores) (MANOVA) o análisis multivariante de la covarianza
(si coexistenfactoresconvariablescuantitativas(MANCOVA).
Finalmente,lacorrelacióncanónicaesunatécnicaque se utilizaparadeterminarlascombinaciones
lineales de las variables de los vectores de “variables explicativas” y “a explicar” que presenten la
máxima correlación posible. Más concretamente, consiste en determinar, en primer lugar, las dos
combinaciones lineales de las variables de dichos vectores, de entre las infinitas que se pueden
formar, que presenten la máxima correlación. Posteriormente se determinan otras dos
combinacioneslinealesdetalesvectores,incorrelacionadasconlasanteriores,tal que lacorrelación
entre ellas sea máxima. Y así sucesivamente. Como puede apreciarse, el análisis de correlación
canónicapuede servistocomouna extensiónnatural del modelode regresiónmúltiple.
- Análisisde regresiónmúltiple.
- Análisisde lavarianza(ANOVA).
- Análisisde lacovarianza(ANCOVA).
- Análisismultivariantede lavarianza(MANOVA).
- Análisismultivariantede lacovarianza(MANCOVA).
- Correlacióncanónica.
b) Reducciónde ladimensionalidad.
Son muy numerosaslasocasionesen las que un investigadortiene que manejar,enla práctica,un
elenco ciertamente numerosode variables correlacionadas entre sí. Evidentemente,si varias de
estasvariablesestáncorrelacionadas,parte de lainformaciónque aportanal estudiodel fenómeno
en cuestiónnoes “fresca”,o, en términos,másformales,esredundante,puestoque yala aportan
otras de las variables consideradas.Ello lleva al investigador, por cuestiones de manejabilidad y
comodidad, a reducir la dimensión del problema, es decir, a trabajar con un conjunto de nuevas
variables, menor que el original e incorreladas entre sí, que recogen una gran parte (tan grande
como se quiera) de la información que llevabanaparejadas las variables originales. Obviamente,
cuanto másse reduzcala dimensionalidadmásinformaciónoriginal se pierde.
En este sentido,el Análisisde componentesprincipalesexaminalasrelacionesentreunconjuntode
p variables correlacionadas y las transforma en un nuevo conjunto de variables incorreladas
denominadas componentes principales. Estas nuevas variables son combinaciones lineales de las
originalesyse derivanenordende importancia,de tal maneraque laprimeracomponente principal
recoge,de la variación total de losdatosoriginales,lamayorparte posible.
8. Diana Aguilar Alvarez
Mgr. José Ramiro Zapata Barrientos
Materia: Investigación de Mercados II
Grupo:09
Gestión: II/2020
“LIBEREMOS BOLIVIA”
- Análisisde componentesprincipales
- Análisisfactorial.
c) ClasificaciónyDiscriminación.
El análisis de conglomerados, también denominado taxonomía numérica, clasificación o
reconocimiento de patrones o formas, está orientado a la síntesis de la información contenida en
los elementos observados,síntesis llevada a cabo con vistas a establecer una agrupación de los
mismos en función de su mayor o menor homogeneidad. En otros términos, es una técnica
estadística que trata de agrupar elementos (que vendrán calificados por un determinado número
de características) engruposmutuamenteexcluyentes,de tal formaqueloselementosdeunmismo
grupo sean lo más parecidos posible entre sí y lo más diferentes posible respecto de los
pertenecientesaotrosgrupos.
- Análisisde Conglomerados.
- Análisisdiscriminante.
d) Otros procedimientosmultivariantes.
El Análisis conjunto pretende determinar qué combinación de un elenco finito de factores o
atributos es el más preferido por una población encuestada. Se utiliza con frecuencia para
comprobar la aceptación de diseños nuevos de productos por parte del cliente y para valorar el
atractivode anuncios.
Básicamente,se tratade unmodeloque permiteobtener unindicadorde laimportanciarelativade
cada una de las características de un producto a través del estudio de los atributos que los
consumidores descartan en su elección. El principio básico del análisis consiste en descomponer
utilidadporproductoenutilidadesporatributo.
- Análisisconjunto.
- Escalamientomultidimensional.
- Análisisde correspondencias.
- Análisislogit.
- Modelosde ecuacionesestructurales.5
3. Conclusiones
El análisis multivariable es muy importante para poder interpretar los datos recopilados, ciertamente
estos pueden ser exhaustivos de comprender, pero lo necesitamos para analizar simultáneamente
conjuntosde datosmultivariantesenel sentidode que hayvariasvariablesmedidasparacadaindividuo
ú objetoestudiado.