1. UNIVERSIDAD DE MAYOR DE SAN SIMÓN
FACULTAD DE CIENCIAS ECONÓMICAS
CARRERA DE INGENIERÍA COMERCIAL
TRABAJO
PRÁCTICO:
Análisis
multivariado
Integrante: Apaza Gonzales Sonia
Docente: M.Sc José Ramiro Zapata Barrientos
Grupo: 09
Materia: Investigación de mercados II
CBBA-BOLIVIA
2. CONTENIDO:
1. Introducción.........................................................................................................3
2. Objetivos de los métodos multivariados: ..........................................................4
2.1 Simplificación: ..............................................................................................................4
2.2 Relación:.......................................................................................................................4
3. Calificación de los métodos multivariados:.......................................................4
3.1 Dirigidas o motivadas por las variables: ....................................................................4
3.2 Dirigidas o motivadas por los individuos:...................................................................4
4. Técnicas Multivariantes ......................................................................................5
4.1 Análisis de componentes principales.........................................................................5
4.2 Análisis factorial ...........................................................................................................6
4.2.1 Tipos de análisis factorial.....................................................................................6
4.2.1.1 Análisis factorial exploratorio, AFE...............................................................6
4.2.1.2 El análisis factorial confirmatorio, AFC ........................................................6
4.3 Análisis Discriminante Lineal ADL o LDA..................................................................6
4.4 El análisis de correlación canónica ............................................................................7
4.5 Análisis de grupos o agrupamiento............................................................................7
4.6 Escalado multidimensional (EMD)..............................................................................7
4.7 Análisis de correspondencias .....................................................................................7
4.8 Factorial confirmatorio.................................................................................................8
4.9 Modelos de ecuaciones estructurales (SEM)............................................................8
4.9.1 Fases de un modelo SEM....................................................................................8
4.10 Objetivo del análisis conjunto ...................................................................................9
4.11 Escalamiento óptimo .................................................................................................9
4.12 Regresión lineal múltiple .........................................................................................10
4.13 Los modelos Logit y Probit......................................................................................10
4.13.1 Métodos para estimar Logit y Probit ...............................................................11
4.13.1.1 Mínimos cuadrados no lineales................................................................11
4.13.1.2 Máxima verosimilitud.................................................................................11
4.14 Análisis de la varianza o MANOVA.......................................................................11
5. Bibliografía:........................................................................................................12
3. ANÁLISIS MULTIVARIADO
1. Introducción
El análisis multivariante es un método estadístico utilizado para determinar la contribución
de varios factores en un simple evento o resultado.
Los factores de estudio son los llamados factores de riesgo bioestadística, variables
independientes o variables explicativas.
El resultado estudiado es el evento, la variable dependiente o la variable respuesta.
Mediante técnicas de proyección sobre variables latentes tiene muchas ventajas sobre los
métodos de regresión tradicionales. Se puede utilizar la información de múltiples variables
de entrada, aunque éstas no sean linealmente independientes puede trabajar con
matrices que contengan más variables que observaciones puede trabajar con matrices
incompletas, siempre que los valores faltantes estén aleatoriamente distribuidos y no
superen un 10% puesto que se basan en la extracción secuencial de los factores, que
extraen la mayor variabilidad posible de la matriz de las X variables explicativas, tienen
que ser dependientes pueden separar la información del ruido.
Las cuales surgen en distintas áreas o ramas de la ciencia.
Ejemplo:
Investigación de mercados: Identificar características de los individuos para
determinar qué tipo de personas compran determinado producto.
Agricultura: Resistencia de determinado tipo de cosechas a daños por plagas y
sequías.
Psicología: Relación entre el comportamiento de adolescentes y actitudes de los
padres.
¿En qué situaciones surgen los datos multivariados?
Cuando a un mismo individuo se le mide más de una característica de interés. Un
individuo puede ser un objeto o concepto que se puede medir. Más generalmente, los
individuos son llamados unidades experimentales.
Ejemplos de objetos:
Personas, animales, terrenos, compañías, países, etc.
4. Ejemplos de conceptos:
Amor, amistad, noviazgo, etc.
2. Objetivos de los métodos multivariados:
2.1 Simplificación: Los métodos multivariados son un conjunto de técnicas que permiten
al investigador interpretar y visualizar conjuntos grandes de datos (tanto en individuos
como en variables).
2.2 Relación: Encontrar relaciones entre variables, entre individuos y entre ambos.
Relación entre variables: Existe relación entre variables cuando las variables
miden una característica común.
Relación entre individuos: Existe relación entre individuos si alguno de ellos son
semejantes entre sí.
3. Calificación de los métodos multivariados:
3.1 Dirigidas o motivadas por las variables: se enfocan en las relaciones entre
variables. Ejemplos: matrices de correlación, análisis de componentes principales, análisis
de factores, análisis de regresión y análisis de correlación canónica.
3.2 Dirigidas o motivadas por los individuos: se enfocan en las relaciones entre
individuos. Ejemplos: análisis discriminante, análisis de cúmulos y análisis multivariado de
varianza.
Es un método estadístico utilizado para determinar la contribución de varios factores en
un simple evento o resultado.
Los factores de estudio son los llamados factores de riesgo bioestadística, variables
independientes o variables explicativas.
El resultado estudiado es el evento, la variable dependiente o la variable respuesta.
El análisis multivariante mediante técnicas de proyección sobre variables latentes
tiene muchas ventajas sobre los métodos de regresión tradicionales:
Se puede utilizar la información de múltiples variables de entrada, aunque éstas no
sean linealmente independientes.
Puede trabajar con matrices que contengan más variables que observaciones.
5. Puede trabajar con matrices incompletas, siempre que los valores faltantes estén
aleatoriamente distribuidos y no superen un 10%.
Puesto que se basan en la extracción secuencial de los factores, que extraen la mayor
variabilidad posible de la matriz de las X variables explicativas, tienen que ser
dependientes, pueden separar la información del ruido. Se asume que las X se miden
con ruido.
4. Técnicas Multivariantes
Análisis de componentes principales
Análisis factorial
Análisis discriminante
Análisis de la correlación canónica
Análisis de grupos
Escalamiento multidimensional
Análisis de correspondencias
Análisis factorial confirmatorio
Modelo de Ecuaciones Estructurales (SEM), análisis causal.
Análisis conjunto
Escalamiento Óptimo
Regresión Lineal Multiple
Regresión Logit y Probit
Análisis Manova
4.1 Análisis de componentes principales
En estadística, el análisis de componentes principales es una técnica utilizada para
describir un conjunto de datos en términos de nuevas variables no correlacionadas. Los
componentes se ordenan por la cantidad de varianza original que describen, por lo que la
técnica es útil para reducir la dimensionalidad de un conjunto de datos.
Técnicamente, el ACP busca la proyección según la cual los datos queden mejor
representados en términos de mínimos cuadrados. Esta convierte un conjunto de
observaciones de variables posiblemente correlacionadas en un conjunto de valores de
variables sin correlación lineal llamadas componentes principales.
6. El ACP se emplea sobre todo en análisis exploratorio de datos y para construir modelos
predictivos. En si comporta el cálculo de la descomposición en autovalores de la matriz de
covarianza, normalmente tras centrar los datos en la media de cada atributo.
Debe diferenciarse del análisis factorial con el que tiene similitudes formales y en el cual
puede ser utilizado como un método de aproximación para la extracción de factores.
4.2 Análisis factorial
Es una técnica estadística de reducción de datos usada para explicar las correlaciones
entre las variables observadas en términos de un número menor de variables no
observadas llamadas factores. Las variables observadas se modelan como
combinaciones lineales de factores más expresiones de error. El análisis factorial se
originó en psicometría, y se usa en las ciencias del comportamiento tales como ciencias
sociales, marketing, gestión de productos, investigación operativa, y otras ciencias
aplicadas que tratan con grandes cantidades de datos.
4.2.1 Tipos de análisis factorial
4.2.1.1 Análisis factorial exploratorio, AFE
Se usa para tratar de descubrir la estructura interna de un número relativamente grande
de variables. La hipótesis a priori del investigador es que pueden existir una serie de
factores asociados a grupos de variables. Las cargas de los distintos factores se utilizan
para intuir la relación de estos con las distintas variables. Es el tipo de análisis factorial
más común.
4.2.1.2 El análisis factorial confirmatorio, AFC
Trata de determinar si el número de factores obtenidos y sus cargas se corresponden con
los que cabría esperar a la luz de una teoría previa acerca de los datos. La hipótesis a
priori es que existen unos determinados factores preestablecidos y que cada uno de ellos
está asociado con un determinado subconjunto de las variables. El análisis factorial
confirmatorio entonces arroja un nivel de confianza para poder aceptar o rechazar dicha
hipótesis. También considera las variables como dos medidas que pueden ser
cuantificadas constantemente.
4.3 Análisis Discriminante Lineal ADL o LDA
Es una generalización del discriminante lineal de Fisher, un método utilizado en
estadística, reconocimiento de patrones y aprendizaje de máquinas para encontrar una
7. combinación lineal de rasgos que caracterizan o separan dos o más clases de objetos o
eventos. La combinación resultante puede ser utilizada como un clasificador lineal, o, más
comúnmente, para la reducción de dimensiones antes de la posterior clasificación.
4.4 El análisis de correlación canónica
Es un método de análisis multivariante desarrollado por Harold Hotelling.
Su objetivo es buscar las relaciones que pueda haber entre dos grupos de variables y la
validez de las mismas. Se diferencia del análisis de correlación múltiple en que éste solo
predice una variable dependiente a partir de múltiples independientes, mientras que la
correlación canónica predice múltiples variables dependientes a partir de múltiples
independientes.
La correlación hipercanónica es una correlación lineal y, por tanto, solo busca relaciones
lineales entre las variables. En este análisis, entonces, se crean combinaciones lineales
de las variables originales, sobre la base de su estructura de correlación. Al diseñar el
experimento hay que considerar el tamaño de la muestra ya que son necesarias un
mínimo de observaciones por variable, para que el análisis pueda representar las
correlaciones adecuadamente.
4.5 Análisis de grupos o agrupamiento
es la tarea de agrupar objetos por similitud, en grupos o conjuntos de manera que los
miembros del mismo grupo tengan características similares. Es la tarea principal de la
minería de datos exploratoria y es una técnica común en el análisis de datos estadísticos.
4.6 Escalado multidimensional (EMD)
Se refiere al conjunto de técnicas estadísticas utilizadas habitualmente en marketing y
ciencias sociales para la visualización y exploración de datos. Es un procedimiento para
tomar preferencias y percepciones de los encuestados y representarlos en un diagrama
visual.
4.7 Análisis de correspondencias
Es una técnica descriptiva desarrollada por Jean-Paul Benzécri. Suele aplicarse al
estudio de tablas de contingencia y es conceptualmente similar al análisis de
componentes principales con la diferencia de que en el análisis de correspondencias los
datos se escalan de modo que filas y columnas se tratan de modo equivalente.
Existen distintas versiones de esta técnica, incluyendo:
8. Análisis de correspondencias canónico.
Análisis de correspondencias múltiple, una extensión a tablas de contingencia
multidimensionales.
Análisis de correspondencias baricéntrico, que se aplica a problemas de
discriminación basado en variables cualitativas.
4.8 Factorial confirmatorio
Se supone que el investigador es capaz de aventurar a priori la estructura de los datos
preferiblemente en función de una teoría bien establecida- y sólo precisa confirmar que
esa estructura puede también obtenerse empíricamente.
4.9 Modelos de ecuaciones estructurales (SEM)
Establecen la relación de dependencia entre las variables. Trata de integrar una serie de
ecuaciones lineales y establecer cuáles de ellas son dependientes o independientes de
otras, ya que dentro del mismo modelo las variables que pueden ser independientes en
una relación pueden ser dependientes en otras, por lo que se vuelve una herramienta útil.
4.9.1 Fases de un modelo SEM
Los especialistas en SEM coinciden en que son seis las fases para aplicar esta técnica:
La especificación
Es la fase en donde el investigador establece la relación hipotética entre las variables
latentes y las observadas, la misma que con el análisis se obtendrán las relaciones
correctas.
Identificación
Se estiman los parámetros del modelo. Se determina si un modelo está identificado
mediante una expresión algebraica que lo demuestre, en función de las varianzas y
covarianzas muestrales.
Determinación
Los valores de los parámetros desconocidos así como su respectivo error de medición
para lo que se utilizan diversos programas computacionales como el LISREL, el AMOS y
el EQS9,16,17.
La evaluación o bondad de ajuste
9. Se refiere a la exactitud en los datos del modelo para determinar si es correcto y sirve
para los propósitos del investigador.
Las medidas de calidad del ajuste pueden ser de tres tipos:
Medidas absolutas del ajuste que evalúan el ajuste global del modelo.
Medidas del ajuste incremental que comparan el modelo propuesto con otros modelos
especificados por el investigador.
Medidas del ajuste de parsimonia, que ajustan las medidas de ajuste para ofrecer una
comparación entre modelos con diferentes números de coeficientes estimados, siendo
su propósito determinar la cantidad del ajuste conseguido por cada coeficiente
estimado.
Reespecificación del modelo
Ayuda al investigador a saber si el primer modelo obtenido es el mejor, para lo que es
necesario buscar métodos para mejorar el ajuste del mismo añadiendo o eliminando los
parámetros estimados del modelo original, con sus justificaciones correspondientes.
Interpretación de los datos
Ayuda al investigador a establecer el modelo correcto y la aceptación o rechazo de las
hipótesis, concluyendo con su investigación.
4.10 Objetivo del análisis conjunto
Es determinar qué combinación de un número limitado de atributos es el más preferido
por los encuestados. Se utiliza con frecuencia para comprobar la aceptación de diseños
nuevos de producto por parte del cliente y valorar el atractivo de anuncios. Se ha utilizado
en el posicionamiento de producto, pero hay algunos problemas con la aplicación de la
técnica.
4.11 Escalamiento óptimo
La idea que subyace tras el escalamiento óptimo es asignar cuantificaciones numéricas a
las categorías de cada variable, lo que permite utilizar los procedimientos estándar para
obtener una solución con las variables cuantificadas.
Los valores de escala óptimos se asignan a las categorías de cada variable de acuerdo
con el criterio de optimización del procedimiento que se esté utilizando. A diferencia de las
10. etiquetas originales de las variables nominales u ordinales del análisis, estos valores de
escala tienen propiedades métricas.
4.12 Regresión lineal múltiple
Permite generar un modelo lineal en el que el valor de la variable dependiente o respuesta
(YY) se determina a partir de un conjunto de variables independientes llamadas
predictores (X1X1, X2X2, X3X3…). Es una extensión de la regresión lineal simple, por lo
que es fundamental comprender esta última. Los modelos de regresión múltiple pueden
emplearse para predecir el valor de la variable dependiente o para evaluar la influencia
que tienen los predictores sobre ella.
Los modelos lineales múltiples siguen la siguiente ecuación:
Yi=(β0+β1X1i+β2X2i+⋯+βnXni)+eiYi=(β0+β1X1i+β2X2i+⋯+βnXni)+ei
β0β0: Es la ordenada en el origen, el valor de la variable dependiente YY cuando
todos los predictores son cero.
βiβi: Es el efecto promedio que tiene el incremento en una unidad de la variable
predictora XiXi sobre la variable dependiente YY, manteniéndose constantes el resto
de variables. Se conocen como coeficientes parciales de regresión.
eiei: Es el residuo o error, la diferencia entre el valor observado y el estimado por el
modelo.
Es importante tener en cuenta que la magnitud de cada coeficiente parcial de regresión
depende de las unidades en las que se mida la variable predictora a la que corresponde,
por lo que su magnitud no está asociada con la importancia de cada predictor. Para poder
determinar qué impacto tienen en el modelo cada una de las variables, se emplean
los coeficientes parciales estandarizados, que se obtienen al estandarizar las variables
predictoras previo ajuste del modelo.
4.13 Los modelos Logit y Probit
Son modelos econométricos no lineales que se utilizan cuando la variable dependiente es
binaria o dummy, es decir que sólo puede tomar dos valores.
El modelo más sencillo de elección binaria es el modelo de probabilidad lineal. Sin
embargo, los problemas de utilizarlo son dos:
Las probabilidades obtenidas pueden ser menores a cero o mayores a uno.
11. El efecto parcial permanece siempre constante.
4.13.1 Métodos para estimar Logit y Probit
4.13.1.1 Mínimos cuadrados no lineales
El estimador de mínimos cuadrados no lineales selecciona los valores de que minimizan
la suma de residuales al cuadrado.
En muestras grandes, el estimador de mínimos cuadrados no lineales es consistente, se
distribuye en forma normal y en general, es menos eficiente que máxima verosimilitud.
4.13.1.2 Máxima verosimilitud
El estimador de máxima verosimilitud selecciona los valores de que maximizan el
logaritmo de la verosimilitud
En muestras grandes, el estimador de máxima verosimilitud es consistente, normalmente
distribuido y es el más eficiente porque tiene la varianza más pequeña de todos los
estimadores.
4.14 Análisis de la varianza o MANOVA
Es una extensión del análisis de la varianza o ANOVA para cubrir los casos donde hay
más de una variable dependiente que no pueden ser combinadas de manera simple.
Además de identificar si los cambios en las variables independientes tienen efectos
significativos en las variables dependientes, la técnica también intenta identificar las
interacciones entre las variables independientes y su grado de asociación con las
dependientes.
12. Cuando aparece la suma de cuadrados en el análisis univariante de la varianza, en el
análisis multivariante de la varianza aparecen ciertas matrices definidas positivas.
Los elementos diagonales son del mismo tipo de sumas de cuadrados que aparecen en el
ANOVA univariante. Los elementos fuera de la diagonal se corresponden con sumas de
productos. Asumiendo condiciones de normalidad sobre distribuciones de error, el
homólogo de la suma de cuadrados debido al error tendrá una distribución de Wishart.
5. Bibliografía:
Wooldridge, J. (2010) Introducción a la Econometría. (4ª ed.) México: CengageLearning.