Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Análises multivariadas exploratórias
1. ANÁLISES MULTIVARIADAS
• Análises que trabalham com mais de uma variável
dependente.
• Análises principalmente exploratórias.
• Inferências estatísticas possíveis em alguns casos.
• Análises recomendadas em estudos de comunidades.
• TIPOS
Classificação (classificar em grupos)
Ordenação (ordenar em gradientes)
2. ORDENAÇÃO
• Ordenar dados ao longo de gradientes (variáveis)
Reduzir o número de variáveis para permitir o
reconhecimento de padrões só com as variáveis
realmente importantes (Análise Exploratória)
Fornecer uma nova combinação de variáveis, as
variáveis latentes, que podem ser tratadas como novas
variáveis para análises estatísticas (ANOVA, teste t,
Regressão).
Variáveis bióticas, ambientais ou ambas
Variáveis explicativas (independentes) ou dependentes
3. ORDENAÇÃO
Relação entre variáveis biológicas (espécies ou táxons) a
partir de observações (amostras).
Análises indiretas: padrões de ordenação explicados por
variáveis ambientais não analisadas diretamente.
Análise de Componentes Principais
Análise Discriminante
Análise de Correspondência
Escalonamento Multidimensional
Análises diretas: padrões de ordenação calculados a partir
de dados bióticos e ambientais concomitantemente
Análise de Gradientes
Análise de Correspondência Canônica
Análise de Correlação Canônica
4. ORDENAÇÃO
VARIÁVEIS VARIÁVEIS
OBSERVAÇÕES/OBJETOS AMBIENTAIS
Espécie Sp. Sp. Sp. Sp.
(unidades amostrais)
Estação A B C X
NO3 Temp Altitude x
St. 1 2 4 3 ... 2 4 3 ...
St. 2 4 3 12 ... 4 3 12 ...
St. 3 5 5 2 ... 5 5 2 ...
St. 4 6 5 1 ... 6 5 1 ...
St. 5 1 2 2 ... 1 2 2 ...
St. Y ... ... ... ... ... ... ... ...
Modo R Modo Q
ESPÉCIES AMOSTRAS
AMOSTRAS
ESPÉCIES
VARIÁVEIS << AMOSTRAS
(Colunas) (linhas)
5. ORDENAÇÃO
VARIÁVEIS
AMBIENTAIS
ESPÉCIES
AMOSTRAS
AMOSTRAS
Modo
R Modo MATRIZ
Q
Distância ou Similaridade
ESPÉCIES/ AMBIENTAIS
MATRIZ
Correlação ou Covariância
AMOSTRAS
ESPÉCIES
ANÁLISE
INDIRETA
AMOSTRAS
ESPÉCIES
ESPÉCIES/ AMBIENTAIS
ANÁLISE
DIRETA
6. Análise de Componentes Principais
(ACP – PCA)
Estação/ Espécie Sp. A Sp. B
St. 1 1 1
St. 2 4 3
St. 3 5 5
St. 4 2 4
St. 5 6 4
St. 6 2 2
11. NOVO SISTEMA DE EIXOS
(modo R) - biplot
la
ico
vin
St 5 Variáveis
T.
Observações
G.
bru St 3
nne
a St 9 a
A. cine
St 1
St 4
CP 1 St 10
St 8
St 7
P.
St 2
g
St 6
era
nc
CP 2
ico
la
12. NOVO SISTEMA DE EIXOS
(modo Q) – biplot
Pac Variáveis
r Observações
ilia
c
a
brejo at
m
Bec
CP 1
Cil
resti
Cap Nem nga
ta
esr
flo
Alu
Tal
CP 2
Tec
15. Premissas da ACP
1. Linearidade entre as variáveis
Linear Gaussiana
Monotônicas
16. Premissas da ACP
2. Normalidade de cada variável (univariada).
3. Normalidade de todas as variáveis (multivariada)
4. Número de Variáveis << Observações (<50%)
5. Ausência de ‘valores extremos’ (‘outliers’)
17. Premissas da ACP
• Transformações
√x, Log (x+1), √ √x , Arcoseno
• Eliminação de valores extremos
‘outlier’ > 2,5 D.P.
• Violação das premissas → menos grave quando o objetivo
da análise é apenas exploratório.
18. Variações da ACP
• Rotação secundária (varimax, quadrimax, etc...)
• Matriz → Correlação × Covariância
Utilização da ACP
• Gradientes pequenos (maior chance de dados monotônicos)
• Pouco conhecimento sobre o local
• Ausência de estruturação nas amostras (sem formação de
grupos a priori.
• Eliminação de valores extremos
• Variáveis latentes.
24. CVA
(Discriminante)
Matriz de classificação
10 m 20 m 50 m classificação
correta (%)
10 m 10 0 1 91 %
20 m 0 8 1 89 %
50 m 0 0 11 100 %
Total 10 8 13 94 %
Matriz de classificação corrigida
(‘jacknife)
10 m 20 m 50 m classificação
correta (%)
10 m 9 1 1 82 %
20 m 1 7 1 78 %
50 m 0 1 10 91 %
Total 10 9 12 84 %
25. CVA (Discriminante)
Testando a Significância dos agrupamentos
• MANOVA
Traço de Pillai
Lambda de Wilks
• ANOVA das Variáveis Canônicas (Funções Discriminantes)
• Teste T de Hotelling
26. CVA (Discriminante)
PREMISSAS
• Mesmas da ACP
APLICAÇÃO
• Objetivo é avaliar o que difere entre grupos
• Dados estruturados em grupos a priori
Pontos de coleta formando grupos
Amostras referentes a diferentes ambientes
Morfometria (variação entre populações, espécies, etc.)
27. Análise de
Correspondência
Espécie D
Parcela 1 = 1 ind.
Parcela 2 = 0 ind. Média ponderada da Espécie D
Parcela 3 = 1 ind. = Escore de D por parcelas
Parcela 4 = 0 ind.
Parcela 5 = 7 ind.
Parcela 6 = 2 ind. (1× 1) + (3 × 1) + (5× 7) + (6× 2) + (7× 1)/12 = 4,83
Parcela 7 = 1 ind.
Parcela 8 = 0 ind.
Parcela 9 = 0 ind.
Espécie X
T = 20o C = 2 ind. Análise de Gradientes
T = 22o C = 0 ind.
T = 25o C = 1 ind. Média ponderada da Espécie X
T = 28o C = 5 ind.
T = 30o C = 3 ind. Escore de X para temperatura = temperatura ‘ideal’
T = 32o C = 2 ind.
(20×2) + (25×1) + (28×5) + (30×3) + (32×2) / 13 = 27,61oC
33. Análise de
Correspondência
PREMISSAS
• Espécies apresentam distribuição gaussiana ao longo dos
gradientes ambientais.
• Homogeneidade das Variâncias
APLICAÇÃO
• Pode ser usada quando o número de variáveis ≈ observações
• Modo Q e R = equivalentes
• Gradientes ambientais amplos
34. Análise de
Correspondência
Linear Gaussiana
Monotônicas
35. Análise de Correspondência Canônica
(CANOCO)
• Extensão da Análise de Correspondência com duas matrizes.
• Extensão da Análise de Gradientes ou de Média Ponderada
(univariada).
• Os gradientes da AC são condicionados pela matriz de variáveis
abióticas.
• Análise direta expressa graficamente por
(espécies x amostras x var. ambientais – joint-plot).
• Gradientes de espécies e estações por eixos ambientais
38. Análise de Correlações Canônicas
(COR)
PREMISSAS
• Mesmas da Análise de Componentes Principais
APLICAÇÃO
• Envolve dois grupos de variáveis
• Ambientais
• Bióticas
• Gera variáveis latentes que maximizam a explicação da
variável latente biótica pela variável latente ambiental.
• Pouco recomendada devido a dificuldade de interpretação
• Recomenda-se interpretar um PCA a partir da projeção das
variáveis ambientais no plano fatorial
39. Análise de Redundância
(RDA)
• Extensão da Análise de Componentes Principais (monotônica) com
varáveis explicativas (duas matrizes).
• Semelhante à CANOCO (só que para distribuições monotônicas e
não gaussianas)
• Extensão da COR (Análise de Correl. Canônicas) mas com a definição
de variáveis predictivas (independentes).
• Sub-estimada em estudos ecológicos
• Premissas semelhantes as da ACP (monotonicidade) e da CANOCO
40. Escalonamento Multidimensional não métrico
(N-MDS ou MDS)
• Ordenação por escores
• Matriz de similaridades (modo Q) ordena observações (amostras)
• Mapa de pares de distâncias/similaridades projetadas em um espaço
bidimensional – interpretação por proximidade.
• Não paramétrica – vantagens → premissas
desvantagens → s/ variáveis latentes;
→ não preserva s2
Stress = 0,2 Stress = 0,1
41. COMPARAÇÃO ENTRE AS DIFERENTES ANÁLISES DE ORDENAÇÃO
ACP AD, AVC AC ACC COR ARD Esc.
(PCA) (DA, CVA) (CA) (CANOCO) (COR) (RDA) Multid.
(MDS)
Variáveis Indif. I & Categ Indif. D&I Indif. D&I Indif.
Matrizes 1 1 1 2 2 2 1
Análise Indireta Indireta Indireta Direta Direta Direta Indireta
Relação Monotônica Monotônica Gaussiana Gaussiana Monotônica Monotônica N.A
entre Var.
Grupos Não Sim Não Não Não Não Não
(a priori)
Forma da Ob >> Var Ob>>Var>G Ob ≈ Var Ob ≈ Var Ob >> Var Ob >> Var Ob >> Var
Matriz
Gradiente restrito restrito amplo amplo restrito restrito Indif.
ambiental
42. CLASSIFICAÇÃO
Análise de Dendrograma
(‘Cluster Analysis’)
A A
B B
E E
F F
H H
C C
D D
G G
I I
J J
0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0
43. CLASSIFICAÇÃO
Análise de Dendrograma (‘Cluster Analysis’)
TIPOS
• Medidas de similaridade ou distância:
Jaccard, Sorensen, Distância Euclidiana, Bray-Curtis.
• Algorítimo de aglomeração:
UPGMA, WPGMA, Ward, Neighbor-joining, etc...
APLICAÇÃO
• Organiza entidades (amostras, spp.) em grupos onde a similaridade
interna é maximizada
• Não existem grupos a priori
• Sintetiza a análise para apenas alguns grupos G << N
• Identifica ‘outliers’
• Sintetiza as informações de um único grupo de variáveis (não há
variáveis predictivas/respostas)
44. CLASSIFICAÇÃO
Análise de Dendrograma
(‘Cluster Analysis’)
A A
B B
E E
F F
H H
C C
D D
G G
I I
J J
0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0
46. CLASSIFICAÇÃO
Análise de Dendrograma (‘Cluster Analysis’)
LIMITAÇÕES
• Muito sensível à ‘outliers’
• Sempre procura grupos minimizando diferenças internas e
maximizando externas → ordenação não procura grupos
• Difícil a determinação do número de grupos e do nível de formação
destes, exceto quando bem estruturados
• Muitas opções de distâncias/similaridades e de métodos de
aglomeração – leva muitas vezes a resultados muito distintos.
• Agrupamentos formados por dicotomias, não realísticos em estudos
de comunidades – mais aplicáveis a estudos evolutivos.
47. CLASSIFICAÇÃO
Análise de Dendrograma
(‘Cluster Analysis’)
A
B
E
F
H
C
D
G
I
J
K
0 10 20 30 40 50 60 70 80 90 100 %
48. TESTES DE HIPÓTESE MULTIVARIADOS POR
ALEATORIZAÇÃO
TESTE DE MANTEL
MATRIZ DE SIMILARIDADE MATRIZ DE DISTÂNCIA
AMOSTRAS
AMOSTRAS
CORRELAÇÃO
R = 0,40
AMOSTRAS AMOSTRAS
CO
RR
EL
AÇ
à O
AL
EA
AMOSTRAS
TO
R
IZ
AÇ
ÃO
R1 = 0,38
98% R2 = 0,36
R3 = 0,47
R = 0,40 R4 = 0,15
R5 = 0.10
ALEATORIZAÇÃO
...............
49. TESTE DE MANTEL
PREMISSAS
• As mesmas da correlação linear
APLICAÇÃO
• Compara duas ou mais matrizes de similaridades
Biótica × Distância geográfica
Biótica × Ambiental
Biótica × Modelo
Biótica × Distância geográfica × Ambiental
• Não paramétrico mas monotônico
• Elimina o problema da dependência dos dados (autocorrelação)
• Não apresenta graficamente a estruturação, apenas testa a
hipótese de dependência entre as matrizes.
50. TESTE DE MANTEL
Biótica × Modelo
(Ex.: ANOSIM)
MATRIZ DE SIMILARIDADE MATRIZ DO MODELO
A 1
A 1 1
AMOSTRAS
A 1
×
1 1
B 0 0 0 1
B 0 0 0 1 1
B 0 0 0 1 1 1
B 0 0 0 1 1 1 1
AMOSTRAS A A A B B B B
51. TESTE DE MANTEL PARCIAL
Biótica × Distância geográfica × Ambiental
AMBIENTAL BIÓTICA
CORRELAÇÃO
Espúria ?
CO
RR
ÃO
E LA
AÇ
ÇÃ
EL
RR
O
CO
ESPACIAL (DISTÂNCIA)
52. TESTE DE MANTEL PARCIAL
Biótica × Distância geográfica × Ambiental
AMBIENTAL (resídual) BIÓTICA (residual)
TESTE DE
MANTEL
duo
Re
sí
sí
du
Re
o
AMBIENTAL BIÓTICA
REGRESSÃO REGRESSÃO
ESPACIAL (DISTÂNCIA)
53. ANÁLISES MULTIVARIADAS
• Análises ainda muito exploratórias.
• Fornecimento de variáveis latentes – promissor em estudos
ecológicos.
• Grande desenvolvimento de diferentes métodos nas últimas
décadas (embora antigas).
• Fim ou Meio ?