Este documento discute correlação e como medir a força e direção da relação entre duas variáveis. Ele explica como diagramas de dispersão podem ilustrar a relação visualmente e como o coeficiente de correlação mede numericamente o grau de relação linear entre -1 e 1. Um exemplo mostra como calcular o coeficiente de correlação r para dados sobre tabagismo e mortalidade por doença cardíaca.
2. Correlação 3
Pontos Principais--cont.
Principais--cont.
• Testar a significância
• Matrizes de intercorrelações
• Outros tipos de correlações
• Questões para revisão
Correlação 4
O Problema
• Estarão duas variáveis relacionadas?
Q Será que uma aumenta quando a outra aumenta?
• v.g. competências profissionais e rendimento
económico
Q Será que uma diminui quando a outra aumenta?
• v.g. problemas de saúde e nutrição
• Como poderemos obter uma medida numérica
do grau de relação?
2
3. Correlação 5
O coeficiente de correlação
(http://www.stats.gla.ac.uk/steps/glossary)
• O coeficiente de correlação é um número entre -1 and 1 o qual
mede o grau em que duas variáveis estão linearmente
correlacionadas. Se existe uma relação linear perfeita com um
declive positivo entre as duas variávesi, temos um coeficiente de
correlação de 1; se existir uma correlação positiva, sempre que
uma variável tiver um valor elevado (baixo), também a outra o
terá. Se existir uma relação linear perfeita com um declive
negativo entre as duas variáveis, teremos um coeficiente de
correlação de -1; se existir uma correlação negativa, sempre que
uma variável tiver um valor elevado (baixo), a outra tem um valor
baixo (elevado). Um coeficiente de correlação de 0 significa que
não existe relação linear entre as variáveis.
• Existem diferentes coeficientes de correlação que podem ser
apropriados dependendo das espécies de variáveis que estão a
ser estudadas (ver próximo slide)
Correlação 6
Tipos de coeficientes de
correlação/associação
Coeficiente Símbolo Características
Produto-
Produto-Momento de r X e Y quantitativas, relação linear
Pearson
Eta quadrado η2 X e Y quantitativa, relação curvilinear
Coeficiente de Spearman ρ ou rs X e Y ordens, relação monotónica
Tau de Kendall τ X e Y ordens, relação monotónica
Ponto biserial rpb Uma variável quantitativa e outra dicotómica
Biserial rb X e Y quantitaivas mas uma das variáveis
forçada a uma dicotomia
Tetracórico rt X e Y quantitativas, mas ambas forçadas a
dicotomias
Coeficiente fi φ X e Y ambas dicotómicas
3
4. Correlação 7
Diagramas de Dispersão
• Exemplos
Q Ver os próximos slides
• Diagramas representando diferentes
magitudes de relação
• Matriz combinando Diagramas de dispersão e
r’s
• Relação entre auto-estima e altura
auto-
• Expectativa de vida e gastos em cuidadados
de saúde
Correlação 8
4
5. Correlação 9
Diagramas de Dispersão e r’s
Fonte:
Wikipedia
Correlação 10
5
6. Correlação 11
Figure 9.2
Life Expectancy and Health Care Costs
74
73
Life Expectancy (Males)
72
71
70
69
68
67
66
200 400 600 800 1000 1200 1400 1600
Health Care Expenditures
Correlação 12
Um applet para ver coeficientes de correlação
(http://www.duxbury.com/authors/mcclellandg/tiein/johnson/correlation.htm)
6
7. Correlação 13
Um Exemplo
• Suponha que uma disciplina tem dois
componentes - trabalhos laboratoriais e exame
- ambos contribuindo para a nota final. Será
que ambos estão correlacionados?
• Representar graficamente a relação entre as
duas variáveis (diagrama de dispersão)
• O que observamos?
Q Uma relação francamente pequena
Q A relação é positiva
Correlação 14
140
120
Total Points on Exams
100
80
60 Rsq = 0.1368
80 100 120 140 160 180 200
Total Points in Lab
7
8. Correlação 15
Exames e Laboratórios
• Note que a relação é fraca, mas real.
• Note que a maioria dos dados se concentram
na direita.
• Porque nos preocupamos com o estudo da
relação?
Q O que concluiriam os alunos se não existisse uma
relação?
Q E se a relação fosse praticamente perfeita?
Q E se a relação fosse negativa?
Correlação 16
Exemplo aplicado
Doença coronária e
Tabagismo
• Landwehr & Watkins relataram dados
sobre doença coronária e tabagismo em
21 países desenvolvidos
• Os dados foram arredondados por
conveniência de cálculo.
Q Tenha em nota que isso não afectou as
conclusões originais.
8
9. Correlação 17
Os dados
Cigarette Consumption and Coronary Heart Disease Mortality for 21 Countries
Cig. 11 9 9 9 8 8 8 6 6 5 5
CHD 26 21 24 21 19 13 19 11 23 15 13
Cig. 5 5 5 5 4 4 4 3 3 3
CHD 4 18 12 3 11 15 6 13 4 14
Cig. = Cigarettes per adult per day
CHD = Cornary Heart Disease Mortality per 10,000 population
Os EUA são o primeiro país na lista—o país com maior taxa de consumo
e a maior taxa de mortalidade.
Correlação 18
Diagrama de dispersão dos
dados
• Mortalidade por CHD é colocada na ordenada
Q Porquê?
• Consumo de cigarros na abcissa
Q Porquê?
• O que representa cada ponto?
• A linha de melhor aderência foi colocada para
percebermos melhor a relação
9
10. Correlação 19
30
CHD Mortality per 10,000
20
10
{X = 6, Y = 11}
0
2 4 6 8 10 12
Cigarette Consumption per Adult per Day
Correlação 20
O que mostra o Diagrama de
dispersão?
• Quando aumenta o tabagismo, também
aumenta a mortalidade por doença coronária.
• A relação parece forte
• Nem todos os pontos se encontram sobre a
linha.
Q Essa discrepância (ou desvio) dá-nos os “resíduos”
dá-
ou “erros de predição”
• A discutir posteriormente
10
11. Correlação 21
Coeficiente de Correlação
• Uma medida do grau de relação.
• O sinal revela a direcção.
• Baseado na covariância
Q Mede o grau em que os resultados mais altos
numa variável acompanham os resultados altos na
outra, e os resultados mais pequenos vão com os
outros mais pequenos.
Correlação 22
Covariância
• A fórmula
Σ( X − X )(Y − Y )
Cov XY =
N −1
• Como funciona, e porquê
• Quando deve a covXY ser grande e positiva?
• Quando deve a covXY ser grande e negativa?
11
12. Correlação 23
Coeficiente de Correlação
• Simbolizado por r
• Covariância ÷ (produto dos desvios padrão de cada
uma das variáveis)
Cov XY
r=
s X sY
Nota: existem vários coeficientes de associação e de
correlação (vide próximo slide), a fórmula acima diz
respeito ao coeficiente produto momento de
Pearson
Correlação 24
Coeficiente de correlação
• Outra fórmula frequentemente usada no
cálculo:
12
13. Correlação 25
Cálculo
• CovXY = 11.13
• sX = 2.33
• sY = 6.69
cov XY 11.13 11.13
r= = = = .71
s X sY (2.33)(6.69) 15.59
Correlação 26
Correlação--cont.
Correlação--cont.
• Correlação, r = .71
• O sinal é positivo
Q Porquê?
• E se o sinal fôsse negativo
Q O que poderia tal significar?
Q Não alteraria o grau da relação.
13
14. Correlação 27
Correlação--cont.
Correlação--cont.
Como interpretar o r?
• Utilize uma classificação convencional
• Calcule o coeficiente de determinação: r2
e r2%
• Calcule a significância estatística do r
(ver slide sobre como testar o r)
Correlação 28
Correlação--cont.
Correlação--cont.
• Utilize um esquema de classificação
convencional:
r = 0.5 é um efeito grande, 0.3 é moderado, e 0.1 is
pequeno (Cohen, 1988)
Uma escala completa (Will G. Hopkins, 2002)
http://www.sportsci.org/resource/stats/effectmag.html
trivial pequena moderada grande muito quase perfeita
grande perfeita
0.0 0.1 0.3 0.5 0.7 0.9 1
14
15. Correlação 29
Correlação--cont.
Correlação--cont.
•Calcule o coeficiente de determinação:
r2 e r2%:
Aplicando ao exemplo de Landwehr & Watkins: r = .71,
logo, r2 = (.71)2 = .504;
r2% = (.71)2 x100% = 50.4%, ou seja,
aproximadamente, 50,4% da variabilidade na
mortalidade CHD é explicada pelo nº de cigarros
consumidos por dia (e vice-versa).
vice-
Correlação 30
Factores que Afectam o r
• Restrições na amplitude
Q Ver o próximo slide
• Dados apenas para os países baixo consumo
• Não linearidade
Q V.g. idade e tamanho do vocabulário
• Sub-amostras heterogéneas
Sub-
Q Relação entre peso e altura (combinando ambos os
géneros)
15
16. Correlação 31
Países com Consumos Baixos
Data With Restricted Range
Truncated at 5 Cigarettes Per Day
20
18
CHD Mortality per 10,000
16
14
12
10
8
6
4
2
2.5 3.0 3.5 4.0 4.5 5.0 5.5
Cigarette Consumption per Adult per Day
Correlação 32
Testar o r
• Parâmetro populacional = ρ
• Hipótese nula H0: ρ = 0
Q Teste da independência linear
Q O que é que significaria uma hipótese nula verdadeira aqui?
Q O que é que significaria uma falsa hipótese nula?
• Hipótese alternativa (H1) ρ ≠ 0
Q Bi-lateral
Bi-
16
17. Correlação 33
Assunções (http://www2.chass.ncsu.edu/garson/PA765/correl.htm)
• Dados ao nível de escalas de intervalos (para a correlação
de Pearson).
• Relações lineares. Assume-se que os pontos x-y no diagrama de
Assume- x-
dispersão para as duas variáveis que estão em análise serão melhor descritos por
uma linha recta do que por uma outra qualquer função curvilínea. No caso em que
uma função curvilinear teria um melhor ajuste, então o r de Pearson e os outros
coeficientes lineares de correlação irão subestimar a correlação verdadeira, por
vezes a um ponto que torna a sua utilização inútil e enganosa. A linearidade pode
ser verificada visualmente através de um gráfico dos dados.
• Homoscedasticidade é assumida. Isto é, assume-se que a variância
assume-
dos erros seja a mesma para qualquer ponto ao longo da relação linear. De outro
modo o coeficiente de correlação será uma medida enganadora da média dos
pontos mais elevados e mais baixos de correlação.
• Sem outliers. Casos outliers podem atenuar os coeficientes de correlação.
Os scatterplots podem ser usados para identificar visualmente outliers (ver acima).
Uma diferença grande entre o r de Pearson e o rho de Spearman também pode
indicar a presença de outliers.
Correlação 34
• Um Erro de medida mínimo é assumido uma vez que a baixa
garantia atenua o coeficiente de correlação. Por definição, a correlação
mede a covariância sistemática de duas variáveis. O erro de medida
usualmente reduz a covariância sistemática e diminui o coeficiente de
correlação. Esta diminuição chama-se atenuação. A restrição da variância,
chama-
discutida abaixo, também conduz à atenuação.
Q Correcção para a atenuação: A garantia pode ser pensada como a
correlação da variável com ela própria. A correcção da atenuação de
uma correlação, rxy é uma função das garantias das duas variáveis, rxx
and ryy:
rxy (corrigido) = rxy / [Raiz quadrada{rxxryy}]
• Variância não restringida Se a variância for truncada ou
restringida numa ou em ambas as variáveis, por exemplo, uma
amostragem deficiente, tal pode também levar à atenuação do coeficiente
de correlação. Isso também acontece com a truncagem da amplitude das
variáveis quando dicotomizamos dados contínuos, ou quando reduzimos
uma escala de7-pontos a uma escala de 3-pontos.
de7- 3-
17
18. Correlação 35
• Assume-
Assume-se que as distribuições subjacentes são
similares com o objectivo de avaliar a força da correlação. I.e., se
duas variáveis provêm de distribuições dissimilares, a sua correlação
pode ser inferior a +1 mesmo quando os pontos observados estão tão
perfeitamente emparelhados quanto é possível permanecendo
conformes às distribuições subjacentes. Portanto, quanto maior a
diferença na forma da distribuição das duas variáveis, maior a atenuação
no coeficiente de correlação e mais o investigador deve considerar
alternativas como a correlação por postos. Esta assunção poderá ser
violada quando correlacionamos uma variável intervalar com uma
dicotomia ou mesmo com uma variável ordinal.
• Distribuições normais subjacentes, com o propósito de
testar a significância da correlação. O teorema do limite central
demonstra, contudo, que para grandes amostras, os índices usados no
teste de significância estarão normalmente distribuídosmesmo quando
as variáveis em si mesmas não estão distribuídas normalmente, e
portanto o teste de hipóteses pode ser empregue. O investigador pode
desejar usar o Spearman ou outros tipos de correlações por postos não
paramétricas quando existirem violações marcadas desta assunção,
embora esta estratégia tenha o perigo de atenuar a correlação.
• Termos de erro distribuídos normalmente. Mais uma
vez, aplica-se o teorema do limite central.
aplica-
Correlação 36
Tabelas de Significância
• Tabelas (ver anexo)
• For N - 2 = 19 df, rcrit = .433
• A correlação observada > .433
• Rejeitar H0
Q Correlação é significante.
Q Maior consumo de cigarros está associado
com maior mortalidade por CHD.
18
19. Correlação 37
Computer Printout
• O “Printout” dá-nos o teste de
dá-
significância.
• Ver o próximo slide.
Q Os duplos asteriscos com a nota de rodapé
indicam
p < .01.
Correlação 38
Printout do SPSS
Correlations
Cigarette CHD
Consumption Mortali
per Adult per ty per
Day 10,000
Cigarette Pearson
Consumption per Correlation
Adult per Day Sig.
(2-tailed)
N
CHD Mortality Pearson
.713**
per 10,000 Correlation
Sig.
.000
(2-tailed)
N 21
**. Correlation is significant at the 0.01 level
(2-tailed).
19
20. Correlação 39
Matriz de Intercorrelações
• Matriz com as correlações entre várias
variáveis todas representadas de uma só vez.
• Exemplo de Kliewer et al (1998) JCCP
Q Amostra: 99 crianças muito novas
Q Mediu-se o nível de:
Mediu-
• Violência presenciada, Pensamentos Intrusivos,
Suporte Social, e Sintomas de Internalização
Correlação 40
Wit Intrus Social Internal
ness Support izing
Witness 1.00 .37 .08 .20
Intrus .37 1.00 -.08 .39
SocSup .08 -.08 1.00 -.17
Internal .20 .39 -.17 1.00
Cont.
20
21. Correlação 41
Matriz de Intercorrelações
• Descreva a tabela.
• O que podemos dizer acerca dos efeitos
de se ter presenciado actos de violência?
• Qual o papel desempenhado pelo suporte
social?
Correlação 42
Questões para Revisão
• O que ajuda a determinar quais as variáveis
que são representadas em cada um dos eixos
do diagrama de dispersão?
• O que nos diria uma correlação de 0 acerca da
relação entre as notas nos trabalhos
laboratoriais e os resultados nos exames?
• Que factores podem afectar a relação entre
tabagismo e a mortalidade por CHD?
21
22. Correlação 43
Questões para Revisão--cont.
Revisão--cont.
• Indique o nível (alto, médio, ou baixo) e o sinal da
correlação para:
Q Número de armas na comunidade e número de mortes por
armas de fogo
Q Roubos e incidência de abuso de drogas
Q Sexo protegido e incidência de SIDA
Q Nível educacional da comunidade e taxa de criminalidade
Q Número de explosões solares e taxa de suicídio
Cont.
Correlação 44
Questões para Revisão--cont.
Revisão--cont.
• Porque deve o tamanho da correlação
requerido para haver significância
decrescer com o N (i.e., o número de
efectivos da amostra)?
22
26. Correlação 51
Resolução (usando a calculadora http://wessa.net)
Correlação 52
Wessa, P. (2006), Free Statistics Software, Office for Research Development
and Education, version 1.1.18, URL http://www.wessa.net/
26
27. Correlação 53
Coeficiente ró de Spearman, rs
o A correlação de Spearman é uma técnica usada para
testar a direcção e a força da relação entre duas variáveis.
É um utensílio para avaliar se um conjunto qualquer de
números se relaciona com outro conjunto qualquer de
números. É um teste não-paramétrico e deve ser utilizado
quando os dados são medidos numa escala ordinal ou
quando os dados não se enquadram nos outros
pressupostos dos testes paramétricos
o Usa a estatística rs que se localiza num intervalo entre
-1 e +1.
Correlação 54
Coeficiente ró de Spearman, rs
Procedimento para usar o coeficiente ró de
Spearman
1. Estabeleça a hipótese nula, i.e., “Não existe relação entre os dois
conjuntos de dados.”
2. Ordene ambos os conjuntos de dados atribuindo ao resultado
mais baixo a ordem 1 e assim consecutivamente (Faça a
ordenação em separado para cada variável e tenha em conta os
empates).
3. Subtraia os dois conjuntos de ordens para obter a diferença d.
4. Calcule o quadrado dos valores de d.
5. Adicione o quadrado dos valores de d para obter o sigma d2.
6. Use a fórmula rs = 1-(6*Sigma d2/n3-n) onde n é o número de
ordens do seu problema.
27
28. Correlação 55
Coeficiente ró de Spearman, rs
Considere o seguinte problema, extraído de Green & Oliveira (1989,
p.190), acerca da avaliação da participação das crianças em jogos no
recreio (X) e frequência de constipações (Y).
Sujeito X Y Ordem 1 Ordem 2 d d2
1 5 2 5 3.5 1.5 2.25
2 3 2 2.5 3.5 -1 1
3 7 4 7 7.5 -0.5 0.25
4 10 5 11.5 11 0.5 0.25
5 9 4 9.5 7.5 3 4
6 9 5 9.5 11 -1.5 2.25
7 2 4 1 7.5 -6.5 42.25
8 6 3 6 5 1 1
9 3 1 2.5 1.5 1 1
10 4 1 4 1.5 2.5 6.25
11 8 4 8 7.5 0.5 0.25
12 10 5 11.5 11 0.5 0.25
Correlação 56
Coeficiente ró de Spearman, rs
6∑ d 2 6 × 61
rs = 1 − = 1− = 0.79
n3 − n 1716
28
29. Correlação 57
Coeficiente ró de Spearman, rs
29