1) A última aula discutiu testes estatísticos como ANOVA e suas aplicações.
2) A ANOVA permite comparar médias de diferentes grupos e testar se há diferenças significativas entre elas.
3) O documento explica os princípios, pressuposições e cálculos da ANOVA, incluindo a decomposição da variação total e a análise dos resíduos.
2. Última aula
• Comparação de duas amostras independentes e dependentes;
• Comparação de duas populações – proporções;
• ANOVA (Análise de Variâncias): teste para comparar as diversas médias;
• Conceitos e exemplos;
3. ANOVA
Princípio da ANOVA
• Estabelecer um modelo que possa representar os valores observados na
seguinte forma:
Observação = previsível + aleatória
• Ou seja, cada resposta obtida é resultado de algo controlado ou
previsível, que incorpora o conhecimento que se tem sobre o assunto
(expressa em termos de uma função matemática com parâmetros
desconhecidos); + uma parte aleatória que pode ser representada por um
modelo probabilístico;
5. ANOVA
Modelo estatístico (one-way):
Tratamentos
y ij μ i ε ij Efeito aleatório
i=1,2,...,a, j
Efeito comum μ τ i ε ij =1,2,...,r
Observações
μi Efeito específico
yij= é a j-ésima observação do i-ésimo tratamento;
i é média do i-ésimo tratamento
é uma constante para todas as observações (média geral);
i é o efeito do i-ésimo tratamento;
ij é o erro aleatório(erros de medida, fatores não controláveis, diferenças entre as unidades
experimentais, etc.).
Pressuposições: 1) os erros aleatórios são independentes;
2) os erros aleatórios são normalmente distribuídos;
3) os erros aleatórios tem média 0 (zero) e variância 2;
Ou, então: yij ~ N ( i ; 2 ) e independentes
5
6. ANOVA
ANOVA – Análise de Variância
• Objetivo: Utilizar a partição da variabilidade total da variável resposta
(medida de interesse para comparação) como critério para o teste de
igualdade entre as populações.
ou seja, quando ni é igual para todas as unidades experimentais
Aqui trabalharemos com experimentos balanceados e chamaremos a quantidade de
observações de r
9. ANOVA
Decomposição da soma de quadrados total
A denominação de análise de variância resulta de decompor a variabilidade total dos
dados em suas componentes. A soma de quadrado total (SQT) corrigido pela média global,
SQT y ij y.. ,
a r
2
i 1 j1
usa-se como medida de variabilidade total dos dados.
Pode-se mostrar que a soma de quadrados total pode ser expressa através da seguinte
relação:
y ij y.. n y i. y .. y ij y i.
a r a a r
2 2 2
i 1 j1
1
i
i 1 j1
SQT SQtrat SQE
Espera-se valores Espera-se valores
grandes pequenos
10. ANOVA
Graus de liberdade:
SQT tem ar-1 graus de liberdade; SQTrat tem a-1 g.l. e SQE tem a(r-1) g.l.
Quadrados médios:
QMTrat SQTrat
a 1 QME a(r-1)
SQE
Variância entre amostras Dentro das amostras
Esperanças dos quadrados médios:
E(QME) = 2
a
r τ i2
E(QMTrat) σ 2 i 1
a 1
QMTrat
Teste de hipótese:
F 0 QME
11. ANOVA
Análise Estatística
F0 = QMTrat / QME
Critério para rejeição de H0: F0 > F,a-1,n-a .
Pode-se usar o nível descritivo (em inglês: p-value: É o menor valor de para o qual
rejeitamos a hipótese nula.
Exemplo: para =5%, assim, se o nível descritivo < do que 0,05 rejeitar H0, caso
contrário, aceitar H0.
Fórmulas para o cálculo das somas de quadrados: a r 2
y..
SQT yij 2
i 1 j1 n
Hipóteses: H0: 1= 2=...= a =
2
1 a 2 y..
H1: i ᵥ para pelo menos um par (i,v)
SQTrat y i.
Equivalentemente r i 1 n
Hipóteses: H0: 1= 2=...= a =0
H1: i 0 para pelo menos um i
SQE SQT SQTrat
12. ANOVA
Tabela da análise de variância de um experimento com um fator.
Causas de Soma de Graus de Quadrados F0 Valor p
variação quadrados liberdade médios
Entre SQTrat a-1 QMTrat QMTrat
tratamentos QME
Erro (dentro SQE n-a QME
tratamentos)
Total SQT n-1
n=ar
y ij y.. n y i. y .. y ij y i.
a r a a r
2 2 2
i 1 j1
1
i
i 1 j1
SQT SQtrat SQE
13. ANOVA
Coeficiente de Determinação
• Medida de Proporção da variabilidade total explicada pelo modelo
obtido. (Quanto da variável resposta é explicada pelos tratamentos)
SQTrat
R2
SQTot
• Considera-se aceitável um coeficiente acima de 0,70 ou 70%
• Serve para avaliar se o teste foi eficiente
14. ANOVA
Exemplo: Considerando o exemplo temos:
Tratamentos (servidores)
A B C D
64 78 75 55 a=4
72 91 93 66 r=6
68 97 78 49 ar = 24=n
77 82 71 64
56 85 63 70
95 77 76 68
Total (yi. ) 432 510 456 372 1770 y..
Média y i. 72 85 76 62 73.75 y ..
y ij
2
31994 43652 35144 23402 134192 y ij
2
j i, j
16. ANOVA
Análise de Variância
Causas de Variação GL SQ QM F
Servidores
3 1636 545.3 5.40**
(entre servidores)
Erro Experimental
20 2018 100.9
(dentro de servidores)
Total 23 3654
F.013.20 4,94 **SIGNIFICATIVO A 1%
17. ANOVA
Análise de Variância
F 0
5.40 F 0.01;(3;20) 4.94
A diferença entre médias de tratamentos é significativa
Rejeita-se H0
18. ANOVA
Análise de Variância
CONCLUSÃO
Os servidores investigados se
diferenciam em termos de tempo de
transmissão de dados
19. ANOVA
Software R
dados=read.table("anova.txt",header=T)
attach(dados)
# Gráfico de boxplot
boxplot(Tempo~Servidor,xlab="Servidores",ylab="Tempo")
# Tabela de anova
fit= aov(Tempo ~ Servidor, dados)
anova(fit)
20. ANOVA
Diagnóstico do Modelo
Verificar se as pressuposições básicas do modelo são válidas. Isso é realizado através
de uma análise de resíduos.
Pressuposições: 1) os erros aleatórios são independentes;
2) os erros aleatórios são normalmente distribuídos;
3) os erros aleatórios tem média 0 (zero) e variância 2;
1) Define-se o resíduo da ij-ésima observação como:
Não será abordada
e ij y ij y ij
ˆ (homoscedasticidade)
onde yij μ τ i yi. valores preditos pelo modelo.
ˆ ˆ ˆ
A suposição de normalidade
Vamos usar o gráfico normal de probabilidades: sob normalidade dos erros este gráfico
deve apresentar uma forma de reta.
21.
22.
23. Software R
## Análise de residuos
V_ajustados=fitted(fit) # Valores preditos
res=residuals(fit) # Valores residuais
# Gráfico de probabilidade
qqnorm(res, pch=20)
qqline(res)
## Gráfico de valores preditos e residuais
plot(V_ajustados,res, pch=20,ylab="Residuos", xlab="Valores ajustados")
abline(h=0,lty=2)
title(main=" Plot dos residuos vs valores ajustados")
24. Comparações entre Pares de Médias
• Quando rejeitamos Ho ou seja, quando pelo menos uma média é diferente e quando
as pressuposições dos resíduos são aceitas, podemos comparar as diferentes médias e
dizer qual é diferente das demais
• Devem ser realizadas após o teste F da análise de variância rejeitar a hipótese nula
• Existem vários testes como Intervalo de Bonferroni, LSD, porém o preferido dos
pesquisadores é o Teste de Tukey
25. Teste de Tukey
Duas médias são diferentes significativamente se a diferença das médias amostrais
(em valor absoluto) for superior a DMS (Diferença Mínima Significativa):
QME
IC ( i k ) ( yi yk ) q ;n 1
n
Onde q é um apropriado nível de confiança superior da amplitude studentizada para k
médias (tratamentos) e f graus de liberdade associados a estimativa s2 de 2 (QME).
Exemplo: dados dos servidores. O valor da Diferença Mínima Significativa é:
diff lwr upr p adj
A-D 10 -6.232221 26.23222 0.3378150
Conclusão: pelo teste de C-D 14 -2.232221 30.23222 0.1065573
Tukey, ao nível de significância
de 5%, as médias dos B-D 23 6.767779 39.23222 0.0039064
servidores B e D, apresentam
diferença significativa. C-A 4 -12.232221 20.23222 0.8998057
B-A 13 -3.232221 29.23222 0.1461929
B-C 9 -7.232221 25.23222 0.4270717
34. ANOVA COM 2 FATORES
• Mesma ideia de um fator:
• Gráfico de Interação: A interação entre os fatores corresponde a
diferença de comportamento de um fator nos diferentes níveis do outro
fator com respeito a característica de interesse. Uma das forma mais
simples de avaliarmos a interação entre os fatores é o gráfico de
interação.
35. ANOVA COM 2 FATORES
• Mesma ideia de um fator:
Não há
interação