SlideShare una empresa de Scribd logo
1 de 121
Descargar para leer sin conexión
Universidade dos Açores
Departamento de Matemática
Discente: Filipe Gago da Câmara
Docente: Dr. Osvaldo Silva
Ponta Delgada, 29 de Junho de 2001
Estatística
Não Paramétrica
Testes de Hipóteses e Medidas de Associação
Índice
ÍND CEI
Teste de Hipóteses......................................................................................................................1
Introdução...................................................................................................................................3
Capitulo 1: Caso de uma amostra...............................................................................................6
1.1 Teste da Binomial.............................................................................................................62
1.2 Teste do Qui-Quadrado ( χ ) para uma amostra............................................................10
1.3 Teste de Kolmogorov-Smirnov ......................................................................................12
1.4. Teste de Iterações de Uma Amostra..............................................................................17
Capítulo 2: Caso de duas amostras relacionadas......................................................................23
2.1 Teste dos Sinais ..............................................................................................................23
2.2 Teste de McNemar .........................................................................................................25
2.3 Teste de Wilcoxon..........................................................................................................28
Capitulo 3: Caso de duas amostras independentes...................................................................32
3.1 Teste de Iterações de Wald-Wolfowitz ..........................................................................32
3.2 Teste U de Mann-Whitney .............................................................................................37
3.3 Teste de Moses para reacções extremas .........................................................................41
3.4 Teste da Qui-Quadrado ( 2
χ ) para duas amostras independentes..................................44
Capítulo 4: Caso de k amostras relacionadas ...........................................................................50
4.1 Teste Q de Cochran.......................................................................................................50
4.2 Teste de Friedman ..........................................................................................................54
Capítulo 5: Caso de k amostras independentes ........................................................................57
5.1 Teste de Kruskal-Wallis .................................................................................................57
Capitulo 6: Medidas de Correlação ..........................................................................................60
6.1 Coeficiente de Correlação por postos de Kendall: τ .....................................................60
6.2 Coeficiente de Correlação por postos de Spearman: Sr .................................................64
6.3 Coeficiente de Concordância de Kendall: W ................................................................66
Conclusão .................................................................................................................................70
Bibliografia...............................................................................................................................75
Anexos......................................................................................................................................75
Anexo 0 ................................................................................................................................76
Anexo I: Caso de uma amostra.............................................................................................77
Anexo II: Caso duas amostras relacionadas .........................................................................81
Anexo III: Caso de duas amostras independentes ................................................................85
Anexos IV: Caso de k amostras relacionadas.......................................................................91
Anexo V: Caso de k amostras independentes.......................................................................94
Anexo VI: Medidas de Correlação.......................................................................................95
Tabelas......................................................................................................................................75
Tabela A ...............................................................................................................................76
Tabela B................................................................................................................................77
Tabela C................................................................................................................................78
Tabela D ...............................................................................................................................79
Tabela E................................................................................................................................81
Tabela F................................................................................................................................82
Tabela G ...............................................................................................................................84
Tabela J.................................................................................................................................85
Tabela K ...............................................................................................................................88
Tabela N ...............................................................................................................................89
Tabela O ...............................................................................................................................91
Tabela P................................................................................................................................93
Tabela Q ...............................................................................................................................94
Tabela R................................................................................................................................95
Teste de Hipóteses
TESTE DE HIPÓTESES
Em muitas situações, queremos tomar uma decisão de forma a minimizar os riscos
envolventes.
No campo da estatística, formulamos hipóteses acerca de uma dada amostra, estas
hipóteses são submetidas a determinados testes. A hipótese a ser testada designamos por
Hipótese Nula ( ), a Hipótese Alternativa ( 1H ) é a conclusão a que chegamos quando a
hipótese nula é rejeitada.
0H
Quando formulamos uma decisão sobre podem ocorrer dois erros distintos. O
primeiro, designado por erro tipo I, consiste em rejeitar a hipótese nula quando ela é
verdadeira. O segundo, designado por erro tipo II, consiste em aceitar 0 quando ela é falsa
0H
H .
A estes erros estão associados uma probabilidade, isto é,
β=)|.(
α=.)|.(
00
00
falsaHHacP
verdHHrejP
Quando queremos reduzir a probabilidade de ambos os tipos de erro, devemos aumentar
a dimensão da amostra.
À probabilidade α damos o nome de nível de significância.
Como o valor α entra no processo de determinação de aceitação ou rejeição de H , a
condição de objectividade da prova exige que o nível de significância seja fixado antes da
recolha de dados. Os valores mais comuns para α são de 0,05 e 0,01 de acordo com a
importância prática dos resultados.
0
Quanto mais pequena é a probabilidade β mais potente é o teste, ou seja, o teste óptimo
da hipótese 0 vs. 1 é aquele que para uma probabilidade de ocorrer o erro tipo I, torne
mínima a probabilidade de ocorrer o erro tipo II.
H H
Após ter escolhido as hipóteses e o nível de significância devemos determinar qual a
distribuição amostral. Esta é uma distribuição teórica que, se puséssemos considerar todos
os eventos possível, dava-nos as probabilidades, sob , associadas aos valores numéricos
possíveis da estatística.
0H
1
Teste de Hipóteses
Neste momento temos que escolher o teste estatístico apropriado, tendo em conta os
seus pressupostos.
Definida as hipóteses, o nível de significância, o teste estatístico, falta-nos saber como
rejeitar/aceitar 0H .
o .
e ita a
hipótese nula.
Região de rejeição é uma região da distribuição amostral, na qual consiste num
conjunto de valores tão extremos que, quando é verdadeira, a probabilidade α do valor
observado da amostra estar entre eles é muito pequena. A probabilidade associada a qualquer
valor na região de rejeição é afectada pela natureza da hipótese alternativa. Se indica o
sentido da diferença, utiliza-se um teste unilateral, caso contrário, utiliza-se um teste
bilateral.
0H
1H
A seguinte figura ilustra-nos como as duas regiões diferem entre si, mas não altera o
tamanho.
Figura 1: Dois tipos de testes
P=0.05P=0.025P=0.025
Teste bilateral Teste unilateral
A área de cor azul é a região de rejeição para um =α 05.0
Para uma decisão final, basta ver se o valor resultante de um teste estatístico está na
região de rejeição ou não.
Uma abordagem alternativa para o teste de hipóteses é sugerida pelo cálculo da
probabilidade associada. ( ) a uma dada observação. O valor é a probabilidade de ser
verdadeira. Se toma um valor menor ou igual a , então rejeitamos a hipótese nula, caso
contrário, se p toma um valor superi r a α , então aceitamos H O valor p (ou
probabiliade de significância) dá-nos também uma ideia do poder do teste estatístico.
Quanto maior for a probabilidade p mais forte é o teste e com mais facilidade s
p p 0H
p α
0
ace
2
Introdução
INTRODUÇÃO
Nos primórdios da estatística, desde que o Homem se organiza em sociedade, ela
aparece como processo organizado de contagem, seja ela de pessoas, cereais, frutas, etc..
Estes processos de contagem eram, posteriormente, apresentados à sociedade através de
tabelas e gráficos.
A palavra estatística aparece sempre ligada a coisas do Estado (status), mas só no séc.
XVII a estatística é tida como uma disciplina autónoma destinada a descrever factos ligados
ao estado. A estatística era associada ao processo político, como base para o planeamento do
Estado.
Esse processo de contagem do todo, denominado Censo, não é um procedimento dos
tempos passados. Na verdade ela constitui uma importante área da Estatística.
Relativamente à totalidade dos dados, há uma outra linha de trabalho que é conhecida
como Estatística Descritiva, que procura expressar as informações mais relevantes contidas
num conjunto de dados através do cálculo de valores. Cada um destes valores resume de uma
forma específica o conjunto de dados.
Mais recentemente, surgiu outro campo da estatística que designa-se por Estatística
Indutiva ou Inferência Estatística
Esta estatística preocupa-se em estimar o verdadeiro valor desconhecido do(s)
parâmetro(s) de uma população e testar hipóteses com respeito ao valor dos parâmetros
estimados, ou à natureza da distribuição da população.
Aqui é que surge uma separação, ou sabemos à partida qual a distribuição da população
(Estatística Paramétrica), ou não sabemos qual a sua distribuição (Estatística Não
Paramétrica).
Focaremos o nosso estudo sobre a Estatística Não Paramétrica. Os primeiros métodos
da estatística não paramétrica, embora com pouco uso até aos anos 40, foram referidos por
John Arbuthnot em 1710. Estes começaram a ter maior impacto só a partir de 1942 com
Wolfowitz. A partir daí o interesse aumentou de uma forma rápida.
Hoje a estatística não paramétrica é considerada como um dos campos mais importantes
da estatística. As técnicas que advêm desta categoria são usadas com grande frequência nas
ciências físicas, biológicas e sociais ou até mesmo na comunicação. Outros autores, também
dão importância a outros campos, tais como, na análise de dados da qualidade da água
3
Introdução
(Helsel), em aplicações na medicina (Brown and Hayden) ou mesmo na psicologia
(Buckalew).
Enumeremos, algumas vantagens para os métodos conhecidos:
1. Como os métodos da estatística não paramétrica depende do mínimo de suposições,
a possibilidade de o método não ser adequado é menor.
2. Para alguns métodos a avaliação pode ser rápida e fácil, especialmente se o cálculo
for manual. Deste modo, usando-os pode poupar tempo. É considerado importante,
se não tivermos tempo ou se não temos meios técnicos para o cálculo rápido.
3. Os métodos estatísticos são fáceis de perceber, mesmo tendo o mínimo de
preparação matemática e estatística.
4. Muito dos testes não paramétrica trabalham só com a ordem dos dados.
5. Poderão trabalhar com amostras de pequenas dimensões.
É claro que os métodos de estatística não paramétrica também trazem desvantagens. As
mais importantes são as seguintes:
1. Os testes não paramétricos, por vezes, são usados quando os testes paramétricos são
mais apropriados, porque estes testes são mais simples e rápidos, deste modo, pode
haver perda de informação.
2. Ainda que os procedimentos não paramétricos têm a reputação de requerer só
cálculos simples, a aritmética em muitas instâncias pode ser tendenciosa e
trabalhosa, especialmente quando as amostras são grandes.
3. Os métodos paramétricos são mais potentes para uma mesma dimensão e um
mesmo α do que os métodos da estatística não paramétrica.
Situação onde podemos usar os métodos da estatística não paramétrica
Os métodos não paramétricos são apropriados quando:
1. As hipóteses a testar não envolve parâmetros da população.
2. Se conhece a ordem dos dados.
3. Os pressupostos necessários para o uso válidos dos métodos paramétricos não são
conhecidos. Em muitos casos o planeamento de um projecto de pesquisa pode
4
Introdução
sugerir um certo processo paramétrico, mas quando iremos aplicar este processo
poderá violar de uma forma determinante os pressuposto. Neste caso, um método
não paramétrico seria a única alternativa.
Quando queremos implementar um método devemos ter em conta o nível de medida das
variáveis a analisar, estas estão divididas em diferentes grupos:
1. Escala Nominal: neste nível situam-se todas as observações que são categorias e
não têm uma ordem natural, por exemplo, o sexo dos alunos de uma dada turma.
Para que tenha uma ordem, pode ser atribuído um valor numérico, no entanto, os
números não tem um verdadeiro e único significado (Ex.: masculino=1, feminino=2
ou feminino=1, masculino=2);
2. Escala Ordinal: as observações são categorias que têm uma ordem natural. Estas
observações podem não ser numéricas. Por exemplo, as classificações dos testes
podem ser mau, não satisfaz, satisfaz, bom ou muito bom.
3. Escala Intervalar: tem todas as características da ordinal com a vantagem de
conhecer as distâncias entre dois números quaisquer da escala. Estes valores estão
limitados entre dois valores. (Ex. As notas das frequências de uma dada turma, os
valores estão entre zero e vinte).
4. Escala de Razões: além das características de uma escala intervalar, tem um
verdadeiro ponto zero como origem. Não existe limites. Nesta escala, a razão de
dois pontos quaisquer é independente da unidade de mensuração, por exemplo, se
determinarmos os pesos de dois objectos diferentes não somente em libras, mas
também em gramas, observamos que a razão dos dois pesos em libras é idêntica à
razão dos dois pesos em gramas.
Os vários métodos para testar as hipóteses serão apresentados de forma a focar as
diferenças entre as várias fontes de informação disponíveis, tais como, as tabelas e os dois
Software especializados: o Mathematica® e o SPSS®. A introdução dos dados, no caso do
SPSS®, e a programação das funções, no caso do Mathematica®, estarão em anexo, bem com
as tabelas aqui utilizadas.
5
Capítulo 1: Caso de uma amostra
CAPITULO 1: CASO DE UMA AMOSTRA
Os testes estatísticos inerentes ao caso de uma amostra servem para comprovar uma
hipótese que exige a extracção de uma amostra. É usualmente usado para teste de aderência,
isto é, se determinada amostra provém de uma determinada população com uma distribuição
específica.
As provas de uma amostra verificam se há diferenças significativas na locação
(tendência central) entre a amostra e a população, se há diferenças significativas entre
frequências observadas e as frequências que poderíamos esperar com base em determinado
princípio, se há diferenças significativas entre as proporções observadas e as proporções
esperadas e se é razoável admitir que a amostra seja uma amostra aleatória de alguma
população conhecida.
1.1 Teste da Binomial
Antes de falar no teste da Binomial, falemos um pouco da distribuição Binomial. Esta
distribuição é comum ser usada para a contagem de eventos de um modelo observado. É
baseado no pressuposto de que a contagem podem ser representada como um resultado de
uma sequência de resultados independentes de Bernoulli (por exemplo: o lançamento de uma
moeda). Se a probabilidade de observar um resultado R é P para cada n ensaios, então a
probabilidade que R será observado num ensaio x exacto é
xNx
x PP
x
N
p −
−⎟⎟
⎠
⎞
⎜⎜
⎝
⎛
= )1(
A distribuição definida por: [ ] ),,1( NxpxXP x K=== é chamada distribuição
bi râmnomial com pa etros n e p. O nom que a expansão binomial dee aparece, pelo facto de
n
p)− é nPPP +++ K10 .
O Teste da Binomial aplica-se a amostras que provém de uma população, onde o
número de casos observados podem ser representados por uma variável aleatória que tenha
distribuição binomial. As amostras consistem em dois classes (ex: cara o
p 1( +
u coroa; sucesso ou
insucesso), deste modo este teste é aplicado a amostra de escala nominal.
(1.1.1)
6
Capítulo 1: Caso de uma amostra
Cada uma das classes tem a sua proporção de casos esperados, tomaremos, assim, P
para a proporção de uma das classes, e para a outra classe.PQ -1=
P é fixo para uma determinada população, mas, devido aos efeitos aleatórios, não
podemos esperar que determinada amostra tenha exactamente a mesma proporção.
A hipótese a ser testada é se o valor da população é P .
A probabilidade de obter x objectos numa das categorias e noutra categoria é
dada pela fórmula 1.1.1..
xN −
No entanto, não queremos saber qual a probabilidade exacta dos valores observadas,
mas sim qual a probabilidade de obter os valores observados ou valores mais extremos. Então
para o método aplicamos a seguinte distribuição amostral:
∑=
iNiN
i QPC -
ão da amostra);
3. ostra, elas são classificadas em pequenas amostras
3.1.
x
i 0
Método:
1. Determinar o número de casos observados N (dimens
2. Determinar as frequências em cada uma das classes;
Conforme a dimensão da am
( )25≤N ) e grandes amostras ( 25>N ):
Para pequenas amostra e 2
1
== QP , a tabela D dá as probabilidades unilaterais,
sob 0H , de vários tão pequenos quanto um x observado. Emprega-se uma prova
unilateral quando se conhece em antemão qual das classes tem menor frequência,
3.2. Se robabilidade, sob , de ocorrência do valor
caso contrário basta, para uma prova bilateral, duplicar os valores da tabela D.
QP = , determina-se a p 0H
observado x , utilizando a fórmula 1.1.2.
Para grandes amostras, pode-se demonstrar que quando N cresce a distribuição
binomial tende para a distribuição Normal. Se s rápida se P estiver próximo
de
3.3.
rá mai
2
1
. Os parâmetros a usar serão a média =NPµ x e o desvio padrão NPQ=σ ,
deste m
x
odo, tem distribuição aproximadamente normal com média 0 e
variância 1, sendo:
z
NPQ
x-NP
=
σ
x-µ
z=
x
(1.
x
(1.1.2)
1.3)
7
Capítulo 1: Caso de uma amostra
Devido à natureza da variável x ser discreta e a distribuição normal ser contínua,
deve-se incorporar um factor de correcção. Assim sendo z fica
NPQ
-NPx
z
)5.0±(
=
onde x + 0.5
(1.1.4)
é utilizado quando x < NP e x – 0.5 quando x > NP.
Então para grandes amostras e P próximo de 2
1
, testamos a hipóteses pla icando a
fórmula 1.1.4. A tabela A dá a probabilidade, sob , associada à ocorrência de
grandes quanto um valor de z observado, dado por aquela fórmula. A
tabela dá os valores unilaterais de p, sendo necessário para prova bilateral,
plo 1.1.1:
mos que num
. O pais querem saber se a probabilidade de nascer feminino ou masculino é igual.
R
idade de ascer menino ( ) ou
menina (
p babilidade.
ial porque os dados estão dicotomizados em duas classes
discretas. O nascim ,
0H
valores tão
duplicá-los.
Se o valor p associado ao valor observado x, não superar α , então rejeita-se H .0
Exem
Suponha a dada família nasceram 12 filhos, 7 do sexo feminino e 5 do sexo
masculino s
esolução:
Hipóteses:
210 =: ppH Não há diferenças na probabil n 1p
)2p .
211 : pH ≠ Há diferença na pro
Escolhe-se o teste binom
ento é um processo aleatório, assim 2
1
== QP .
Seja e N número de filhos = 1201,0=α
8
Capítulo 1: Caso de uma amostra
A distribuição amostral é dada pela fórmula:
387,0
5
00 == i
i
i
i
-12-
== ∑∑ iNi
x
iNiN
QPCQPC
ara a bilateral basta
duplicar o valor, sendo assim,
Sabemos que o cálculo anterior deu a probabilidade unilateral, p
774,0387,02 =×=p . A região de rejeição consiste em todos
e x tão pequenos que a probabilidade, sob a hipótese nula, associada à sua
ocorrência não seja superior a 0,01.
Como a probabilidade p = 0,774 associado a
os valores d
5≤x é maior que 01,0=α , conclui-se
que não existe diferenças nas probabilidades de nascer menino ou menina.
O SPSS®, além do valor p, dá-nos um quadro resumo da amostra:
Output 1.1.1:
Este software pode fazer o teste com maior rapidez, muito embora, se a dimensão da
amos
nascimentos e que
nasceram 725 crianças do sexo masculino, para testar a hipótese, basta:
pmB
tra for muito grande, a introdução dos dados poderá ser demorada. Para colmatar esta
situação podemos recorrer ao Mathematica®, pois, basta dar o número de casos de um das
classes como ilustra o seguinte exemplo:
E emplo 1.1.2:x
Suponhamos agora que queremos saber se a probabilidade de nascer masculino ou
feminino num dado país é igual. Considerando uma amostra de 1500
n inomial p-value = 0.5725
One- Sided PValue - > 0.102896822008
Two- Sided PValue - > 0.205793644017
9
Capítulo 1: Caso de uma amostra
Como o “p-value” é maior que 01.0=α , então aceitamos a hipótese de que não existe
diferenças entre o número de nascimentos do sexo masculino e feminino.
1.2 Teste do Qui-Quadrado ( 2
χ ) para uma amostra
É adequado aplicar este teste quando temos os dados da amostra dividida em duas ou
mais categoria. O propósito deste método é ver se existem diferenças significativas entre o
núme ivíduos, de objectos ou de respostas, em determinada classe, e o respectivo
núme Isto é, a técnica testa se as frequências
obser
hipótese
método envolve os seguintes passos:
1. Enquadrar as frequências observadas nas k categorias. A soma das frequências deve
ser N, número de observações independentes;
Por meio de , determinar as frequências esperadas para uma das k células;
3. órmula:
ros de ind
2
χro esperado baseado na hipótese nula.
vadas estão suficientemente próximas das esperadas para justificar sua ocorrência sob a
nula.
Método:
O
2. 0H
Calcular o valor de 2
χ por meio da seguinte f
( )
∑
−
=
k
ii EO
2
2
χ
=i i
calc
E1
.
iO = número de casos observados na categoria i
= número de casos esperados na categoria i sob 0H
= número de categorias na classificação;
iE
k
4. Determinar o grau de liberdade ( 1−= kgl );
5. Com base na tabela C, determinar a probabilidade associada à ocorrência, sob 0H ,
2
de um valor tão grande quanto o valor observado de para o valor de
considerado. Se o valor de p, assim obtido, for igual a, ou menor do que,
χ gl
α , rejeita-
se a hipótese nula.
(1.2.1)
10
Capítulo 1: Caso de uma amostra
Nota: quando k > 2, se mais de 20 por cento dos ’s são inferiores a cinco, combina-
se de maneira razoável, categorias adjacentes. Reduzindo, assim o número de classes e
aume uns dos ’s. Quando k = 2. Pode-se empregar a prova
para uma amostra só se cada frequência esperada é no mínimo, igual a 5 (Cochran, 1954).
E
Tabela
elho Branco Preto Azul Cinzento
iE
iE 2
χntando o números de alg
xemplo 1.2.1:
Dada a seguinte tabela:
1.2.1:
Cor Verm
Número de automóveis 29 25 19 15 17
Querem e há preferência em determinada cor, isto é, há razões para dizer que
há preferência rminada cor? Com um nível de significância
os saber s
em dete 05,0=α .
esolução:
ormulamos as hipóteses:
R
F
5
1
: CinzentoAzulPretoBrancoVermelho0 ===== PPPPPH
01 : HH é falsa.
Calculamos o número total de frequências e o valor esperado:
105++++====== 1715192529CinzentoAzulPretoBrancoVermelho NNNNNN =
21
5
105
===Ei
k
N
alculamos 2
χ :C
( ) ( ) ( ) ( ) ( ) 48,6
21
2117
21
2115
21
2119
21
2125
21
2129
22222
2
≈
−
+
−
+
−
+
−
+
−
=χ
11
Capítulo 1: Caso de uma amostra
A tabela C indica que 48,62
≥χ para gl = 4 tem a probabilidade de ocorrência
entre 1,0=p e 2,0=p . Como p > α então não podemos rejeitar 0H . Concluindo que a
proporção de casos em cada categoria é igual, para um nível de 0,05.
Através deste exemplo, verifica-se que
tabela, deste modo, seria mais preciso se util
não podemos ir buscar o valor exacto de p na
assim, o SPSS® seria a melhor escolha, como
Output 1.2.1:
oderíamos utilizar o Mathematica®, através da função QuiQuadrada1Amostra[],
iQuadrada1Amostra 29,25,19,17,15
izarmos outros meios de cálculo mais eficazes,
ilustra o seguinte output:
P
dando como parâmetro a amostra:
Qu
PValue: 0.166297
como é observado, o
associad
a am
função de distribuição empírica da amostra define-se como a proporção das observações da
amostra que são menores ou iguais a
Mathematica® calcula com maior precisão o valor da probabilidade
a.
1.3 Teste de Kolmogorov-Smirnov
O Teste de Kolmogorov-Smirnov de um ostra é baseado na diferença entre a função
de distribuição cumulativa )(0 xF e a função de distribuição empírica da amostra )(xSn . A
x para todos os valores reais x . )(xSn dispõe dum
estimador pontual consistente para a verdadeira distribuição . Mais, através do teorema)(xFX
12
Capítulo 1: Caso de uma amostra
de Glivenko-Cantelli1
, podemos afirmar que )(xSn aproxima-se da distribuição teórica.
Portanto, p ra um n grande, o desvio entre as duas dia stribuições, ,)()( xFxS Xn − fica cada
vez m is pequenos para todos os valores de x . Assim ficama os com o seguinte resultado:
)()(sup xFxD X
x
n −= (1.3.1)
À esta nD chama os estatística de Kolmogorov-Smirnov de uma amostra. É
particularmente út
Sn
tística m
i a a Estatística Não Paramétrica, porque a probabilidade de não
depen este modo, pode ser chamada estatística
sem distribuição.
l par nD
de de )(xFX desde que XF seja contínua. D nD
O desvio à direita e à esquerda definida por
[ ])()(sup xFxSD Xn
x
n −=+
[ ])()(sup xSxFD nXn −=−
(1.3.2)
x
são c
uições de são independentes de
podem s assumir, sem perda de generalidade, que é a distribuição uniforme com
par sim o s o seguinte teorema:
Teorema 1.3.1: Para
hamados estatísticas de Kolmogorov-Smirnov unilaterais. Estas medidas também não
têm distribuição.
Para que possamos utilizar a estatística de Kolmogorov para inferência, a distribuição
da amostra deve ser conhecida. Sabendo que as distrib nD XF ,
o XF
âmetros (0,1). As btemo
)()(sup xFxSD Xn
x
n −= onde é uma função distribuição
cumulativa contínua qualquer, temos:
)(xFX
1
Teore ko-Cantelli: converge uniformemente para com a probabilidade 1; que éma de Gliven )(xnS )(xFX
10)()(suplim =⎥⎦
⎤
⎢⎣
⎡ =−
∞<<∞−∞→
xFxSP Xn
xn
13
Capítulo 1: Caso de uma amostra
⎪
⎩1
⎪
⎪
−
≥
n
n
vse
vse
2
12
0
10! uun K
i extraí d
preciso ter em enos
ordinal.
Seja uma distribuição de frequências acumuladas, teórica, sob
Seja a distribuição de frequências acumuladas de uma amostra aleatória de N
⎪
⎨
−
<<=⎟
⎠
⎞
⎜
⎝
⎛
+< ∫ ∫ ∫
+
−
+
−
+−
−− n
n
vseduduuuufv
n
DP
vn
vn
vn
vn
vnn
vnn
nnn
2
12
0),,,(
2
1 2/1
2/1
2/3
2/3
2/)12(
2/)12(
121 KKK
⎪
⎪
⎧
≤
0
onde ( )
⎩
⎨=
contráriocaso0
,,, 1
21
n
nuuuf K
⎧ <<<<
Método:
Este método pretende testar se uma determinada amostra fo da e uma população
com uma determinada distribuição teórica.
Quando se escolhe este teste é conta que a variável seja pelo m
)(0 XF 0H .
)(XSN
observações. Quando X é qualquer valor possível,
N
k
XSN =)( , onde k é o número de
observações não superiores a X.
ela hipótese Nula, de que a amostra tenha sido extraída de uma população com a
distrib pecífica, espera-se que as diferenças entre e sejam
pequenas e estejam dentro dos limites dos erros aleatórios. O teste de Kolm irnov
focali
P
uição teórica es )(XSN )(0 XF
ogorov-Sm
za a maior dessas diferenças. Ao valor de )()(0 XSXF N− é chamado de desvio
máximo, D:
)()(0 XSXFmáxD N−=
A Distribuição amostral de D, sob 0H , é conhecida. A tabela E dá certos valores
críticos dessa distribuição amostral. Note-se que a significância de um dado valor D depende
de N.
(1.3.3)
14
Capítulo 1: Caso de uma amostra
Exemplo 1.3.1:
Suponha-se que um pesquisador esteja interessado na confirmação experimental da
observação sociológica, de que os negros Americanos aparentam demonstrar uma hierarquia
de preferência em relação à tonalidade de pele. Para comprovar quão sistemáticas são essas
o pesquisador fictício tira uma fotografia de cada um dentro de 10 indivíduos
negros. O fotógrafo revela essas fotografias, obtendo cinco cópias de cada uma, de tal forma
que cada cópia difi ou em s, ser classificadas
em cinco tipos, desde a mais clara até à mais escura. À fotografia mais escura é atribuído o
posto 1, e para a mais clara é atribuída o posto 5. Pede-se então a cada indivíduo que escolha
uma de entre as cinco cópias de sua própria foto. Se os indivíduos forem indiferentes em
relação à tonalidade da cor da pele, a escolha deverá recair igualmente sobre os cinco postos
(com ex
tão os diversos
indivíduos deverão consistentemente manifestar preferência por um dos postos extremos. Os
resultados est u
Tabela 1.3.1:
preferências,
ra ligeiramente das tras tonalidade, podendo, poi
cepção, é óbvio, de diferenças aleatórias).
Se, por outro lado, a cor tiver importância, tal como supomos, en
ão na seg inte tabela:
Posto da foto 1 2 3 4 5
N.º de indivíduos 0 1 0 5 4
Resolução:
Formulamos as hipóteses:
ffH 543 fff ==210 : == ão há diferenças no número esperado de escolhas para
cada um dos cinco postos, isto é, a amostra prov de uma população com um distribuição
uniforme.)
é falsa ( não são iguais).
ção de frequências
acumuladas teórica e a da amostra:
(N
ém a
01 : HH 54321 ,,,, fffff
Com a ajuda de uma tabela, calculamos a diferença entre a distribui
15
Capítulo 1: Caso de uma amostra
Tabela 1.3.2:
1f 2f 3f 4f 5f
N.º de indivíduos que
0 1 0 5 4
escolhem a cor
)(0 XF
5
1
5
1
5
1
5
1
5
1
)(0 XS 0
10
1
10
1
10
6
10
10
)()(0 XSXF N−
5
1
10
3
10
5
10
2
0
De seguida, calculamos o máximo entre estas diferenças:
{ } 5,0
10
5
)()(0 ==−= XSXFmáxD N
Consultamos a tabela E que nos dá a probabilidade p associada de ocorrência (bilateral)
de com5,0≥D 10=N :
Utilizando um nível de significância
.01,0≤p
01,0=α , podemos concluir que é falsa, sendo
assim, os indivíduos demonstram preferência na tonalidade.
Como é observado, a tabela dá-nos intervalos de p , não sendo possível obter o seu valor
exacto. Poderíamos escolher um
0H
03,0=α e se, após o cálculo de D, a probabilidade
associada estiver entre 0,01 e 0,05, não era possível dar uma resposta.
o SPSS® p
Output 1.3.1:
odemos obter o valor exacto de p:N
16
Capítulo 1: Caso de uma amostra
1.4. Teste de Iterações de Uma Amostra
Dado uma sequência de dois ou mais tipos de símbolos, uma iteração é definida como
uma sucess u ma s símbolos idênticos em que são seguidos e precedidos por outro
símbolo diferente ou nenhum símb lo.
Pistas para uma sequência não aleatória são dadas através da
ão de um o i
o
existência de algum
padrão. O n
reflectir a existência de algum tipo de padrão.
Quer a situação de um núm
aleatória
grande ou muito pequeno.
ste teste utiliza-se quando os valores estão numa escala nominal ou ordinal, em que a
amostra
Dada uma sequência d m do segundo
tipo, onde
úmero de iterações e o comprimento, em que estão interrelacionados, devem
Uma alternativa para saber se é ou não aleatória é baseada no número total de iterações.
número pequeno quer a situação de um ero grande de iterações,
sugere que a sequência de símbolos estão dispostos de forma ordenada (não ), isto é,
a hipótese nula é rejeitada se o número de iterações é muito
E
é dicotómica.
e n elementos de dois tipos, 1n do pri eiro tipo e 2n
nnn =+ 21 . Se é o número de do tipo 2, então, o
número total de iterações na sequência é
1 2
21
r iterações do tipo 1 e r
rrR += . Para fazer um teste para a aleatoriedade,
precisamos da distribuição de probabilidade de R quando a hipótese nula é verdadeira.
A distribuição de R será encontrada quando conhecerm s a distribuição de r e r ,
bastando somar as duas distribuições. Sabendo que sobre a hipótese nula todos os arranjos de
o
objectos é equiprovável, a probabilidade de
1 2
21 nn + 11 rR = e 22 rR = é o número de arranjos
L
distintos de 21 nn + objectos dividido pelo total de arranjos distintos, que é !!/! 21 nnn . Para a
quantidade do numerador, o lema seguinte pode ser usado.
ema 1.4.1: O número de formas distintas para distribuir n objectos iguais por
r distintas células sem células vazias é n
r
≥⎟⎟
⎠
⎜⎜
⎝ −
se
lulas, em que pode ser feito em ⎜⎜
⎝
⎛
−11
1
r
n
diferentes
.,
1
1n ⎞⎛ −
r
De modo a obter uma quência com r iterações de objectos do tipo 1, os n objectos
iguais deve ser postas dentro de cé
⎞−1
1 1
1r ⎟⎟
⎠
17
Capítulo 1: Caso de uma amostra
maneira a-se d os objectos. O
núme s distintos começando com uma iteração do tipo 1 é o produto
⎛ −⎞
⎜⎜
⎝
⎛
−
− 12
1
1 n
r
n
a iteração do tipo 2.
O conjunto de objectos do tipo 1 e do tipo 2 deve ser alternado, e consequentemente poderá
acontecer o seguinte:
s. Aplic o mesmo modo para obter 2r iterações com outr 2n
ro total de arranjo
⎟⎟
⎠
⎜⎜
⎝ −⎟⎟
⎠ 11 2r
. Analogamente, para uma sequência começando com um
1 ⎞
121 ±= r ou 21 rr = . Se 121 += rr , a sequênciar deve começar com uma
iteração do tipo 1; Se e ser o tipo 2 a começar. Caso a sequência
pod o do er
duplicado. Assim foi
Teorema 1.4.1: Seja e os respectivos números de iterações de objectos do
2 n ma ostra aleatória de dimensão . A distribuição
a probabilidade conjunta de e é
121 −= rr então dev 21 rr =
e começar com tipo 1 ou 2., portanto, o número de arranjos distintos deve s
provado os seguintes resultados.
1R 2R 1n
tipo 1 e n objectos do tipo u am2 21 nnn +=
d 1R 2R
⎟
⎠
⎜
⎝ 1n
e 2=c se 21 rr = e 1=c se 121
⎟⎜
⎞⎛ −
⎠
⎞
⎝
⎛ −
21
1
1
1
n
nn
(1.4.1)
ond
⎞⎛ +
=
21
),(, 2121
n
f rrRR
⎟⎟
⎠
⎜⎜
⎝ −⎟⎟⎜⎜
−
21
1rr
c
±= rr .
Corolário 1.4.1: A distribuição da probabilidade marginal de é1R
11
1
2
1
21
,,2,1
11
nr
n
n
nn
K=
⎟⎟
⎠
⎞
⎜⎜
⎝
+
⎟⎟
⎞
⎜⎜
⎛ +
⎟⎟
⎞
⎜⎜
⎛ −
2R trocando posições de 1n com 2n e vice-versa.
1
1
)(
1
11
n
rr
f rR
⎛
⎠⎝⎠⎝ −
=
Similar para
Teorem
do tipo 1 e do tipo 2, numa amostra aleatória é
,,2,1
21
22
=
,,2,1
11
=
=
ourr
nr K
nr K
121 ±= rr
(1.4.2)
a 1.4.2: A distribuição de probabilidade de R , número total de iterações e
21 nn += objectos, 1nn 2n
18
Capítulo 1: Caso de uma amostra
⎪
⎪
⎪
⎪
⎪
⎩
⎪
⎪
⎪
⎪
⎪
⎪
⎧
⎟⎟
⎠
⎞
⎜⎜
⎝
⎛ +
⎟⎟
⎠
⎞
⎜⎜
⎝
⎛
−
−
⎟⎟
⎠
⎞
⎜⎜
⎝ −
+⎟⎟
⎠
⎜⎜
⎝ −⎟⎟
⎠
⎜⎜
⎝ −
⎟⎟
⎠
⎞
⎜⎜
⎝
⎛ +
⎟⎟
⎠
⎞
⎜⎜
⎝
⎛
−
−
⎟⎟
⎠
⎞
⎜⎜
⎝
⎛
−
−
parérse
n
nn
r
n
rrr
imparérse
n
nn
r
n
r
n
1
21
2121
1
21
21
2/)1(
1
2/)3(2/)3(2/)1(
12/
1
12/
1
2
(1.4.3)
nn
⎪
⎨
⎛ −⎞⎛ −⎞⎛ −
=
nnn
rfR
111
)(
para ,3,2r 21,= K +
1. Dispo observa sua ordem ncia;
2. C
Método:
r as 1n e 2n ções na de ocorrê
ontar o número r de iter
3. Det robabilida ass valor tã mo quanto o
valor observado de r. Se t abilidade inferior,
ações;
erminar a p de, sob 0H , ociada a um o extre
al prob é igual, ou a α , rejeitar . A
técnica para a determinação do valor de p depende do tama e
3.1. S ambos n eriores a r à tabela abela FI dá o
valor de r que é tão pequeno que a sua probabilidade associada, sob é
tão grande que a sua probabilidade
0H
nho dos grupos 1n 2n :
e 1n e 2n são ão sup 20, recorre F. A t
0H
025,0=p ; a tabela FII dá o valor de r que é
associada é 025,0=p . Para uma prova bilateral consideramos os dois valores, ao
nível 05,0=p . Para uma prova unilateral consideramos a tabela correspondente
mbém a um nívelaos valores previstos ta 05,0=p .
3.2. Se 1n ou 2n for superior a 20 então determinar uma aproximação à Normal através
da seguinte fórmula:
( )
( ) ( )1
1
2
21
2
21
21
21
−++
⎟⎟
⎠
⎞⎛
+
+
nnnn
nn
nn
(1.4.1)
22 212121 −−
==
nnnnnn
z
rσ
⎜⎜
⎝
−
−
r
r rµ
19
Capítulo 1: Caso de uma amostra
calculado o valor de z, recorrer à tabela A.
Apresentamos uma tabela onde é dado o total de pagamentos feitos pelas equipas da
iga Nacional de baseball dos EUA:
Tabela 1.4.1: Pagamentos em milhões de dólares.
Exemplo 1.4.1:
L
Equipa Pagamento Equipa Pagamento
Atlanta 47.93 Montreal 15.41
Chicago Cubs 31.45 New York Mets 23.46
Cincinnati 40.72 Philadelphia 29.72
Colorado 38.19 Pittsburgh 21.25
Florida 30.08 San Diego 27.25
Houston 26.89 San Francisco 34.79
Los Angeles 34.65 St. Louis 38.92
A mediana deste conjunto de números é de 30,765.
valor maior que a mediana.
ência aleatória. Com um nível de
significância
Convertemos os valores indicados na tabela para zeros e uns, o zero corresponde a um
valor menor que a mediana e o um corresponde a um
Obtemos a seguinte sequência:
1,1,1,1,0,0,1,0,0,0,0,0,1,1
Queremos saber se os valores estão numa sequ
05,0=α .
Resolução:
Formulamos as hipóteses:
0H : os zeros e uns ocorrem em ordem aleatória
01 : HH é falsa.
O número de iterações é 5=r ; 1 e 72 =n=n 7
s para o r com a ajuda da Tabela F que nos dá o seguinte
resultado:
13
Calculamos os extremo
3 5
Região de Rejeição Região de Rejeição
Região de Aceitação
20
Capítulo 1: Caso de uma amostra
odo,
concluímos que, com um nível de significância
Como r pertence ao intervalo de aceitação, podemos aceitar 0H , deste m
05,0=α , os pagamentos ocorrem de forma
aleatória.
Podemos verificar que estas tabelas não nos dão o valor de p, apenas um intervalo de
rejeição. Quer no Mathematica®, quer no SPSS® podemos calcular de uma forma exacta o
valor da probabilidade associada.
Vejamos então no SPSS:
Output 1.4.1:
Como podemos observar a probabilidade associada é de 164,0=p , assim chegamos ao
mesmo resultado, isto é, aceitamos a hipótese nula.
No Mathematica® usamos dois procedimentos, um para converter para zeros e uns
outro para o cálculo da probabilidade:
Guardamos os valores numa variável do tipo lista:
Pagamentos = 47.93, 31.45, 40.72, 38.19, 30.08, 26.89, 34.65, 15.41,
23.46, 29.72, 21.25, 27.25, 34.79, 38.92
convertemos para zeros e uns:
ZeroUns = convertToZerosAndOnes pagamentos
1, 1, 1, 1, 0, 0, 1, 0, 0, 0, 0, 0, 1, 1
21
Capítulo 1: Caso de uma amostra
e calculamos a probab
npmRunsTest ZeroUns
ilidade associada:
Number of Runs - > 5
Two- Sided PValue - > 0.155012
Concluímos, do mesmo modo, que não há razão para rejeitar a hipótese nula.
omo conclusão para este teste, podem a ajuda do computador, não
é nec a
C os afirmar que, com
essário fazer uma aproximação à normal, visto que, não tem limitação das tabelas.
22
Capítulo 2: Caso de duas amostras relacionadas
CAPÍTULO 2: CASO DE DUAS
tro.
2.1 Teste dos Sinais
É dado uma amostra aleatória de pares ordenados da forma
)y , cada par é substituído por um sinal mais ou menos depende
se o prim aior ou menor.
1.
2. Determ embros de cada par;
. Determinar N = número das diferenças com sinal;
sociada à ocorrência, sob , de um
AMOSTRAS RELACIONADAS
Empregam-se os testes para duas amostras relacionadas quando queremos determinar,
para uma mesma situação, se duas abordagens, tratamentos ou métodos são diferentes ou se
um é melhor que o ou
( ) ( ) ({ }2122211211 ,,...,,,, nn yyyyy
eiro valor é m
Método:
Emparelhar n pares;
inar o sinal da diferença entre os dois m
3
4. O método para determinar a probabilidade as 0
valor tão extremo quanto o valor observado de
H
z depende do tamanho de N:
i. Se , a tabela D teral associada a uma
valor tão pequeno quanto o valor esperado
25≤N dá a probabilidade unila p
x = número de sinais com menor
frequência. Duplica-se o valor da pr
ii. Se N , calcular o valor de
obabilidade quando se trata de um teste
bilateral.
> 25 z mediante o emprego da fórmula:
N
Nx 1
)5,0( −±
z
1
2
=
2
Utiliza-se 5,0+x quando Nx 2
1
< , caso contrário, 5,0−x .
al duplicar o
valor de
lor da probabilidade obtida no teste não for superior a
A tabela A dá os valores unilaterais de p , para um teste bilater
α , rejeitar
(2.1.1)
0H .
p .
Se o va
23
Capítulo 2: Caso de duas amostras relacionadas
Exemplo 2.1.1:
essor acredita
que u
Tabela
8 76 60 46 86 33 94 122 75 65 80 111 62
Depois 21 85 58 58 91 32 106 145 83 78 80 122 75
Um professor da disciplina de alemão pretende avaliar o impacto de uma viagem, com a
duração de uma semana à Alemanha, sobre o vocabulário dos estudantes. O prof
ma semana na Alemanha resultará num acréscimo significativo das palavras do
vocabulário dos seus alunos, antes e depois de regressarem da viagem, tendo obtido os
seguintes resultados:
2.1.1:
Antes 9
1
esolução:
ormulamos as hipóteses:
Não há diferenças, i esmo de sinais “-”.
é falsa.
R
F
0H : sto é, o número de sinais “+” é o m
H 01 : H
Iremos usar o teste dos sinais, escolhendo um 05,0=α .
Após a análise dos pares ordenados verificamos a seguinte sequência de sinais:
+ + - + + - + + + + + +i
12=N (ne 2=xste caso houve um empate) e
25≤NComo , recorremos à tabela D, e verificamos que para uma prova unilateral o
valor de p é de 0,019, mas como a prova é bilateral 038,0=p
Sendo assim, rejeitamos a hipótese nula, dado lugar à hipótese alternativa, concluindo
endável os alunos irem à Alemanha.
Vam ver como seria no computador este exemplo:
Após a introdução dos dados no SPSS®, teríamos os seguintes resultados:
que seria recom
Para o caso de grandes amostras a contagem de sinais seriam demorados e susceptível a
erros e teríamos que utilizar uma aproximação, seria prudente a utilização de um computador.
os
24
Capítulo 2: Caso de duas amostras relacionadas
.1:Output 2.1
Como pode-se verificar, ermos visualizar o valor da probabilidade de um
modo mais exacto, podemos ver também o número total de sinais que ocorrem.
parâmetr
empates
npmSignTestFrequencies 2, 10
além de pod
Outro modo seria utilizando o Mathematica®, na função a utilizar damos como
os: o número de sinais positivos e o número de sinais negativos, excluindo os
em ambos os casos:
Title: Sign Test
Test Statistic: Number of Pluses is 2
Distribution BinomialDistribution
2 - sided p- value - > 0.0385742
os verificar que o valor de p é dado com maior número de casas decimais.
2.2 Teste de McNemar
duas amostras relacionadas, isto é, tem como objectivo avaliar a eficiência de situações
que cada o indivíduo é utilizado como o seu próprio controlo. Utiliza-
se a m escala nominal para avaliar alterações da situação “após” em relação à
situação “antes”.
Podem
O teste desenvolvido por McNemar é usado para analisar frequências (proporções) de
“antes” e “depois”, em
ensuração em
Método:
1. Enquadrar as frequências observadas numa tabela de quatro células na forma
seguinte:
25
Capítulo 2: Caso de duas amostras relacionadas
Tabela 2.2.1:
+ A B
- C D
Depois
Antes
- +
As células A e D são consideradas células de mudança, enquanto que as células B e C
são células que não muda de estado. O total de indivíduos que acusam mudança é
pois ositivo” e a
probabilidade de “Antes Positivo; Depois Negativo” e , calcular as
A e D:
DAm += ;
2. Considerando 1p a probabilidade de “Antes Negativo; De P 2p
21 pp =
frequências esperadas nas células )(2
1
DAE += .
as frequênciasSe esperadas são inferiores a 5 , empregar a prova binomial em
substituição á de McNemar, neste caso, DAN += e { }DAx ,min= ;
3. Ca 2
Xso não se verifique que as frequências são inferiores a 5, calcular o valor de
com o emprego da seguinte fórmula:
( )
DA
DA
X
+
−−
=
2
2
1
com gl = 1
va
unilateral, basta dividir por dois o valor tabelado. Caso o valor de p, exibido pela
tabela, não supera
4. Mediante referência à tabela C, determinar o probabilidade, sob 0H , associada a um
valor tão grande quanto o valor observado de 2
X . Se se tratar de uma pro
α , rejeitar m
Exem lo 2.2.1:
Dada a seguinte tabela de resultados:
Tabela 2.2.1:
Marca A
Sucesso 19 11
0H e favor da hipótese alternativa.
p
Marca B
Sucesso Insucesso
Insucesso 4 16
(2.2.1)
26
Capítulo 2: Caso de duas amostras relacionadas
ificância
de
Queremos saber qual a melhor marca de medicamentos com um nível de sign
05,0=α .
olução:Res
n diferenças
entre a m células (B e C). Se verificarmos
que B
então a m é melhor. Com base neste raciocínio, formulamos as nossas hipóteses:
McNemar demo strou que A ou D não contribui para a determinação das
arca A e a marca B, Mas sim através das restantes
> C, podemos concluir que a Marca A é melhor que a marca B, caso contrário, se B < C
arca B
0H : Não existe diferenças entre a marca A e a Marca B ( 2
1
marcaBmarcaA == pp )
01 : HH é falsa.
( )
1142857143,0
1619
11619
2
2
=
+
−−
=X com
omo 2
XX > então rejeitamos a hipótese nula, dando lugar à hipótese
alternativa, isto é, existe diferenças entre a marca A e a marca B, sendo a marca A melhor que
a marca B.
da probabilidade associada:
1=gl
Através da tabela C, calculamos uma aproximação do valor de )1(2
1 α−X :
0039,0)1()1( 2
95.0
2
1 ==− XX α
)1(2
95.C 0
Com a ajuda do computador, não é preciso recorrer à tabela, podendo calcular o valor
preciso
Output 2.2.1:
27
Capítulo 2: Caso de duas amostras relacionadas
No Mathematica®, a função a utilizar será a mesma da binomial dando como
parâm ero total dos valores das células onde há mudança de comportamento entre
as ma as, a probabilidade (neste caso é 0,5) e o menor valor entre as células de mudança:
pmBinomial PValue 0.5, 4
etros: o núm
rc
n
One- Sided PValue - > 0.0592346
Two- Sided PValue - > 0.118469
om o Mathematica® chegamos à mesma conclusão do método pelas tabelas, com a
vanta
ilcoxon é mais poderoso que o teste dos sinais, pois, além de considerar o
sentido da diferença também tem em conta o seu valor e o posto em que se insere.
Para cada par, determinar a diferença ( ), com sinal, entre os dois valores;
2. Atribuir postos a esses ’s independentemente de sinal. No caso de d’s empatados,
atribuir a média dos postos empatados;
3. Atribuir a cada p inal inal – e ele representa;
4. Determinar
C
gem de ser com maior precisão.
2.3 Teste de Wilcoxon
O teste de W
Método:
1. id
id
osto o s + ou o s do d qu
T qu l à m s som ostos d esmo sinal;
5. Determinar N que é igual ao t d’s co l;
6. O processo para determinação nificân o valor o ervado de T vai depender
de N:
Se , a tabela G dá os valores críticos de T pa rsos tam
observado de T não supera o valor indicado na tabela, para um dado nível de significância e
um particular N, pode ser rejeitada;
Se , calcular o valor de z pela seguinte fórmu
e é igua enor da as de p e m
otal de m sina
da sig cia d bs
25≤N ra dive anhos de N. Se o valor
0H
25>N la:
24
12N)(1(
(
+
−
=
NN
N
T
z (2.3.1)4
+
)1+N
28
Capítulo 2: Caso de duas amostras relacionadas
Determinar a sua pr ade ada, s , mediante referência à Tabela A.
Para uma prova bilateral, duplicar o valor de p dado.
Se o p assim obtido não for superior a
obabilid associ ob 0H
α , rejeitar
Exemplo 2.3.1:
valores que correspondem ao
núme nos em diferentes profissões divididos pelo
sexo:
Tabela 2.3.1:
Femin 55 8556 2972 324 19448 1790 5163 12495 7594 1128 3724 614
0H .
Na tabela seguinte apresentamos uma sequência de
ro de pessoas que trabalham à mais de 25 a
ino 47618 15110 65
Masculino 6523 16708 8883 7825 1002 442 11161 1661 6346 3153 4760 10946 10593 23565
Pretendemos determinar se existem grandes diferenças entre os sexos nas diferentes
ocupações.
esolução:
amos as hipóteses:
: Não há diferenças entre o sexo masculino e o feminino nas diferentes ocupações.
Há diferenças entre os sexos.
emos usar o teste de Wilcoxon, escolhendo um
R
Formul
0H
H :1
Ir 05,0=α .
Dispomos os dados numa tabela para calcular as diferenças e os postos:
29
Capítulo 2: Caso de duas amostras relacionadas
Tabela 2.3.2:
iA iB iii BAd −= Postos
47618 56523 -8 12905
15110 16708 -1598 5
6555 8883 -2328 8
8556 7825 731 3
2972 1002 1970 7
324 442 -118 1
19448 11161 8287 11
1790 1661 129 2
5163 6346 -1183 4
12495 3153 9342 13
7594 4760 2834 9
1128 10946 -9818 14
3724 10593 -6869 10
614 2356 -1742 6
4591321173 =+++++=+T
6061014418512 =+++++++=−T 45},min{ == −+ TTT
Como N < 25 (N = 14) então estamos perante a um caso de pequenas amostras, neste
caso basta ver qual o valor tabelado de T descrito na tabela G:
Para um N = 14 e 05,0=α (prova bilateral) temos 21=tabeladoT
Como então aceitamos a hipótese, isto é, não existe diferenças entre os
sexos nas diferentes ocupações.
No SPSS®, basta introduzir os dados em duas series de variáveis, ficando com o
seguinte resultado:
tabeladoTT >
30
Capítulo 2: Caso de duas amostras relacionadas
Output 2.3.1:
teste assimptotico. Não nos dá o valor de T mas
sim
Podemos observar que o SPSS faz umPodemos observar que o SPSS faz um
Capítulo 2: Caso de duas amostras relacionadas
31
Output 2.3.1:
teste assimptotico. Não nos dá o valor de T mas
sim o valor da probabilidade associada. Neste caso , então podemos concluir que638,0=p
não existe diferenças entre os sexos.
31
Capítulo 3: Caso de duas amostras independentes
CAPITULO 3: CASO DE DUAS
ger a
tos, ap
ensões diferentes.
istribuições são contínuas, uma única ordem é sempre possível,
visto
AMOSTRAS INDEPENDENTES
Como os testes do capítulo 2, os testes, de seguida, apresentados, servem, de um modo
al, para determinar se as diferenças nas amostras constituem evidência convincente de um
diferença nos processos, ou tratamen licados a elas. A principal diferença é de que as
amostras são independentes e como tal, podem ter dim
3.1 Teste de Iterações de Wald-Wolfowitz
Seja duas amostras independentes mXXX ,,, 21 K e nYYY ,,, 21 K combinadas numa
única sequência ordenada da menor à maior, não deixando de identificar a sua amostra.
Assumindo que as suas d
que teoricamente não existem empates. Por exemplo, com 4=m e 5=n , a sequência
poder
distribuições são idênticas
para todo o x
esperam X e Y estejam bem misturadas na sequência obtida. Visto que, a dimensão
+ a ostra d ulação comum.
Com a r s idênticas precedida e
seguida por t ero total de iterações de uma amostra
ordenada é
iterações sugere ên o provém de uma única amostra, mas sim de
duas amostr as popula
menores que os i
configuração pa
também podem ticamente menores que os Y’s. Contudo, a ordem
inversa tamb e ta
iterações não po
Em primeiro lugar, o teste de iterações é apropriado quando a hipótese alternativa é
bilateral
ia ser X Y Y X X Y Y em que é indicado que o menor elemento pertence à amostra X, o
segundo menor da amostra Y, etc., e o valor maior pertence à amostra Y. Sobre a hipótese nula
de que as
)()(:0 xFxFH xY =
os que
nm N= constitui um am e dimensão N de uma pop
ite ação, definida em 1.4, como uma sequência de letra
uma letra diferen e ou nenhuma letra, o núm
um indicativo do grau de mistura. Um padrão de arranjos com muito poucas
que os N valores da sequ cia nã
as de du ções diferentes. Por exemplo, se todos os elemento de X são
elementos de Y, na sequência formada dever a ter só duas iterações. Esta
rticular pode indicar que não só as populações não são equivalentes, como
indicar que X’s são estocas
ém só contém duas iterações, , por nto, um teste baseado só no número total de
de distinguir estes casos.
32
Capítulo 3: Caso de duas amostras independentes
)() xFx x≠ para alguns x
uma variável R aleatória como o número total de iterações numa ordem de m
aleatórios.
(:1 FH Y
Definimos
X e n Y valores
Desde que poucas iterações tendem a duvidar da hipótese nula quando a alternativa é
, O teste de iterações de Wald-Wolfowitz (1940) para um nível de significância1H α
geralmente tem a região de rejeição αcR ≤ onde αc é escolhido para ser o maior inteiro que
satisfaz αα ≤≤ )( cR quando 0H é verdadeira.
sde que as observações X e Y são dois tipos de objectos arranjados numa sequência
mente aleatória, se 0H é verdadeira, a distribuição da probabilidade nula de R é
stribuição 1.4.2 do corolário 1.4.1 para o teste de iterações de um
P
De
completa
igual é di a amostra, bastando
mudar
os Y’s são os objectos do tipo 2.
Este teste tem a particular vantagem de permitir comprovar qualquer tipo de diferença.
os aplicar a prova de Wald-Wolfowitz supõe-se que a variável em
estudo tenha distribuição básica contínua, e exige mensuração no mínimo ao nível de escala
ordin
e 2n para m e n respectivamente, assumindo que os X’s são os objecto do tipo 1 e1n
Para que possam
al.
Método:
Suponhamos que nn =1 e mn =2 , os passos a seguir são:
i. Dispor os 21 nn + valores numa única sequência ordenada;
ii. Determinar r = número de iterações;
iii. O método para determinação da significância do valor observado de r
dep h e
, a e F s o
ende do taman o de 1n 2n :
iv. Se 20,n 21 ≤n tab la I dá o valores crític s de r para um nível de
significância 0,05. Caso o valor observado de r não superar o valor tabelado
para os valores dados de e , então podemo ao nível de
gnificância
1n 2n s rejeitar 0H
si 05,0=α ;
v. Se um dos valores de e superar 20, podemos utilizar a seguinte
ormal:
1n 2n
aproximação à N
33
Capítulo 3: Caso de duas amostras independentes
)1()( 21
2
21 −++ nnnn
Após a determ
)2(2
5.01
2
2
212121
21
21
−−
−⎟⎟
⎠
⎞
⎜⎜
⎝
⎛
+−
=
nnnnnn
nn
nn
r
z (3.1.1)
inação do valor de z, determina-se a probabilidade associada
através da tabela A. Se o valor p não for maior quep α então devemos rejeitar
Teoricamente, não deveria ocorrer empates nos valores de uma prova de iterações,
que as populações, das quais se extraíram as amostras, deveriam ter distribuições
cont é o a p i bilidade das
mens l n o rr e a r e r s. Portanto,
por vezes, pode originar valores diferentes para
a hipótese nula;
Caso ocorram empates.
por
ínuas. Na aplicação do m todo, p r f lta de rec são ou de sensi
urações pode eventua me te co er mp tes nos dife ent s g upo
r . Assim para abranger todos os
epetir o método para todas as ordens diferentes.
Caso i c e o étodo é
inapl
Exemplo 3.1.1:
de discriminação de brilho) de 21 ratos
norm o número de tentativas de reaprendizagem de 8 ratos. Queremos saber se os dois
imais diferem nas suas taxas de aprendizagem (reaprendizagem).
A segui a t e r r feitas pelos
ratos do grupo g
Tabela 3.1.1:
Ratos A 20 55 29 24 75 56 31 45
casos, deve-se r
chegue a d ferentes de isõ s s bre a hipótese nula, então, este m
icável.
Num estudo destinado a comprovar a teoria da equipotencialidade, Ghiselli comparou o
número de tentativas de aprendizagem (numa tarefa
ais com
grupos de an
nte tabel dá-nos as tenta ivas de apr ndizagem ( eap endizagem)
A e do rupo B:
Ratos B 23 8 24 15 8 6 15 15 21 23 16 15 24 15 21 15 18 14 22 15 14
34
Capítulo 3: Caso de duas amostras independentes
Resolu
s :
difer s
inação de brilho.
Os dois grupos de ratos diferem em relação à taxa de aprendizagem
(reaprendizagem).
A prova a escolher é a prova de Wald-Wolfowitz, pois é uma prova global para a
diferença entre duas amostras. O nível de significância a escolher será
ção:
Formulamos as hipóte es
0H : Não há ença entre os ratos normais e os ratos em período pós-operatório com
lesões corticais, no que diz respeito à aprendizagem (ou reaprendizagem) numa
tarefa de discrim
H :1
01,0=α .
Dispomos por ordem crescente e contamos o número de iterações:
Tabela 3.1.2:
20Valores 6 8 8 14 14 15 15 15 15 15 15 15 16 18
Grupo B B B B B B B B B B B B B B A
Iterações 1 2
Tabel
21 21 22 23 23 24 45 55 56 75
a 3.1.2 (continuação):
Valores 24 24 29 31
Grupo B B B B B B A B A A A A A A
Iterações 3 4 5 6
Neste caso o número de iterações é 61 =r , mas, note-se que há empates entre os dois
grupo
Tabela 3.1.3:
Valores 6 8 8 14 14 15 15 15 15 15 15 15 16 18 20
s, neste caso, teremos que repetir a contagem:
Grupo B B B B B B B B B B B B B B A
Iterações 1 2
35
Capítulo 3: Caso de duas amostras independentes
Tabela 3.1.3 (continuação):
Valores 21 21 22 23 23 24 24 24 29 31 45 55 56 75
Grupo B B B B B B B A A A A A A A
Iterações 3 4
Assim, ficamos com 42 =r .
Dado que 81 =n e 20212 >=n , então não podemos recorrer à tabela F. Para que
possamos calcular a probabilidade associada teremos que fazer uma aproximação à Normal
com o auxilio da fórmula (3.2.1):
Para : Para41 =r 62 =r :
[ ]
)1218()218(
218)21)(8)(2()21)(8)(2(
5,01
218
)21)(8)(2(
4
2
1
−++
−−
−⎟
⎠
⎞
⎜
⎝
⎛
+
+
−
=z
864,3=
[ ]
)1218()218(
218)21)(8)(2()21)(8)(2(
5,01
218
)21)(8)(2(
6
2
2
−++
−−
−⎟
⎠
⎞
⎜
⎝
⎛
+
+
−
=z
908,2=
Recorrendo à Tabela A, calcula-se o valor da probabilidade associada:
Para um 864,31 ≥z , verificamos que
0=p
Para um 908,22 ≥z , verificamos que a
0014,0
a probabilidade é probabilidade é
1 2 =p
Ambas as probabilidades e , são inferiores a1p 2p 01,0=α . Deste modo, concluímos
que os dois grupos de animais diferem significativamente nas suas taxas de aprendizagem
(reaprendizagem).
e gnificância este
método não teria efeito.
Caso, alguma das probabilidades fossem superior do que o nível d si
Vejamos como o SPSS® apresentava o resultado:
36
Capítulo 3: Caso de duas amostras independentes
Output 3.1.1:
Como pod
iterações, calcul a probabilidade associada. A conclusão a tirar seria a
mesma pelo tradicional
Como van
visto que, no m
cálculo de po
3.
Como no teste de iterações de Wald-Wolfowitz, o teste de U de Mann-Whitney (1947) é
baseado na ideia de que um padrão particular, exibido quando X e Y variáveis aleatórias estão
numa única fila postos em ordem crescente, fornece informação sobre a relação entre as suas
populações. Contudo, em vez de basear-se pelo núm
de Mann-Whitney é baseado na magnitude de Y’s em relação com os X’s, digamos que é a
posição dos Y’s numa sequência ordenada.
O objectivo deste teste é comprovar se dois grupos independentes foram ou não
extraídos duma população com a mesma mediana. Para isso, as amostras devem ser
independentes e aleatórias: uma extraída duma população com mediana não conhecida e
outra extraída de outra população com mediana desconhecida . O nível de mensuração
enos ordinal e as duas popul
A hipótese a comprovar é ver se as populações têm a mesma mediana, sendo a
altern
emos constatar, o SPSS® indica-nos o número mínimo e máximo de
ando para cada um
método .
tagem para o SPSS®, é o modo rápido como se calcula as probabilidades,
étodo tradicional, em caso de empates, temos que repetir a ordenação e o
dendo provocar maior número de erros.p ,
2 Teste U de Mann-Whitney
ero total de iterações, o critério do teste
1M
2M
tem que ser pelo m ações devem ter uma distribuição contínua.
ativa, as medianas serem diferentes ou uma maior do que a outra.
37
Capítulo 3: Caso de duas amostras independentes
Método:
s aos valores, em caso de empate, fazer a média dos postos
correspondentes;
a determinar U basta recorrer à fórmula seguinte:
1. Determinar os valores 1n (=número de casos do menor grupo) e 2n ;
2. Dispor em conjunto os valores dos dois grupos, ordenando-os de forma ascendente;
3. Atribuir posto
4. Par
);min( 21 UU=U (3.2.1)
Sendo: 1
11 )1(
R
nn
nnU −211
2
+
+= e UnnU 1212 −=
com s postos atribuídos à amostra 1;
ar a significância do valor de depende de :
ma prova bilateral basta duplicar o valor
nstar na tabela, deve ser
inte tado como
1R = soma do
5. O método para determin 2n
i. Se 82 ≤n , a tabela J dá a probabilidade exacta associada a um valor tão
pequeno quanto o valor de U. Para u
obtido na tabela, Caso o valor de U não co
rpre UnnU −= 21' ;
ii. Se 209 ≤≤ n , é utilizada a tabela K, que dá os valores2 críticos de U para
níveis de significância de 0,001, 0,01, 0,025, 0,05 para um teste unilateral,
duplicando estes valores para u ilateral. Caso o valor observado de
aior do que /2, deve ser interpretado como U’ descrito na alínea
r
Se n pr abilidade deve r c ula atr és d pro ação
is i o al, av o r q a e rm :
ma prova b
U é m 21nn
ante ior;
iii. 202 > , a ob se alc da av e uma a xim
à d tribu ção N rm atr és d valo de z ue é nos d do p la fó ula
12
)1( 2121 ++ nnnn
2
21
−
=
nn
U
z
ostras, expressão utilizada será:
(3.2.2)
Caso ocorram empates, em grandes am
38
Capítulo 3: Caso de duas amostras independentes
⎟⎟
⎠
⎞
−
−
∑T
N
2⎜⎜
⎝
⎛
−
−
=
N
NN
nn
nn
U
z
1)1(
2
3
21
21
onde: 21 nnN += e
12
tt
T
−
= sendo t o número de observaçõe
3
s empatadas para uma dada
posiç
e o valor observado de U tem probabilidade associada não superior a
ão.
αS , rejeitar a
hipótese nula.
Exemplo 3.2.1:
a disciplina de Estatística Aplicada, onde se encontra inscritos alunos do curso de
Matem
Tabela
N
ática (ensino de) e Matemática/Informática, registaram-se as seguintes classificações
numa das frequências:
3.2.1:
Mat. (ensino de) 10.5 16.5 11 9.8 17.1 1.5 14.8 9.9 9.8 10.3 8.7
Mat./Informática 11.4 12.9 10.1 7.9 8.8 12.8
O que se pode conclu édias das ordens das classificações.
Resolução:
ulamos as hipóteses:
ática
Há diferenças entre as médias das ordens (teste bilateral).
pós a contagem do número de casos em ambas as amostras temos:
(3.2.3)
ir acerca das m
Form
0
(ensino de) e de Matemática Informática
H : Não há diferenças entre as médias das ordens das notas dos alunos de Matem
H :1
A
39
Capítulo 3: Caso de duas amostras independentes
40
61 =n e 112 =n
Calculemos U:
Tabela 3.2.2:
1,5 7,9 8,7 8,8 9,8 9,8 9,9 10,1 10,3 10,5 11 11,4 12,8 12,9 14,8 16,5 17,1
E I E I E E E I E E E I I I E E E
1 2 3 4 5,5 5,5 7 8 9 10 11 12 13 14 15 16 17
34)141312842(
2
)16(6
1161 =+++++−
+×
+×=U
32341162 =−×=U 32)32;34min( ==U
Como 9 202 ≤n recorremos à tabela J:≤
Para 61 =n , 112 =n e 05.0=α (bilateral),
temos
m
populaçõ
Vej
Após a introdução dos valores, dá-nos o seguinte resultado:
Output 3.2
: 3=tabeladoU .1
Co o calculadotabelado UU < , podemos concluir que as duas amostras provêem de
es com a mesma média.
amos como podemos resolver este exemplo no SPSS®:
.1:
Capítulo 3: Caso de duas amostras independentes
É claro que existe clara vantagens em utilizar o SPSS®. Pois, dá um quadro resume que
contém o valor exacto da probabilidade, a probabilidade assimptótica e tam ém o valor de U.
Tendo como principal vantagem o pouco tempo gasto para o emprego deste teste.
No Mathematica® coma ajuda da função npmMannWhitneyTest[list1,list2], fica:
Mat
Mat 0
rpm M
b
Ensino = 10.5, 16.5, 11, 9.8, 17.1, 1.5, 14.8, 9.9, 9.8, 10.3, 8.7
Informatica = 11.4, 12.9, 1 .1, 7.9, 8.8, 12.8
MannWhitneyTest MatEnsino, atInformatica
Title: Mann- Whitney Test
Sample Medians: 10.75, 10.3
Test Statistic: 32.
Distribution: Normal Approximation
2 - Sided PValue - > 0.919895
ina-se especificamente a dados de mensuração mínima na escala
ordinal. Esta prova tem como objectivo ver se as populações têm a mesma oscilação, isto é, o
teste de Moses é aplicável quando é previsto que um dos grupos tenha valores altos, e o outro
alores baixos.
deste teste é que não requer que as populações tenha medianas
iguais. Todavia, Moses (1952b) salienta que um teste baseado em medianas ou em postos
médios, por exemplo, o teste de Mann-Whitney, é mais eficiente, devendo, por
conse ialmente útil quando existem
razõe a priori para esperar que determinada condição experimental conduza a escores
extrem ou em outra direcção.
Mé
es são:
eja e o número de casos de controlo e experimentais respectivamente.
ar q eno arbitrário;
Esta função apenas dá um valor aproximado de p.
Podemos concluir que para fazer um teste com maior rigor e rapidez, o SPSS® seria a
melhor escolha, pois o SPPS® calcula o valor exacto.
3.3 Teste de Moses para reacções extremas
O teste de Moses dest
v
A principal vantagem
U
guinte, ser preferido à prova de Moses. Esta última é espec
s
os em uma
todo:
Os passos a seguir para o teste de Mos
S Cn En
1. Antes de reunir os dados deve-se especific Será um número pe uh .
41
Capítulo 3: Caso de duas amostras independentes
2. Reunidos os dados, dispô-los em postos em uma única série conservando a
ntidade do grupo em cada posto;
D t m â n i d s
eliminar os postos mais extremos dos cada extremidade da respectiva
série, isto é,
ide
3. e er inar o valor de s , mbito ou abra gênc a o postos de controlo, apósh
h C ’s em
112 +−= CCsh (3.3.1)
onde, é o posto que corresponde o último grupo de controlo, retirando h valores
corresponde ao primeiro posto do grupo de controlo, retirando h
4. Determinar o valor de
2C
de controlo e 1
valores de controlo;
C
g , excesso do valor observado de sobre ,ou seja,
5. Determinar a probabilidade associada aos dados observados, calculando o valor de
pela fórmula:
hs hnC 2−
)2( hnsg Ch −−= ;
p
( )
⎟⎟
⎠
⎜⎜
⎝ Cn
E
⎞⎛ +
⎟⎟
⎠
⎜⎜
⎝ −⎟⎟
⎠
⎜⎜
⎝=+−≤
∑
EC
EC
Ch
nn
ini
ghnsp 2
⎞⎛ −++⎞⎛ −−+
=
g
i E
ihnhni
0
1222
m caso de ocorrência de empates entre grupos, considerar esses empates de todos
odos possíveis e determinar para cada um deles. A média desses p’s é então
utilizada para a decisão;
6. Se p não superar
pos m
α , rejeitar
xemplo 3.3.1:
s e o
grupo
inutos e o
grau d . o grau 20 significa que a pessoa tem pavor a
ratos.
(3.3.2)
.0H
E
Num estudo para avaliar o grau de medo, perante ratos, escolheu-se dois grupos de
indivíduos. O grupo C, constituído por 7 indivíduos, que trabalha diariamente com rato
E, formado por 6 indivíduos, têm dificuldades em controlar o medo, quando estão
próximos de ratos.
Quer o grupo C quer o grupo E estiveram em contacto com ratos durante 10 m
e medo foi medido numa escala de 0 a 20
Os resultados foram:
42
Capítulo 3: Caso de duas amostras independentes
Tabela 3.3.1:
Grupo C 6 5 10 7 12 3 8
Grupo E 0 4 11 18 9 19
Será que as duas amostras provêem da mesma população?
Resolução:
vidimos em dois casos: o da esquerda com
Formulamos as hipóteses:
0H : Não há diferenças entre o grupo C e o grupo E.
:1H Há diferenças entre os dois grupos.
Di 0=h e o da direita com
po:
Tabela 3.3.2:
Posto 5 11 12 13
1=h .
Dispomos os valores em postos, conservando o gru
Tabela 3.3.3:
Posto 1 2 3 4 5 6 7 8 9 10 11 12 13
Grupo E C E C C C C E C E C E E
1 2 3 4 6 7 8 9 10
Grupo C C C C E C E C E EE C E
Determinamos o valor de g , com 10=hs e
7=Cn :
3)027(10 =×−−=g
Determinamos o valor de g , com 6=hs e
6149 =+−=hs101211 =+−=hs
:7=Cn
1)127(6 =×−−=g
lizando a fórmula 3.3.2:Então uti
( )
⎟⎟
⎠
⎞
⎜⎜
⎝
⎛
⎟⎟
⎞
⎜
⎛ −
⎟
⎞
⎜
⎛ +
∑
753 ii
( )
⎟⎟
⎠
⎞
⎜⎜
⎝
⎛
⎟⎟
⎠
⎞
⎜⎜
⎝
⎛
−
−
⎟⎟
⎞
⎜
⎛ +
∑
31 i
⎠
⎜
⎝=≤
=
7
13
6
9
6
0i
h
i
i
i
sp⎠
⎜
⎝ −⎟
⎠
⎜
⎝=≤
=
7
13
6
h
i
,0=
10
0i i
sp
2168 1795,0=
Sendo , concluímos que, para qualquer um dos casos, não e is05,0=α x te diferenças
entre os grupos C e E, sendo assim da mesma população., as amostras provêem
43
Capítulo 3: Caso de duas amostras independentes
No SPSS®, após a introdução dos valores e escolha do teste, temos o seguinte
resultado:
Output 3.3.1:
Como podemos ver no SPSS®, ele calcula a probabilidade associada para um 1=h (por
e para um 0=h , assim não o precisamos de escolher um h no início do teste.
ematica®, o proc im
ele escolhido)
No Math ed ento a utilizar foi o npmMosesTest, este procedimento
aceita m h escolhi
Prim
Amo
Amo
rpmMosesTest amostra1, amostra2, 1
co o parâmetros as duas amostras, sendo a de controlo a primeira, e o do:
eiramente, criamos as duas listas e de seguida corremos o procedimento:
stra1 = 6, 5, 10, 7, 12, 3, 8
stra2 = 0, 4, 11, 18, 9, 19
h = 1; Sh 6=
Nc = 7; Ne = 6; N = 13
Valor Unilateral de p: 0.179487
Valor Bilateral de p: 0.358974
o podemos verificar, o Mathematica® dá-nos os valores de ambas a probabilidades
e as p
escala de medida pode ser em apenas nominal.
Com
rincipais variáveis do teste. As vantagens deste procedimento são a rapidez e a precisão
dos valores dados.
3.4 Teste da Qui-Quadrado ( 2
χ ) para duas amostras independentes
O objectivo deste teste é de comprovar que dois grupos diferem em relação a
determinada característica e, consequentemente, com respeito à frequência relativa com que
os componentes dos grupos se enquadram nas diversas categorias. Para a comprovação,
contamos o número de casos de cada grupo que recai nas diversas categorias, e comparamos a
proporção de casos de um grupo nas diversas categorias, com a proporção de casos do outro
grupo.
A
44
Capítulo 3: Caso de duas amostras independentes
Método:
Os passos a seguir para o teste são:
1. Enquadrar as frequências observadas numa tabela de contingência . Utilizando
as k colunas para os grupos e as r linhas para as condições. Assim para este teste,
a ( ) de cada célula fazendo o produto dos totais
3. P rar dois casos:
Se
rk ×
2=k ;
ijE2. Determinar a frequência esperad
marginais referentes a cada uma e dividindo-o por N. (N é o total de casos);
ara determinar o valor de χ há que conside2
a fórmula será:
( )
2>r
∑∑
−
=
r k
ijij
E
EO
2
2
χ
= =
= número de casos observados na categoria i no grupo j
o grupo j sob
= número de grupos na classificação
i j ij1 1
ijO
ijE = número de casos esperados na categoria i n 0H
k
r = número de categorias na classificação;
Se 2=r então consideramos a seguinte tabela:
Tabela 3.4.1:
Grupo 1 Grupo 2 Total
Categoria 1 A B A+B
Categoria 2 C D C+D
Total A+C B+D N
Então temos a fórmula:
))()()((
2
2
2
DBCADCBA
N
BCADN
++++
⎟
⎠
⎞
⎜
⎝
⎛
−−
=χ
Esta fórmula é um pouco mais fácil da aplicar do que a fórmula (3.4.1), pois
requer apenas uma divisão. Além disso, tem a principal vantagem de
(3.4.2)
(3.4.1)
45
Capítulo 3: Caso de duas amostras independentes
incorporar uma correcção de continuidade que melhora sensivelmente a
aproximação do 2
χ ;
4. Determinar a significância do valor observado de 2
χ com )1)(1( −−= krgl , com o
auxílio da tab C. Para um teste unilateral basta dividir por dois o nível de
significância indicado. Se a probabilidade indicada na tabela for inferior a
ela
α ,
rejeitar a hipótese nula.
Exemplo 3.4.1:
Um investigador estudou a relação entre os interesses vocacionais e a escolha do
currículo, e a taxa de desistência do curso universitário por parte de estudantes bem dotados.
Os indivíduos observados era no mínimo de 90 pontos
percentuais nos testes de admissão e que haviam resolvido mudar de carreira após a matrícula.
o pesquisador comparou os e lha curricular se manteve na
linha considerada desejável à vista do resultado obtido no Teste Vocacional de Strong (tais
casos sendo considerad como “positivos”) com os estudantes destacados cuja escolha
curricular se processou em sentido diverso do indicado pelo Teste de interesse. A hipótese do
inves da “positiva” acusam maior
frequência de permanência na faculdade ou no curso universitário inicialmente escolhido. Os
valores são dados na seguinte tabela:
Tabel
m estudantes classificados
studantes destacados cuja a esco
os
tigador é que os estudantes cuja escolha foi considera
a 3.4.2:
Positivo Negativo Total
Afastamento 10 11 21
Permanência 46 13 59
Total 56 24 80
Resolução:
Formulamos as hipóteses:
: Não há diferenças entre os dois grupos no que diz respeito à proporção dos
estudantes que permanecem na faculdade.
0H
46
Capítulo 3: Caso de duas amostras independentes
:1H A percentagem de permanência na faculdade é maior que os estudantes cuja a
escolha do currículo foi considerada “positiva”.
Iremos trabalhar com um nível de significância 05,0=α .
Considerando os valores dados pela tabela ficamos com:
)24)(56)(59)(21(
2
80
)46)(11()13)(10(80
2
2
⎟
⎠
⎞
⎜
⎝
⎛
−−
=χ 424,5=
A probabilidade de ocorrência, sob , de com0H 424,52
≥χ 1=gl é
01,0)02,0(
2
1
=<p . Como este valor é inferior a 05,0=α , a decisão é rejeitar . Conclui-
se, pois, que os estudantes bem dotados cuja escolha de currículo foi considerando “positiva”
acusam maior frequência de permanência na universidade do que os estudantes bem dotados
cuja escolha foi considerada “negativa”.
No SPSS® temos o seguinte Output:
Output 3.4.1:
0H
O SPSS® dá-nos o valor de , com e sem o factor de correcção de continuidade e
calcula o valor assimptótico da prob ade associada
2
χ
abilid 009,0=p .
O procedimento para o Mathematica®, que será descrito a seguir, serve só para as
tabelas de contingência . Este procedimento tem a particularidade de ter uma opção para22×
47
Capítulo 3: Caso de duas amostras independentes
a escolha dois tipos de co (1934) , já considerado
na fórmula 3.4.2, e o m ima considerado:
No caso de não escolhermos o método de correcção, o procedimento apenas calcula o
valor de
rrecção de continuidade: o método de Yates
étodo de Haber2
. Vejamos então para o exemplo ac
p sem utilizar um dos factores de correcção:
rpmChiSquare2x2Test 10, 11, 46, 13
Title: Chi Square Test
Distribution: Chi Square
Correction: None
Two- Sided P- Value: 0.00915693
One- Sided P- Value: 0.00457847
rpmChiSquare2x2Test 10, 11, 46, 13 mthd®yates
Title: Chi Square Test
Distribution: Chi Square
Correction: Yates
Two- Sided P- Value: 0.0198649
One- Sided P- Value: 0.00993245
rpmChiSquare2x2Test 10, 11, 46, 13 mthd®haber
Title: Chi Square Test
Distribution: Chi Square
Correction: Haber
Two- Sided P- Value: 0.0125872
One- Sided P- Value: 0.00629361
Qualquer um dos três casos chega à decisão de rejeitar a hipótese nula. Assim
os, que a percentagem de permanência na faculdade é maior que os estudantes cuja a
escolha do currículo foi considerada “pos
concluím
itiva”. Note-se que qualquer dos valores é
semelhante.
atica® está em clara vantagem em relação à utilização da tabela
ou me
Sendo assim o Mathem
smo do SPSS®.
siderando { }2,1,2,1:min === jiOO ij
2
Con temos:
Se entãoOOij 2≤ =D maior múltiplo de 0.5 que é OOij −< ou
se entãoOOij 2> 5.0−−= OOD ij o teste estatístico fica:
))()()((
23
2
DBCADCBA
DN
H
++++
=χ
48
Capítulo 4: Caso de k amostras relacionadas
CAPÍTULO 4: CASO DE K
AMOSTRAS RELACIONADAS
O objectivo principal dos testes que irão ser apresentados, é comprovar a hipótese de
que a
Há
igual tam
pode(m) N grupos pode ser
mensurado sob todas as k condições. Em tais planos, devem-se usar os testes estatísticos aqui
apres
tabela
de contingência.
odo, o teste de Cochran permite investigar quando um conjunto de k proporções
relacionadas difere significativamente.
Método:
Os passos a seguir para o teste são:
1. Para dados dicotom zados, at ir o valo ” a cada “su esso” e o valor “0” a cada
“insucesso”;
2. Dispor os dados numa tabela
s k amostras tenham sido extraídas da mesma população ou de populações idênticas.
dois planos básicos para comprovar k grupos. No primeiro deles, as k amostras de
anho são postas em correspondência de acordo com determinado(s) critério(s) que
afectar os valores das observações. Ou então cada um dos
entados.
4.1 Teste Q de Cochran
O modelo típico para o teste Q de Cochran (1950) envolve um conjunto de 2≥k
tratamentos que são aplicados independentemente para cada N indivíduos. Os resultados de
cada tratamento são guardados como uma variável dicotómica de sucesso e insucesso. Os uns
e zeros (que correspondem ao sucesso e insucesso respectivamente) são dispostos numa
Deste m
i ribu r “1 c
Nk × , com N linhas. N = número de
casos em cada k .
. Determinar o valor Q utilizando a fórmula:
k colunas e
grupos
3
( )
∑ ∑
∑ ∑
= =
= =
−
⎥
⎥
⎦
⎤
⎢
⎢
⎣
⎡
⎟
⎟
⎠
⎞
⎜
⎜
⎝
⎛
−−
= N
i
N
i
ii
k
j
k
j
jj
LLk
GGkk
Q
1 1
2
1
2
1
2
1
(4.1.1)
50
Capítulo 4: Caso de k amostras relacionadas
onde é a soma dos valores das j colunas;
s valores das i linhas.
4. a significância do valor observado de Q pode ser determinada mediante referência à
uadrado com
: jG
L é a soma doi
tabela C, pois Q tem distribuição aproximadamente Qui-Q 1−= kgl .
Se a probabilidade associada à ocorrência, sob H , de um valor tão grande quanto0
um valor observado de Q não supera α , rejeita-se a hipótese nula.
Exemplo 4.1.1:
Cada um dos quatro fãs de futebol criou um s ma para antever os resultados dos
jogos da 1ª liga. Foram escolhidos ao acaso seis jogos, e cada um dos fãs anteviu o resultado
de cada jogo. Os resultados dos prognósticos foram pos num tabela, utilizando “1”
para um prognóstico bem sucedido e “0” para um prognóstico falhado. Os resultados são
apresentados na tabela 4.1.1. Queremos testar a hipótese de que cada fã tem um sistema de
igual efeito para antever os resultados dos jogos com um nível de significância de 5%.
Tabela 4.1.1:
Fãs
iste
dis tos a
Jogos 1 2 3 4 Totais
1 1 1 0 0 2
2 1 1 1 0 3
3 1 1 1 0 3
4 0 1 1 0 2
5 0 1 0 0 1
6 1 1 0 1 3
Totais 4 6 3 1 14
51
Capítulo 4: Caso de k amostras relacionadas
Resolução:
As hipóteses são as seguintes:
: Cada fã tem um sistema de igual efeito para antever os resultados dos jogos de
futebol.
Existe diferenças nos efeitos dos sistemas criados pelos fãs.
Primeiro dispomos os resultados de novo numa tabela, que será apenas uma
modificação da tabela 4.1.1:
Tabela 4.1.2:
Fãs
0H
:1H
Jogos 1 2 3 4 iL 2
iL
1 1 1 0 0 2 4
2 1 1 1 0 3 9
3 1 1 1 0 3 9
4 0 1 1 0 2 4
5 0 1 0 0 1 1
6 1 1 0 1 3 9
jG 4 6 3 1 14 36
2
1jG 6 36 9 1 62
auxílio da fórmula 4.4.1:Então, após o cálculo dos somatórios temos, com o
( )[ ] 8,7
36144
146243
2
=
−×
−××
=Q
Calculamos agora a significância do valor observado, com a ajuda da tabela C:
314 =−=gl
Assim, como 05,002,0 ≤≤ p e 05,0=α , rejeitamos a hipótese, concluindo que existe
diferen feitos dos sistemas criados pelos fãs.ças nos e
52
Capítulo 4: Caso de k amostras relacionadas
No SPSS® temos os seguintes resultados:
Output 4.1.1: Output 4.1.2:
De mas teremos maior certeza de rejeitar a hipótese nula
se activás aior precisão como consta no Output 4.1.2.
No a®, ransQTest:
rpm
facto, p está entre 0,01 e 0,05,
semos a opção de fazer um teste com m
Mathematic utilizaremos a função npmCoch
resultados = 1, 1, 0, 0 , 1, 1, 1, 0 , 1, 1, 1, 0 , 0, 1, 1, 0 , 0, 1,
0, 0 , 1, 1, 0, 1
CochransQTest resultados , mthd®approx
Title: Cochran Q Test
Test Statistic: 7.8
Totals: 4, , 3, 1
tion: Chi quare
Column 6
SDistribu
PValue:
rpmCoch
0.0503311
ransQTest resultados , mthd®exact
Title: Cochran Q Test
Test Statistic: 7.8
Column Totals: 4, 6, 3, 1
Distribution: Exact
PValue: 0.0481771
a tabela na lista “resultados”. Com a opção para approx, obtemos um
valor aproximado de , baseado na distribuição da Qui-Quadrado com três graus
de lib
Foi introduzida
053311,0=p
erdade, com este valor aceitava-se a hipótese nula o que seria um erro. Porém,
rejeitávamos (com )05,0=α se escolhêssemos o método exacto.
53
Capítulo 4: Caso de k amostras relacionadas
Para concluir, o Mathematica® é, de facto, o is indicado para os cálculos, porque dá-
nos os valores com maior precisão, emb re tados originassem respostas
diferentes. Cabe ao investigad
4.2 Teste de Friedman
uando os dados de k amostras correspondentes se apresentam pelo menos em escala
ordinal, o teste de Friedman (1937) é útil para comprovar de que as k amostras tenham sido
extraídas da mesma população.
M
Os p
Dispor os valores numa tabela de dupla entrada com k colunas e N linhas;
3. Determinar a soma dos postos da cada coluna: ;
cular o valor de , pela fórmula:
ma
ora os dois sul
or escolher.
Q
étodo:
assos a seguir para o teste são:
1.
2. Atribuir postos de 1 a k aos valores de cada linha;
jR
2
rχ
( )∑=
+−
+
=
4. Cal
k
2
j)1
jr kNR
kNk 1
2
)1(
(
1
χ
onde:N é o nú
k número de colunas;
soma das ordens na coluna.
5. O método para determinar a probabilidad
associado a valor observado de depende dos tamanhos de N e k:
bela N dá-nos as probabilidades exactas associadas a valores tão grandes
q m observado para k=3 com N de 2 a 9 e para k=4 com N de 2 a 4.
cedidos os valores
ui-
2
3
mero de linhas;
é o
jR a
e de ocorrência sobre a hipótese nula
2
rχ
i. A ta
2
rχuanto u
Caso os valores tenham ex da tabela N, a probabilidade
associada pode ser determinada mediante referência à distribuição Q
Quadrado (Tabela C) com 1−= kgl ;
6. Se a probabilidade obtida pelo método adequado indicado no item 5 não superar α,
ita-se H0.
(4.2.1)
reje
54
Capítulo 4: Caso de k amostras relacionadas
Exemplo 4.2.1:
A fim de avaliar se houve progressão na aprendizagem, um professor reteve as médias
de um grupo de 4 alunos no final de cada trimestre:
Tabela 4.2.1:
Alunos A B C D
1º Trimestre 8 15 11 7
2º Trimestre 14 17 13 10
3º Trimestre 15 17 14 12
Considerando um 05,0=α , que conclusão poderá tirar?
Hipóteses:
: Não houve progressão na aprendizagem ao longo do ano escolar;
Houve progressão ao longo do ano escolar.
Atribuímos os postos através da seguinte tabela e calculamos as somas:
Tabela 4.2.2:
Alunos 1º Trimestre 2º Trimestre 3º Trimestre
Resolução:
0H
:1H
A 1 2 3
B 1 2.5 2.5
C 1 2 3
D 1 2 3
jR 4 8.5 11.5
2
jR 16 72.25 132.25
Assim, fica:
e então4=N 3=k [ ] 125,7)13(4325,13225,7216
434
122
=+××−++×
××
=rχ
55
Capítulo 4: Caso de k amostras relacionadas
56
Com o auxílio da Tabela N temos 042,00046,0 ≤≤ p . Assim, com 05,0=α ,
rejeitamos a hipótese zagem ao longo do
no es
nula, concluindo que houve progressão na aprendi
a colar.
No SPSS®, chegamos à mesma conclusão, pois, dá-nos um 022,0=p .
Output 4.2.1:
pmFriedmanTest = medias
No Mathematica®, dá-nos a aproximação à Qui-Quadrado, sendo o valor mais preciso
do que o SPSS®.
medias = 8, 15, 11, 7, 14, 17, 13, 10, 15, 17, 14, 12
r
Title: Friedman Test
2, 13.5, 14.5Sample Medians: 1
Test Statistic: 7.6
Distribution: ChiSquare
PValue: 0.0223708
Capítulo 5: Caso para k amostras independentes
CAPÍTULO 5: CASO DE K
AMOSTRAS INDEPENDENTES
Na análise de dados de pesquisa, o pesquisador frequentemente precisa decidir se
s valores amostrais quase sempre são um tanto diferentes, e o problema é
deter
populaçõ que podem ser esperadas entre amostras
aleatórias da popu .
O objectivo
da mesma população ou de populações idênticas em relação às médias.
ao nível o
ão os seguintes passos a percorrer:
tos de 1 a N;
terminar o valor de R (soma dos postos) para cada um dos k grupos de postos;
3. Caso não o m c r e u mula:
diversas variáveis independentes devem ser consideradas como proveniente da mesma
população. O
minar se as diferenças amostrais observadas sugerem realmente diferenças entre as
es ou se são apenas variações casuais
mesma lação
5.1 Teste de Kruskal-Wallis
do teste de Kruskal-Wallis (1952) é ver se as diferentes k amostras provêem
O teste supõe que a variável tenha distribuição contínua, e exige mensuração no mínimo
rdinal.
Método:
S
1. Dispor, em postos, as observações de todos os k grupos numa única série,
atribuindo-lhes pos
2. De
corram e pates, alcular o valo de H p la seg inte fór
)1+(3−
j)1 1+
∑(
=
12 k 2
j
=
N
n
R
N
H
onde: = número de amostras;
, número de casos em todas as amostras combinadas;
a das ordens na amostra j (colunas).
a uma delas a média das respectivas ordens. O
valor de pates, sendo assim, é necessário introduzir um
factor de correcção. Deste modo, para o calculo de H deve-se utilizar a fórmula:
(5.1.1)
N j
k
jn = número de casos na amostra j
∑= jnN
jR = som
Se houver empates, atribui-se a cad
H é influenciado pelos em
57
Capítulo 5: Caso para k amostras independentes
NN
T
R
H
k
−
+ =
2
1
2
o en n me se s m s um o de valores
em s);
H depende do
tamanho de k e do tamanho dos grupos:
i. Se e
N +(3
njN(N j
j
−3
−
∑1
=
∑)1 1
)
1
nde: T = tt −3
(s do o ú ro de ob rvaçõe e patada n grup
patado
4. O método para determinar a significância do valor observado de
3=k 5,, 321 ≤nnn
e associada, sob
, pode-se utilizar a tabela O para determinar a
probabilidad , de um H tão grande quanto o observado;
ii. Em outros casos, a significância de um valor tão grande quanto o valor
0H
observado de H pode ser determinado mediante referência à tabela C, com
1−= kgl ;
5. Se a probabilidade associada ao valor observado de H não superar o nível de
significância previamente fixado, rejeitar em favor de
lo 5.1.1:
Em 1996 nas semifinais da corrida de obstáculos a cavalo femininos de 400 metros os
tempos foram os seguintes:
Tabela 5.1.1:
Atleta 1 54.88 54.96 55.91 55.99 56.67 57.29
0H 1H .
Exemp
Atleta 2 54.67 54.87 54.95 56.27 58.33 81.99
Atleta 3 55.66 56.46 56.74 57.86 58.90 59.56
Utilize o teste de Kruskal-Wallis, com 05,0=α , para testar se existe diferenças entre as
atletas.
Resolução:
As hipóteses a testar são:
: Não há diferenças entre as atletas;
Há diferenças entre as atletas.
Dispomos os postos consoante os dados:
5 1( . .2)
0H
:1H
58
Capítulo 5: Caso para k amostras independentes
Tabela 5.1.
Atleta 1
Posto 3
2:
54.88 54.96 55.91 55.99 56.67 57.29
471 =R
3 5 7 8 11 1
Atleta 2
Posto
54.67
1 2 4 9 15 18
54.87 54.95 56.27 58.33 81.99
492 =R
Atleta 3
Posto
55.66
6
56.46
10
56.74
12
57.86
14
58.90
16
59.56
17
753 =R
Como não há empates, calculamos H pela fórmula 5.1.1:
85, 42
6
75
6
49
6)18(
2
=+−=H
Output 5.1.1:
)118(3
4712
⎢
⎡
)118( ⎣+
2
⎥
⎤2
+
⎦
+
A partir da tabela C, observamos que o valor de p está entre 0,3 e 0,2, concluindo, a um
nível de significância de 0,05, que não há diferenças entre as atletas.
No SPSS temos o mesmo resultado mas com maior rigor e rapidez, pois sabemos agora
que 24,0=p :
No Mathematica® o resultado apresenta-se com maior número de casas decimais:
rpmKruskalWallisTest tabela
Title: Kruskal
Sample Medi
Wallis Test
ans: 55.9, 55.61, 57.3
Test Statistic: 2.8538
Distribution: Chi Square
PVa ue - > 0.240052l
59
Capítulo 6: Medidas de Correlação
CAPITULO 6: MEDIDAS DE CORRELAÇÃO
6.1 Coeficiente de Correlação por postos de Kendall: τ
Suponhamos que um número de alunos está classificado por postos de acordo com as
suas habilidades em matemática e em música. A seguinte tabela mostra os valores de cada
aluno
B C D E F G H I J
designado por letras:
Tabela 6.1.1:
Aluno: A
Matemática: 7 4 3 10 6 2 9 8 1 5
Música: 5 7 3 1 9 6 2 8 410
Queremos saber se há alguma relação entre a habilidade na matemática e na música.
Observando os resultados da tabela anterior, vemos que a concordância entre eles está longe
de ser perfeita, mas alguns alunos ocupam a mesma ou perto da mesma posição entre as duas
disciplinas. Podemos ver a correspondência mais facilmente se na tabela for dada uma ordem
natural aos resultados de matemática:
Aluno: I F C B J E A H G D
Tabela 6.1.2:
Matemática: 1 2 3 4 5 6 7 8 9 10
Música: 8 9 3 7 4 1 5 2 6 10
intensidade da correlação dos postos. esta medida (que será um coeficiente que
designamos por
O que queremos saber é uma medida de correspondência entre estas duas variáveis, ou
medir a
τ ) deve ter as seguintes propriedades:
Se a correspondência entre os postos for perfeita, por exemplo, se todos os indivíduos
tiverem o mesmo posto nas duas disciplinas, τ deve ser +1, indicando uma correlação
perf
S
eita positiva;
e houver uma discordância perfeita, por exemplo, se um dos postos for o inverso do
outro, τ deve ser –1, indicando uma correlação perfeita negativa;
Se houver um crescime lo dnto do va r e τ en e , o deve corresponder a um
acré
tre –1 1 entã
scimo na relação entre as duas variáveis.
60
Capítulo 6: Medidas de Correlação
Consideremos qualquer par de a por exemplo, o par AB. Os seus
ostos, 7 e 4, ocorrem em ordem inversa (a ordem natural 1,...,10 é a ordem directa) e
consequentemente atribu em directa,
deveríamos atribuir +1. Na segunda variável (música) no par AB os postos estão em ordem
directa, deste modo, atribuímos +1.
cada par áveis estavam (+1) ou não
(-1) i i
O m
lunos da tabela 6.1.1,
p
ímos o valor a este par –1. Se o par estivesse em ord
Agora, multiplicamos os dois valores do par que dá (-1)(+1)=-1. É evidente que para
os valores seria +1 e –1, que significaria que ambas as vari
gua s em termos de ordem.
esmo procedimento é feito para todos os 45 pares.
O total de resultados positivos são 21=P e os negativos são 24−=− Q . Adicionando
mos o resultado final 3os dois te −=S .
os postos são idênticos emos postos são idênticos emSe cada um, e se os 45 valores forem positivos então o valor
máxi
e cada um, e se os 45 valores forem positivos então o valor
máximo de S é 45. Portanto calculamos o valormo de S é 45. Portanto calculamos o valor τ como:
07,0
45possívelmáximoResultado
−=−=
O valor próximo de zero indica que existe uma correlação muito pequena entre as duas
3actualResultado
Consideremos o caso geral. Se tivermos duas variáveis com n valores para comparar. O
número de pares para comparar é
variáveis.
( )1
22⎠⎝
1
=⎟⎟
⎞
⎜⎜
⎛
nn
n
. Este é o número máximo de resultados
possíveis. Se é a soma dos resultados obtidos, então definimos o coeficiente de correlação
como:
−
S
)1( −nn
2
=
S
τ
atemática) está na ordem
natur da
4 1 5 2 6 10
Existe um modo prático de determinar o valor de S (número de resultados positivos):
Considerando a tabela 6.1.2. em que a primeira variável (m
al, a segun variável apresenta a seguinte sequência:
8 9 3 7
Considerando o primeiro valor, 8, observamos que a direita existen dois valores
maiores. Então contribui-se para P o valor +2. Tendo em atenção o 9, encontramos, à direita,
a contribuição de +1 para P e assim sucessivamente. Assim temos o valor de P que é
(6.1.1)
61
Capítulo 6: Medidas de Correlação
21122431512 =++++++++=P
(6.1.2)
à vari bém à variável Y postos de 1 a n.
Note-se que na tabela 6.1.1 os postos já foram atribuídos;
m na ordem
natural. No exemplo acima referido será a tabela 6.1.2;
ervar a ocorrência dos postos de Y quando os postos de X se acham na ordem
natural. Determinar o valor de S (soma dos resultados de todos os pares) pelo
processo acima descrito;
4. Se não há empates, aplicar a fórmula 6.1.1.
Em caso de haver observações empatadas, atribuímos às observações empatadas a média
dos postos que lhe caberiam se não houvesse empate.
m
consequentemente,
⎟⎟
⎠
⎞
⎜⎜
⎝
⎛
−=
2
2
n
PS
Método:
1. Atribuir postos de 1 a n ável X. Atribuir tam
2. Ordenar os n indivíduos de maneira que os postos de X se apresenta
3. Obs
O efeito dos e pates consiste em modificar o denominador da fórmula 6.1.1. Neste
caso temos:
( ) ( ) yx TnnTnn
S
−−−−
=
1
2
1
2
τ (6.1.3)
11
onde: ∑ −= )1(2
1
ttTx , t sendo o número de observações empatadas em cada grupo
de empates na variável X.
∑ −= )1(2y
empates na v
1
ttT , t sendo número de observações empatadas em cada grupo de
ariável Y.
n indivíduos constituem uma amostra aleatória de alguma população, pode-se
comp
Se os
rovar se o valor observado de τ indica existência de associação entre as variáveis X e Y
na população. O método depende do tamanho de n:
Para 10. a tabela Q dá a probabilidade associada (unilateral) a um valor tão
grande quanto um S observado;
. Para n>10, pode-se calcular o valor de z associado a
≤n1.
2 pela fórmula:τ
62
Capítulo 6: Medidas de Correlação
( )
( )
52 +n
z =
τ
(6.1.4)
19 −nn
A tabela A dá a probabilidade associada a um valor tão grande quanto um z observado.
Se o valor de p não superar α , 0H pode ser rejeitada.
Retomando o exemplo da tabela 6.1.1, vejamos o que acontece no SPSS®:
Output 6.1.1:
O coeficiente (τ ) é dado com maior precisão e, claro, com rapidez. O SPSS® também
existência ou não de associação entre as variáveis. Neste caso,
dá-nos o valor da probabilidade associada, assim podemos comprovar se o coeficiente indica
α>p , sendo ele de 0.05,
podemos concluir que o coeficiente indica existência de associação.
O Mathematica®, com a função KendallRankCorrelation, dá-nos apenas o coeficiente,
mas é neste software que consegue-se m ior precisão
N KendallRankCorrelation 7, 4, 3, 10, 6, 2, 9, 8, 1, 5, 5, 7, 3, 10,
1, 9, 6, 2, 8, 4
a
- 0.0666667
63
Capítulo 6: Medidas de Correlação
6.2 Coeficiente de Correlação por postos de Spearman: Sr
É uma medida de associação que exige que ambas as variáveis se apresentem em escala
ordinal, de modo que os objectos ou indivíduos em estudo possam dispor-se por postos em
duas séries ordenadas.
Consideremos a tabela 6.1.1, vamos subtrair os postos da música pelos de matemática e
amostrar os resultados na seguinte tabela:
Tabela 6.2.1:
Aluno: A B C D E F G H I J
Matemática: 7 4 3 10 6 2 9 8 1 5
Música: 5 7 3 10 1 9 6 2 8 4
id 2 -3 0 0 5 -7 3 6 -7 1
2
id 4 9 0 0 25 49 9 36 49 1
O somatório das diferenças id deve dar zero (serve como ferramenta de verificação),
Também na tabela mostra o quadrado das diferenças. Denotando o som
porque é a soma das diferenças de duas quantidades que cada uma delas vai de 1 a 10.
atório destas
diferenças por ∑=
iciente de Spearman como
n
i
id
0
definimos o coef
2
nn
d
r
n
i
i
−=
∑
s
−
=
3
Da qual, aplicada ao exemplo, fica
0
2
6
1
( )
(6.2.1)
103,0
149369492500946
1 −=
10103
−
+++++++++
−=rS
Método:
postos a variável X, de 1 a n. O mesmo para a variável Y;
2. Determinar o valor das diferenças de cada indivíduo e elevá-lo ao quadrado (Como
mostrado na tabela 6.2.1);
3. Calcular aplicando a fórmula (6.2.1).
1. Dispor em
Sr
64
Capítulo 6: Medidas de Correlação
Caso haja empates: Quando a proporção de empates na variável X ou na var é
grande, deve-se incorporar um factor de correcção
iável Y
12
observações
3
tt
T
−
= , onde t é o número de
empatadas em determinado posto. Assim, temos a fórmula de para o caso de
empa
sr
tes:
∑ ∑ 22
2 yx
∑ ∑∑ =
−+
= 1
222
dyx
r
n
i
i
S
nde:
(6.2.2)
o ∑ ∑−
−
= x
12
T
nn
x2
e
3
∑ ∑−
−
= y
12
em que ∑ yxT ou é o somatório sobre os vários valores de T para todos os grupos de
observações empatadas.
Se os indivíduos constituem uma amostra aleatório de uma população, pode-se
Y na população. O método dep
T
nn
y2
comprovar se o valor observado de indica a existência de associação entre as variáveis X e
ende do tamanho de n:
valores críticos de para níveis de significância
0,05 e 0,01 (teste unilateral).
3
Sr
1. Para n de 4 a 30, a tabela P, dá os Sr
2. Para 10n , pode-se determinar a significância de um valor tão grande quanto um
Sr observado calcula-se o valor de t associado aquele valor, pela fórmula:
≥
)2(2
2
−≈
−
= n
S
S t
n
rt
Em seguida determina-se a sign
1− r
ificância do valor com o auxilio da tabela B.
o valor calculado anteriormente:
Output 6.2.1:
(6.2.2)
Através do SPSS®, constatamos o mesm
65
Capítulo 6: Medidas de Correlação
É também apresentado a significância do coeficiente que, neste caso, com um 05,0=α ,
podemos concluir que o valor indica a existência de associação entre as variáveis.
No Mathematica® apenas é fornecido o coeficiente, mas com maior número de casas
decimais:
N SpermanRankCorrelation 7, 4, 3, 10, 6, 2, 9, 8, 1, 5, 5, 7, 3, 10,
1, 9, 6, 2, 8, 4
- 0.10303
6.3 Coeficiente de Concordância de Kendall:
Já conhecemos dois coeficientes (
W
τ e Sr ) para a determinação da concordância entre
dois conjuntos de postos. Suponhamos que temos k conjuntos de postos, poderia parecer
razoá
k
tomar va
lo de
Método:
número de juízes classificadores. Dispor os postos observados numa tabela
vel determinar os coeficientes entre todos os pares possíveis de postos e então calcular a
média entre eles para saber o grau de concordância das k amostras. Adoptando tal método,
teremos que calcular ⎟
⎞
⎜
⎛k
coeficientes de correlação de postos o que seria impraticável se⎟
⎠
⎜
⎝2
lores muito grandes.
O cálcu W é muito mais simples:
1. Se n é o número de objectos ou indivíduos a serem classificados em postos, e k o
nk × ;
2. Para cada indivíduo, ou objecto, determinar , soma dos postos atribuídos àquele
indivíduo pelos k juízes;
pela fórmula seguinte:
jR
3. Determinar S
∑=
=
⎟⎟
⎟
⎟
⎠
⎜⎜
⎜
⎜
⎝
−=
n
j
j
j
j
n
RS
1
1
4. Calcular o valor de W utilizando a fórmula:
∑ ⎟
⎞
⎜
⎛ n
R
2
(6.3.1)
(6.3.2)
)(
12
1 32
nnk
S
W
−
=
66
Monograf01estat nparamt bom amanha
Monograf01estat nparamt bom amanha
Monograf01estat nparamt bom amanha
Monograf01estat nparamt bom amanha
Monograf01estat nparamt bom amanha
Monograf01estat nparamt bom amanha
Monograf01estat nparamt bom amanha
Monograf01estat nparamt bom amanha
Monograf01estat nparamt bom amanha
Monograf01estat nparamt bom amanha
Monograf01estat nparamt bom amanha
Monograf01estat nparamt bom amanha
Monograf01estat nparamt bom amanha
Monograf01estat nparamt bom amanha
Monograf01estat nparamt bom amanha
Monograf01estat nparamt bom amanha
Monograf01estat nparamt bom amanha
Monograf01estat nparamt bom amanha
Monograf01estat nparamt bom amanha
Monograf01estat nparamt bom amanha
Monograf01estat nparamt bom amanha
Monograf01estat nparamt bom amanha
Monograf01estat nparamt bom amanha
Monograf01estat nparamt bom amanha
Monograf01estat nparamt bom amanha
Monograf01estat nparamt bom amanha
Monograf01estat nparamt bom amanha
Monograf01estat nparamt bom amanha
Monograf01estat nparamt bom amanha
Monograf01estat nparamt bom amanha
Monograf01estat nparamt bom amanha
Monograf01estat nparamt bom amanha
Monograf01estat nparamt bom amanha
Monograf01estat nparamt bom amanha
Monograf01estat nparamt bom amanha
Monograf01estat nparamt bom amanha
Monograf01estat nparamt bom amanha
Monograf01estat nparamt bom amanha
Monograf01estat nparamt bom amanha
Monograf01estat nparamt bom amanha
Monograf01estat nparamt bom amanha
Monograf01estat nparamt bom amanha
Monograf01estat nparamt bom amanha
Monograf01estat nparamt bom amanha
Monograf01estat nparamt bom amanha
Monograf01estat nparamt bom amanha
Monograf01estat nparamt bom amanha
Monograf01estat nparamt bom amanha
Monograf01estat nparamt bom amanha
Monograf01estat nparamt bom amanha
Monograf01estat nparamt bom amanha
Monograf01estat nparamt bom amanha
Monograf01estat nparamt bom amanha

Más contenido relacionado

La actualidad más candente

Aula 6 - Educação física
Aula 6 - Educação físicaAula 6 - Educação física
Aula 6 - Educação físicaCaroline Godoy
 
Teste de hipoteses
Teste de hipotesesTeste de hipoteses
Teste de hipoteseshenrique2016
 
Teste de hipóteses - paramétricos
Teste de hipóteses - paramétricosTeste de hipóteses - paramétricos
Teste de hipóteses - paramétricosRodrigo Rodrigues
 
Apostila de quimica analitica quantitativa ricardo bastos cunha
Apostila de quimica analitica quantitativa   ricardo bastos cunhaApostila de quimica analitica quantitativa   ricardo bastos cunha
Apostila de quimica analitica quantitativa ricardo bastos cunhaWendel Oliveira
 
Lista de exercícios Calculos estatísticos
Lista de exercícios Calculos estatísticosLista de exercícios Calculos estatísticos
Lista de exercícios Calculos estatísticosTamires Tah
 
0 Aula De ValidaçãO
0   Aula De ValidaçãO0   Aula De ValidaçãO
0 Aula De ValidaçãOAlvaro Neto
 
Seminário sobre Validação 2003
Seminário sobre Validação 2003Seminário sobre Validação 2003
Seminário sobre Validação 2003Adriana Quevedo
 
Teste de hipótese & P-value
Teste de hipótese & P-valueTeste de hipótese & P-value
Teste de hipótese & P-valueMatias Romário
 
1 introdução e variáveis aletórias
1   introdução e variáveis aletórias1   introdução e variáveis aletórias
1 introdução e variáveis aletóriasFernando Lucas
 
Apostila de quimica analitica quantitativa ricardo bastos
Apostila de quimica analitica quantitativa   ricardo bastos Apostila de quimica analitica quantitativa   ricardo bastos
Apostila de quimica analitica quantitativa ricardo bastos Janaína Casimiro de Souza
 

La actualidad más candente (15)

Testes hipoteses introducao
Testes hipoteses introducaoTestes hipoteses introducao
Testes hipoteses introducao
 
Aula 6 - Educação física
Aula 6 - Educação físicaAula 6 - Educação física
Aula 6 - Educação física
 
Testes de hipoteses
Testes de hipotesesTestes de hipoteses
Testes de hipoteses
 
Teste de hipoteses
Teste de hipotesesTeste de hipoteses
Teste de hipoteses
 
Teste de hipóteses - paramétricos
Teste de hipóteses - paramétricosTeste de hipóteses - paramétricos
Teste de hipóteses - paramétricos
 
Apostila de quimica analitica quantitativa ricardo bastos cunha
Apostila de quimica analitica quantitativa   ricardo bastos cunhaApostila de quimica analitica quantitativa   ricardo bastos cunha
Apostila de quimica analitica quantitativa ricardo bastos cunha
 
Exerccios aula13
Exerccios aula13Exerccios aula13
Exerccios aula13
 
Lista de exercícios Calculos estatísticos
Lista de exercícios Calculos estatísticosLista de exercícios Calculos estatísticos
Lista de exercícios Calculos estatísticos
 
Tópico 3 Testes de Hipóteses - 2 amostras
Tópico 3   Testes de Hipóteses - 2 amostrasTópico 3   Testes de Hipóteses - 2 amostras
Tópico 3 Testes de Hipóteses - 2 amostras
 
0 Aula De ValidaçãO
0   Aula De ValidaçãO0   Aula De ValidaçãO
0 Aula De ValidaçãO
 
Seminário sobre Validação 2003
Seminário sobre Validação 2003Seminário sobre Validação 2003
Seminário sobre Validação 2003
 
Teste de hipótese & P-value
Teste de hipótese & P-valueTeste de hipótese & P-value
Teste de hipótese & P-value
 
1 introdução e variáveis aletórias
1   introdução e variáveis aletórias1   introdução e variáveis aletórias
1 introdução e variáveis aletórias
 
Apostila de quimica analitica quantitativa ricardo bastos
Apostila de quimica analitica quantitativa   ricardo bastos Apostila de quimica analitica quantitativa   ricardo bastos
Apostila de quimica analitica quantitativa ricardo bastos
 
Análise de Sobrevivência
Análise de SobrevivênciaAnálise de Sobrevivência
Análise de Sobrevivência
 

Destacado

Resultados Senado Abril 2011
Resultados Senado Abril 2011Resultados Senado Abril 2011
Resultados Senado Abril 2011PentamarketinG
 
American Red Cross Sign Powerpoint Template
American Red Cross Sign Powerpoint TemplateAmerican Red Cross Sign Powerpoint Template
American Red Cross Sign Powerpoint Templatewww.slideworld.com
 
Plataformas de Educación Virtual
Plataformas de Educación VirtualPlataformas de Educación Virtual
Plataformas de Educación VirtualIUTVAL
 
Quadriláteros
QuadriláterosQuadriláteros
QuadriláterosElaine2424
 
Ростислав Чайка "StartUp founder's mistakes
Ростислав Чайка "StartUp founder's mistakesРостислав Чайка "StartUp founder's mistakes
Ростислав Чайка "StartUp founder's mistakesLviv Startup Club
 
Eres capaz de reconocer a alguien
Eres capaz de reconocer a alguienEres capaz de reconocer a alguien
Eres capaz de reconocer a alguienjoan vallmy
 
Como el Spray de Panic Cambia su Aura.
Como el Spray de Panic Cambia su Aura.Como el Spray de Panic Cambia su Aura.
Como el Spray de Panic Cambia su Aura.frances fox inc.
 
Normal superior del distrito de barranquilla
Normal superior del distrito de barranquillaNormal superior del distrito de barranquilla
Normal superior del distrito de barranquillaheisa
 
มนุษย์ทุกคนมีสิทธิที่จะมีชีวิต
มนุษย์ทุกคนมีสิทธิที่จะมีชีวิตมนุษย์ทุกคนมีสิทธิที่จะมีชีวิต
มนุษย์ทุกคนมีสิทธิที่จะมีชีวิตDMS Library
 

Destacado (20)

Ofimática
OfimáticaOfimática
Ofimática
 
Resultados Senado Abril 2011
Resultados Senado Abril 2011Resultados Senado Abril 2011
Resultados Senado Abril 2011
 
Jardim Romântico
Jardim RomânticoJardim Romântico
Jardim Romântico
 
American Red Cross Sign Powerpoint Template
American Red Cross Sign Powerpoint TemplateAmerican Red Cross Sign Powerpoint Template
American Red Cross Sign Powerpoint Template
 
14 De Agostoo Escobar
14 De Agostoo Escobar14 De Agostoo Escobar
14 De Agostoo Escobar
 
Limites 1 mayer
Limites 1 mayerLimites 1 mayer
Limites 1 mayer
 
Plataformas de Educación Virtual
Plataformas de Educación VirtualPlataformas de Educación Virtual
Plataformas de Educación Virtual
 
Rastrear frete DHL
Rastrear frete DHLRastrear frete DHL
Rastrear frete DHL
 
Quadriláteros
QuadriláterosQuadriláteros
Quadriláteros
 
Ростислав Чайка "StartUp founder's mistakes
Ростислав Чайка "StartUp founder's mistakesРостислав Чайка "StartUp founder's mistakes
Ростислав Чайка "StartUp founder's mistakes
 
Diapo bn
Diapo bnDiapo bn
Diapo bn
 
Eres capaz de reconocer a alguien
Eres capaz de reconocer a alguienEres capaz de reconocer a alguien
Eres capaz de reconocer a alguien
 
Como el Spray de Panic Cambia su Aura.
Como el Spray de Panic Cambia su Aura.Como el Spray de Panic Cambia su Aura.
Como el Spray de Panic Cambia su Aura.
 
img-140211114508
img-140211114508img-140211114508
img-140211114508
 
Normal superior del distrito de barranquilla
Normal superior del distrito de barranquillaNormal superior del distrito de barranquilla
Normal superior del distrito de barranquilla
 
Proteinas
ProteinasProteinas
Proteinas
 
มนุษย์ทุกคนมีสิทธิที่จะมีชีวิต
มนุษย์ทุกคนมีสิทธิที่จะมีชีวิตมนุษย์ทุกคนมีสิทธิที่จะมีชีวิต
มนุษย์ทุกคนมีสิทธิที่จะมีชีวิต
 
Ppt
PptPpt
Ppt
 
Tercer día cc 2011
Tercer día cc 2011Tercer día cc 2011
Tercer día cc 2011
 
Franquia
FranquiaFranquia
Franquia
 

Similar a Monograf01estat nparamt bom amanha

IESB Logística Empresarial - Métodos Quantitativos - Volume II
IESB Logística Empresarial - Métodos Quantitativos - Volume IIIESB Logística Empresarial - Métodos Quantitativos - Volume II
IESB Logística Empresarial - Métodos Quantitativos - Volume IIRafael José Rorato
 
AMD - Aula n.º 1 - testes 1 amostra (1).pptx
AMD - Aula n.º 1 - testes 1 amostra (1).pptxAMD - Aula n.º 1 - testes 1 amostra (1).pptx
AMD - Aula n.º 1 - testes 1 amostra (1).pptxNunoSilva599593
 
Aula 5 - Educação física
Aula 5 - Educação físicaAula 5 - Educação física
Aula 5 - Educação físicaCaroline Godoy
 
Aula 4 - Sistemas de informação
Aula 4 - Sistemas de informaçãoAula 4 - Sistemas de informação
Aula 4 - Sistemas de informaçãoCaroline Godoy
 
Aula6-TestesdeHipoteses2 (1).pptx
Aula6-TestesdeHipoteses2 (1).pptxAula6-TestesdeHipoteses2 (1).pptx
Aula6-TestesdeHipoteses2 (1).pptxDealthCraft
 
Análise de variância.pptx
Análise de variância.pptxAnálise de variância.pptx
Análise de variância.pptxAndre142201
 
Cap4 - Parte 6 - Distribuições Discretas Exercicios Resolvidos
Cap4 - Parte 6 - Distribuições Discretas Exercicios ResolvidosCap4 - Parte 6 - Distribuições Discretas Exercicios Resolvidos
Cap4 - Parte 6 - Distribuições Discretas Exercicios ResolvidosRegis Andrade
 
Aula 3 - Sistemas de informação
Aula 3 - Sistemas de informaçãoAula 3 - Sistemas de informação
Aula 3 - Sistemas de informaçãoCaroline Godoy
 
Curso #H4A - Módulo 5
Curso #H4A - Módulo 5Curso #H4A - Módulo 5
Curso #H4A - Módulo 5Mgfamiliar Net
 
Hipóteses e Estimativa do tamanho da amostra (aula 6)
Hipóteses e Estimativa do tamanho da amostra (aula 6)Hipóteses e Estimativa do tamanho da amostra (aula 6)
Hipóteses e Estimativa do tamanho da amostra (aula 6)Sandra Lago Moraes
 
AULA 9 10 11 - TESTES DE HIPÓTESE COM UMA AMOSTRA - ALUNOS.pdf
AULA 9 10 11 - TESTES DE HIPÓTESE COM UMA AMOSTRA - ALUNOS.pdfAULA 9 10 11 - TESTES DE HIPÓTESE COM UMA AMOSTRA - ALUNOS.pdf
AULA 9 10 11 - TESTES DE HIPÓTESE COM UMA AMOSTRA - ALUNOS.pdfCecliaMelo18
 
ESTATÍSTICA-BÁSICA-SUMÁRIO-1a-PARTE-REVISADO-2013.pdf
ESTATÍSTICA-BÁSICA-SUMÁRIO-1a-PARTE-REVISADO-2013.pdfESTATÍSTICA-BÁSICA-SUMÁRIO-1a-PARTE-REVISADO-2013.pdf
ESTATÍSTICA-BÁSICA-SUMÁRIO-1a-PARTE-REVISADO-2013.pdfssuserac1de6
 
Estatistica inferencial
Estatistica inferencial Estatistica inferencial
Estatistica inferencial Caio da Silva
 
Treinamento Causalidade
Treinamento CausalidadeTreinamento Causalidade
Treinamento CausalidadeTABLE PARTNERS
 

Similar a Monograf01estat nparamt bom amanha (20)

IESB Logística Empresarial - Métodos Quantitativos - Volume II
IESB Logística Empresarial - Métodos Quantitativos - Volume IIIESB Logística Empresarial - Métodos Quantitativos - Volume II
IESB Logística Empresarial - Métodos Quantitativos - Volume II
 
aula estatistica.ppt
aula estatistica.pptaula estatistica.ppt
aula estatistica.ppt
 
AMD - Aula n.º 1 - testes 1 amostra (1).pptx
AMD - Aula n.º 1 - testes 1 amostra (1).pptxAMD - Aula n.º 1 - testes 1 amostra (1).pptx
AMD - Aula n.º 1 - testes 1 amostra (1).pptx
 
Aula 5 - Educação física
Aula 5 - Educação físicaAula 5 - Educação física
Aula 5 - Educação física
 
Aula 4 - Sistemas de informação
Aula 4 - Sistemas de informaçãoAula 4 - Sistemas de informação
Aula 4 - Sistemas de informação
 
Aula6-TestesdeHipoteses2 (1).pptx
Aula6-TestesdeHipoteses2 (1).pptxAula6-TestesdeHipoteses2 (1).pptx
Aula6-TestesdeHipoteses2 (1).pptx
 
Teste hip facil
Teste hip facilTeste hip facil
Teste hip facil
 
Aula inferencia
Aula inferenciaAula inferencia
Aula inferencia
 
Análise de variância.pptx
Análise de variância.pptxAnálise de variância.pptx
Análise de variância.pptx
 
Valor de p
Valor de pValor de p
Valor de p
 
Cap4 - Parte 6 - Distribuições Discretas Exercicios Resolvidos
Cap4 - Parte 6 - Distribuições Discretas Exercicios ResolvidosCap4 - Parte 6 - Distribuições Discretas Exercicios Resolvidos
Cap4 - Parte 6 - Distribuições Discretas Exercicios Resolvidos
 
Aula 3 - Sistemas de informação
Aula 3 - Sistemas de informaçãoAula 3 - Sistemas de informação
Aula 3 - Sistemas de informação
 
Curso #H4A - Módulo 5
Curso #H4A - Módulo 5Curso #H4A - Módulo 5
Curso #H4A - Módulo 5
 
Hipóteses e Estimativa do tamanho da amostra (aula 6)
Hipóteses e Estimativa do tamanho da amostra (aula 6)Hipóteses e Estimativa do tamanho da amostra (aula 6)
Hipóteses e Estimativa do tamanho da amostra (aula 6)
 
Teste hipot 2017
Teste hipot 2017Teste hipot 2017
Teste hipot 2017
 
AULA 9 10 11 - TESTES DE HIPÓTESE COM UMA AMOSTRA - ALUNOS.pdf
AULA 9 10 11 - TESTES DE HIPÓTESE COM UMA AMOSTRA - ALUNOS.pdfAULA 9 10 11 - TESTES DE HIPÓTESE COM UMA AMOSTRA - ALUNOS.pdf
AULA 9 10 11 - TESTES DE HIPÓTESE COM UMA AMOSTRA - ALUNOS.pdf
 
Ipaee capitulo 3_slides_3
Ipaee capitulo 3_slides_3Ipaee capitulo 3_slides_3
Ipaee capitulo 3_slides_3
 
ESTATÍSTICA-BÁSICA-SUMÁRIO-1a-PARTE-REVISADO-2013.pdf
ESTATÍSTICA-BÁSICA-SUMÁRIO-1a-PARTE-REVISADO-2013.pdfESTATÍSTICA-BÁSICA-SUMÁRIO-1a-PARTE-REVISADO-2013.pdf
ESTATÍSTICA-BÁSICA-SUMÁRIO-1a-PARTE-REVISADO-2013.pdf
 
Estatistica inferencial
Estatistica inferencial Estatistica inferencial
Estatistica inferencial
 
Treinamento Causalidade
Treinamento CausalidadeTreinamento Causalidade
Treinamento Causalidade
 

Más de Dionisio Ussaca

Más de Dionisio Ussaca (13)

Modulo 1-matematica
Modulo 1-matematicaModulo 1-matematica
Modulo 1-matematica
 
Modulo 2-matematica
Modulo 2-matematicaModulo 2-matematica
Modulo 2-matematica
 
Modulo 3-matematica
Modulo 3-matematicaModulo 3-matematica
Modulo 3-matematica
 
Modulo 4-matematica
Modulo 4-matematicaModulo 4-matematica
Modulo 4-matematica
 
Modulo5 matematica
Modulo5 matematicaModulo5 matematica
Modulo5 matematica
 
Aula 01
Aula 01Aula 01
Aula 01
 
Jeronimo, patricia, licoes de direito comparado
Jeronimo, patricia, licoes de direito comparadoJeronimo, patricia, licoes de direito comparado
Jeronimo, patricia, licoes de direito comparado
 
Modulo5 matematica
Modulo5 matematicaModulo5 matematica
Modulo5 matematica
 
Lista de exercicios de Macroeconomia
Lista de exercicios de MacroeconomiaLista de exercicios de Macroeconomia
Lista de exercicios de Macroeconomia
 
Expressoes numericas0
Expressoes numericas0Expressoes numericas0
Expressoes numericas0
 
Geometria analitica um tratamento vetorial - paulo boulos
Geometria analitica   um tratamento vetorial - paulo boulosGeometria analitica   um tratamento vetorial - paulo boulos
Geometria analitica um tratamento vetorial - paulo boulos
 
Núcleo celular
Núcleo celularNúcleo celular
Núcleo celular
 
Rec mat aluno_ii
Rec mat aluno_iiRec mat aluno_ii
Rec mat aluno_ii
 

Monograf01estat nparamt bom amanha

  • 1. Universidade dos Açores Departamento de Matemática Discente: Filipe Gago da Câmara Docente: Dr. Osvaldo Silva Ponta Delgada, 29 de Junho de 2001 Estatística Não Paramétrica Testes de Hipóteses e Medidas de Associação
  • 2.
  • 3. Índice ÍND CEI Teste de Hipóteses......................................................................................................................1 Introdução...................................................................................................................................3 Capitulo 1: Caso de uma amostra...............................................................................................6 1.1 Teste da Binomial.............................................................................................................62 1.2 Teste do Qui-Quadrado ( χ ) para uma amostra............................................................10 1.3 Teste de Kolmogorov-Smirnov ......................................................................................12 1.4. Teste de Iterações de Uma Amostra..............................................................................17 Capítulo 2: Caso de duas amostras relacionadas......................................................................23 2.1 Teste dos Sinais ..............................................................................................................23 2.2 Teste de McNemar .........................................................................................................25 2.3 Teste de Wilcoxon..........................................................................................................28 Capitulo 3: Caso de duas amostras independentes...................................................................32 3.1 Teste de Iterações de Wald-Wolfowitz ..........................................................................32 3.2 Teste U de Mann-Whitney .............................................................................................37 3.3 Teste de Moses para reacções extremas .........................................................................41 3.4 Teste da Qui-Quadrado ( 2 χ ) para duas amostras independentes..................................44 Capítulo 4: Caso de k amostras relacionadas ...........................................................................50 4.1 Teste Q de Cochran.......................................................................................................50 4.2 Teste de Friedman ..........................................................................................................54 Capítulo 5: Caso de k amostras independentes ........................................................................57 5.1 Teste de Kruskal-Wallis .................................................................................................57 Capitulo 6: Medidas de Correlação ..........................................................................................60 6.1 Coeficiente de Correlação por postos de Kendall: τ .....................................................60 6.2 Coeficiente de Correlação por postos de Spearman: Sr .................................................64 6.3 Coeficiente de Concordância de Kendall: W ................................................................66 Conclusão .................................................................................................................................70 Bibliografia...............................................................................................................................75 Anexos......................................................................................................................................75 Anexo 0 ................................................................................................................................76 Anexo I: Caso de uma amostra.............................................................................................77 Anexo II: Caso duas amostras relacionadas .........................................................................81 Anexo III: Caso de duas amostras independentes ................................................................85 Anexos IV: Caso de k amostras relacionadas.......................................................................91 Anexo V: Caso de k amostras independentes.......................................................................94 Anexo VI: Medidas de Correlação.......................................................................................95 Tabelas......................................................................................................................................75 Tabela A ...............................................................................................................................76 Tabela B................................................................................................................................77 Tabela C................................................................................................................................78 Tabela D ...............................................................................................................................79 Tabela E................................................................................................................................81 Tabela F................................................................................................................................82 Tabela G ...............................................................................................................................84 Tabela J.................................................................................................................................85 Tabela K ...............................................................................................................................88 Tabela N ...............................................................................................................................89 Tabela O ...............................................................................................................................91 Tabela P................................................................................................................................93 Tabela Q ...............................................................................................................................94 Tabela R................................................................................................................................95
  • 4. Teste de Hipóteses TESTE DE HIPÓTESES Em muitas situações, queremos tomar uma decisão de forma a minimizar os riscos envolventes. No campo da estatística, formulamos hipóteses acerca de uma dada amostra, estas hipóteses são submetidas a determinados testes. A hipótese a ser testada designamos por Hipótese Nula ( ), a Hipótese Alternativa ( 1H ) é a conclusão a que chegamos quando a hipótese nula é rejeitada. 0H Quando formulamos uma decisão sobre podem ocorrer dois erros distintos. O primeiro, designado por erro tipo I, consiste em rejeitar a hipótese nula quando ela é verdadeira. O segundo, designado por erro tipo II, consiste em aceitar 0 quando ela é falsa 0H H . A estes erros estão associados uma probabilidade, isto é, β=)|.( α=.)|.( 00 00 falsaHHacP verdHHrejP Quando queremos reduzir a probabilidade de ambos os tipos de erro, devemos aumentar a dimensão da amostra. À probabilidade α damos o nome de nível de significância. Como o valor α entra no processo de determinação de aceitação ou rejeição de H , a condição de objectividade da prova exige que o nível de significância seja fixado antes da recolha de dados. Os valores mais comuns para α são de 0,05 e 0,01 de acordo com a importância prática dos resultados. 0 Quanto mais pequena é a probabilidade β mais potente é o teste, ou seja, o teste óptimo da hipótese 0 vs. 1 é aquele que para uma probabilidade de ocorrer o erro tipo I, torne mínima a probabilidade de ocorrer o erro tipo II. H H Após ter escolhido as hipóteses e o nível de significância devemos determinar qual a distribuição amostral. Esta é uma distribuição teórica que, se puséssemos considerar todos os eventos possível, dava-nos as probabilidades, sob , associadas aos valores numéricos possíveis da estatística. 0H 1
  • 5. Teste de Hipóteses Neste momento temos que escolher o teste estatístico apropriado, tendo em conta os seus pressupostos. Definida as hipóteses, o nível de significância, o teste estatístico, falta-nos saber como rejeitar/aceitar 0H . o . e ita a hipótese nula. Região de rejeição é uma região da distribuição amostral, na qual consiste num conjunto de valores tão extremos que, quando é verdadeira, a probabilidade α do valor observado da amostra estar entre eles é muito pequena. A probabilidade associada a qualquer valor na região de rejeição é afectada pela natureza da hipótese alternativa. Se indica o sentido da diferença, utiliza-se um teste unilateral, caso contrário, utiliza-se um teste bilateral. 0H 1H A seguinte figura ilustra-nos como as duas regiões diferem entre si, mas não altera o tamanho. Figura 1: Dois tipos de testes P=0.05P=0.025P=0.025 Teste bilateral Teste unilateral A área de cor azul é a região de rejeição para um =α 05.0 Para uma decisão final, basta ver se o valor resultante de um teste estatístico está na região de rejeição ou não. Uma abordagem alternativa para o teste de hipóteses é sugerida pelo cálculo da probabilidade associada. ( ) a uma dada observação. O valor é a probabilidade de ser verdadeira. Se toma um valor menor ou igual a , então rejeitamos a hipótese nula, caso contrário, se p toma um valor superi r a α , então aceitamos H O valor p (ou probabiliade de significância) dá-nos também uma ideia do poder do teste estatístico. Quanto maior for a probabilidade p mais forte é o teste e com mais facilidade s p p 0H p α 0 ace 2
  • 6. Introdução INTRODUÇÃO Nos primórdios da estatística, desde que o Homem se organiza em sociedade, ela aparece como processo organizado de contagem, seja ela de pessoas, cereais, frutas, etc.. Estes processos de contagem eram, posteriormente, apresentados à sociedade através de tabelas e gráficos. A palavra estatística aparece sempre ligada a coisas do Estado (status), mas só no séc. XVII a estatística é tida como uma disciplina autónoma destinada a descrever factos ligados ao estado. A estatística era associada ao processo político, como base para o planeamento do Estado. Esse processo de contagem do todo, denominado Censo, não é um procedimento dos tempos passados. Na verdade ela constitui uma importante área da Estatística. Relativamente à totalidade dos dados, há uma outra linha de trabalho que é conhecida como Estatística Descritiva, que procura expressar as informações mais relevantes contidas num conjunto de dados através do cálculo de valores. Cada um destes valores resume de uma forma específica o conjunto de dados. Mais recentemente, surgiu outro campo da estatística que designa-se por Estatística Indutiva ou Inferência Estatística Esta estatística preocupa-se em estimar o verdadeiro valor desconhecido do(s) parâmetro(s) de uma população e testar hipóteses com respeito ao valor dos parâmetros estimados, ou à natureza da distribuição da população. Aqui é que surge uma separação, ou sabemos à partida qual a distribuição da população (Estatística Paramétrica), ou não sabemos qual a sua distribuição (Estatística Não Paramétrica). Focaremos o nosso estudo sobre a Estatística Não Paramétrica. Os primeiros métodos da estatística não paramétrica, embora com pouco uso até aos anos 40, foram referidos por John Arbuthnot em 1710. Estes começaram a ter maior impacto só a partir de 1942 com Wolfowitz. A partir daí o interesse aumentou de uma forma rápida. Hoje a estatística não paramétrica é considerada como um dos campos mais importantes da estatística. As técnicas que advêm desta categoria são usadas com grande frequência nas ciências físicas, biológicas e sociais ou até mesmo na comunicação. Outros autores, também dão importância a outros campos, tais como, na análise de dados da qualidade da água 3
  • 7. Introdução (Helsel), em aplicações na medicina (Brown and Hayden) ou mesmo na psicologia (Buckalew). Enumeremos, algumas vantagens para os métodos conhecidos: 1. Como os métodos da estatística não paramétrica depende do mínimo de suposições, a possibilidade de o método não ser adequado é menor. 2. Para alguns métodos a avaliação pode ser rápida e fácil, especialmente se o cálculo for manual. Deste modo, usando-os pode poupar tempo. É considerado importante, se não tivermos tempo ou se não temos meios técnicos para o cálculo rápido. 3. Os métodos estatísticos são fáceis de perceber, mesmo tendo o mínimo de preparação matemática e estatística. 4. Muito dos testes não paramétrica trabalham só com a ordem dos dados. 5. Poderão trabalhar com amostras de pequenas dimensões. É claro que os métodos de estatística não paramétrica também trazem desvantagens. As mais importantes são as seguintes: 1. Os testes não paramétricos, por vezes, são usados quando os testes paramétricos são mais apropriados, porque estes testes são mais simples e rápidos, deste modo, pode haver perda de informação. 2. Ainda que os procedimentos não paramétricos têm a reputação de requerer só cálculos simples, a aritmética em muitas instâncias pode ser tendenciosa e trabalhosa, especialmente quando as amostras são grandes. 3. Os métodos paramétricos são mais potentes para uma mesma dimensão e um mesmo α do que os métodos da estatística não paramétrica. Situação onde podemos usar os métodos da estatística não paramétrica Os métodos não paramétricos são apropriados quando: 1. As hipóteses a testar não envolve parâmetros da população. 2. Se conhece a ordem dos dados. 3. Os pressupostos necessários para o uso válidos dos métodos paramétricos não são conhecidos. Em muitos casos o planeamento de um projecto de pesquisa pode 4
  • 8. Introdução sugerir um certo processo paramétrico, mas quando iremos aplicar este processo poderá violar de uma forma determinante os pressuposto. Neste caso, um método não paramétrico seria a única alternativa. Quando queremos implementar um método devemos ter em conta o nível de medida das variáveis a analisar, estas estão divididas em diferentes grupos: 1. Escala Nominal: neste nível situam-se todas as observações que são categorias e não têm uma ordem natural, por exemplo, o sexo dos alunos de uma dada turma. Para que tenha uma ordem, pode ser atribuído um valor numérico, no entanto, os números não tem um verdadeiro e único significado (Ex.: masculino=1, feminino=2 ou feminino=1, masculino=2); 2. Escala Ordinal: as observações são categorias que têm uma ordem natural. Estas observações podem não ser numéricas. Por exemplo, as classificações dos testes podem ser mau, não satisfaz, satisfaz, bom ou muito bom. 3. Escala Intervalar: tem todas as características da ordinal com a vantagem de conhecer as distâncias entre dois números quaisquer da escala. Estes valores estão limitados entre dois valores. (Ex. As notas das frequências de uma dada turma, os valores estão entre zero e vinte). 4. Escala de Razões: além das características de uma escala intervalar, tem um verdadeiro ponto zero como origem. Não existe limites. Nesta escala, a razão de dois pontos quaisquer é independente da unidade de mensuração, por exemplo, se determinarmos os pesos de dois objectos diferentes não somente em libras, mas também em gramas, observamos que a razão dos dois pesos em libras é idêntica à razão dos dois pesos em gramas. Os vários métodos para testar as hipóteses serão apresentados de forma a focar as diferenças entre as várias fontes de informação disponíveis, tais como, as tabelas e os dois Software especializados: o Mathematica® e o SPSS®. A introdução dos dados, no caso do SPSS®, e a programação das funções, no caso do Mathematica®, estarão em anexo, bem com as tabelas aqui utilizadas. 5
  • 9. Capítulo 1: Caso de uma amostra CAPITULO 1: CASO DE UMA AMOSTRA Os testes estatísticos inerentes ao caso de uma amostra servem para comprovar uma hipótese que exige a extracção de uma amostra. É usualmente usado para teste de aderência, isto é, se determinada amostra provém de uma determinada população com uma distribuição específica. As provas de uma amostra verificam se há diferenças significativas na locação (tendência central) entre a amostra e a população, se há diferenças significativas entre frequências observadas e as frequências que poderíamos esperar com base em determinado princípio, se há diferenças significativas entre as proporções observadas e as proporções esperadas e se é razoável admitir que a amostra seja uma amostra aleatória de alguma população conhecida. 1.1 Teste da Binomial Antes de falar no teste da Binomial, falemos um pouco da distribuição Binomial. Esta distribuição é comum ser usada para a contagem de eventos de um modelo observado. É baseado no pressuposto de que a contagem podem ser representada como um resultado de uma sequência de resultados independentes de Bernoulli (por exemplo: o lançamento de uma moeda). Se a probabilidade de observar um resultado R é P para cada n ensaios, então a probabilidade que R será observado num ensaio x exacto é xNx x PP x N p − −⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ = )1( A distribuição definida por: [ ] ),,1( NxpxXP x K=== é chamada distribuição bi râmnomial com pa etros n e p. O nom que a expansão binomial dee aparece, pelo facto de n p)− é nPPP +++ K10 . O Teste da Binomial aplica-se a amostras que provém de uma população, onde o número de casos observados podem ser representados por uma variável aleatória que tenha distribuição binomial. As amostras consistem em dois classes (ex: cara o p 1( + u coroa; sucesso ou insucesso), deste modo este teste é aplicado a amostra de escala nominal. (1.1.1) 6
  • 10. Capítulo 1: Caso de uma amostra Cada uma das classes tem a sua proporção de casos esperados, tomaremos, assim, P para a proporção de uma das classes, e para a outra classe.PQ -1= P é fixo para uma determinada população, mas, devido aos efeitos aleatórios, não podemos esperar que determinada amostra tenha exactamente a mesma proporção. A hipótese a ser testada é se o valor da população é P . A probabilidade de obter x objectos numa das categorias e noutra categoria é dada pela fórmula 1.1.1.. xN − No entanto, não queremos saber qual a probabilidade exacta dos valores observadas, mas sim qual a probabilidade de obter os valores observados ou valores mais extremos. Então para o método aplicamos a seguinte distribuição amostral: ∑= iNiN i QPC - ão da amostra); 3. ostra, elas são classificadas em pequenas amostras 3.1. x i 0 Método: 1. Determinar o número de casos observados N (dimens 2. Determinar as frequências em cada uma das classes; Conforme a dimensão da am ( )25≤N ) e grandes amostras ( 25>N ): Para pequenas amostra e 2 1 == QP , a tabela D dá as probabilidades unilaterais, sob 0H , de vários tão pequenos quanto um x observado. Emprega-se uma prova unilateral quando se conhece em antemão qual das classes tem menor frequência, 3.2. Se robabilidade, sob , de ocorrência do valor caso contrário basta, para uma prova bilateral, duplicar os valores da tabela D. QP = , determina-se a p 0H observado x , utilizando a fórmula 1.1.2. Para grandes amostras, pode-se demonstrar que quando N cresce a distribuição binomial tende para a distribuição Normal. Se s rápida se P estiver próximo de 3.3. rá mai 2 1 . Os parâmetros a usar serão a média =NPµ x e o desvio padrão NPQ=σ , deste m x odo, tem distribuição aproximadamente normal com média 0 e variância 1, sendo: z NPQ x-NP = σ x-µ z= x (1. x (1.1.2) 1.3) 7
  • 11. Capítulo 1: Caso de uma amostra Devido à natureza da variável x ser discreta e a distribuição normal ser contínua, deve-se incorporar um factor de correcção. Assim sendo z fica NPQ -NPx z )5.0±( = onde x + 0.5 (1.1.4) é utilizado quando x < NP e x – 0.5 quando x > NP. Então para grandes amostras e P próximo de 2 1 , testamos a hipóteses pla icando a fórmula 1.1.4. A tabela A dá a probabilidade, sob , associada à ocorrência de grandes quanto um valor de z observado, dado por aquela fórmula. A tabela dá os valores unilaterais de p, sendo necessário para prova bilateral, plo 1.1.1: mos que num . O pais querem saber se a probabilidade de nascer feminino ou masculino é igual. R idade de ascer menino ( ) ou menina ( p babilidade. ial porque os dados estão dicotomizados em duas classes discretas. O nascim , 0H valores tão duplicá-los. Se o valor p associado ao valor observado x, não superar α , então rejeita-se H .0 Exem Suponha a dada família nasceram 12 filhos, 7 do sexo feminino e 5 do sexo masculino s esolução: Hipóteses: 210 =: ppH Não há diferenças na probabil n 1p )2p . 211 : pH ≠ Há diferença na pro Escolhe-se o teste binom ento é um processo aleatório, assim 2 1 == QP . Seja e N número de filhos = 1201,0=α 8
  • 12. Capítulo 1: Caso de uma amostra A distribuição amostral é dada pela fórmula: 387,0 5 00 == i i i i -12- == ∑∑ iNi x iNiN QPCQPC ara a bilateral basta duplicar o valor, sendo assim, Sabemos que o cálculo anterior deu a probabilidade unilateral, p 774,0387,02 =×=p . A região de rejeição consiste em todos e x tão pequenos que a probabilidade, sob a hipótese nula, associada à sua ocorrência não seja superior a 0,01. Como a probabilidade p = 0,774 associado a os valores d 5≤x é maior que 01,0=α , conclui-se que não existe diferenças nas probabilidades de nascer menino ou menina. O SPSS®, além do valor p, dá-nos um quadro resumo da amostra: Output 1.1.1: Este software pode fazer o teste com maior rapidez, muito embora, se a dimensão da amos nascimentos e que nasceram 725 crianças do sexo masculino, para testar a hipótese, basta: pmB tra for muito grande, a introdução dos dados poderá ser demorada. Para colmatar esta situação podemos recorrer ao Mathematica®, pois, basta dar o número de casos de um das classes como ilustra o seguinte exemplo: E emplo 1.1.2:x Suponhamos agora que queremos saber se a probabilidade de nascer masculino ou feminino num dado país é igual. Considerando uma amostra de 1500 n inomial p-value = 0.5725 One- Sided PValue - > 0.102896822008 Two- Sided PValue - > 0.205793644017 9
  • 13. Capítulo 1: Caso de uma amostra Como o “p-value” é maior que 01.0=α , então aceitamos a hipótese de que não existe diferenças entre o número de nascimentos do sexo masculino e feminino. 1.2 Teste do Qui-Quadrado ( 2 χ ) para uma amostra É adequado aplicar este teste quando temos os dados da amostra dividida em duas ou mais categoria. O propósito deste método é ver se existem diferenças significativas entre o núme ivíduos, de objectos ou de respostas, em determinada classe, e o respectivo núme Isto é, a técnica testa se as frequências obser hipótese método envolve os seguintes passos: 1. Enquadrar as frequências observadas nas k categorias. A soma das frequências deve ser N, número de observações independentes; Por meio de , determinar as frequências esperadas para uma das k células; 3. órmula: ros de ind 2 χro esperado baseado na hipótese nula. vadas estão suficientemente próximas das esperadas para justificar sua ocorrência sob a nula. Método: O 2. 0H Calcular o valor de 2 χ por meio da seguinte f ( ) ∑ − = k ii EO 2 2 χ =i i calc E1 . iO = número de casos observados na categoria i = número de casos esperados na categoria i sob 0H = número de categorias na classificação; iE k 4. Determinar o grau de liberdade ( 1−= kgl ); 5. Com base na tabela C, determinar a probabilidade associada à ocorrência, sob 0H , 2 de um valor tão grande quanto o valor observado de para o valor de considerado. Se o valor de p, assim obtido, for igual a, ou menor do que, χ gl α , rejeita- se a hipótese nula. (1.2.1) 10
  • 14. Capítulo 1: Caso de uma amostra Nota: quando k > 2, se mais de 20 por cento dos ’s são inferiores a cinco, combina- se de maneira razoável, categorias adjacentes. Reduzindo, assim o número de classes e aume uns dos ’s. Quando k = 2. Pode-se empregar a prova para uma amostra só se cada frequência esperada é no mínimo, igual a 5 (Cochran, 1954). E Tabela elho Branco Preto Azul Cinzento iE iE 2 χntando o números de alg xemplo 1.2.1: Dada a seguinte tabela: 1.2.1: Cor Verm Número de automóveis 29 25 19 15 17 Querem e há preferência em determinada cor, isto é, há razões para dizer que há preferência rminada cor? Com um nível de significância os saber s em dete 05,0=α . esolução: ormulamos as hipóteses: R F 5 1 : CinzentoAzulPretoBrancoVermelho0 ===== PPPPPH 01 : HH é falsa. Calculamos o número total de frequências e o valor esperado: 105++++====== 1715192529CinzentoAzulPretoBrancoVermelho NNNNNN = 21 5 105 ===Ei k N alculamos 2 χ :C ( ) ( ) ( ) ( ) ( ) 48,6 21 2117 21 2115 21 2119 21 2125 21 2129 22222 2 ≈ − + − + − + − + − =χ 11
  • 15. Capítulo 1: Caso de uma amostra A tabela C indica que 48,62 ≥χ para gl = 4 tem a probabilidade de ocorrência entre 1,0=p e 2,0=p . Como p > α então não podemos rejeitar 0H . Concluindo que a proporção de casos em cada categoria é igual, para um nível de 0,05. Através deste exemplo, verifica-se que tabela, deste modo, seria mais preciso se util não podemos ir buscar o valor exacto de p na assim, o SPSS® seria a melhor escolha, como Output 1.2.1: oderíamos utilizar o Mathematica®, através da função QuiQuadrada1Amostra[], iQuadrada1Amostra 29,25,19,17,15 izarmos outros meios de cálculo mais eficazes, ilustra o seguinte output: P dando como parâmetro a amostra: Qu PValue: 0.166297 como é observado, o associad a am função de distribuição empírica da amostra define-se como a proporção das observações da amostra que são menores ou iguais a Mathematica® calcula com maior precisão o valor da probabilidade a. 1.3 Teste de Kolmogorov-Smirnov O Teste de Kolmogorov-Smirnov de um ostra é baseado na diferença entre a função de distribuição cumulativa )(0 xF e a função de distribuição empírica da amostra )(xSn . A x para todos os valores reais x . )(xSn dispõe dum estimador pontual consistente para a verdadeira distribuição . Mais, através do teorema)(xFX 12
  • 16. Capítulo 1: Caso de uma amostra de Glivenko-Cantelli1 , podemos afirmar que )(xSn aproxima-se da distribuição teórica. Portanto, p ra um n grande, o desvio entre as duas dia stribuições, ,)()( xFxS Xn − fica cada vez m is pequenos para todos os valores de x . Assim ficama os com o seguinte resultado: )()(sup xFxD X x n −= (1.3.1) À esta nD chama os estatística de Kolmogorov-Smirnov de uma amostra. É particularmente út Sn tística m i a a Estatística Não Paramétrica, porque a probabilidade de não depen este modo, pode ser chamada estatística sem distribuição. l par nD de de )(xFX desde que XF seja contínua. D nD O desvio à direita e à esquerda definida por [ ])()(sup xFxSD Xn x n −=+ [ ])()(sup xSxFD nXn −=− (1.3.2) x são c uições de são independentes de podem s assumir, sem perda de generalidade, que é a distribuição uniforme com par sim o s o seguinte teorema: Teorema 1.3.1: Para hamados estatísticas de Kolmogorov-Smirnov unilaterais. Estas medidas também não têm distribuição. Para que possamos utilizar a estatística de Kolmogorov para inferência, a distribuição da amostra deve ser conhecida. Sabendo que as distrib nD XF , o XF âmetros (0,1). As btemo )()(sup xFxSD Xn x n −= onde é uma função distribuição cumulativa contínua qualquer, temos: )(xFX 1 Teore ko-Cantelli: converge uniformemente para com a probabilidade 1; que éma de Gliven )(xnS )(xFX 10)()(suplim =⎥⎦ ⎤ ⎢⎣ ⎡ =− ∞<<∞−∞→ xFxSP Xn xn 13
  • 17. Capítulo 1: Caso de uma amostra ⎪ ⎩1 ⎪ ⎪ − ≥ n n vse vse 2 12 0 10! uun K i extraí d preciso ter em enos ordinal. Seja uma distribuição de frequências acumuladas, teórica, sob Seja a distribuição de frequências acumuladas de uma amostra aleatória de N ⎪ ⎨ − <<=⎟ ⎠ ⎞ ⎜ ⎝ ⎛ +< ∫ ∫ ∫ + − + − +− −− n n vseduduuuufv n DP vn vn vn vn vnn vnn nnn 2 12 0),,,( 2 1 2/1 2/1 2/3 2/3 2/)12( 2/)12( 121 KKK ⎪ ⎪ ⎧ ≤ 0 onde ( ) ⎩ ⎨= contráriocaso0 ,,, 1 21 n nuuuf K ⎧ <<<< Método: Este método pretende testar se uma determinada amostra fo da e uma população com uma determinada distribuição teórica. Quando se escolhe este teste é conta que a variável seja pelo m )(0 XF 0H . )(XSN observações. Quando X é qualquer valor possível, N k XSN =)( , onde k é o número de observações não superiores a X. ela hipótese Nula, de que a amostra tenha sido extraída de uma população com a distrib pecífica, espera-se que as diferenças entre e sejam pequenas e estejam dentro dos limites dos erros aleatórios. O teste de Kolm irnov focali P uição teórica es )(XSN )(0 XF ogorov-Sm za a maior dessas diferenças. Ao valor de )()(0 XSXF N− é chamado de desvio máximo, D: )()(0 XSXFmáxD N−= A Distribuição amostral de D, sob 0H , é conhecida. A tabela E dá certos valores críticos dessa distribuição amostral. Note-se que a significância de um dado valor D depende de N. (1.3.3) 14
  • 18. Capítulo 1: Caso de uma amostra Exemplo 1.3.1: Suponha-se que um pesquisador esteja interessado na confirmação experimental da observação sociológica, de que os negros Americanos aparentam demonstrar uma hierarquia de preferência em relação à tonalidade de pele. Para comprovar quão sistemáticas são essas o pesquisador fictício tira uma fotografia de cada um dentro de 10 indivíduos negros. O fotógrafo revela essas fotografias, obtendo cinco cópias de cada uma, de tal forma que cada cópia difi ou em s, ser classificadas em cinco tipos, desde a mais clara até à mais escura. À fotografia mais escura é atribuído o posto 1, e para a mais clara é atribuída o posto 5. Pede-se então a cada indivíduo que escolha uma de entre as cinco cópias de sua própria foto. Se os indivíduos forem indiferentes em relação à tonalidade da cor da pele, a escolha deverá recair igualmente sobre os cinco postos (com ex tão os diversos indivíduos deverão consistentemente manifestar preferência por um dos postos extremos. Os resultados est u Tabela 1.3.1: preferências, ra ligeiramente das tras tonalidade, podendo, poi cepção, é óbvio, de diferenças aleatórias). Se, por outro lado, a cor tiver importância, tal como supomos, en ão na seg inte tabela: Posto da foto 1 2 3 4 5 N.º de indivíduos 0 1 0 5 4 Resolução: Formulamos as hipóteses: ffH 543 fff ==210 : == ão há diferenças no número esperado de escolhas para cada um dos cinco postos, isto é, a amostra prov de uma população com um distribuição uniforme.) é falsa ( não são iguais). ção de frequências acumuladas teórica e a da amostra: (N ém a 01 : HH 54321 ,,,, fffff Com a ajuda de uma tabela, calculamos a diferença entre a distribui 15
  • 19. Capítulo 1: Caso de uma amostra Tabela 1.3.2: 1f 2f 3f 4f 5f N.º de indivíduos que 0 1 0 5 4 escolhem a cor )(0 XF 5 1 5 1 5 1 5 1 5 1 )(0 XS 0 10 1 10 1 10 6 10 10 )()(0 XSXF N− 5 1 10 3 10 5 10 2 0 De seguida, calculamos o máximo entre estas diferenças: { } 5,0 10 5 )()(0 ==−= XSXFmáxD N Consultamos a tabela E que nos dá a probabilidade p associada de ocorrência (bilateral) de com5,0≥D 10=N : Utilizando um nível de significância .01,0≤p 01,0=α , podemos concluir que é falsa, sendo assim, os indivíduos demonstram preferência na tonalidade. Como é observado, a tabela dá-nos intervalos de p , não sendo possível obter o seu valor exacto. Poderíamos escolher um 0H 03,0=α e se, após o cálculo de D, a probabilidade associada estiver entre 0,01 e 0,05, não era possível dar uma resposta. o SPSS® p Output 1.3.1: odemos obter o valor exacto de p:N 16
  • 20. Capítulo 1: Caso de uma amostra 1.4. Teste de Iterações de Uma Amostra Dado uma sequência de dois ou mais tipos de símbolos, uma iteração é definida como uma sucess u ma s símbolos idênticos em que são seguidos e precedidos por outro símbolo diferente ou nenhum símb lo. Pistas para uma sequência não aleatória são dadas através da ão de um o i o existência de algum padrão. O n reflectir a existência de algum tipo de padrão. Quer a situação de um núm aleatória grande ou muito pequeno. ste teste utiliza-se quando os valores estão numa escala nominal ou ordinal, em que a amostra Dada uma sequência d m do segundo tipo, onde úmero de iterações e o comprimento, em que estão interrelacionados, devem Uma alternativa para saber se é ou não aleatória é baseada no número total de iterações. número pequeno quer a situação de um ero grande de iterações, sugere que a sequência de símbolos estão dispostos de forma ordenada (não ), isto é, a hipótese nula é rejeitada se o número de iterações é muito E é dicotómica. e n elementos de dois tipos, 1n do pri eiro tipo e 2n nnn =+ 21 . Se é o número de do tipo 2, então, o número total de iterações na sequência é 1 2 21 r iterações do tipo 1 e r rrR += . Para fazer um teste para a aleatoriedade, precisamos da distribuição de probabilidade de R quando a hipótese nula é verdadeira. A distribuição de R será encontrada quando conhecerm s a distribuição de r e r , bastando somar as duas distribuições. Sabendo que sobre a hipótese nula todos os arranjos de o objectos é equiprovável, a probabilidade de 1 2 21 nn + 11 rR = e 22 rR = é o número de arranjos L distintos de 21 nn + objectos dividido pelo total de arranjos distintos, que é !!/! 21 nnn . Para a quantidade do numerador, o lema seguinte pode ser usado. ema 1.4.1: O número de formas distintas para distribuir n objectos iguais por r distintas células sem células vazias é n r ≥⎟⎟ ⎠ ⎜⎜ ⎝ − se lulas, em que pode ser feito em ⎜⎜ ⎝ ⎛ −11 1 r n diferentes ., 1 1n ⎞⎛ − r De modo a obter uma quência com r iterações de objectos do tipo 1, os n objectos iguais deve ser postas dentro de cé ⎞−1 1 1 1r ⎟⎟ ⎠ 17
  • 21. Capítulo 1: Caso de uma amostra maneira a-se d os objectos. O núme s distintos começando com uma iteração do tipo 1 é o produto ⎛ −⎞ ⎜⎜ ⎝ ⎛ − − 12 1 1 n r n a iteração do tipo 2. O conjunto de objectos do tipo 1 e do tipo 2 deve ser alternado, e consequentemente poderá acontecer o seguinte: s. Aplic o mesmo modo para obter 2r iterações com outr 2n ro total de arranjo ⎟⎟ ⎠ ⎜⎜ ⎝ −⎟⎟ ⎠ 11 2r . Analogamente, para uma sequência começando com um 1 ⎞ 121 ±= r ou 21 rr = . Se 121 += rr , a sequênciar deve começar com uma iteração do tipo 1; Se e ser o tipo 2 a começar. Caso a sequência pod o do er duplicado. Assim foi Teorema 1.4.1: Seja e os respectivos números de iterações de objectos do 2 n ma ostra aleatória de dimensão . A distribuição a probabilidade conjunta de e é 121 −= rr então dev 21 rr = e começar com tipo 1 ou 2., portanto, o número de arranjos distintos deve s provado os seguintes resultados. 1R 2R 1n tipo 1 e n objectos do tipo u am2 21 nnn += d 1R 2R ⎟ ⎠ ⎜ ⎝ 1n e 2=c se 21 rr = e 1=c se 121 ⎟⎜ ⎞⎛ − ⎠ ⎞ ⎝ ⎛ − 21 1 1 1 n nn (1.4.1) ond ⎞⎛ + = 21 ),(, 2121 n f rrRR ⎟⎟ ⎠ ⎜⎜ ⎝ −⎟⎟⎜⎜ − 21 1rr c ±= rr . Corolário 1.4.1: A distribuição da probabilidade marginal de é1R 11 1 2 1 21 ,,2,1 11 nr n n nn K= ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ + ⎟⎟ ⎞ ⎜⎜ ⎛ + ⎟⎟ ⎞ ⎜⎜ ⎛ − 2R trocando posições de 1n com 2n e vice-versa. 1 1 )( 1 11 n rr f rR ⎛ ⎠⎝⎠⎝ − = Similar para Teorem do tipo 1 e do tipo 2, numa amostra aleatória é ,,2,1 21 22 = ,,2,1 11 = = ourr nr K nr K 121 ±= rr (1.4.2) a 1.4.2: A distribuição de probabilidade de R , número total de iterações e 21 nn += objectos, 1nn 2n 18
  • 22. Capítulo 1: Caso de uma amostra ⎪ ⎪ ⎪ ⎪ ⎪ ⎩ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎧ ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ + ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ − − ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ − +⎟⎟ ⎠ ⎜⎜ ⎝ −⎟⎟ ⎠ ⎜⎜ ⎝ − ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ + ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ − − ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ − − parérse n nn r n rrr imparérse n nn r n r n 1 21 2121 1 21 21 2/)1( 1 2/)3(2/)3(2/)1( 12/ 1 12/ 1 2 (1.4.3) nn ⎪ ⎨ ⎛ −⎞⎛ −⎞⎛ − = nnn rfR 111 )( para ,3,2r 21,= K + 1. Dispo observa sua ordem ncia; 2. C Método: r as 1n e 2n ções na de ocorrê ontar o número r de iter 3. Det robabilida ass valor tã mo quanto o valor observado de r. Se t abilidade inferior, ações; erminar a p de, sob 0H , ociada a um o extre al prob é igual, ou a α , rejeitar . A técnica para a determinação do valor de p depende do tama e 3.1. S ambos n eriores a r à tabela abela FI dá o valor de r que é tão pequeno que a sua probabilidade associada, sob é tão grande que a sua probabilidade 0H nho dos grupos 1n 2n : e 1n e 2n são ão sup 20, recorre F. A t 0H 025,0=p ; a tabela FII dá o valor de r que é associada é 025,0=p . Para uma prova bilateral consideramos os dois valores, ao nível 05,0=p . Para uma prova unilateral consideramos a tabela correspondente mbém a um nívelaos valores previstos ta 05,0=p . 3.2. Se 1n ou 2n for superior a 20 então determinar uma aproximação à Normal através da seguinte fórmula: ( ) ( ) ( )1 1 2 21 2 21 21 21 −++ ⎟⎟ ⎠ ⎞⎛ + + nnnn nn nn (1.4.1) 22 212121 −− == nnnnnn z rσ ⎜⎜ ⎝ − − r r rµ 19
  • 23. Capítulo 1: Caso de uma amostra calculado o valor de z, recorrer à tabela A. Apresentamos uma tabela onde é dado o total de pagamentos feitos pelas equipas da iga Nacional de baseball dos EUA: Tabela 1.4.1: Pagamentos em milhões de dólares. Exemplo 1.4.1: L Equipa Pagamento Equipa Pagamento Atlanta 47.93 Montreal 15.41 Chicago Cubs 31.45 New York Mets 23.46 Cincinnati 40.72 Philadelphia 29.72 Colorado 38.19 Pittsburgh 21.25 Florida 30.08 San Diego 27.25 Houston 26.89 San Francisco 34.79 Los Angeles 34.65 St. Louis 38.92 A mediana deste conjunto de números é de 30,765. valor maior que a mediana. ência aleatória. Com um nível de significância Convertemos os valores indicados na tabela para zeros e uns, o zero corresponde a um valor menor que a mediana e o um corresponde a um Obtemos a seguinte sequência: 1,1,1,1,0,0,1,0,0,0,0,0,1,1 Queremos saber se os valores estão numa sequ 05,0=α . Resolução: Formulamos as hipóteses: 0H : os zeros e uns ocorrem em ordem aleatória 01 : HH é falsa. O número de iterações é 5=r ; 1 e 72 =n=n 7 s para o r com a ajuda da Tabela F que nos dá o seguinte resultado: 13 Calculamos os extremo 3 5 Região de Rejeição Região de Rejeição Região de Aceitação 20
  • 24. Capítulo 1: Caso de uma amostra odo, concluímos que, com um nível de significância Como r pertence ao intervalo de aceitação, podemos aceitar 0H , deste m 05,0=α , os pagamentos ocorrem de forma aleatória. Podemos verificar que estas tabelas não nos dão o valor de p, apenas um intervalo de rejeição. Quer no Mathematica®, quer no SPSS® podemos calcular de uma forma exacta o valor da probabilidade associada. Vejamos então no SPSS: Output 1.4.1: Como podemos observar a probabilidade associada é de 164,0=p , assim chegamos ao mesmo resultado, isto é, aceitamos a hipótese nula. No Mathematica® usamos dois procedimentos, um para converter para zeros e uns outro para o cálculo da probabilidade: Guardamos os valores numa variável do tipo lista: Pagamentos = 47.93, 31.45, 40.72, 38.19, 30.08, 26.89, 34.65, 15.41, 23.46, 29.72, 21.25, 27.25, 34.79, 38.92 convertemos para zeros e uns: ZeroUns = convertToZerosAndOnes pagamentos 1, 1, 1, 1, 0, 0, 1, 0, 0, 0, 0, 0, 1, 1 21
  • 25. Capítulo 1: Caso de uma amostra e calculamos a probab npmRunsTest ZeroUns ilidade associada: Number of Runs - > 5 Two- Sided PValue - > 0.155012 Concluímos, do mesmo modo, que não há razão para rejeitar a hipótese nula. omo conclusão para este teste, podem a ajuda do computador, não é nec a C os afirmar que, com essário fazer uma aproximação à normal, visto que, não tem limitação das tabelas. 22
  • 26. Capítulo 2: Caso de duas amostras relacionadas CAPÍTULO 2: CASO DE DUAS tro. 2.1 Teste dos Sinais É dado uma amostra aleatória de pares ordenados da forma )y , cada par é substituído por um sinal mais ou menos depende se o prim aior ou menor. 1. 2. Determ embros de cada par; . Determinar N = número das diferenças com sinal; sociada à ocorrência, sob , de um AMOSTRAS RELACIONADAS Empregam-se os testes para duas amostras relacionadas quando queremos determinar, para uma mesma situação, se duas abordagens, tratamentos ou métodos são diferentes ou se um é melhor que o ou ( ) ( ) ({ }2122211211 ,,...,,,, nn yyyyy eiro valor é m Método: Emparelhar n pares; inar o sinal da diferença entre os dois m 3 4. O método para determinar a probabilidade as 0 valor tão extremo quanto o valor observado de H z depende do tamanho de N: i. Se , a tabela D teral associada a uma valor tão pequeno quanto o valor esperado 25≤N dá a probabilidade unila p x = número de sinais com menor frequência. Duplica-se o valor da pr ii. Se N , calcular o valor de obabilidade quando se trata de um teste bilateral. > 25 z mediante o emprego da fórmula: N Nx 1 )5,0( −± z 1 2 = 2 Utiliza-se 5,0+x quando Nx 2 1 < , caso contrário, 5,0−x . al duplicar o valor de lor da probabilidade obtida no teste não for superior a A tabela A dá os valores unilaterais de p , para um teste bilater α , rejeitar (2.1.1) 0H . p . Se o va 23
  • 27. Capítulo 2: Caso de duas amostras relacionadas Exemplo 2.1.1: essor acredita que u Tabela 8 76 60 46 86 33 94 122 75 65 80 111 62 Depois 21 85 58 58 91 32 106 145 83 78 80 122 75 Um professor da disciplina de alemão pretende avaliar o impacto de uma viagem, com a duração de uma semana à Alemanha, sobre o vocabulário dos estudantes. O prof ma semana na Alemanha resultará num acréscimo significativo das palavras do vocabulário dos seus alunos, antes e depois de regressarem da viagem, tendo obtido os seguintes resultados: 2.1.1: Antes 9 1 esolução: ormulamos as hipóteses: Não há diferenças, i esmo de sinais “-”. é falsa. R F 0H : sto é, o número de sinais “+” é o m H 01 : H Iremos usar o teste dos sinais, escolhendo um 05,0=α . Após a análise dos pares ordenados verificamos a seguinte sequência de sinais: + + - + + - + + + + + +i 12=N (ne 2=xste caso houve um empate) e 25≤NComo , recorremos à tabela D, e verificamos que para uma prova unilateral o valor de p é de 0,019, mas como a prova é bilateral 038,0=p Sendo assim, rejeitamos a hipótese nula, dado lugar à hipótese alternativa, concluindo endável os alunos irem à Alemanha. Vam ver como seria no computador este exemplo: Após a introdução dos dados no SPSS®, teríamos os seguintes resultados: que seria recom Para o caso de grandes amostras a contagem de sinais seriam demorados e susceptível a erros e teríamos que utilizar uma aproximação, seria prudente a utilização de um computador. os 24
  • 28. Capítulo 2: Caso de duas amostras relacionadas .1:Output 2.1 Como pode-se verificar, ermos visualizar o valor da probabilidade de um modo mais exacto, podemos ver também o número total de sinais que ocorrem. parâmetr empates npmSignTestFrequencies 2, 10 além de pod Outro modo seria utilizando o Mathematica®, na função a utilizar damos como os: o número de sinais positivos e o número de sinais negativos, excluindo os em ambos os casos: Title: Sign Test Test Statistic: Number of Pluses is 2 Distribution BinomialDistribution 2 - sided p- value - > 0.0385742 os verificar que o valor de p é dado com maior número de casas decimais. 2.2 Teste de McNemar duas amostras relacionadas, isto é, tem como objectivo avaliar a eficiência de situações que cada o indivíduo é utilizado como o seu próprio controlo. Utiliza- se a m escala nominal para avaliar alterações da situação “após” em relação à situação “antes”. Podem O teste desenvolvido por McNemar é usado para analisar frequências (proporções) de “antes” e “depois”, em ensuração em Método: 1. Enquadrar as frequências observadas numa tabela de quatro células na forma seguinte: 25
  • 29. Capítulo 2: Caso de duas amostras relacionadas Tabela 2.2.1: + A B - C D Depois Antes - + As células A e D são consideradas células de mudança, enquanto que as células B e C são células que não muda de estado. O total de indivíduos que acusam mudança é pois ositivo” e a probabilidade de “Antes Positivo; Depois Negativo” e , calcular as A e D: DAm += ; 2. Considerando 1p a probabilidade de “Antes Negativo; De P 2p 21 pp = frequências esperadas nas células )(2 1 DAE += . as frequênciasSe esperadas são inferiores a 5 , empregar a prova binomial em substituição á de McNemar, neste caso, DAN += e { }DAx ,min= ; 3. Ca 2 Xso não se verifique que as frequências são inferiores a 5, calcular o valor de com o emprego da seguinte fórmula: ( ) DA DA X + −− = 2 2 1 com gl = 1 va unilateral, basta dividir por dois o valor tabelado. Caso o valor de p, exibido pela tabela, não supera 4. Mediante referência à tabela C, determinar o probabilidade, sob 0H , associada a um valor tão grande quanto o valor observado de 2 X . Se se tratar de uma pro α , rejeitar m Exem lo 2.2.1: Dada a seguinte tabela de resultados: Tabela 2.2.1: Marca A Sucesso 19 11 0H e favor da hipótese alternativa. p Marca B Sucesso Insucesso Insucesso 4 16 (2.2.1) 26
  • 30. Capítulo 2: Caso de duas amostras relacionadas ificância de Queremos saber qual a melhor marca de medicamentos com um nível de sign 05,0=α . olução:Res n diferenças entre a m células (B e C). Se verificarmos que B então a m é melhor. Com base neste raciocínio, formulamos as nossas hipóteses: McNemar demo strou que A ou D não contribui para a determinação das arca A e a marca B, Mas sim através das restantes > C, podemos concluir que a Marca A é melhor que a marca B, caso contrário, se B < C arca B 0H : Não existe diferenças entre a marca A e a Marca B ( 2 1 marcaBmarcaA == pp ) 01 : HH é falsa. ( ) 1142857143,0 1619 11619 2 2 = + −− =X com omo 2 XX > então rejeitamos a hipótese nula, dando lugar à hipótese alternativa, isto é, existe diferenças entre a marca A e a marca B, sendo a marca A melhor que a marca B. da probabilidade associada: 1=gl Através da tabela C, calculamos uma aproximação do valor de )1(2 1 α−X : 0039,0)1()1( 2 95.0 2 1 ==− XX α )1(2 95.C 0 Com a ajuda do computador, não é preciso recorrer à tabela, podendo calcular o valor preciso Output 2.2.1: 27
  • 31. Capítulo 2: Caso de duas amostras relacionadas No Mathematica®, a função a utilizar será a mesma da binomial dando como parâm ero total dos valores das células onde há mudança de comportamento entre as ma as, a probabilidade (neste caso é 0,5) e o menor valor entre as células de mudança: pmBinomial PValue 0.5, 4 etros: o núm rc n One- Sided PValue - > 0.0592346 Two- Sided PValue - > 0.118469 om o Mathematica® chegamos à mesma conclusão do método pelas tabelas, com a vanta ilcoxon é mais poderoso que o teste dos sinais, pois, além de considerar o sentido da diferença também tem em conta o seu valor e o posto em que se insere. Para cada par, determinar a diferença ( ), com sinal, entre os dois valores; 2. Atribuir postos a esses ’s independentemente de sinal. No caso de d’s empatados, atribuir a média dos postos empatados; 3. Atribuir a cada p inal inal – e ele representa; 4. Determinar C gem de ser com maior precisão. 2.3 Teste de Wilcoxon O teste de W Método: 1. id id osto o s + ou o s do d qu T qu l à m s som ostos d esmo sinal; 5. Determinar N que é igual ao t d’s co l; 6. O processo para determinação nificân o valor o ervado de T vai depender de N: Se , a tabela G dá os valores críticos de T pa rsos tam observado de T não supera o valor indicado na tabela, para um dado nível de significância e um particular N, pode ser rejeitada; Se , calcular o valor de z pela seguinte fórmu e é igua enor da as de p e m otal de m sina da sig cia d bs 25≤N ra dive anhos de N. Se o valor 0H 25>N la: 24 12N)(1( ( + − = NN N T z (2.3.1)4 + )1+N 28
  • 32. Capítulo 2: Caso de duas amostras relacionadas Determinar a sua pr ade ada, s , mediante referência à Tabela A. Para uma prova bilateral, duplicar o valor de p dado. Se o p assim obtido não for superior a obabilid associ ob 0H α , rejeitar Exemplo 2.3.1: valores que correspondem ao núme nos em diferentes profissões divididos pelo sexo: Tabela 2.3.1: Femin 55 8556 2972 324 19448 1790 5163 12495 7594 1128 3724 614 0H . Na tabela seguinte apresentamos uma sequência de ro de pessoas que trabalham à mais de 25 a ino 47618 15110 65 Masculino 6523 16708 8883 7825 1002 442 11161 1661 6346 3153 4760 10946 10593 23565 Pretendemos determinar se existem grandes diferenças entre os sexos nas diferentes ocupações. esolução: amos as hipóteses: : Não há diferenças entre o sexo masculino e o feminino nas diferentes ocupações. Há diferenças entre os sexos. emos usar o teste de Wilcoxon, escolhendo um R Formul 0H H :1 Ir 05,0=α . Dispomos os dados numa tabela para calcular as diferenças e os postos: 29
  • 33. Capítulo 2: Caso de duas amostras relacionadas Tabela 2.3.2: iA iB iii BAd −= Postos 47618 56523 -8 12905 15110 16708 -1598 5 6555 8883 -2328 8 8556 7825 731 3 2972 1002 1970 7 324 442 -118 1 19448 11161 8287 11 1790 1661 129 2 5163 6346 -1183 4 12495 3153 9342 13 7594 4760 2834 9 1128 10946 -9818 14 3724 10593 -6869 10 614 2356 -1742 6 4591321173 =+++++=+T 6061014418512 =+++++++=−T 45},min{ == −+ TTT Como N < 25 (N = 14) então estamos perante a um caso de pequenas amostras, neste caso basta ver qual o valor tabelado de T descrito na tabela G: Para um N = 14 e 05,0=α (prova bilateral) temos 21=tabeladoT Como então aceitamos a hipótese, isto é, não existe diferenças entre os sexos nas diferentes ocupações. No SPSS®, basta introduzir os dados em duas series de variáveis, ficando com o seguinte resultado: tabeladoTT > 30
  • 34. Capítulo 2: Caso de duas amostras relacionadas Output 2.3.1: teste assimptotico. Não nos dá o valor de T mas sim Podemos observar que o SPSS faz umPodemos observar que o SPSS faz um Capítulo 2: Caso de duas amostras relacionadas 31 Output 2.3.1: teste assimptotico. Não nos dá o valor de T mas sim o valor da probabilidade associada. Neste caso , então podemos concluir que638,0=p não existe diferenças entre os sexos. 31
  • 35. Capítulo 3: Caso de duas amostras independentes CAPITULO 3: CASO DE DUAS ger a tos, ap ensões diferentes. istribuições são contínuas, uma única ordem é sempre possível, visto AMOSTRAS INDEPENDENTES Como os testes do capítulo 2, os testes, de seguida, apresentados, servem, de um modo al, para determinar se as diferenças nas amostras constituem evidência convincente de um diferença nos processos, ou tratamen licados a elas. A principal diferença é de que as amostras são independentes e como tal, podem ter dim 3.1 Teste de Iterações de Wald-Wolfowitz Seja duas amostras independentes mXXX ,,, 21 K e nYYY ,,, 21 K combinadas numa única sequência ordenada da menor à maior, não deixando de identificar a sua amostra. Assumindo que as suas d que teoricamente não existem empates. Por exemplo, com 4=m e 5=n , a sequência poder distribuições são idênticas para todo o x esperam X e Y estejam bem misturadas na sequência obtida. Visto que, a dimensão + a ostra d ulação comum. Com a r s idênticas precedida e seguida por t ero total de iterações de uma amostra ordenada é iterações sugere ên o provém de uma única amostra, mas sim de duas amostr as popula menores que os i configuração pa também podem ticamente menores que os Y’s. Contudo, a ordem inversa tamb e ta iterações não po Em primeiro lugar, o teste de iterações é apropriado quando a hipótese alternativa é bilateral ia ser X Y Y X X Y Y em que é indicado que o menor elemento pertence à amostra X, o segundo menor da amostra Y, etc., e o valor maior pertence à amostra Y. Sobre a hipótese nula de que as )()(:0 xFxFH xY = os que nm N= constitui um am e dimensão N de uma pop ite ação, definida em 1.4, como uma sequência de letra uma letra diferen e ou nenhuma letra, o núm um indicativo do grau de mistura. Um padrão de arranjos com muito poucas que os N valores da sequ cia nã as de du ções diferentes. Por exemplo, se todos os elemento de X são elementos de Y, na sequência formada dever a ter só duas iterações. Esta rticular pode indicar que não só as populações não são equivalentes, como indicar que X’s são estocas ém só contém duas iterações, , por nto, um teste baseado só no número total de de distinguir estes casos. 32
  • 36. Capítulo 3: Caso de duas amostras independentes )() xFx x≠ para alguns x uma variável R aleatória como o número total de iterações numa ordem de m aleatórios. (:1 FH Y Definimos X e n Y valores Desde que poucas iterações tendem a duvidar da hipótese nula quando a alternativa é , O teste de iterações de Wald-Wolfowitz (1940) para um nível de significância1H α geralmente tem a região de rejeição αcR ≤ onde αc é escolhido para ser o maior inteiro que satisfaz αα ≤≤ )( cR quando 0H é verdadeira. sde que as observações X e Y são dois tipos de objectos arranjados numa sequência mente aleatória, se 0H é verdadeira, a distribuição da probabilidade nula de R é stribuição 1.4.2 do corolário 1.4.1 para o teste de iterações de um P De completa igual é di a amostra, bastando mudar os Y’s são os objectos do tipo 2. Este teste tem a particular vantagem de permitir comprovar qualquer tipo de diferença. os aplicar a prova de Wald-Wolfowitz supõe-se que a variável em estudo tenha distribuição básica contínua, e exige mensuração no mínimo ao nível de escala ordin e 2n para m e n respectivamente, assumindo que os X’s são os objecto do tipo 1 e1n Para que possam al. Método: Suponhamos que nn =1 e mn =2 , os passos a seguir são: i. Dispor os 21 nn + valores numa única sequência ordenada; ii. Determinar r = número de iterações; iii. O método para determinação da significância do valor observado de r dep h e , a e F s o ende do taman o de 1n 2n : iv. Se 20,n 21 ≤n tab la I dá o valores crític s de r para um nível de significância 0,05. Caso o valor observado de r não superar o valor tabelado para os valores dados de e , então podemo ao nível de gnificância 1n 2n s rejeitar 0H si 05,0=α ; v. Se um dos valores de e superar 20, podemos utilizar a seguinte ormal: 1n 2n aproximação à N 33
  • 37. Capítulo 3: Caso de duas amostras independentes )1()( 21 2 21 −++ nnnn Após a determ )2(2 5.01 2 2 212121 21 21 −− −⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ +− = nnnnnn nn nn r z (3.1.1) inação do valor de z, determina-se a probabilidade associada através da tabela A. Se o valor p não for maior quep α então devemos rejeitar Teoricamente, não deveria ocorrer empates nos valores de uma prova de iterações, que as populações, das quais se extraíram as amostras, deveriam ter distribuições cont é o a p i bilidade das mens l n o rr e a r e r s. Portanto, por vezes, pode originar valores diferentes para a hipótese nula; Caso ocorram empates. por ínuas. Na aplicação do m todo, p r f lta de rec são ou de sensi urações pode eventua me te co er mp tes nos dife ent s g upo r . Assim para abranger todos os epetir o método para todas as ordens diferentes. Caso i c e o étodo é inapl Exemplo 3.1.1: de discriminação de brilho) de 21 ratos norm o número de tentativas de reaprendizagem de 8 ratos. Queremos saber se os dois imais diferem nas suas taxas de aprendizagem (reaprendizagem). A segui a t e r r feitas pelos ratos do grupo g Tabela 3.1.1: Ratos A 20 55 29 24 75 56 31 45 casos, deve-se r chegue a d ferentes de isõ s s bre a hipótese nula, então, este m icável. Num estudo destinado a comprovar a teoria da equipotencialidade, Ghiselli comparou o número de tentativas de aprendizagem (numa tarefa ais com grupos de an nte tabel dá-nos as tenta ivas de apr ndizagem ( eap endizagem) A e do rupo B: Ratos B 23 8 24 15 8 6 15 15 21 23 16 15 24 15 21 15 18 14 22 15 14 34
  • 38. Capítulo 3: Caso de duas amostras independentes Resolu s : difer s inação de brilho. Os dois grupos de ratos diferem em relação à taxa de aprendizagem (reaprendizagem). A prova a escolher é a prova de Wald-Wolfowitz, pois é uma prova global para a diferença entre duas amostras. O nível de significância a escolher será ção: Formulamos as hipóte es 0H : Não há ença entre os ratos normais e os ratos em período pós-operatório com lesões corticais, no que diz respeito à aprendizagem (ou reaprendizagem) numa tarefa de discrim H :1 01,0=α . Dispomos por ordem crescente e contamos o número de iterações: Tabela 3.1.2: 20Valores 6 8 8 14 14 15 15 15 15 15 15 15 16 18 Grupo B B B B B B B B B B B B B B A Iterações 1 2 Tabel 21 21 22 23 23 24 45 55 56 75 a 3.1.2 (continuação): Valores 24 24 29 31 Grupo B B B B B B A B A A A A A A Iterações 3 4 5 6 Neste caso o número de iterações é 61 =r , mas, note-se que há empates entre os dois grupo Tabela 3.1.3: Valores 6 8 8 14 14 15 15 15 15 15 15 15 16 18 20 s, neste caso, teremos que repetir a contagem: Grupo B B B B B B B B B B B B B B A Iterações 1 2 35
  • 39. Capítulo 3: Caso de duas amostras independentes Tabela 3.1.3 (continuação): Valores 21 21 22 23 23 24 24 24 29 31 45 55 56 75 Grupo B B B B B B B A A A A A A A Iterações 3 4 Assim, ficamos com 42 =r . Dado que 81 =n e 20212 >=n , então não podemos recorrer à tabela F. Para que possamos calcular a probabilidade associada teremos que fazer uma aproximação à Normal com o auxilio da fórmula (3.2.1): Para : Para41 =r 62 =r : [ ] )1218()218( 218)21)(8)(2()21)(8)(2( 5,01 218 )21)(8)(2( 4 2 1 −++ −− −⎟ ⎠ ⎞ ⎜ ⎝ ⎛ + + − =z 864,3= [ ] )1218()218( 218)21)(8)(2()21)(8)(2( 5,01 218 )21)(8)(2( 6 2 2 −++ −− −⎟ ⎠ ⎞ ⎜ ⎝ ⎛ + + − =z 908,2= Recorrendo à Tabela A, calcula-se o valor da probabilidade associada: Para um 864,31 ≥z , verificamos que 0=p Para um 908,22 ≥z , verificamos que a 0014,0 a probabilidade é probabilidade é 1 2 =p Ambas as probabilidades e , são inferiores a1p 2p 01,0=α . Deste modo, concluímos que os dois grupos de animais diferem significativamente nas suas taxas de aprendizagem (reaprendizagem). e gnificância este método não teria efeito. Caso, alguma das probabilidades fossem superior do que o nível d si Vejamos como o SPSS® apresentava o resultado: 36
  • 40. Capítulo 3: Caso de duas amostras independentes Output 3.1.1: Como pod iterações, calcul a probabilidade associada. A conclusão a tirar seria a mesma pelo tradicional Como van visto que, no m cálculo de po 3. Como no teste de iterações de Wald-Wolfowitz, o teste de U de Mann-Whitney (1947) é baseado na ideia de que um padrão particular, exibido quando X e Y variáveis aleatórias estão numa única fila postos em ordem crescente, fornece informação sobre a relação entre as suas populações. Contudo, em vez de basear-se pelo núm de Mann-Whitney é baseado na magnitude de Y’s em relação com os X’s, digamos que é a posição dos Y’s numa sequência ordenada. O objectivo deste teste é comprovar se dois grupos independentes foram ou não extraídos duma população com a mesma mediana. Para isso, as amostras devem ser independentes e aleatórias: uma extraída duma população com mediana não conhecida e outra extraída de outra população com mediana desconhecida . O nível de mensuração enos ordinal e as duas popul A hipótese a comprovar é ver se as populações têm a mesma mediana, sendo a altern emos constatar, o SPSS® indica-nos o número mínimo e máximo de ando para cada um método . tagem para o SPSS®, é o modo rápido como se calcula as probabilidades, étodo tradicional, em caso de empates, temos que repetir a ordenação e o dendo provocar maior número de erros.p , 2 Teste U de Mann-Whitney ero total de iterações, o critério do teste 1M 2M tem que ser pelo m ações devem ter uma distribuição contínua. ativa, as medianas serem diferentes ou uma maior do que a outra. 37
  • 41. Capítulo 3: Caso de duas amostras independentes Método: s aos valores, em caso de empate, fazer a média dos postos correspondentes; a determinar U basta recorrer à fórmula seguinte: 1. Determinar os valores 1n (=número de casos do menor grupo) e 2n ; 2. Dispor em conjunto os valores dos dois grupos, ordenando-os de forma ascendente; 3. Atribuir posto 4. Par );min( 21 UU=U (3.2.1) Sendo: 1 11 )1( R nn nnU −211 2 + += e UnnU 1212 −= com s postos atribuídos à amostra 1; ar a significância do valor de depende de : ma prova bilateral basta duplicar o valor nstar na tabela, deve ser inte tado como 1R = soma do 5. O método para determin 2n i. Se 82 ≤n , a tabela J dá a probabilidade exacta associada a um valor tão pequeno quanto o valor de U. Para u obtido na tabela, Caso o valor de U não co rpre UnnU −= 21' ; ii. Se 209 ≤≤ n , é utilizada a tabela K, que dá os valores2 críticos de U para níveis de significância de 0,001, 0,01, 0,025, 0,05 para um teste unilateral, duplicando estes valores para u ilateral. Caso o valor observado de aior do que /2, deve ser interpretado como U’ descrito na alínea r Se n pr abilidade deve r c ula atr és d pro ação is i o al, av o r q a e rm : ma prova b U é m 21nn ante ior; iii. 202 > , a ob se alc da av e uma a xim à d tribu ção N rm atr és d valo de z ue é nos d do p la fó ula 12 )1( 2121 ++ nnnn 2 21 − = nn U z ostras, expressão utilizada será: (3.2.2) Caso ocorram empates, em grandes am 38
  • 42. Capítulo 3: Caso de duas amostras independentes ⎟⎟ ⎠ ⎞ − − ∑T N 2⎜⎜ ⎝ ⎛ − − = N NN nn nn U z 1)1( 2 3 21 21 onde: 21 nnN += e 12 tt T − = sendo t o número de observaçõe 3 s empatadas para uma dada posiç e o valor observado de U tem probabilidade associada não superior a ão. αS , rejeitar a hipótese nula. Exemplo 3.2.1: a disciplina de Estatística Aplicada, onde se encontra inscritos alunos do curso de Matem Tabela N ática (ensino de) e Matemática/Informática, registaram-se as seguintes classificações numa das frequências: 3.2.1: Mat. (ensino de) 10.5 16.5 11 9.8 17.1 1.5 14.8 9.9 9.8 10.3 8.7 Mat./Informática 11.4 12.9 10.1 7.9 8.8 12.8 O que se pode conclu édias das ordens das classificações. Resolução: ulamos as hipóteses: ática Há diferenças entre as médias das ordens (teste bilateral). pós a contagem do número de casos em ambas as amostras temos: (3.2.3) ir acerca das m Form 0 (ensino de) e de Matemática Informática H : Não há diferenças entre as médias das ordens das notas dos alunos de Matem H :1 A 39
  • 43. Capítulo 3: Caso de duas amostras independentes 40 61 =n e 112 =n Calculemos U: Tabela 3.2.2: 1,5 7,9 8,7 8,8 9,8 9,8 9,9 10,1 10,3 10,5 11 11,4 12,8 12,9 14,8 16,5 17,1 E I E I E E E I E E E I I I E E E 1 2 3 4 5,5 5,5 7 8 9 10 11 12 13 14 15 16 17 34)141312842( 2 )16(6 1161 =+++++− +× +×=U 32341162 =−×=U 32)32;34min( ==U Como 9 202 ≤n recorremos à tabela J:≤ Para 61 =n , 112 =n e 05.0=α (bilateral), temos m populaçõ Vej Após a introdução dos valores, dá-nos o seguinte resultado: Output 3.2 : 3=tabeladoU .1 Co o calculadotabelado UU < , podemos concluir que as duas amostras provêem de es com a mesma média. amos como podemos resolver este exemplo no SPSS®: .1:
  • 44. Capítulo 3: Caso de duas amostras independentes É claro que existe clara vantagens em utilizar o SPSS®. Pois, dá um quadro resume que contém o valor exacto da probabilidade, a probabilidade assimptótica e tam ém o valor de U. Tendo como principal vantagem o pouco tempo gasto para o emprego deste teste. No Mathematica® coma ajuda da função npmMannWhitneyTest[list1,list2], fica: Mat Mat 0 rpm M b Ensino = 10.5, 16.5, 11, 9.8, 17.1, 1.5, 14.8, 9.9, 9.8, 10.3, 8.7 Informatica = 11.4, 12.9, 1 .1, 7.9, 8.8, 12.8 MannWhitneyTest MatEnsino, atInformatica Title: Mann- Whitney Test Sample Medians: 10.75, 10.3 Test Statistic: 32. Distribution: Normal Approximation 2 - Sided PValue - > 0.919895 ina-se especificamente a dados de mensuração mínima na escala ordinal. Esta prova tem como objectivo ver se as populações têm a mesma oscilação, isto é, o teste de Moses é aplicável quando é previsto que um dos grupos tenha valores altos, e o outro alores baixos. deste teste é que não requer que as populações tenha medianas iguais. Todavia, Moses (1952b) salienta que um teste baseado em medianas ou em postos médios, por exemplo, o teste de Mann-Whitney, é mais eficiente, devendo, por conse ialmente útil quando existem razõe a priori para esperar que determinada condição experimental conduza a escores extrem ou em outra direcção. Mé es são: eja e o número de casos de controlo e experimentais respectivamente. ar q eno arbitrário; Esta função apenas dá um valor aproximado de p. Podemos concluir que para fazer um teste com maior rigor e rapidez, o SPSS® seria a melhor escolha, pois o SPPS® calcula o valor exacto. 3.3 Teste de Moses para reacções extremas O teste de Moses dest v A principal vantagem U guinte, ser preferido à prova de Moses. Esta última é espec s os em uma todo: Os passos a seguir para o teste de Mos S Cn En 1. Antes de reunir os dados deve-se especific Será um número pe uh . 41
  • 45. Capítulo 3: Caso de duas amostras independentes 2. Reunidos os dados, dispô-los em postos em uma única série conservando a ntidade do grupo em cada posto; D t m â n i d s eliminar os postos mais extremos dos cada extremidade da respectiva série, isto é, ide 3. e er inar o valor de s , mbito ou abra gênc a o postos de controlo, apósh h C ’s em 112 +−= CCsh (3.3.1) onde, é o posto que corresponde o último grupo de controlo, retirando h valores corresponde ao primeiro posto do grupo de controlo, retirando h 4. Determinar o valor de 2C de controlo e 1 valores de controlo; C g , excesso do valor observado de sobre ,ou seja, 5. Determinar a probabilidade associada aos dados observados, calculando o valor de pela fórmula: hs hnC 2− )2( hnsg Ch −−= ; p ( ) ⎟⎟ ⎠ ⎜⎜ ⎝ Cn E ⎞⎛ + ⎟⎟ ⎠ ⎜⎜ ⎝ −⎟⎟ ⎠ ⎜⎜ ⎝=+−≤ ∑ EC EC Ch nn ini ghnsp 2 ⎞⎛ −++⎞⎛ −−+ = g i E ihnhni 0 1222 m caso de ocorrência de empates entre grupos, considerar esses empates de todos odos possíveis e determinar para cada um deles. A média desses p’s é então utilizada para a decisão; 6. Se p não superar pos m α , rejeitar xemplo 3.3.1: s e o grupo inutos e o grau d . o grau 20 significa que a pessoa tem pavor a ratos. (3.3.2) .0H E Num estudo para avaliar o grau de medo, perante ratos, escolheu-se dois grupos de indivíduos. O grupo C, constituído por 7 indivíduos, que trabalha diariamente com rato E, formado por 6 indivíduos, têm dificuldades em controlar o medo, quando estão próximos de ratos. Quer o grupo C quer o grupo E estiveram em contacto com ratos durante 10 m e medo foi medido numa escala de 0 a 20 Os resultados foram: 42
  • 46. Capítulo 3: Caso de duas amostras independentes Tabela 3.3.1: Grupo C 6 5 10 7 12 3 8 Grupo E 0 4 11 18 9 19 Será que as duas amostras provêem da mesma população? Resolução: vidimos em dois casos: o da esquerda com Formulamos as hipóteses: 0H : Não há diferenças entre o grupo C e o grupo E. :1H Há diferenças entre os dois grupos. Di 0=h e o da direita com po: Tabela 3.3.2: Posto 5 11 12 13 1=h . Dispomos os valores em postos, conservando o gru Tabela 3.3.3: Posto 1 2 3 4 5 6 7 8 9 10 11 12 13 Grupo E C E C C C C E C E C E E 1 2 3 4 6 7 8 9 10 Grupo C C C C E C E C E EE C E Determinamos o valor de g , com 10=hs e 7=Cn : 3)027(10 =×−−=g Determinamos o valor de g , com 6=hs e 6149 =+−=hs101211 =+−=hs :7=Cn 1)127(6 =×−−=g lizando a fórmula 3.3.2:Então uti ( ) ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ⎟⎟ ⎞ ⎜ ⎛ − ⎟ ⎞ ⎜ ⎛ + ∑ 753 ii ( ) ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ − − ⎟⎟ ⎞ ⎜ ⎛ + ∑ 31 i ⎠ ⎜ ⎝=≤ = 7 13 6 9 6 0i h i i i sp⎠ ⎜ ⎝ −⎟ ⎠ ⎜ ⎝=≤ = 7 13 6 h i ,0= 10 0i i sp 2168 1795,0= Sendo , concluímos que, para qualquer um dos casos, não e is05,0=α x te diferenças entre os grupos C e E, sendo assim da mesma população., as amostras provêem 43
  • 47. Capítulo 3: Caso de duas amostras independentes No SPSS®, após a introdução dos valores e escolha do teste, temos o seguinte resultado: Output 3.3.1: Como podemos ver no SPSS®, ele calcula a probabilidade associada para um 1=h (por e para um 0=h , assim não o precisamos de escolher um h no início do teste. ematica®, o proc im ele escolhido) No Math ed ento a utilizar foi o npmMosesTest, este procedimento aceita m h escolhi Prim Amo Amo rpmMosesTest amostra1, amostra2, 1 co o parâmetros as duas amostras, sendo a de controlo a primeira, e o do: eiramente, criamos as duas listas e de seguida corremos o procedimento: stra1 = 6, 5, 10, 7, 12, 3, 8 stra2 = 0, 4, 11, 18, 9, 19 h = 1; Sh 6= Nc = 7; Ne = 6; N = 13 Valor Unilateral de p: 0.179487 Valor Bilateral de p: 0.358974 o podemos verificar, o Mathematica® dá-nos os valores de ambas a probabilidades e as p escala de medida pode ser em apenas nominal. Com rincipais variáveis do teste. As vantagens deste procedimento são a rapidez e a precisão dos valores dados. 3.4 Teste da Qui-Quadrado ( 2 χ ) para duas amostras independentes O objectivo deste teste é de comprovar que dois grupos diferem em relação a determinada característica e, consequentemente, com respeito à frequência relativa com que os componentes dos grupos se enquadram nas diversas categorias. Para a comprovação, contamos o número de casos de cada grupo que recai nas diversas categorias, e comparamos a proporção de casos de um grupo nas diversas categorias, com a proporção de casos do outro grupo. A 44
  • 48. Capítulo 3: Caso de duas amostras independentes Método: Os passos a seguir para o teste são: 1. Enquadrar as frequências observadas numa tabela de contingência . Utilizando as k colunas para os grupos e as r linhas para as condições. Assim para este teste, a ( ) de cada célula fazendo o produto dos totais 3. P rar dois casos: Se rk × 2=k ; ijE2. Determinar a frequência esperad marginais referentes a cada uma e dividindo-o por N. (N é o total de casos); ara determinar o valor de χ há que conside2 a fórmula será: ( ) 2>r ∑∑ − = r k ijij E EO 2 2 χ = = = número de casos observados na categoria i no grupo j o grupo j sob = número de grupos na classificação i j ij1 1 ijO ijE = número de casos esperados na categoria i n 0H k r = número de categorias na classificação; Se 2=r então consideramos a seguinte tabela: Tabela 3.4.1: Grupo 1 Grupo 2 Total Categoria 1 A B A+B Categoria 2 C D C+D Total A+C B+D N Então temos a fórmula: ))()()(( 2 2 2 DBCADCBA N BCADN ++++ ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ −− =χ Esta fórmula é um pouco mais fácil da aplicar do que a fórmula (3.4.1), pois requer apenas uma divisão. Além disso, tem a principal vantagem de (3.4.2) (3.4.1) 45
  • 49. Capítulo 3: Caso de duas amostras independentes incorporar uma correcção de continuidade que melhora sensivelmente a aproximação do 2 χ ; 4. Determinar a significância do valor observado de 2 χ com )1)(1( −−= krgl , com o auxílio da tab C. Para um teste unilateral basta dividir por dois o nível de significância indicado. Se a probabilidade indicada na tabela for inferior a ela α , rejeitar a hipótese nula. Exemplo 3.4.1: Um investigador estudou a relação entre os interesses vocacionais e a escolha do currículo, e a taxa de desistência do curso universitário por parte de estudantes bem dotados. Os indivíduos observados era no mínimo de 90 pontos percentuais nos testes de admissão e que haviam resolvido mudar de carreira após a matrícula. o pesquisador comparou os e lha curricular se manteve na linha considerada desejável à vista do resultado obtido no Teste Vocacional de Strong (tais casos sendo considerad como “positivos”) com os estudantes destacados cuja escolha curricular se processou em sentido diverso do indicado pelo Teste de interesse. A hipótese do inves da “positiva” acusam maior frequência de permanência na faculdade ou no curso universitário inicialmente escolhido. Os valores são dados na seguinte tabela: Tabel m estudantes classificados studantes destacados cuja a esco os tigador é que os estudantes cuja escolha foi considera a 3.4.2: Positivo Negativo Total Afastamento 10 11 21 Permanência 46 13 59 Total 56 24 80 Resolução: Formulamos as hipóteses: : Não há diferenças entre os dois grupos no que diz respeito à proporção dos estudantes que permanecem na faculdade. 0H 46
  • 50. Capítulo 3: Caso de duas amostras independentes :1H A percentagem de permanência na faculdade é maior que os estudantes cuja a escolha do currículo foi considerada “positiva”. Iremos trabalhar com um nível de significância 05,0=α . Considerando os valores dados pela tabela ficamos com: )24)(56)(59)(21( 2 80 )46)(11()13)(10(80 2 2 ⎟ ⎠ ⎞ ⎜ ⎝ ⎛ −− =χ 424,5= A probabilidade de ocorrência, sob , de com0H 424,52 ≥χ 1=gl é 01,0)02,0( 2 1 =<p . Como este valor é inferior a 05,0=α , a decisão é rejeitar . Conclui- se, pois, que os estudantes bem dotados cuja escolha de currículo foi considerando “positiva” acusam maior frequência de permanência na universidade do que os estudantes bem dotados cuja escolha foi considerada “negativa”. No SPSS® temos o seguinte Output: Output 3.4.1: 0H O SPSS® dá-nos o valor de , com e sem o factor de correcção de continuidade e calcula o valor assimptótico da prob ade associada 2 χ abilid 009,0=p . O procedimento para o Mathematica®, que será descrito a seguir, serve só para as tabelas de contingência . Este procedimento tem a particularidade de ter uma opção para22× 47
  • 51. Capítulo 3: Caso de duas amostras independentes a escolha dois tipos de co (1934) , já considerado na fórmula 3.4.2, e o m ima considerado: No caso de não escolhermos o método de correcção, o procedimento apenas calcula o valor de rrecção de continuidade: o método de Yates étodo de Haber2 . Vejamos então para o exemplo ac p sem utilizar um dos factores de correcção: rpmChiSquare2x2Test 10, 11, 46, 13 Title: Chi Square Test Distribution: Chi Square Correction: None Two- Sided P- Value: 0.00915693 One- Sided P- Value: 0.00457847 rpmChiSquare2x2Test 10, 11, 46, 13 mthd®yates Title: Chi Square Test Distribution: Chi Square Correction: Yates Two- Sided P- Value: 0.0198649 One- Sided P- Value: 0.00993245 rpmChiSquare2x2Test 10, 11, 46, 13 mthd®haber Title: Chi Square Test Distribution: Chi Square Correction: Haber Two- Sided P- Value: 0.0125872 One- Sided P- Value: 0.00629361 Qualquer um dos três casos chega à decisão de rejeitar a hipótese nula. Assim os, que a percentagem de permanência na faculdade é maior que os estudantes cuja a escolha do currículo foi considerada “pos concluím itiva”. Note-se que qualquer dos valores é semelhante. atica® está em clara vantagem em relação à utilização da tabela ou me Sendo assim o Mathem smo do SPSS®. siderando { }2,1,2,1:min === jiOO ij 2 Con temos: Se entãoOOij 2≤ =D maior múltiplo de 0.5 que é OOij −< ou se entãoOOij 2> 5.0−−= OOD ij o teste estatístico fica: ))()()(( 23 2 DBCADCBA DN H ++++ =χ 48
  • 52. Capítulo 4: Caso de k amostras relacionadas CAPÍTULO 4: CASO DE K AMOSTRAS RELACIONADAS O objectivo principal dos testes que irão ser apresentados, é comprovar a hipótese de que a Há igual tam pode(m) N grupos pode ser mensurado sob todas as k condições. Em tais planos, devem-se usar os testes estatísticos aqui apres tabela de contingência. odo, o teste de Cochran permite investigar quando um conjunto de k proporções relacionadas difere significativamente. Método: Os passos a seguir para o teste são: 1. Para dados dicotom zados, at ir o valo ” a cada “su esso” e o valor “0” a cada “insucesso”; 2. Dispor os dados numa tabela s k amostras tenham sido extraídas da mesma população ou de populações idênticas. dois planos básicos para comprovar k grupos. No primeiro deles, as k amostras de anho são postas em correspondência de acordo com determinado(s) critério(s) que afectar os valores das observações. Ou então cada um dos entados. 4.1 Teste Q de Cochran O modelo típico para o teste Q de Cochran (1950) envolve um conjunto de 2≥k tratamentos que são aplicados independentemente para cada N indivíduos. Os resultados de cada tratamento são guardados como uma variável dicotómica de sucesso e insucesso. Os uns e zeros (que correspondem ao sucesso e insucesso respectivamente) são dispostos numa Deste m i ribu r “1 c Nk × , com N linhas. N = número de casos em cada k . . Determinar o valor Q utilizando a fórmula: k colunas e grupos 3 ( ) ∑ ∑ ∑ ∑ = = = = − ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎣ ⎡ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ −− = N i N i ii k j k j jj LLk GGkk Q 1 1 2 1 2 1 2 1 (4.1.1) 50
  • 53. Capítulo 4: Caso de k amostras relacionadas onde é a soma dos valores das j colunas; s valores das i linhas. 4. a significância do valor observado de Q pode ser determinada mediante referência à uadrado com : jG L é a soma doi tabela C, pois Q tem distribuição aproximadamente Qui-Q 1−= kgl . Se a probabilidade associada à ocorrência, sob H , de um valor tão grande quanto0 um valor observado de Q não supera α , rejeita-se a hipótese nula. Exemplo 4.1.1: Cada um dos quatro fãs de futebol criou um s ma para antever os resultados dos jogos da 1ª liga. Foram escolhidos ao acaso seis jogos, e cada um dos fãs anteviu o resultado de cada jogo. Os resultados dos prognósticos foram pos num tabela, utilizando “1” para um prognóstico bem sucedido e “0” para um prognóstico falhado. Os resultados são apresentados na tabela 4.1.1. Queremos testar a hipótese de que cada fã tem um sistema de igual efeito para antever os resultados dos jogos com um nível de significância de 5%. Tabela 4.1.1: Fãs iste dis tos a Jogos 1 2 3 4 Totais 1 1 1 0 0 2 2 1 1 1 0 3 3 1 1 1 0 3 4 0 1 1 0 2 5 0 1 0 0 1 6 1 1 0 1 3 Totais 4 6 3 1 14 51
  • 54. Capítulo 4: Caso de k amostras relacionadas Resolução: As hipóteses são as seguintes: : Cada fã tem um sistema de igual efeito para antever os resultados dos jogos de futebol. Existe diferenças nos efeitos dos sistemas criados pelos fãs. Primeiro dispomos os resultados de novo numa tabela, que será apenas uma modificação da tabela 4.1.1: Tabela 4.1.2: Fãs 0H :1H Jogos 1 2 3 4 iL 2 iL 1 1 1 0 0 2 4 2 1 1 1 0 3 9 3 1 1 1 0 3 9 4 0 1 1 0 2 4 5 0 1 0 0 1 1 6 1 1 0 1 3 9 jG 4 6 3 1 14 36 2 1jG 6 36 9 1 62 auxílio da fórmula 4.4.1:Então, após o cálculo dos somatórios temos, com o ( )[ ] 8,7 36144 146243 2 = −× −×× =Q Calculamos agora a significância do valor observado, com a ajuda da tabela C: 314 =−=gl Assim, como 05,002,0 ≤≤ p e 05,0=α , rejeitamos a hipótese, concluindo que existe diferen feitos dos sistemas criados pelos fãs.ças nos e 52
  • 55. Capítulo 4: Caso de k amostras relacionadas No SPSS® temos os seguintes resultados: Output 4.1.1: Output 4.1.2: De mas teremos maior certeza de rejeitar a hipótese nula se activás aior precisão como consta no Output 4.1.2. No a®, ransQTest: rpm facto, p está entre 0,01 e 0,05, semos a opção de fazer um teste com m Mathematic utilizaremos a função npmCoch resultados = 1, 1, 0, 0 , 1, 1, 1, 0 , 1, 1, 1, 0 , 0, 1, 1, 0 , 0, 1, 0, 0 , 1, 1, 0, 1 CochransQTest resultados , mthd®approx Title: Cochran Q Test Test Statistic: 7.8 Totals: 4, , 3, 1 tion: Chi quare Column 6 SDistribu PValue: rpmCoch 0.0503311 ransQTest resultados , mthd®exact Title: Cochran Q Test Test Statistic: 7.8 Column Totals: 4, 6, 3, 1 Distribution: Exact PValue: 0.0481771 a tabela na lista “resultados”. Com a opção para approx, obtemos um valor aproximado de , baseado na distribuição da Qui-Quadrado com três graus de lib Foi introduzida 053311,0=p erdade, com este valor aceitava-se a hipótese nula o que seria um erro. Porém, rejeitávamos (com )05,0=α se escolhêssemos o método exacto. 53
  • 56. Capítulo 4: Caso de k amostras relacionadas Para concluir, o Mathematica® é, de facto, o is indicado para os cálculos, porque dá- nos os valores com maior precisão, emb re tados originassem respostas diferentes. Cabe ao investigad 4.2 Teste de Friedman uando os dados de k amostras correspondentes se apresentam pelo menos em escala ordinal, o teste de Friedman (1937) é útil para comprovar de que as k amostras tenham sido extraídas da mesma população. M Os p Dispor os valores numa tabela de dupla entrada com k colunas e N linhas; 3. Determinar a soma dos postos da cada coluna: ; cular o valor de , pela fórmula: ma ora os dois sul or escolher. Q étodo: assos a seguir para o teste são: 1. 2. Atribuir postos de 1 a k aos valores de cada linha; jR 2 rχ ( )∑= +− + = 4. Cal k 2 j)1 jr kNR kNk 1 2 )1( ( 1 χ onde:N é o nú k número de colunas; soma das ordens na coluna. 5. O método para determinar a probabilidad associado a valor observado de depende dos tamanhos de N e k: bela N dá-nos as probabilidades exactas associadas a valores tão grandes q m observado para k=3 com N de 2 a 9 e para k=4 com N de 2 a 4. cedidos os valores ui- 2 3 mero de linhas; é o jR a e de ocorrência sobre a hipótese nula 2 rχ i. A ta 2 rχuanto u Caso os valores tenham ex da tabela N, a probabilidade associada pode ser determinada mediante referência à distribuição Q Quadrado (Tabela C) com 1−= kgl ; 6. Se a probabilidade obtida pelo método adequado indicado no item 5 não superar α, ita-se H0. (4.2.1) reje 54
  • 57. Capítulo 4: Caso de k amostras relacionadas Exemplo 4.2.1: A fim de avaliar se houve progressão na aprendizagem, um professor reteve as médias de um grupo de 4 alunos no final de cada trimestre: Tabela 4.2.1: Alunos A B C D 1º Trimestre 8 15 11 7 2º Trimestre 14 17 13 10 3º Trimestre 15 17 14 12 Considerando um 05,0=α , que conclusão poderá tirar? Hipóteses: : Não houve progressão na aprendizagem ao longo do ano escolar; Houve progressão ao longo do ano escolar. Atribuímos os postos através da seguinte tabela e calculamos as somas: Tabela 4.2.2: Alunos 1º Trimestre 2º Trimestre 3º Trimestre Resolução: 0H :1H A 1 2 3 B 1 2.5 2.5 C 1 2 3 D 1 2 3 jR 4 8.5 11.5 2 jR 16 72.25 132.25 Assim, fica: e então4=N 3=k [ ] 125,7)13(4325,13225,7216 434 122 =+××−++× ×× =rχ 55
  • 58. Capítulo 4: Caso de k amostras relacionadas 56 Com o auxílio da Tabela N temos 042,00046,0 ≤≤ p . Assim, com 05,0=α , rejeitamos a hipótese zagem ao longo do no es nula, concluindo que houve progressão na aprendi a colar. No SPSS®, chegamos à mesma conclusão, pois, dá-nos um 022,0=p . Output 4.2.1: pmFriedmanTest = medias No Mathematica®, dá-nos a aproximação à Qui-Quadrado, sendo o valor mais preciso do que o SPSS®. medias = 8, 15, 11, 7, 14, 17, 13, 10, 15, 17, 14, 12 r Title: Friedman Test 2, 13.5, 14.5Sample Medians: 1 Test Statistic: 7.6 Distribution: ChiSquare PValue: 0.0223708
  • 59. Capítulo 5: Caso para k amostras independentes CAPÍTULO 5: CASO DE K AMOSTRAS INDEPENDENTES Na análise de dados de pesquisa, o pesquisador frequentemente precisa decidir se s valores amostrais quase sempre são um tanto diferentes, e o problema é deter populaçõ que podem ser esperadas entre amostras aleatórias da popu . O objectivo da mesma população ou de populações idênticas em relação às médias. ao nível o ão os seguintes passos a percorrer: tos de 1 a N; terminar o valor de R (soma dos postos) para cada um dos k grupos de postos; 3. Caso não o m c r e u mula: diversas variáveis independentes devem ser consideradas como proveniente da mesma população. O minar se as diferenças amostrais observadas sugerem realmente diferenças entre as es ou se são apenas variações casuais mesma lação 5.1 Teste de Kruskal-Wallis do teste de Kruskal-Wallis (1952) é ver se as diferentes k amostras provêem O teste supõe que a variável tenha distribuição contínua, e exige mensuração no mínimo rdinal. Método: S 1. Dispor, em postos, as observações de todos os k grupos numa única série, atribuindo-lhes pos 2. De corram e pates, alcular o valo de H p la seg inte fór )1+(3− j)1 1+ ∑( = 12 k 2 j = N n R N H onde: = número de amostras; , número de casos em todas as amostras combinadas; a das ordens na amostra j (colunas). a uma delas a média das respectivas ordens. O valor de pates, sendo assim, é necessário introduzir um factor de correcção. Deste modo, para o calculo de H deve-se utilizar a fórmula: (5.1.1) N j k jn = número de casos na amostra j ∑= jnN jR = som Se houver empates, atribui-se a cad H é influenciado pelos em 57
  • 60. Capítulo 5: Caso para k amostras independentes NN T R H k − + = 2 1 2 o en n me se s m s um o de valores em s); H depende do tamanho de k e do tamanho dos grupos: i. Se e N +(3 njN(N j j −3 − ∑1 = ∑)1 1 ) 1 nde: T = tt −3 (s do o ú ro de ob rvaçõe e patada n grup patado 4. O método para determinar a significância do valor observado de 3=k 5,, 321 ≤nnn e associada, sob , pode-se utilizar a tabela O para determinar a probabilidad , de um H tão grande quanto o observado; ii. Em outros casos, a significância de um valor tão grande quanto o valor 0H observado de H pode ser determinado mediante referência à tabela C, com 1−= kgl ; 5. Se a probabilidade associada ao valor observado de H não superar o nível de significância previamente fixado, rejeitar em favor de lo 5.1.1: Em 1996 nas semifinais da corrida de obstáculos a cavalo femininos de 400 metros os tempos foram os seguintes: Tabela 5.1.1: Atleta 1 54.88 54.96 55.91 55.99 56.67 57.29 0H 1H . Exemp Atleta 2 54.67 54.87 54.95 56.27 58.33 81.99 Atleta 3 55.66 56.46 56.74 57.86 58.90 59.56 Utilize o teste de Kruskal-Wallis, com 05,0=α , para testar se existe diferenças entre as atletas. Resolução: As hipóteses a testar são: : Não há diferenças entre as atletas; Há diferenças entre as atletas. Dispomos os postos consoante os dados: 5 1( . .2) 0H :1H 58
  • 61. Capítulo 5: Caso para k amostras independentes Tabela 5.1. Atleta 1 Posto 3 2: 54.88 54.96 55.91 55.99 56.67 57.29 471 =R 3 5 7 8 11 1 Atleta 2 Posto 54.67 1 2 4 9 15 18 54.87 54.95 56.27 58.33 81.99 492 =R Atleta 3 Posto 55.66 6 56.46 10 56.74 12 57.86 14 58.90 16 59.56 17 753 =R Como não há empates, calculamos H pela fórmula 5.1.1: 85, 42 6 75 6 49 6)18( 2 =+−=H Output 5.1.1: )118(3 4712 ⎢ ⎡ )118( ⎣+ 2 ⎥ ⎤2 + ⎦ + A partir da tabela C, observamos que o valor de p está entre 0,3 e 0,2, concluindo, a um nível de significância de 0,05, que não há diferenças entre as atletas. No SPSS temos o mesmo resultado mas com maior rigor e rapidez, pois sabemos agora que 24,0=p : No Mathematica® o resultado apresenta-se com maior número de casas decimais: rpmKruskalWallisTest tabela Title: Kruskal Sample Medi Wallis Test ans: 55.9, 55.61, 57.3 Test Statistic: 2.8538 Distribution: Chi Square PVa ue - > 0.240052l 59
  • 62. Capítulo 6: Medidas de Correlação CAPITULO 6: MEDIDAS DE CORRELAÇÃO 6.1 Coeficiente de Correlação por postos de Kendall: τ Suponhamos que um número de alunos está classificado por postos de acordo com as suas habilidades em matemática e em música. A seguinte tabela mostra os valores de cada aluno B C D E F G H I J designado por letras: Tabela 6.1.1: Aluno: A Matemática: 7 4 3 10 6 2 9 8 1 5 Música: 5 7 3 1 9 6 2 8 410 Queremos saber se há alguma relação entre a habilidade na matemática e na música. Observando os resultados da tabela anterior, vemos que a concordância entre eles está longe de ser perfeita, mas alguns alunos ocupam a mesma ou perto da mesma posição entre as duas disciplinas. Podemos ver a correspondência mais facilmente se na tabela for dada uma ordem natural aos resultados de matemática: Aluno: I F C B J E A H G D Tabela 6.1.2: Matemática: 1 2 3 4 5 6 7 8 9 10 Música: 8 9 3 7 4 1 5 2 6 10 intensidade da correlação dos postos. esta medida (que será um coeficiente que designamos por O que queremos saber é uma medida de correspondência entre estas duas variáveis, ou medir a τ ) deve ter as seguintes propriedades: Se a correspondência entre os postos for perfeita, por exemplo, se todos os indivíduos tiverem o mesmo posto nas duas disciplinas, τ deve ser +1, indicando uma correlação perf S eita positiva; e houver uma discordância perfeita, por exemplo, se um dos postos for o inverso do outro, τ deve ser –1, indicando uma correlação perfeita negativa; Se houver um crescime lo dnto do va r e τ en e , o deve corresponder a um acré tre –1 1 entã scimo na relação entre as duas variáveis. 60
  • 63. Capítulo 6: Medidas de Correlação Consideremos qualquer par de a por exemplo, o par AB. Os seus ostos, 7 e 4, ocorrem em ordem inversa (a ordem natural 1,...,10 é a ordem directa) e consequentemente atribu em directa, deveríamos atribuir +1. Na segunda variável (música) no par AB os postos estão em ordem directa, deste modo, atribuímos +1. cada par áveis estavam (+1) ou não (-1) i i O m lunos da tabela 6.1.1, p ímos o valor a este par –1. Se o par estivesse em ord Agora, multiplicamos os dois valores do par que dá (-1)(+1)=-1. É evidente que para os valores seria +1 e –1, que significaria que ambas as vari gua s em termos de ordem. esmo procedimento é feito para todos os 45 pares. O total de resultados positivos são 21=P e os negativos são 24−=− Q . Adicionando mos o resultado final 3os dois te −=S . os postos são idênticos emos postos são idênticos emSe cada um, e se os 45 valores forem positivos então o valor máxi e cada um, e se os 45 valores forem positivos então o valor máximo de S é 45. Portanto calculamos o valormo de S é 45. Portanto calculamos o valor τ como: 07,0 45possívelmáximoResultado −=−= O valor próximo de zero indica que existe uma correlação muito pequena entre as duas 3actualResultado Consideremos o caso geral. Se tivermos duas variáveis com n valores para comparar. O número de pares para comparar é variáveis. ( )1 22⎠⎝ 1 =⎟⎟ ⎞ ⎜⎜ ⎛ nn n . Este é o número máximo de resultados possíveis. Se é a soma dos resultados obtidos, então definimos o coeficiente de correlação como: − S )1( −nn 2 = S τ atemática) está na ordem natur da 4 1 5 2 6 10 Existe um modo prático de determinar o valor de S (número de resultados positivos): Considerando a tabela 6.1.2. em que a primeira variável (m al, a segun variável apresenta a seguinte sequência: 8 9 3 7 Considerando o primeiro valor, 8, observamos que a direita existen dois valores maiores. Então contribui-se para P o valor +2. Tendo em atenção o 9, encontramos, à direita, a contribuição de +1 para P e assim sucessivamente. Assim temos o valor de P que é (6.1.1) 61
  • 64. Capítulo 6: Medidas de Correlação 21122431512 =++++++++=P (6.1.2) à vari bém à variável Y postos de 1 a n. Note-se que na tabela 6.1.1 os postos já foram atribuídos; m na ordem natural. No exemplo acima referido será a tabela 6.1.2; ervar a ocorrência dos postos de Y quando os postos de X se acham na ordem natural. Determinar o valor de S (soma dos resultados de todos os pares) pelo processo acima descrito; 4. Se não há empates, aplicar a fórmula 6.1.1. Em caso de haver observações empatadas, atribuímos às observações empatadas a média dos postos que lhe caberiam se não houvesse empate. m consequentemente, ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ −= 2 2 n PS Método: 1. Atribuir postos de 1 a n ável X. Atribuir tam 2. Ordenar os n indivíduos de maneira que os postos de X se apresenta 3. Obs O efeito dos e pates consiste em modificar o denominador da fórmula 6.1.1. Neste caso temos: ( ) ( ) yx TnnTnn S −−−− = 1 2 1 2 τ (6.1.3) 11 onde: ∑ −= )1(2 1 ttTx , t sendo o número de observações empatadas em cada grupo de empates na variável X. ∑ −= )1(2y empates na v 1 ttT , t sendo número de observações empatadas em cada grupo de ariável Y. n indivíduos constituem uma amostra aleatória de alguma população, pode-se comp Se os rovar se o valor observado de τ indica existência de associação entre as variáveis X e Y na população. O método depende do tamanho de n: Para 10. a tabela Q dá a probabilidade associada (unilateral) a um valor tão grande quanto um S observado; . Para n>10, pode-se calcular o valor de z associado a ≤n1. 2 pela fórmula:τ 62
  • 65. Capítulo 6: Medidas de Correlação ( ) ( ) 52 +n z = τ (6.1.4) 19 −nn A tabela A dá a probabilidade associada a um valor tão grande quanto um z observado. Se o valor de p não superar α , 0H pode ser rejeitada. Retomando o exemplo da tabela 6.1.1, vejamos o que acontece no SPSS®: Output 6.1.1: O coeficiente (τ ) é dado com maior precisão e, claro, com rapidez. O SPSS® também existência ou não de associação entre as variáveis. Neste caso, dá-nos o valor da probabilidade associada, assim podemos comprovar se o coeficiente indica α>p , sendo ele de 0.05, podemos concluir que o coeficiente indica existência de associação. O Mathematica®, com a função KendallRankCorrelation, dá-nos apenas o coeficiente, mas é neste software que consegue-se m ior precisão N KendallRankCorrelation 7, 4, 3, 10, 6, 2, 9, 8, 1, 5, 5, 7, 3, 10, 1, 9, 6, 2, 8, 4 a - 0.0666667 63
  • 66. Capítulo 6: Medidas de Correlação 6.2 Coeficiente de Correlação por postos de Spearman: Sr É uma medida de associação que exige que ambas as variáveis se apresentem em escala ordinal, de modo que os objectos ou indivíduos em estudo possam dispor-se por postos em duas séries ordenadas. Consideremos a tabela 6.1.1, vamos subtrair os postos da música pelos de matemática e amostrar os resultados na seguinte tabela: Tabela 6.2.1: Aluno: A B C D E F G H I J Matemática: 7 4 3 10 6 2 9 8 1 5 Música: 5 7 3 10 1 9 6 2 8 4 id 2 -3 0 0 5 -7 3 6 -7 1 2 id 4 9 0 0 25 49 9 36 49 1 O somatório das diferenças id deve dar zero (serve como ferramenta de verificação), Também na tabela mostra o quadrado das diferenças. Denotando o som porque é a soma das diferenças de duas quantidades que cada uma delas vai de 1 a 10. atório destas diferenças por ∑= iciente de Spearman como n i id 0 definimos o coef 2 nn d r n i i −= ∑ s − = 3 Da qual, aplicada ao exemplo, fica 0 2 6 1 ( ) (6.2.1) 103,0 149369492500946 1 −= 10103 − +++++++++ −=rS Método: postos a variável X, de 1 a n. O mesmo para a variável Y; 2. Determinar o valor das diferenças de cada indivíduo e elevá-lo ao quadrado (Como mostrado na tabela 6.2.1); 3. Calcular aplicando a fórmula (6.2.1). 1. Dispor em Sr 64
  • 67. Capítulo 6: Medidas de Correlação Caso haja empates: Quando a proporção de empates na variável X ou na var é grande, deve-se incorporar um factor de correcção iável Y 12 observações 3 tt T − = , onde t é o número de empatadas em determinado posto. Assim, temos a fórmula de para o caso de empa sr tes: ∑ ∑ 22 2 yx ∑ ∑∑ = −+ = 1 222 dyx r n i i S nde: (6.2.2) o ∑ ∑− − = x 12 T nn x2 e 3 ∑ ∑− − = y 12 em que ∑ yxT ou é o somatório sobre os vários valores de T para todos os grupos de observações empatadas. Se os indivíduos constituem uma amostra aleatório de uma população, pode-se Y na população. O método dep T nn y2 comprovar se o valor observado de indica a existência de associação entre as variáveis X e ende do tamanho de n: valores críticos de para níveis de significância 0,05 e 0,01 (teste unilateral). 3 Sr 1. Para n de 4 a 30, a tabela P, dá os Sr 2. Para 10n , pode-se determinar a significância de um valor tão grande quanto um Sr observado calcula-se o valor de t associado aquele valor, pela fórmula: ≥ )2(2 2 −≈ − = n S S t n rt Em seguida determina-se a sign 1− r ificância do valor com o auxilio da tabela B. o valor calculado anteriormente: Output 6.2.1: (6.2.2) Através do SPSS®, constatamos o mesm 65
  • 68. Capítulo 6: Medidas de Correlação É também apresentado a significância do coeficiente que, neste caso, com um 05,0=α , podemos concluir que o valor indica a existência de associação entre as variáveis. No Mathematica® apenas é fornecido o coeficiente, mas com maior número de casas decimais: N SpermanRankCorrelation 7, 4, 3, 10, 6, 2, 9, 8, 1, 5, 5, 7, 3, 10, 1, 9, 6, 2, 8, 4 - 0.10303 6.3 Coeficiente de Concordância de Kendall: Já conhecemos dois coeficientes ( W τ e Sr ) para a determinação da concordância entre dois conjuntos de postos. Suponhamos que temos k conjuntos de postos, poderia parecer razoá k tomar va lo de Método: número de juízes classificadores. Dispor os postos observados numa tabela vel determinar os coeficientes entre todos os pares possíveis de postos e então calcular a média entre eles para saber o grau de concordância das k amostras. Adoptando tal método, teremos que calcular ⎟ ⎞ ⎜ ⎛k coeficientes de correlação de postos o que seria impraticável se⎟ ⎠ ⎜ ⎝2 lores muito grandes. O cálcu W é muito mais simples: 1. Se n é o número de objectos ou indivíduos a serem classificados em postos, e k o nk × ; 2. Para cada indivíduo, ou objecto, determinar , soma dos postos atribuídos àquele indivíduo pelos k juízes; pela fórmula seguinte: jR 3. Determinar S ∑= = ⎟⎟ ⎟ ⎟ ⎠ ⎜⎜ ⎜ ⎜ ⎝ −= n j j j j n RS 1 1 4. Calcular o valor de W utilizando a fórmula: ∑ ⎟ ⎞ ⎜ ⎛ n R 2 (6.3.1) (6.3.2) )( 12 1 32 nnk S W − = 66