Aulas_Estatística1.ppt

Estatística - ENG 331
Conceito de estatística
Parte da matemática em que se investigam:
• os processos de obtenção, organização e
análise de dados sobre uma população ou
sobre uma coleção de seres quaisquer
• e os métodos de tirar conclusões ou
predições com base nesses dados.

Bibliografia
Básica
• Crespo, A. A Estatística Fácil
• Karmel, P. H. Estatística geral e aplicada para economistas
• Lipschutz, S. Probabilidade. Makron Books
• Lourenço Filho, R. de C. B. Controle Estatístico da Qualidade
• Martins, G. de A. e Donaire, D. Princípios de estatística
• Meyer, P. L. Probabilidades
• Spiegel, M. R. Estatística
• Spiegel, M. R. Probabilidade e estatística. McGraw-Hill.
•Summers, G. W. e Peters, W. S. Análise estatística e processo
decisório
•Toledo, G. L. e Ovalle, I. I. Estatística básica

Bibliografia
Informática
• Silva, P. A. L. da. Princípios dos Métodos Estatísticos:
conceitos, modelos e aplicações no Excel. Rio de Janeiro. 1998.
Editora Universitária Santa Úrsula.
Leitura informativa
• Assis, E. M. de. Otimização do intervalo de substituição dos
pneus de uma frota de aeronaves Brasília EMB-120. Dissertação
de Mestrado.
Língua Inglesa
• Doty, L. A. Reliability for the technologies. New York. 1989.
Industrial Press Inc.
• Krishnamoorthi, K. S. Reliability Methods for Engineers.
Wisconsin. 1992. Quality Press

Introdução à probabilidade
•Experimento
•Espaço amostral
•Evento
•Eventos dependentes
•Eventos independentes
•Probabilidade
•Distribuições de probabilidade

Experimento e espaço amostral
Experimento - procedimento claramente
definido que conduz a um resultado. A realização
de um experimento é chamada tentativa, e cada
tentativa tem o seu resultado.
Experimentos aleatórios - experimentos onde
não é possível prever o resultado, embora sejam
conhecidos todos os resultados possíveis.
Espaço amostral “S” - conjunto de todos os
resultados possíveis de um experimento aleatório

População - Amostra - Evento
População - todo o conjunto de seres em estudo
Amostra - parte da população a ser analisada
Evento - subconjunto do espaço amostral tal que todos os
elementos a este pertencente satisfaçam a uma regra
comum.
Especificação de um evento - pela regra que os
elementos satisfazem ou pela enumeração de todos os
seus elementos.
Exemplo (com base no dado)
Espaço amostral - S={1, 2, 3, 4, 5, 6}
Evento - A={Número mostrado menor que quatro} ou
A={1, 2, 3}

Exemplos
Experimento-Espaço amostral -Ex. eventos
a) Lançar um dado e ver o número mostrado
S={1,2,3,4,5,6} A={n.menor que 4}={1,2,3}
b) Lançar duas moedas e observar as faces
S={CaCa,CaCo,CoCa,CoCo} B={no mínimo
uma cara}={CaCa,CaCo,CoCa}
d) Lançar duas moedas e contar o número de
caras S={0, 1, 2} C={nenhuma}={0}

Tipos de eventos
Eventos independentes - a ocorrência de um
evento não afeta a chance de ocorrência de
outro. Ex.: Lançamentos de dados ou moedas
honestos (quaisquer que tenham sido os
resultados anteriores, estes não afetarão o
próximo)
Eventos dependentes - a ocorrência de um
evento afeta a do outro. Ex.: Retirada (sem
reposição) de uma carta de ouros de um baralho;
os eventos ser homem e ser careca (os
resultados anteriores afetarão o próximo)

Probabilidade
Probabilidade de um evento P(A) - número
entre 0 e 1 que indica a chance de ocorrência de
um evento quando o experimento a este
associado é executado.
P(A) = 0  Evento que não pode ocorrer
P(A) = 1  Evento certo de ocorrer é um
P({moeda mostra cara})=0.5
P({dado mostra “5”})= 1/6
Note que: 0  P(Evento qualquer)  1,
P(S)=1 e P()=0

Definições de Probabilidade
1 - Se um experimento pode ocorrer de N
maneiras e se o evento “A” pode ocorrer em “n”
destes testes então a probabilidade de “A”
ocorrer é : P(A) = n / N. Probabilidade calculada
pelo método de análise de experimento (Dado,
moeda...)
2 - Se um evento com atributo “A” ocorre n
vezes em N experimentos, então para valores
grandes de N, P(A) se aproxima de n / N.
Probabilidade calculada pelo método de
freqüência relativa (Confiabilidade e CQ)
)
/
(
lim
)
( N
n
A
P N 



Teorema 1 de probabilidade
Teorema 1 - Se A e B são eventos em um
espaço amostral, então
P(A ou B)=P(AB)=P(A)+P(B)-P(A e B)
A
B
S

Obs. 1 - Se A e B são mutuamente exclusivos, ou
seja, P(A e B)=0 tem-se: P(A ou B)=P(A)+P(B)
Obs. 2 - Se A1, A2,...Ak são eventos mutuamente
exclusivos então P(A1 ou A2 ou...ou Ak)=P(A1)+
P(A2)+...+ P(Ak)
Exercício 1 : Quando um par de dados é
arremessado qual a probabilidade dos números 5
ou 6 serem mostrados?
Exercício 2 : Quando um par de dados é
arremessado qual a probabilidade da soma ser
menor que 4 ou um dos números ser 4?

Teorema 2 - Se A e Ac são eventos
complementares, isto é, são mutuamente
exclusivos e juntos compõem o espaço amostral,
então P(Ac)=1 - P(A)
Exemplo: Quando uma moeda é arremessada
duas vezes qual a probabilidade de que no
mínimo uma cara apareça?
S
A
Ac

Teorema 3 - Se A e B são eventos
independentes então P(A e B)=P(A).P(B)
Exemplos
Ex.1 - Uma urna contém 7 bolas pretas e 5
brancas se são retiradas 2 bolas com reposição
qual a probabilidade de que ambas sejam
pretas?
Ex.2 - Arremessados dois dados, E1 é o evento
em que a soma é 6, em E2 a soma é 7 e F é o
evento em que o primeiro número é 3. i) E1 e F
são independentes? ii) E2 e F são independentes?

Probabilidade condicional
A probabilidade condicional de um evento A dado
que um outro evento B tenha ocorrido (no mesmo
espaço amostral) é P(AB). Este valor é a fração
do espaço que pertence a A e B tomada em
relação a B.
P(AB) = P(A B)/P(B) “P de A dado que B”
A
B
S

Exercício (probabilidade condicional)
• Encontre a probabilidade de que a soma de dois dados
lançados dê 6 dado que um dos números é 1.
Teorema 4 - Se não é conhecida a relação de
dependência entre os eventos A e B tem-se:
P(A  B) = P(AB).P(B). O valor desta fórmula
reside no fato de que algumas vezes só se
conhece a probabilidade de um evento “A “
condicionada à ocorrência de “B”
Exercício
• Quando um par de dados é arremessado qual a
probabilidade do total ser menor que 6 e um dos
números ser 3 ou 4

Teorema da probabilidade total
Algumas vezes o espaço amostral é particionado em
sub-eventos (Bk) que são mutuamente exclusivos
(Bi  Bj)= e juntos compõem o espaço amostral.
Então as probabilidades do evento de interesse (A)
condicionadas às partições são usadas para obter a
probabilidade de ocorrência do evento no espaço
amostral.
B1
B2
B3 B5
B6
B4
A
S

Teorema da probabilidade total
P(A) = P(AB1).P(B1) + P(AB2).P(B2) +
P(AB3).P(B3) + P(AB4).P(B4) + P(AB5).P(B5) +
P(AB6).P(B6)
B1
B2
B3 B5
B6
B4
A
S

Exercício
• Na Escola de Engenharia da Universidade de
Bradley os alunos estão distribuídos como:
26% eng. Elétrica 25% eng. Mecânica
18% eng. Civil 12% eng. Industrial e
19% eng. de Manufatura.
Sabe-se também que:
5% de elétrica 10% de mecânica
8% de civil 45% de industrial e
4% de manufatura
São estudantes mulheres. Se um estudante é
aleatoriamente escolhido, qual a probabilidade de
que seja uma mulher?

Técnicas de contagem
Algumas vezes encontrar o número de itens é
complicado.
1- Regra da multiplicação. Se uma operação pode
ser feita de n1 maneiras e outra pode ser feita de
n2 maneiras então as duas operações podem ser
feitas juntas de n1 x n2 maneiras
Exemplos
Ex.1 Quantos grupos de dois sendo um homem e uma
mulher pode ser feitos com 5 homens e 4
mulheres?(120)
Ex.2 Quantas palavras de 4 letras são possíveis com
A,B,I,J,K se cada letra pode ser usada uma vez? E se a
última tiver de ser uma vogal?(48)

2-Permutação. É um arranjo de todo ou
parte de um conjunto de objetos. O número de
permutações de n objetos tomados em grupos
de r é:
Pn,r = n! / (n-r)!
Onde x!=x.(x-1).(x-2)...1 e 0!=1
Exemplos
a) Permutação de três objetos a b c : abc, acb, bac,
bca, cab, cba (6)
b) Permutação dos objetos a b c em grupos de 2: ab,
ac, ba, bc, ca, cb (6)

3-Combinação. É um grupo de certo número
de objetos tomados de um conjunto. Não
importa a posição dos objetos no grupo.
Cuidado, abc e acb são duas permutações
diferentes mas compõem uma mesma
combinação. O número de combinações de n
objetos distintos tomados em grupos de r é:
)!
(
!
!
,
r
n
r
n
r
n
C r
n












Combinação
Exercícios
a) Quantos números de 3 dígitos podem ser formados
usando 0,1,2,3,4,5 se cada dígito é usado apenas uma
vez?
b) Quantos times de 5 jogadores podem ser formados
com 10 jogadores?
c) Quantas comissões de três elementos são formadas
com 2 mulheres e 1 homem em um grupo de 4
mulheres e 6 homens?

Variáveis aleatórias
Variável aleatória - É uma variável que assume
um valor aleatório. O próximo valor não pode ser
previsível com certeza.
Exemplos
a) Núm. mostrado por um dado arremessado
b) Núm. de coroas (H) quando uma moeda é
arremessada 3 vezes
c) O peso de um recém nascido num hospital
d) A altura de um adulto
e) Núm de arremessos necessários para uma
moeda dar 3 caras (T) consecutivas.

Tipos de variáveis aleatórias
Discreta - É uma variável que assume um
número contável de valores. Exemplos a); b); e)
; (Muitas vezes associadas a valores inteiros)
Contínua - É uma variável que pode assumir
um número infinito de valores. Exemplos c); d)
(A quantidade de valores é incontável; está
associada muitas vezes a valores reais)

Distribuição de Probabilidade
de uma variável discreta
Seja X uma variável discreta. A função p(x) é
definida como função massa de probabilidade
(fmp) e tem as propriedades:
a) p(x) = P(X=x)
b) p(x)  0 para qualquer x
c) x p(x) = 1 é claro pois P(S)=1 (as somas das
probabilidades de todos os valores possíveis)

Exercício
1- Uma variável aleatória X denota o número de
coroas quando uma moeda é arremessada 3
vezes. Encontre a função massa de probabilidade
Representação gráfica desta fmp
0.00
0.05
0.10
0.15
0.20
0.25
0.30
0.35
0.40
0 1 2 3
x
p(x)

Distribuição de Probabilidade
de uma variável contínua
O método para descrever variáveis aleatórias
discretas não funciona para variáveis contínuas.
Infinitos valores são possíveis para estas
variáveis contínuas e a probabilidade delas
assumirem exatamente um valor específico é
zero. Desta forma as probabilidades não podem
ser tabuladas.

Função densidade de
probabilidade
Se X é uma variável aleatória contínua a função
f(x) é chamada f.d.p. e tem como propriedades:
a) f(x)  0 para qualquer x
 
x
dx
x
f
b 1
)
(
)




b
a
dx
x
f
b
X
a
P
c )
(
)
(
)
Área sob a curva = 1

Exercício
1- Uma variável aleatória X tem a fdp abaixo:
0,01.x 0 x10
f(x) = 0,01.(20-x) 10 x20
0 outro caso
a) Verifique se f(x) é uma fdp válida
b) Encontre P(5 x10)

Características das distribuições
A distribuição de probabilidade descreve
completamente o comportamento de uma variável
aleatória. Contudo o mesmo pode ser feito por
algumas medidas:
Média x (centro de gravidade)
x = x x.p(x) x = x x.f(x)dx
Variância x
2 (segundo momento da distribuição em torno da média)
x
2= x(x-x)2.p(x) x
2= x (x- x)2.f(x)dx
Desvio padrão x (tem a mesma unidade dos dados)
x= (x
2)1/2 (raiz quadrada positiva)

Média x
É o centro de gravidade da distribuição é um
parâmetro de localização
1
2 3 4 x
fdp(x)

Variância x
2 e Desvio padrão x
Mostram o quanto a distribuição está dispersa
em torno da média. Quanto maior a variância ou
o desvio padrão, mais alargado o formato da
curva
 1
x
fdp(x)
 2  3  4

Distribuições de probabilidade
Distribuições são modelos matemáticos para
descrever o comportamento de variáveis
aleatórias. Tais modelos são usados em controle
de qualidade e confiabilidade. Serão vistas as
seguintes distribuições:
1 - Binomial (discreta)
2 - Poisson (discreta)
3 - Normal (contínua)

Distribuição binomial
Diz-se que a variável X tem distribuição binomial com
parâmetros n e p se a função massa de probabilidade é :
)!
(
!
!
:
,...
1
,
0
,
)
1
(
.
)
(
x
n
x
n
x
n
Onde
n
x
p
p
x
n
x
p x
n
x




















 
Esta distribuição descreve a variável aleatória “X” que
representa o número de sucessos “x” em “n” tentativas
independentes, tendo cada tentativa com probabilidade
“p” de sucesso e probabilidade “(1-p)” de fracasso.
Cn,x : Combinação de x sucessos em n tentativas
px : Probabilidade de x sucessos
(1-p)n-x : Probabilidade de n-x fracassos
Parâmetros:
“n” e “p”
X ~ B(n,p)

Medidas características
Para a variável aleatória X ~ B( n , p) tem-se:
______________________________________
Média
x = n.p (número de tentativas x probabilidade de sucesso)
_____________________________________
Variância
x
2= n.p.(1-p)
_____________________________________
Desvio Padrão
x= ( n.p.(1-p) )1/2
_____________________________________

Exemplos de Variáveis Aleatórias Binomiais
1) X: Número de caras quando uma moeda honesta é
lançada 10 vezes. X ~ B(10 , 1/2)
2) Y: Número de cestas feitas por um jogador de basquete
em 12 arremessos se sua média é 0.4 (cestas/arremesso)
Y ~ B(12, 0.4)
3) W: Número de produtos defeituosos em uma amostra de
20 unidades retirada de um grande lote que contém 2% de
defeituosos W ~ B(20, 0.02)
Comentários:
1) Eventos são obviamente independentes
2) É aceitável tomar os eventos como independentes
3) Atenção: para um lote pequeno, a retirada sem reposição de um
produto afeta a probabilidade do próximo ser defeituoso, mas para
um lote grande comparado com o tamanho da amostra, pode-se
desprezar a dependência e utilizar o modelo binomial

Exercícios
1) Uma amostra de 12 parafusos é retirada de
uma linha de produção e inspecionada. Sabe-se
que o processo produz 2% de defeituosos. Qual
a probabilidade da amostra ter exatamente um
defeituoso? Qual a probabilidade de não existir
mais de um defeituoso?
2) Com base no exercício acima, qual a média,
variância e o desvio padrão do número de
defeituosos?

Distribuição de Poisson
Diz-se que a variável aleatória X segue a distribuição de
Poisson se a sua fmp é :
1
)..
2
)(
1
.(
!
...
2
,
1
,
0
,
!
.
)
(
.






x
x
x
x
x
x
e
x
p
x

 Parâmetro:
“”
X ~ Po()
Média Variância Desvio Padrão
x =  x
2=  x= 1/2

Distribuição de Poisson
Aplicações
Esta distribuição é um bom modelo para descrever o
comportamento das variáveis aleatórias nos seguintes
exemplos:
1) Número de nós por folha de madeira tratada
2) Número de imperfeições por peça de tecido
3) Número de acidentes por mês numa fábrica
4) Número de chamadas que chegam a uma central
telefônica em u intervalo de tempo “t”
5) Número de glóbulos sangüíneos visíveis ao microscópio
num campo visível de área “A”

Requisitos de um processo de
Poisson
1) Os números de eventos durante intervalos não sobre-postos
de tempo ou área (ou outra grandeza) constituem variáveis
aleatórias independentes
2) A distribuição do número de eventos durante um intervalo
(tempo ou espaço) depende apenas do comprimento do intervalo
e não de seus pontos extremos
3) Para pequenos intervalos, a probabilidade de ocorrência de
um evento é diretamente proporcional ao comprimento do
intervalo
4) A probabilidade de ocorrência de dois ou mais eventos para
intervalos infinitesimais é desprezível
5) A condição inicial do processo é que o evento não ocorreu. No
instante zero de tempo o evento ainda não ocorreu

Exercício
1) Um digitador faz uma média de 3 erros por
página. Qual a probabilidade de que ele digite uma
página com menos de 2 erros?
2) Qual a média, variância e desvio padrão desta
variável de Poisson?

Distribuição Normal
Uma variável aleatória X tem distribuição normal com
parâmetros  e  se sua f.d.p. é:
2
]
/
)
)[(
2
/
1
(
.
2
1
)
( 





 x
e
x
f
Gráfico da Ditribuição Nornal
0
0.1
0.2
0.3
0.4
0.5
-5 -4 -3 -2 -1 0 1 2 3 4 5 6 7
x
f(x)
Propriedades do gráfico:
1) É assintótico ao eixo-x
2) É simétrico à linha vertical
em 
3) O máximo valor de f(x)
ocorre em 
4) Os dois pontos de inflexão
ocorrem à distância  de cada
lado de 
 = 0
 = 1

Distribuição Normal - Medidas
características
X ~ N( , 2) denota uma variável aleatória X que segue
uma distribuição normal com parâmetros “” e “”
x f(x)dx = 1 (Área sob a curva = 1)
x x.f(x)dx =  (Média da var. aleatória = )
x (x- )2.f(x)dx = 2 (Variância da var aleatória = 2)
Aplicações
A normal serve como aproximação para um grande
número de distribuições. A maior parte das medidas é
normalmente distribuída (KRISHNAMOORTHI,1992).
Comprimentos de parafusos, diâmetros de furos,
percentagens de impurezas....são exemplos.

Problemas comuns
Um dos problemas comuns é, uma vez conhecida a
distribuição por meio da média e variância, encontrar a
probabilidade de que a variável assuma valores dentro de
um intervalo especificado. Exemplo X~N(20,9), P(10  X 
15)=?






15
10
]
3
/
)
20
)[(
2
/
1
( 2
.
2
3
1
)
15
10
(
:
dx
e
X
P
Solução
x

Não é fácil encontrar esta área. Para tal usa-se a
padronização da variável aleatória.

O Desvio Padrão
Para qualquer distribuição normal tem-se :
P(-   X   ) = 0.6872
P(- 2  X  2 ) = 0.9545
P(- 3  X  3 ) = 0.9973
Variável normal padronizada
A variável normal padronizada tem média 0 e variância 1.
É expressa por Z~N(0,1). Existem várias tabelas que
fornecem a área sob esta fdp entre - e vários valores ”z”.
Existe uma relação capaz de realizar a conversão entre
qualquer distribuição normal e a distribuição padronizada
permitindo um cálculo mais simples das áreas.

A distribuição padronizada
Se X ~ N( , 2) então Z ~ (X- )/ ~ N(0 , 1) em outras
palavras: se a variável X é normalmente distribuída com
média  e desvio padrão , então a função (X - )/ é a
distribuição normal padrão.
A operação “- ” torna a média nula e a operação “/”
torna o desvio padrão unitário.
Exercícios
• Dado Z~ N(0,1) calcule: a) P(Z  2.62); b) P(Z  -1.45);
c) P(Z > 1.45); d) P(-1.5  Z  2.5); e) “t” tal que
P(Z t)=0.0281; f) “s” tal que P(Z>s)=0.0771; g) “k” tal
que P( -k  Z  k) = 0.9973

Exercícios
1 - Dado X ~ N(2.0 , 0.0025) calcule:
a) P(X  1.87) b) P(X > 2.2) c) P(1.9  X  2.1)
d) “t” tal que P(X>t)=0.05 e) “k” tal que P(-K  X 
+K)=0.9973
2 - Diâmetros de parafusos em uma grande linha de produção
são normalmente distribuídos com média 0.25 cm e desvio
padrão 0.01 cm. As especificações são 0.24 ± 0.02 cm.
a) Qual a proporção de parafusos fora das especificações?
b) Se a média do processo for movida para coincidir com o centro
das especificações qual a proporção de defeituosos?
3 - Um fabricante de baterias substituirá qualquer bateria que
pife antes de 3 anos. Sabe-se que a vida das baterias é
normalmente distribuída com média 4 anos e desvio padrão de
0.45 anos. a) Qual a percentagem de baterias que será
substituída? b) Qual o desvio padrão para que menos de 2% das
baterias fossem substituídas? (É difícil neste caso aumentar a
média, mas o desvio padrão pode diminuir com algum esforço)

Tabela - Distribuição Normal

Organização de dados
Na primeira fase foi estudado o comportamento de
distribuições estatísticas por meio do conhecimento de
seus parâmetros. Muitas vezes, se possui um conjunto de
dados que se quer descrever ou comparar com outro ou
ainda usá-lo como referência comparando-o com um
indivíduo.
Exemplos de perguntas que poderão ser respondidas:
a) Como estão as notas da turma T311?
b) Qual a turma de melhor desempenho: T311 ou T312?
c) Um certo aluno está entre os melhores ou piores?
Para responder estas perguntas, o conjunto de
dados deve ser organizado

Dados brutos
Feita a coleta do dados originais, estes ainda não se
encontram prontos para análise. A seguir são apresentadas
as notas (0 a 100) de uma turma de alunos.
Tabela 1
Desempenho de alunos da disciplina A
12 56 74 46 100 60 71 98
25 84 76 32 15 29 86 47
74 16 59 80 100 34 48 20
Estes dados são chamados dados brutos. Organizados
desta maneira, se consegue pouca informação observando
a tabela. Até mesmo as determinações do máximo e do
mínimo requerem um certo esforço.

Rol de dados
Rol é uma lista em que os valores estão dispostos em
ordem crescente ou decrescente.
Tabela 2
Desempenho de alunos da disciplina A
12 15 16 20 25 29 32 34
46 47 48 56 59 60 71 74
74 76 80 84 86 98 100 100
Vantagens - Visualização mais ampla, percepção imediata
dos extremos com menos esforço de concentração
Desvantagens - A análise se baseia em observações
individuais (difícil comparar 2 turmas). O problema se
agrava se existirem muitos dados

Tabela de freqüências
Nestas tabelas, os valores ordenados
apresentam correspondência com a
quantidade de suas ocorrências
evitando-se assim que eles
apareçam mais de um vez.
As colunas da tabela
Coluna j - Números correspondentes
à ordem dos valores da variável.
Coluna Notas - Valores da variável
aleatória.
Coluna fj - Freqüência (número de
ocorrências) de cada dado.
Total de observações =  fj
Tabela 3
Desempenho dos alunos
j Notas fj
1 12 1
2 15 1
3 16 1
4 20 1
5 25 1
6 29 1
7 32 1
8 34 1
9 46 1
10 47 1
11 48 1
12 56 1
13 59 1
14 60 1
15 71 1
16 74 2
17 76 1
18 80 1
19 84 1
20 86 1
21 98 1
22 100 2
fj 24

Tabela de freqüências de dados agrupados
Nestas tabelas, os valores são
agrupados em classes. Para cada
intervalo de classe são anotadas as
quantidades de ocorrência da variável
dentro de cada intervalo.
Desvantagem : Não figuram valores
exatos de cada aluno não permitindo
saber o valor mais alto ou mais baixo
Vantagem : Mostra a tendência de
concentração de valores
Tabela 4
Desempenho
dos alunos
j Classes de
Notas
fj
1 0 -| 10 0
2 10 -| 20 4
3 20 -| 30 2
4 30 -| 40 2
5 40 -| 50 3
6 50 -| 60 3
7 60 -| 70 0
8 70 -| 80 5
9 80 -| 90 2
10 90 -| 100 3
 fj 24
Interpretação dos intervalos de
classe
0 -| 10 = ] 0 ; 10 ]
0 |- 10 = [ 0 ; 10 [
0 |-| 10 = [ 0 ; 10 ]
0 - 10 = ] 0 ; 10 [

Elementos de um distribuição de freqüências
Freqüência simples absoluta : número de
observações correspondente à classe (f2=4
f6=3)
Amplitude Total : a diferença entre o maior
e o menor valor (At=100-12=88)
Classe : cada um dos grupos de valores. O
número de classes deve ser escolhido com
base na natureza e na unidade dos dados
Regra de Sturges : k=1+3,3 log n
Onde k = número de classe e n = número
de observações. Para este caso, n=24 k =
5,55  6 note que é necessário aproximar e
julgar se este valor é adequado. Melhor
usar k=10.
Amplitude do intervalo de classe = At / k
= 100/10=10
Tabela 4
Desempenho
dos alunos
j Classes de
Notas
fj
1 0 -| 10 0
2 10 -| 20 4
3 20 -| 30 2
4 30 -| 40 2
5 40 -| 50 3
6 50 -| 60 3
7 60 -| 70 0
8 70 -| 80 5
9 80 -| 90 2
10 90 -| 100 3
 fj 24

Elementos de um distribuição de
freqüências
Amplitude do intervalo de classe : é o
comprimento de cada classe. Diferença
entre dois limites superiores
consecutivos (10-20=10). É
recomendável construir tabelas com
intervalos iguais, ou se desiguais,
múltiplos entre si (x 2, x 5 ou x 10).
Ponto médio de classe : xj = limite
inferior - amplitude da classe/2. (x1=5
x2=15).
Tabela 4
Desempenho
dos alunos
j Classes de
Notas
fj
1 0 -| 10 0
2 10 -| 20 4
3 20 -| 30 2
4 30 -| 40 2
5 40 -| 50 3
6 50 -| 60 3
7 60 -| 70 0
8 70 -| 80 5
9 80 -| 90 2
10 90 -| 100 3
 fj 24

Tipos de freqüências
fj - Freqüência simples absoluta : (Note que  fj = n)
frj - Freqüência simples relativa : é a proporção de
ocorrências da V.A. tomada em relação ao total, ou seja, a
probabilidade da V.A. estar em cada intervalo de classe.
(frj =fj / n)
Fj “abaixo de” - Freqüência absoluta acumulada : é a
soma do valor da freqüência simples absoluta “j” com as
freqüências simples absolutas até “j”. Mostra quantas
observações existem até determinada classe, incluindo a
própria. (Crescente)
Fj “acima de” - Freqüência absoluta acumulada : é a soma
do valor da freqüência simples absoluta “j” com as
freqüências simples absolutas além de “j”. Mostra quantas
observações existem além de determinada classe.
incluindo a própria. (Decrescente)

Tipos de freqüências
Tabela 5
j Classes de
Notas
fj frj frj
%
Fj
Abaixo de
Fj
Acima de
1 0 -| 10 0 0.00 0% 0 24
2 10 -| 20 4 0.17 17% 4 24
3 20 -| 30 2 0.08 8% 6 20
4 30 -| 40 2 0.08 8% 8 18
5 40 -| 50 3 0.13 13% 11 16
6 50 -| 60 3 0.13 13% 14 13
7 60 -| 70 0 0.00 0% 14 10
8 70 -| 80 5 0.21 21% 19 10
9 80 -| 90 2 0.08 8% 21 5
10 90 -| 100 3 0.13 13% 24 3
 fj 24 1.00 100%
fj - Freqüência
simples absoluta
frj - Freqüência
simples relativa
Fj “abaixo de” -
Freqüência absoluta
acumulada
Fj “acima de” -
Freqüência absoluta
acumulada

Freqüência relativas acumuladas
Frj “abaixo de” - Freqüência relativa acumulada : é a soma do
valor da freqüência simples relativa “j” com as freqüências
simples relativas até “j”. Mostra a proporção de observações
existentes até determinada classe, incluindo a própria.
Aproxima-se a P(X  x) para um grande número de observações
o que constitui uma ferramenta de análise importante.
Frj “acima de” - Freqüência relativa acumulada : é a soma do
valor da freqüência simples relativa “j” com as freqüências
simples relativas além de “j”. Mostra a proporção de
observações existentes acima de determinada classe, incluindo a
própria. Aproxima-se a P(X  x) para um grande número de
observações o que constitui uma ferramenta de análise
importante.
Os valores representam uma função massa de
probabilidade !

Freqüência relativas acumuladas
Tabela 6
j Classes de
Notas
fj frj frj
%
Fj
Abaixo de
Fj
Acima de
Frj
Abaixo de
Frj
Acima de
1 0 -| 10 0 0.00 0% 0 24 0.00 1.00
2 10 -| 20 4 0.17 17% 4 24 0.17 1.00
3 20 -| 30 2 0.08 8% 6 20 0.25 0.83
4 30 -| 40 2 0.08 8% 8 18 0.33 0.75
5 40 -| 50 3 0.13 13% 11 16 0.46 0.67
6 50 -| 60 3 0.13 13% 14 13 0.58 0.54
7 60 -| 70 0 0.00 0% 14 10 0.58 0.42
8 70 -| 80 5 0.21 21% 19 10 0.79 0.42
9 80 -| 90 2 0.08 8% 21 5 0.88 0.21
10 90 -| 100 3 0.13 13% 24 3 1.00 0.13
 fj 24 1.00 100%
+ 

Distribuição de Freqüências
Tabela 7
j Classes de
Notas
fj frj frj
%
Fj
Abaixo de
Fj
Acima de
Frj
Abaixo de
Frj
Acima de
Frj %
Abaixo de
Frj %
Acima de
1 0 -| 10 0 0.00 0% 0 24 0.00 1.00 0% 100%
2 10 -| 20 4 0.17 17% 4 24 0.17 1.00 17% 100%
3 20 -| 30 2 0.08 8% 6 20 0.25 0.83 25% 83%
4 30 -| 40 2 0.08 8% 8 18 0.33 0.75 33% 75%
5 40 -| 50 3 0.13 13% 11 16 0.46 0.67 46% 67%
6 50 -| 60 3 0.13 13% 14 13 0.58 0.54 58% 54%
7 60 -| 70 0 0.00 0% 14 10 0.58 0.42 58% 42%
8 70 -| 80 5 0.21 21% 19 10 0.79 0.42 79% 42%
9 80 -| 90 2 0.08 8% 21 5 0.88 0.21 88% 21%
10 90 -| 100 3 0.13 13% 24 3 1.00 0.13 100% 13%
 fj 24 1.00 100%

Resumo de Distribuição de Freqüências
Como elaborar uma tabela de freqüência com dados
agrupados em classes:
1- Listar os dados brutos
2 - Ordenar os dados criando um rol
3 - Calcular a amplitude total
4 - Escolher o número de classes
5 - Calcular a amplitude do intervalo de classe
6 - Determinar os limites de classe como preferencialmente
inteiros
7 - Construir as colunas
A metodologia pode ser empregada mesmo que não sejam
utilizados intervalos de classe

Exercício
Considere a seguinte distribuição de freqüências
correspondente aos diferentes preços de um determinado
produto em vinte lojas pesquisadas. a) Construa uma tabela
de freqüências simples relativas; b) Construa uma tabela de
freqüências absolutas acumuladas; c) Quantas lojas
apresentaram um preço até R$52,00(inclusive)? d) Qual a
percentagem de lojas com preço até R$53,00(inclusive)? e)
Qual a porcentagem de lojas com preço maior que R$51,00 e
menor que R$54,00 ?
Preços
R$
Nº de
lojas
50 2
51 5
52 6
53 6
54 1
Total 20

Utilizando Planilha Eletrônica
Nesta fase serão apresentados em linhas gerais os
procedimentos para realizar Tabelas de freqüência Em
planilha eletrônica. Embora os passos sejam mostrados
utilizando Excel97®Microsoft (rodando Windows®), estes
podem ser utilizados com pequenas modificações no
StarOffice®StarDivision (rodando em Linux).
Clique no botão iniciar e
busque o ícone do Excel
clicando-o em seguida

Utilizando Planilha Eletrônica
Esta é uma sugestão de planilha, serão vistos os
passos básicos para construí-la

Passos (1 a 7)
1 - Preencha as linhas 1 e 2 com os rótulos da tabela (A1:O2)
2 - Crie uma coluna com os dados brutos (A3:A26)
3 - Crie uma coluna j = 1...10 pois são 10 classes (C3:C12)
4 - Coloque uma coluna para os limites inferiores das classes 0,
10, 20...90 (D3:D12)
5 - Preencha com ‘-|’ a coluna (E3:E12)
6 - Preencha a célula F3 com 10 e a célula F4 com a fómula
=F3+10. Copie a célula F4 para o intervalo (F5:F12)
7 - Em (G3:G12) serão calculadas as freqüências. Selecione este
intervalo e clique na barra de fórmulas. Digite
=frequencia(A3:A26;F3:F12) e pressione Ctrl + Shift + Enter.
Rótulos para a tabela

Passos (8 a 23)
8 - Clique na célula F13, escolha fonte Symbol e digite S.
Aparecerá o caracter  .
9 - Na célula G13 coloque a fórmula =SOMA(G3:G12)
10 - Célula H3 Fórmula =G3/$G$13 Formato 2 decimais
11 - Célula I3 Fórmula =H3 Formato %
12 - Copie as células (H3:I3) para (H4:I12)
13 - Célula J3 Fórmula =G3 Formato %
14 - Célula J4 Fórmula =G4+J3
15 - Copie J4 para (J5: J12)
16 - Célula K12 Fórmula = G12
17 - Célula K11 Fórmula = K12 + G11
18 - Copie K11 para (K10: K3)
19 - Célula L3 Fórmula = J3/$G$13 Formato 2 decimais
20 - Célula M3 Fórmula = K3/$G$13 Formato 2 decimais
21 - Célula N3 Fórmula = L3 Formato %
22 - Célula O3 Fórmula = M3 Formato %
23 - Copie (L3:O3) para (L4: O12)

Passos (24 a 26)
24 - Copie G13 para (H13: I13)
25 - Formate H13 para 2 decimais
26 - Formate I3 como %
27 - Utilize bordas para separar colunas e pronto
28 - Se você ainda não gravou o seu arquivo, não perca mais
tempo.
Observações
Uma planilha é um padrão. Deve-se ter em mente que este padrão tem
limitações e precisa estar adequado aos dados de entrada caso contrário os
valores de saída não estarão corretos.
Cuidado!
A função matricial freqüência(dados_brutos ; extremos_de_classe) retorna
valores segundo uma regra única.
Dados
brutos
Extemo
classes
Freq.
4 5 1
10 10 1
11 15 2
14 20 0
28 1
Linha 1 freqüência (x 5) = 1
Linha 2 freqüência ( 5  x  10) = 1
Linha 3 freqüência (10  x  15) = 2
Linha 4 freqüência (15  x  20) = 0
Linha 5 freqüência (x  20) = 1
Pode-se construir a matriz de saída com menos
linhas neste caso, os últimos elementos serão
suprimidos

Apresentação gráfica Excel
Os gráficos permitem conseguir uma visualização imediata da
distribuição. Os gráficos podem ser:
Diagramas : apresentam duas dimensões.
Estereogramas : representam volumes e são apresentados em 3
dimensões
Evolução do acervo - Títulos
1347
160
592
352
2541
115
2357
763
1615
422
1256
171
3159
121
0
500
1000
1500
2000
2500
3000
3500
E
n
g
e
n
h
a
r
i
a
A
r
q
u
i
t
e
t
u
r
a
E
s
t
a
t
í
s
t
i
c
a
F
í
s
i
c
a
G
e
o
l
o
g
i
a
M
a
t
e
m
á
t
i
c
a
T
o
p
o
g
r
a
f
i
a
Set/98
Nov/99
Distibuição de notas - 1999
53%
25%
12%
10%
0%-25% de acerto
25%-50% de acerto
50%-75% de acerto
75%-100% de acerto

Gráfico em colunas
Um gráfico de colunas exibe as alterações dos dados em um
período de tempo ou ilustra comparações entre itens. As
categorias são organizadas horizontalmente e os valores
verticalmente para enfatizar a variação ao longo do tempo ou
itens
Evolução do acervo UCSal - Títulos
6363
8608
0
1000
2000
3000
4000
5000
6000
7000
8000
9000
10000
1998 1999

Gráfico em colunas remontadas
Evolução 96-99
24%
72%
77%
6%
56%
-5% -8%
-20%
-10%
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
1996-D 1997-E 1998-E 1999-E
% de respondentes
Evolução média%
Estes gráficos permitem que a comparação entre as
grandezas seja feita facilmente. O gráfico abaixo mostra a
percentagem de respondentes do provão e a evolução dos
resultados em % para estudantes da UCSal.

Gráfico em colunas em perspectiva
O gráfico de colunas em perspectiva 3-D compara
pontos de dados ao longo de dois eixos.Neste gráfico
3-D, você pode comparar quatro trimestres de
desempenho de vendas na Europa com o desempenho
de outras duas divisões.

Gráfico em barras
Um gráfico de barras ilustra comparações entre itens individuais.
As categorias são organizadas verticalmente e os valores
horizontalmente para focalizar a comparação de valores e para
dar menos ênfase ao tempo.
Gráficos de barras empilhadas mostram a relação de itens
individuais com o todo.

Gráfico de setores
Um gráfico de setores mostra o tamanho proporcional de itens
que compõem uma seqüência de dados à soma dos itens. Ele
sempre mostra apenas uma seqüência de dados e é útil quando
você deseja enfatizar um elemento importante. Para facilitar a
visualização de pequenas fatias, você pode agrupá-las como um
item em um gráfico de setores e, em seguida, quebrar aquele
item em um gráfico de setores ou de barras menor, próximo ao
gráfico principal.
Distibuição de notas - 1999
25%
12%
10%
53%
0%-25% de acerto
25%-50% de acerto
50%-75% de acerto
75%-100% de acerto

Gráfico de dispersão (XY)
Um gráfico de dispersão (xy) mostra uma ou mais seqüências de
dados como coordenadas xy. Este tipo de gráfico é adequado
para intervalos irregulares e é comumente usado com dados
científicos. O gráfico abaixo mostra a relação (log) entre tempo
de uso de pneus de avião e sua propensão em falha para dados
em horas e e número de pousos.
Rodas Principais - Todos Modos de Falha - Todas Aeronaves
y = 5.3588x - 28.725
R2
= 0.9911
y = 3.7643x - 19.64
R2
= 0.9741
-6
-5
-4
-3
-2
-1
0
1
2
4 4,2 4,4 4,6 4,8 5 5,2 5,4 5,6 5,8
ln(horas) ln(pousos)
ln(-ln(1-F))
Horas
Pousos

Gráfico de radar
Um gráfico de radar compara os valores agregados de
várias seqüências de dados. Neste gráfico, a seqüência de
dados que cobre a maior área, Marca A, representa a marca
com o maior teor de vitaminas.

Gráfico de superfície 3D
Um gráfico de superfície é útil quando você deseja encontrar as
melhores combinações possíveis entre duas seqüências de
dados. Como em um mapa topográfico, as cores e os padrões
indicam as áreas que se encontram no mesmo intervalo de
valores. Este gráfico mostra as várias combinações de
temperatura e tempo que resultam na mesma medida de
resistência à tração.

Gráficos de freqüência
Os gráficos a seguir são chamados histogramas. São gráficos
onde barras verticais de mesma largura têm alturas
proporcionais às grandezas que representam. O gráfico abaixo é
um histograma de freqüências simples absolutas. Um histograma
não apresenta espaços entre suas colunas.
Frequência simples absoluta
0
1
2
3
4
5
6
0-|10 10-|20 20-|30 30-|40 40-|50 50-|60 60-|70 70-|80 80-|90 90-
|100

Polígono de freqüências é uma representação de dados que se
obtém unindo os pontos médios das bases superiores dos
retângulos por meio de linhas retas. O polígono de freqüências
pode se referir às freqüências absolutas ou relativas ou ainda
acumuladas.
Frequência simples absoluta
0
1
2
3
4
5
6
0-|10 10-|20 20-|30 30-|40 40-|50 50-|60 60-|70 70-|80 80-|90 90-
|100

O gráfico abaixo é um histograma de freqüências absolutas
acumuladas “Acima de”
Freqüência absoluta acumulada
"Acima de"
0
5
10
15
20
25
30
0-|10 10-|20 20-|30 30-|40 40-|50 50-|60 60-|70 70-|80 80-|90 90-|100

O gráfico abaixo é um histograma de freqüências absolutas
acumuladas “Abaixo de”
Freqüência absoluta acumulada
"Abaixo de"
0
5
10
15
20
25
30
0-|10 10-|20 20-|30 30-|40 40-|50 50-|60 60-|70 70-|80 80-|90 90-
|100

Medidas de Posição
•Medidas de tendência central : média [aritmética],
média geométrica, média harmônica, moda, mediana
e separatrizes
•Medidas de dispersão : amplitude total, desvio
médio, variância, desvio padrão e coeficiente de
variação.
•Medidas de assimetria : (fornecem o grau de
deformação ou assimetria da curva de freqüências ou
do histograma)
As medidas de posição são utilizadas pois nem sempre é possível
se trabalhar com a distribuição de freqüências completa

n
f
x
x
i
i
.


n
x
x i













 n
x
anti
x
x i
n
i
g
log
log 










 n
x
f
anti
x
x i
i
n f
i
g
i
log
.
log
Média Geométrica
Média [Aritmética]
O inverso da média aritmética
dos inversos


i
x
n
x
1


i
i
x
f
n
x
Moda (Mo)
Valor mais predominante (conjunto amodal = sem moda ;
unimodal = uma moda ; plurimodal = mais de uma moda)
Classe(s) modal(is) é (são) a(s) classe(s) de maior freqüência
Média Harmônica

Cálculo da moda
(para intervalos de classe - Método de Czuber)
S T
R
U
D
C
1
2
ls
l
Q
Mo
fant
fmo
fpost
1 = fmo - fant 2 = fmo - fpost
l = limite inferior da classe modal
ls = limite superior da classe modal
c = amplitude do intervalo de classe
2
1
1
2
1
1
2
1
2
2
1
.
.
.
).
(
).
(



























c
l
Mo
c
l
l
l
l
Mo
Mo
l
l
Mo
Mo
l
l
Mo
s
s
s
s

Mediana (Md)
Mediana é o valor que divide uma série ordenada de tal forma
que o número de elementos acima deste valor é ao número de
elementos acima. É muito utilizada principalmente quando se dá
pouca importância aos valores extremos.
O número que indica a ordem em que se encontra a mediana é
denominado elemento mediano (EMd)
j Rol de
dados
1 4
2 10
3 11
4 14
5 28
“j” ímpar :
EMd = (n+1)/2
= (5+1)/=3
Md =11
j Rol de
dados
1 5
2 12
3 18
4 34
“j” par :
EMd=(n)/2=4/2=2
DadoEMd = 12
DadoEMd+1 =18
Md =
(12+18)/2=15
Cálculo a partir do rol de dados

Mediana (Md)
Dedução a partir do gráfico de freqüências
Freqüência acumulda abaixo de e polígono de freqüências
0%
50%
100%
0-|10 10-|20 20-|30 30-|40 40-|50 50-|60 60-|70 70-|80 80-|90 90-
|100 l=50 60
50%
EMd Fant
fMd
c
l : limite inferior da classe mediana
c: amplitude do intervalo de classe
Emd : elemento mediano
Fant : freqüência acumulada até a classe
anterior à classe mediana
fMd : freqüência simples da classe mediana
Md
ant
Md
f
F
E
c
l
Md


 .

Media - Mediana - Moda
Mo
Md
x
j
f
j
x
j
f
j
x
Mo
Md
x
Md
Mo
x 

j
f
j
x
Curva de freqüências assimétrica
à direita
Distribuição simétrica
Curva de freqüências assimétrica
à esquerda Mo
Md
x 

x
Md
Mo 


Exemplo
Dedução a partir do gráfico de freqüências
Calcule o consumo mediano de eletricidade (kw.h) dos 80 usuários
40
2
/
80
2
/
.






n
E
f
F
E
c
l
Md
Md
Md
ant
Md
65 -| 85 classe mediana
l=65 c=20 fMd = 26 Fant = 24
Md = 65 + 20.(40-24)/26 = 77,31
j Consumo
Kw.h
Usuários
fj
Fj
Abaixo de
1 5 -| 25 4 4
2 25 -| 45 6 10
3 45 -| 65 14 24
4 65 -| 85 26 50
5 85 -| 105 14 64
6 105 -| 125 8 72
7 125 -| 145 6 78
8 145 -| 165 2 80
80

Separatrizes
Quartis - Decis - Percentis (ou Centis)
As separatrizes não são medidas de tendência central, mas de
modo similar à mediana, dividem a distribuição em partes iguais.
Quartis - 4 partes Decis -10 partes Percentis - 100 partes
Q1 Q2 Q3
D1 D2 D3 D4 D5 D6 D7 D8 D9
Q1 - Primeiro quartil
Q2 - Segundo quartil
Q3 - Terceiro quartil
Q4 - Quarto quartil
Q2 = D5 = C50
Elemento do i-ésimo quartil: EQi = i.n/4 i=1, 2, 3
Elemento do i-ésimo decil : EDi = i.n/10 i=1, 2,...,9
Elemento do i-ésimo percentil : EPi = i.n/100 i=1, 2,...,99

Separatrizes
Cálculo do i-ésimo quartil: EQ i = i.n/4 Q i=l + c.(EQ i - Fant)/fQ i
Cálculo do i-ésimo decil: ED i = i.n/10 D i=l + c.(ED i - Fant)/fD i
Cálculo do i-ésimo centil: EC i = i.n/100 C i=l + c.(EC i - Fant)/fC i
l : limite inferior do intervalo de classe
c: largura do intervalo de classe
Exemplo
j Consumo
Kw.h
Usuários
fj
Fj
Abaixo de
1 5 -| 25 4 4
2 25 -| 45 6 10
3 45 -| 65 14 24
4 65 -| 85 26 50
5 85 -| 105 14 64
6 105 -| 125 8 72
7 125 -| 145 6 78
8 145 -| 165 2 80
80
• Dada a tabela de
freqüências calcule:
a) Trigésimo centil C30
b) Décimo quinto centil C15
c) Nono decil D9

Solução
j Consumo
Kw.h
Usuários
fj
Fj
Abaixo de
1 5 -| 25 4 4
2 25 -| 45 6 10
3 45 -| 65 14 24
4 65 -| 85 26 50
5 85 -| 105 14 64
6 105 -| 125 8 72
7 125 -| 145 6 78
8 145 -| 165 2 80
80
a) C30
E C30 = 30 . 80/100 = 24
Classe 45-|65
C30 = 45 + 20.(24-10)/14=65
P(X65)=0.30
b) C15
E C15 = 15 . 80/100 = 12
Classe 45-|65
C15 = 45 + 20.(12-10)/14=47.86
P(X47.86)=0.15c)
c) D9
E D9 = 9 . 80 /10 = 72 Classe 105-|125
D9 = 105 + 20 . (72-64)/8 = 125
P(X125)=0.90

Medidas de Dispersão
n
x
x
D i
m
|
|
 

Desvio Médio Dm (média aritmética dos desvios)
Amplitude total ou intervalo total At
Diferença entre o maior e menor valor dos dados; ou entre o
limite inferior da 1ª classe e o limite superior da última classe
ou ainda os pontos médios da 1ª e última classe
n
Md
x
D i
m
|
|
 

n
f
x
x
D
j
j
m
.
|
|
 

n
f
Md
x
D
j
j
m
.
|
|
 

Dados isolados
Dados em classes
n
x
x
D i
m
2
)
(
 

Desvio-Padrão S
Dados isolados
Dados em classes
n
f
x
x
D i
i
m
.
)
( 2
 

1
)
( 2




n
x
x
D i
m
1
.
)
( 2




n
f
x
x
D i
i
m

 











 n
x
x
n
D i
i
m
2
2
)
(
1
Desvio-Padrão S (fórmula desenvolvida)
Dados isolados
Dados em classes
 












 n
x
x
n
D i
i
m
2
2
)
(
1
1
   











 n
f
x
f
x
n
D i
i
i
i
m
2
2
.
.
)
(
1    












 n
f
x
f
x
n
D i
i
i
i
m
2
2
.
.
)
(
1
1
Variância S2
2
2
)
(S
S 

x
S
CVP 
Coeficiente de variação
A unidade dos dados, influencia o valor do desvio padrão S, para
contornar este problema, divide-se o desvio padrão pela média
ou pela mediana, encontrando-se um coeficiente admensional.
Coeficiente de variação de Pearson CVP
%
100
.
x
S
CVP 
Md
S
CVT 
Coeficiente de variação de Thorndike CVT
%
100
.
Md
S
CVT 

Correlação
Freqüentemente procura-se verificar a relação entre duas ou
mais variáveis aleatórias. Ex. : relação entre vendas de empresas
e gastos promocionais, relação entre a demanda de determinado
produto e o seu preço ou mesmo relação entre tempo de uso de
um pneu e sua propensão em falhar.
A correlação pode ser forte, fraca ou nula. Os limites destas
faixas não são claramente definidos e podem variar dependendo
do fenômeno estudado.
Correlação linear simples - mede a relação entre as variáveis X e
Y por meio da disposição de pontos (X,Y) em torno de uma reta
Medida de correlação
  
   



























n
Y
Y
n
X
X
n
Y
X
Y
X
rXY
2
2
2
2
.
.
.
1
1 

 XY
r

Tipos de correlação
Correlação linear positiva
0 < rXY < 1
X
Y
X
Y
X
Y
X
Y
Correlação linear perfeita
positiva
rXY = 1
Correlação linear negativa
-1 < rXY < 0
Correlação linear perfeita
negativa
rXY = -1
Correlação nula
rXY = 0
X
Y

Y 10 8 6 10 12
X 2 4 6 8 10
Exercício
Calcule o coeficiente de correlação linear entre as variáveis X e Y
Análise de regressão linear simples
A análise de regressão tem o objetivo de descrever por meio de
um modelo matemático, a relação entre duas variáveis a partir
de n observações Y=f(X).
Na realidade esta relação não ocorre sempre, ocorrendo:
“Y=f(X)+e” onde “e” significa todas as influências sobre Y não
devidas a X.
O processo de ajustamento determina os parâmetros da equação
de uma reta que melhor se ajusta aos pares de valores XY

Método dos mínimos quadrados
A reta ajustada é representada pela função
ao lado. Os valores “a” e “b” são
determinados de tal forma que é mínima a
soma dos quadrados das diferenças entre os
valores observados de Y e os obtidos a partir
da reta ajustada, para os mesmos valores de
X. A reta também é chamada de reta de
mínimos quadrados.
X
Y
bX
a
Y 

ˆ


 



 2
2
2
)
(
)
ˆ
(
ˆ bX
a
Y
Y
Y
e 0
ˆ
e
0
ˆ 2
2




db
e
d
da
e
d
(I)
0
)
.
(
-2.
)
.
(
)
ˆ
(
ˆ 2
2
2



 







 X
b
a
Y
da
X
b
a
Y
d
da
Y
Y
d
da
e
d
(II)
0
)
.
(
-2.
)
.
(
)
ˆ
(
ˆ 2
2
2



 







 X
X
b
a
Y
db
X
b
a
Y
d
db
Y
Y
d
b
d
e
d
(III)
0
.
)
.
(
   




 X
b
a
n
Y
X
b
a
Y
(IV)
0
)
.
( 2
  
 




 X
b
X
a
XY
X
X
b
a
Y
(III)
.
 

 x
b
a
n
Y
(IV)
2
 
 
 X
b
X
a
XY

Método dos mínimos quadrados
X
Y
bX
a
Y 

ˆ
(III)
0
.
  

 x
b
a
n
Y
(IV)
2
 
 
 X
b
X
a
XY
  
 
 
 








n
X
X
n
Y
X
XY
b
n
X
b
n
Y
a 2
2
)
(
ˆ
)
(
)
(
ˆ X
X
b
Y
Y
X
X
b
Y
bX
X
b
Y
bX
a
Y 











Coeficiente de Determinação R 2
  
   




































n
Y
Y
n
X
X
n
Y
X
Y
X
r
R XY 2
2
2
2
2
2
2
.
.
.
R2 - indica a qualidade
do ajustamento. Quanto
mais próximo de 1,
melhor a qualidade.
(0  R2  1)

Exercício
• Encontre manualmente a equação de
regressão linear Y=f(X) e o coeficiente
de determinação para os dados ao lado :
• Resolva usando o Excel
X Y
3 5
6 15
9 21
13 26
14 31
Solução com o Excel
1) Construa a linha de títulos conforme a figura :
2) Preencha as células com os dados
do problema

3) Preencha a célula D2 com a fórmula =B2^2
4) Preencha a célula E2 com a fórmula =C2^2
5) Preencha a célula F2 com a fórmula =B2*C2
6) Copie as células (D2: F2) e cole-as em (D3: F6)
7) Preencha a célula B7 com =SOMA(B2:B6)
8) Copie a célula B7 e cole-a em (C7: F7)
9) Preencha as célula (A9: A12) conforme a figura acima
10) Célula B9, fórmula =(F7-B7*C7/A6)/(D7-B7^2/A6)
11) Célula B10, fórmula =C7/A6-B9*B7/A6
12) Célula B11, fórmula =(F7-B7*C7/A6)/RAIZ((D7-B7^2/A6) *
(E7-C7^2/A6))
13) Célula B12, fórmula =B11^2
Solução com o Excel

Regressão linear por transformação
Em muitos casos a relação entre X e Y não é linear. Para alguns
destes casos existem modelos capazes de linearizar a relação e
permitir o cálculo por meio dos métodos já discutidos
anteriormente
x
A
y
A
x
x
Y
y
X
Y
X
Y
.
log
log
log
log
.
log
log
0
,
0
para
.
ˆ






 










Função Potência
X
Y

 X
Y 
1


1
0 
 

Função exponencial
X
A
y
B
A
Y
y
X
Y
Y X
.
log
log
log
log
.
log
log
1
,
0
para
.
ˆ



















X
Y
X
Y 
.

1



x
y
X
x
X
X
Y
.
1
.
.
.
ˆ 1












 
Função Hipérbole (I)
X
Y 1


 X
Y 


 /
X
1


 X
Y 


X
y
Y
y
X
Y
.
1
0
e
0
.
para
.
1
ˆ













Função Hipérbole (II)
X
Y
X
Y

 

1

/
1
Regressão Polinomial


 




 2
2
2
2
)
(
)
ˆ
(
ˆ cX
bX
a
Y
Y
Y
e
0
ˆ
,
0
ˆ
,
0
ˆ 2
2
2






dc
e
d
db
e
d
da
e
d
2
ˆ cX
bX
a
Y 


O método é aplicado é o dos mínimos quadrados

Regressão Polinomial


 


 

 









4
3
2
2
3
2
2
.
X
c
X
b
X
a
Y
X
X
c
X
b
X
a
XY
X
c
X
b
a
n
Y A solução é
encontrada
resolvendo o sistema
em “a”, “b” e “c”
2
ˆ cX
bX
a
Y 


A distribuição de Weibull
  0
0
0
0
0
t
t
exp
.
)
( 
































t
t
t
t
t
t
t
f
A função densidade de probabilidade Weibull é
definida por :
 : parâmetro de forma ou inclinação
 (eta) : vida característica
t0 : parâmetro de localização ou vida mínima

A “família” Weibull
A Weibull é na verdade
uma família de
distribuições.
Diferentes valores de 
e  alteram o formato
da curva.
 = 1 A distribuição
Weibull é Poisson.
 = 2 A distribuição
Weibull é a distribuição
Rayleigh.
 = 2.5 A distribuição
Weibull se aproxima da
Lognormal
  3.5 Formato da
curva similar ao da
distribuição normal
Influência de  na função f(t)
0
0.001
0.002
0.003
0.004
0.005
0.006
0.007
0.008
0.009
0.01
0 200 400 600 800
t
f(t)
  05
  
  2
  35
  6
Influência de  em f(t)
0
0.001
0.002
0.003
0.004
0.005
0.006
0.007
0.008
0.009
0.01
0 100 200 300 400 500 600 700 800
t
f(t)
  50
  200
  300
  400
  500
300
35

A distribuição de Weibull
  0
0
0
0
0
t
t
.
exp
.
)
(
0
























 


dt
t
t
t
t
t
t
t
F
t
t




























 0
0
exp
1
)
(
t
t
t
t
F
A função F(t) é chamada função densidade acumulada de
probabilidade e representa P(t0 < T < t)
Simples e não requer tabela
Exercícios
Uma variável aleatória segue a distribuição de Weibull com
=3.5 , =10 e t0=0. Calcule P(0<T<10)
Uma variável aleatória segue a distribuição de Weibull com
=2.5 , =4 e t0=0. Calcule P(0<T<4)
P(t0<T<)=?

A aplicabilidade de Weibull
A distribuição de Weibull fornece uma maneira simples
de analisar dados e determinar que padrão de falha está
ocorrendo em uma peça ou equipamento.
A análise identifica os trechos de início de vida, de falha
constante ou de envelhecimento. Esta informação pode
ser usada para a escolha da política de manutenção e
análises de confiabilidade tais como análise de frequência
de risco. Para tanto a variável T é o tempo de uso do
equipamento ou componente.
A propensão em falhar (taxa de falha) muda de maneira
particular para cada equipamento e num mesmo
equipamento esta também muda para cada tipo de falha
analisado. Existe uma curva de taxa de falha que é
aplicável a uma grande variedade de equipamentos
complexos. De seu formato, foi estabelecido o seu nome :
curva da banheira.

A curva da banheira
A - Região de decréscimo de taxa de falha (infância) <1
B - Região de taxa de falha constante =1
C - Região de crescimento de taxa de falha (velhice) >1
h(t)
Taxa de falha
t
A B C
  

O ajustamento Weibull






















 0
0
exp
)
(
1
t
t
t
t
F
 






















 0
0
)
(
1
ln
t
t
t
t
F






















 0
0
exp
1
)
(
t
t
t
t
F
 

 












0
0
1
)
(
1
ln
t
t
t
t
F



























 0
0
ln
.
)
(
1
1
ln
ln
t
t
t
t
F 

   
0
0 ln
.
ln
.
)
(
1
1
ln
ln t
t
t
t
F
























a
X
b
Y 
 .



O ajustamento Weibull
b

 0
exp t
a








 



Em nossos problemas t0
será arbitrado como nulo,
de preferência.
Como estimar F(t) sem ter
os parâmetros?
Primeiro colocam-se os dados
em ordem e atribui-se uma
ordem i =1..n para cada dado.
Faz-se F(t)=i/(n+1)
Exemplo
Dados
10
16
21
30
Os dados ao lado representam o tempo em
dias de uso de um conjunto de
determinado equipamento. Ajuste-os à
distribuição de Weibull. (t0=0) Comente os
parâmetros

Solução
i t F(t) X=ln(t) Y=ln(ln(1/(1-F(t))) X2 Y2 XY
1 10 0.2 2.302585 -1.499939987 5.301898 2.24982 -3.45374
2 16 0.4 2.772589 -0.671726992 7.687248 0.451217 -1.86242
3 21 0.6 3.044522 -0.087421572 9.269117 0.007643 -0.26616
4 30 0.8 3.401197 0.475884995 11.56814 0.226467 1.618579
Total 11.52089 -1.783203555 33.82641 2.935146 -3.96374
b 1.821281  1.821280835
a -5.6915  22.75981979
rxy 0.9988
R2 0.997601
  
 
 
 








n
X
X
n
Y
X
XY
b
n
X
b
n
Y
a 2
2
  
   




































n
Y
Y
n
X
X
n
Y
X
Y
X
r
R XY 2
2
2
2
2
2
2
.
.
.
b

 0
exp t
a








 




t
10
60
150
350
700
Exercício
Ajuste os dados ao lado à distribuição de
Weibull. (t0=0) Comente os parâmetros
i t F(t) X=ln(t) Y=ln(ln(1/(1-F(t))) X2 Y2 XY
1 10 0.166667 2.302585 -1.701983355 5.301898 2.896747 -3.91896
2 60 0.333333 4.094345 -0.902720456 16.76366 0.814904 -3.69605
3 150 0.5 5.010635 -0.366512921 25.10647 0.134332 -1.83646
4 350 0.666667 5.857933 0.094047828 34.31538 0.008845 0.550926
5 700 0.833333 6.55108 0.583198081 42.91665 0.34012 3.820577
Total 23.81658 -2.293970823 124.4041 4.194948 -5.07997
b 0.533569  0.53356862
a -3.00035  276.7668373
rxy 0.996374
R2 0.992762

Aulas_Estatística1.ppt

Recomendados

Recomendados

Más contenido relacionado

Similar a Aulas_Estatística1.ppt

Similar a Aulas_Estatística1.ppt (20)

Más de Rogerio834905

Más de Rogerio834905 (6)

Aulas_Estatística1.ppt