28632 mat int-notas-de-aula

Notas de aula - Matemática Integrada (curso
de 60 horas-aula)
Professor Flávio Guardiano de Souza
(Com base no livro de Bussab & Morettin [1] e Magalhães &
Lima [2])
Sumário
1 Introdu¸cão à Estat´ıstica 2
1.1 Popula¸cão e amostra . . . . . . . . . . . . . . . . . . . . . . . 5
2 Probabilidade 7
2.1 Introdu¸cão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.2 Probabilidade Condicional e Independência . . . . . . . . . . . 11
2.3 O Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . 13
2.4 Variáveis aleatórias . . . . . . . . . . . . . . . . . . . . . . . . 17
2.4.1 Variável aleatória discreta . . . . . . . . . . . . . . . . 18
2.4.2 Variável aleatória cont´ınua . . . . . . . . . . . . . . . . 19
2.5 Esperan¸ca e Variância . . . . . . . . . . . . . . . . . . . . . . 22
2.6 Alguns modelos discretos . . . . . . . . . . . . . . . . . . . . . 27
2.7 Alguns modelos cont´ınuos . . . . . . . . . . . . . . . . . . . . 34
3 Inferência Estat´ıstica – Estima¸cão 42
3.1 Parâmetros, estimadores e estimativas . . . . . . . . . . . . . 43
3.2 Distribui¸cões amostrais . . . . . . . . . . . . . . . . . . . . . . 48
3.3 Teorema central do limite . . . . . . . . . . . . . . . . . . . . 51
Esclarecimento
Estas notas de aula não representam material de autoria do professor.
Tratam-se, em quase sua totalidade, de cópia de partes dos livros citados
nas referências bibliográficas e de escritos diversos de posse do professor ou
colhidos da internet.
1

Notas de aula - Matemática Integrada
O que este material tenta fazer é selecionar os tópicos a serem lecionados
num curso introdutório de Probabilidade e Estat´ıstica de 60 horas ministrado
para uma turma do curso de Licenciatura em Matemática. Evidentemente,
estas notas não substituem os livros, sendo fortemente recomendável que o
aluno adquira pelo menos uma das obras citadas ou outras do gênero, ou que
vá à biblioteca e tome emprestado pelo menos um livro para o acompanha-
mento da disciplina durante o semestre.
Para a consolida¸cão dos tópicos estudados, exerc´ıcios são apresentados ao
longo do texto, selecionados dentre vários outros constantes da bibliografia
citada. Ciência exata só é aprendida fazendo-se muitos exerc´ıcios. Ao aluno
é “obrigatório” que se fa¸cam pelo menos estes sugeridos para um bom apro-
veitamento do curso; obviamente que quanto mais exerc´ıcios extras puderem
ser feitos, melhor, e os livros os contêm em um número bastante expressivo.
Dado que a bibliografia utilizada se refere a obras e autores consagrados,
poss´ıveis erros encontrados nestas notas serão muito provavelmente frutos de
erros de digita¸cão ou de compreensão do professor.
Este material ainda está sendo escrito e encontra-se em constante revisão.
Apontamentos de erros, cr´ıticas ou sugestões serão bem-vindas e poderão ser
enviadas para o e-mail
flavioguardiano@gmail.com.
1 Introdu¸cão à Estat´ıstica
A disciplina Matemática Integrada na Unip consiste em uma espécie de
“coringa”, uma disciplina que de tempos em tempos tem o seu enfoque alte-
rado. Neste semestre foi proposta a abordagem da Estat´ıstica, em que serão
tratados tópicos referentes a probabilidade e inferência.
A palavra “estat´ıstica” é originária do latim status e tem a mesma origem
etimológica de “estado”. Com efeito, a necessidade de governos coletarem
dados censitários de suas popula¸cões foi um dos fenômenos que impulsionou
o desenvolvimento deste ramo da ciência.
Dados têm sido coletados através de toda a história. Nas civiliza¸cões
eg´ıpcia, grega e romana, dados primários eram coletados com propósitos de
taxa¸cões e finalidades militares. Na Idade Média, igrejas registravam dados
e informa¸cões sobre nascimentos, mortes e casamentos. No Brasil, o IBGE
realiza seu censo a cada 10 anos. Atualmente, empresas investem grandes
somas de dinheiro em sistemas de informa¸cão para se manterem competitivas
no mercado. As dificuldades em armazenar e analisar grandes conjuntos de
dados têm sido um considerável gargalo para as companhias e o conceito de
Big data (“megadados”, em português) ganha relevância a cada dia.
2

Evidentemente não é preciso ser um profissional da área para ter que
lidar com estat´ıstica. Diariamente somos expostos a grande quantidade de
informa¸cão numérica, como a apresentada no quadro que segue.
Resorts têm taxa de ocupa¸cão maior com a Copa
A presen¸ca de turistas e, principalmente, de delega¸c~oes de
sele¸c~oes fez com que a taxa de ocupa¸c~ao dos resorts do pa´ıs
subisse cerca de 9% em junho na compara¸c~ao com o mesmo mês de
2013.
Dados da Resorts Brasil (associa¸c~ao do setor) apontam que o
´ındice passou de 39,5%, no ano passado, para 43%, neste ano.
(Blog “Mercado aberto”, texto de Maria Cristina Frias, de 22/7/2014, hospedado em
http://www.folha.uol.com.br/)
Sobre a informa¸cão do quadro acima, se o ´ındice de ocupa¸cão dos resorts
passou de 39,5% para 43% (43% − 39, 5% = 3, 5%), por que a reportagem
fala em aumento de 9%?
Veja agora a not´ıcia do quadro a seguir. Você sabe o que significa dizer
que “a margem de erro é de dois pontos percentuais para mais ou para
menos”? O que significa o termo “margem de erro”? Um candidato com
1% de inten¸cão de voto nessa pesquisa poderia teoricamente estar com um
percentual negativo?
3

Ibope: Dilma tem 38%, e Aécio 22% das inten¸cões de voto
Pesquisa Ibope divulgada nesta ter¸ca-feira (22) mostra a
presidente Dilma Rousseff (PT) na frente da disputa, com 38% dos
votos. Ela é seguida pelo tucano Aécio Neves, com 22%, e por
Eduardo Campos (PSB), com 8%. O candidato Pastor Everaldo (PSC)
tem 3% das inten¸c~oes de voto. Eduardo Jorge (PV), Luciana Genro
(PSOL) e Zé Maria (PSTU) possuem 1% cada. Os demais candidatos
n~ao pontuaram.
Os votos brancos e nulos correspondem a 16% do total; 9%
n~ao souberam responder. A margem de erro é de dois pontos
percentuais para mais ou para menos. O n´ıvel de confian¸ca é
de 95%, o que significa que o Ibope tem 95% de certeza de que os
números est~ao dentro da margem de erro.
(http://eleicoes.uol.com.br/2014/noticias/2014/07/22/
ibope-dilma-tem-38-e-aecio-22-das-intencoes-de-voto.htm, acesso em
23/7/2014.)
Outra área que contribuiu sobremaneira no desenvolvimento da Estat´ıstica
moderna é o cálculo de probabilidades. É até poss´ıvel desenvolver racioc´ınio
estat´ıstico dissociado da probabilidade, mas isso limitaria a Estat´ıstica a in-
terpreta¸cões numéricas e análises descritivas. A Probabilidade é quem dá à
Estat´ıstica seu caráter cient´ıfico, firmando bases para que observa¸cões base-
adas em amostras possam ser estendidas à popula¸cão de que fazem parte.
No quadro acima é citada uma pesquisa de inten¸cão de votos em que foram
calculadas simples propor¸cões para aferir o desempenho dos candidatos à
Presidência da República. Mas para se chegar ao n´ıvel de confian¸ca citado
no texto, um cálculo de probabilidade precisou ser feito. Essa probabilidade
associada à margem de erro dá a entender que a pesquisa foi feita observando
rigores cient´ıficos, sugerindo, por exemplo, que a abordagem dos eleitores não
foi feita “de qualquer maneira”, mas sim sob alguma metodologia preconi-
zada pela teoria. Você saberia explicar o que significam os 95% de certeza a
que o texto se refere?
Grosso modo, podemos dividir a Estat´ıstica em três grandes áreas, que
em geral estão conjuntamente presentes em estudos complexos que envolvem
o tratamento estat´ıstico dos dados.
Estat´ıstica descritiva Em geral, utilizada na etapa inicial da análise,
quando tomamos contato com os dados pela primeira vez. Objetivando tirar
conclusões de modo informal e direto, a maneira mais simples seria a ob-
serva¸cão dos valores colhidos. Entretanto, ao depararmos com uma grande
massa de dados, percebemos, imediatamente, que a tarefa pode não ser sim-
ples. Para tentar depreender dos dados informa¸cões a respeito do fenômeno
4

sob estudo, é preciso aplicar alguma técnica que nos permita resumir a in-
forma¸cão daquele particular conjunto de valores. Em outras palavras, a
Estat´ıstica descritiva pode ser definida como um conjunto de técnicas desti-
nadas a descrever e resumir os dados, a fim de que possamos tirar conclusões
a respeito das caracter´ısticas de interesse.
Probabilidade Pode ser pensada como teoria matemática utilizada para
se estudar a incerteza oriunda de fenômenos de caráter aleatório. Sua história
é relativamente recente e teve in´ıcio com os jogos de cartas, dados e de roleta;
esse é o motivo da grande existência de exemplos de jogos de azar no estudo
da probabilidade.
Inferência Estat´ıstica Estudo de técnicas que possibilitam a extrapola¸cão,
a um grande conjunto de dados, das informa¸cões e conclusões obtidas a par-
tir de subconjuntos de valores, usualmente de dimensão muito menor. Deve
ser notado que se tivermos acesso a todos os elementos que desejamos estu-
dar, não e necessário o uso das técnicas de Inferência Estat´ıstica; entretanto,
elas são indispensáveis quando existe a impossibilidade de acesso a todo o
conjunto de dados, por razões de natureza econômica, ética ou f´ısica.
1.1 Popula¸cão e amostra
Defini¸cão 1.1. O conjunto de valores de uma caracter´ıstica (numérica) as-
sociada a uma cole¸cão de indiv´ıduos ou objetos de interesse é dito ser uma
popula¸cão.
Veja que com essa defini¸cão, uma popula¸cão não é o conjunto de pessoas,
indiv´ıduos ou objetos em si, mas as quantidades de interesse associadas a
essa cole¸cão. Por exemplo, se queremos avaliar a renda média dos moradores
de uma região, a popula¸cão de interesse não seriam pessoas, mas o conjunto
formado por todos os números referentes à renda de todas aquelas pessoas.
Ou, o vetor contendo o tempo de vida de todas as lâmpadas fabricadas num
per´ıodo de tempo, e não as lâmpadas, seria definida como a popula¸cão.
Algumas vezes podemos acessar toda a popula¸cão para se estudar carac-
ter´ısticas de interesse, mas em muitas situa¸cões tal procedimento não pode
ser realizado. Em geral, razões econômicas são as mais determinantes des-
sas situa¸cões. Por exemplo, uma empresa usualmente não dispõe de verba
suficiente para saber o que pensam todos os consumidores de seus produtos.
Há ainda razões éticas, quando, por exemplo, experimentos de laboratório
envolvem o uso de seres vivos. Além disso existem casos em que a impos-
sibilidade de se acessar toda a popula¸cão de interesse é incontornável. Na
análise do sangue de uma pessoa ou em um experimento para determinar o
5

tempo de funcionamento das lâmpadas produzidas por uma indústria, não
podemos observar toda a popula¸cão de interesse.
Tendo em vista as dificuldades de várias naturezas para se observar todos
os elementos da popula¸cão, tomam-se alguns deles para formar um grupo a
ser estudado.
Defini¸cão 1.2. Qualquer subconjunto da popula¸cão, em geral com dimensão
sensivelmente menor, é denominado amostra.
A sele¸cão da amostra pode ser feita de várias maneiras, dependendo,
entre outros fatores, do grau de conhecimento que temos da popula¸cão, dos
recursos dispon´ıveis etc. Ressalta-se que, em princ´ıpio, a sele¸cão da amostra
tenta fornecer um subconjunto de valores o mais parecido poss´ıvel com a
popula¸cão que lhe dá origem. A amostragem mais estudada é a amostra
casual simples, ou amostra aleatória simples, em que seleciona-se ao acaso,
com ou sem reposi¸cão, os itens da popula¸cão que farão parte da amostra.
Eventualmente, se se tiver informa¸cões adicionais a respeito da popula¸cão
de interesse, outros esquemas de amostragem mais sofisticados podem ser
utilizados. Por exemplo, se numa cidade tivermos mais mulheres do que ho-
mens, pode-se selecionar um certo número de indiv´ıduos entre as mulheres e
outro número entre os homens. Este procedimento é conhecido como amos-
tragem estratificada. A Teoria da Amostragem estuda com profundidade os
diferentes esquemas amostrais existentes. O importante aqui é ter em mente
que quanto mais complexa for a amostragem, maiores cuidados deverão ser
tomados nas análises estat´ısticas utilizadas; em contrapartida, o uso de es-
quemas amostrais mais elaborados pode levar a uma diminui¸cão no tamanho
da amostra necessário para uma dada precisão.
Questões para discussão Para as situa¸cões descritas a seguir, identifique
a popula¸cão e a amostra correspondente. Discuta a validade do processo de
inferência estat´ıstica para cada um dos casos.
a. Para avaliar a eficácia de uma campanha de vacina¸cão no Estado de São
Paulo, 200 mães de recém-nascidos durante o primeiro semestre de um
dado ano em uma dada maternidade em São Paulo foram perguntadas a
respeito da última vez em que vacinaram seus filhos.
b. Para verificar a audiência de um programa de TV, 563 indiv´ıduos foram
entrevistados por telefone com rela¸cão ao canal em que estavam sintoni-
zados.
c. A fim de avaliar a inten¸cão de voto dos brasileiros para presidente, 122
pessoas foram entrevistadas em Bras´ılia.
6

d. O diretor de uma empresa com 5.000 funcionários quer saber qual a opinião
de seus subordinados sobre altera¸cão no horário de entrada e de sa´ıda do
expediente; para isso, em um determinado dia, foram entrevistados os 300
primeiros que passaram pela portaria para o in´ıcio da jornada.
2 Probabilidade
2.1 Introdu¸cão
A teoria da probabilidade é a base sobre a qual a estat´ıstica é desenvol-
vida, fornecendo um meio para modelar popula¸cões, experimentos ou prati-
camente qualquer outra coisa que possa ser considerada como um fenômeno
aleatório, definido como uma situa¸cão ou acontecimento que não pode ser
previsto com certeza.
Chamamos espa¸co amostral ao conjunto de todos os resultados poss´ıveis
de um certo fenômeno aleatório. Ele será representado pela letra grega Ω
(ômega). Os subconjuntos de Ω são denominados eventos e representados
pelas letras latinas maiúsculas A, B, ... O conjunto vazio, como já tradicional,
será denotado por ∅. Temos então que Ω é o evento certo e que ∅ é o evento
imposs´ıvel.
A união de dois eventos A e B, denotada por A∪B, representa a ocorrência
de pelo menos um dos eventos A ou B. A interseçcão do evento A com o
eventos B, denotada por A ∩ B, é a ocorrência simultânea de A e B.
Dois eventos A e B são disjuntos ou mutuamente exclusivos quando não
têm elementos em comum, isto é, A ∩ B = ∅.
Dizemos que A e B são complementares se sua união é o espa¸co amostral
e sua interseçcão é vazia. O complementar de A será representado por Ac
e
temos A ∪ Ac
= Ω e A ∩ Ac
= ∅.
Se A é um subconjunto de B, dizemos que A está contido em B (ou,
equivalentemente, B contém A), e escrevemos A ⊆ B (ou B ⊇ A). Se
A ⊆ B e B ⊆ A então temos A = B. Podemos usar A ⊂ B para indicar que
o conjunto A é subconjunto de B, mas A = B.
Consideremos probabilidade como sendo uma fun¸cão P(·) que atribui va-
lores numéricos aos eventos do espa¸co amostral, conforme a defini¸cão a seguir.
Defini¸cão 2.1. Uma fun¸cão P(·) é denominada probabilidade se satisfaz às
condi¸cões:
i) 0 ≤ P(A) ≤ 1, ∀A ⊆ Ω;
ii) P(Ω) = 1;
7

iii) Se A1, A2, ..., An são disjuntos dois a dois então P(
n
j=1
Aj) =
n
j=1
P(Aj).
Mas como atribuir probabilidades aos eventos do espa¸co amostral? Há
duas maneiras principais de responder essa questão.
A primeira delas consiste na atribui¸cão de probabilidades baseando-se
em caracter´ısticas teóricas da realiza¸cão do fenômeno. Por exemplo, ao
lan¸carmos um dado comum e observarmos a face voltada para cima temos o
espa¸co amostral Ω = {1, 2, 3, 4, 5, 6}. Admitindo que o dado foi constru´ıdo
de forma homogênea e com medidas rigorosamente simétricas, não temos
nenhuma razão para priorizar essa ou aquela face, de maneira que podemos
considerar P(1) = P(2) = P(3) = P(4) = P(5) = P(6) = 1/6.
Uma outra maneira de obter probabilidades é por meio das frequências de
ocorrências. Observando as diversas repeti¸cões do fenômeno em que ocorre a
variável de interesse, podemos anotar o número de ocorrências de cada valor
dessa variável. Para um número grande de realiza¸cões, a frequência relativa
poderia ser usada como probabilidade. Por exemplo, desejando estabelecer as
probabilidades de cada face de um dado sem fazer nenhuma suposi¸cão inicial
sobre sua constru¸cão, usamos a experiência de sucessivas ocorrências. Vamos
assumir que à medida que o número de repeti¸cões nas mesmas condi¸cões
vai aumentando, as frequências relativas de estabilizam em um número que
chamaremos de probabilidade. Em ciências biológicas e humanas essa é a
forma mais comum de atribuir probabilidades.
De modo geral, diremos que estamos fazendo um sorteio aleatório ou ao
acaso em uma popula¸cão se a escolha desse ou daquele elemento só depende
da probabilidade a ele atribu´ıda, seja por meio da frequência relativa ou de
alguma suposi¸cão teórica.
Exemplo 2.2. Nem sempre o espa¸co amostral é obtido com precisão. Seja
o experimento “selecionar ao acaso um habitante do Rio de Janeiro e medir
sua altura em metros”. Quais os resultados poss´ıveis deste experimento? Po-
demos fazer Ω = (0, +∞), que evidentemente contém resultados imposs´ıveis.
Outros candidatos para Ω seriam os intervalos limitados (0, 3) e (1/10, 3);
ou então Ω = R, a própria reta real. O importante é perceber que o espa¸co
amostral pode não ser único, mas deve conter todo resultado poss´ıvel de um
experimento.
Exemplo 2.3. Para a variável número de filhos em uma pesquisa, o espa¸co
amostral poderá ser Ω = {0, 1, 2, 3, 4, 5+}, onde 5+ quer dizer “cinco filhos
ou mais”.
Exemplo 2.4. Uma fábrica produz determinado artigo. Da linha de produ¸cão
8

são retirados três artigos, e cada um é classificado como bom (B) ou defei-
tuoso (D). Um espa¸co amostral do experimento é
Ω = {BBB, BBD, BDB, DBB, DDB, DBD, BDD, DDD}.
Se A designar o evento que consiste em obter dois artigos defeituosos,
então A = {DDB, DBD, BDD}.
Exemplo 2.5. Considere o experimento que consiste em retirar uma lâmpada
de um lote e medir seu “tempo de vida” antes de se queimar. Um espa¸co
amostral conveniente é Ω = {t ∈ R : t ≥ 0}, isto é, o conjunto de todos
os números reais não negativos. Se A indicar o evento “o tempo de vida da
lâmpada é inferior a 20 horas”, então A = {t : 0 ≤ t ≤ 20}. Esse é um
exemplo de um espa¸co amostral cont´ınuo, contrastado com os dos exemplos
anteriores, que são discretos.
A probabilidade da união de eventos é calculada por meio da regra da
adi¸cão de probabilidades, enunciada abaixo.
Sejam A e B eventos de Ω. Então
P(A ∪ B) = P(A) + P(B) − P(A ∩ B).
Observe que se A e B forem disjuntos a expressão acima se reduz à soma
das probabilidades dos eventos A e B, pois a interseçcão é vazia e a corres-
pondente probabilidade é nula. A regra da adi¸cão das probabilidades pode
ser expandida. Para obter P(A ∪ B ∪ C), podemos fazer D = B ∪ C e, com
algum algebrismo, chegar a P(A ∪ B ∪ C) =
= P(A) + P(B) + P(C) − P(A ∩ B) − P(A ∩ C) − P(B ∩ C) + P(A ∩ B ∩ C).
Exemplo 2.6. Seja o experimento do lan¸camento de um dado comum, com
a observa¸cão da face que cai voltada para cima. Sejam os eventos A = “a
face voltada para cima é um número par” e B = “a face voltada para cima
é um número menor que 5”. Temos Ω = {1, 2, 3, 4, 5, 6}, A = {2, 4, 6} e
B = {1, 2, 3, 4}. Se o dado for equilibrado, temos P(A) = 3/6 e P(B) = 4/6.
Para calcular P(A ∪ B), podemos fazer de duas formas.
• A ∪ B = {1, 2, 3, 4, 6} ⇒ P(A ∪ B) = 5/6.
• A∩B = {2, 4} ⇒ P(A∩B) = 2/6 e P(A∪B) = 3/6+4/6−2/6 = 5/6
(aplica¸cão da regra da adi¸cão).
Como consequência da regra da adi¸cão, obtemos que, para qualquer
evento A ⊆ Ω,
P(A) = 1 − P(Ac
).
9

Exerc´ıcios
1 – Para cada um dos casos abaixo, escreva o espa¸co amostral correspon-
dente e conte seus elementos.
a. Uma moeda é lan¸cada duas vezes e observam-se as faces voltadas para
cima.
b. Um dado é lan¸cado duas vezes e a ocorrência da face par ou ´ımpar é
observada.
c. Uma urna contém 10 bolas azuis e 10 vermelhas com dimensões rigoro-
samente iguais. Três bolas são selecionadas ao acaso com reposi¸cão e as
cores são anotadas.
d. Dois dados são lan¸cados simultaneamente e estamos interessados na soma
das faces observadas.
e. Em uma cidade, fam´ılias com 3 crian¸cas são selecionadas ao acaso, anotando-
se o sexo de cada uma.
f. Uma máquina produz 20 pe¸cas por hora; escolhe-se um instante qualquer
e observa-se o número de pe¸cas defeituosas na próxima hora.
g. Uma moeda é lan¸cada consecutivamente até o aparecimento da primeira
cara.
2 – Sendo A e B dois eventos em um mesmo espa¸co amostral, “traduza”
para a linguagem da Teoria dos Conjuntos as seguintes situa¸cões.
a. Pelo menos um dos eventos ocorre.
b. O evento A ocorre mas B não.
c. Nenhum deles ocorre.
d. Exatamente um dos eventos ocorre.
3 – Uma universidade tem 10 mil alunos, dos quais 4 mil são considerados
esportistas. Temos ainda que 500 alunos são do curso de biologia diurno, 700
de biologia noturno e 200 são esportistas e de biologia noturno. Um aluno é
escolhido ao acaso e pergunta-se a probabilidade de ...
a. ser esportista.
10

b. ser esportista e aluno de biologia noturno.
c. não ser de biologia.
d. ser esportista ou aluno de biologia.
e. não ser esportista nem aluno de biologia.
4 – Sejam A e B dois eventos em um dado espa¸co amostral tais que
P(A) = 0, 2, P(B) = p, P(A ∪ B) = 0, 5 e P(A ∩ B) = 0, 1. Determine o
valor de p.
5 – Dois processadores tipo A e B são colocados em teste por 50 mil horas.
A probabilidade de que um erro de cálculo aconte¸ca em um processador do
tipo A é de 1/30; no tipo B, 1/80; e em ambos, 1/1000. Qual a probabilidade
de que ...
a. pelo menos um dos processadores tenha apresentado erro?
b. nenhum processador tenha apresentado erro?
c. apenas o processador A tenha apresentado erro?
2.2 Probabilidade Condicional e Independência
Considere a tabela 1, com dados referentes a alunos matriculados em
quatro cursos em uma universidade em um dado ano.
Tabela 1: Distribui¸cão de alunos segundo o sexo e a escolha do curso
Curso Sexo Homens (H) Mulheres (F) Total
Matemática Pura (M) 70 40 110
Matemática Aplicada (A) 15 15 30
Estat´ıstica (E) 10 20 30
Computa¸cão (C) 20 10 30
Total 115 85 200
Indiquemos por M o evento que ocorre quando, escolhendo-se ao acaso um
aluno do conjunto desses quatro cursos, ele for um estudante de Matemática
Pura. A, E, C, H e F têm significados análogos. Desta maneira, perceba
que, por exemplo,
• P(A) = 30/200;
11

• P(H) = 115/200;
• P(A∩H) = 15/200, sendo A∩H o evento “ocorrer A e H”, ou seja, um
aluno sorteado ao acaso é estudante de matemática aplicada e homem;
• P(A∪H) = P(A)+P(H)−P(A∩H) = 30/200+115/200−15/200 =
130/200 (A ∪ H =“o aluno sorteado ou é da Matemática Aplicada ou
é homem, ou ambos”);
• P(A ∩ C) = 0 (A e C são eventos disjuntos, isto é, A ∩ C = ∅).
Agora, suponha sabermos que um estudante sorteado está matriculado
no curso de Estat´ıstica. Qual a probabilidade de que esse estudante seja
mulher?
Perceba que o fato de sabermos que o aluno é do curso de Estat´ıstica
limitou o nosso espa¸co amostral a esse novo universo de apenas 30 estudantes.
Para respondermos a questão, basta que olhemos agora apenas para linha
referente aos estudantes do curso de Estat´ıstica e vermos que são 20 mulheres
dentre 30 alunos, ou seja, a probabilidade pedida é 20/30. Escrevemos
P(mulher|Estat´ıstica) = P(F|E) =
20
30
=
2
3
.
Defini¸cão 2.7. Para dois eventos quaisquer A e B, sendo P(B) > 0, defini-
mos a probabilidade condicional de A dado B, P(A|B), como sendo
P(A|B) =
P(A ∩ B)
P(B)
.
Usando a defini¸cão 2.7 e os dados da tabela 1, P(F|E) =
P(F ∩ E)
P(E)
=
20/200
30/200
=
2
3
.
Observe que P(F) = P(mulher) = 85/200 = 17/40; com a informa¸cão
de que E ocorreu (o aluno é do curso de Estat´ıstica), temos que P(F|E) =
2/3; logo, a informa¸cão de que E ocorreu aumentou a probabilidade de F
ocorrer. Intuitivamente, percebemos que há um rela¸cão de dependência entre
os eventos F e E no que diz respeito às suas probabilidades de ocorrência.
Defini¸cão 2.8. Dois eventos A e B são independentes se a informa¸cão da
ocorrência ou não de B não altera a probabilidade de ocorrência de A, isto
é:
P(A|B) = P(A), P(B) > 0,
12

ou ainda, de forma equivalente,
P(A ∩ B) = P(A)P(B).
Se A e B não são independentes, então eles serão dependentes.
Verifique que se A independente de B então B é independente de A.
Verifique também que o evento vazio é independente de qualquer evento.
Em verdade, eventos de probabilidade 0 ou 1 são independentes de qualquer
outro.
Não confunda eventos independentes com eventos disjuntos. Se dois
eventos são disjuntos (e têm cada um probabilidades não nulas), então a
ocorrência de um implica a não ocorrência do outro, ou seja, eles serão de-
pendentes. Matematizando, supondo P(A) > 0, P(B) > 0 e A ∩ B = ∅,
temos P(A|B) =
P(A ∩ B)
P(B)
=
0
P(B)
= 0, isto é, A e B não são independen-
tes.
2.3 O Teorema de Bayes
Defini¸cão 2.9. (parti¸cão do espa¸co amostral). Os eventos C1, C2, ..., Ck
formam uma parti¸cão do espa¸co amostral se eles não têm interseçcão entre
si e se sua união é igual ao espa¸co amostral. Isto é,
Ci ∩ Cj = ∅ para i = j e
k
i=1
Ci = Ω.
A figura 1 apresenta um exemplo de uma parti¸cão com 6 eventos.
Figura 1: parti¸cão do espa¸co amostral com k = 6
13

Exemplo 2.10. Um fabricante de sorvetes recebe de uma fazenda C1 20%
de todo o leite que utiliza; de uma outra fazenda C2 ele recebe 30% do leite;
e de uma terceira fazenda C3 ele recebe 50% do leite utilizado.
Um órgão de fiscaliza¸cão inspecionou as fazendas de surpresa, e observou
que 20% do leite produzido por C1 estava adulterado por adi¸cão de água,
enquanto que para as fazendas C2 e C3 essa propor¸cão era de 5% e 2%
respectivamente. Na indústria de sorvetes os galões de leite são armazenados
em um refrigerador sem identifica¸cão das fazendas. Para um galão escolhido
ao acaso, vamos analisar o leite para decidir sobre sua adultera¸cão ou não.
Se denotarmos por A o evento “o leite está adulterado”, temos P(A|C1) =
0, 20, P(A|C2) = 0, 05 e P(A|C3) = 0, 02. Veja que C1, C2 e C3 formam uma
parti¸cão do espa¸co amostral. O evento A pode ser escrito em termos de
interseçcões de A com os eventos C1, C2 e C3, conforme ilustra a figura 2.
Figura 2: A = (A ∩ C1) ∪ (A ∩ C2) ∪ (A ∩ C3)
Podemos ainda estar interessados em saber qual a probabilidade de que
a amostra adulterada tenha sido obtida do leite fornecido pela fazenda C1,
isto é, P(C1|A), o que implica em se inverter a probabilidade condicional
conhecida P(A|C1). Situa¸cões como essa são t´ıpicas para o uso do resultado
apresentado a seguir.
Teorema 2.11 (Teorema de Bayes). Suponha que os eventos C1, C2, ...,
Ck formem uma parti¸cão de Ω e que suas probabilidades sejam conhecidas.
Suponha ainda que para um evento A se conhe¸cam as probabilidades P(A|Ci)
para todo i = 1, 2, ..., k. Então, para qualquer j,
P(Cj|A) =
P(A|Cj)P(Cj)
k
i=1 P(A|Ci)P(Ci)
, j = 1, 2, ..., k.
Exemplo 2.12. Voltando à situa¸cão do fabricante de sorvetes (exemplo
2.10), podemos agora calcular a probabilidade desejada.
14

P(C1|A) =
P(C1 ∩ A)
P(A)
=
P(A|C1)P(C1)
P(A|C1)P(C1) + P(A|C2)P(C2) + P(A|C3)P(C3)
=
0, 2 × 0, 2
0, 2 × 0, 2 + 0, 3 × 0, 5 + 0, 02 × 0, 2
= 0, 615.
Exerc´ıcios em sala
I – Considere dois eventos A e B, mutuamente exclusivos, com P(A) =
0, 3 e P(B) = 0, 5. Calcule.
a. P(A ∩ B).
b. P(A ∪ B).
c. P(A|B).
d. P(Ac
).
e. P(A ∪ B)c
.
II – Se P(A ∪ B) = 0, 8, P(A) = 0, 5 e P(B) = x, determine x no caso
de:
a. A e B serem mutuamente exclusivos;
b. A e B serem independentes.
III – Um time ganha com probabilidade 0, 7 se chove e com 0, 8 se não
chove. Em setembro a probabilidade de chuva é 0, 3. Se o time ganhou uma
partida em setembro, qual a probabilidade de ter chovido nesse dia?
IV – Mostre que se A e B são independentes, então Ac
e Bc
também são
independentes.
P(Ac
)P(Bc
) = [1 − P(A)] × [1 − P(B)] = 1 − P(B) − P(A) + P(A)P(B) = 1 − P(B) −
P(A) + P(A ∩ B) (porque A e B são independentes). Assim, P(Ac
)P(Bc
) = 1 − [P(A) +
P(B) − P(A ∩ B)] = 1 − P(A ∪ B) = P[(A ∪ B)c
] = P[(A)c
∩ (B)c
].
15

Exerc´ıcios
6 – Uma moeda é viciada de modo que a probabilidade de sair cara é 4
vezes maior que a de sair coroa. Para dois lan¸camentos independentes dessa
moeda, determinar
a. o espa¸co amostral;
b. a probabilidade de sair somente uma cara;
c. a probabilidade de sair pelo menos uma cara;
d. a probabilidade de dois resultados iguais.
7 – As preferências de homens e mulheres para cada gênero de filme
alugado em uma locadora estão apresentadas na tabela a seguir.
Sexo Filme Comédia Romance Policial
Homens 136 92 248
Mulheres 102 195 62
Sorteando-se ao acaso uma dessas loca¸cões de v´ıdeo, pergunta-se a pro-
babilidade de:
a. uma mulher ter alugado um filme policial;
b. o filme alugado ser uma comédia;
c. um homem ter alugado ou o filme ser um romance;
d. o filme ser policial dado que foi alugado por um homem.
8 – Um médico desconfia que um paciente tem tumor no abdômen, pois
isto ocorreu em 70% dos casos similares que tratou. Se o paciente de fato
tiver o tumor, o exame ultra-som o detectará com probabilidade 0, 9. Entre-
tanto, se ele não tiver o tumor, o exame pode, erroneamente, indicar presen¸ca
do tumor (falso-positivo) com probabilidade 0, 1. Se o exame detectou um
tumor, qual é a probabilidade de o paciente tê-lo de fato?
9 – Uma turma de Matemática teve a seguinte distribui¸cão das notas
finais: 4 do sexo masculino e 6 do sexo feminino foram reprovados; 8 do sexo
masculino e 14 do feminino foram aprovados. Para um aluno sorteado dessa
turma, denote por M se o aluno escolhido for do sexo masculino e por A se
o aluno foi aprovado. Calcule:
16

a. P(A ∪ Mc
);
b. P(Ac
∩ Mc
);
c. P(A|M);
d. P(Mc
|A);
e. P(M|A).
2.4 Variáveis aleatórias
Como visto no estudo das probabilidades, o conjunto de todos os poss´ıveis
resultados de um experimento aleatório é o espa¸co amostral. Os elementos
desse conjunto podem ser numéricos ou não. Por exemplo, se o experimento
for escolher um aluno e registrar sua altura, teremos um conjunto numérico;
porém, se indagarmos o time de futebol preferido do aluno, teremos um
conjunto não numérico. Como em muitas situa¸cões experimentais precisamos
atribuir um número real x a todo elemento do espa¸co amostral, vamos definir
o conceito de variável aleatória.
Defini¸cão 2.13. Seja Ω o espa¸co amostral associado a um experimento
aleatório. Uma fun¸cão X que associe a cada elemento ω ∈ Ω um número real
X(ω) é denominada variável aleatória.
Observe que variável aleatória é uma fun¸cão cujo dom´ınio é o conjunto
Ω, e o contradom´ınio é o conjunto R dos números reais. Variáveis aleatórias
são denotadas com letras latinas maiúsculas e os seus valores pelas letras
minúsculas correspondentes. Assim, a variável aleatória X pode assumir os
valores x1, x2, ...
Ao definirmos uma variável aleatória, acabamos definindo também um
novo espa¸co amostral, formado por todos os valores poss´ıveis da variável.
Exemplo 2.14. Seja X a variável que representa o número de caras obtidas
no lan¸camento de duas moedas. Então Ω = {hh, ht, th, tt}, h = cara, t =
coroa. A variável X poderá assumir os valores 0, 1 e 2. Assim:
• X = 0 corresponde ao resultado do evento tt (nenhuma cara);
• X = 1 corresponde ao resultado ht ou th (uma cara);
• X = 2 corresponde ao resultado hh (duas caras).
Exemplo 2.15. Y = número de clientes que entram em um supermercado
entre 10h00 e 12h00. Y é um variável aleatória com valores 0, 1, 2, 3, ...
17

Exemplo 2.16. Z = altura de alunos de uma escola primária, em metros.
Os valores z assumidos por esta variável pertencem a um intervalo real.
Exemplo 2.17. Claro está que um mesmo experimento pode gerar diver-
sas variáveis aleatórias. Considere jogar um dado comum e observar a face
voltada para cima.
a) X = 1, 2, 3, 4, 5, 6 se X é o valor da face voltada para cima.
b) Y = 0 se a face voltada para cima é par e Y = 1 se a face é ´ımpar.
2.4.1 Variável aleatória discreta
Defini¸cão 2.18. Seja X uma variável aleatória. Se o número de valores
poss´ıveis de X for finito ou infinito numerável, denominaremos X de variável
aleatória discreta.
As variáveis dos exemplos 2.14, 2.15 e 2.17 são discretas.
Defini¸cão 2.19. A fun¸cão que atribui a cada valor da variável aleatória
discreta sua probabilidade é denominada fun¸cão discreta de probabilidade,
ou simplesmente fun¸cão de probabilidade.
X x1 x2 x3 ...
pi p1 p2 p3 ...
com pi = P(X = xi), i = 1, 2, 3, ...
Uma fun¸cão de probabilidade satisfaz 0 ≤ pi ≤ 1 e
i
pi = 1.
Exemplo 2.20. Considere o experimento de lan¸car uma moeda e observar
se ocorre cara (H) ou coroa (T). Temos Ω = {HH, HT, TH, TT}. Podemos
agora, a partir do espa¸co amostral, descrever a variável N definida como
“número de caras em dois lan¸camentos dessa moeda”. Considerando inde-
pendência entre os lan¸camentos e moeda não viciada, obtemos a fun¸cão de
probabilidade da variável aleatória N, descrita abaixo.
N 0 1 2
pi 1/4 1/2 1/4
18

Exemplo 2.21. Uma popula¸cão de 1000 crian¸cas foi analisada para se de-
terminar a efetividade de uma vacina contra um tipo de alergia. As crian¸cas
recebiam uma dose da vacina e após um mês passavam por um novo teste.
Caso ainda tivessem alguma rea¸cão alérgica, recebiam outra dose. Ao fim de
cinco doses todas as crian¸cas foram imunizadas. O quadro abaixo descreve o
resultado do experimento.
Número de doses 1 2 3 4 5 Total
Frequência 245 288 256 145 66 1000
Supondo uma crian¸ca sorteada ao acaso, qual a probabilidade dela ter sido
imunizada após receber duas doses da vacina? Com a ideia de atribuir pro-
babilidade por meio da frequência relativa, a probabilidade desejada é de
288/1000 = 0, 288. A fun¸cão de probabilidade da variável X, “número de
doses recebidas”, fica sendo o seguinte.
x 1 2 3 4 5
P(X = x) 0,245 0,288 0,256 0,145 0,066
Veja que P(X ≤ 2) = P(X = 1) + P(X = 2) = 0, 533 = 53, 3% é a
probabilidade da crian¸ca sorteada ter recebido até 2 vacinas.
2.4.2 Variável aleatória cont´ınua
Defini¸cão 2.22. Seja X uma variável aleatória. Se os valores poss´ıveis de
X é um intervalo real ou uma cole¸cão de intervalos, denominaremos X de
variável aleatória cont´ınua.
A variável do exemplo 2.16 é cont´ınua. Renda, salário, tempo de dura¸cão
de um equipamento, comprimento de uma pe¸ca, área atingida por uma praga
agr´ıcola etc. são outros exemplos de quantidades que podem ser modeladas
por variáveis aleatórias cont´ınuas.
Defini¸cão 2.23. Dizemos que f(x) é uma fun¸cão cont´ınua de probabili-
dade, ou uma fun¸cão densidade de probabilidade para uma variável aleatória
cont´ınua X se satisfaz duas condi¸cões:
(i) f(x) ≥ 0 para tido x ∈ (−∞; ∞);
(ii) a área definida por f(x) é igual a 1, isto é,
∞
−∞
f(x)dx = 1.
19

Para calcular probabilidades, temos que, para a ≤ b, P(a ≤ X ≤ b) =
b
a
f(x)dx, que é a área sob a fun¸cão f definida no intervalo [a, b].
Pela forma com que são atribu´ıdas probabilidades para o caso cont´ınuo,
tem-se área 0 sob qualquer valor individual, isto é, P(X = k) = 0 para
qualquer k. Portanto, em se tratando de variável aleatória cont´ınua, a pro-
babilidade de ocorrência de um valor isolado é sempre 0 e, consequentemente,
P(a ≤ X ≤ b) = P(a < X ≤ b) = P(a ≤ X < b) = P(a < X < b).
Exemplo 2.24. Num teste educacional com crian¸cas, o tempo para a rea-
liza¸cão de uma bateria de questões de racioc´ınio lógico é medido e anotado
para ser comparado com um modelo teórico, que considera T = tempo de
teste, em minutos, como uma variável aleatória cont´ınua com fun¸cão densi-
dade de probabilidade dada por
f(t) =



(t − 4)/40 se 8 ≤ t < 10;
3/20 se 10 ≤ t ≤ 15;
0 caso contrário.
Figura 3: gráfico de f(t)
Note que f(t) se anula para t < 8 ou t > 15. Veja também que a fun¸cão
f(t) é um fun¸cão densidade de probabilidade, pois:
(i) f(t) ≥ 0 para todo t ∈ R;
(ii)
∞
−∞
f(t)dt =
10
8
(t − 4)
40
dt +
15
10
3
20
dt =
1
4
+
3
4
= 1.
Segundo o modelo teórico, a probabilidade de uma crian¸ca fazer o teste entre
9 e 12 minutos é a área sob f(t) no intervalo [9, 12], o que neste caso pode
20

ser feito geometricamente pelo cálculo das áreas do trapézio e retângulos
formados; ou então fazemos P(9 ≤ T ≤ 12) =
12
9
f(t)dt =
10
9
t − 4
40
dt +
12
10
3
20
dt =
11
80
+
3
10
=
11
16
.
Exerc´ıcios
10 – Uma moeda viciada tem probabilidade de cara igual a 0,4. Para dois
lan¸camentos independentes dessa moeda obtenha a fun¸cão de probabilidade
da variável número de caras. Fa¸ca um gráfico dessa fun¸cão.
11– Fa¸ca X a variável soma dos pontos obtidos no lan¸camento de dois
dados. Determine
a) a distribui¸cão de probabilidade de X;
b) P(3 ≤ X < 10);
c) P(3 ≤ X ≤ 10);
d) P(X > 20);
e) probabilidade de se obter pelo menos soma 3.
12 – Uma variável aleatória tem a distribui¸cão de probabilidade dada pela
fórmula P(X = x) = k/x, para x = 1, 3, 5, 7.
a) Determine k.
b) Calcule P(2 ≤ X ≤ 6).
c) Calcule P(X ≤ 5).
13 – Um homem de vendas calcula que cada contato resulta em vendas
com probabilidade de 20%. Certo dia, ele contata 5 poss´ıveis clientes. Cons-
trua a tabela da distribui¸cão de probabilidade para a variável Y = número
de clientes que assinam um contrato de venda.
14 – Verifique se as fun¸cões abaixo são fun¸cões densidade de probabili-
dade.
a) f(x) =
3x se 0 ≤ x ≤ 2;
0 caso contrário.
21

b) f(t) =
−1/π se 0 < t < π;
0 caso contrário.
c) f(x) =
2e2x
se x ≤ 0;
0 caso contrário.
15 – O tempo, em minutos, de digita¸cão de um texto por secretárias
experientes é uma variável aleatória cont´ınua com densidade
f(x) =



1/4 se 0 ≤ x < 2;
1/8 se 2 ≤ x < 6;
0 caso contrário.
Determine
a) P(X > 3).
b) P(1 < X ≤ 4).
c) P(X < 3|X ≥ 1).
d) P(X ≥ 1|X < 3).
e) Um número b tal que P(X > b) = 0, 6.
2.5 Esperan¸ca e Variância
Defini¸cão 2.25. O valor esperado (ou média ou ainda esperan¸ca) de uma
variável aleatória X, denotado por E(X), é definido como
E(X) =



∞
−∞
xf(x)dx se X é cont´ınua;
x
xP(X = x) se X é discreta.
Uma nota¸cão alternativa é representar E(X) por µX ou simplesmente µ,
se não houver possibilidade de confusão. A média de uma variável aleatória é
uma medida-resumo de tendência central que representa o “ponto de equil´ıbrio”
da distribui¸cão de seus valores, sendo muito usada para resumir as informa¸cões
e também em virtude de suas propriedades matemáticas.
Evidentemente que caracterizar uma variável por uma única medida pode
levar a interpreta¸cões equivocadas, de maneira que o uso de outras medidas
de tendência central (mediana, moda, média harmônica, média geométrica,
média aparada), de posi¸cão (quartis, decis etc.), de varia¸cão (variância,
desvio-padrão, desvio-médio, amplitude etc.) são amplamente usadas, com
suas adequa¸cões dependendo de cada caso. Num curso de estat´ıstica descri-
tiva, essas medidas são estudadas mais detalhadamente; aqui, trabalharemos
apenas com as de maior interesse teórico para os objetivos do curso no se-
mestre.
22

Defini¸cão 2.26. A variância de uma variável aleatória X, denotado por
V ar(X), ou por σ2
X, é definida como V ar(X) = E[(X − µX)2
], ou, de outra
forma:
V ar(X) = σ2
X =



∞
−∞
(x − µx)2
f(x)dx se X é cont´ınua;
x
(x − µX)2
P(X = x) se X é discreta.
Onde µX = E(X) definida anteriormente.
O desvio-padrão da variável X, denotado por σX, é a raiz quadrada positiva
da variância, ou seja, σX = σ2
X.
Exemplo 2.27. Um gerente de loja construiu a seguinte distribui¸cão de
probabilidade para a venda de fogões em uma semana.
x (vendas) 0 1 2 3 4
P(X = x) 0,20 0,30 0,30 0,15 0,05
A média de vendas, ou o número esperado de vendas semanal, será E(X) =
4
x=0
P(X = x) = 0 × 0, 20 + 1 × 0, 30 + 2 × 0, 30 + 3 × 0, 15 + 4 × 0, 05 = 1, 55
fogões.
Quanto à variância: σ2
X =
4
x=0
(x − µX)2
P(X = x) = (0 − 1, 55)2
· 0, 20 +
(1−1, 55)2
·0, 30+(2−1, 55)2
·0, 30+(3−1, 55)2
·0, 15+(4−1, 55)2
·0, 05 =
1, 2475 “fogões ao quadrado” (sendo a variância é uma medida quadrática,
sua unidade de medida é o quadrado da unidade original).
O desvio-padrão será σ = 1, 2475 = 1, 12 fogões.
Exemplo 2.28. Considere a variável tempo para a realiza¸cão de um teste do
Exemplo 2.24 e vamos calcular o tempo esperado e seu desvio-padrão.
Temos E(T) =
∞
−∞
tf(t)dt =
10
8
t×
(t − 4)
40
dt+
15
10
t×
3
20
dt = 2, 267+
9, 375 ≈ 11, 64 segundos.
Também, σ2
T =
10
8
(t − 11, 64)2
×
(t − 4)
40
dt +
15
10
(t − 11, 64)2
×
3
20
dt =
1, 7377 + 2, 1172 = 3, 8549 ⇔ σT = 3, 8549 = 1, 96 segundos.
Exemplo 2.29 (média e variância para dados brutos). Se em vez de uma dis-
tribui¸cão de probabilidade tivermos simplesmente os valores dispon´ıveis x1,
x2,..., xn, podemos atribuir probabilidade de ocorrência igual a 1/n para cada
23

um dos valores e fazer E(X) = µ =
1
n
x1+
1
n
x2+...+
1
n
xn =
x1 + x2 + ... + xn
n
,
que é a média aritmética simples entre os valores, também denotada por ¯x.
Do mesmo modo calculamos V ar(X) = σ2
=
(x1 − µ)2
n
+
(x2 − µ)2
n
+...+
(xn − µ)2
n
=
n
i=1(xi − ¯x)2
n
, que é a maneira usual de se ensinar variância
em cursos de estat´ıstica descritiva.
Propriedades Qualquer fun¸cão de variável aleatória também é uma va-
riável aleatória. Variáveis aleatórias distintas também podem ser somadas,
multiplicadas etc. sendo a resultante também uma variável aleatória. Mais
adiante veremos alguns exemplos de casos assim. Sejam X, Y variáveis
aleatórias e k uma constante real. Então:
(i) E(k) = k
(ii) E(kX) = kE(X).
(iii) E(k ± X) = k ± E(X).
(iv) E(X ± Y ) = E(X) ± E(Y ).
(v) E(XY ) = E(X)E(Y ) se X e Y forem independentes.
(vi) V ar(k) = 0.
(vii) V ar(k ± X) = V ar(X).
(viii) V ar(kX) = k2
V ar(X).
(ix) V ar(X ± Y ) = V ar(X) + V ar(Y ) se X e Y forem independentes.
Um uso imediato das propriedades (i), (ii) e (iii) permite obter uma forma
alternativa – e mais frequentemente usada – para o cálculo da variância de
uma variável. Sabendo que E(X) = µ é uma constante, temos V ar(X) =
E[(X − µ)2
] = E[X2
− 2µX + µ2
] = E(X2
) − 2µE(X) + E(µ2
) = E(X2
) −
2µ2
+ µ2
= E(X2
) − µ2
,
onde E(X2
) =



∞
−∞
x2
f(x)dx se X é cont´ınua;
x
x2
P(X = x) se X é discreta.
Ou seja, para calcularmos a variância de X, podemos primeiramente calcular
E(X2
) e depois subtrair o quadrado da sua média.
24

Exemplo 2.30. A variância da variável do Exemplo 2.27 poderia ter sido
calculada assim:
E(X2
) = 02
× 0, 20 + 12
× 0, 30 + 22
× 0, 30 + 32
× 0, 15 + 42
× 0, 05 = 3, 65.
σ2
= E(X2
) − µ2
= 3, 65 − 1, 552
= 1, 2475.
Exemplo 2.31. Uma máquina produz parafusos com peso unitário médio
10g e desvio-padrão 2g. Se 1.000 desses parafusos forem acondicionados em
um recipiente que pese 5kg, qual o peso médio e o desvio-padrão do conjunto?
Solu¸cão. X = peso de um parafuso, E(X) = 10g, V ar(X) = 4g2
. c = 5.000g
é o peso do recipiente.
Então Y = 1.000X +c é a variável peso do conjunto caixa-parafusos e, então,
E(Y ) = E(1000X + c) = 1000E(X) + c = 1000 × 10g + 5.000g = 15.000g e
V ar(Y ) = V ar(1000X +c) = 10002
V ar(X) = 106
×4g2
⇔ σY = 2.000g.
Exerc´ıcios
16 – Uma variável aleatória discreta pode assumir cinco valores, conforme
quadro que segue.
x 1 2 3 5 8
P(X = x) 0,20 0,25 P(X = 3) 0,30 0,10
a) Encontre o valor de P(X = 3).
b) Calcule P(X = 3|X ≥ 2).
c) Encontre a média da distribui¸cão.
d) Calcule a variância e o desvio-padrão.
17 – Uma variável cont´ınua X tem densidade de probabilidade dada por
f(x) =
1
6
x + k , se 0 < x < 3;
0 , caso contrário.
a) Qual o valor de k?
b) Calcule a média dessa variável.
c) Calcule a variância.
d) Calcule a mediana dessa variável, sabendo que a mediana é um número
m tal que P(X ≤ m) = 0, 5.
18 – Atletas de uma equipe de atletismo universitário tiveram medidos
peso e altura conforme quadro a seguir.
25

Atleta Peso (kg) Altura (m)
1 76 1,95
2 77 1,71
3 72 1,68
4 68 1,52
5 75 1,85
6 71 1,66
7 70 1,80
8 69 1,70
9 70 1,64
10 72 1,78
11 70 1,67
a) Calcule a média das alturas e dos pesos.
b) Calcule o desvio-padrão das alturas e dos pesos.
c) Em termos de desvio-padrão, qual variável tem maior variabilidade: peso
ou altura? Faz sentido essa compara¸cão?
d) O coeficiente de varia¸cão, que pode ser expresso em porcentagem, é a razão
entre o desvio-padrão de uma variável e sua média. Calcule o coeficiente
de varia¸cão das variáveis peso e altura e diga qual das variáveis tem maior
variabilidade. Essa compara¸cão faz sentido?
19 – Sejam X e Y variáveis aleatórias independentes com µX = 10, σ2
X =
8, µY = −5 e σ2
Y = 3. Calcule.
Calcule.
a) E(2X).
b) E(Y/3)
c) E(X + 8)
d) E
Y − 3
4
e) E(X + Y ).
f) E(X − 5Y ).
g) E
10Y + 8X
2
.
h) E(X − µX).
i) V ar(2X)
j) V ar(Y/3).
k) V ar(X + 8).
l) V ar(3Y + 4).
m) V ar(X − Y ).
n) V ar
3X − 2Y
5
o) E
X − µX
σX
p) V ar
X − µX
σX
q) E
Y − µY
σY
r) V ar
Y − µY
σY
26

20 – Uma pequena cirurgia dentária pode ser realizada por três métodos
diferentes cujos tempos de recupera¸cão (em dias) são modelados pelas variáveis
X1, X2 e X3, com as seguintes fun¸cões de probabilidade.
k 0 4 5 6 10
P(X1 = k) 0,2 0,2 0,2 0,2 0,2
k 1 5 9
P(X2 = k) 1/3 1/3 1/3
k 4 5 6
P(X3 = k) 0,4 0,4 0,3
O que pode ser dito sobre os tempos de recupera¸cão dos três tratamentos?
2.6 Alguns modelos discretos
Modelo Bernoulli
Dizemos que uma variável X segue o modelo Bernoulli se atribui 0 ou 1
à ocorrência de fracasso ou sucesso, respectivamente. Com p representando
a probabilidade de sucesso, 0 ≤ p ≤ 1, sua fun¸cão discreta de probabilidade
é dada por
x 0 1
P(X = x) 1 − p p
ou então, P(X = x) = px
(1 − p)1−x
, x = 0, 1.
Nota¸cão: X ∼ bernoulli(p) (leia: “X segue o modelo de Bernoulli com
probabilidade p de sucesso”).
Denominamos sucesso a ocorrência do evento de interesse e fracasso a não
ocorrência, sem que haja conota¸cões negativa ou positiva nessas expressões.
Exemplo 2.32. a) Uma moeda é lan¸cada.: o resultado ou é cara (“sucesso”)
ou não é cara (“fracasso”).
b) Uma pe¸ca é escolhida ao acaso em um lote: a pe¸ca é defeituosa (“sucesso”)
ou não (“fracasso”).
c) Um eleitor é escolhido numa popula¸cão e deseja-se verificar se ele vota ou
não no candidato A.
Se X ∼ binomial(p), segue que
E(X) = 1 × p + 0 × (1 − p) = p.
Para a variância, temos E(X2
) = 12
× p + 02
× (1 − p) = p, de forma que
V ar(X) = E(X2
) − E2
(X) = p − p2
= p(1 − p).
A repeti¸cão de ensaios de Bernoulli independentes dá origem à mais im-
portante variável aleatória discreta, denominada modelo Binomial.
27

Modelo Binomial
Considere a repeti¸cão de n ensaios de Bernoulli independentes e todos
com a mesma probabilidade de sucesso p. A variável aleatória que conta o
número total de sucessos é denominada Binomial com parâmetros n e p e
sua fun¸cão de probabilidade é dada por
P(X = k) =
n
k
pk
(1 − p)n−k
, k = 0, 1, 2, ..., n,
em que
n
k
=
n!
k!(n − k!)
é o coeficiente binomial. Nota¸cão: X ∼ b(n, p).
Figura 4: exemplos de distribui¸cão Binomial
Exemplo 2.33. Se 15% dos brasileiros torcem pelo Flamengo, ao sortearmos
ao acaso 10 brasileiros, qual a probabilidade de não haver flamenguista no
grupo sorteado?
Solu¸cão. Podemos pensar no experimento que consiste em sortear um bra-
sileiro ao acaso e verificar o time para o qual torce. Definimos a variável
aleatória Y como segue: Y =
1 se flamenguista;
0 caso contrário.
Note que Y ∼ bernoulli(p = 0, 15). Repetindo o sorteio 10 vezes nas mesmas
condi¸cões teremos 10 ensaios de Bernoulli Y1, Y2, ..., Y10 cada um assumindo o
valor 1 com 15% de probabilidade (e consequentemente o valor 0 com proba-
bilidade 85%). Se fizermos X =
10
i=1
Yi então X representará o número de fla-
menguistas no grupo de 10 pessoas. Teremos então X ∼ b(n = 10; p = 0, 15)
28

e a probabilidade desejada é
P(X = 0) =
10
0
× 0, 150
× 0, 8510−0
= 0, 8510
= 19, 7%.
Exemplo 2.34. X ∼ b(15; 0, 4). Calcule:
a) P(X ≥ 14).
b) P(X > 0).
c) P(X ≥ 14|X > 0).
Solu¸cão.
a) P(X ≥ 14) = P(X = 14)+P(X = 15) =
15
14
0, 414
0, 61
+
15
15
0, 415
0, 60
=
15 × 0, 414
× 0, 6 + 0, 415
= 2, 523 × 10−5
.
b) P(X > 0) = 1 − P(X = 0) = 1 − 0, 615
= 0, 9995.
c) P(X ≥ 14|X > 0) =
P(X ≥ 14 ∪ X > 0)
P(X > 0)
=
P(X ≥ 14)
P(X > 0)
=
2, 523 × 10−5
1 − 0, 615
=
2, 525 × 10−5
.
Exemplo 2.35. Uma certa doen¸ca pode ser curada por um procedimento
cirúrgico em 80% dos casos. Dentre os que têm essa doen¸ca, sorteamos 8
pacientes que serão submetidos à cirurgia. Qual a probabilidade de que ao
menos 2 não sejam curados?
Solu¸cão.
Já que a questão fala em probabilidade de não cura, podemos definir a
variável X como “número de doentes não curados dentre os 8 que se submete-
ram à cirurgia”, concluir que X ∼ b(8; 0, 20) e fazer P(X ≥ 2) = 1 − P(X <
2) = 1 − [P(X = 0) + P(X = 1)] = 1 − [0, 88
+ 8 · 0, 2 · 0, 87
] = 0, 497, que é
a probabilidade desejada.
Sendo X ∼ b(n, p) então, como visto, X = X1 + X2 + ... + Xn, com
Xi ∼ bernoulli(p), i = 1, 2, ..., n independentes, então a média e a variância
de uma variável binomial serão:
• E(X) = E(X1 + X2 + ... + Xn) = E(X1) + E(X2) + ... + E(Xn) =
p + p + ... + p = np.
• V ar(X) = V ar(X1 + X2 + ... + Xn) = V ar(X1) + V ar(X2) + ... +
V ar(Xn) = p(1 − p) + p(1 − p) + ... + p(1 − p) = np(1 − p).
29

Modelo Geométrico
Uma variável aleatória discreta X tem distribui¸cão Geométrica de parâmetro
p, 0 < p < 1, se sua fun¸cão de probabilidade é da forma
P(X = k) = p(1 − p)k
, k = 0, 1, 2, ...
Nota¸cão: X ∼ G(p).
Sendo p a probabilidade de sucesso, a distribui¸cão Geométrica pode ser
pensada como o número de fracassos que precedem o primeiro sucesso em
ensaios de Bernoulli independentes.
A expressão P(X = k) é uma fun¸cão de probabilidade, pois é positiva e
sua soma é
∞
k=0
P(X = k) =
∞
k=0
p(1 − p)k
=
p
1 − (1 − p)
= 1.
O nome da distribui¸cão se deve à forma como seu gráfico se apresenta.
Fazendo os valores que a variável assume no eixo das abcissas e as respectivas
probabilidades na ordenada, a fun¸cão tem o aspecto da figura que segue.
Figura 5: exemplo de distribui¸cão Geométrica
Exemplo 2.36. Uma linha de produ¸cão está sendo analisada para controle
de qualidade das pe¸cas produzidas.A produ¸cão é interrompida para regula-
gem toda vez que uma pe¸ca defeituosa é observada. Se 0,01 é a probabilidade
de uma pe¸ca ser fabricada com defeito, estude o comportamento da variável
Q = quantidade de pe¸cas boas produzidas antes da primeira defeituosa.
Para a aplica¸cão do modelo Geométrico, admitamos que cada pe¸ca fa-
bricada tem a mesma probabilidade de ser defeituosa independentemente da
qualidade das demais. Sendo sucesso a ocorrência de uma pe¸ca defeituosa,
temos
P(Q = k) = 0, 01 × 0, 99k
, k = 0, 1, 2, ...
30

q 0 1 2 50 150 300 450
P(Q = q) 0,0100 0,0099 0,0098 0,0060 0,0022 0,0005 0,0001
Figura 6: distribui¸cão Geométrica para a fabrica¸cão de pe¸cas
Utilizando um software para o aux´ılio nos cálculos, temos que P(Q ≤
300) = 0, 951, isto é, em apenas 4,9% das vezes a produ¸cão atingirá 300
pe¸cas sem precisar ser interrompida para manuten¸cão.
Se X ∼ G(p) é poss´ıvel mostrar que µ = E(X) =
∞
k=0
kP(X = k) =
∞
k=0
k ×p(1−p)k
=
1 − p
p
, que é o valor esperado de uma variável com fun¸cão
de probabilidade Geométrica de parâmetro p.
É poss´ıvel mostrar também que V ar(X) =
∞
k=0
(x − µ)2
p(1 − p)x
=
1 − p
p2
.
Exemplo 2.37. Voltando ao Exemplo 2.36, temos E(Q) =
1 − p
p
=
0, 99
0, 01
=
99, ou seja, podemos afirma que em média 99 pe¸cas boas serão produzidas
antes de se observar a 1a
pe¸ca defeituosa no processo de produ¸cão.
Modelo Poisson
Uma variável aleatória X tem distribui¸cão de Poisson com parâmetro
λ > 0 se sua fun¸cão de probabilidade é dada por
P(X = k) =
e−λ
· λk
k!
.
31

O modelo Poisson tem sido muito usado em experimentos f´ısicos e biológicos
e, λ é a frequência média ou esperada de ocorrências num determinado in-
tervalo de tempo (taxa de ocorrência).
Nota¸cão: X ∼ P(λ).
Figura 7: exemplos de distribui¸cão Poisson
Não é dif´ıcil observar que para qualquer k, P(X = k) > 0; também é
poss´ıvel mostrar que
∞
k=0
P(X = k) = 1 (ou seja, a Poisson é de fato uma
fun¸cão de probabilidade). Também mostra-se que, para a Poisson, E(X) =
V ar(X) = λ, ou seja, a média tem o mesmo valor que a variância, que é
igual ao parâmetro.
Exemplo 2.38. Estudos mostram que um radar localizado numa determi-
nada via flagra 6,5 carros por hora acima da velocidade permitida em dias
úteis. Se o modelo Poisson com λ = 6, 5 é adequado para a quantidade de
carros infratores em 1 hora, calcule a probabilidade de, num per´ıodo de 1
hora de um dia útil, o radar flagrar no máximo 3 carros acima da velocidade
permitida.
Solu¸cão. X = número de carros infratores por hora. X ∼ P(6, 5) ⇔
P(X = x) = 6, 5x
e−6,5
/x!. A probabilidade desejada é P(X ≤ 3) = P(X =
0)+P(X = 1)+P(X = 2)+P(X = 3) =
6, 50
e−6,5
0!
+
6, 51
e−6,5
1!
+
6, 52
e−6,5
2!
+
6, 53
e−6,5
3!
= e−6,5
(1 + 6, 5 +
6, 52
2
+
6, 53
6
) = 0, 112.
Exemplo 2.39. Engenheiros de uma companhia telefônica estudam se o mo-
delo de Poisson pode ser ajustado ao número N de chamadas interestaduais
32

que chegam por hora a uma central telefônica durante o per´ıodo noturno. Os
dados coletados, referentes a 650 per´ıodos de uma hora, estão apresentados
a seguir.
Chamadas 0 1 2 3 4 5 6 7 ≥ 8
Freq obs 9 38 71 115 125 106 79 50 57
Da tabela temos que, por exemplo, em 125 per´ıodos de uma hora ocorreram
4 chamadas.
Os engenheiros sugerem utilizar uma taxa média de ocorrência de 4,5
chamadas por hora no per´ıodo estudado. Seguindo o modelo indicado, a
frequência esperada de ocorrências com k chamadas é obtida multiplicando
650 (o total das observa¸cões) pela probabilidade de k chamadas. Assim, para
k = 2 temos frequência esperada para duas chamadas = 650 × P(N = 2) =
650 ×
e−4,5
4, 52
2!
= 73, 1. De modo análogo obtemos os demais valores.
Chamadas 0 1 2 3 4 5 6 7 ≥ 8
Freq obs 9 38 71 115 125 106 79 50 57
Freq esp 7,2 32,5 73,1 109,7 123,4 111,0 83,3 53,6 56,4
A tabela acima parece indicar que o modelo P(4, 5) fornece um bom ajuste
para a variável aleatória de interesse, pela proximidade das frequências ob-
servadas e esperadas. Conclusões mais objetivas, no entanto, podem ser
feitas por meio de testes estat´ısticos, assunto que pertence à Inferência Es-
tat´ıstica.
Exerc´ıcios
21 – Uma moeda equilibrada é lan¸cada sucessivamente, de modo inde-
pendente, até que ocorra a primeira cara. Seja X a variável aleatória que
conta o número de lan¸camentos anteriores à ocorrência de cara. Determine:
a) P(X ≤ 2);
b) P(X > 1);
c) Média e desvio-padrão de X.
22 – A variável Y tem distribui¸cão de probabilidade Poisson com parâmetro
λ = 2, 35. Obtenha:
a) P(Y < 2);
b) P(X > 0);
33

c) P(Y = 1|Y < 3).
23 – A aplica¸cão de fundo anti-corrosivo em chapas de a¸co de 1m2
é feita
mecanicamente e pode produzir defeitos (pequenas bolhas na pintura) de
acordo com uma variável Poisson de parâmetro λ = 1 defeito por metro qua-
drado. Uma chapa é sorteada ao acaso para inspe¸cão. Qual a probabilidade
de:
a) encontrarmos pelo menos um defeito?
b) encontrarmos de 2 a 4 defeitos?
24 – Um time de futebol tem probabilidade 0,60 de vitória sempre que
joga. Se o time atuar 4 vezes, determine a probabilidade de que ven¸ca:
a) Todas as quatro partidas.
b) Exatamente duas partidas.
c) Pelo menos uma partida.
d) No máximo três partidas.
25 – 25% dos universitários praticam esportes. Escolhendo-se ao acaso
15 desses estudantes, determine a probabilidade de, havendo mais de 5 es-
portistas no grupo, obtermos menos que 8 que praticam esporte.
2.7 Alguns modelos cont´ınuos
Modelo Uniforme
Uma variável aleatória X tem distribui¸cão Uniforme Cont´ınua no inter-
valo [a, b], a < b, se sua fun¸cão densidade de probabilidade é dada por
f(x) =
1/(b − a) se a ≤ x ≤ b;
0 caso contrário.
Nota¸cão: X ∼ U(a, b).
Na figura abaixo temos o gráfico de uma Uniforme (-5,12), cuja densidade
é igual 1/(12 − (−5)) = 1/17 se −5 ≤ x ≤ 12 e 0 nos demais casos.
34

Figura 8: exemplo de distribui¸cão Uniforme
O modelo Uniforme pressupõe que os valores poss´ıveis para a variável
aleatória têm todos a mesma probabilidade de ocorrência. A média e a
variância para o modelo Uniforme Cont´ınuo são:
µ = E(X) =
b
a
x
1
(b − a)
dx =
a + b
2
.
σ2
= V ar(X) = E(X2
) − µ2
=
b
a
x2 1
(b − a)
dx −
(a + b)2
4
=
(b − a)2
12
.
Exemplo 2.40. Admite-se que uma pane pode ocorrer em qualquer ponto
de uma rede elétrica de 10km. Definimos X = local, em km, da ocorrência
de uma pane na rede elétrica em rela¸cão a uma origem pré-fixada. Temos
X ∼ U(0, 10).
A probabilidade da pane ocorrer nos primeiros 500 metros é P(X ≤
0, 5) =
0,5
0
1
10 − 0
dx =
1
10
x
0,5
0
= 0, 05.
A probabilidade da pane ocorrer nos três quilômetros centrais da rede é
P(3, 5 ≤ X ≤ 6, 5) =
6,5
3,5
1
10
dx = 3/10.
A média de X, ou seja, em que ponto da central ocorrerá a pane, em
média, é µ =
0 + 10
2
= 5km, com desvio-parão σ =
(10 − 0)2
12
= 2, 9km.
35

Modelo Exponencial
Uma variável aleatória X assumindo valores não negativos segue o modelo
Exponencial com parâmetro α > 0 se sua densidade é
f(x) =
αe−αx
, x ≥ 0;
0 , caso contrário.
Nota¸cão: X ∼ Exp(α).
Exerc´ıcio: mostrar que
∞
0
αe−αx
dx = 1 e que, se X ∼ Exp(α), então
E(X) = 1/α e V ar(X) = 1/α2
, ou seja, a média é igual ao desvio-padrão.
A distribui¸cão Exponencial tem sido muito usada em f´ısica, engenharia,
computa¸cão, biologia etc. Variáveis como a vida útil de equipamentos, tempo
de falha, tempo de sobrevivência de espécies, entre outras, são algumas quan-
tidades que têm sido modeladas com bons resultados pela Exponencial.
Figura 9: exemplos de distribui¸cão Exponencial
Para calcular probabilidades, fazemos P(a < X < b) =
∞
0
αe−αx
dx =
−e−αx
b
a
= e−αa
− e−αb
. A inclusão ou não dos extremos não afeta o cálculo
efetuado.
Exemplo 2.41. O intervalo de tempo, em minutos, entre emissões conse-
cutivas de uma fonte radioativa é uma variável aleatória com distribui¸cão
Exponencial de parâmetro α = 0, 2.
Vamos calcular a probabilidade de haver uma emissão em um intervalo
inferior a 2 minutos. Temos P(X ≤ 2) =
2
0
0, 2e−0,2x
dx = e−0,2·0
− e−0,2·2
=
1 − e−0,4
= 0, 33.
36

Calculemos agora a probabilidade de o intervalo ser superior ou igual a
7 minutos sabendo que ele é superior a 5 minutos. P(X ≥ 7|X > 5) =
P(X ≥ 7, X > 5)
P(X > 5)
=
P(X ≥ 7)
P(X > 5)
=
e−1,4
e−1
= 0, 67.
O tempo médio entre uma emissão e outra é de 1/0, 2 = 5 minutos, ao
passo que o desvio padrão é igual a 1/0, 22 = 5 minutos.
Modelo Normal
De todos os modelos teóricos, cont´ınuos ou discretos, o mais importante
é o modelo Normal. Suas origens remontam a Gauss em seus trabalhos sobre
erros de observa¸cões astronômicas, por volta de 1810. Por isso a distribui¸cão
Normal de probabilidade também é conhecida pelo nome de Gaussiana.
Dizemos que uma variável aleatória cont´ınua X tem distribui¸cão Normal
com parâmetros µ e σ2
se sua fun¸cão densidade é dada por
f(x) =
1
√
2πσ2
× e−1
2
(x−µ
σ
)2
, x ∈ R.
Nota¸cão: X ∼ N(µ, σ2
)
Os parâmetros µ e σ2
representam respectivamente a média e a variância
da distribui¸cão. Ou seja, X ∼ N(µ, σ2
) ⇔ E(X) = µ e V ar(X) = σ2
.
Algumas caracter´ıstica das fun¸cão densidade Normal:
• f(x) é simétrica em rela¸cão a µ;
• f(x) → 0 quando x → ±∞;
• o valor máximo de f(x) se dá para x = µ;
• f(x) tem dois pontos de inflexão: em x − σ e em x + σ.
Figura 10: gráfico de uma distribui¸cão Normal com média µ e variância σ2
37

No cálculo de probabilidades, devemos resolver a integral da fun¸cão den-
sidade no intervalo de interesse , isto é, P(a ≤ X ≤ b) =
b
a
e−1
2
( x−µ
σ
)2
√
2πσ2
dx
Entretanto, a integral acima só pode ser resolvida de modo aproximado
e por métodos numéricos. Por essa razão, as probabilidades para o modelo
Normal são calculadas com o aux´ılio de tabelas ou softwares.
Por exemplo, se X ∼ N(µ, σ2
), o LibreOffice Calc (similar livre ao
MS Excel), calcula P(X < x) pela digita¸cão em sua barra de fórmula
“=DIST.NORM(x;µ;σ)”, em que x, µ e σ devem ser substitu´ıdos pelos res-
pectivos valores numéricos. A digita¸cão da fórmula “=DIST.NORM(5;8;3)”
retorna o valor 0,1586552539, que é o valor de P(X < 5) se X é normal com
média 8 e desvio-padrão 3 (perceba que o LibreOffice trabalha com o valor
do desvio-padrão em vez da variância; saber como cada software trabalha
com seus parâmetros é um cuidado fundamental).
Sobre o cálculo de probabilidade Normal com o uso de tabelas, esse re-
curso está cada vez mais raro em trabalhos práticos, pois já existem, além
dos computadores, calculadoras e dispositivos portáteis que realizam essa
opera¸cão. No entanto, em provas convencionais e de concursos em geral, a
familiaridade com as tabelas ainda é uma exigência. Para evitar a confeçcão
desnecessária de tabelas para cada para de valores (µ, σ2
), utiliza-se uma
transforma¸cão que sempre conduz ao cálculo de probabilidades com uma
variável Normal de média 0 e variância 1:
X ∼ N(µ, σ2
) ⇔ Z =
X − µ
σ
∼ N(0, 1).
Uma variável Z com distribui¸cão Normal de média 0 e variância 1 é denomi-
nada distribui¸cão Normal Padrão ou Normal Reduzida.
Assim, P(a ≤ X ≤ b) = P(
a − µ
σ
≤
X − µ
σ
≤
b − µ
σ
) = P(
a − µ
σ
≤ Z ≤
b − µ
σ
), sendo X ∼ N(µ, σ2
) e Z ∼ N(0, 1).
Os valores para P(0 ≤ Z ≤ z = ZC), z > 0, estão apresentados na Figura
11, extra´ıda do livro de Bussab & Morettin [1]. Com a simetria da densidade
Normal podemos calcular valores de probabilidades em quaisquer intervalos.
Note que a simetria também implica que a probabilidade de Z estar acima
(ou abaixo) de 0 é igual a 0,5. Como probabilidade é sempre um número
entre 0 e 1, o corpo da tabela contém apenas a parte decimal.
Exemplo 2.42. Se X ∼ N(2, 9) então:
• P(2 < X < 5) = P(
2 − 2
√
9
< X <
5 − 2
√
9
) = P(0 < Z < 1)
tabela
=
0, 34134.
38

Figura 11: probabilidades para a distribui¸c˜ao Normal Padr˜ao
39

• P(X < 1, 1) = P(
X − 2
√
9
<
1, 1 − 2
√
9
) = P(Z < −0, 3)
simetria
= P(Z >
0, 3) = 0, 5 − P(0 < Z < 0, 3)
tabela
= 0, 5 − 0, 11791 = 0, 38209.
• P(1 ≤ X < 7) = P(
1 − 2
3
≤ Z <
7 − 2
3
) = P(−0, 17 ≤ Z < 1, 67) =
P(0 < Z ≤ 0, 17) + P(0 < Z < 1, 67)
tabela
= 0, 06749 + 0, 37900 =
0, 44649.
• o valor de x tal que P(X > x) = 0, 35 é obtido fazendo P(Z >
x − 2
3
) =
0, 35
tabela
⇔
x − 2
3
= 0, 39 ⇔ x = 3, 17. (O valor 0,39 foi obtido ao se
procurar na tabela do Normal Padrão o valor mais próximo que retorne
uma área de 0,15, haja vista P(0 < Z < 0, 39) = 0, 15 ⇔ P(Z >
0, 39) = 0, 35.)
Aproxima¸cão Normal para o modelo Binomial A distribui¸cão Normal
modela bem muitos fenômenos práticos com valores muito frequentes em
torno da média e cuja frequência de reduz simetricamente à medida que se
afasta dessa média.
Uma outra razão da importância da Normal se refere à sua utiliza¸cão
como aproxima¸cão de outras distribui¸cões. Veremos como utilizá-la para
aproximar o modelo Binomial.
Seja X uma variável aleatória discreta com parâmetros n e p (X ∼ b(n, p),
sendo n o número de ensaios de Bernoulli independentes e p a probabilidade
de sucesso em cada um desses ensaios). Temos E(X) = np e V ar(X) =
np(1 − p).
O Teorema Central do Limite, a ser visto mais adiante, fornece a justifi-
cativa teórica para fazer cálculo de probabilidades de uma variável Binomial
usando a distribui¸cão Normal. Como regra prática, podemos considerar que
se np(1 − p) ≥ 5, então o cálculo da Binomial poderá ser feito usando a
distribui¸cão Normal de média np e variância np(1 − p).
Exemplo 2.43. Estudo do sindicato dos bancários indica que cerca de 30%
dos funcionários têm problemas de estresse. Numa amostra de 200 bancários,
qual a probabilidade de pelo menos 50 com essa doen¸ca?
Solu¸cão. Admitindo que cada funcionário sorteado para compor a mostra
tenha a mesma probabilidade de estar estressado e assumindo independência
entre as observa¸cões, o modelo Binomial é o adequado para a variável que
conta o número total de bancários, dentre os 200, com o problema. Sendo
X essa variável, temos X ∼ b(200; 0, 0) e a probabilidade desejada será
40

P(X ≥ 50) =
200
k=50
200
k
0, 3k
× 0, 7200−k
. A obten¸cão desse resultado será
bastante trabalhoso mesmo com o aux´ılio de uma calculadora. Utilizando
um computador, a conta acima retorna P(X ≥ 50) = 0, 949.
Como temos np(1 − p) = 200 × 0, 3 × 0, 7 = 42 >> 5, , podemos calcular
P(X > 50) usando a distribui¸cão Normal de média np = 200 × 0, 3 = 60
e variância np(1 − p) = 42, ou seja, Y ∼ N(60, 42). Assim, P(X ≥ 50) ≈
P(Y ≥ 50) = P(
Y − 60
√
42
≥
50 − 60
√
42
) = P(Z ≥ −1, 54), Z ∼ N(0, 1). Usando
a simetria da Normal e a tabela 11, temos P(Z > −1, 54) = 0, 5 + P(0 <
Z < 1, 54) = 0, 5 + 0, 43822 = 0, 93822, que, lembremos, é uma aproxima¸cão
para P(X ≥ 50) = 0, 949, ou seja, a solu¸cão dada pela aproxima¸cão Normal
parece bastante razoável.
Exerc´ıcios
26 – O valor esperado de uma variável aleatória com distribui¸cão Uni-
forma Cont´ınua é 1 e a variância é igual a 1/12. Encontre a probabilidade
da variável assumir valores menores que 3/4.
27 – O tempo de vida de um v´ırus exposto ao meio ambiente segue uma
distribui¸cão Exponencial com parâmetro λ =
1
20
segundo.
a) Qual o tempo médio de vida do v´ırus?
b) Qual o desvio-padrão do tempo de vida?
c) Qual a probabilidade do v´ırus viver menos de 12 segundos?
d) Sabendo que o v´ırus viveu mais que 10 segundos, qual a probabilidade de
que viva mais que 15 segundos?
28 – Sejam X ∼ N(4, 1), Y ∼ N(90, 100), W ∼ N(−5, 10). Obtenha:
a) P(X ≤ 4).
b) P(5 ≤ X ≤ 7).
c) P(Y > 80).
d) P(|Y − 90| ≤ 10).
e) P(W ≤ 0).
f) P(W > −6).
g) P(X + W > 0), sabendo que
X + W é Normal.
h) P(W − X < −4), sabendo que
W − X é Normal.
41

29 – A durabilidade de um pneu é descrita por uma variável Normal
de média 60.000 km e desvio-padrão 8.300 km. Se a garantia valer pelos
primeiros 48.000 km, qual a propor¸cão de pneus que serão trocados pela
garantia? Qual deveria ser a garantia, em km, de forma a assegurar que o
fabricante trocaria sob garantia no máximo 2% de pneus?
30 – Y tem distribui¸cão Binomial com n = 100 e p = 0, 4. Use a apro-
xima¸cão Normal para calcular:
a) P(30 < Y ≤ 80).
b) P(Y < 80).
c) P(Y > 30|Y < 80).
31 – Um time de futebol vai disputar o campeonato brasileiro da 1a
di-
visão, fazendo 38 jogos. Considere a variável aleatória Xi = número de pontos
na i-ésima partida definida como abaixo e considere os Xi independentes.
Xi =



3 com probabilidade 0,3
, i = 1, 2, ..., 38.
a) Calcule E(Xi) e V ar(Xi).
b) Defina X =
38
i=1
Xi e calcule E(X) e V ar(X). Qual a interpreta¸cão prática
da variável X?
c) A variável X é discreta (trata-se de uma Trinomial), mas suponha que X
pode ser aproximada por uma distribui¸cão Normal com mesma média e
variância. Se ao final do campeonato o time que somar menos de 45 pontos
é rebaixado, qual a probabilidade do time em questão ser rebaixado?
d) Com as mesmas suposi¸cões do item anterior, qual a probabilidade do time
em questão somar mais que 65 pontos ao final do campeonato e conquistar,
com isso, uma vaga na Libertadores?
3 Inferência Estat´ıstica – Estima¸cão
Em linhas gerais, a Inferência Estat´ıstica objetiva estudar uma ou mais
caracter´ısticas (numéricas) da popula¸cão por meio de evidências fornecidas
pela amostra. Porém, o uso inadequado de um procedimento amostral pode
levar a um viés de interpreta¸cão dos resultados. O uso de amostras que
42

produzam resultados confiáveis se constitui num campo próprio de estudo
dentro da Estat´ıstica – a Teoria da Amostragem. Neste texto, é suficiente
entender que para que as informa¸cões da amostra possam ser estendidas
à popula¸cão é essencial que a aleatoriedade esteja presente no processo de
sele¸cão da amostra. A aleatoriza¸cão justifica o uso da Probabilidade na
Inferência.
3.1 Parâmetros, estimadores e estimativas
Defini¸cão 3.1. As quantidades da popula¸cão, em geral desconhecidas e so-
bre as quais temos interesse são denominadas parâmetros e são usualmente
representadas por letras gregas tais como θ, µ, σ etc.
Defini¸cão 3.2. À combina¸cão das caracter´ısticas numéricas da amostra,
constru´ıda com a finalidade de representar, ou estimar, um parâmetro po-
pulacional de interesse denominamos estimador. Em geral, estimadores são
denominados por s´ımbolos com um acento circunflexo em cima: ˆθ, ˆµ, ˆσ etc.
Defini¸cão 3.3. Estimativa é o valor numérico assumido por um estimador.
A nota¸cão usual para a média de uma popula¸cão é µ acrescido de um subs-
crito se houver possibilidade de confusão sobre a que popula¸cão ou variável
nos referimos. Também é usual considerar σ para indicar o desvio-padrão
da popula¸cão. Outros parâmetros já não têm uma uniformidade de nota¸cão
entre os diversos autores.
Um estimador, digamos ˆθ, é ma fun¸cão das variáveis aleatórias constituin-
tes da amostra, isto é, ˆθ = f(X1, X2, ..., Xn); logo, um estimador também é
uma variável aleatória.
A correspondente distribui¸cão de probabilidade forma a base das argu-
menta¸cões probabil´ısticas utilizadas na extrapola¸cão da informa¸cão da amos-
tra para os parâmetros da popula¸cão.
Exemplo 3.4. Estamos interessados na média das alturas de jovens com
idade entre 15 e 18 anos nascidos na região Sudeste do Brasil. Vamos coletar
uma amostra e usá-la para tirar conclusões.
Suponha que a amostra seja composta pelas alturas de 10 jovens escolhi-
dos ao acaso dentre a popula¸cão mencionada. O parâmetro de interesse é a
altura média desses jovens, representada por µ. A amostra X1, X2, ..., X10
será obtida e com base nela vamos dizer algo a respeito de µ. Que fun¸cões
de valores amostrais devemos usar para essa tarefa, isto é, que estimador
devemos usar? A seguir são apresentadas algumas op¸cões.
43

• f1(X1, ..., X10) = ˆµ1 =
min(X1, ..., X10) + max(X1, ..., X10)
2
(média
aritmética entre o menor e o maior valor amostral);
• f2(X1, ..., X10) = ˆµ2 = X1 (o primeiro valor sorteado na amostra);
• f3(X1, ..., X10) = ˆµ3 =
X1 + ... + X10
10
(a média aritmética entre todos
os 10 valores da amostra).
Apresentamos a seguir os valores observados na amostra e as respectivas
estimativas obtidas com os estimadores definidos acima.
Amostra (em metros): 1,65 1,57 1,72 1,66 1,71 1,74 1,81 1,68
1,60 1,77.
Estimativas:
• ˆµ1 =
1, 57 + 1, 81
2
= 1, 69m;
• ˆµ2 = 1, 65m;
• ˆµ3 =
1, 65 + 1, 57 + ... + 1, 77
10
= 1, 69m;
Esses números, calculados para uma amostra particular, não são muito
distintos uns dos outros. Mas parece razoável que não devemos escolher um
estimador olhando apenas se a estimativa correspondente parece adequada.
Como decidir qual estimador usar, ou qual deles é o “melhor”? É sempre bom
lembrar que não sabemos o verdadeiro valor da altura média da popula¸cão.
Exemplo 3.5. Para detectar o apoio a um projeto governamental de reforma
agrária, foram entrevistas 400 pessoas em várias capitais. A amostra contém
as 400 respostas que consistem de sim (para aqueles que concordam com o
projeto) e não (para os que discordam).
Formalizando o problema, caracterizamos a popula¸cão de interesse como
as opiniões de todos os habitantes adultos do pa´ıs. A informa¸cão desejada é a
propor¸cão de pessoas que concordam com o projeto, ou seja, o parâmetro de
interesse é p = propor¸cão de brasileiros adultos que concordam com o projeto.
A amostra pode ser pensada como o vetor de variáveis aleatórias X1, X2,
..., X400, cada uma delas seguindo o modelo de Bernoulli com probabilidade
p de sucesso:
Xi =
1 se a iésima resposta é sim;
0 se a iésima resposta é não.
, i = 1, 2, ..., 400.
44

É intuitivo considerar o estimador “propor¸cão amostral dos que concordam”
para o verdadeiro valor de p na popula¸cão:
ˆp =
número de entrevistados que concordam com o projeto
número total de entrevistados
, ou seja,
ˆp =
X1 + X2 + ... + X400
400
= ¯X, em que ¯X denota a média aritmética amos-
tral.
Exemplo 3.6. Uma amostra de pacientes que sofrem certo tipo de câncer foi
coletada para que se tenha uma ideia da variabilidade da área atingida pela
doen¸ca. Para 12 pacientes sorteados mediram-se os tamanhos dos tumores
observados. Os dados, em cm2
foram os seguintes:
3,52 6,12 4,50 4,45 5,88 4,08 5,91 4,50 4,86 5,48 5,10.
Tendo em vista que o que se deseja estudar é a variabilidade, vamos consi-
derar como parâmetro de interesse a variância σ2
. Para o estimador considere
duas op¸cões: ˆσ2
1 =
1
12
12
i=1
(Xi − ¯X)2
e ˆσ2
2 =
m´ınimo − máximo
2
2
.
A primeira op¸cão é a variância do conjunto de dados observados, enquanto
que o segundo estimador proposto é o quadrado da semi-amplitude dos va-
lores amostrais. Calculemos suas estimativas.
• ˆσ2
1 =
1
12
[(3, 52 − 4, 84)2
+ ... + (3, 10 − 4, 84)2
] = 0, 67(cm2
)2
.
• ˆσ2
2 =
6, 12 − 3, 52
2
2
= 1, 69(cm2
)2
.
Esses números dão ideia da dispersão de valores que podem ser encontrados
no tamanho dos tumores, e são estimativas de σ2
, a variância populacional
das áreas dos tumores.
Como visto, mais de uma fun¸cão da amostra pode ser proposta para esti-
mar o parâmetro de interesse. Para facilitar a escolha entre tais estimadores,
é importante verificar e possuem algumas das propriedades definidas a seguir.
Defini¸cão 3.7 (v´ıcio). O v´ıcio do estimador ˆθ é definido como b(ˆθ) = E(ˆθ)−
θ. Dizemos que ˆθ é um estimador não viciado para θ se E(ˆθ) = θ ou,
equivalentemente, se b(ˆθ) = 0.
Defini¸cão 3.8 (consistência). Um estimador ˆθ é consistente se, à medida
que o tamanho da amostra aumenta, seu valor esperado converge para o
parâmetro de interesse e sua variância converge para 0 (zero). Ou seja, ˆθ é
consistente se estão satisfeitos:
45

(i) lim
n→∞
E(ˆθ) = θ;
(ii) lim
n→∞
V ar(ˆθ) = 0.
Note que na defini¸cão de consistência o estimador pode ser viciado, bas-
tando que esse v´ıcio tenda a zero à medida que cresce o tamanho da amostra;
na defini¸cão do v´ıcio, o resultado deve valer para qualquer n.
Defini¸cão 3.9. (erro quadrático médio) O erro quadrático médio (EQM) de
um estimador ˆθ do parâmetro θ é dado por EQM(ˆθ) = V ar(ˆθ) − b2
(ˆθ), em
que b(ˆθ) é o v´ıcio do estimador ˆθ conforme defini¸cão 3.7.
Podemos considerar que um bom estimador é aquele que seja não viciado
(ou pelo menos que tenha v´ıcio pequeno), que seja consistente e que tenha
pequeno erro médio quadrático.
Exemplo 3.10. Suponha que é sabido que uma certa caracter´ıstica popula-
cional X tem média µ e variância σ2
. Uma amostra aleatória de tamanho n,
representada por X1, X2, ..., Xn é obtida para estimar o parâmetro µ.
Vamos assumir que os Xi, i = 1, 2, ..., n, são variáveis aleatórias indepen-
dentes com a mesma distribui¸cão de X, o que significa que E(Xi) = µ e
V ar(Xi) = σ2
, i = 1, 2, ..., n.
Considere o estimador ˆµ1 = ¯X.
E(ˆµ1) = E( ¯X) = E
X1 + ... + Xn
n
=
1
n
[E(X1)+...+E(Xn)] =
1
n
[µ + ... + µ
n vezes
] =
1
&n
×&n × µ = µ. Ou seja, o estimador ˆµ1 é não viciado para µ.
V ar(ˆµ1) = V ar
n
i=1 Xi
n
indep.
=
1
n2
n
i=1
V ar(Xi) =
1
n2
n
i=1
σ2
=
1
n¡2
×&n ×
σ2
=
σ2
n
. Veja que lim
n→∞
σ2
n
= 0
Com os cálculos da esperan¸ca e da variância do estimador ˆµ1 = ¯X, veri-
fique pelas defini¸cões 3.7 e 3.8 que este estimador é não viciado e consistente
para µ.
Ainda, EQM(ˆµ1) = V ar(ˆµ1) − b2
(ˆµ1) =
σ2
n
.
Se a variável X em questão tiver distribui¸cão Normal, os resultados apre-
sentados acima para ¯X permanecem válidos. Se um outro estimador para
µ é proposto, qual seja, ˆµ2 = mediana(X1, ..., Xn), é poss´ıvel mostrar que
E(ˆµ2) = µ e V ar(ˆµ2) =
π
2
×
σ2
n
, ou seja, ˆµ2 também é não viciado e consiste
para µ. Porém, EQM(ˆµ2) =
π
2
×
σ2
n
> EQM( ¯X) =
σ2
n
, de maneira que,
46

sob a ótica das 3 propriedades vistas para os estimadores (e considerando
popula¸cão Normal), a média aritmética é melhor estimador que a mediana
para a média da popula¸cão.
Exemplo 3.11. Supondo uma amostra X1, ..., Xn obtida de uma popula¸cão
de média µ e variância σ2
, um estimador “natural” da variância foi apre-
sentado anteriormente: ˆσ2
=
n
i=1(Xi − ¯X)2
n
. Utilizando as propriedades
do operador Esperan¸ca e algum algebrismo, é poss´ıvel mostrar que E(ˆσ2
) =
(n − 1)σ2
n
, ou seja, o estimador ˆσ2
proposto é viciado para σ2
.
Sendo assim, podemos propor um outro estimador para σ2
, qual seja,
S2
=
n
n − 1
ˆσ2
; calculado seu valor médio, temos E(S2
) =
n
n − 1
E(ˆσ2
) =
n
n − 1
×
n − 1
n
σ2
= σ2
, obtendo, assim, um estimador não viciado para a
variância populacional.
Mas veja que S2
=
n
n − 1
ˆσ2
=
n
n − 1
×
n
i=1(Xi − ¯X)2
n
=
n
i=1(Xi − ¯X)2
n − 1
.
É por isso que ao se trabalhar com uma amostra para estimar σ2
é frequente
usar o estimador S2
no lugar de ˆσ2
. Note porém que se n, o tamanho da
amostra, for grande, o uso de S2
ou ˆσ2
é indiferente. O v´ıcio de ˆσ2
tende a
zero quando o tamanho da amostra tende ao infinito, ou seja, no limite, esse
estimador da variância é também não viciado – mas só no limite.
O estimador S2
, não viciado para σ2
, é em regra denominado variância
amostral.
Exerc´ıcios
32 – Foram sorteadas 15 fam´ılias num certo bairro e observado o número
de crian¸cas de cada fam´ılia matriculadas em escolas da rede oficial de ensino.
Os dados foram: 1, 2, 1, 0, 2, 0, 2, 3, 4, 1, 1, 2, 0, 0, 2. Considerando que
as 15 observa¸cões são independentes e oriundas de uma mesma popula¸cão,
sejam os seguintes estimadores para µ, a média populacional:
• ˆµ1 =
X1 + X2
2
;
• ˆµ2 = ¯X.
a) Obtenha as estimativas correspondentes aos estimadores propostos para
µ.
b) Qual o melhor estimador para µ e por quê?
47

c) Determine estimativas para a variância do número de crian¸cas por fam´ılia
em escolas. Utilize os dois estimadores vistos para a variância.
33 – Um pesquisador deseja estimar a produ¸cão média de um processo
qu´ımico com base na observa¸cão da produ¸cão de três realiza¸cões X1, X2, X3
de um experimento. Considere dois estimadores da média: ˆθ1 = (X1 + X2 +
X3)/3 (média amostral) e ˆθ2 = (X1 + 2X2 + X3)/4 (uma média ponderada).
Qual deve ser o estimador preferido
a) quanto à não tendenciosidade?
b) quanto à variabilidade?
34 – Seja X uma variável com distribui¸cão de média µ e variância σ2
. Uma
amostra aleatória X1, X2, ..., Xn dessa popula¸cão foi coletada. Considere o
estimador ˆµ =
X1 + Xn
n
.
a) Calcule E(ˆµ) e verifique se o estimador proposto é ou não viciado para a
média.
b) Calcule a variância desse estimador.
c) Calcule os limites da esperan¸ca e da variância desse estimador quando o
tamanho da amostra tende ao infinito. ˆµ é consistente para a média de
X?
d) Calcule EQM(ˆµ).
3.2 Distribui¸cões amostrais
Vimos que estimadores são fun¸cões de variáveis aleatórias e, portanto,
são também variáveis aleatórias. Então podemos associar uma distribui¸cão
de probabilidade a um estimador, como nos exemplos simples a seguir.
Exemplo 3.12. Um jogo consiste em lan¸car uma moeda honesta 3 vezes.
Para cada lan¸camento, se sair cara você ganha 1 ponto e se sair coroa você
perde 1 ponto. Podemos modelar a situa¸cão da seguinte forma.
Xi =
+1 com prob. = 0,5;
−1 com prob. = 0,5.
, i = 1, 2, 3.
Temos o vetor aleatório (X1, X2, X3) contendo 3 variáveis aleatórias inde-
pendentes e com a mesma distribui¸cão de probabilidade. A média de cada
variável é
E(Xi) = 1 × 0, 5 + (−1) × 0, 5 = 0
48

e a variância é
V ar(Xi) = E(X2
i ) − E2
(Xi) = [12
× 0, 5 + (−1)2
× 0, 5] − 02
= 1.
Imagine agora que vamos observar uma amostra do vetor (X1, X2, X3) ao
acaso. A tabela a seguir apresenta todas as amostras poss´ıveis com as res-
pectivas probabilidades e valores de ¯X e S2
.
(X1, X2, X3) Prob. ¯X S2
(−1, −1, −1) 1/8 -1 0
(−1, −1, +1) 1/8 -1/3 4/3
(−1, −1, −1) 1/8 -1/3 4/3
(−1, +1, −1) 1/8 1/3 4/3
(−1, +1, +1) 1/8 -1/3 4/3
(+1, −1, −1) 1/8 1/3 4/3
(+1, −1, +1) 1/8 1/3 4/3
(+1, +1, +1) 1/8 1 0
Os valores acima foram obtidos por meio de cálculos usuais. Por exem-
plo, para a amostra (−1, +1, −1) temos ¯X =
−1 + 1 − 1
3
= −
1
3
e S2
=
[−1 − (−1/3)]2
+ [1 − (−1/3)]2
+ [−1 − (−1/3)]2
3 − 1
=
4
3
.
Temos condi¸cões agora de estabelecer a distribui¸cão dos estimadores ¯X e
S2
.
¯X -1 -1/3 1/3 1
p 1/8 3/8 3/8 1/8
S2
0 4/3
p 1/4 3/4
Pensemos em ¯X como estimador para E(Xi) = µ e em S2
como estimador
para V ar(Xi) = σ2
. Como visto, sabemos que µ = 0 e que σ2
= 1. Olhando
agora as distribui¸cões dos estimadores ¯X e S2
temos
E( ¯X) = (−1) ×
1
8
+ (−
1
3
) ×
1
8
+
1
3
×
1
8
+ 1 ×
1
8
= 0 e
E(S2
) = 0 ×
1
4
+
4
3
×
3
4
= 1.
Dessa forma, ambos os estimadores são não viciados para os respectivos
parâmetros estimados.
No exemplo 3.12 pudemos enumerar todas as poss´ıveis amostras e assim
obter a fun¸cão de probabilidade dos estimadores de interesse. Mas isso nem
sempre é poss´ıvel. Por exemplo, se o vetor (X1, X2, X3) tiver cada Xi com
49

distribui¸cão Uniforme Cont´ınua entre -1 e 1, isto é, Xi ∼ U(−1, 1), como
obter todas as amostras poss´ıveis? Sem entrar em detalhes, o importante é
ressaltar que a obten¸cão da distribui¸cão de probabilidade dos estimadores é
um problema essencial na Estat´ıstica.
Neste texto, vamos nos concentrar em discutir a distribui¸cão de ¯X, a
média aritmética dos valores da amostra, em algumas situa¸cões.
Consideremos inicialmente o caso de uma popula¸cão Normal, isto é, a
variável de interesse é X ∼ N(µ, σ2
). Assim, (X1, X2, ..., Xn) representa
uma amostra aleatória cujos elementos são independentes e identicamente
distribu´ıdos com fun¸cão densidade de probabilidade Normal de média µ e
variância σ2
, ou seja,
Xi ∼ N(µ, σ2
), i = 1, 2, ..., n, Xi independente de Xj ∀ i = j.
Teorema 3.13. Se X1, X1, ..., Xn formam uma sequência de variáveis aleatórias
Normais com média µi e variância σ2
i , i = 1, 2, ..., n independentes e a1, a2, .., an
são constantes quaisquer, então W =
n
i=1
aiXi terá distribui¸cão Normal com
parâmetros µW =
n
i=1
aiµi e σ2
W =
n
i=1
a2
i σ2
i .
Voltando ao caso Xi ∼ N(µ, σ2
), i = 1, 2, ..., n independentes e identi-
camente distribu´ıdos, a distribui¸cão amostral de ¯X segue diretamente do
teorema 3.13 fazendo µi = µ, σ2
i = σ2
e ai = 1/n para i = 1, 2, ..., n.
Assim, ¯X ∼ N(µ ¯X, σ2
¯X), sendo
µ ¯X =
n
i=1
(
1
n
× µ) = n ×
1
n
× µ = µ e
σ2
¯X =
n
i=1
(
1
n2
× σ2
) = n ×
1
n2
× σ2
=
σ2
n
.
Logo, para uma cole¸cão de variáveis aleatórias independentes com uma mesma
distribui¸cão de probabilidade Normal de média µ e variância σ2
, a média
amostral ¯X também terá distribui¸cão Normal de média µ, mas de variância
σ2
/n.
Exemplo 3.14. Considere uma amostra independente de tamanho n de uma
variável N(10, 16). Isto é, X1, ..., Xn são independentes e todas com distri-
bui¸cão Normal de média 10 e variância 16. Segue que ¯X ∼ N(10, 16/n). Se
n = 1 estamos falando de uma única observa¸cão oriunda de uma popula¸cão
50

Normal de de média 10 e variância 16. À medida que n aumenta, a média
permanece 10, mas a variância de ¯X vai diminuindo, ou seja, a fun¸cão den-
sidade de ¯X vai se concentrando ao redor da média 10; isso indica maior
probabilidade de amostras grandes fornecerem estimativas próximas à média
populacional.
3.3 Teorema central do limite
51

Referências
[1] Bussab, Wilton de Oliveira & Morettin, Pedro Alberto. Estat´ıstica
básica. 8a
edi¸cão, São Paulo: Saraiva, 2013.
[2] Magalhães, Marcos Nascimento & Lima, Antônio Carlos Pedroso de.
No¸cões de Probabilidade e Estat´ıstica. 3a
edi¸cão, São Paulo: IME-
USP, 2001.
[3] Martins, Gilberto de Andrade. Estat´ıstica Geral e Aplicada. 2a
edi¸cão, São Paulo: Atlas, 2002.
52

28632 mat int-notas-de-aula

Recomendados

Recomendados

Mais conteúdo relacionado

Semelhante a 28632 mat int-notas-de-aula

Semelhante a 28632 mat int-notas-de-aula (20)

28632 mat int-notas-de-aula