1. Estatística
O que é Estatística ? UMA VERDADE
• Parte da matemática aplicada
"A Estatística nada
que fornece métodos para coleta,
organização, descrição, análise e mais é do que o bom
interpretação de dados e utilização desses
para tomada de decisão senso expresso em
n pr m
NATUREZA DA PALAVRA ESTATÍSTICA números."
Provém da palavra Estado
Pierre Simon, marquês de
ÉPOCAS REMOTAS: Levantamento de dados era Laplace, matemático francês do
utilizado para determinar o valor de impostos cobrados
dos cidadãos;para determinar estratégia de uma século XVIII
nova batalha em guerra 1 2
PORQUE ESTUDAR ESTATÍSTICA ? Coleção de números = estatísticas
Extrair informações significativas de dados brutos
Em geral um número em Estatística não é apenas um
Como fazer inferências sobre a natureza de uma número! A ele associamos uma medida de incerteza ou
população baseado em observações de uma amostra variabilidade.
Como entender cálculos estatísticos realizados por O número de carros vendidos no país aumentou em 30%.
outras pessoas A taxa de desemprego atinge, este mês, 7,5%.
Porque nos permite entender e lidar com a noção de As ações da Telebrás subiram R$ 1,5, hoje.
variabilidade. Resultados do Carnaval no trânsito: 145 mortos, 2430 feridos.
3 4
Estatística (Divisão)
Os procedimentos usados para
Descritiva organizar, resumir e apresentar dados
Amostra
numéricos.
numéricos
A coleção de métodos e técnicas População
Indutiva utilizados para se estudar uma
população baseados em amostras
probabilísticas desta população.
5 6
Prof Josefa A . Alvarez 1
2. Estatística
População x Amostra
População é...
O TODO P
POPULAÇÃO
R
O
(Censo)
B
A
Amostra é ...
B
I Erro Inferência
L
I
D
UMA PARTE DO A
D
TODO E AMOSTRA
(Amostragem)
)
7 8
Variáveis
NOMINAL
V
A QUALITATIVA
Variável é,
convencionalmente o conjunto R
de resultados possíveis de I ORDINAL
um fenômeno. Á
V
DISCRETA
E
L
QUANTITATIVA
9 10
CONTÍNUA
Propriedades de Dados Quantitativos
Nominal ORDINAL
Sexo Conceito
Grau de Instrução Tendência Posição
Religião
Mês (Central)
Estado civil
Curso Dia da semana
Variação
(Dispersão)
DISCRETAS CONTÍNUAS
Número de faltas Altura
Número de irmãos Área Forma
Número de acertos Peso
Volume 11 12
Prof Josefa A . Alvarez 2
3. Estatística
Notação padrão
Estatísticas cujos valores estão próximos do
centro de um conjunto de dados
Medida Amostra População
Notação sigma :
Média X
X
Desvio padrão. S
x , x , x
2
Variância S2 2 Parax 2,3 e 5 deter mine 2
Tamanho n N
13 14
x
n
i
i 1 MEDIDAS DE TENDÊNCIA CENTRAL
Significa que devemos somar n observações (todas);
Para a tabela dada, calcule : São
três!
M É D I A
DADOS
a)
x
2
i1
i = 8 + 2 = 10 i xi
1 8
2 2
x
4
3 3
b) = 2 + 3 + 6 = 11
M O D A
i
i2 4 6
5 7
6 8
11
c) xi =9 + 4 + 5 + 4 + 1 = 23 7 9
M E D I A N A
i 7 8 4
9 5
10 4
d) x i = somar tudo = 57 11
Total 57
1
15 16
Medidas de Tendência Central Média aritmética da amostra
a medida mais utilizada
Média afetada por valores extremos
Medida de tendência
M did d t dê i central t l X = soma de todos os valores ÷ total de valores
Medida mais comum
Funciona como um “ponto de
equilíbrio” 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 12 14
Afetada por valores extremos Média = 5 Média = 5
(‘outliers’) 17 18
Prof Josefa A . Alvarez 3
4. Estatística
Média aritmética Amostra
Média Aritmética
Média simples : suposição de mesma importância
Idéia mais comum : soma / número de valores das observações
Propriedades: Média ponderada : considera pesos desiguais
pode ser sempre calculada Exemplo : peso das provas e trabalhos do curso
é única Média ponderada
Média simples
sensível a todos os valores n
n
wi xi
xi
x i1
x i
1 n
19 n i1
wi
20
Média (X) Exemplo
• Notas finais dos alunos de três turmas
Turma notas finais média
X
X= n
A 4 5 5 6 6 7 7 8 6,00
B 1 2 4 6 6 9 10 10 6,00
C 0 6 6 7 7 7 7,5 7,5 6,00
Diagrama de Pontos Seja a tabela referente às idades dos 50
estagiários de uma empresa.
Para determinar a
Idade (anos) N.º de
média da distribuição
A: 4 5 5 6 6 7 7 8 alunos precisaremos de:
17 3
18
19
18
17
x
x i fi
4 5 6 7 8 20
21
8
4
fi
Média 24
Prof Josefa A . Alvarez 4
5. Estatística
A média:
Xi . fi =
x
x i fi Idade N.º de xifi x
x i fi
fi (anos) xi
17
alunos fi
3 51
fi
18 18 324
Somatório da coluna 942
obtida multiplicando-se
19 17 323
x 18,84
Média cada um dos valores da 20 8 160 50
variável por sua 21 4 84
respectiva freqüência
Somatório da freqüência absoluta 50 942
absoluta (ou número
25 26
total de elementos)
Exercício:
1) A distribuição dos salários de uma empresa é Salários Número de
x
x i fi
dada na tabela seguinte: (R$) funcionários xi f i
Salários (R$) Número de funcionários xi fi fi
500,00 10 500 10 5 000
62000
1 000,00 5 1 000 5 5 000 x
1 500,00 1 1 500 1 1 500 31
2 000,00 10 2 000 10 20 000
5 000,00 4 5 000 4 20 000 x 2000
10 500,00 1 10 500 1 10 500
Total 31 27 Total 31 62 000 28
()
Moda Moda - Exemplo
Dados Brutos: 10,3 4,9 8,9 11,7 6,3 7,7
• Medida de tendência central Não tem Moda
• Valor que ocorre mais freqüentemente Dados Brutos:
D d s B t s: 6,3 4,9 8,9 6,3 4,9 4,9
63 49 89 63 49 49
• Não é afetado por valores extremos
Uma Moda
• Pode não existir moda como pode
existir várias modas Dados Brutos: 21 28 28 41 43 43
• Pode ser usada para dados
Mais que 1 Moda
quantitativos e qualitativos 29 30
Prof Josefa A . Alvarez 5
6. Estatística
MEDIANA
A moda:
A Mediana é o valor que separa os 50%
Idade (anos) N.º de Muito fácil!!! menores dos 50% maiores.
xi alunos fi
17 3 Basta ver qual Exemplo: Entendeu?
18 17 idade tem maior 20 40 60 10 46 50 48
19 18 freqüência.
Fazemos o rol:
20 8
21 4 A moda é o 19 10 20 40 46 48 50 60
50
A Mediana é o 46, pois separa os 50%
valores menores dos 50% valores
31 maiores. 32
Mediana da amostra
Mediana
ordenados os valores em ordem crescente ou • Medida de tendência central
decrescente, é o valor que ocupa a • Valor central em uma seqüência ordenada
posição central – Se n ímpar, valor central da seqüência
ordenação de valores – Se n par, média dos 2 valores centrais
EXCEL
EXCEL: A Z ou Dados/Classificar...
• Nã é afetada por valores extremos
Não f d l
não é afetada por valores extremos
n
Posição n par
0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 12 14
2
Mediana = 6 Mediana = 6 n 1
Posição n impar
2
33 34
Mediana - Exemplo
“n” ímpar
X=1,44
Dados Brutos: 24,1 22,6 21,5 23,7 22,6 1,35
1º
1,38
2º
1,40
3º
1,43
4º
1,45
5º
1,48
6º
1,48
7º
1,50
8º
1,52
9º
Ordenados: 21,5 22,6 22,6 23,7 24,1
21 5 22 6 22 6 23 7 24 1
md
Posição: 1 2 3 4 5
n 1 51
Posição 3,0 X=1,49
2 2
Mediana 22,6 1,35 1,38 1,40 1,43 1,45 1,48 1,48 1,50 1,95
1º 2º 3º 4º 5º 6º 7º 8º 9º
35 36
Prof Josefa A . Alvarez 6
7. Estatística
SEPARATRIZES Quartis
• Quartis: são os valores de uma série que a
dividem em quatro partes iguais. •Medida de tendência não central
•Divide os dados ordenados em 4 quartos
• Primeiro quartil (Q1)
25% 25% 25% 25%
• Segundo quartil (Q2): coincide com a mediana Q1 Q2 Q3
Posição do i-ésimo quartil
• Terceiro quartil (Q3)
37 38
Quartil
Intervalo interquartílica
Q 3 - Q 1 é menos sensível que amplitude à
Q1 Q2 Q3 presença de observações extremas
Outliers
25% 25% 25% 25%
são valores discrepantes, isto é,
dados superiores a Q 3 + 1,5(Q3-Q1)
ou inferiores a Q 1- 1,5 (Q3-Q1)
39 40
Dispersão ou variabilidade Medidas de dispersão
Necessárias para expressar a variabilidade de um
Amplitude conjunto de dados
Variância Indicam se os valores estão próximos ou separados
Desvio Médio Amplitude
Desvio Padrão Desvio Médio Absoluto
Desvio Padrão e Variância
Coeficiente de Variação Coeficiente de variação (variação relativa)
41 42
Média como ponto de referência
Prof Josefa A . Alvarez 7
8. Estatística
Amplitude total (intervalo)
Como medir a dispersão?
Medida mais simples de calcular e fácil de entender
Foca o maior e o menor valor
Exemplo: Turma A (4 5 5 6 6 7 7 8)
Pode ser expresso (R) [range]
diferença entre maior e menor valor do grupo
Exemplo : R=x max-x min
4 5 6 7 8
Números Diferença Min e Max
14, 3, 17, 4, 8, 73, 36, 48 73- 3 = 70 de 3 a 73
43 distância (desvio) em relação à média
Desvios Desvios Quadráticos
Soma
Valores X 4 5 5 6 6 7 7 8 48
Valores X
4 5 5 6 6 7 7 8 Média X 6 -
Média X
6 Desvios X - X -2 -1 -1 0 0 1 1 2 0
Desvios (X - X)
-2 -1 -1 0 0 1 1 2 Desvios (X-X)2 4 1 1 0 0 1 1 4 12
quadráticos
Soma = 0
Variância: S2 Desvio Padrão: S
X X
2
S2
n1 • O desvio padrão (S) é a raiz quadrada da
variância. Ex:
S2 = (4 + 1 + 1 + 0 + 0 + 1 + 1 + 4) / 7 =
= 12 / 7 = 1,71
S 1 71 1 31
, ,
Prof Josefa A . Alvarez 8
9. Estatística
EXEMPLO
xi (xi – x ) (xi – x )2
Comparação das três 1 -5 25
turmas pela média e 2
4
-4
-2
16
4
turma desvio padrão S
notas X 7 +1 1
A 4 5 5 6 6 7 7 8 6 1,31 10 +4 16
12 +6 36
B 1 2 4 6 6 9 10 10 6 3,51
Soma ou 36 0 98
C 0 6 6 7 7 7 7,5 7,5 6 2,69 Média = 6 Variância (S2) = 98/5 = 19,6
DP = S = 19,6 = 4,43 50
Coeficiente de Variação
Coeficiente de dispersão relativa
Regras empíricas
Razão entre desvio e média Medida absoluta
CV< 15% Tem-se baixa dispersão
permitir análise conjunta da média e do desvio
é melhor aplicar na bolsa ou na poupança ? 15%< CV < 30% Tem-se média dispersão
S CV > 30% Tem-se elevada dispersão
CV Quando CV>15% a média não é
X representativa
amostra 51 52
Posição Relativa
Coeficiente de Assimetria da Média, Mediana e Moda
3 ( x ~
x )
Simetria
As
Média= Mediana = Moda
S Curva Curva
Assimétrica Assimétrica
Negativa Positiva
Se As< 0,15 => simétrica. Média < Mediana < Moda Moda <Mediana < Média
0,15As1 => assimetria moderada
As>1 => assimetria é forte.
53 54
Prof Josefa A . Alvarez 9
10. Estatística
Curtose Achatamento[kurtosis]
Leptocúrtica
É o grau de achatamento de uma Mais fechado que a curva normal C< 0,263
distribuição em relação a uma
distribuição padrão (curva normal)
normal). Platicúrtica
Mais aberto que a curva normal C > 0,263
Q3 Q1
C Mesocúrtica
2(P90 P10 ) É a própria curva normal. C = 0,263
55 56
Organização de Dados Organização de Dados
Dados • 1. Organizar os Dados
Numéricos • do Menor para o Maior
• 2. Exemplo
– Dados Brutos (Coletados)
– 24, 26, 24, 21, 27, 27, 30, 41, 32, 38
Ordenar os
dados
Distribuição
de Freqüências
• Dados em Ordem Crescente
• ROL: É uma lista em que os valores estão
expostos em uma determinada ordem, ou
Ramos e
Histograma
seja, numa seqüência
folhas Polígono Ogiva
57 – 21, 24, 24, 26, 27, 27, 30, 32, 38, 41 58
Diagrama de Ramos e Folhas
Dados brutos x rol
Dados brutos : stem and leaf
dados desordenados 2 1 4 4 6 7 7
– Vantagem: não perde a
informação sobre os dados xi
3 0 2 8
– idéia básica dividir cada
observação em duas parte
Rol : – ramos->colocada à esquerda 4 1
folhas->colocada à direita
dados ordenados em ordem crescente ou
–
decrescente de valores
59 60
Prof Josefa A . Alvarez 10
11. Estatística
Representação Gráfica box plot
Podem ser obtidas as seguintes Mediana
informações:
dados assimétricos
dados mais concentrados nos
Minimo Q1 Q2 Q3 Máximo
valores inferiores a 30
61 62
Diagrama de Juntas Distribuição de Freqüências
Boxplot
5-Números de TuKey
É o resumo dos dados sob a forma de tabela
Dados: 24 26 24 21 27 27 30 41 32 38
24, 26, 24, 21, 27, 27, 30, 41, 32,
X mínimo Q1 Mediana Q3 X máximo
Classes Freqüência
15 até < 25 3
6 8 12 25 até < 35 5
4 10
63
35 até < 45 2 64
Freqüência Relativa % Distribuição de Freqüências
Distribuição da freqüência Distribuição da freqüência Dados: 24, 26, 24, 21, 27, 27, 30, 41, 32, 38
Relativa Relativa %
Classes Percentagem
Classes Prop.
Prop Classes % Acumulada
15 até < 25 0,3 15 até < 25 30,0 15 até < 25 30,0
25 até < 35 0,5 25 até < 35 50,0 Classes 25 até< 35 80,0
30% + 50%
35 até < 45 0,2 35 até < 45 20,0 Limite
35até< 45 100,0 80% + 20%
Inferior
65 66
Prof Josefa A . Alvarez 11
12. Estatística
Histograma Polígono
Classe Freq. Classes Freq.
15 até < 25 3 Freqüência 15 até < 25 3
Freqüência 5 25 até < 35 5
quantidade 5 25 até < 35 5
35 até < 45 2 35 até < 45 2
4 4
3
3
Retângulos unir os pontos 2 Ponto
2 médio
justapostos médios através 1
1 de segmentos fictício
0 0
de reta
0 15 25 35 45 0 10 20 30 40 50 60
Classes ponto médio
67 68
Tabelas de freqüência Dados Quantitativos Freqüências Acumuladas
Classe de Freqüência Freqüência Freqüência
Classe de Freqüência Freqüência Porcentagem salários ni=fi relativa acumulada
salários fi=ni relativa Fri% relativa
fri 4,00 |– 8,00 10 0,2778 0,2778
4,00 |– 8,00
4 00 | 8 00 10 0,2778
0 2778 27,78
27 78 8,00
8 00 |– 12,00
12 00 12 0,3333
0 3333 0,6111
0 6111
8,00 |– 12,00 12 0,3333 33,33 12,00 |– 16,00 8 0,2222 0,8333
12,00 |– 16,00 8 0,2222 22,22 16,00 |– 20,00 5 0,1389 0,9722
16,00 |– 20,00 5 0,1389 13,89 20,00|– 24,00 1 0,0278 1,0000
20,00 |– 24,00 1 0,0278 2,78 Total 36 1,0000
Total 36 1,0000 100,00
A freqüência acumulada diz quantos elementos têm valor
69 menor ou igual ao valor máximo da classe. 70
Gráfico de Setores
Categorias
B
Gráfico de setor (pizza) – usado para A
• 1.Gráfico construído 25%
comparar proporções referentes a um com base em um círculo 10% 36°
todo, onde cada setor (pedaço da pizza) • 2.É empregado sempre
corresponde a uma parte. Apresenta que desejamos ressaltar
grandes variações visuais de elaboração. a participação do dado
C
no total
65%
• 3.Tamanho do angulo
– (360°)(Percentagem)
71 (360°) (10%) = 36° 72
Prof Josefa A . Alvarez 12
13. Estatística
Distribuições de frequência
Gráfico de setores Gráfico de barras Os dados do Censo da Educação Superior 2005 revelam que 49% das 6.328
(Dados Nominais) (Dados Nominais) matrículas de alunos portadores de necessidades especiais estão em
Instituições de Educação Superior localizadas na Região Sudeste. A seguir
vêm o Sul, com 24% desse total, e o Centro-oeste, com 14%. O Nordeste e o
Cor dos Cabelos 90
Norte concentram, respectivamente, 9% e 4% desse universo de estudantes.
Número de lagoas (%)
2% 80
7%
70 Veja o gráfico abaixo.
60
50
Matrículas de alunos portadores de necessidades
d
40
30 especiais por Região: Brasil – 2005
20
preto 10
0
castanho
Peixes Rã Tritão Aves
91% louro
Vertebrados
Os dados em escala nominal podem ser resumidos em tabelas de
freqüências relativas ou absolutas, ou ainda em gráficos de sectores ou
de barras. As barras estão separadas, evidenciando a natureza
73
qualitativa dos dados.
O Brasil possui em seu sistema de ensino 2.553
Número de Escolas de Ensino Fundamental: Brasil - 2006
alunos superdotados. A região com a maior
concentração de alunos com estas características
é o Sudeste, com 1.122 e a que tem o menor
número é a região Norte com 116. Com relação às
dependências administrativas, a rede municipal
aparece na frente, contabilizando 1.358 alunos
superdotados no País. Em seguida aparecem a rede
estadual, com 1.172 e a rede privada com 23 alunos
com este perfil. Os dados são do Censo Escolar
2006. Gráfico.
Distribuições de freqüência
Número de estudantes superdotados: Brasil e Gráfico de Barras
Regiões - 2006 (Dados Nominais)
70,0%
60,0%
50,0%
40,0%
30,0%
20,0%
10,0% Alunas
0,0%
Alunos
Biologia
Biol/ Geo
78
Prof Josefa A . Alvarez 13