SlideShare una empresa de Scribd logo
1 de 115
Descargar para leer sin conexión
ESTATÍSTICA
Edite Manuela da G.P. Fernandes
Universidade do Minho, Braga, 1999
ESTATÍSTICA
Edite Manuela da G.P. Fernandes
com a colaboração de
A. Ismael F. Vaz
na realização dos gráficos
Universidade do Minho, Braga, 1999
Título: Estatística
Autor: Edite Manuela da G.P. Fernandes
Composição: Texto preparado em LATEX por A. Ismael F. Vaz
Impressão da capa, fotocópias e montagem: Serviços de Reprografia e Publicações da
Universidade do Minho
Capa: A. Ismael F. Vaz
TEX é uma marca registada da American Mathematical Society.
100 exemplares em Janeiro de 1999
Conteúdo
Prefácio iv
I Estatística descritiva 1
1 Introdução 2
1.1 O que é a Estatística . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Aplicações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3 População e Amostras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.4 Tipos de Estatística . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2 Descrição numérica dos dados 6
3 Descrição gráfica dos dados 12
4 ”Estatísticas” descritivas 21
4.1 Medidas de tendência central . . . . . . . . . . . . . . . . . . . . . . . . . 21
4.2 Medidas de dispersão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
4.3 Medidas de associação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
5 Distribuição normal 31
6 Análise de Regressão 34
6.1 Regressão Linear e Simples . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
6.2 Regressão não linear . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
II Séries cronológicas 36
7 Componentes do estudo 37
7.1 Representação gráfica de uma série cronológica . . . . . . . . . . . . . . . . 37
7.2 Estudo de uma série cronológica . . . . . . . . . . . . . . . . . . . . . . . . 37
8 Decomposição 39
i
CONTEÚDO ii
9 Estudo da tendência 40
9.1 Métodos para estudo da tendência . . . . . . . . . . . . . . . . . . . . . . . 40
9.1.1 Método das médias móveis . . . . . . . . . . . . . . . . . . . . . . . 41
9.1.2 Método analítico . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
10 Movimento sazonal 46
10.1 Método para determinar as flutuações sazonais . . . . . . . . . . . . . . . . 47
10.1.1 Método das médias mensais . . . . . . . . . . . . . . . . . . . . . . 47
III Estatística demográfica 49
11 Estruturas populacionais 50
11.1 Taxas de crescimento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
11.2 Cálculo das densidades populacionais . . . . . . . . . . . . . . . . . . . . . 54
11.3 Estruturas demográficas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
11.3.1 Pirâmides de idades . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
11.3.2 Grupos funcionais . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
12 Qualidade dos dados 60
12.1 Relação de masculinidade . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
12.2 Índice de Whipple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
12.3 Índice de irregularidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
12.4 Índice combinado das Nações Unidas . . . . . . . . . . . . . . . . . . . . . 62
12.5 A equação da concordância . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
13 Análise da mortalidade 65
13.1 Taxa bruta de mortalidade . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
13.2 Tipos particulares de mortalidade . . . . . . . . . . . . . . . . . . . . . . . 67
13.3 Tábua de mortalidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
14 Análise da natalidade e da fecundidade 74
15 Análise da nupcialidade 79
15.1 Taxas de nupcialidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
15.2 Tábua de nupcialidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
16 Análise dos movimentos migratórios 85
16.1 Métodos directos de análise . . . . . . . . . . . . . . . . . . . . . . . . . . 85
16.2 Métodos indirectos de análise . . . . . . . . . . . . . . . . . . . . . . . . . 86
CONTEÚDO iii
IV Exercícios 88
Tabela de números aleatórios 105
Prefácio
Este trabalho está dividido em quatro partes e tem como objectivo servir de apoio às aulas
teóricas e teórico-práticas da disciplina anual de Estatística do mestrado em História das
Populações.
A primeira parte faz uma breve introdução à Estatística descritiva. Além de serem in-
troduzidos conceitos relacionados com a descrição gráfica de dados, é também apresentado
um capítulo sobre as medidas mais importantes de tendência central, de dispersão e de
associação entre dados.
Na segunda parte são introduzidos e estudados alguns aspectos importantes das séries
cronológicas, designadamente a tendência e a sazonalidade.
A terceira parte trata da Estatística demográfica. Não só são referidas medidas ele-
mentares para a análise da Qualidade dos dados, como também são apresentadas taxas
e outras medidas de análise das variáveis microdemográficas mais importantes, nomeada-
mente a mortalidade, natalidade, fecundidade e nupcialidade.
Na última parte são incluídos enunciados de trabalhos práticos de apoio às aulas teórico-
práticas.
Braga, Outubro de 1998
Edite Manuela da G.P. Fernandes
iv
Parte I
Estatística descritiva
1
Capítulo 1
Introdução
Embora a palavra estatística ainda não existisse no ano 3 000 A.C. há indícios de que nessa
altura já se faziam censos na Babilónia e no Egipto. A palavra censo deriva de "censere",
que em latim significa taxar. Na era romana o imperador César Augusto ordenou que se
fizesse um censo em todo o império.
A palavra estatística deriva de ”status”, que em latim significa estado. Sob esta palavra
os Estados têm acumulado dados relativos ao seu povo. A estatística nas mãos dos governos
tem sido uma ferramenta essencial para a definição das suas políticas.
1.1 O que é a Estatística
O termo estatística tem várias interpretações.
Para a maioria das pessoas estatística emprega-se para designar informação em termos
de números. Não usaremos o termo estatística com este significado. A estas quantidades
numéricas daremos o nome de observações ou dados.
O termo estatística tem ainda outros significados. A Estatística é um ramo da área da
matemática aplicada com os seus próprios simbolismos, terminologia, conteúdo, teoremas
e técnicas. Quando estudamos Estatística estamos a tentar conhecer e dominar as suas
técnicas. Assim, podemos definir a Estatística como uma ciência matemática que agrega
um conjunto de técnicas apropriadas para a recolha, a classificação, a apresentação e a
interpretação de dados numéricos.
Um outro significado para a palavra é o da ”estatística” que está relacionada com
quantidades que forem calculadas a partir de dados amostrais. Neste caso é costume
colocar a palavra entre aspas. Por exemplo, se os dados obtidos forem: 12, 12, 14, 15, 12
e 13, a quantidade 12+12+14+15+12+13
6
, conhecida por média aritmética, é uma ”estatística”.
1.2 Aplicações
As aplicações das técnicas estatísticas estão já tão difundidas e a sua influência tem sido
tão marcante, que a importância da Estatística é já hoje em dia reconhecida em todos os
2
CAPÍTULO 1. INTRODUÇÃO 3
domínios da investigação científica e do desenvolvimento tecnológico.
Uma das áreas onde a Estatística começou a ser aplicada mais cedo foi no planeamento
e na análise de experiências realizadas na agricultura. A metodologia da Estatística tem
sido muito usada na investigação realizada pelas indústrias farmacêutica e médica. As
próprias instituições governamentais usam a Estatística para estudar a situação económica
do País e alterar as políticas de cobrança de impostos, de assistência social, de obras
públicas, etc. A teoria das probabilidades juntamente com a Estatística, isto é, a teoria
da decisão estatística, é usada como um meio para a tomada de decisões importantes ao
mais alto nível. Usamos as técnicas estatísticas na indústria para o controlo da qualidade
dos produtos, no ’marketing’, no estudo dos efeitos da publicidade, e também em todas as
áreas onde é preciso tomar decisões tendo como base informação incompleta, tal como na
Biologia, Geologia, Psicologia e Sociologia. Nas políticas educacionais a Estatística é uma
ferramenta muito importante para ajudar a definir pedagogias e métodos de ensino.
1.3 População e Amostras
Dois dos termos mais usados em Estatística são: população e amostra.
População designa um conjunto de unidades com qualquer característica comum. Por
exemplo, o conjunto das idades das crianças da Escola Preparatória XXX da cidade YYY
constitui uma população; o conjunto de todas as classificações obtidas, na disciplina de
Matemática, pelas crianças do 5o
¯
ano de escolaridade das Escolas Preparatórias do País
constitui uma população.
A Estatística ocupa-se fundamentalmente das propriedades das populações susceptíveis
de representação numérica.
A população pode ser finita ou infinita, consoante seja finito ou infinito o número
de elementos que a compõem. Para conhecer bem as propriedades da população temos
de analisar todos os elementos dessa população. Contudo, nem sempre é possível analisar
todos os elementos. Esta impossibilidade pode dever-se ao facto de a população ser infinita.
O estudo incidirá, assim, sobre um subconjunto finito de elementos que seja representativo
da população. Este subconjunto chama-se amostra.
A representatividade da amostra é uma das questões mais importante relacionada com
a teoria da amostragem. A amostra deve conter qualitativa e quantitativamente em pro-
porção tudo o que a população possui.
A amostra tem de ser também imparcial, isto é, todos os elementos da população devem
ter igual oportunidade de serem escolhidos para fazerem parte da amostra.
Mesmo quando a população é finita podem surgir outras razões que levem à utilização
de amostras para o estudo da população. Existem razões económicas - pode tornar-se
caro a observação do comportamento de um número muito grande de elementos; razões
de tempo - a observação de todos os elementos pode demorar tanto tempo que quando os
resultados estiverem prontos para divulgação já se encontrem desactualizados.
Existem, ainda, outras razões que nos levam a preferir recolher uma amostra em vez de
usar a população. Nalguns casos, as unidades que constituem a amostra para inspecção,
CAPÍTULO 1. INTRODUÇÃO 4
são destruídas. Noutros casos, em virtude da escassez de pessoas treinadas (sem forma-
ção específica) para recolher amostras, é mais seguro confiar num número reduzido de
informação. Haveria uma menor ocorrência de erros humanos.
Parece, assim, ser mais vantajoso recolher amostras e basear o nosso estudo na análise
dessas amostras. Este processo parece ser bastante simples, no entanto, pode dar origem
a enganos.
A selecção de elementos da população que são mais facilmente acessíveis ao experimen-
tador, origina uma amostra conveniente. Este tipo de amostra não é representativa da
população e pode levar a conclusões erradas sobre as propriedades da população.
Uma alternativa à amostra conveniente, que é muitas vezes parcial, é a amostra ale-
atória simples.
A ideia principal consiste em dar a cada elemento da população a mesma oportunidade
de ser escolhido para fazer parte da amostra. Para abreviar usaremos, daqui para a frente,
a.a.s. para designar amostra aleatória simples.
Uma a.a.s. é obtida através de um método que dá a qualquer possível amostra de
tamanho n (com n elementos) a mesma oportunidade de ser a amostra escolhida.
Dos métodos existentes, o mais usado e simples para a obtenção de uma a.a.s. consiste
em:
• usar uma tabela de números aleatórios como a que está representada na tabela da
figura 1.1. (ou um gerador de números aleatórios como têm algumas máquinas de
calcular, normalmente designado pela função RND). Uma tabela de números alea-
tórios é uma lista dos 10 dígitos 0, 1, 2, 3, 4, 5, 6, 7, 8 e 9 que satisfaz as seguintes
propriedades:
1. Um dígito em qualquer posição da lista tem a mesma oportunidade de ser o 0,
1, 2, 3, 4, 5, 6, 7, 8 ou 9.
2. Os dígitos nas diferentes posições são independentes no sentido de que o valor
de um deles não influencia o valor de qualquer outro.
A tabela apresenta uma divisão dos números por grupos de 5 dígitos e tem as linhas
numeradas, com o objectivo de facilitar a consulta. Para usar a tabela devemos ter em
atenção o seguinte:
1. Qualquer par de dígitos da tabela tem a mesma oportunidade de ser (qualquer) um
dos 100 possíveis pares 00, 01, 02, 03, ..., 97, 98, 99.
2. Qualquer trio de dígitos na tabela tem a mesma oportunidade de ser um dos 1000
possíveis trios 000, 001, 002, 003, ..., 997, 998, 999.
3. E assim por adiante, para grupos de 4 ou mais dígitos da tabela. Os grupos de 4
dígitos seriam os seguintes: 0000, 0001, 0002, ..., 0997, 0998, ..., 9997, 9998, 9999.
Para a selecção de uma a.a.s. usamos o seguinte processo:
CAPÍTULO 1. INTRODUÇÃO 5
linha
101 19223 95034 05756 28713 96409 12531 42544 82853
102 73676 47150 99400 01927 27754 42648 82425 36290
103 45467 71709 77558 00095 32863 29485 82226 90056
104 52711 38889 93074 60227 40011 85848 48767 52573
105 95592 94007 69971 91481 60779 53791 17297 59335
Figura 1.1: Parte da tabela de números aleatórios (ver Anexo)
1. enumerar os elementos da população a partir do 0 (se existirem até 10 elementos
na população), do 00 ( se existirem até 100 elementos na população), do 000 (se
existirem até 1000 elementos na população) ou ..., até esgotar todos os elementos;
2. seleccionar o tamanho da amostra;
3. retirar da tabela da figura 1.1, a partir de qualquer linha, grupos de 1, 2, 3 ou ...
dígitos (consoante o número de elementos da população), todos seguidos. Cada grupo
selecciona o elemento da população com aquele número.
Nota 1.3.1 :
• Sempre que aparecerem grupos de 1, 2, 3 ou ... (conforme o caso) dígitos repetidos,
devemos ignorá-los.
• Sempre que aparecerem grupos de 1, 2, 3 ou ... dígitos que sejam quantidades maiores
ou iguais que o número de elementos da amostra, devemos ignorá-los.
1.4 Tipos de Estatística
Podemos dividir a Estatística em dois grupos: a Estatística Descritiva e a Estatística
Inferencial.
A primeira toma indistintamente a população e a amostra com o objectivo de as des-
crever. Esta descrição das observações pode ser feita gráfica ou numericamente. Será uma
descrição gráfica se for feita a representação gráfica de certas quantidades calculadas a
partir das observações. A descrição diz-se numérica se forem calculadas quantidades que
dão informação, embora sumária, do comportamento das observações. A análise estatística
feita no século passado e no príncipio deste século foi na maior parte do tipo descritivo.
A Estatística tem sido definida como a ciência para a tomada de decisões baseadas
em incertezas, isto é, baseadas num conjunto de informações incompletas. Para tomarmos
decisões sobre a população, seleccionamos uma amostra aleatória simples retirada da po-
pulação. Baseando-nos na informação obtida da amostra inferimos sobre as características
da população. A Estatística Inferencial baseia-se no estudo das amostras para podermos
tirar conclusões sobre a população donde retirámos essas amostras.
Capítulo 2
Descrição numérica dos dados
A ideia que muitas pessoas têm da Estatística é a de que ela está associada a tabelas
enormes de números, por vezes documentadas com alguns gráficos à mistura! As tabelas
repletas de informação são muitas vezes cansativas de ler, difíceis de interpretar e de se tirar
conclusões e alguns gráficos mal dimensionados e legendados podem originar interpretações
erradas.
Mesmo assim, as tabelas são um dos meios mais usados para organizar e resumir um
conjunto vasto e desordenado de dados (ou observações). É mais vantajoso contruir uma
tabela pequena com algumas quantidades especiais ("estatísticas"da amostra ou parâme-
tros da população) que caracterizam e resumem a distribuição (o comportamento) dessas
observações, do que uma tabela com um conjunto enorme de números. Os gráficos têm
como objectivo dar uma visão resumida e rápida do comportamento dos dados.
Consideremos o seguinte ficheiro de dados da Escola Preparatória XXX da cidade YYY.
Para cada aluno, foram registados os seguintes valores das variáveis: SEXO (feminino ou
masculino), IDADE (10, 11, 12, 13, 14 ou 15 anos), ALTURA (de 129 cm. a 145 cm.),
PESO (de 27 kg. a 45 kg.), ANO (5o
ou 6o
ano de escolaridade) e TURMA (1, 2, 3, 4
ou 5). A maior parte das tabelas e gráficos apresentados nesta parte I dizem respeito aos
valores deste ficheiro.
Dado um conjunto de observações, é costume, em primeiro lugar, contar quantas vezes
aparece cada valor, isto é, o número de ocorrências desse valor. Dos 318 alunos presente-
mente a frequentar a Escola Preparatória XXX da cidade YYY,
• quantos são do sexo feminino?
• quantos são do sexo masculino?
• quantos frequentam, neste ano lectivo, o 5o
ano de escolaridade?
• quantos estão inscritos no 6o
ano de escolaridade?
• quantos alunos do 5o
ano têm ainda 10 anos?
• quantos alunos frequentam o 6o
ano com 15 anos de idade?
6
CAPÍTULO 2. DESCRIÇÃO NUMÉRICA DOS DADOS 7
Depois de observados todos os registos e contadas as ocorrências dos seis acontecimentos
descritos, obtivemos os seguintes valores, conhecidos por frequências absolutas : 124
alunos do sexo feminino, 194 do sexo masculino, 147 do 5o
ano, 171 do 6o
ano, como se
SEXO Frequências Percentagens F.Acumulada
feminino 124 38.99 38.99
masculino 194 61.01 100.00
Total 318 100.00
ANO Frequências Percentagens F.Acumulada
5o
ano 147 46.23 46.23
6o
ano 171 53.77 100.00
Total 318 100.00
Figura 2.1: Tabelas de frequências do SEXO e do ANO de escolaridade
pode ver na coluna indicada por ’Frequências’ da tabela da figura 2.1; 73 alunos estão
no 5o
com 10 anos e 9 no 6o
com 15 anos. Confirme estes valores com os assinalados
da coluna ’Frequências’ da tabela da figura 2.2. Verificando-se que 124 + 194 = 318 ou
147 + 171 = 318 conclui-se que foram consideradas todas as observações (consistência
interna).
A frequência absoluta de qualquer valor de uma variável é o número de vezes que
esse valor ocorre nos dados. Isto é, esta frequência corresponde a uma contagem.
Observando apenas o número 124 de alunos do sexo feminino e 194 do sexo masculino
podemos dizer que há mais rapazes do que raparigas, no entanto, não se vê logo quantos
mais. Se compararmos estes números com o número total de alunos, calculando o quociente
entre o número total de alunos do sexo feminino (ou do sexo masculino) e o número total
de alunos da escola, a que chamaremos frequência relativa, então já podemos dizer que
124
318
= 0.39 (ou 194
318
= 0.61) são do sexo feminino (ou masculino) o que é nitidamente menos
(ou mais) do que metade dos alunos.
A frequência relativa de qualquer valor é a proporção ou fracção de todas as observa-
ções que têm aquele valor. Esta frequência pode ser expressa em termos de percentagem,
multiplicando a fracção resultante por 100 e atribuindo o sinal de %. Das fracções an-
teriores tiramos 39% de alunos do sexo feminino e 61% do sexo masculino. A soma das
frequências relativas deve ser igual a 1 (ou das percentagens igual a 100%).
Veja as percentagens de alunos dos dois sexos na coluna indicada por ’Percentagens’
da tabela da figura 2.1.
As frequências acumuladas absolutas (ou relativas) representam o número (ou a
fracção/percentagem) de observações que são menores ou iguais a um valor especificado.
Assim o número (ou fracção/percentagem) de alunos com idade inferior a 12, do 5o
ano de
escolaridade é de 118 (ou 0.8027/80.27%) e o número (ou fracção/percentagem) de alunos
do 6o
ano com idade igual ou inferior a 14 anos é de 162 (ou 0.9474/94.74%), como se pode
confirmar pela coluna ’F.Acumuladas’ da tabela da figura 2.2.
CAPÍTULO 2. DESCRIÇÃO NUMÉRICA DOS DADOS 8
ANO=5o
IDADE Frequências Percentagens F.Acumuladas
10 73 49.66 49.66
11 45 30.61 80.27
12 22 14.97 95.24
13 4 2.72 97.96
14 3 2.04 100.00
Total 147 100.00
ANO=6o
IDADE Frequências Percentagens F.Acumuladas
11 91 53.22 53.22
12 46 26.90 80.12
13 20 11.70 91.81
14 5 2.92 94.74
15 9 5.26 100.00
Total 171 100.00
Figura 2.2: Tabela de frequências da IDADE, por ANO de escolaridade
Da coluna ’F.Acumuladas’ da tabela da figura 2.3 podemos verificar que o número de
alunos do 6o
ano que têm um peso igual ou inferior a 40 Kg. é de 161, o que corresponde
a 94.15% dos alunos desse ano.
Da coluna ’F.Acumuladas’ da tabela da figura 2.4 podemos concluir que a percentagem
de alunos do sexo feminino com altura igual ou inferior a 140 cm. é aproximadamente de
91%.
As frequências absolutas e as relativas são um meio muito usado para classificar os
dados quando a escala usada para medir as variáveis é nominal, isto é, a medição da
variável apenas define a classe a que o elemento pertence. Por exemplo, a variável SEXO
é nominal, uma vez que ela é definida pelas duas classes: feminino e masculino; a variável
ANO de escolaridade é nominal e as classes definidas são o 5o
e o 6o
ano de escolaridade;
a variável TURMA é também nominal, definida pelas classes 1, 2, 3, 4 e 5 para o 5o
ano
de escolaridade e 1, 2, 3, 4 e 5 para o 6o
ano.
Certas variáveis são medidas de acordo com uma escala ordinal. Neste caso a medição
define classes e ordena-as de acordo com os valores atribuídos. Como exemplo, temos as
pontuações (1, 2, 3, ... e 10) que hoje se usam para definirmos a nossa preferência relativa
a qualquer acontecimento. A diferença entre o 2 e o 1 é a de que o 2 significa ter preferência
em relação ao 1 mas não se sabe quanto.
Mesmo quando a escala de medição da variável é intervalar/proporcional e a variável
pode tomar uma quantidade enorme de valores, podemos classificar (resumir) os dados
calculando as frequências de grupos de valores, chamados classes ou intervalos. Quando a
medida de uma variável nos diz quanto ela é diferente da medida de outra, então a variável
CAPÍTULO 2. DESCRIÇÃO NUMÉRICA DOS DADOS 9
ANO=5o
Classes
de pesos Frequências Percentagens F.Acumuladas
peso <=30 34 23.13 23.13
30 a 35 74 50.34 73.47
35 a 40 33 22.45 95.92
40 a 45 6 4.08 100.00
Total 147 100.00
ANO=6o
Classes
de pesos Frequências Percentagens F.Acumuladas
peso <=30 46 26.90 26.90
30 a 35 77 45.03 71.93
35 a 40 38 22.22 94.15
40 a 45 10 5.85 100.00
Total 171 100.00
Figura 2.3: Tabela de frequências dos PESOS, por ANO de escolaridade
foi medida numa escala intervalar. Por exemplo, uma avaliação baseada na escala de 0 a
20 é intervalar; uma classificação de 14.4 valores é nitidamente superior a uma de 7.2, no
entanto, 14.4 não significa um desempenho duas vezes melhor do que o 7.2. A medição
duma variável numa escala proporcional diz-nos quanto ela tem a mais em relação a outra.
Por exemplo, a ALTURA e o PESO dos alunos são exemplos de variáveis proporcionais.
Um peso de 46 Kg. é duas vezes superior ao peso de 23 Kg.
Quando temos este tipo de variáveis devemos decidir quantas classes/intervalos quere-
mos formar. Quando temos poucas observações devemos definir um número pequeno de
classes, 4, 5 ou 6. No entanto, quando o número de observações é elevado menos do que 10
classes origina uma perda significativa de informação. Tudo depende também da variação
dos valores que a variável pode tomar. Assim como o número de intervalos e a amplitude
desses intervalos são arbitrários, também o são os pontos que definem o início, limite
inferior, e o fim, limite superior, de cada intervalo. Estes limites separam os intervalos
uns dos outros. Eles devem ser escolhidos por forma a que, para cada observação, fique
bem claro a que intervalo ela pertence. Por exemplo, relativamente à variável ALTURA,
podemos usar um dos dois seguintes processos:
1. o primeiro intervalo, para a variável ALTURA, compreende os valores que vão desde
125 a 130 cm. inclusivé ( isto é, 125 < ALTURA ≤ 130); o segundo intervalo terá
observações desde 130 cm. até 135 cm. inclusivé (130 < ALTURA ≤ 135), ....,
até ao último intervalo que engloba ALTURAS que vão desde os 145 aos 150 cm.
(145 < ALTURA ≤ 150);
CAPÍTULO 2. DESCRIÇÃO NUMÉRICA DOS DADOS 10
SEXO=feminino
Classes
de alturas Frequências Percentagens F.Acumuladas
altura<=130 5 4.03 4.03
130 a 135 42 33.87 37.90
135 a 140 66 53.23 91.13
140 a 145 10 8.06 99.19
altura>145 1 0.31 100.00
Total 124 100.00
SEXO=masculino
Classes
de alturas Frequências Percentagens F.Acumuladas
altura<=130 2 1.03 1.03
130 a 135 32 16.49 17.53
135 a 140 84 43.30 60.82
140 a 145 63 32.47 93.30
altura>145 13 6.70 100.00
Total 194 100.00
Figura 2.4: Tabela das frequências das ALTURAS, por SEXO do aluno
2. (e como, para esta variável, todas as observações são quantidades inteiras) os limi-
tes dos intervalos são definidos usando valores com casas decimais, 0.5 unidades
inferiores ao valor, para o limite inferior, e 0.5 unidades superiores ao valor, para o
limite superior, de cada intervalo. Neste caso, ficamos com os seguintes intervalos
fechados nos dois extremos: [124.5, 130.5], [130.5, 135.5], [135.5, 140.5], [140.5, 145.5]
e [145.5, 150.5].
É também comum considerar os intervalos dos extremos como ’totalmente’ abertos, o
primeiro à esquerda, e o último à direita, isto é, o primeiro intervalo pode ser do tipo
≤ 130cm. e o último do tipo > 145cm. Verifique o processo utilizado na definição dos
intervalos para a variável ALTURA, na tabela da figura 2.4 e para a variável PESO na
tabela da figura 2.3.
A amplitude destas classes/intervalos é a diferença entre o limite superior e o inferior.
Para a variável ALTURA a amplitude dos intervalos é de 5 cm. e para o PESO é de 5 Kg.
Confirme estes valores nas tabelas das figura 2.4 e 2.3 respectivamente.
Como estes intervalos são definidos por um conjunto, por vezes, vasto de valores, há
necessidade de ter um valor que represente cada intervalo. Este valor é o ponto médio e
calcula-se como a semi-soma dos limites superior e inferior do intervalo. No caso da variável
ALTURA os pontos médios dos intervalos são respectivamente 127.5, 132.5, 137.5, 142.5 e
147.5 e para a classificação da variável PESO temos como pontos médios os valores: 27.5,
CAPÍTULO 2. DESCRIÇÃO NUMÉRICA DOS DADOS 11
32.5, 37.5, 42.5. Repare que os intervalos dos extremos foram considerados como tendo
amplitudes iguais aos restantes.
O número de observações que pertencem a cada classe/intervalo é a sua frequência
absoluta. Tudo o que já foi dito relativamente às frequências relativas e acumuladas é
válido para estas classes/intervalos.
Capítulo 3
Descrição gráfica dos dados
Um gráfico serve para dar uma visão resumida dos dados. Um gráfico bem construído pode
revelar factos (características) sobre os dados que, a retirar de uma tabela necessitariam
de uma análise mais cuidada.
1. O gráfico de barras serve para comparar a frequência de ocorrência de certas
observações.
Na maior parte dos exemplos, os valores comparados são frequências absolutas ou
relativas, em termos de percentagem, de variáveis medidas de acordo com as escalas
nominal e ordinal. A figura 3.1 apresenta um gráfico de barras respeitante aos dados
da tabela da figura 3.2.
Gráfico de barras
0
20
40
60
80
100
120
140
10 11 12 13 14 15
IDADE
Frequência
Figura 3.1: Gráfico de barras das frequências das IDADES dos alunos
12
CAPÍTULO 3. DESCRIÇÃO GRÁFICA DOS DADOS 13
IDADE Frequências Percentagens F.Acumuladas
10 73 22.96 22.96
11 136 42.77 64.72
12 68 21.38 87.11
13 24 7.55 94.65
14 8 2.52 97.17
15 9 2.83 100.00
Total 318 100.00
Figura 3.2: Tabela de frequências das IDADES dos alunos da Escola
As barras aparecem normalmente verticais, separadas e devem ter todas a mesma
largura. A altura da barra varia com a frequência, o que significa que a área do
rectângulo também varia. A nossa percepção da quantidade representada, corres-
ponde precisamente à área da barra.
Um gráfico de barras pode ser representado através de figuras a que se pode dar o
nome de gráfico ilustrativo ou pictograma. No entanto, essas figuras devem defi-
nir imagens todas com a mesma largura, variando a altura com o valor da frequência.
Nas figuras 3.3 e 3.4 estam representados dois exemplos de gráficos de barras utili-
zando figuras. O primeiro não está correcto, pois pode levar a falsas interpretações
em termos relativos; o segundo, que é tão atraente como o primeiro, está correcto. As
áreas das figuras visualizam correctamente as proporções relativas entre as variáveis.
Figura 3.3: Pictograma (errado) da variável SEXO (ver tabela da figura 2.1)
CAPÍTULO 3. DESCRIÇÃO GRÁFICA DOS DADOS 14
Figura 3.4: Pictograma da variável SEXO (ver tabela da figura 2.1)
2. O gráfico de sectores ou circular serve para representar várias variáveis. O tama-
nho de cada sector é proporcional ao valor da variável, que representa, em relação à
soma dos valores das variáveis lá representadas.
Assim e tendo em conta os alunos do 5o
ano de escolaridade, verificamos que há
números diferentes de alunos dos sexos feminino e masculino nas diferentes turmas,
como se pode ver na tabela da figura 3.5 e os gráficos de sectores correspondentes
seriam os representados nas figuras 3.6 e 3.7.
3. Existe ainda outro gráfico de barras, para representar várias variáveis, só que desta
vez elas apresentam-se sobrepostas. Dos mesmos valores da tabela da figura 3.5, o
gráfico de barras sobrepostas é o que está representado na figura 3.8.
4. O gráfico de linha serve para representar os valores de uma variável e mostra a
tendência (comportamento) dessa variável normalmente em relação ao tempo. Por
exemplo, se fosse conhecido o número de alunos inscritos na Escola XXX durante
os útimos dez anos, poderíamos representar esses valores ao longo do eixo vertical e
ao longo do eixo horizontal, representaríamos o tempo de acordo com o que está na
figura 3.9.
As escalas podem ser iniciadas em qualquer valor, em vez de 0. Para chamar a
atenção da omissão do 0, é frequente utilizar uma linha em ziguezague sobre o eixo.
5. Um gráfico de pontos serve para representar dados relativos a duas variáveis,
quando elas são medidas em escalas intervalar/proporcional ou ordinal. Cada variável
CAPÍTULO 3. DESCRIÇÃO GRÁFICA DOS DADOS 15
ANO=5o
Turma
SEXO 1 2 3 4 5 Total
feminino 10 7 12 7 14 50
masculino 24 22 14 21 16 97
Total 34 29 26 28 30 147
ANO=6o
Turma
SEXO 1 2 3 4 5 Total
feminino 17 16 15 11 15 74
masculino 20 18 18 24 17 97
Total 37 34 33 35 32 171
Figura 3.5: Frequências dos alunos do 5o
ano por TURMA
é representada num eixo. Cada ponto do gráfico corresponde a um par de valores
(x, y); x diz respeito ao valor da 1a
variável ( sobre o eixo das abcissas) e y diz respeito
ao correspondente valor da 2a
variável (sobre o eixo das ordenadas). Por exemplo,
se quiséssemos representar os PESOS e as ALTURAS dos alunos do SEXO feminino
da TURMA 2 do 5o
ANO da Escola XXX teríamos o gráfico que está representado
na figura 3.10.
6. O histograma das frequências é o gráfico mais importante na Estatística Inferen-
cial.
Quando os dados são valores de uma variável medida numa escala intervalar/proporcional,
uma tabela de frequências para cada uma das classes mostra a distribuição de valo-
res dessa variável. Considere o exemplo apresentado na tabela da figura 2.4 relativo
às ALTURAS dos alunos da Escola XXX, distribuídos por SEXO. Esta distribuição
pode ser representada graficamente num histograma. Este gráfico é desenhado tendo
como base um par de eixos coordenados, com a medida da variável que foi observada
colocada ao longo do eixo horizontal e o número ou a proporção de observações me-
didos ao longo do eixo vertical. O eixo vertical começa normalmente em 0 e o eixo
horizontal pode começar num valor qualquer, desde que seja conveniente.
A figura 3.11 mostra o exemplo em que as ALTURAS estão divididas por classes,
também chamadas intervalos de amplitudes iguais a 5 cm. Cada barra representa
uma dessas classes e a altura corresponde à frequência absoluta (número de valores
que pertencem à classe). Também se usam as frequências relativas ou proporções na
definição de histogramas.
Os histogramas têm as barras verticais, umas a seguir às outras e devem ser todas
da mesma largura. Assim, ao agrupar um conjunto de dados por classes para repre-
CAPÍTULO 3. DESCRIÇÃO GRÁFICA DOS DADOS 16
fe m inino
20
14
24
14
29
1
2
3
4
5
Figura 3.6: Gráfico de sectores dos alunos do 5o
ano do sexo feminino, por TURMA
]../pictures/sectoresm.eps
Figura 3.7: Gráfico de sectores dos alunos do 5o
ano do sexo masculino, por TURMA
sentar um histograma, devemos escolher intervalos (classes) com amplitudes iguais.
Não existe nenhum valor ideal para a amplitude da classe (intervalo). O objectivo
é conseguir obter uma distribuição de frequências equilibrada. Assim, tenta-se evi-
tar colocar todos os valores num número muito reduzido de classes de amplitudes
enormes ou distribuir poucos valores por muitas classes de amplitudes pequenas. As
classes devem ser definidas de tal forma que não haja ambiguidades sobre a classe
(ou intervalo) a que pertence cada observação.
7. A forma da distribuição de frequências de um conjunto de dados pode ser analisada
através do histograma das frequências. A figura 3.12 mostra uma distribuição não
simétrica e descaída para a direita. Por vezes, a análise é facilitada pelo polígono que
se obtém unindo, por linhas, os pontos médios dos topos das barras no histograma,
como se vê na figura 3.12. O polígono é terminado para a esquerda e para a direita,
unindo os pontos que se colocam no eixo horizontal distanciados de metade da am-
plitude para a esquerda do primeiro intervalo e para a direita do último intervalo.
Este polígono é conhecido por polígono de frequências.
8. Ao gráfico das frequências acumuladas chama-se ogiva. Este gráfico obtém-se co-
locando pontos na vertical dos limites inferiores das classes (ou intervalos) a uma
distância do eixo horizontal que corresponde à percentagem das observações que são
CAPÍTULO 3. DESCRIÇÃO GRÁFICA DOS DADOS 17
20
14
24
14
28
25
23
14
22
16
0
5
10
15
20
25
30
35
40
45
50
1 2 3 4 5
Turm a
Percentagem feminino
m asculino
Figura 3.8: Gráfico de barras dos alunos do 5o
ano, por turma e por SEXO
menores ou iguais àquele valor (do limite inferior da classe) e unindo estes pontos por
rectas. As ogivas têm um semelhança com um S aberto. Um exemplo de ogiva é o que
se encontra na figura 3.14 e que corresponde às frequências da coluna ’F.Acumuladas’
da tabela da figura 3.13.
CAPÍTULO 3. DESCRIÇÃO GRÁFICA DOS DADOS 18
220
240
250
265
270
280
295
309
315 318
200
220
240
260
280
300
320
83/84 84/85 85/86 86/87 87/88 88/89 89/90 90/91 91/92 92/93
te m po (a no le ctivo)
Númerodealunosinscritos
Figura 3.9: Gráfico relativo ao número de alunos da Escola, nos últimos dez anos
132
134
136
138
140
142
144
25 30 35 40 45
P e so (kg)
Altura(cm)
Figura 3.10: Gráfico relativo aos PESOS e ALTURAS dos 7 alunos da TURMA 2 (5o
ANO)
CAPÍTULO 3. DESCRIÇÃO GRÁFICA DOS DADOS 19
5
42
66
10
0
10
20
30
40
50
60
70
125-130 130-135 135-140 140-145
Altura (cm )
Frequência
Figura 3.11: Histograma relativo às ALTURAS dos alunos do SEXO feminino
Frequência
Figura 3.12: Polígono de frequências de uma distribuição definida por 8 intervalos
CAPÍTULO 3. DESCRIÇÃO GRÁFICA DOS DADOS 20
Classes de
alturas Frequências Percentagens F.Acumuladas
altura<=130 2 1.03 1.03
130 a 135 32 16.49 17.53
135 a 140 84 43.30 60.82
140 a 145 63 32.47 93.30
altura>145 13 6.70 100.00
Total 194 100.00
Figura 3.13: Frequências das ALTURAS dos alunos do SEXO masculino
Figura 3.14: Ogiva das ALTURAS dos alunos do SEXO masculino da escola
Capítulo 4
”Estatísticas” descritivas
Além das tabelas e dos gráficos, que têm com objectivo organizar e dar uma imagem visual
dos dados, existem certas características de uma distribuição de valores, como o valor
central e a sua dispersão, que podem ser resumidas por meio de certas quantidades.
Exemplos destas quantidades, conhecidas por "estatísticas"descritivas, são: o ponto
médio, a mediana, a moda, a média, a amplitude, o desvio padrão e a variância.
4.1 Medidas de tendência central
1. o ponto médio é o valor que se encontra a meio caminho entre a menor e a maior
das observações de uma lista. Por definição
Xm =
menor obs. + maior obs.
2
.
Considerando a tabela 4.1 relativa às ”estatísticas” das IDADES dos alunos da Escola
XXX, o Xm é igual a 10+15
2
= 12.5.
2. A média (aritmética) de um conjunto de n observações obtém-se somando todas
as observações e dividindo depois pelo seu número.
Se X1, X2, X3, ..., Xn forem as n observações, então a média deste conjunto é
¯X =
n
i=1 Xi
n
.
Quando os dados estão agrupados por classes numa tabela de frequências, a soma de
observações idênticas é equivalente a multiplicar o valor dessa observação, Xi, pela
sua frequência fi. Assim, a média pode ser calculada através de
¯X =
k
i=1 fiXi
n
,
21
CAPÍTULO 4. ”ESTATÍSTICAS” DESCRITIVAS 22
IDADE
Percentis Menores
1% 10 10
5% 10 10
10% 10 10 Observações 313
25% 11 10 Soma dos pesos 313
50% 11 Média 11.3239
Maiores Desvio padrão 1.150557
75% 12 15
90% 13 15 Variância 1.32378
95% 14 15 Assimetria 1.162583
99% 15 15 Kurtose 4.48434
Figura 4.1: ”Estatísticas” das IDADES dos alunos da Escola
em que n = k
i=1 fi e k é o número de classes distintas. Quando cada classe é
representada por um intervalo de valores, o Xi é o valor que representa esse intervalo
e que anteriormente chamámos o ponto médio do intervalo. Se os intervalos dos
extremos são caracterizados por ≤ e >, os pontos médios são calculados do mesmo
modo, supondo que esses intervalos têm amplitudes iguais aos restantes. Da tabela
da figura 4.1, vemos que a média das IDADES dos 318 alunos da Escola XXX é de
11.3239.
3. A mediana é o valor típico, isto é, é o ponto central das observações quando elas
não estão agrupadas e já se encontram colocadas por ordem crescente.
Quando o número de observações é impar, o valor do meio é a mediana; quando o
número de observações é par, existe um par de valores no centro e a mediana passa
a ser a média aritmética desse par. Para o cálculo da mediana de um conjunto de
observações não agrupadas por classes ou intervalos, podemos usar a seguinte regra:
Se n for o número de observações, calcule a quantidade (n + 1)/2. Coloque as
observações por ordem crescente e conte a partir do início (n + 1)/2 observações. Se
n for impar a última contabilizada será a mediana da lista; se n for par, a quantidade
(n + 1)/2 não é inteira, e tomamos a semi-soma das duas observações contíguas a
esta quantidade (a anterior e a posterior) da lista.
Quando os n dados estão agrupados por k classes/intervalos, podemos usar o seguinte
processo para o cálculo da mediana:
• calcular n
2
,
• calcular as frequências absolutas acumuladas das classes,
CAPÍTULO 4. ”ESTATÍSTICAS” DESCRITIVAS 23
• determinar o intervalo que contém a mediana. Seja M o número desse intervalo
(M é um inteiro de 1 a k). A frequência acumulada dos intervalos anteriores ao
do da mediana é FM−1. A frequência absoluta do intervalo da mediana é fM e
a acumulada é FM , e FM−1 < n
2
< FM ,
• calcular o número de observações que devemos tomar do intervalo da mediana
e que é igual a n
2
− FM−1,
• como existem fM observações no intervalo da mediana e considerando-as unifor-
memente distribuídas, o valor da mediana está a n/2−FM−1
fM
de distância do início
do intervalo da mediana que tem amplitude igual a A e cujo limite inferior é
liM . Assim,
mediana = liM +
n
2
− FM−1
fM
A.
Como num histograma as áreas dos rectângulos são proporcionais às frequências
dos respectivos intervalos, a linha vertical traçada no valor da mediana divide o
histograma em duas áreas iguais.
4. A moda é o valor mais frequente, isto é, o valor com maior frequência entre as
observações de uma lista. Para o cálculo da moda convém colocar as observações
por ordem crescente para se ver qual delas ocorre mais vezes. Essa observação é a
moda. A lista, neste caso, diz-se unimodal. Pode até haver mais do que uma moda.
Se duas ou mais observações ocorrem o mesmo número de vezes, então a lista diz-se
respectivamente bimodal ou multimodal.
Quando os dados se apresentam agrupados, a classe com maior frequência define a
classe da moda. Se cada classe for definida por um só valor, esse é a moda; se a classe
é definida por um intervalo de valores, o ponto que representa a classe, o ponto médio
dessa classe, é a moda. Tal como foi dito no parágrafo anterior podemos também
aqui ter mais do que uma moda ou mesmo não ter nenhuma.
Destas medidas centrais, a média e a mediana são as mais usadas. A mediana utiliza
informação relativa à ordem, não usando os valores numéricos das observações. A média,
por sua vez, usa esses valores numéricos, sendo por isso a mais usada.
As diferentes localizações da média, da mediana e da moda são mais facilmente visíveis
usando a curva das frequências desse conjunto de dados, o polígono de frequências. A moda
é o valor onde a curva é mais alta. A mediana é o valor que divide a área, compreendida
entre o eixo e a curva, em duas partes iguais; metade fica à esquerda da mediana e a outra
metade à direita. A média é o ponto central de uma distribuição simétrica.
Numa distribuição simétrica a moda coincide com a mediana e também com a média.
Veja a figura 4.2.
A figura 4.3 apresenta dois exemplos de distribuições não simétricas. A primeira é
assimétrica positiva e a segunda é assimétrica negativa. Repare na sequência de localização
das três medidas: moda, mediana e média.
CAPÍTULO 4. ”ESTATÍSTICAS” DESCRITIVAS 24
Figura 4.2: Curva das frequências de uma distribuição simétrica
Figura 4.3: Curvas de frequências de duas distribuições não simétricas
CAPÍTULO 4. ”ESTATÍSTICAS” DESCRITIVAS 25
Dos valores da tabela 4.1 podemos retirar a mediana, que é o percentil de ordem 50, e
é igual a 11 e de acordo com a tabela que foi apresentada na figura 3.1, a moda é também
11, uma vez que é o valor que tem maior frequência (136). Assim, esta distribuição das
IDADES dos alunos da Escola XXX da cidade YYY é assimétrica positiva. Confirme este
facto com o gráfico de barras já anteriormente apresentado na figura 3.1. Da tabela da
figura 4.1 o valor do parâmetro ’Assimetria’=1.162583, porque é positivo, significa que a
distribuição é assimétrica positiva. Se este valor fosse negativo, teríamos uma distribuição
assimétrica negativa.
4.2 Medidas de dispersão
As medidas centrais são importantes mas não fornecem a informação completa sobre o
conjunto das observações. Falta, pois, indicação sobre a dispersão desses valores.
Quando se usa a mediana para medir o centro de uma distribuição, é conveniente
fornecer elementos sobre a variação ou dispersão da distribuição, através dos percentis.
As medidas de dispersão mais usadas são: a variância e o desvio padrão. Devem
ser usadas quando a medida de tendência central usada for a média, pois elas medem a
dispersão em relação à média, como centro da distribuição.
1. O percentil de ordem p de um conjunto de valores (observações de uma variável)
é o valor abaixo do qual estão p por cento dos valores, estando os restantes acima
dele.
A mediana é o percentil de ordem 50, também conhecido por segundo quartil.
O percentil de ordem 25 chama-se primeiro quartil.
O percentil de ordem 75 chama-se terceiro quartil.
Um quarto das observações são menores do que o 1o
quartil, metade são menores do
que o 2o
e um quarto são maiores do que o 3o
quartil.
2. A amplitude de um conjunto de valores é definida como a diferença entre a maior
e a menor das observações e mede a dispersão total dos valores do conjunto.
3. A variância é a média aritmética dos quadrados dos desvios das observações em
relação à média.
Assim, se X1, X2, X3, ..., Xn forem n observações e se ¯X for a sua média, a variância
é calculada a partir de
s2
=
n
i=1(Xi − ¯X)2
n
.
Quando os dados estão agrupados por k intervalos, a variância é definida por
s2
=
k
i=1(fiX2
i )
n
− ¯X2
CAPÍTULO 4. ”ESTATÍSTICAS” DESCRITIVAS 26
em que n = k
i=1 fi, k é o número de classes (ou intervalos), fi é a frequência da
classe i e Xi o valor que representa a classe i.
Quando as observações formam uma amostra aleatória simples de tamanho n, reti-
rada de uma população, a variância da amostra deve ser calculada usando n − 1 no
denominador do primeiro termo da expressão, em vez de n, e deve-se multiplicar o
segundo termo por n
(n−1)
.
Existem razões para esta escolha e têm a ver com o facto de esta ’estatística’ poder
ser usada para estimar a variância da população.
4. O desvio padrão é a raiz quadrada da variância. Utiliza-se s para designar o desvio
padrão.
A variância e o desvio padrão das IDADES são, retirados directamente da tabela da
figura 4.1, respectivamente ’Variância’= 1.32378 e ’Desvio padrão’= 1.150557.
Alguns comentários em relação a estas medidas:
(i) A variância é uma quantidade positiva ou nula. Será nula se todos os desvios forem
nulos e isto acontece quando todos os Xi forem iguais a ¯X (sendo todos iguais). Neste
caso, não existe dispersão.
(ii) Se as observações estão dispersas e existem de um e de outro lado da média, os desvios
das observações à esquerda da média são negativos e os desvios das observações à
direita são positivos. Estes desvios serão tanto maiores, em valor absoluto, quanto
mais afastadas as observações estiverem da média. Os quadrados dos desvios são
quantidades positivas e tanto maiores quanto maiores forem os desvios. Assim, se
os valores estão juntos, a variância é pequena; se eles estão dispersos, a variância é
grande.
(iii) Quando as observações são medidas numa unidade (por exemplo, centímetros, segun-
dos, gramas, ...), a variância vem nessa medida ao quadrado. No entanto, o desvio
padrão vem medido na mesma unidade das observações.
4.3 Medidas de associação
As medidas centrais e de dispersão fornecem informação básica relativa a dados univariados,
embora não completa. No entanto, se tivermos duas variáveis, as medidas referidas atrás.
não são suficientes para as descrever. Normalmente estamos interessados numa possível
ligação entre as variáveis: - os valores das variáveis aumentam simultaneamente, como a
altura e o peso das pessoas, ou variam em sentidos opostos, como o número de cigarros
fumados por dia e a esperança de vida do fumador!
Diz-se que duas variáveis estão associadas se existe uma ligação directa entre as suas
variações,
CAPÍTULO 4. ”ESTATÍSTICAS” DESCRITIVAS 27
• quando o aumento de uma variável tende a acompanhar o aumento de outra variável,
diz-se que a associação é positiva;
• quando o aumento de uma variável tende a acompanhar a diminuição de outra va-
riável, então as variáveis dizem-se associadas negativamente.
A associação é medida em termos médios. A associação faz sentido para variáveis
medidas em qualquer tipo de escala. Associação positiva ou negativa já só faz sentido
quando as variáveis forem medidas numa escala ordinal ou intervalar/proporcional.
1. Uma das medidas de associação é o coeficiente de correlação. Dadas n observa-
ções bivariadas nas variáveis X e Y , X1, X2, ..., Xn e Y1, Y2, ..., Yn, o coeficiente de
correlação r é definido por
r =
1
n
n
i=1(Xi − ¯X)(Yi − ¯Y )
sXsY
em que ¯X e ¯Y são as médias dos valores de X e de Y respectivamente e sX e sY os
desvios padrões das mesmas variáveis.
O numerador da expressão é a média dos produtos dos desvios de X e de Y , em
relação às correspondentes médias. O denominador é o produto dos desvios padrões
de X e de Y .
Interpretação de r:
• o coeficiente de correlação r mede a associação entre duas variáveis; é positivo
quando a associação é positiva e negativo quando a associação for negativa (o
valor de r é tanto maior quanto mais forte for a associação);
• o coeficiente de correlação toma sempre valores entre -1 e +1 (os desvios padrão
no denominador estandardizam o r, as unidades no numerador e denominador
são as mesmas, o que significa que r é adimensional);
• os valores extremos r = −1 e r = 1 indicam uma associação perfeita (r = −1
significa que os pontos pertencem a uma linha recta de declive negativo, isto é,
quando x aumenta, y diminui; r = 1 significa que os pontos pertencem a uma
linha recta com declive positivo, isto é, quando x aumenta, y também aumenta;
• o coeficiente de correlação mede a proximidade da mancha de pontos em relação
a uma linha recta (r mede uma associação linear).
A figura 4.4 mostra cinco casos com diferentes valores de r. O último caso refere-se a
uma situação onde não existe uma relação linear, embora exista outro tipo de relação.
2. Existe uma maneira de medir a associação linear através de uma quantidade r2
,
chamada coeficiente de determinação. Este coeficiente é a proporção da variância
de uma variável, que pode ser explicada pela dependência linear na outra variável.
CAPÍTULO 4. ”ESTATÍSTICAS” DESCRITIVAS 28
Figura 4.4: Cinco casos de associação
CAPÍTULO 4. ”ESTATÍSTICAS” DESCRITIVAS 29
Para compreender melhor o seu significado, considere os dois gráficos da figura 4.5.
No primeiro, existe uma associação perfeita linear com r = −1. A variável Y está
totalmente ligada à variável X; quando X varia, Y também varia e o ponto (X, Y )
move-se ao longo da linha. O conjunto dos 8 valores de Y tem uma grande variância;
mas esta variância é devida (explicada) à ocorrência dos diferentes valores de X,
levando consigo os valores de Y . A dependência linear em X explica toda a variação
em Y e r2
= 1.
Figura 4.5: Duas associações diferentes entre duas variáveis
No segundo gráfico, o conjunto dos 21 valores de Y também tem uma grande variância.
Alguma desta variância pode ser explicada pelo facto de a variação em X levar consigo
uma variação (em média) em Y .
O gráfico apresenta esta situação, mostrando os diferentes valores de Y que acompa-
nham os dois valores de X. Neste caso, r2
= +1 pois a associação entre X e Y explica
apenas parte da variação em Y . Esta parte é a fracção r2
da variância dos valores de Y
Neste exemplo, r2
= 0.49 e diz-se que 49 por cento da variância de Y é explicada pela
dependência linear de Y em relação a X.
O coeficiente r2
mede apenas a intensidade da associação e não nos diz nada sobre se
ela é positiva ou negativa.
A associação entre duas variáveis pode ser devida a três factores:
• ao factor causa, isto é, uma das variáveis origina (causa) variações na outra;
• à existência de outra(s) variável(eis) que origina(m) o aparecimento das duas (ou,
cuja variação causa variações nas duas) variáveis em estudo;
• a uma terceira variável, que não se encontra em estudo, mas que, juntamente com
uma das variáveis causa variações na outra.
CAPÍTULO 4. ”ESTATÍSTICAS” DESCRITIVAS 30
Para concluir que a associação entre duas variáveis é devido à causa, é necessário que:
• a associação se repita em diferentes circunstâncias, reduzindo a probabilidade de ser
consequência da mistura entre variáveis;
• se conheca uma explicação plausível, mostrando como uma variável pode causar
variações noutra variável;
• não pareçam existir terceiros factores que possam causar variações nas duas variáveis.
A associação que se deve a razões comuns, pode ser utilizada para predizer uma das
variáveis, como função da outra.
Figura 4.6: Recta de regressão
Correlação e predição estão muito relacionadas. Por exemplo, se uma variável indepen-
dente X e uma variável dependente Y têm um r2
= 1, isto significa que as observações
em X e Y estão sobre uma linha recta. Este modelo pode ser usado para predizer Y a
partir de um valor de X - ler na recta o correspondente valor de Y , Yx. Se o valor de r2
é
pequeno, a predição é menos precisa porque os pontos não estão sobre uma linha recta e
Y varia muito, para um valor fixo de X.
A linha que deve ser usada para predizer Y a partir de X, baseada numa mancha de
pontos é a recta de regressão. Veja o exemplo da figura 4.6.
Capítulo 5
Distribuição normal
Quando um conjunto de dados tem uma distribuição descrita por uma das curvas normais,
a média é facilmente detectada. Esta distribuição é simétrica, a média coincide com a
mediana e também com a moda. É o valor que corresponde ao pico. Veja o gráfico da
figura 4.2.
O desvio padrão também é facilmente detectável da curva normal. Os pontos onde a
curvatura muda, de ambos os lados em relação ao centro, estão localizados a um desvio
padrão de cada lado da média. O gráfico da figura 5.1. apresenta três exemplos de
distribuições normais com a mesma média mas com diferentes desvios padrão.
Figura 5.1: Distribuições normais com diferentes desvios
A média fixa o centro da curva, enquanto que o desvio padrão determina a forma.
Alterando a média de uma distribuição normal não altera a forma, apenas altera a sua
localização nos eixos. No entanto, alterando o desvio padrão, a forma da curva é alterada.
31
CAPÍTULO 5. DISTRIBUIÇÃO NORMAL 32
Em todos os casos, temos a curva normal das frequências com uma amplitude igual a
seis desvios padrão.
Considere a figura 5.2. Em qualquer distribuição normal,
Figura 5.2: Distribuição normal
1. metade das observações são menores do que a média e a outra metade maiores;
2. 68 por cento das observações pertencem ao intervalo limitado por um desvio padrão
para cada lado da média; destas, metade (34 por cento) estão entre a média e um
desvio padrão para além da média;
3. 95 por cento das observações pertencem ao intervalo limitado por dois desvios para
cada lado da média;
4. 99.7 por cento das observações pertencem ao intervalo limitado por três desvios em
relação à média.
Em qualquer distribuição normal, o percentil de ordem 84 de uma distribuição normal
está localizado a um desvio padrão acima da média. Do mesmo modo o percentil de ordem
16 é o ponto localizado a menos um desvio padrão em relação à média.
As observações retiradas de diferentes distribuições normais podem ser comparadas,
colocando-as em unidades de desvio padrão acima ou abaixo da média. Observações ex-
pressas em unidades de desvio padrão em relação à média, chamam-se pontuações es-
tandardizadas (’standard’). Esta pontuação é calculada da seguinte maneira:
pontuação estandardizada =
observação − média
desvio padrão
.
CAPÍTULO 5. DISTRIBUIÇÃO NORMAL 33
Por exemplo, uma pontuação de 24 unidades num teste, cuja média foi de 18 e o desvio
padrão de 6, é equivalente a (24−18
6
=)1 unidade de pontuação estandardizada. Uma
pontuação estandardizada de 1 corresponde sempre ao percentil de ordem 84, qualquer
que seja a distribuição normal original.
Capítulo 6
Análise de Regressão
Seja Y uma variável aleatória dependente cuja variação é afectada pela variação da variável
independente X.
Sejam X1, X2, ..., Xn os valores escolhidos arbitrariamente para X e Yi(i = 1, ..., n) os
correspondentes valores de Y .
6.1 Regressão Linear e Simples
A partir dos valores observados, podemos estimar a recta de regressão linear e simples
(com uma só variável independente). A forma da recta é:
Yx = α + β(X − X)
em que X é a média aritmética dos n valores de X, X1, X2,... ,Xn e α e β são calculados
através de
α =
n
i=1 Yi
n
β =
n
i=1(Xi − X)(Yi − Y )
n
i=1(Xi − X)2
=
n
i=1(Xi − X)Yi
n
i=1(Xi − X)2
.
Embora seja possível fazer interpolação, isto é, calcular o valor de Y que corres-
ponde a um dado valor de X = X0, se este pertencer ao intervalo definido pelos valores
X1, X2, ..., Xn usados nos cálculos, a extrapolação deve ser implementada com cuidado
pois,
1. embora existindo uma relação linear entre X e Y (esta pode ser adequada na região
definida pelo conjunto de valores usados), o modelo pode deixar de ser válido fora da
região definida por esse conjunto,
2. quanto mais afastado X0 estiver de X, maior será o erro de extrapolação.
34
CAPÍTULO 6. ANÁLISE DE REGRESSÃO 35
6.2 Regressão não linear
Além do modelo de regressão linear, existem outros modelos que podem descrever a de-
pendência de Y em relação a X. Mesmo assim, a análise de regressão já definida pode ser
aplicada, desde que seja possível para isso redefinir as variáveis ou transformar a equação,
de modo a conseguir-se um modelo linear nos parâmetros.
Como primeiro exemplo, considere o caso em que
Y = α + βX2
.
A equação é já linear nos parâmetros α e β e a única não linearidade está na variável
independente X.
No segundo exemplo,
Yx = Xβ
,
mais complicado, a não linearidade envolve directamente o parâmetro β a ser calculado.
Esta equação exige uma transformação de variáveis que a torne linear em β.
Para o primeiro caso, o modelo matemático, no caso geral, é
Yx = α + βw + γw2
com w = W − W. Se fizermos x = w e z = w2
, este modelo reduz-se a um modelo linear
e múltiplo.
Para o segundo caso, se aplicarmos logaritmos, obtemos o modelo
ln Yx = β ln X ou yx = βx
que já é linear no parâmetro β, sendo, neste caso, x = ln X e y = ln Y . Este modelo é
agora linear e simples, sem constante α.
Parte II
Séries cronológicas
36
Capítulo 7
Componentes do estudo
Comecemos pela definição:
Definição 7.0.1 Uma série cronológica é um conjunto de observações feitas em períodos
sucessivos de tempo, durante um certo intervalo.
Exemplo 7.0.1 Valores da taxa bruta de natalidade, em anos sucessivos.
Exemplo 7.0.2 Percentagem da população com idade inferior a 7 anos, em anos suces-
sivos.
Vamos designar o conjunto dessas observações por X1, X2, ..., Xn e vamos supor que
foram feitas nos períodos de tempo t1, t2, ..., tn contados a partir de uma origem fixada.
As observações são normalmente feitas em períodos de tempo igualmente espaçados.
7.1 Representação gráfica de uma série cronológica
Para iniciar a análise de uma série cronológica deve representar-se graficamente as ob-
servações. Esta representação gráfica chama-se cronograma. Nos eixos das ordenadas
marca-se o valor da série. No eixo das abcissas marca-se o tempo (ver figura 7.1)
7.2 Estudo de uma série cronológica
Duas das questões mais importantes a ter em conta no estudo de uma série cronológica
são:
• A comparação entre valores da série se o intervalo entre tempos não é constante.
Pode ser ultrapassada fazendo uma correcção aos valores da série.
• A variação da população a que se refere o fenómeno. As variações sofridas ao longo
do tempo que sejam devidas à variação no número de elementos da população não
interessam. A análise das variações deve ser feita em termos relativos.
37
CAPÍTULO 7. COMPONENTES DO ESTUDO 38
0
1
2
3
4
5
6
t1 t2 t3 t4 t5 t6 t7 t8
tem po
valordasérie
cronogram a
Figura 7.1: Gráfico de uma série cronológica
Constata-se que na maior parte das séries cronológicas as sucessivas observações não
são independentes. Por exemplo, o valor da observação no instante t3 depende dos valores
nos instantes t1 e t2.
Quando se verifica dependência é possível prever valores futuros tendo como base valores
da série já observados.
O estudo de uma série cronológica consiste na descrição, na explicação, na previsão e
no controlo dessa série. Assim,
• a descrição consiste na caracterização do comportamento através da identificação
de pontos altos e baixos, distância entre eles, valores aberrantes e pontos de viragem;
• a explicação compreende a formulação de hipóteses e a tentativa de construir um
modelo matemático que permita descrever o comportamento da série até ao presente;
• a previsão estabelece uma relação entre o comportamento observado da série e o
comportamento futuro;
• o controlo é um fenómeno que tenta modificar o comportamento futuro da série.
Capítulo 8
Decomposição
Algumas séries cronológicas são influenciadas por uma ou duas causas dominantes. Outras
são influenciadas por uma infinidade de causas.
É conveniente decompor as séries cronológicas em componentes que se agrupam em:
movimentos sistemáticos



tendência (’trend’)
movimento sazonal
movimento oscilatório
movimentos não sistemáticos movimento aleatório
• A tendência é a variação em média, ao longo do tempo (compreende os movimen-
tos que se manifestam suave e consistentemente ao longo de um período grande de
tempo).
• Os movimentos sazonais são variações em relação à tendência que ocorrem, em
geral, dentro de um ano.
Os movimentos sazonais podem ter causas naturais e causas sociais.
– As causa naturais estão associadas (quase sempre) com as estações do ano.
– As causa sociais estão associadas com usos, costumes e tradições sociais.
• Os movimentos oscilatórios ocorrem mais em séries económicas e associam-se a
ciclos económicos de expansão e depressão. Não apresentam periodicidade definida.
Estes são difíceis de separar da tendência.
• Os movimentos aleatórios são de carácter fortuito, irregulares e de origem desco-
nhecida.
Exemplos: guerras, epidemias, greves, secas, ...
Para o estudo da série é aconcelhável identificar e limitar primeiro a tendência, depois
os movimentos sazonais e finalmente as oscilações.
39
Capítulo 9
Estudo da tendência
A tendência é um movimento suave e consistente ao longo de um período grande de tempo
(o termo grande é relativo pois o que é grande para uma série pode ser pequeno para
outra). O número de anos em que se deve considerar a tendência varia de série para série.
Algumas causas da presença da tendência numa série cronológica são:
• causas relacionadas com variações na população;
• causas relacionadas com idade, saúde, educação, constituição, conhecimentos teóricos
da população;
• causas relacionadas com a qualidade e quantidade de recursos.
Estas causas estão relacionadas entre si.
Os objectivos a atingir com a determinação da tendência são:
1. Estudá-la para extrapolar como forma de prever o comportamento da série no futuro;
2. Eliminá-la para estudar as outras componentes (sazonalidade, oscilação e aleatorie-
dade).
Quando se elimina a tendência, a série diz-se estacionária.
9.1 Métodos para estudo da tendência
Os dois métodos mais importantes para estudar a tendência são:
1. Método das médias móveis
2. Método analítico
40
CAPÍTULO 9. ESTUDO DA TENDÊNCIA 41
9.1.1 Método das médias móveis
O método das médias móveis consiste em calcular a média aritmética de observações
contidas em escalões, tomando-a como estimativa do valor local da tendência. Assim, as
etapas a seguir são:
1. começa-se por dividir a série em escalões, com igual número de termos sobrepostos;
• o número de observações em cada escalão chama-se período da média móvel,
(ver figura 9.1)
x x x x x x x x x x
Figura 9.1: Escalões de período igual a 3
• Se tem k observações em cada escalão, existem k − 1 observações em comum
com os escalões seguintes (e anteriores).
2. Calculam-se as estimativas locais da tendência;
• Se k é impar (k = 2m + 1):
as estimativas da tendência são (exemplo com k = 3, m = 1)
t2 =
X1 + X2 + X3
3
t3 =
X2 + X3 + X4
3
t4 =
X3 + X4 + X5
3
...
tn−1 =
Xn−2 + Xn−1 + Xn
3
e a tendência não é estimada para os primeiros e últimos m pontos do tempo.
• Se k é par (k = 2m)
CAPÍTULO 9. ESTUDO DA TENDÊNCIA 42
i) as estimativas da tendência calculam-se em pontos médios de um intervalo
(exemplo com k = 4, m = 2)
ponto médio de [2, 3] =
X1 + X2 + X3 + X4
4
ponto médio de [3, 4] =
X2 + X3 + X4 + X5
4
ponto médio de [4, 5] =
X3 + X4 + X5 + X6
4
...
ii) para centrar estas médias, calcula-se uma 2a
média móvel de período 2
[2, 3] = X1+X2+X3+X4
4
[3, 4] = X2+X3+X4+X5
4
⇒
t3 =
X1+X2+X3+X4
4
+ X2+X3+X4+X5
4
2
.
Do mesmo modo
t4 =
X2+X3+X4+X5
4
+ X3+X4+X5+X6
4
2
, ...
O método das médias móveis é um caso particular dos filtros lineares, filtros esses que
transformam uma série X noutra Y , por meio de uma operação linear.
9.1.2 Método analítico
Com o método analítico a determinação da tendência é feita ajustando uma função da
variável tempo (t) ao cronograma da série cronológica.
Este ajuste é feito, em geral, pelo método dos mínimos quadrados.
De acordo com o tipo de função assim podemos ter tendências lineares, parabólicas,
exponenciais, ...
A função vai traduzir uma lei matemática que se admite ser seguida pela tendência.
A escolha do tipo de função a ajustar não é fácil e este processo deve ser iniciado com
a representação gráfica da série e inspecção cuidada do cronograma.
Tendência linear
O modelo mais simples que é possível representar é o modelo linear com a seguinte
forma:
Xt = α + βt. (9.1)
Como
Xt = α + β(t − t) = α + βt − βt = α − βt + βt,
CAPÍTULO 9. ESTUDO DA TENDÊNCIA 43
tem-se
α = α − βt (9.2)
em que t é a média aritmética dos tempos, t1, t2, ..., tn, e os valores de α e β são calculados
da seguinte maneira:
α =
X1 + X2 + ... + Xn
n
(9.3)
e
β =
(t1 − t)X1 + (t2 − t)X2 + ... + (tn − t)Xn
(t1 − t)2 + (t2 − t)2 + ... + (tn − t)2
. (9.4)
O valor de α da equação Xt = α + βt chama-se ordenada na origem, isto é, quando
t = 0, Xt = α, e β representa o declive da recta. Este declive dá a variação verificada
em Xt quando t varia de um período de tempo (constante).
O quadrado do coeficiente de correlação das duas variáveis X e t, r2
(coeficiente de
determinação) dá a percentagem da variação da série original explicada pela tendência
linear. A diferença 100% − r2
% é a variação explicada pelos outros movimentos.
Além da tendência linear, descrita por um polinómio linear, existem outros tipos, tais
como: tendências quadráticas (polinómio quadrático), tendências cúbicas (polinómio cú-
bico), exponenciais, etc.
Exemplo 9.1.1 Considere a seguinte tabela de valores [2]:
Ano t X desvios:X − Xt
1973 1 233 41.258
1974 2 250.3 39.884
1975 3 158 -71.09
1976 4 178.3 -69.464
1977 5 293.5 27.062
1978 6 309.5 24.388
1979 7 279 -24.786
1980 8 355.2 32.74
O cronograma está representado na figura 9.2.
No ajuste de uma tendência linear, usando as equações (9.3), (9.4), (9.2) e finalmente
(9.1), obtêm-se
Xt = 173.068 + 18.674 t.
A representação desta recta está na figura 9.2. A interpretação é a seguinte - A partir
de uma valor de 173.068 verificado para t = 0 (1972), a tendência (Xt) aumenta (β > 0),
em média, por ano (ver 1a
coluna da tabela) 18.67.
Se calcularmos o coeficiente de determinação, r2
, teremos r2
= 0.475, ou seja, 47.5%
da variação da série original é explicada pela tendência, ficando 52.5% à conta dos outros
CAPÍTULO 9. ESTUDO DA TENDÊNCIA 44
150
200
250
300
350
400
450
1 2 3 4 5 6 7 8
t
X
X Linear Quadrática Exponencial
Figura 9.2: Cronograma da série e modelos ajustados
CAPÍTULO 9. ESTUDO DA TENDÊNCIA 45
movimentos. Na figura 9.2 estão também representadas duas funções. Uma quadrática e
outra exponencial , que corresponderiam a ajustes de modelos quadráticos e exponenciais,
respectivamente.
Os desvios, X − Xt, calculados pela diferença entre os valores observados, X, e os
valores da tendência linear, Xt, representam a série corrigida da tendência. Para a
série do exemplo 9.1.1, os desvios estão representados na figura 9.3.
-100
-80
-60
-40
-20
0
20
40
60
80
100
1 2 3 4 5 6 7 8
t
Figura 9.3: Desvios. Série corrigida da tendência
A diferença entre o método das médias móveis e o método analítico é considerável. No
primeiro, não se considera a tendência como definida por qualquer lei e obtém-se apenas
uma curva ”suave”, sem outros movimentos. Com o segundo método, determina-se uma
função que traduz uma certa lei matemática que se admite ser seguida pela tendência.
Capítulo 10
Movimento sazonal
Os movimentos sazonais são variações que ocorrem dentro de um ano e de acordo com
um certo modelo (mais ou menos rígido) que se repete de ano para ano.
São todos os movimentos periódicos de período igual ou inferior a um ano.
Exemplo 10.0.2 Sazonalidade de casamentos[1] (índices)
Paróquias
Mês Sul do Pico Transmontanas Guimarães
Jan 122 126 117
Fev 164 172 160
Mar 29 91 64
Abr 52 111 118
Mai 140 131 127
Jun 105 98 111
Jul 73 64 64
Ago 69 68 76
Set 93 83 78
Out 154 75 96
Nov 161 78 110
Dez 39 104 94
Deste exemplo é visível que a marcação de casamentos, nalgumas regiões, é afectada
por:
• razões sociais: respeito pelas interdições da Quaresma, Advento
• razões económicas: fainas agrícolas, preparação das vinhas (fim de inverno), vindi-
mas, pastagens no verão.
46
CAPÍTULO 10. MOVIMENTO SAZONAL 47
10.1 Método para determinar as flutuações sazonais
10.1.1 Método das médias mensais
O termo mensal está relacionado com o facto do período sazonal ser de um ano e estar
dividido em meses. Neste caso deve-se trabalhar com médias mensais.
Se o ciclo for outro, por exemplo, o ano dividido em trimestre deve-se trabalhar com
médias trimestrais.
O método das médias mensais só deve aplicar-se a uma série quando os dados não
apresentarem tendência ou quando esta não for muito pronunciada. Existindo tendência,
esta viciará os índices. Assim, o método das médias mensais só deve ser aplicado depois
de se ter eliminado a tendência.
Se a tendência foi estimada através do ajuste de uma recta, Xt = α + βt (ver (9.1)), os
desvios em relação à tendência traduzem a série corrigida da tendência e é a partir destes
valores corrigidos que se calculam os índices sazonais.
As etapas do método são as seguintes:
1. Dispôr as observações num quadro da seguinte maneira:
mêsano 1900 1901 1902 ... Total Média Índice
Jan ...
Fev ...
Mar ...
Abr ...
Mai ...
Jun ...
Jul ...
Ago ...
Set ...
Out ...
Nov ...
Dez ...
Total ...
(este exemplo refere-se a um período dividido em meses)
2. Calcular os totais (somas) referentes aos meses e colocá-los na coluna referenciada
com Total;
3. Calcular as médias para cada mês e colocá-las na coluna referenciada por Média;
4. Calcular a média das médias (média geral) e colocá-la na última célula da coluna
”Média”;
CAPÍTULO 10. MOVIMENTO SAZONAL 48
5. Os índices sazonais são calculados como a percentagem da média de cada mês em
relação à média geral.
Nota 10.1.1 A soma dos índices é 1200.
Nota 10.1.2 O nível que traduz ausência de sazonalidade é igual a 100.
Assim, os índices são interpretados da seguinte maneira:
• Um valor menor que 100 indica que nesse mês a flutuação sazonal se traduz numa
quebra em relação ao nível ’normal’ (100);
• Um valor maior que 100 indica um aumento em relação ao nível normal.
Nota 10.1.3 Também existe o método das médias móveis para estudar a sazonalidade [2].
Parte III
Estatística demográfica
49
Capítulo 11
Estruturas populacionais
Iremos estudar alguns dos aspectos globais da população através do seu volume, ritmo de
crescimento e densidade.
11.1 Taxas de crescimento
Quando temos, ao longo do tempo, informação variada sobre o volume de uma população
queremos numa primeira análise calcular o ritmo de crescimento. O valor do ritmo de
crescimento deve corresponder a um resultado anual médio para ser possível fazer compa-
rações em períodos de amplitudes diferentes. O ritmo de crescimento de uma população
pode ser
i) Contínuo:
com
Pn = P0ean
(11.1)
onde:
e = 2.718282 (exponencial)
Pn =população num momento n
P0 =população num momento 0
a =taxa de crescimento.
Aplicando logaritmos neperianos (ln) a (11.1) temos
ln Pn = ln P0 + ln ean
ln Pn − ln P0 = an
ln
Pn
P0
= an
50
CAPÍTULO 11. ESTRUTURAS POPULACIONAIS 51
e
a =
ln Pn
P0
n
(11.2)
onde a corresponde à taxa de crescimento contínuo.
ii) Aritmético:
com
Pn = P0(1 + an)
ou seja
Pn = P0 + P0an
Pn − P0 = P0an
e
a =
Pn − P0
P0n
(11.3)
onde a corresponde à taxa de crescimento aritmético.
iii) Geométrico:
com
Pn = P0(1 + a)n
(11.4)
ou seja
Pn
P0
= (1 + a)n
(11.5)
e aplicando logaritmo na base 10 a (11.5) temos
log
Pn
P0
= n log(1 + a)
log(1 + a) =
log Pn
P0
n
,
ou seja
1 + a = 10
log
Pn
P0
n
e
a = 10
log Pn
P0
n − 1 (11.6)
onde a corresponde à taxa de crescimento geométrico.
Exemplo 11.1.1 Se em 1821 a população de uma região era de 3276203 habitantes, e se
a taxa de crescimento, a, é de 0.25%, qual a população ao fim de 5, 25 e 100 anos?
CAPÍTULO 11. ESTRUTURAS POPULACIONAIS 52
i) Se for crescimento contínuo
P5 = 3276203e0.0025×5
= 3317412
P25 = 3276203e0.0025×25
= 3487500
P100 = 3276203e0.0025×100
= 4206728
ii) Se for crescimento aritmético
P5 = 3276203(1 + 0.0025 × 5) = 3317156
P25 = 3276203(1 + 0.0025 × 25) = 3480966
P100 = 3276203(1 + 0.0025 × 100) = 4095254
iii) Se for crescimento geométrico
P5 = 3276203(1 + 0.0025)5
= 3317361
P25 = 3276203(1 + 0.0025)25
= 3487228
P100 = 3276203(1 + 0.0025)100
= 4205416
(ver figura 11.1)
Exemplo 11.1.2 Análise prospectiva:
Se a taxa de crescimento geométrico for a = 0.0021 (0.21%), ao fim de quantos anos
(n?) duplicará a população?
Crescimento geométrico:
Pn = P0(1 + a)n
2P0 = P0(1 + a)n
2P0
P0
= (1 + a)n
2 = (1 + a)n
.
Aplicando logaritmos,
log 2 = n log(1 + a)
0.30103 = n log(1.0021)
0.30103 = n × 0.0009111
n =
0.30103
0.0009111
e
n = 330, 4...
R: ao fim de 330 anos
CAPÍTULO 11. ESTRUTURAS POPULACIONAIS 53
3276000
3376000
3476000
3576000
3676000
3776000
3876000
3976000
4076000
4176000
5 25 100
a no
população
contínuo aritmético geom étrico
Figura 11.1: Variações da população
CAPÍTULO 11. ESTRUTURAS POPULACIONAIS 54
Exemplo 11.1.3 Análise regressiva:
A população em 1821 era de 3276203 habitantes. Se admitirmos que o ritmo de cres-
cimento na primeira metade do sec XIX era de 0.0021 (a = 0.21%) qual teria sido a
população em 1801?
Sabe-se que em 1821, n = 20, Pn = P20 = 3276203. Considerando 1801 como o ano 0,
queremos saber P0 (com crescimento geométrico).
Pn = P0(1 + a)n
3276203 = P0(1 + 0.0021)20
3276203
P0
= (1 + 0.0021)20
.
Aplicando logaritmos,
log
3276203
P0
= 20 log(1.0021)
log
3276203
P0
= 0.01822.
Aplicando agora a função inversa, potência de 10,
3276203
P0
= 100.01822
3276203
P0
= 1.04285
e
P0 =
3276203
1.04285
= 3141586.
11.2 Cálculo das densidades populacionais
Para calcular a densidade populacional de uma certa região usa-se:
dens. pop.=
Total de habitantes existentes nessa região
superficie (em km2) dessa região
Exemplo 11.2.1 Se a superfície de um lugar é de 9 milhares de km2
e a população desse
lugar é de 414 milhares de habitantes, a densidade populacional é:
dens. pop. =
414 milhares de habitantes
9 milhares por km2
= 46 habitantes por km2
CAPÍTULO 11. ESTRUTURAS POPULACIONAIS 55
11.3 Estruturas demográficas
A análise de alguns aspectos globais da população também compreende o conhecimento
das estruturas demográficas.
Uma estrutura demográfica consiste na subdivisão da população em grupos homo-
géneos a partir de determinadas características.
Existem diversos tipos de estruturas: por sexos e idades, por estado civil, por actividade
económica, por níveis de instrução, ...
Exemplo 11.3.1 Analisemos a repartição por sexos e idades:
a) a repartição por sexos justifica-se pelo facto das populações masculina e feminina
desempenharem funções diferentes na sociedade, com incidências demográficas devido
a um complexo de factores biológicos, sociais e culturais.
b) a repartição por idades justifica-se pela necessidade:
• de se analisar os efeitos específicos de cada idade (com o aumento da idade os
comportamentos e as capacidades vão-se modificando)1
;
• de se comparar determinados aspectos das fases da vida (início da socialização,
instrução primária, primeiro casamento,...) em pessoas com diferentes idades2
.
11.3.1 Pirâmides de idades
A pirâmide de idades é uma representação gráfica da distribuição de uma população por
sexos e idades, que permite ter uma visão de conjunto das estruturas de idades de uma
população.
• As idades são representadas num eixo vertical. Os efectivos (população existente) são
representados em dois semi-eixos horizontais; o da esquerda é reservado aos efectivos
masculinos; o da direita aos femininos.
As figuras 11.2 e 11.3 apresentam dois exemplos de pirâmides de idades.
• Podemos construir pirâmides por idades e por grupos de idades.
• Representando os efectivos em números absolutos, a população em cada idade (ou
grupo de idades) é representada por rectângulos, cuja área é proporcional ao efectivo
(a ’largura’ é constante e o ’comprimento’ é proporcional ao efectivo ou volume da
população (número de habitantes)).
1
Efeito idade
2
Efeito geração
CAPÍTULO 11. ESTRUTURAS POPULACIONAIS 56
Figura 11.2: Exemplo de pirâmide de idade [1]
CAPÍTULO 11. ESTRUTURAS POPULACIONAIS 57
Figura 11.3: Exemplo de pirâmide de idade [1]
CAPÍTULO 11. ESTRUTURAS POPULACIONAIS 58
• A escala utilizada deve ser tal que a pirâmide terá uma altura igual (≈) a 2
3
da largura
total.
• Podem aparecer vários tipos de pirâmides, embora a mais vulgar seja a ’triangular’.
Assim, existem as pirâmides com forma de
1. acento circunflexo que é típica dos países não desenvolvidos com mortalidade e
natalidade muito elevadas e caracteriza-se por ter uma base larga e topo muito
reduzido;
2. urna que é típica dos países desenvolvidos com baixos níveis de mortalidade e
natalidade e tem uma base muito reduzida e um topo bastante empolado;
3. ás de espadas, típica dos países desenvolvidos com aumento de fecundidade num
certo período de tempo.
• Quando trabalhamos com grupos de idades, a largura do rectângulo é proporcional
ao número de anos existentes em cada grupo. Se os grupos forem quinquerais (muito
vulgar) basta fixar uma largura, que será constante.
O comprimento é proporcional ao total dos efectivos das diversas idades (que com-
põem o grupo) dividido pelo número de anos do grupo (quinquenal→5).
• Se interessar fazer comparações no tempo ou no espaço, é mais conveniente represen-
tar os efectivos relativos. A comparação passa a ser feita em termos de percentagens
entre os diferentes grupos de idades.
11.3.2 Grupos funcionais
Quando temos que comparar muitas estruturas populacionais, ao longo do tempo, para
verificar a sua evolução, ou comparar estruturas de um número vasto de localidades, surgem
vulgarmente muitos gráficos a partir dos quais é difícil tirar conclusões. Para uma visão
mais rápida da evolução ou da diversidade de estruturas é mais conveniente compactar
a informação disponível, de acordo com determinados critérios. O mais importante é a
idade. É possível concentrar a análise num número reduzido de subgrupos, chamados
grupos funcionais.
Por exemplo, dividir a população em três grandes grupos: 0-14 anos que define a
população jovem, 15-64 anos que define a população activa e 65 e +anos que define a
população velha. Uma outra divisão consiste nos seguintes grupos: 0-19, 20-59 e 60 e +
anos.
É possível ainda pegar num destes grupos e dividi-lo. Por exemplo, o grupo 20-59 pode
dividir-se em 20-39, população activa jovem, e 40-59, população activa velha.
Se o critério para a definição de grupos funcionais for o da escolaridade, teríamos os
seguintes grupos: 0-5 (população em idade pré-escolar), 5-18 (população em idade escolar)
e 18-24 (população em idade universitária).
CAPÍTULO 11. ESTRUTURAS POPULACIONAIS 59
Definidos os grupos funcionais deve proceder-se à manipulação dos dados, transformando-
os em índices-resumos que se constroem a partir dos grupos funcionais.
Os índices-resumos mais importantes são:
• percentagem de jovens
população com 0-14 (ou 0-19) anos
população total
× 100%
• percentagem de activos
população com 15-64 (ou 20-59) anos
população total
× 100%
• percentagem de velhos
população com 65 e + (ou 60 e +) anos
população total
× 100%
• índice de vitalidade (’racio’ entre velhos e jovens)
população com 65 e + anos
população com 0-14
× 100%
• ’racio’ de dependência dos jovens
população com 0-14
população com 15-64
× 100%
• ’racio’ de dependência dos velhos
população com 65 e + anos
população com 15-64
× 100%
• ’racio’ de dependência total
população com 0-14 e 65 e + anos
população com 15-64
× 100%
Capítulo 12
Qualidade dos dados
12.1 Relação de masculinidade
As pirâmides de idades nunca são simétricas pois nascem mais rapazes do que raparigas.
Por cada 100 raparigas nascem 105 rapazes. No entanto a mortalidade (factor fundamental
na análise da redução dos diversos efectivos) é mais intensa nos homens do que nas mu-
lheres. Factores como as migrações, guerras, ... podem modificar ainda mais a assimetria
’natural’.
A relação de masculinidade é dada pelo quociente, para cada idade (ou grupo de
idades),
efectivos masculinos
efectivos femininos
× 100.
Como a relação de masculinidade dos nascimentos ronda os 105, a relação de masculi-
nidade do primeiro grupo de idades é muito próxima de 105.
À medida que se avança na idade, devido ao facto de que a mortalidade masculina é
superior à mortalidade feminina, as relações de masculinidade diminuem. É o efeito idade.
O índice, relação de masculinidade dos nascimentos, é frequentemente utilizado para
apreciar a qualidade do registo de nascimentos, por sexos. Normalmente existem
omissões mais acentuadas num sexo do que noutro.
Quando o número de nascimentos não é suficientemente grande, alguns desvios podem
ser consequência directa de flutuações aleatórias mesmo estando em presença de observa-
ções perfeitas. No entanto, é possível calcular um intervalo de variação deste erro, em
função do número de nascimentos observados:
1. Para uma relação de masculinidade de 105, em 1000 nascimentos teríamos 512 mas-
culinos e 488 femininos. A proporção de rapazes é de 0.512 = 512
1000
. A proporção de
raparigas é então de 0.488.
2. Os limites do intervalo de confiança a 95% (0.95 de probabilidade de conter o valor)
para a proporção são
60
CAPÍTULO 12. QUALIDADE DOS DADOS 61



0.512 − 1.96
0.512 × 0.488
n
i
,
0.512 + 1.96
0.512 × 0.488
n
s



em que n representa o número total de nascimentos.
3. Os limites de confiança da relação de masculinidade são
i
1 − i
× 100,
s
1 − s
× 100
em que i e s são respectivamente os limites inferior e superior do intervalo do passo
anterior.
4. Se o valor da relação de masculinidade observado está fora do intervalo (do passo
anterior) é de admitir uma má qualidade no registo dos nascimentos. Se for superior
existe provavelmente um sobre-registo dos nascimentos masculinos (menos provável)
ou um sub-registo dos femininos (mais provável).
12.2 Índice de Whipple
O método baseado no cálculo da relação de masculinidade dos nascimentos e, quando o
número de nascimentos é pequeno, do intervalo de variação (limites de confiança da relação
de masculinidade) serve para analisar a qualidade dos dados das estatísticas demográficas.
O método baseado no índice de Whipple serve para analisar determinado tipo de
distorção existente nos recenseamentos.
O tipo de distorção referida é a atracção pelos números (idades) terminados em 0 e 5.
Sabe-se que em demografia e em países não desenvolvidos e há muitos anos atrás as
pessoas tinham dificuldade em declarar com exactidão a sua idade. Por exemplo, pessoas
com 48, 49, 51 e 52 anos de idade tinham a tendência em declarar que tinham 50 anos.
Esta idade aparecia com muitos registos e os valores adjacentes tinham poucos efectivos.
O índice de Whipple constrói-se da seguinte maneira:
1. calcula-se o número de pessoas entre 23 e 62 anos (inclusivé);
2. calcula-se o número de pessoas que, no intervalo de idades de 23 a 62 anos, têm
idades registadas que terminam em 0 e 5;
3. calcula-se o índice
IW =
no
de pessoas na alínea 2 × 5
no
de pessoas na alínea 1
× 100.
CAPÍTULO 12. QUALIDADE DOS DADOS 62
O IW pode variar entre 100 (ausência de concentração) e 500 (caso limite em que todas
as pessoas declaram idades terminadas em 0 e 5)
Para facilitar a análise usa-se a escala de valores do anuário demográfico das Nações
Unidas de 1963. Assim
se pode concluir-se que
IW < 105 dados muito exactos
105 ≤ IW < 110 dados relativamente exactos
110 ≤ IW < 125 dados aproximados
125 ≤ IW ≤ 175 dados grosseiros
IW > 175 dados muito grosseiros
12.3 Índice de irregularidade
Este índice serve para medir qualquer tipo de atracção, por exemplo, pelos números pares
e impares, pelo número 0, pelo número 5, pelos números terminados em 1,2,3, ...
O índice de irregularidade constrói-se da seguinte forma:
1. calcula-se o número de pessoas com a idade cuja atracção se pretende medir;
2. calcula-se a média aritmética do número de pessoas com as 5 idades que enquadram
a idade que se pretende analisar;
3. calcula-se o índice
II =
no
de pessoas da alínea 1
no
de pessoas da alínea 2
× 100
Quanto mais o II se afasta de 100 mais demonstra a força da atracção.
12.4 Índice combinado das Nações Unidas
Este índice serve para medir a qualidade global de um recenseamento.
Este índice combina três indicadores:



indicador de regularidade das idades das pessoas do sexo masculino
indicador de regularidade das idades das pessoas do sexo feminino
indicador de masculinidade
O índice combinado das Nações Unidas calcula-se da seguinte maneira:
1. calcula-se o índice de regularidade dos sexos (i.r.s.) da seguinte forma:
CAPÍTULO 12. QUALIDADE DOS DADOS 63
i.r.s. = média aritmética das diferenças, em valor absoluto, entre as
relações de masculinidade dos grupos sucessivos
2. calcula-se o índice de regularidade das idades do sexo masculino
(i.r.i.(M)) e do sexo feminino (i.r.i.(F)) da seguinte maneira:
i.r.i.(M) = média aritmética das diferenças, em valor absoluto,
entre as relações de regularidade (r.r.) e o 100
com
r.r.=
efectivos do grupo
média aritmética dos efectivos dos 2 grupos adjacentes
× 100
(com fórmulas idênticas para o i.r.i.(F))
3. calcula-se o índice
ICNU=3 × (i.r.s.)+i.r.i.(M)+i.r.i(F)
Para faciliar a interpretação existe uma grelha (das Nações Unidas) classificativa:
se pode concluir-se que
ICNU < 20 a validade do recenseamento é boa
20 ≤ ICNU < 40 a qualidade é má
ICNU ≥ 40 a qualidade é muito má
12.5 A equação da concordância
A equação da concordância tem como objectivo verificar se existe ou não uma con-
cordância entre os diversos dados disponíveis. Estes dados estão relacionados com os dois
tipos de movimentos:
natural
migratório
que se verificam num determinado período de tempo.
Considerem-se dois instantes x e x + n (n anos após o instante x), i.e., dois períodos
com n anos de diferença.
Se conhecermos a população nos dois instantes:
CAPÍTULO 12. QUALIDADE DOS DADOS 64
Px ← população no momento x
Px+n ← população no momento x + n
e se
N é o número de nascimentos verificados naquele período,
O, o número de óbitos ocorridos naquele período,
E, o número de emigrantes naquele período,
e I, o número de imigrantes no mesmo período,
então a equação da concordância (se todos os elementos nela intervenientes tiverem sido
correctamente apurados) é:
Px+n = Px + N − O + I − E
em que N − O representa o crescimento natural e I − E representa o crescimento
migratório.
A Px + N − O + I − E chama-se população esperada.
Quando a população esperada não coincide com a população recenseada, Px+n, deve-se
tentar explicar essa diferença. Três hipóteses podem ser formuladas:
1. as parcelas N e I (+) estão subavaliadas;
2. as parcelas O e E (-) estão sobreavaliadas;
3. os recenseamentos não são de boa qualidade.
Face à realidade do país em estudo (na época em estudo) assim se podem tirar as
conclusões mais acertadas.
Algumas recomendações:
1. Face à diferença observada entre população esperada e população recenseada ter em
atenção o sinal dessa diferença;
2. Verificar a qualidade dos dados pelos índices de irregularidade e Whipple e ICNU e
pela relação de masculinidade dos nascimentos. Se a qualidade for boa, afasta-se a
hipótese de recenseamento de má qualidade.
3. Resta uma análise dos movimentos migratórios;
4. Resta ainda uma análise dos registos de nascimento e dos óbitos.
Nos registos de nascimento, a relação de masculinidade dos nascimentos ajuda a
concluir sobre o subregisto (ou sobreregisto).
5. Notar que é mais frequente um subregisto do que um sobreregisto.
Capítulo 13
Análise da mortalidade
O estudo da mortalidade, enquanto fenómeno social, gira em torno das três vertentes:
1. caracterização do declínio observado na época em estudo;
2. estudo dos factores responsáveis por esse declínio;
3. estudo das diferenças observadas entre determinados grupos (mortalidade diferencial)
13.1 Taxa bruta de mortalidade
A taxa bruta enquanto medida elementar de análise da mortalidade geral é dada por
t.b.m.=
total de óbitos num período
população média existente nesse período
× 1000
t.b.m. significa taxa bruta de mortalidade.
A taxa bruta de mortalidade pode ser calculada como resultante da interacção entre o
modelo do fenómeno e a estrutura por idades.
A t.b.m. é a soma dos produtos das estruturas relativas em cada idade (ou grupo de
idades) pelas taxas nessas idades (ou grupo de idades):
x=0
Pxtx
em que Px representa a estrutura relativa em cada grupo de idades (proporção) e é igual a
população do grupo de idades
população total
e tx é a taxa de mortalidade do grupo que é igual a
total de óbitos no grupo
população no grupo
× 1000.
Ao conjunto de taxas por idades (ou grupo de idades) chama-se modelo do fenómeno.
65
CAPÍTULO 13. ANÁLISE DA MORTALIDADE 66
Exemplo 13.1.1 [3] Completar e
Grupos de idades total de óbitos população tx × 1000 Px Pxtx
1 1848 46514 39,73 0,0326 1,30
1-4 1087 184916 5,88 0,1295 0,76
5-9 318 215461 1,48 0,1509 0,22
10-14 171 173563 0,99 0,1215 0,12
15-19 198 145227 1,36 0,1017 0,14
20-24 197 125339 1,57 0,0878 0,14
25-29 185 101699
30-34 182 82518
35-39 200 73395
40-44 247 60945
45-49 251 53330
50-54 346 46561
55-59 398 37816
60-64 483 27889
65-69 502 20397
70+ 2463 32502
Total 9076 1428082 1,0000 6,37
• calcular a taxa bruta de mortalidade (geral);
• calcular a taxa bruta de mortalidade como resultante da interacção entre modelo e
estrutura.
Por este processo ficam visíveis os factores intervenientes - o modelo e as estruturas.
Quando surgem diferenças nos valores da t.b.m., elas podem vir dos tx (modelos) ou
dos Px (estruturas) e têm significados diferentes:
• Variações entre modelos (tx) significam a existência de diferentes riscos de mortali-
dade (diferenças nas condições gerais de saúde e higiene);
• Variações entre estruturas (Px; maior ou menor envelhecimento) são alheias ao fenó-
meno em análise.
As taxas brutas são muito sensíveis aos efeitos da estrutura. Basta as proporções da
população serem diferentes nos grupos em que a mortalidade é mais intensa para termos
importantes efeitos de estrutura que nos impossibilitam a comparação entre países, regiões
ou épocas.
A validade de uma análise feita através das taxas brutas é tanto menor quanto mais di-
versificadas forem as estruturas das regiões ou épocas que se querem comparar. A validade
aumenta com a homogeneização das estruturas populacionais.
CAPÍTULO 13. ANÁLISE DA MORTALIDADE 67
13.2 Tipos particulares de mortalidade
1. A taxa de mortalidade por idades e por grupos de idades é dada por
total de óbitos entre as idades exactas
população média existente entre essas idades
× 1000
2. A taxa de mortalidade infantil (t.m.i) calcula-se da seguinte maneira:
total de óbitos entre 0 e 1 anos exactos
população média existente entre 0 e 1 anos exactos
× 1000
Exemplo 13.2.1 Se numa região houve 11751 nascimentos em 1961, 11730 em
1962, 385 óbitos com menos de 1 ano de vida em 1962, então a t.m.i. em 1962 é:
t.m.i. =
385
11740.5
× 1000 = 32.8 por mil
3. A taxa de mortalidade infantil clássica (t.m.i.c.) é dada por
total de óbitos com menos de 1 ano
total de nascimentos nesse ano
× 1000.
Tradicionalmente esta medida da taxa de mortalidade infantil relacionava o número
de óbitos com menos de um ano e o efectivo dos nascimentos nesse ano (noção de
quociente - proporção).
Exemplo 13.2.2 Tomando os valores do exemplo 13.2.1:
t.m.i.c.=
385
11730
× 1000 = 32.8 por mil
Esta definição não é totalmente satisfatória pois os óbitos ocorridos num ano não
resultam apenas de nascimentos desse ano. Sem informação relativa ao ano de nas-
cimento do óbito ocorrido num certo ano, podemos imputar os óbitos a uma média
ponderada dos dois efectivos de nascimentos em causa (do ano em questão e do ante-
rior). Este novo processo para calcular a mortalidade infantil chama-se método da
média ponderada (m.m.p.).
Os coeficientes de ponderação que se devem usar são os da tabela:
CAPÍTULO 13. ANÁLISE DA MORTALIDADE 68
Ponderação da mortalidade infantil
(método de Shryock e Siegel)
t.m.i.c. k k
200 0.6 0.4
150 0.67 0.33
100 0.75 0.25
50 0.8 0.2
25 0.85 0.15
15 0.95 0.05
Os coeficientes de ponderação a usar têm em conta os seis tipos de população, de
acordo com o nível de mortalidade infantil esperado e que é determinado pela taxa
de mortalidade infantil clássica. Assim
t.m.i.(m.m.p.)=
total de óbitos com menos de 1 ano
k N0 + k N1
× 1000
sendo N0 o total de nascimentos do ano anterior, N1 o total de nascimentos daquele
ano e k e k os coeficientes da tabela que correspondem à t.m.i.c. calculada.
Exemplo 13.2.3 Do exemplo 13.2.1:
t.m.i.(m.m.p.) =
385
0.15(11751) + 0.85(11730)
× 1000 = 32.8 por mil
uma vez que a t.m.i.c.=32.8 e da tabela, o valor mais próximo, corresponde à 2a
linha
a contar do fim.
4. Taxas de mortalidade endógena e exógena
As causas que originam a mortalidade infantil são endógenas e exógenas.
As endógenas são consequência de deformações congénitas, doenças hereditárias ou
traumatismos causados pelo parto. Estes óbitos ocorrem normalmente durante o
primeiro mês (menos de 28 dias).
Os óbitos exógenos estão relacionados com doenças infecciosas, alimentação e cuida-
dos hospitalares insuficientes ou acidentes. Estes óbitos ocorrem nos restantes meses
(de 28 dias até 11 meses).
Não havendo registo de óbitos por causas de morte pode usar-se um método (J.
Bourgeois-Pichat) que não exige senão o conhecimento dos óbitos por dias e idades.
Assim, para se calcular o total de óbitos exógenos, soma-se ao total de óbitos
observados no intervalo 28-365 dias, 22.8% destes (ou 25% para uma divisão de 31 a
CAPÍTULO 13. ANÁLISE DA MORTALIDADE 69
365 dias). O total de óbitos endógenos é então a diferença entre o total dos óbitos
registados e os óbitos exógenos calculados.
A taxa de mortalidade infantil clássica é igual à taxa de mortalidade endógena
(t.m.end.) mais a taxa de mortalidade exógena (t.m.exo.) sendo
t.m.end.=
total de óbitos endógenos
total de nascimentos do ano
× 1000
t.m.exo.=
total de óbitos exógenos
total de nascimentos do ano
× 1000.
13.3 Tábua de mortalidade
É possível fazer uma análise da mortalidade de uma população calculando outros índices.
O princípio da estandardização [3], que separa o impacte das estruturas do das frequências
(modelos), tem como objectivo manter o efeito das estruturas constante, calculando os
índices comparativos. Não é contudo o método mais usado.
É comum usar o princípio da translação. Com este princípio procura-se estimar a inten-
sidade e o calendário a partir das frequências calculadas em transversal. Aplica-se, assim,
o método da coorte fictícia que consiste em transpôr os fenómenos que se observam num
determinado momento do tempo, para uma coorte imaginária. No caso da mortalidade, a
intensidade mede o número médio de acontecimentos por pessoa e o calendário mede a
sua repartição no tempo. O calendário, ao ser resumido pelo índice da tendência central,
a média, dá-nos a possibilidade de conhecer a duração de vida média das pessoas.
No cômputo dos efectivos de uma população podem surgir efectivos de idade ignorada.
Havendo um número significativo de pessoas de idade ignorada, pode usar-se um critério
de repartição dessas pessoas. Calcula-se o factor (Coale e Demeny) de correcção:
população total
população total - população de idade desconhecida
e os efectivos de cada idade (ou grupo de idades) são multiplicados por este factor.
Existem tábuas de mortalidade por idades que se chamam completas, e tábuas de
mortalidade por grupos de idades, chamadas tábuas abreviadas.
Nota 13.3.1 No caso da tábua de mortalidade abreviada, as diversas funções são calcu-
ladas por grupos de idades quinquenais (n=5), excepto no primeiro grupo, que devido à
importância da mortalidade infantil, se divide em dois grupos:
• menos de 1 ano (n=1)
• 1-4 anos completos (n=4).
As diversas funções que integram uma tábua de mortalidade são:
Estatística descritiva e demográfica
Estatística descritiva e demográfica
Estatística descritiva e demográfica
Estatística descritiva e demográfica
Estatística descritiva e demográfica
Estatística descritiva e demográfica
Estatística descritiva e demográfica
Estatística descritiva e demográfica
Estatística descritiva e demográfica
Estatística descritiva e demográfica
Estatística descritiva e demográfica
Estatística descritiva e demográfica
Estatística descritiva e demográfica
Estatística descritiva e demográfica
Estatística descritiva e demográfica
Estatística descritiva e demográfica
Estatística descritiva e demográfica
Estatística descritiva e demográfica
Estatística descritiva e demográfica
Estatística descritiva e demográfica
Estatística descritiva e demográfica
Estatística descritiva e demográfica
Estatística descritiva e demográfica
Estatística descritiva e demográfica
Estatística descritiva e demográfica
Estatística descritiva e demográfica
Estatística descritiva e demográfica
Estatística descritiva e demográfica
Estatística descritiva e demográfica
Estatística descritiva e demográfica
Estatística descritiva e demográfica
Estatística descritiva e demográfica
Estatística descritiva e demográfica
Estatística descritiva e demográfica
Estatística descritiva e demográfica
Estatística descritiva e demográfica
Estatística descritiva e demográfica
Estatística descritiva e demográfica
Estatística descritiva e demográfica

Más contenido relacionado

La actualidad más candente

Estatística descritiva 3º ano. Inclui exercícios não resovidos e exemplos ao ...
Estatística descritiva 3º ano. Inclui exercícios não resovidos e exemplos ao ...Estatística descritiva 3º ano. Inclui exercícios não resovidos e exemplos ao ...
Estatística descritiva 3º ano. Inclui exercícios não resovidos e exemplos ao ...wilkerfilipel
 
Aula de exercícios compelmetares
Aula de exercícios compelmetaresAula de exercícios compelmetares
Aula de exercícios compelmetaresNilo Sampaio
 
Estatística Descritiva - parte 1 (ISMT)
Estatística Descritiva - parte 1 (ISMT)Estatística Descritiva - parte 1 (ISMT)
Estatística Descritiva - parte 1 (ISMT)João Leal
 
Apostila5 ine5102 quimica
Apostila5 ine5102 quimicaApostila5 ine5102 quimica
Apostila5 ine5102 quimicasmpgiacobbo
 

La actualidad más candente (7)

Estatística descritiva 3º ano. Inclui exercícios não resovidos e exemplos ao ...
Estatística descritiva 3º ano. Inclui exercícios não resovidos e exemplos ao ...Estatística descritiva 3º ano. Inclui exercícios não resovidos e exemplos ao ...
Estatística descritiva 3º ano. Inclui exercícios não resovidos e exemplos ao ...
 
Aula 2 resumo de dados
Aula 2   resumo de dadosAula 2   resumo de dados
Aula 2 resumo de dados
 
Aula de exercícios compelmetares
Aula de exercícios compelmetaresAula de exercícios compelmetares
Aula de exercícios compelmetares
 
Econometria
EconometriaEconometria
Econometria
 
Estatística Descritiva - parte 1 (ISMT)
Estatística Descritiva - parte 1 (ISMT)Estatística Descritiva - parte 1 (ISMT)
Estatística Descritiva - parte 1 (ISMT)
 
Apostila5 ine5102 quimica
Apostila5 ine5102 quimicaApostila5 ine5102 quimica
Apostila5 ine5102 quimica
 
Apostila de estat_stica
Apostila de estat_sticaApostila de estat_stica
Apostila de estat_stica
 

Similar a Estatística descritiva e demográfica

Apostila estatistica
Apostila estatisticaApostila estatistica
Apostila estatisticaairton borin
 
Estatistica basica unidade i
Estatistica basica unidade iEstatistica basica unidade i
Estatistica basica unidade iNay Ton
 
Estatistica aplicada exercicios resolvidos manual tecnico formando
Estatistica aplicada exercicios resolvidos manual tecnico formandoEstatistica aplicada exercicios resolvidos manual tecnico formando
Estatistica aplicada exercicios resolvidos manual tecnico formandoAntonio Mankumbani Chora
 
dokumen.tips_estatistica-aplicada-exercicios-resolvidos-manual-tecnico-forman...
dokumen.tips_estatistica-aplicada-exercicios-resolvidos-manual-tecnico-forman...dokumen.tips_estatistica-aplicada-exercicios-resolvidos-manual-tecnico-forman...
dokumen.tips_estatistica-aplicada-exercicios-resolvidos-manual-tecnico-forman...RaquelSilva604657
 
Conceitos estatistica
Conceitos estatisticaConceitos estatistica
Conceitos estatisticaJuliana Ardel
 
Intro infestat
Intro infestatIntro infestat
Intro infestatamfsousa79
 
Noções de Econometria. Tutorial com aplicação do software Gretl
Noções de Econometria. Tutorial com aplicação do software GretlNoções de Econometria. Tutorial com aplicação do software Gretl
Noções de Econometria. Tutorial com aplicação do software GretlCarlos Antonio Soares de Andrade
 
Apostila estatistica descritiva ii
Apostila estatistica descritiva iiApostila estatistica descritiva ii
Apostila estatistica descritiva iisimuladocontabil
 
modulo_principios_epidemiologia_3.pdf
modulo_principios_epidemiologia_3.pdfmodulo_principios_epidemiologia_3.pdf
modulo_principios_epidemiologia_3.pdffernando738866
 
[Enfermagem] manual procedimentos_enfermagem_-_guia_de_bolso2
[Enfermagem] manual procedimentos_enfermagem_-_guia_de_bolso2[Enfermagem] manual procedimentos_enfermagem_-_guia_de_bolso2
[Enfermagem] manual procedimentos_enfermagem_-_guia_de_bolso2Jairon Jackson
 
Capítulo ii estatística iniciais
Capítulo ii   estatística  iniciaisCapítulo ii   estatística  iniciais
Capítulo ii estatística iniciaiscon_seguir
 
Estimação do parâmetro de perfusão sanguínea em tumores por meio de um algori...
Estimação do parâmetro de perfusão sanguínea em tumores por meio de um algori...Estimação do parâmetro de perfusão sanguínea em tumores por meio de um algori...
Estimação do parâmetro de perfusão sanguínea em tumores por meio de um algori...Ana Roberta Melo
 
Apost estatistica
Apost estatistica Apost estatistica
Apost estatistica takeshikasuo
 
Estevão Zeco (Monografia)- Regressão de Poisson e SIG
Estevão Zeco (Monografia)- Regressão de Poisson e SIGEstevão Zeco (Monografia)- Regressão de Poisson e SIG
Estevão Zeco (Monografia)- Regressão de Poisson e SIGEstevoZeco
 
Livro analise de dados amostrais complexos
Livro analise de dados amostrais complexosLivro analise de dados amostrais complexos
Livro analise de dados amostrais complexosDiogo Freire
 

Similar a Estatística descritiva e demográfica (20)

Apostila estatistica
Apostila estatisticaApostila estatistica
Apostila estatistica
 
Estatistica basica unidade i
Estatistica basica unidade iEstatistica basica unidade i
Estatistica basica unidade i
 
Livro probabilidade estatistica_2a_ed[1]
Livro probabilidade estatistica_2a_ed[1]Livro probabilidade estatistica_2a_ed[1]
Livro probabilidade estatistica_2a_ed[1]
 
Estatistica exercicios resolvidos
Estatistica exercicios resolvidosEstatistica exercicios resolvidos
Estatistica exercicios resolvidos
 
Estatistica aplicada exercicios resolvidos manual tecnico formando
Estatistica aplicada exercicios resolvidos manual tecnico formandoEstatistica aplicada exercicios resolvidos manual tecnico formando
Estatistica aplicada exercicios resolvidos manual tecnico formando
 
dokumen.tips_estatistica-aplicada-exercicios-resolvidos-manual-tecnico-forman...
dokumen.tips_estatistica-aplicada-exercicios-resolvidos-manual-tecnico-forman...dokumen.tips_estatistica-aplicada-exercicios-resolvidos-manual-tecnico-forman...
dokumen.tips_estatistica-aplicada-exercicios-resolvidos-manual-tecnico-forman...
 
Conceitos estatistica
Conceitos estatisticaConceitos estatistica
Conceitos estatistica
 
Intro infestat
Intro infestatIntro infestat
Intro infestat
 
Noções de Econometria. Tutorial com aplicação do software Gretl
Noções de Econometria. Tutorial com aplicação do software GretlNoções de Econometria. Tutorial com aplicação do software Gretl
Noções de Econometria. Tutorial com aplicação do software Gretl
 
Apostila estatistica descritiva ii
Apostila estatistica descritiva iiApostila estatistica descritiva ii
Apostila estatistica descritiva ii
 
modulo_principios_epidemiologia_3.pdf
modulo_principios_epidemiologia_3.pdfmodulo_principios_epidemiologia_3.pdf
modulo_principios_epidemiologia_3.pdf
 
Ou estatistica
Ou estatisticaOu estatistica
Ou estatistica
 
Monografia Joaquim Matemática 2008
Monografia Joaquim Matemática 2008Monografia Joaquim Matemática 2008
Monografia Joaquim Matemática 2008
 
[Enfermagem] manual procedimentos_enfermagem_-_guia_de_bolso2
[Enfermagem] manual procedimentos_enfermagem_-_guia_de_bolso2[Enfermagem] manual procedimentos_enfermagem_-_guia_de_bolso2
[Enfermagem] manual procedimentos_enfermagem_-_guia_de_bolso2
 
Capítulo ii estatística iniciais
Capítulo ii   estatística  iniciaisCapítulo ii   estatística  iniciais
Capítulo ii estatística iniciais
 
Estimação do parâmetro de perfusão sanguínea em tumores por meio de um algori...
Estimação do parâmetro de perfusão sanguínea em tumores por meio de um algori...Estimação do parâmetro de perfusão sanguínea em tumores por meio de um algori...
Estimação do parâmetro de perfusão sanguínea em tumores por meio de um algori...
 
Estatistica
EstatisticaEstatistica
Estatistica
 
Apost estatistica
Apost estatistica Apost estatistica
Apost estatistica
 
Estevão Zeco (Monografia)- Regressão de Poisson e SIG
Estevão Zeco (Monografia)- Regressão de Poisson e SIGEstevão Zeco (Monografia)- Regressão de Poisson e SIG
Estevão Zeco (Monografia)- Regressão de Poisson e SIG
 
Livro analise de dados amostrais complexos
Livro analise de dados amostrais complexosLivro analise de dados amostrais complexos
Livro analise de dados amostrais complexos
 

Más de Universidade Federal Fluminense

Associating technical methodologies of “multi scenario” risk analysis to supo...
Associating technical methodologies of “multi scenario” risk analysis to supo...Associating technical methodologies of “multi scenario” risk analysis to supo...
Associating technical methodologies of “multi scenario” risk analysis to supo...Universidade Federal Fluminense
 
Precificação de riscos segurados e constituição de reservas técnicas legais ...
Precificação de riscos segurados e constituição de reservas técnicas legais  ...Precificação de riscos segurados e constituição de reservas técnicas legais  ...
Precificação de riscos segurados e constituição de reservas técnicas legais ...Universidade Federal Fluminense
 
A evolução do mercado de seguros no Brasil e no Mundo: Estudo Cronológico
A evolução do mercado de seguros no Brasil e no Mundo: Estudo CronológicoA evolução do mercado de seguros no Brasil e no Mundo: Estudo Cronológico
A evolução do mercado de seguros no Brasil e no Mundo: Estudo CronológicoUniversidade Federal Fluminense
 
Precificação de riscos segurados e constituição de reservas técnicas legais ...
Precificação de riscos segurados e constituição de reservas técnicas legais  ...Precificação de riscos segurados e constituição de reservas técnicas legais  ...
Precificação de riscos segurados e constituição de reservas técnicas legais ...Universidade Federal Fluminense
 
Programas de gerenciamento de riscos - notas de aula Curso de Ciências Atuari...
Programas de gerenciamento de riscos - notas de aula Curso de Ciências Atuari...Programas de gerenciamento de riscos - notas de aula Curso de Ciências Atuari...
Programas de gerenciamento de riscos - notas de aula Curso de Ciências Atuari...Universidade Federal Fluminense
 
Os desmandos públicos em vários momentos: a atuação do tribunal de contas da...
Os desmandos públicos em vários momentos:  a atuação do tribunal de contas da...Os desmandos públicos em vários momentos:  a atuação do tribunal de contas da...
Os desmandos públicos em vários momentos: a atuação do tribunal de contas da...Universidade Federal Fluminense
 
Os desmandos públicos em vários momentos: a atuação do Tribunal de Contas da ...
Os desmandos públicos em vários momentos: a atuação do Tribunal de Contas da ...Os desmandos públicos em vários momentos: a atuação do Tribunal de Contas da ...
Os desmandos públicos em vários momentos: a atuação do Tribunal de Contas da ...Universidade Federal Fluminense
 
Obras completas de Rui Barbosa - discursos parlamentares - a falta de justiça...
Obras completas de Rui Barbosa - discursos parlamentares - a falta de justiça...Obras completas de Rui Barbosa - discursos parlamentares - a falta de justiça...
Obras completas de Rui Barbosa - discursos parlamentares - a falta de justiça...Universidade Federal Fluminense
 
Os impactos nos programas de gestão de riscos: avaliação de uma pesquisa rand...
Os impactos nos programas de gestão de riscos: avaliação de uma pesquisa rand...Os impactos nos programas de gestão de riscos: avaliação de uma pesquisa rand...
Os impactos nos programas de gestão de riscos: avaliação de uma pesquisa rand...Universidade Federal Fluminense
 
Transporte de cargas especiais e os riscos envolvidos aplicação da metodolo...
Transporte de cargas especiais e os riscos envolvidos   aplicação da metodolo...Transporte de cargas especiais e os riscos envolvidos   aplicação da metodolo...
Transporte de cargas especiais e os riscos envolvidos aplicação da metodolo...Universidade Federal Fluminense
 
Os métodos de prospecção de cenários e sua importância nas organizações apl...
Os métodos de prospecção de cenários e sua importância nas organizações   apl...Os métodos de prospecção de cenários e sua importância nas organizações   apl...
Os métodos de prospecção de cenários e sua importância nas organizações apl...Universidade Federal Fluminense
 
Cenários críticos na implantação de empreendimentos industriais
Cenários críticos na implantação de empreendimentos industriaisCenários críticos na implantação de empreendimentos industriais
Cenários críticos na implantação de empreendimentos industriaisUniversidade Federal Fluminense
 
Modelo de mensuração de riscos e vulnerabilidade social a desastres de popula...
Modelo de mensuração de riscos e vulnerabilidade social a desastres de popula...Modelo de mensuração de riscos e vulnerabilidade social a desastres de popula...
Modelo de mensuração de riscos e vulnerabilidade social a desastres de popula...Universidade Federal Fluminense
 
Cenários críticos na implantação de empreendimentos industriais
Cenários críticos na implantação de empreendimentos industriaisCenários críticos na implantação de empreendimentos industriais
Cenários críticos na implantação de empreendimentos industriaisUniversidade Federal Fluminense
 
Os métodos de prospecção de cenários e sua importância nas organizações apl...
Os métodos de prospecção de cenários e sua importância nas organizações   apl...Os métodos de prospecção de cenários e sua importância nas organizações   apl...
Os métodos de prospecção de cenários e sua importância nas organizações apl...Universidade Federal Fluminense
 

Más de Universidade Federal Fluminense (20)

Associating technical methodologies of “multi scenario” risk analysis to supo...
Associating technical methodologies of “multi scenario” risk analysis to supo...Associating technical methodologies of “multi scenario” risk analysis to supo...
Associating technical methodologies of “multi scenario” risk analysis to supo...
 
Precificação de riscos segurados e constituição de reservas técnicas legais ...
Precificação de riscos segurados e constituição de reservas técnicas legais  ...Precificação de riscos segurados e constituição de reservas técnicas legais  ...
Precificação de riscos segurados e constituição de reservas técnicas legais ...
 
A evolução do mercado de seguros no Brasil e no Mundo: Estudo Cronológico
A evolução do mercado de seguros no Brasil e no Mundo: Estudo CronológicoA evolução do mercado de seguros no Brasil e no Mundo: Estudo Cronológico
A evolução do mercado de seguros no Brasil e no Mundo: Estudo Cronológico
 
Precificação de riscos segurados e constituição de reservas técnicas legais ...
Precificação de riscos segurados e constituição de reservas técnicas legais  ...Precificação de riscos segurados e constituição de reservas técnicas legais  ...
Precificação de riscos segurados e constituição de reservas técnicas legais ...
 
Programas de gerenciamento de riscos - notas de aula Curso de Ciências Atuari...
Programas de gerenciamento de riscos - notas de aula Curso de Ciências Atuari...Programas de gerenciamento de riscos - notas de aula Curso de Ciências Atuari...
Programas de gerenciamento de riscos - notas de aula Curso de Ciências Atuari...
 
Os desmandos públicos em vários momentos: a atuação do tribunal de contas da...
Os desmandos públicos em vários momentos:  a atuação do tribunal de contas da...Os desmandos públicos em vários momentos:  a atuação do tribunal de contas da...
Os desmandos públicos em vários momentos: a atuação do tribunal de contas da...
 
Os desmandos públicos em vários momentos: a atuação do Tribunal de Contas da ...
Os desmandos públicos em vários momentos: a atuação do Tribunal de Contas da ...Os desmandos públicos em vários momentos: a atuação do Tribunal de Contas da ...
Os desmandos públicos em vários momentos: a atuação do Tribunal de Contas da ...
 
Obras completas de Rui Barbosa - discursos parlamentares - a falta de justiça...
Obras completas de Rui Barbosa - discursos parlamentares - a falta de justiça...Obras completas de Rui Barbosa - discursos parlamentares - a falta de justiça...
Obras completas de Rui Barbosa - discursos parlamentares - a falta de justiça...
 
Os impactos nos programas de gestão de riscos: avaliação de uma pesquisa rand...
Os impactos nos programas de gestão de riscos: avaliação de uma pesquisa rand...Os impactos nos programas de gestão de riscos: avaliação de uma pesquisa rand...
Os impactos nos programas de gestão de riscos: avaliação de uma pesquisa rand...
 
The five structural columns of risk analysis techniques
The five structural columns of risk analysis techniquesThe five structural columns of risk analysis techniques
The five structural columns of risk analysis techniques
 
Transporte de cargas especiais e os riscos envolvidos aplicação da metodolo...
Transporte de cargas especiais e os riscos envolvidos   aplicação da metodolo...Transporte de cargas especiais e os riscos envolvidos   aplicação da metodolo...
Transporte de cargas especiais e os riscos envolvidos aplicação da metodolo...
 
Os métodos de prospecção de cenários e sua importância nas organizações apl...
Os métodos de prospecção de cenários e sua importância nas organizações   apl...Os métodos de prospecção de cenários e sua importância nas organizações   apl...
Os métodos de prospecção de cenários e sua importância nas organizações apl...
 
Cenários críticos na implantação de empreendimentos industriais
Cenários críticos na implantação de empreendimentos industriaisCenários críticos na implantação de empreendimentos industriais
Cenários críticos na implantação de empreendimentos industriais
 
Modelo de mensuração de riscos e vulnerabilidade social a desastres de popula...
Modelo de mensuração de riscos e vulnerabilidade social a desastres de popula...Modelo de mensuração de riscos e vulnerabilidade social a desastres de popula...
Modelo de mensuração de riscos e vulnerabilidade social a desastres de popula...
 
Metodologias de mensuração de riscos
Metodologias de mensuração de riscosMetodologias de mensuração de riscos
Metodologias de mensuração de riscos
 
Estruturando uma matriz de decisão para uma obra civil
Estruturando uma matriz de decisão para uma obra civilEstruturando uma matriz de decisão para uma obra civil
Estruturando uma matriz de decisão para uma obra civil
 
Cenários críticos na implantação de empreendimentos industriais
Cenários críticos na implantação de empreendimentos industriaisCenários críticos na implantação de empreendimentos industriais
Cenários críticos na implantação de empreendimentos industriais
 
Os seguros e os riscos como compreendê-los
Os seguros e os riscos   como compreendê-losOs seguros e os riscos   como compreendê-los
Os seguros e os riscos como compreendê-los
 
Estruturando uma matriz de decisão para uma obra civil
Estruturando uma matriz de decisão para uma obra civilEstruturando uma matriz de decisão para uma obra civil
Estruturando uma matriz de decisão para uma obra civil
 
Os métodos de prospecção de cenários e sua importância nas organizações apl...
Os métodos de prospecção de cenários e sua importância nas organizações   apl...Os métodos de prospecção de cenários e sua importância nas organizações   apl...
Os métodos de prospecção de cenários e sua importância nas organizações apl...
 

Último

Música Meu Abrigo - Texto e atividade
Música   Meu   Abrigo  -   Texto e atividadeMúsica   Meu   Abrigo  -   Texto e atividade
Música Meu Abrigo - Texto e atividadeMary Alvarenga
 
2° ano_PLANO_DE_CURSO em PDF referente ao 2° ano do Ensino fundamental
2° ano_PLANO_DE_CURSO em PDF referente ao 2° ano do Ensino fundamental2° ano_PLANO_DE_CURSO em PDF referente ao 2° ano do Ensino fundamental
2° ano_PLANO_DE_CURSO em PDF referente ao 2° ano do Ensino fundamentalAntônia marta Silvestre da Silva
 
Rota das Ribeiras Camp, Projeto Nós Propomos!
Rota das Ribeiras Camp, Projeto Nós Propomos!Rota das Ribeiras Camp, Projeto Nós Propomos!
Rota das Ribeiras Camp, Projeto Nós Propomos!Ilda Bicacro
 
Análise poema país de abril (Mauel alegre)
Análise poema país de abril (Mauel alegre)Análise poema país de abril (Mauel alegre)
Análise poema país de abril (Mauel alegre)ElliotFerreira
 
INTERVENÇÃO PARÁ - Formação de Professor
INTERVENÇÃO PARÁ - Formação de ProfessorINTERVENÇÃO PARÁ - Formação de Professor
INTERVENÇÃO PARÁ - Formação de ProfessorEdvanirCosta
 
COMPETÊNCIA 2 da redação do enem prodção textual professora vanessa cavalcante
COMPETÊNCIA 2 da redação do enem prodção textual professora vanessa cavalcanteCOMPETÊNCIA 2 da redação do enem prodção textual professora vanessa cavalcante
COMPETÊNCIA 2 da redação do enem prodção textual professora vanessa cavalcanteVanessaCavalcante37
 
Slides sobre as Funções da Linguagem.pptx
Slides sobre as Funções da Linguagem.pptxSlides sobre as Funções da Linguagem.pptx
Slides sobre as Funções da Linguagem.pptxMauricioOliveira258223
 
Construção (C)erta - Nós Propomos! Sertã
Construção (C)erta - Nós Propomos! SertãConstrução (C)erta - Nós Propomos! Sertã
Construção (C)erta - Nós Propomos! SertãIlda Bicacro
 
Projeto de Extensão - ENGENHARIA DE SOFTWARE - BACHARELADO.pdf
Projeto de Extensão - ENGENHARIA DE SOFTWARE - BACHARELADO.pdfProjeto de Extensão - ENGENHARIA DE SOFTWARE - BACHARELADO.pdf
Projeto de Extensão - ENGENHARIA DE SOFTWARE - BACHARELADO.pdfHELENO FAVACHO
 
Urso Castanho, Urso Castanho, o que vês aqui?
Urso Castanho, Urso Castanho, o que vês aqui?Urso Castanho, Urso Castanho, o que vês aqui?
Urso Castanho, Urso Castanho, o que vês aqui?AnabelaGuerreiro7
 
PROJETO DE EXTENSÃO - EDUCAÇÃO FÍSICA BACHARELADO.pdf
PROJETO DE EXTENSÃO - EDUCAÇÃO FÍSICA BACHARELADO.pdfPROJETO DE EXTENSÃO - EDUCAÇÃO FÍSICA BACHARELADO.pdf
PROJETO DE EXTENSÃO - EDUCAÇÃO FÍSICA BACHARELADO.pdfHELENO FAVACHO
 
CRUZADINHA - Leitura e escrita dos números
CRUZADINHA   -   Leitura e escrita dos números CRUZADINHA   -   Leitura e escrita dos números
CRUZADINHA - Leitura e escrita dos números Mary Alvarenga
 
Considere a seguinte situação fictícia: Durante uma reunião de equipe em uma...
Considere a seguinte situação fictícia:  Durante uma reunião de equipe em uma...Considere a seguinte situação fictícia:  Durante uma reunião de equipe em uma...
Considere a seguinte situação fictícia: Durante uma reunião de equipe em uma...azulassessoria9
 
planejamento_estrategico_-_gestao_2021-2024_16015654.pdf
planejamento_estrategico_-_gestao_2021-2024_16015654.pdfplanejamento_estrategico_-_gestao_2021-2024_16015654.pdf
planejamento_estrategico_-_gestao_2021-2024_16015654.pdfmaurocesarpaesalmeid
 
5 bloco 7 ano - Ensino Relogioso- Lideres Religiosos _ Passei Direto.pdf
5 bloco 7 ano - Ensino Relogioso- Lideres Religiosos _ Passei Direto.pdf5 bloco 7 ano - Ensino Relogioso- Lideres Religiosos _ Passei Direto.pdf
5 bloco 7 ano - Ensino Relogioso- Lideres Religiosos _ Passei Direto.pdfLeloIurk1
 
A QUATRO MÃOS - MARILDA CASTANHA . pdf
A QUATRO MÃOS  -  MARILDA CASTANHA . pdfA QUATRO MÃOS  -  MARILDA CASTANHA . pdf
A QUATRO MÃOS - MARILDA CASTANHA . pdfAna Lemos
 
Atividade - Letra da música Esperando na Janela.
Atividade -  Letra da música Esperando na Janela.Atividade -  Letra da música Esperando na Janela.
Atividade - Letra da música Esperando na Janela.Mary Alvarenga
 
ENSINO RELIGIOSO 7º ANO INOVE NA ESCOLA.pdf
ENSINO RELIGIOSO 7º ANO INOVE NA ESCOLA.pdfENSINO RELIGIOSO 7º ANO INOVE NA ESCOLA.pdf
ENSINO RELIGIOSO 7º ANO INOVE NA ESCOLA.pdfLeloIurk1
 

Último (20)

Música Meu Abrigo - Texto e atividade
Música   Meu   Abrigo  -   Texto e atividadeMúsica   Meu   Abrigo  -   Texto e atividade
Música Meu Abrigo - Texto e atividade
 
2° ano_PLANO_DE_CURSO em PDF referente ao 2° ano do Ensino fundamental
2° ano_PLANO_DE_CURSO em PDF referente ao 2° ano do Ensino fundamental2° ano_PLANO_DE_CURSO em PDF referente ao 2° ano do Ensino fundamental
2° ano_PLANO_DE_CURSO em PDF referente ao 2° ano do Ensino fundamental
 
Rota das Ribeiras Camp, Projeto Nós Propomos!
Rota das Ribeiras Camp, Projeto Nós Propomos!Rota das Ribeiras Camp, Projeto Nós Propomos!
Rota das Ribeiras Camp, Projeto Nós Propomos!
 
Análise poema país de abril (Mauel alegre)
Análise poema país de abril (Mauel alegre)Análise poema país de abril (Mauel alegre)
Análise poema país de abril (Mauel alegre)
 
INTERVENÇÃO PARÁ - Formação de Professor
INTERVENÇÃO PARÁ - Formação de ProfessorINTERVENÇÃO PARÁ - Formação de Professor
INTERVENÇÃO PARÁ - Formação de Professor
 
COMPETÊNCIA 2 da redação do enem prodção textual professora vanessa cavalcante
COMPETÊNCIA 2 da redação do enem prodção textual professora vanessa cavalcanteCOMPETÊNCIA 2 da redação do enem prodção textual professora vanessa cavalcante
COMPETÊNCIA 2 da redação do enem prodção textual professora vanessa cavalcante
 
Slides sobre as Funções da Linguagem.pptx
Slides sobre as Funções da Linguagem.pptxSlides sobre as Funções da Linguagem.pptx
Slides sobre as Funções da Linguagem.pptx
 
Construção (C)erta - Nós Propomos! Sertã
Construção (C)erta - Nós Propomos! SertãConstrução (C)erta - Nós Propomos! Sertã
Construção (C)erta - Nós Propomos! Sertã
 
Projeto de Extensão - ENGENHARIA DE SOFTWARE - BACHARELADO.pdf
Projeto de Extensão - ENGENHARIA DE SOFTWARE - BACHARELADO.pdfProjeto de Extensão - ENGENHARIA DE SOFTWARE - BACHARELADO.pdf
Projeto de Extensão - ENGENHARIA DE SOFTWARE - BACHARELADO.pdf
 
Urso Castanho, Urso Castanho, o que vês aqui?
Urso Castanho, Urso Castanho, o que vês aqui?Urso Castanho, Urso Castanho, o que vês aqui?
Urso Castanho, Urso Castanho, o que vês aqui?
 
Bullying, sai pra lá
Bullying,  sai pra láBullying,  sai pra lá
Bullying, sai pra lá
 
PROJETO DE EXTENSÃO - EDUCAÇÃO FÍSICA BACHARELADO.pdf
PROJETO DE EXTENSÃO - EDUCAÇÃO FÍSICA BACHARELADO.pdfPROJETO DE EXTENSÃO - EDUCAÇÃO FÍSICA BACHARELADO.pdf
PROJETO DE EXTENSÃO - EDUCAÇÃO FÍSICA BACHARELADO.pdf
 
CINEMATICA DE LOS MATERIALES Y PARTICULA
CINEMATICA DE LOS MATERIALES Y PARTICULACINEMATICA DE LOS MATERIALES Y PARTICULA
CINEMATICA DE LOS MATERIALES Y PARTICULA
 
CRUZADINHA - Leitura e escrita dos números
CRUZADINHA   -   Leitura e escrita dos números CRUZADINHA   -   Leitura e escrita dos números
CRUZADINHA - Leitura e escrita dos números
 
Considere a seguinte situação fictícia: Durante uma reunião de equipe em uma...
Considere a seguinte situação fictícia:  Durante uma reunião de equipe em uma...Considere a seguinte situação fictícia:  Durante uma reunião de equipe em uma...
Considere a seguinte situação fictícia: Durante uma reunião de equipe em uma...
 
planejamento_estrategico_-_gestao_2021-2024_16015654.pdf
planejamento_estrategico_-_gestao_2021-2024_16015654.pdfplanejamento_estrategico_-_gestao_2021-2024_16015654.pdf
planejamento_estrategico_-_gestao_2021-2024_16015654.pdf
 
5 bloco 7 ano - Ensino Relogioso- Lideres Religiosos _ Passei Direto.pdf
5 bloco 7 ano - Ensino Relogioso- Lideres Religiosos _ Passei Direto.pdf5 bloco 7 ano - Ensino Relogioso- Lideres Religiosos _ Passei Direto.pdf
5 bloco 7 ano - Ensino Relogioso- Lideres Religiosos _ Passei Direto.pdf
 
A QUATRO MÃOS - MARILDA CASTANHA . pdf
A QUATRO MÃOS  -  MARILDA CASTANHA . pdfA QUATRO MÃOS  -  MARILDA CASTANHA . pdf
A QUATRO MÃOS - MARILDA CASTANHA . pdf
 
Atividade - Letra da música Esperando na Janela.
Atividade -  Letra da música Esperando na Janela.Atividade -  Letra da música Esperando na Janela.
Atividade - Letra da música Esperando na Janela.
 
ENSINO RELIGIOSO 7º ANO INOVE NA ESCOLA.pdf
ENSINO RELIGIOSO 7º ANO INOVE NA ESCOLA.pdfENSINO RELIGIOSO 7º ANO INOVE NA ESCOLA.pdf
ENSINO RELIGIOSO 7º ANO INOVE NA ESCOLA.pdf
 

Estatística descritiva e demográfica

  • 1. ESTATÍSTICA Edite Manuela da G.P. Fernandes Universidade do Minho, Braga, 1999
  • 2. ESTATÍSTICA Edite Manuela da G.P. Fernandes com a colaboração de A. Ismael F. Vaz na realização dos gráficos Universidade do Minho, Braga, 1999
  • 3. Título: Estatística Autor: Edite Manuela da G.P. Fernandes Composição: Texto preparado em LATEX por A. Ismael F. Vaz Impressão da capa, fotocópias e montagem: Serviços de Reprografia e Publicações da Universidade do Minho Capa: A. Ismael F. Vaz TEX é uma marca registada da American Mathematical Society. 100 exemplares em Janeiro de 1999
  • 4. Conteúdo Prefácio iv I Estatística descritiva 1 1 Introdução 2 1.1 O que é a Estatística . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.2 Aplicações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.3 População e Amostras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.4 Tipos de Estatística . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 2 Descrição numérica dos dados 6 3 Descrição gráfica dos dados 12 4 ”Estatísticas” descritivas 21 4.1 Medidas de tendência central . . . . . . . . . . . . . . . . . . . . . . . . . 21 4.2 Medidas de dispersão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 4.3 Medidas de associação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 5 Distribuição normal 31 6 Análise de Regressão 34 6.1 Regressão Linear e Simples . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 6.2 Regressão não linear . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 II Séries cronológicas 36 7 Componentes do estudo 37 7.1 Representação gráfica de uma série cronológica . . . . . . . . . . . . . . . . 37 7.2 Estudo de uma série cronológica . . . . . . . . . . . . . . . . . . . . . . . . 37 8 Decomposição 39 i
  • 5. CONTEÚDO ii 9 Estudo da tendência 40 9.1 Métodos para estudo da tendência . . . . . . . . . . . . . . . . . . . . . . . 40 9.1.1 Método das médias móveis . . . . . . . . . . . . . . . . . . . . . . . 41 9.1.2 Método analítico . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 10 Movimento sazonal 46 10.1 Método para determinar as flutuações sazonais . . . . . . . . . . . . . . . . 47 10.1.1 Método das médias mensais . . . . . . . . . . . . . . . . . . . . . . 47 III Estatística demográfica 49 11 Estruturas populacionais 50 11.1 Taxas de crescimento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 11.2 Cálculo das densidades populacionais . . . . . . . . . . . . . . . . . . . . . 54 11.3 Estruturas demográficas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 11.3.1 Pirâmides de idades . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 11.3.2 Grupos funcionais . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 12 Qualidade dos dados 60 12.1 Relação de masculinidade . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 12.2 Índice de Whipple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 12.3 Índice de irregularidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 12.4 Índice combinado das Nações Unidas . . . . . . . . . . . . . . . . . . . . . 62 12.5 A equação da concordância . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 13 Análise da mortalidade 65 13.1 Taxa bruta de mortalidade . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 13.2 Tipos particulares de mortalidade . . . . . . . . . . . . . . . . . . . . . . . 67 13.3 Tábua de mortalidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 14 Análise da natalidade e da fecundidade 74 15 Análise da nupcialidade 79 15.1 Taxas de nupcialidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79 15.2 Tábua de nupcialidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 16 Análise dos movimentos migratórios 85 16.1 Métodos directos de análise . . . . . . . . . . . . . . . . . . . . . . . . . . 85 16.2 Métodos indirectos de análise . . . . . . . . . . . . . . . . . . . . . . . . . 86
  • 6. CONTEÚDO iii IV Exercícios 88 Tabela de números aleatórios 105
  • 7. Prefácio Este trabalho está dividido em quatro partes e tem como objectivo servir de apoio às aulas teóricas e teórico-práticas da disciplina anual de Estatística do mestrado em História das Populações. A primeira parte faz uma breve introdução à Estatística descritiva. Além de serem in- troduzidos conceitos relacionados com a descrição gráfica de dados, é também apresentado um capítulo sobre as medidas mais importantes de tendência central, de dispersão e de associação entre dados. Na segunda parte são introduzidos e estudados alguns aspectos importantes das séries cronológicas, designadamente a tendência e a sazonalidade. A terceira parte trata da Estatística demográfica. Não só são referidas medidas ele- mentares para a análise da Qualidade dos dados, como também são apresentadas taxas e outras medidas de análise das variáveis microdemográficas mais importantes, nomeada- mente a mortalidade, natalidade, fecundidade e nupcialidade. Na última parte são incluídos enunciados de trabalhos práticos de apoio às aulas teórico- práticas. Braga, Outubro de 1998 Edite Manuela da G.P. Fernandes iv
  • 9. Capítulo 1 Introdução Embora a palavra estatística ainda não existisse no ano 3 000 A.C. há indícios de que nessa altura já se faziam censos na Babilónia e no Egipto. A palavra censo deriva de "censere", que em latim significa taxar. Na era romana o imperador César Augusto ordenou que se fizesse um censo em todo o império. A palavra estatística deriva de ”status”, que em latim significa estado. Sob esta palavra os Estados têm acumulado dados relativos ao seu povo. A estatística nas mãos dos governos tem sido uma ferramenta essencial para a definição das suas políticas. 1.1 O que é a Estatística O termo estatística tem várias interpretações. Para a maioria das pessoas estatística emprega-se para designar informação em termos de números. Não usaremos o termo estatística com este significado. A estas quantidades numéricas daremos o nome de observações ou dados. O termo estatística tem ainda outros significados. A Estatística é um ramo da área da matemática aplicada com os seus próprios simbolismos, terminologia, conteúdo, teoremas e técnicas. Quando estudamos Estatística estamos a tentar conhecer e dominar as suas técnicas. Assim, podemos definir a Estatística como uma ciência matemática que agrega um conjunto de técnicas apropriadas para a recolha, a classificação, a apresentação e a interpretação de dados numéricos. Um outro significado para a palavra é o da ”estatística” que está relacionada com quantidades que forem calculadas a partir de dados amostrais. Neste caso é costume colocar a palavra entre aspas. Por exemplo, se os dados obtidos forem: 12, 12, 14, 15, 12 e 13, a quantidade 12+12+14+15+12+13 6 , conhecida por média aritmética, é uma ”estatística”. 1.2 Aplicações As aplicações das técnicas estatísticas estão já tão difundidas e a sua influência tem sido tão marcante, que a importância da Estatística é já hoje em dia reconhecida em todos os 2
  • 10. CAPÍTULO 1. INTRODUÇÃO 3 domínios da investigação científica e do desenvolvimento tecnológico. Uma das áreas onde a Estatística começou a ser aplicada mais cedo foi no planeamento e na análise de experiências realizadas na agricultura. A metodologia da Estatística tem sido muito usada na investigação realizada pelas indústrias farmacêutica e médica. As próprias instituições governamentais usam a Estatística para estudar a situação económica do País e alterar as políticas de cobrança de impostos, de assistência social, de obras públicas, etc. A teoria das probabilidades juntamente com a Estatística, isto é, a teoria da decisão estatística, é usada como um meio para a tomada de decisões importantes ao mais alto nível. Usamos as técnicas estatísticas na indústria para o controlo da qualidade dos produtos, no ’marketing’, no estudo dos efeitos da publicidade, e também em todas as áreas onde é preciso tomar decisões tendo como base informação incompleta, tal como na Biologia, Geologia, Psicologia e Sociologia. Nas políticas educacionais a Estatística é uma ferramenta muito importante para ajudar a definir pedagogias e métodos de ensino. 1.3 População e Amostras Dois dos termos mais usados em Estatística são: população e amostra. População designa um conjunto de unidades com qualquer característica comum. Por exemplo, o conjunto das idades das crianças da Escola Preparatória XXX da cidade YYY constitui uma população; o conjunto de todas as classificações obtidas, na disciplina de Matemática, pelas crianças do 5o ¯ ano de escolaridade das Escolas Preparatórias do País constitui uma população. A Estatística ocupa-se fundamentalmente das propriedades das populações susceptíveis de representação numérica. A população pode ser finita ou infinita, consoante seja finito ou infinito o número de elementos que a compõem. Para conhecer bem as propriedades da população temos de analisar todos os elementos dessa população. Contudo, nem sempre é possível analisar todos os elementos. Esta impossibilidade pode dever-se ao facto de a população ser infinita. O estudo incidirá, assim, sobre um subconjunto finito de elementos que seja representativo da população. Este subconjunto chama-se amostra. A representatividade da amostra é uma das questões mais importante relacionada com a teoria da amostragem. A amostra deve conter qualitativa e quantitativamente em pro- porção tudo o que a população possui. A amostra tem de ser também imparcial, isto é, todos os elementos da população devem ter igual oportunidade de serem escolhidos para fazerem parte da amostra. Mesmo quando a população é finita podem surgir outras razões que levem à utilização de amostras para o estudo da população. Existem razões económicas - pode tornar-se caro a observação do comportamento de um número muito grande de elementos; razões de tempo - a observação de todos os elementos pode demorar tanto tempo que quando os resultados estiverem prontos para divulgação já se encontrem desactualizados. Existem, ainda, outras razões que nos levam a preferir recolher uma amostra em vez de usar a população. Nalguns casos, as unidades que constituem a amostra para inspecção,
  • 11. CAPÍTULO 1. INTRODUÇÃO 4 são destruídas. Noutros casos, em virtude da escassez de pessoas treinadas (sem forma- ção específica) para recolher amostras, é mais seguro confiar num número reduzido de informação. Haveria uma menor ocorrência de erros humanos. Parece, assim, ser mais vantajoso recolher amostras e basear o nosso estudo na análise dessas amostras. Este processo parece ser bastante simples, no entanto, pode dar origem a enganos. A selecção de elementos da população que são mais facilmente acessíveis ao experimen- tador, origina uma amostra conveniente. Este tipo de amostra não é representativa da população e pode levar a conclusões erradas sobre as propriedades da população. Uma alternativa à amostra conveniente, que é muitas vezes parcial, é a amostra ale- atória simples. A ideia principal consiste em dar a cada elemento da população a mesma oportunidade de ser escolhido para fazer parte da amostra. Para abreviar usaremos, daqui para a frente, a.a.s. para designar amostra aleatória simples. Uma a.a.s. é obtida através de um método que dá a qualquer possível amostra de tamanho n (com n elementos) a mesma oportunidade de ser a amostra escolhida. Dos métodos existentes, o mais usado e simples para a obtenção de uma a.a.s. consiste em: • usar uma tabela de números aleatórios como a que está representada na tabela da figura 1.1. (ou um gerador de números aleatórios como têm algumas máquinas de calcular, normalmente designado pela função RND). Uma tabela de números alea- tórios é uma lista dos 10 dígitos 0, 1, 2, 3, 4, 5, 6, 7, 8 e 9 que satisfaz as seguintes propriedades: 1. Um dígito em qualquer posição da lista tem a mesma oportunidade de ser o 0, 1, 2, 3, 4, 5, 6, 7, 8 ou 9. 2. Os dígitos nas diferentes posições são independentes no sentido de que o valor de um deles não influencia o valor de qualquer outro. A tabela apresenta uma divisão dos números por grupos de 5 dígitos e tem as linhas numeradas, com o objectivo de facilitar a consulta. Para usar a tabela devemos ter em atenção o seguinte: 1. Qualquer par de dígitos da tabela tem a mesma oportunidade de ser (qualquer) um dos 100 possíveis pares 00, 01, 02, 03, ..., 97, 98, 99. 2. Qualquer trio de dígitos na tabela tem a mesma oportunidade de ser um dos 1000 possíveis trios 000, 001, 002, 003, ..., 997, 998, 999. 3. E assim por adiante, para grupos de 4 ou mais dígitos da tabela. Os grupos de 4 dígitos seriam os seguintes: 0000, 0001, 0002, ..., 0997, 0998, ..., 9997, 9998, 9999. Para a selecção de uma a.a.s. usamos o seguinte processo:
  • 12. CAPÍTULO 1. INTRODUÇÃO 5 linha 101 19223 95034 05756 28713 96409 12531 42544 82853 102 73676 47150 99400 01927 27754 42648 82425 36290 103 45467 71709 77558 00095 32863 29485 82226 90056 104 52711 38889 93074 60227 40011 85848 48767 52573 105 95592 94007 69971 91481 60779 53791 17297 59335 Figura 1.1: Parte da tabela de números aleatórios (ver Anexo) 1. enumerar os elementos da população a partir do 0 (se existirem até 10 elementos na população), do 00 ( se existirem até 100 elementos na população), do 000 (se existirem até 1000 elementos na população) ou ..., até esgotar todos os elementos; 2. seleccionar o tamanho da amostra; 3. retirar da tabela da figura 1.1, a partir de qualquer linha, grupos de 1, 2, 3 ou ... dígitos (consoante o número de elementos da população), todos seguidos. Cada grupo selecciona o elemento da população com aquele número. Nota 1.3.1 : • Sempre que aparecerem grupos de 1, 2, 3 ou ... (conforme o caso) dígitos repetidos, devemos ignorá-los. • Sempre que aparecerem grupos de 1, 2, 3 ou ... dígitos que sejam quantidades maiores ou iguais que o número de elementos da amostra, devemos ignorá-los. 1.4 Tipos de Estatística Podemos dividir a Estatística em dois grupos: a Estatística Descritiva e a Estatística Inferencial. A primeira toma indistintamente a população e a amostra com o objectivo de as des- crever. Esta descrição das observações pode ser feita gráfica ou numericamente. Será uma descrição gráfica se for feita a representação gráfica de certas quantidades calculadas a partir das observações. A descrição diz-se numérica se forem calculadas quantidades que dão informação, embora sumária, do comportamento das observações. A análise estatística feita no século passado e no príncipio deste século foi na maior parte do tipo descritivo. A Estatística tem sido definida como a ciência para a tomada de decisões baseadas em incertezas, isto é, baseadas num conjunto de informações incompletas. Para tomarmos decisões sobre a população, seleccionamos uma amostra aleatória simples retirada da po- pulação. Baseando-nos na informação obtida da amostra inferimos sobre as características da população. A Estatística Inferencial baseia-se no estudo das amostras para podermos tirar conclusões sobre a população donde retirámos essas amostras.
  • 13. Capítulo 2 Descrição numérica dos dados A ideia que muitas pessoas têm da Estatística é a de que ela está associada a tabelas enormes de números, por vezes documentadas com alguns gráficos à mistura! As tabelas repletas de informação são muitas vezes cansativas de ler, difíceis de interpretar e de se tirar conclusões e alguns gráficos mal dimensionados e legendados podem originar interpretações erradas. Mesmo assim, as tabelas são um dos meios mais usados para organizar e resumir um conjunto vasto e desordenado de dados (ou observações). É mais vantajoso contruir uma tabela pequena com algumas quantidades especiais ("estatísticas"da amostra ou parâme- tros da população) que caracterizam e resumem a distribuição (o comportamento) dessas observações, do que uma tabela com um conjunto enorme de números. Os gráficos têm como objectivo dar uma visão resumida e rápida do comportamento dos dados. Consideremos o seguinte ficheiro de dados da Escola Preparatória XXX da cidade YYY. Para cada aluno, foram registados os seguintes valores das variáveis: SEXO (feminino ou masculino), IDADE (10, 11, 12, 13, 14 ou 15 anos), ALTURA (de 129 cm. a 145 cm.), PESO (de 27 kg. a 45 kg.), ANO (5o ou 6o ano de escolaridade) e TURMA (1, 2, 3, 4 ou 5). A maior parte das tabelas e gráficos apresentados nesta parte I dizem respeito aos valores deste ficheiro. Dado um conjunto de observações, é costume, em primeiro lugar, contar quantas vezes aparece cada valor, isto é, o número de ocorrências desse valor. Dos 318 alunos presente- mente a frequentar a Escola Preparatória XXX da cidade YYY, • quantos são do sexo feminino? • quantos são do sexo masculino? • quantos frequentam, neste ano lectivo, o 5o ano de escolaridade? • quantos estão inscritos no 6o ano de escolaridade? • quantos alunos do 5o ano têm ainda 10 anos? • quantos alunos frequentam o 6o ano com 15 anos de idade? 6
  • 14. CAPÍTULO 2. DESCRIÇÃO NUMÉRICA DOS DADOS 7 Depois de observados todos os registos e contadas as ocorrências dos seis acontecimentos descritos, obtivemos os seguintes valores, conhecidos por frequências absolutas : 124 alunos do sexo feminino, 194 do sexo masculino, 147 do 5o ano, 171 do 6o ano, como se SEXO Frequências Percentagens F.Acumulada feminino 124 38.99 38.99 masculino 194 61.01 100.00 Total 318 100.00 ANO Frequências Percentagens F.Acumulada 5o ano 147 46.23 46.23 6o ano 171 53.77 100.00 Total 318 100.00 Figura 2.1: Tabelas de frequências do SEXO e do ANO de escolaridade pode ver na coluna indicada por ’Frequências’ da tabela da figura 2.1; 73 alunos estão no 5o com 10 anos e 9 no 6o com 15 anos. Confirme estes valores com os assinalados da coluna ’Frequências’ da tabela da figura 2.2. Verificando-se que 124 + 194 = 318 ou 147 + 171 = 318 conclui-se que foram consideradas todas as observações (consistência interna). A frequência absoluta de qualquer valor de uma variável é o número de vezes que esse valor ocorre nos dados. Isto é, esta frequência corresponde a uma contagem. Observando apenas o número 124 de alunos do sexo feminino e 194 do sexo masculino podemos dizer que há mais rapazes do que raparigas, no entanto, não se vê logo quantos mais. Se compararmos estes números com o número total de alunos, calculando o quociente entre o número total de alunos do sexo feminino (ou do sexo masculino) e o número total de alunos da escola, a que chamaremos frequência relativa, então já podemos dizer que 124 318 = 0.39 (ou 194 318 = 0.61) são do sexo feminino (ou masculino) o que é nitidamente menos (ou mais) do que metade dos alunos. A frequência relativa de qualquer valor é a proporção ou fracção de todas as observa- ções que têm aquele valor. Esta frequência pode ser expressa em termos de percentagem, multiplicando a fracção resultante por 100 e atribuindo o sinal de %. Das fracções an- teriores tiramos 39% de alunos do sexo feminino e 61% do sexo masculino. A soma das frequências relativas deve ser igual a 1 (ou das percentagens igual a 100%). Veja as percentagens de alunos dos dois sexos na coluna indicada por ’Percentagens’ da tabela da figura 2.1. As frequências acumuladas absolutas (ou relativas) representam o número (ou a fracção/percentagem) de observações que são menores ou iguais a um valor especificado. Assim o número (ou fracção/percentagem) de alunos com idade inferior a 12, do 5o ano de escolaridade é de 118 (ou 0.8027/80.27%) e o número (ou fracção/percentagem) de alunos do 6o ano com idade igual ou inferior a 14 anos é de 162 (ou 0.9474/94.74%), como se pode confirmar pela coluna ’F.Acumuladas’ da tabela da figura 2.2.
  • 15. CAPÍTULO 2. DESCRIÇÃO NUMÉRICA DOS DADOS 8 ANO=5o IDADE Frequências Percentagens F.Acumuladas 10 73 49.66 49.66 11 45 30.61 80.27 12 22 14.97 95.24 13 4 2.72 97.96 14 3 2.04 100.00 Total 147 100.00 ANO=6o IDADE Frequências Percentagens F.Acumuladas 11 91 53.22 53.22 12 46 26.90 80.12 13 20 11.70 91.81 14 5 2.92 94.74 15 9 5.26 100.00 Total 171 100.00 Figura 2.2: Tabela de frequências da IDADE, por ANO de escolaridade Da coluna ’F.Acumuladas’ da tabela da figura 2.3 podemos verificar que o número de alunos do 6o ano que têm um peso igual ou inferior a 40 Kg. é de 161, o que corresponde a 94.15% dos alunos desse ano. Da coluna ’F.Acumuladas’ da tabela da figura 2.4 podemos concluir que a percentagem de alunos do sexo feminino com altura igual ou inferior a 140 cm. é aproximadamente de 91%. As frequências absolutas e as relativas são um meio muito usado para classificar os dados quando a escala usada para medir as variáveis é nominal, isto é, a medição da variável apenas define a classe a que o elemento pertence. Por exemplo, a variável SEXO é nominal, uma vez que ela é definida pelas duas classes: feminino e masculino; a variável ANO de escolaridade é nominal e as classes definidas são o 5o e o 6o ano de escolaridade; a variável TURMA é também nominal, definida pelas classes 1, 2, 3, 4 e 5 para o 5o ano de escolaridade e 1, 2, 3, 4 e 5 para o 6o ano. Certas variáveis são medidas de acordo com uma escala ordinal. Neste caso a medição define classes e ordena-as de acordo com os valores atribuídos. Como exemplo, temos as pontuações (1, 2, 3, ... e 10) que hoje se usam para definirmos a nossa preferência relativa a qualquer acontecimento. A diferença entre o 2 e o 1 é a de que o 2 significa ter preferência em relação ao 1 mas não se sabe quanto. Mesmo quando a escala de medição da variável é intervalar/proporcional e a variável pode tomar uma quantidade enorme de valores, podemos classificar (resumir) os dados calculando as frequências de grupos de valores, chamados classes ou intervalos. Quando a medida de uma variável nos diz quanto ela é diferente da medida de outra, então a variável
  • 16. CAPÍTULO 2. DESCRIÇÃO NUMÉRICA DOS DADOS 9 ANO=5o Classes de pesos Frequências Percentagens F.Acumuladas peso <=30 34 23.13 23.13 30 a 35 74 50.34 73.47 35 a 40 33 22.45 95.92 40 a 45 6 4.08 100.00 Total 147 100.00 ANO=6o Classes de pesos Frequências Percentagens F.Acumuladas peso <=30 46 26.90 26.90 30 a 35 77 45.03 71.93 35 a 40 38 22.22 94.15 40 a 45 10 5.85 100.00 Total 171 100.00 Figura 2.3: Tabela de frequências dos PESOS, por ANO de escolaridade foi medida numa escala intervalar. Por exemplo, uma avaliação baseada na escala de 0 a 20 é intervalar; uma classificação de 14.4 valores é nitidamente superior a uma de 7.2, no entanto, 14.4 não significa um desempenho duas vezes melhor do que o 7.2. A medição duma variável numa escala proporcional diz-nos quanto ela tem a mais em relação a outra. Por exemplo, a ALTURA e o PESO dos alunos são exemplos de variáveis proporcionais. Um peso de 46 Kg. é duas vezes superior ao peso de 23 Kg. Quando temos este tipo de variáveis devemos decidir quantas classes/intervalos quere- mos formar. Quando temos poucas observações devemos definir um número pequeno de classes, 4, 5 ou 6. No entanto, quando o número de observações é elevado menos do que 10 classes origina uma perda significativa de informação. Tudo depende também da variação dos valores que a variável pode tomar. Assim como o número de intervalos e a amplitude desses intervalos são arbitrários, também o são os pontos que definem o início, limite inferior, e o fim, limite superior, de cada intervalo. Estes limites separam os intervalos uns dos outros. Eles devem ser escolhidos por forma a que, para cada observação, fique bem claro a que intervalo ela pertence. Por exemplo, relativamente à variável ALTURA, podemos usar um dos dois seguintes processos: 1. o primeiro intervalo, para a variável ALTURA, compreende os valores que vão desde 125 a 130 cm. inclusivé ( isto é, 125 < ALTURA ≤ 130); o segundo intervalo terá observações desde 130 cm. até 135 cm. inclusivé (130 < ALTURA ≤ 135), ...., até ao último intervalo que engloba ALTURAS que vão desde os 145 aos 150 cm. (145 < ALTURA ≤ 150);
  • 17. CAPÍTULO 2. DESCRIÇÃO NUMÉRICA DOS DADOS 10 SEXO=feminino Classes de alturas Frequências Percentagens F.Acumuladas altura<=130 5 4.03 4.03 130 a 135 42 33.87 37.90 135 a 140 66 53.23 91.13 140 a 145 10 8.06 99.19 altura>145 1 0.31 100.00 Total 124 100.00 SEXO=masculino Classes de alturas Frequências Percentagens F.Acumuladas altura<=130 2 1.03 1.03 130 a 135 32 16.49 17.53 135 a 140 84 43.30 60.82 140 a 145 63 32.47 93.30 altura>145 13 6.70 100.00 Total 194 100.00 Figura 2.4: Tabela das frequências das ALTURAS, por SEXO do aluno 2. (e como, para esta variável, todas as observações são quantidades inteiras) os limi- tes dos intervalos são definidos usando valores com casas decimais, 0.5 unidades inferiores ao valor, para o limite inferior, e 0.5 unidades superiores ao valor, para o limite superior, de cada intervalo. Neste caso, ficamos com os seguintes intervalos fechados nos dois extremos: [124.5, 130.5], [130.5, 135.5], [135.5, 140.5], [140.5, 145.5] e [145.5, 150.5]. É também comum considerar os intervalos dos extremos como ’totalmente’ abertos, o primeiro à esquerda, e o último à direita, isto é, o primeiro intervalo pode ser do tipo ≤ 130cm. e o último do tipo > 145cm. Verifique o processo utilizado na definição dos intervalos para a variável ALTURA, na tabela da figura 2.4 e para a variável PESO na tabela da figura 2.3. A amplitude destas classes/intervalos é a diferença entre o limite superior e o inferior. Para a variável ALTURA a amplitude dos intervalos é de 5 cm. e para o PESO é de 5 Kg. Confirme estes valores nas tabelas das figura 2.4 e 2.3 respectivamente. Como estes intervalos são definidos por um conjunto, por vezes, vasto de valores, há necessidade de ter um valor que represente cada intervalo. Este valor é o ponto médio e calcula-se como a semi-soma dos limites superior e inferior do intervalo. No caso da variável ALTURA os pontos médios dos intervalos são respectivamente 127.5, 132.5, 137.5, 142.5 e 147.5 e para a classificação da variável PESO temos como pontos médios os valores: 27.5,
  • 18. CAPÍTULO 2. DESCRIÇÃO NUMÉRICA DOS DADOS 11 32.5, 37.5, 42.5. Repare que os intervalos dos extremos foram considerados como tendo amplitudes iguais aos restantes. O número de observações que pertencem a cada classe/intervalo é a sua frequência absoluta. Tudo o que já foi dito relativamente às frequências relativas e acumuladas é válido para estas classes/intervalos.
  • 19. Capítulo 3 Descrição gráfica dos dados Um gráfico serve para dar uma visão resumida dos dados. Um gráfico bem construído pode revelar factos (características) sobre os dados que, a retirar de uma tabela necessitariam de uma análise mais cuidada. 1. O gráfico de barras serve para comparar a frequência de ocorrência de certas observações. Na maior parte dos exemplos, os valores comparados são frequências absolutas ou relativas, em termos de percentagem, de variáveis medidas de acordo com as escalas nominal e ordinal. A figura 3.1 apresenta um gráfico de barras respeitante aos dados da tabela da figura 3.2. Gráfico de barras 0 20 40 60 80 100 120 140 10 11 12 13 14 15 IDADE Frequência Figura 3.1: Gráfico de barras das frequências das IDADES dos alunos 12
  • 20. CAPÍTULO 3. DESCRIÇÃO GRÁFICA DOS DADOS 13 IDADE Frequências Percentagens F.Acumuladas 10 73 22.96 22.96 11 136 42.77 64.72 12 68 21.38 87.11 13 24 7.55 94.65 14 8 2.52 97.17 15 9 2.83 100.00 Total 318 100.00 Figura 3.2: Tabela de frequências das IDADES dos alunos da Escola As barras aparecem normalmente verticais, separadas e devem ter todas a mesma largura. A altura da barra varia com a frequência, o que significa que a área do rectângulo também varia. A nossa percepção da quantidade representada, corres- ponde precisamente à área da barra. Um gráfico de barras pode ser representado através de figuras a que se pode dar o nome de gráfico ilustrativo ou pictograma. No entanto, essas figuras devem defi- nir imagens todas com a mesma largura, variando a altura com o valor da frequência. Nas figuras 3.3 e 3.4 estam representados dois exemplos de gráficos de barras utili- zando figuras. O primeiro não está correcto, pois pode levar a falsas interpretações em termos relativos; o segundo, que é tão atraente como o primeiro, está correcto. As áreas das figuras visualizam correctamente as proporções relativas entre as variáveis. Figura 3.3: Pictograma (errado) da variável SEXO (ver tabela da figura 2.1)
  • 21. CAPÍTULO 3. DESCRIÇÃO GRÁFICA DOS DADOS 14 Figura 3.4: Pictograma da variável SEXO (ver tabela da figura 2.1) 2. O gráfico de sectores ou circular serve para representar várias variáveis. O tama- nho de cada sector é proporcional ao valor da variável, que representa, em relação à soma dos valores das variáveis lá representadas. Assim e tendo em conta os alunos do 5o ano de escolaridade, verificamos que há números diferentes de alunos dos sexos feminino e masculino nas diferentes turmas, como se pode ver na tabela da figura 3.5 e os gráficos de sectores correspondentes seriam os representados nas figuras 3.6 e 3.7. 3. Existe ainda outro gráfico de barras, para representar várias variáveis, só que desta vez elas apresentam-se sobrepostas. Dos mesmos valores da tabela da figura 3.5, o gráfico de barras sobrepostas é o que está representado na figura 3.8. 4. O gráfico de linha serve para representar os valores de uma variável e mostra a tendência (comportamento) dessa variável normalmente em relação ao tempo. Por exemplo, se fosse conhecido o número de alunos inscritos na Escola XXX durante os útimos dez anos, poderíamos representar esses valores ao longo do eixo vertical e ao longo do eixo horizontal, representaríamos o tempo de acordo com o que está na figura 3.9. As escalas podem ser iniciadas em qualquer valor, em vez de 0. Para chamar a atenção da omissão do 0, é frequente utilizar uma linha em ziguezague sobre o eixo. 5. Um gráfico de pontos serve para representar dados relativos a duas variáveis, quando elas são medidas em escalas intervalar/proporcional ou ordinal. Cada variável
  • 22. CAPÍTULO 3. DESCRIÇÃO GRÁFICA DOS DADOS 15 ANO=5o Turma SEXO 1 2 3 4 5 Total feminino 10 7 12 7 14 50 masculino 24 22 14 21 16 97 Total 34 29 26 28 30 147 ANO=6o Turma SEXO 1 2 3 4 5 Total feminino 17 16 15 11 15 74 masculino 20 18 18 24 17 97 Total 37 34 33 35 32 171 Figura 3.5: Frequências dos alunos do 5o ano por TURMA é representada num eixo. Cada ponto do gráfico corresponde a um par de valores (x, y); x diz respeito ao valor da 1a variável ( sobre o eixo das abcissas) e y diz respeito ao correspondente valor da 2a variável (sobre o eixo das ordenadas). Por exemplo, se quiséssemos representar os PESOS e as ALTURAS dos alunos do SEXO feminino da TURMA 2 do 5o ANO da Escola XXX teríamos o gráfico que está representado na figura 3.10. 6. O histograma das frequências é o gráfico mais importante na Estatística Inferen- cial. Quando os dados são valores de uma variável medida numa escala intervalar/proporcional, uma tabela de frequências para cada uma das classes mostra a distribuição de valo- res dessa variável. Considere o exemplo apresentado na tabela da figura 2.4 relativo às ALTURAS dos alunos da Escola XXX, distribuídos por SEXO. Esta distribuição pode ser representada graficamente num histograma. Este gráfico é desenhado tendo como base um par de eixos coordenados, com a medida da variável que foi observada colocada ao longo do eixo horizontal e o número ou a proporção de observações me- didos ao longo do eixo vertical. O eixo vertical começa normalmente em 0 e o eixo horizontal pode começar num valor qualquer, desde que seja conveniente. A figura 3.11 mostra o exemplo em que as ALTURAS estão divididas por classes, também chamadas intervalos de amplitudes iguais a 5 cm. Cada barra representa uma dessas classes e a altura corresponde à frequência absoluta (número de valores que pertencem à classe). Também se usam as frequências relativas ou proporções na definição de histogramas. Os histogramas têm as barras verticais, umas a seguir às outras e devem ser todas da mesma largura. Assim, ao agrupar um conjunto de dados por classes para repre-
  • 23. CAPÍTULO 3. DESCRIÇÃO GRÁFICA DOS DADOS 16 fe m inino 20 14 24 14 29 1 2 3 4 5 Figura 3.6: Gráfico de sectores dos alunos do 5o ano do sexo feminino, por TURMA ]../pictures/sectoresm.eps Figura 3.7: Gráfico de sectores dos alunos do 5o ano do sexo masculino, por TURMA sentar um histograma, devemos escolher intervalos (classes) com amplitudes iguais. Não existe nenhum valor ideal para a amplitude da classe (intervalo). O objectivo é conseguir obter uma distribuição de frequências equilibrada. Assim, tenta-se evi- tar colocar todos os valores num número muito reduzido de classes de amplitudes enormes ou distribuir poucos valores por muitas classes de amplitudes pequenas. As classes devem ser definidas de tal forma que não haja ambiguidades sobre a classe (ou intervalo) a que pertence cada observação. 7. A forma da distribuição de frequências de um conjunto de dados pode ser analisada através do histograma das frequências. A figura 3.12 mostra uma distribuição não simétrica e descaída para a direita. Por vezes, a análise é facilitada pelo polígono que se obtém unindo, por linhas, os pontos médios dos topos das barras no histograma, como se vê na figura 3.12. O polígono é terminado para a esquerda e para a direita, unindo os pontos que se colocam no eixo horizontal distanciados de metade da am- plitude para a esquerda do primeiro intervalo e para a direita do último intervalo. Este polígono é conhecido por polígono de frequências. 8. Ao gráfico das frequências acumuladas chama-se ogiva. Este gráfico obtém-se co- locando pontos na vertical dos limites inferiores das classes (ou intervalos) a uma distância do eixo horizontal que corresponde à percentagem das observações que são
  • 24. CAPÍTULO 3. DESCRIÇÃO GRÁFICA DOS DADOS 17 20 14 24 14 28 25 23 14 22 16 0 5 10 15 20 25 30 35 40 45 50 1 2 3 4 5 Turm a Percentagem feminino m asculino Figura 3.8: Gráfico de barras dos alunos do 5o ano, por turma e por SEXO menores ou iguais àquele valor (do limite inferior da classe) e unindo estes pontos por rectas. As ogivas têm um semelhança com um S aberto. Um exemplo de ogiva é o que se encontra na figura 3.14 e que corresponde às frequências da coluna ’F.Acumuladas’ da tabela da figura 3.13.
  • 25. CAPÍTULO 3. DESCRIÇÃO GRÁFICA DOS DADOS 18 220 240 250 265 270 280 295 309 315 318 200 220 240 260 280 300 320 83/84 84/85 85/86 86/87 87/88 88/89 89/90 90/91 91/92 92/93 te m po (a no le ctivo) Númerodealunosinscritos Figura 3.9: Gráfico relativo ao número de alunos da Escola, nos últimos dez anos 132 134 136 138 140 142 144 25 30 35 40 45 P e so (kg) Altura(cm) Figura 3.10: Gráfico relativo aos PESOS e ALTURAS dos 7 alunos da TURMA 2 (5o ANO)
  • 26. CAPÍTULO 3. DESCRIÇÃO GRÁFICA DOS DADOS 19 5 42 66 10 0 10 20 30 40 50 60 70 125-130 130-135 135-140 140-145 Altura (cm ) Frequência Figura 3.11: Histograma relativo às ALTURAS dos alunos do SEXO feminino Frequência Figura 3.12: Polígono de frequências de uma distribuição definida por 8 intervalos
  • 27. CAPÍTULO 3. DESCRIÇÃO GRÁFICA DOS DADOS 20 Classes de alturas Frequências Percentagens F.Acumuladas altura<=130 2 1.03 1.03 130 a 135 32 16.49 17.53 135 a 140 84 43.30 60.82 140 a 145 63 32.47 93.30 altura>145 13 6.70 100.00 Total 194 100.00 Figura 3.13: Frequências das ALTURAS dos alunos do SEXO masculino Figura 3.14: Ogiva das ALTURAS dos alunos do SEXO masculino da escola
  • 28. Capítulo 4 ”Estatísticas” descritivas Além das tabelas e dos gráficos, que têm com objectivo organizar e dar uma imagem visual dos dados, existem certas características de uma distribuição de valores, como o valor central e a sua dispersão, que podem ser resumidas por meio de certas quantidades. Exemplos destas quantidades, conhecidas por "estatísticas"descritivas, são: o ponto médio, a mediana, a moda, a média, a amplitude, o desvio padrão e a variância. 4.1 Medidas de tendência central 1. o ponto médio é o valor que se encontra a meio caminho entre a menor e a maior das observações de uma lista. Por definição Xm = menor obs. + maior obs. 2 . Considerando a tabela 4.1 relativa às ”estatísticas” das IDADES dos alunos da Escola XXX, o Xm é igual a 10+15 2 = 12.5. 2. A média (aritmética) de um conjunto de n observações obtém-se somando todas as observações e dividindo depois pelo seu número. Se X1, X2, X3, ..., Xn forem as n observações, então a média deste conjunto é ¯X = n i=1 Xi n . Quando os dados estão agrupados por classes numa tabela de frequências, a soma de observações idênticas é equivalente a multiplicar o valor dessa observação, Xi, pela sua frequência fi. Assim, a média pode ser calculada através de ¯X = k i=1 fiXi n , 21
  • 29. CAPÍTULO 4. ”ESTATÍSTICAS” DESCRITIVAS 22 IDADE Percentis Menores 1% 10 10 5% 10 10 10% 10 10 Observações 313 25% 11 10 Soma dos pesos 313 50% 11 Média 11.3239 Maiores Desvio padrão 1.150557 75% 12 15 90% 13 15 Variância 1.32378 95% 14 15 Assimetria 1.162583 99% 15 15 Kurtose 4.48434 Figura 4.1: ”Estatísticas” das IDADES dos alunos da Escola em que n = k i=1 fi e k é o número de classes distintas. Quando cada classe é representada por um intervalo de valores, o Xi é o valor que representa esse intervalo e que anteriormente chamámos o ponto médio do intervalo. Se os intervalos dos extremos são caracterizados por ≤ e >, os pontos médios são calculados do mesmo modo, supondo que esses intervalos têm amplitudes iguais aos restantes. Da tabela da figura 4.1, vemos que a média das IDADES dos 318 alunos da Escola XXX é de 11.3239. 3. A mediana é o valor típico, isto é, é o ponto central das observações quando elas não estão agrupadas e já se encontram colocadas por ordem crescente. Quando o número de observações é impar, o valor do meio é a mediana; quando o número de observações é par, existe um par de valores no centro e a mediana passa a ser a média aritmética desse par. Para o cálculo da mediana de um conjunto de observações não agrupadas por classes ou intervalos, podemos usar a seguinte regra: Se n for o número de observações, calcule a quantidade (n + 1)/2. Coloque as observações por ordem crescente e conte a partir do início (n + 1)/2 observações. Se n for impar a última contabilizada será a mediana da lista; se n for par, a quantidade (n + 1)/2 não é inteira, e tomamos a semi-soma das duas observações contíguas a esta quantidade (a anterior e a posterior) da lista. Quando os n dados estão agrupados por k classes/intervalos, podemos usar o seguinte processo para o cálculo da mediana: • calcular n 2 , • calcular as frequências absolutas acumuladas das classes,
  • 30. CAPÍTULO 4. ”ESTATÍSTICAS” DESCRITIVAS 23 • determinar o intervalo que contém a mediana. Seja M o número desse intervalo (M é um inteiro de 1 a k). A frequência acumulada dos intervalos anteriores ao do da mediana é FM−1. A frequência absoluta do intervalo da mediana é fM e a acumulada é FM , e FM−1 < n 2 < FM , • calcular o número de observações que devemos tomar do intervalo da mediana e que é igual a n 2 − FM−1, • como existem fM observações no intervalo da mediana e considerando-as unifor- memente distribuídas, o valor da mediana está a n/2−FM−1 fM de distância do início do intervalo da mediana que tem amplitude igual a A e cujo limite inferior é liM . Assim, mediana = liM + n 2 − FM−1 fM A. Como num histograma as áreas dos rectângulos são proporcionais às frequências dos respectivos intervalos, a linha vertical traçada no valor da mediana divide o histograma em duas áreas iguais. 4. A moda é o valor mais frequente, isto é, o valor com maior frequência entre as observações de uma lista. Para o cálculo da moda convém colocar as observações por ordem crescente para se ver qual delas ocorre mais vezes. Essa observação é a moda. A lista, neste caso, diz-se unimodal. Pode até haver mais do que uma moda. Se duas ou mais observações ocorrem o mesmo número de vezes, então a lista diz-se respectivamente bimodal ou multimodal. Quando os dados se apresentam agrupados, a classe com maior frequência define a classe da moda. Se cada classe for definida por um só valor, esse é a moda; se a classe é definida por um intervalo de valores, o ponto que representa a classe, o ponto médio dessa classe, é a moda. Tal como foi dito no parágrafo anterior podemos também aqui ter mais do que uma moda ou mesmo não ter nenhuma. Destas medidas centrais, a média e a mediana são as mais usadas. A mediana utiliza informação relativa à ordem, não usando os valores numéricos das observações. A média, por sua vez, usa esses valores numéricos, sendo por isso a mais usada. As diferentes localizações da média, da mediana e da moda são mais facilmente visíveis usando a curva das frequências desse conjunto de dados, o polígono de frequências. A moda é o valor onde a curva é mais alta. A mediana é o valor que divide a área, compreendida entre o eixo e a curva, em duas partes iguais; metade fica à esquerda da mediana e a outra metade à direita. A média é o ponto central de uma distribuição simétrica. Numa distribuição simétrica a moda coincide com a mediana e também com a média. Veja a figura 4.2. A figura 4.3 apresenta dois exemplos de distribuições não simétricas. A primeira é assimétrica positiva e a segunda é assimétrica negativa. Repare na sequência de localização das três medidas: moda, mediana e média.
  • 31. CAPÍTULO 4. ”ESTATÍSTICAS” DESCRITIVAS 24 Figura 4.2: Curva das frequências de uma distribuição simétrica Figura 4.3: Curvas de frequências de duas distribuições não simétricas
  • 32. CAPÍTULO 4. ”ESTATÍSTICAS” DESCRITIVAS 25 Dos valores da tabela 4.1 podemos retirar a mediana, que é o percentil de ordem 50, e é igual a 11 e de acordo com a tabela que foi apresentada na figura 3.1, a moda é também 11, uma vez que é o valor que tem maior frequência (136). Assim, esta distribuição das IDADES dos alunos da Escola XXX da cidade YYY é assimétrica positiva. Confirme este facto com o gráfico de barras já anteriormente apresentado na figura 3.1. Da tabela da figura 4.1 o valor do parâmetro ’Assimetria’=1.162583, porque é positivo, significa que a distribuição é assimétrica positiva. Se este valor fosse negativo, teríamos uma distribuição assimétrica negativa. 4.2 Medidas de dispersão As medidas centrais são importantes mas não fornecem a informação completa sobre o conjunto das observações. Falta, pois, indicação sobre a dispersão desses valores. Quando se usa a mediana para medir o centro de uma distribuição, é conveniente fornecer elementos sobre a variação ou dispersão da distribuição, através dos percentis. As medidas de dispersão mais usadas são: a variância e o desvio padrão. Devem ser usadas quando a medida de tendência central usada for a média, pois elas medem a dispersão em relação à média, como centro da distribuição. 1. O percentil de ordem p de um conjunto de valores (observações de uma variável) é o valor abaixo do qual estão p por cento dos valores, estando os restantes acima dele. A mediana é o percentil de ordem 50, também conhecido por segundo quartil. O percentil de ordem 25 chama-se primeiro quartil. O percentil de ordem 75 chama-se terceiro quartil. Um quarto das observações são menores do que o 1o quartil, metade são menores do que o 2o e um quarto são maiores do que o 3o quartil. 2. A amplitude de um conjunto de valores é definida como a diferença entre a maior e a menor das observações e mede a dispersão total dos valores do conjunto. 3. A variância é a média aritmética dos quadrados dos desvios das observações em relação à média. Assim, se X1, X2, X3, ..., Xn forem n observações e se ¯X for a sua média, a variância é calculada a partir de s2 = n i=1(Xi − ¯X)2 n . Quando os dados estão agrupados por k intervalos, a variância é definida por s2 = k i=1(fiX2 i ) n − ¯X2
  • 33. CAPÍTULO 4. ”ESTATÍSTICAS” DESCRITIVAS 26 em que n = k i=1 fi, k é o número de classes (ou intervalos), fi é a frequência da classe i e Xi o valor que representa a classe i. Quando as observações formam uma amostra aleatória simples de tamanho n, reti- rada de uma população, a variância da amostra deve ser calculada usando n − 1 no denominador do primeiro termo da expressão, em vez de n, e deve-se multiplicar o segundo termo por n (n−1) . Existem razões para esta escolha e têm a ver com o facto de esta ’estatística’ poder ser usada para estimar a variância da população. 4. O desvio padrão é a raiz quadrada da variância. Utiliza-se s para designar o desvio padrão. A variância e o desvio padrão das IDADES são, retirados directamente da tabela da figura 4.1, respectivamente ’Variância’= 1.32378 e ’Desvio padrão’= 1.150557. Alguns comentários em relação a estas medidas: (i) A variância é uma quantidade positiva ou nula. Será nula se todos os desvios forem nulos e isto acontece quando todos os Xi forem iguais a ¯X (sendo todos iguais). Neste caso, não existe dispersão. (ii) Se as observações estão dispersas e existem de um e de outro lado da média, os desvios das observações à esquerda da média são negativos e os desvios das observações à direita são positivos. Estes desvios serão tanto maiores, em valor absoluto, quanto mais afastadas as observações estiverem da média. Os quadrados dos desvios são quantidades positivas e tanto maiores quanto maiores forem os desvios. Assim, se os valores estão juntos, a variância é pequena; se eles estão dispersos, a variância é grande. (iii) Quando as observações são medidas numa unidade (por exemplo, centímetros, segun- dos, gramas, ...), a variância vem nessa medida ao quadrado. No entanto, o desvio padrão vem medido na mesma unidade das observações. 4.3 Medidas de associação As medidas centrais e de dispersão fornecem informação básica relativa a dados univariados, embora não completa. No entanto, se tivermos duas variáveis, as medidas referidas atrás. não são suficientes para as descrever. Normalmente estamos interessados numa possível ligação entre as variáveis: - os valores das variáveis aumentam simultaneamente, como a altura e o peso das pessoas, ou variam em sentidos opostos, como o número de cigarros fumados por dia e a esperança de vida do fumador! Diz-se que duas variáveis estão associadas se existe uma ligação directa entre as suas variações,
  • 34. CAPÍTULO 4. ”ESTATÍSTICAS” DESCRITIVAS 27 • quando o aumento de uma variável tende a acompanhar o aumento de outra variável, diz-se que a associação é positiva; • quando o aumento de uma variável tende a acompanhar a diminuição de outra va- riável, então as variáveis dizem-se associadas negativamente. A associação é medida em termos médios. A associação faz sentido para variáveis medidas em qualquer tipo de escala. Associação positiva ou negativa já só faz sentido quando as variáveis forem medidas numa escala ordinal ou intervalar/proporcional. 1. Uma das medidas de associação é o coeficiente de correlação. Dadas n observa- ções bivariadas nas variáveis X e Y , X1, X2, ..., Xn e Y1, Y2, ..., Yn, o coeficiente de correlação r é definido por r = 1 n n i=1(Xi − ¯X)(Yi − ¯Y ) sXsY em que ¯X e ¯Y são as médias dos valores de X e de Y respectivamente e sX e sY os desvios padrões das mesmas variáveis. O numerador da expressão é a média dos produtos dos desvios de X e de Y , em relação às correspondentes médias. O denominador é o produto dos desvios padrões de X e de Y . Interpretação de r: • o coeficiente de correlação r mede a associação entre duas variáveis; é positivo quando a associação é positiva e negativo quando a associação for negativa (o valor de r é tanto maior quanto mais forte for a associação); • o coeficiente de correlação toma sempre valores entre -1 e +1 (os desvios padrão no denominador estandardizam o r, as unidades no numerador e denominador são as mesmas, o que significa que r é adimensional); • os valores extremos r = −1 e r = 1 indicam uma associação perfeita (r = −1 significa que os pontos pertencem a uma linha recta de declive negativo, isto é, quando x aumenta, y diminui; r = 1 significa que os pontos pertencem a uma linha recta com declive positivo, isto é, quando x aumenta, y também aumenta; • o coeficiente de correlação mede a proximidade da mancha de pontos em relação a uma linha recta (r mede uma associação linear). A figura 4.4 mostra cinco casos com diferentes valores de r. O último caso refere-se a uma situação onde não existe uma relação linear, embora exista outro tipo de relação. 2. Existe uma maneira de medir a associação linear através de uma quantidade r2 , chamada coeficiente de determinação. Este coeficiente é a proporção da variância de uma variável, que pode ser explicada pela dependência linear na outra variável.
  • 35. CAPÍTULO 4. ”ESTATÍSTICAS” DESCRITIVAS 28 Figura 4.4: Cinco casos de associação
  • 36. CAPÍTULO 4. ”ESTATÍSTICAS” DESCRITIVAS 29 Para compreender melhor o seu significado, considere os dois gráficos da figura 4.5. No primeiro, existe uma associação perfeita linear com r = −1. A variável Y está totalmente ligada à variável X; quando X varia, Y também varia e o ponto (X, Y ) move-se ao longo da linha. O conjunto dos 8 valores de Y tem uma grande variância; mas esta variância é devida (explicada) à ocorrência dos diferentes valores de X, levando consigo os valores de Y . A dependência linear em X explica toda a variação em Y e r2 = 1. Figura 4.5: Duas associações diferentes entre duas variáveis No segundo gráfico, o conjunto dos 21 valores de Y também tem uma grande variância. Alguma desta variância pode ser explicada pelo facto de a variação em X levar consigo uma variação (em média) em Y . O gráfico apresenta esta situação, mostrando os diferentes valores de Y que acompa- nham os dois valores de X. Neste caso, r2 = +1 pois a associação entre X e Y explica apenas parte da variação em Y . Esta parte é a fracção r2 da variância dos valores de Y Neste exemplo, r2 = 0.49 e diz-se que 49 por cento da variância de Y é explicada pela dependência linear de Y em relação a X. O coeficiente r2 mede apenas a intensidade da associação e não nos diz nada sobre se ela é positiva ou negativa. A associação entre duas variáveis pode ser devida a três factores: • ao factor causa, isto é, uma das variáveis origina (causa) variações na outra; • à existência de outra(s) variável(eis) que origina(m) o aparecimento das duas (ou, cuja variação causa variações nas duas) variáveis em estudo; • a uma terceira variável, que não se encontra em estudo, mas que, juntamente com uma das variáveis causa variações na outra.
  • 37. CAPÍTULO 4. ”ESTATÍSTICAS” DESCRITIVAS 30 Para concluir que a associação entre duas variáveis é devido à causa, é necessário que: • a associação se repita em diferentes circunstâncias, reduzindo a probabilidade de ser consequência da mistura entre variáveis; • se conheca uma explicação plausível, mostrando como uma variável pode causar variações noutra variável; • não pareçam existir terceiros factores que possam causar variações nas duas variáveis. A associação que se deve a razões comuns, pode ser utilizada para predizer uma das variáveis, como função da outra. Figura 4.6: Recta de regressão Correlação e predição estão muito relacionadas. Por exemplo, se uma variável indepen- dente X e uma variável dependente Y têm um r2 = 1, isto significa que as observações em X e Y estão sobre uma linha recta. Este modelo pode ser usado para predizer Y a partir de um valor de X - ler na recta o correspondente valor de Y , Yx. Se o valor de r2 é pequeno, a predição é menos precisa porque os pontos não estão sobre uma linha recta e Y varia muito, para um valor fixo de X. A linha que deve ser usada para predizer Y a partir de X, baseada numa mancha de pontos é a recta de regressão. Veja o exemplo da figura 4.6.
  • 38. Capítulo 5 Distribuição normal Quando um conjunto de dados tem uma distribuição descrita por uma das curvas normais, a média é facilmente detectada. Esta distribuição é simétrica, a média coincide com a mediana e também com a moda. É o valor que corresponde ao pico. Veja o gráfico da figura 4.2. O desvio padrão também é facilmente detectável da curva normal. Os pontos onde a curvatura muda, de ambos os lados em relação ao centro, estão localizados a um desvio padrão de cada lado da média. O gráfico da figura 5.1. apresenta três exemplos de distribuições normais com a mesma média mas com diferentes desvios padrão. Figura 5.1: Distribuições normais com diferentes desvios A média fixa o centro da curva, enquanto que o desvio padrão determina a forma. Alterando a média de uma distribuição normal não altera a forma, apenas altera a sua localização nos eixos. No entanto, alterando o desvio padrão, a forma da curva é alterada. 31
  • 39. CAPÍTULO 5. DISTRIBUIÇÃO NORMAL 32 Em todos os casos, temos a curva normal das frequências com uma amplitude igual a seis desvios padrão. Considere a figura 5.2. Em qualquer distribuição normal, Figura 5.2: Distribuição normal 1. metade das observações são menores do que a média e a outra metade maiores; 2. 68 por cento das observações pertencem ao intervalo limitado por um desvio padrão para cada lado da média; destas, metade (34 por cento) estão entre a média e um desvio padrão para além da média; 3. 95 por cento das observações pertencem ao intervalo limitado por dois desvios para cada lado da média; 4. 99.7 por cento das observações pertencem ao intervalo limitado por três desvios em relação à média. Em qualquer distribuição normal, o percentil de ordem 84 de uma distribuição normal está localizado a um desvio padrão acima da média. Do mesmo modo o percentil de ordem 16 é o ponto localizado a menos um desvio padrão em relação à média. As observações retiradas de diferentes distribuições normais podem ser comparadas, colocando-as em unidades de desvio padrão acima ou abaixo da média. Observações ex- pressas em unidades de desvio padrão em relação à média, chamam-se pontuações es- tandardizadas (’standard’). Esta pontuação é calculada da seguinte maneira: pontuação estandardizada = observação − média desvio padrão .
  • 40. CAPÍTULO 5. DISTRIBUIÇÃO NORMAL 33 Por exemplo, uma pontuação de 24 unidades num teste, cuja média foi de 18 e o desvio padrão de 6, é equivalente a (24−18 6 =)1 unidade de pontuação estandardizada. Uma pontuação estandardizada de 1 corresponde sempre ao percentil de ordem 84, qualquer que seja a distribuição normal original.
  • 41. Capítulo 6 Análise de Regressão Seja Y uma variável aleatória dependente cuja variação é afectada pela variação da variável independente X. Sejam X1, X2, ..., Xn os valores escolhidos arbitrariamente para X e Yi(i = 1, ..., n) os correspondentes valores de Y . 6.1 Regressão Linear e Simples A partir dos valores observados, podemos estimar a recta de regressão linear e simples (com uma só variável independente). A forma da recta é: Yx = α + β(X − X) em que X é a média aritmética dos n valores de X, X1, X2,... ,Xn e α e β são calculados através de α = n i=1 Yi n β = n i=1(Xi − X)(Yi − Y ) n i=1(Xi − X)2 = n i=1(Xi − X)Yi n i=1(Xi − X)2 . Embora seja possível fazer interpolação, isto é, calcular o valor de Y que corres- ponde a um dado valor de X = X0, se este pertencer ao intervalo definido pelos valores X1, X2, ..., Xn usados nos cálculos, a extrapolação deve ser implementada com cuidado pois, 1. embora existindo uma relação linear entre X e Y (esta pode ser adequada na região definida pelo conjunto de valores usados), o modelo pode deixar de ser válido fora da região definida por esse conjunto, 2. quanto mais afastado X0 estiver de X, maior será o erro de extrapolação. 34
  • 42. CAPÍTULO 6. ANÁLISE DE REGRESSÃO 35 6.2 Regressão não linear Além do modelo de regressão linear, existem outros modelos que podem descrever a de- pendência de Y em relação a X. Mesmo assim, a análise de regressão já definida pode ser aplicada, desde que seja possível para isso redefinir as variáveis ou transformar a equação, de modo a conseguir-se um modelo linear nos parâmetros. Como primeiro exemplo, considere o caso em que Y = α + βX2 . A equação é já linear nos parâmetros α e β e a única não linearidade está na variável independente X. No segundo exemplo, Yx = Xβ , mais complicado, a não linearidade envolve directamente o parâmetro β a ser calculado. Esta equação exige uma transformação de variáveis que a torne linear em β. Para o primeiro caso, o modelo matemático, no caso geral, é Yx = α + βw + γw2 com w = W − W. Se fizermos x = w e z = w2 , este modelo reduz-se a um modelo linear e múltiplo. Para o segundo caso, se aplicarmos logaritmos, obtemos o modelo ln Yx = β ln X ou yx = βx que já é linear no parâmetro β, sendo, neste caso, x = ln X e y = ln Y . Este modelo é agora linear e simples, sem constante α.
  • 44. Capítulo 7 Componentes do estudo Comecemos pela definição: Definição 7.0.1 Uma série cronológica é um conjunto de observações feitas em períodos sucessivos de tempo, durante um certo intervalo. Exemplo 7.0.1 Valores da taxa bruta de natalidade, em anos sucessivos. Exemplo 7.0.2 Percentagem da população com idade inferior a 7 anos, em anos suces- sivos. Vamos designar o conjunto dessas observações por X1, X2, ..., Xn e vamos supor que foram feitas nos períodos de tempo t1, t2, ..., tn contados a partir de uma origem fixada. As observações são normalmente feitas em períodos de tempo igualmente espaçados. 7.1 Representação gráfica de uma série cronológica Para iniciar a análise de uma série cronológica deve representar-se graficamente as ob- servações. Esta representação gráfica chama-se cronograma. Nos eixos das ordenadas marca-se o valor da série. No eixo das abcissas marca-se o tempo (ver figura 7.1) 7.2 Estudo de uma série cronológica Duas das questões mais importantes a ter em conta no estudo de uma série cronológica são: • A comparação entre valores da série se o intervalo entre tempos não é constante. Pode ser ultrapassada fazendo uma correcção aos valores da série. • A variação da população a que se refere o fenómeno. As variações sofridas ao longo do tempo que sejam devidas à variação no número de elementos da população não interessam. A análise das variações deve ser feita em termos relativos. 37
  • 45. CAPÍTULO 7. COMPONENTES DO ESTUDO 38 0 1 2 3 4 5 6 t1 t2 t3 t4 t5 t6 t7 t8 tem po valordasérie cronogram a Figura 7.1: Gráfico de uma série cronológica Constata-se que na maior parte das séries cronológicas as sucessivas observações não são independentes. Por exemplo, o valor da observação no instante t3 depende dos valores nos instantes t1 e t2. Quando se verifica dependência é possível prever valores futuros tendo como base valores da série já observados. O estudo de uma série cronológica consiste na descrição, na explicação, na previsão e no controlo dessa série. Assim, • a descrição consiste na caracterização do comportamento através da identificação de pontos altos e baixos, distância entre eles, valores aberrantes e pontos de viragem; • a explicação compreende a formulação de hipóteses e a tentativa de construir um modelo matemático que permita descrever o comportamento da série até ao presente; • a previsão estabelece uma relação entre o comportamento observado da série e o comportamento futuro; • o controlo é um fenómeno que tenta modificar o comportamento futuro da série.
  • 46. Capítulo 8 Decomposição Algumas séries cronológicas são influenciadas por uma ou duas causas dominantes. Outras são influenciadas por uma infinidade de causas. É conveniente decompor as séries cronológicas em componentes que se agrupam em: movimentos sistemáticos    tendência (’trend’) movimento sazonal movimento oscilatório movimentos não sistemáticos movimento aleatório • A tendência é a variação em média, ao longo do tempo (compreende os movimen- tos que se manifestam suave e consistentemente ao longo de um período grande de tempo). • Os movimentos sazonais são variações em relação à tendência que ocorrem, em geral, dentro de um ano. Os movimentos sazonais podem ter causas naturais e causas sociais. – As causa naturais estão associadas (quase sempre) com as estações do ano. – As causa sociais estão associadas com usos, costumes e tradições sociais. • Os movimentos oscilatórios ocorrem mais em séries económicas e associam-se a ciclos económicos de expansão e depressão. Não apresentam periodicidade definida. Estes são difíceis de separar da tendência. • Os movimentos aleatórios são de carácter fortuito, irregulares e de origem desco- nhecida. Exemplos: guerras, epidemias, greves, secas, ... Para o estudo da série é aconcelhável identificar e limitar primeiro a tendência, depois os movimentos sazonais e finalmente as oscilações. 39
  • 47. Capítulo 9 Estudo da tendência A tendência é um movimento suave e consistente ao longo de um período grande de tempo (o termo grande é relativo pois o que é grande para uma série pode ser pequeno para outra). O número de anos em que se deve considerar a tendência varia de série para série. Algumas causas da presença da tendência numa série cronológica são: • causas relacionadas com variações na população; • causas relacionadas com idade, saúde, educação, constituição, conhecimentos teóricos da população; • causas relacionadas com a qualidade e quantidade de recursos. Estas causas estão relacionadas entre si. Os objectivos a atingir com a determinação da tendência são: 1. Estudá-la para extrapolar como forma de prever o comportamento da série no futuro; 2. Eliminá-la para estudar as outras componentes (sazonalidade, oscilação e aleatorie- dade). Quando se elimina a tendência, a série diz-se estacionária. 9.1 Métodos para estudo da tendência Os dois métodos mais importantes para estudar a tendência são: 1. Método das médias móveis 2. Método analítico 40
  • 48. CAPÍTULO 9. ESTUDO DA TENDÊNCIA 41 9.1.1 Método das médias móveis O método das médias móveis consiste em calcular a média aritmética de observações contidas em escalões, tomando-a como estimativa do valor local da tendência. Assim, as etapas a seguir são: 1. começa-se por dividir a série em escalões, com igual número de termos sobrepostos; • o número de observações em cada escalão chama-se período da média móvel, (ver figura 9.1) x x x x x x x x x x Figura 9.1: Escalões de período igual a 3 • Se tem k observações em cada escalão, existem k − 1 observações em comum com os escalões seguintes (e anteriores). 2. Calculam-se as estimativas locais da tendência; • Se k é impar (k = 2m + 1): as estimativas da tendência são (exemplo com k = 3, m = 1) t2 = X1 + X2 + X3 3 t3 = X2 + X3 + X4 3 t4 = X3 + X4 + X5 3 ... tn−1 = Xn−2 + Xn−1 + Xn 3 e a tendência não é estimada para os primeiros e últimos m pontos do tempo. • Se k é par (k = 2m)
  • 49. CAPÍTULO 9. ESTUDO DA TENDÊNCIA 42 i) as estimativas da tendência calculam-se em pontos médios de um intervalo (exemplo com k = 4, m = 2) ponto médio de [2, 3] = X1 + X2 + X3 + X4 4 ponto médio de [3, 4] = X2 + X3 + X4 + X5 4 ponto médio de [4, 5] = X3 + X4 + X5 + X6 4 ... ii) para centrar estas médias, calcula-se uma 2a média móvel de período 2 [2, 3] = X1+X2+X3+X4 4 [3, 4] = X2+X3+X4+X5 4 ⇒ t3 = X1+X2+X3+X4 4 + X2+X3+X4+X5 4 2 . Do mesmo modo t4 = X2+X3+X4+X5 4 + X3+X4+X5+X6 4 2 , ... O método das médias móveis é um caso particular dos filtros lineares, filtros esses que transformam uma série X noutra Y , por meio de uma operação linear. 9.1.2 Método analítico Com o método analítico a determinação da tendência é feita ajustando uma função da variável tempo (t) ao cronograma da série cronológica. Este ajuste é feito, em geral, pelo método dos mínimos quadrados. De acordo com o tipo de função assim podemos ter tendências lineares, parabólicas, exponenciais, ... A função vai traduzir uma lei matemática que se admite ser seguida pela tendência. A escolha do tipo de função a ajustar não é fácil e este processo deve ser iniciado com a representação gráfica da série e inspecção cuidada do cronograma. Tendência linear O modelo mais simples que é possível representar é o modelo linear com a seguinte forma: Xt = α + βt. (9.1) Como Xt = α + β(t − t) = α + βt − βt = α − βt + βt,
  • 50. CAPÍTULO 9. ESTUDO DA TENDÊNCIA 43 tem-se α = α − βt (9.2) em que t é a média aritmética dos tempos, t1, t2, ..., tn, e os valores de α e β são calculados da seguinte maneira: α = X1 + X2 + ... + Xn n (9.3) e β = (t1 − t)X1 + (t2 − t)X2 + ... + (tn − t)Xn (t1 − t)2 + (t2 − t)2 + ... + (tn − t)2 . (9.4) O valor de α da equação Xt = α + βt chama-se ordenada na origem, isto é, quando t = 0, Xt = α, e β representa o declive da recta. Este declive dá a variação verificada em Xt quando t varia de um período de tempo (constante). O quadrado do coeficiente de correlação das duas variáveis X e t, r2 (coeficiente de determinação) dá a percentagem da variação da série original explicada pela tendência linear. A diferença 100% − r2 % é a variação explicada pelos outros movimentos. Além da tendência linear, descrita por um polinómio linear, existem outros tipos, tais como: tendências quadráticas (polinómio quadrático), tendências cúbicas (polinómio cú- bico), exponenciais, etc. Exemplo 9.1.1 Considere a seguinte tabela de valores [2]: Ano t X desvios:X − Xt 1973 1 233 41.258 1974 2 250.3 39.884 1975 3 158 -71.09 1976 4 178.3 -69.464 1977 5 293.5 27.062 1978 6 309.5 24.388 1979 7 279 -24.786 1980 8 355.2 32.74 O cronograma está representado na figura 9.2. No ajuste de uma tendência linear, usando as equações (9.3), (9.4), (9.2) e finalmente (9.1), obtêm-se Xt = 173.068 + 18.674 t. A representação desta recta está na figura 9.2. A interpretação é a seguinte - A partir de uma valor de 173.068 verificado para t = 0 (1972), a tendência (Xt) aumenta (β > 0), em média, por ano (ver 1a coluna da tabela) 18.67. Se calcularmos o coeficiente de determinação, r2 , teremos r2 = 0.475, ou seja, 47.5% da variação da série original é explicada pela tendência, ficando 52.5% à conta dos outros
  • 51. CAPÍTULO 9. ESTUDO DA TENDÊNCIA 44 150 200 250 300 350 400 450 1 2 3 4 5 6 7 8 t X X Linear Quadrática Exponencial Figura 9.2: Cronograma da série e modelos ajustados
  • 52. CAPÍTULO 9. ESTUDO DA TENDÊNCIA 45 movimentos. Na figura 9.2 estão também representadas duas funções. Uma quadrática e outra exponencial , que corresponderiam a ajustes de modelos quadráticos e exponenciais, respectivamente. Os desvios, X − Xt, calculados pela diferença entre os valores observados, X, e os valores da tendência linear, Xt, representam a série corrigida da tendência. Para a série do exemplo 9.1.1, os desvios estão representados na figura 9.3. -100 -80 -60 -40 -20 0 20 40 60 80 100 1 2 3 4 5 6 7 8 t Figura 9.3: Desvios. Série corrigida da tendência A diferença entre o método das médias móveis e o método analítico é considerável. No primeiro, não se considera a tendência como definida por qualquer lei e obtém-se apenas uma curva ”suave”, sem outros movimentos. Com o segundo método, determina-se uma função que traduz uma certa lei matemática que se admite ser seguida pela tendência.
  • 53. Capítulo 10 Movimento sazonal Os movimentos sazonais são variações que ocorrem dentro de um ano e de acordo com um certo modelo (mais ou menos rígido) que se repete de ano para ano. São todos os movimentos periódicos de período igual ou inferior a um ano. Exemplo 10.0.2 Sazonalidade de casamentos[1] (índices) Paróquias Mês Sul do Pico Transmontanas Guimarães Jan 122 126 117 Fev 164 172 160 Mar 29 91 64 Abr 52 111 118 Mai 140 131 127 Jun 105 98 111 Jul 73 64 64 Ago 69 68 76 Set 93 83 78 Out 154 75 96 Nov 161 78 110 Dez 39 104 94 Deste exemplo é visível que a marcação de casamentos, nalgumas regiões, é afectada por: • razões sociais: respeito pelas interdições da Quaresma, Advento • razões económicas: fainas agrícolas, preparação das vinhas (fim de inverno), vindi- mas, pastagens no verão. 46
  • 54. CAPÍTULO 10. MOVIMENTO SAZONAL 47 10.1 Método para determinar as flutuações sazonais 10.1.1 Método das médias mensais O termo mensal está relacionado com o facto do período sazonal ser de um ano e estar dividido em meses. Neste caso deve-se trabalhar com médias mensais. Se o ciclo for outro, por exemplo, o ano dividido em trimestre deve-se trabalhar com médias trimestrais. O método das médias mensais só deve aplicar-se a uma série quando os dados não apresentarem tendência ou quando esta não for muito pronunciada. Existindo tendência, esta viciará os índices. Assim, o método das médias mensais só deve ser aplicado depois de se ter eliminado a tendência. Se a tendência foi estimada através do ajuste de uma recta, Xt = α + βt (ver (9.1)), os desvios em relação à tendência traduzem a série corrigida da tendência e é a partir destes valores corrigidos que se calculam os índices sazonais. As etapas do método são as seguintes: 1. Dispôr as observações num quadro da seguinte maneira: mêsano 1900 1901 1902 ... Total Média Índice Jan ... Fev ... Mar ... Abr ... Mai ... Jun ... Jul ... Ago ... Set ... Out ... Nov ... Dez ... Total ... (este exemplo refere-se a um período dividido em meses) 2. Calcular os totais (somas) referentes aos meses e colocá-los na coluna referenciada com Total; 3. Calcular as médias para cada mês e colocá-las na coluna referenciada por Média; 4. Calcular a média das médias (média geral) e colocá-la na última célula da coluna ”Média”;
  • 55. CAPÍTULO 10. MOVIMENTO SAZONAL 48 5. Os índices sazonais são calculados como a percentagem da média de cada mês em relação à média geral. Nota 10.1.1 A soma dos índices é 1200. Nota 10.1.2 O nível que traduz ausência de sazonalidade é igual a 100. Assim, os índices são interpretados da seguinte maneira: • Um valor menor que 100 indica que nesse mês a flutuação sazonal se traduz numa quebra em relação ao nível ’normal’ (100); • Um valor maior que 100 indica um aumento em relação ao nível normal. Nota 10.1.3 Também existe o método das médias móveis para estudar a sazonalidade [2].
  • 57. Capítulo 11 Estruturas populacionais Iremos estudar alguns dos aspectos globais da população através do seu volume, ritmo de crescimento e densidade. 11.1 Taxas de crescimento Quando temos, ao longo do tempo, informação variada sobre o volume de uma população queremos numa primeira análise calcular o ritmo de crescimento. O valor do ritmo de crescimento deve corresponder a um resultado anual médio para ser possível fazer compa- rações em períodos de amplitudes diferentes. O ritmo de crescimento de uma população pode ser i) Contínuo: com Pn = P0ean (11.1) onde: e = 2.718282 (exponencial) Pn =população num momento n P0 =população num momento 0 a =taxa de crescimento. Aplicando logaritmos neperianos (ln) a (11.1) temos ln Pn = ln P0 + ln ean ln Pn − ln P0 = an ln Pn P0 = an 50
  • 58. CAPÍTULO 11. ESTRUTURAS POPULACIONAIS 51 e a = ln Pn P0 n (11.2) onde a corresponde à taxa de crescimento contínuo. ii) Aritmético: com Pn = P0(1 + an) ou seja Pn = P0 + P0an Pn − P0 = P0an e a = Pn − P0 P0n (11.3) onde a corresponde à taxa de crescimento aritmético. iii) Geométrico: com Pn = P0(1 + a)n (11.4) ou seja Pn P0 = (1 + a)n (11.5) e aplicando logaritmo na base 10 a (11.5) temos log Pn P0 = n log(1 + a) log(1 + a) = log Pn P0 n , ou seja 1 + a = 10 log Pn P0 n e a = 10 log Pn P0 n − 1 (11.6) onde a corresponde à taxa de crescimento geométrico. Exemplo 11.1.1 Se em 1821 a população de uma região era de 3276203 habitantes, e se a taxa de crescimento, a, é de 0.25%, qual a população ao fim de 5, 25 e 100 anos?
  • 59. CAPÍTULO 11. ESTRUTURAS POPULACIONAIS 52 i) Se for crescimento contínuo P5 = 3276203e0.0025×5 = 3317412 P25 = 3276203e0.0025×25 = 3487500 P100 = 3276203e0.0025×100 = 4206728 ii) Se for crescimento aritmético P5 = 3276203(1 + 0.0025 × 5) = 3317156 P25 = 3276203(1 + 0.0025 × 25) = 3480966 P100 = 3276203(1 + 0.0025 × 100) = 4095254 iii) Se for crescimento geométrico P5 = 3276203(1 + 0.0025)5 = 3317361 P25 = 3276203(1 + 0.0025)25 = 3487228 P100 = 3276203(1 + 0.0025)100 = 4205416 (ver figura 11.1) Exemplo 11.1.2 Análise prospectiva: Se a taxa de crescimento geométrico for a = 0.0021 (0.21%), ao fim de quantos anos (n?) duplicará a população? Crescimento geométrico: Pn = P0(1 + a)n 2P0 = P0(1 + a)n 2P0 P0 = (1 + a)n 2 = (1 + a)n . Aplicando logaritmos, log 2 = n log(1 + a) 0.30103 = n log(1.0021) 0.30103 = n × 0.0009111 n = 0.30103 0.0009111 e n = 330, 4... R: ao fim de 330 anos
  • 60. CAPÍTULO 11. ESTRUTURAS POPULACIONAIS 53 3276000 3376000 3476000 3576000 3676000 3776000 3876000 3976000 4076000 4176000 5 25 100 a no população contínuo aritmético geom étrico Figura 11.1: Variações da população
  • 61. CAPÍTULO 11. ESTRUTURAS POPULACIONAIS 54 Exemplo 11.1.3 Análise regressiva: A população em 1821 era de 3276203 habitantes. Se admitirmos que o ritmo de cres- cimento na primeira metade do sec XIX era de 0.0021 (a = 0.21%) qual teria sido a população em 1801? Sabe-se que em 1821, n = 20, Pn = P20 = 3276203. Considerando 1801 como o ano 0, queremos saber P0 (com crescimento geométrico). Pn = P0(1 + a)n 3276203 = P0(1 + 0.0021)20 3276203 P0 = (1 + 0.0021)20 . Aplicando logaritmos, log 3276203 P0 = 20 log(1.0021) log 3276203 P0 = 0.01822. Aplicando agora a função inversa, potência de 10, 3276203 P0 = 100.01822 3276203 P0 = 1.04285 e P0 = 3276203 1.04285 = 3141586. 11.2 Cálculo das densidades populacionais Para calcular a densidade populacional de uma certa região usa-se: dens. pop.= Total de habitantes existentes nessa região superficie (em km2) dessa região Exemplo 11.2.1 Se a superfície de um lugar é de 9 milhares de km2 e a população desse lugar é de 414 milhares de habitantes, a densidade populacional é: dens. pop. = 414 milhares de habitantes 9 milhares por km2 = 46 habitantes por km2
  • 62. CAPÍTULO 11. ESTRUTURAS POPULACIONAIS 55 11.3 Estruturas demográficas A análise de alguns aspectos globais da população também compreende o conhecimento das estruturas demográficas. Uma estrutura demográfica consiste na subdivisão da população em grupos homo- géneos a partir de determinadas características. Existem diversos tipos de estruturas: por sexos e idades, por estado civil, por actividade económica, por níveis de instrução, ... Exemplo 11.3.1 Analisemos a repartição por sexos e idades: a) a repartição por sexos justifica-se pelo facto das populações masculina e feminina desempenharem funções diferentes na sociedade, com incidências demográficas devido a um complexo de factores biológicos, sociais e culturais. b) a repartição por idades justifica-se pela necessidade: • de se analisar os efeitos específicos de cada idade (com o aumento da idade os comportamentos e as capacidades vão-se modificando)1 ; • de se comparar determinados aspectos das fases da vida (início da socialização, instrução primária, primeiro casamento,...) em pessoas com diferentes idades2 . 11.3.1 Pirâmides de idades A pirâmide de idades é uma representação gráfica da distribuição de uma população por sexos e idades, que permite ter uma visão de conjunto das estruturas de idades de uma população. • As idades são representadas num eixo vertical. Os efectivos (população existente) são representados em dois semi-eixos horizontais; o da esquerda é reservado aos efectivos masculinos; o da direita aos femininos. As figuras 11.2 e 11.3 apresentam dois exemplos de pirâmides de idades. • Podemos construir pirâmides por idades e por grupos de idades. • Representando os efectivos em números absolutos, a população em cada idade (ou grupo de idades) é representada por rectângulos, cuja área é proporcional ao efectivo (a ’largura’ é constante e o ’comprimento’ é proporcional ao efectivo ou volume da população (número de habitantes)). 1 Efeito idade 2 Efeito geração
  • 63. CAPÍTULO 11. ESTRUTURAS POPULACIONAIS 56 Figura 11.2: Exemplo de pirâmide de idade [1]
  • 64. CAPÍTULO 11. ESTRUTURAS POPULACIONAIS 57 Figura 11.3: Exemplo de pirâmide de idade [1]
  • 65. CAPÍTULO 11. ESTRUTURAS POPULACIONAIS 58 • A escala utilizada deve ser tal que a pirâmide terá uma altura igual (≈) a 2 3 da largura total. • Podem aparecer vários tipos de pirâmides, embora a mais vulgar seja a ’triangular’. Assim, existem as pirâmides com forma de 1. acento circunflexo que é típica dos países não desenvolvidos com mortalidade e natalidade muito elevadas e caracteriza-se por ter uma base larga e topo muito reduzido; 2. urna que é típica dos países desenvolvidos com baixos níveis de mortalidade e natalidade e tem uma base muito reduzida e um topo bastante empolado; 3. ás de espadas, típica dos países desenvolvidos com aumento de fecundidade num certo período de tempo. • Quando trabalhamos com grupos de idades, a largura do rectângulo é proporcional ao número de anos existentes em cada grupo. Se os grupos forem quinquerais (muito vulgar) basta fixar uma largura, que será constante. O comprimento é proporcional ao total dos efectivos das diversas idades (que com- põem o grupo) dividido pelo número de anos do grupo (quinquenal→5). • Se interessar fazer comparações no tempo ou no espaço, é mais conveniente represen- tar os efectivos relativos. A comparação passa a ser feita em termos de percentagens entre os diferentes grupos de idades. 11.3.2 Grupos funcionais Quando temos que comparar muitas estruturas populacionais, ao longo do tempo, para verificar a sua evolução, ou comparar estruturas de um número vasto de localidades, surgem vulgarmente muitos gráficos a partir dos quais é difícil tirar conclusões. Para uma visão mais rápida da evolução ou da diversidade de estruturas é mais conveniente compactar a informação disponível, de acordo com determinados critérios. O mais importante é a idade. É possível concentrar a análise num número reduzido de subgrupos, chamados grupos funcionais. Por exemplo, dividir a população em três grandes grupos: 0-14 anos que define a população jovem, 15-64 anos que define a população activa e 65 e +anos que define a população velha. Uma outra divisão consiste nos seguintes grupos: 0-19, 20-59 e 60 e + anos. É possível ainda pegar num destes grupos e dividi-lo. Por exemplo, o grupo 20-59 pode dividir-se em 20-39, população activa jovem, e 40-59, população activa velha. Se o critério para a definição de grupos funcionais for o da escolaridade, teríamos os seguintes grupos: 0-5 (população em idade pré-escolar), 5-18 (população em idade escolar) e 18-24 (população em idade universitária).
  • 66. CAPÍTULO 11. ESTRUTURAS POPULACIONAIS 59 Definidos os grupos funcionais deve proceder-se à manipulação dos dados, transformando- os em índices-resumos que se constroem a partir dos grupos funcionais. Os índices-resumos mais importantes são: • percentagem de jovens população com 0-14 (ou 0-19) anos população total × 100% • percentagem de activos população com 15-64 (ou 20-59) anos população total × 100% • percentagem de velhos população com 65 e + (ou 60 e +) anos população total × 100% • índice de vitalidade (’racio’ entre velhos e jovens) população com 65 e + anos população com 0-14 × 100% • ’racio’ de dependência dos jovens população com 0-14 população com 15-64 × 100% • ’racio’ de dependência dos velhos população com 65 e + anos população com 15-64 × 100% • ’racio’ de dependência total população com 0-14 e 65 e + anos população com 15-64 × 100%
  • 67. Capítulo 12 Qualidade dos dados 12.1 Relação de masculinidade As pirâmides de idades nunca são simétricas pois nascem mais rapazes do que raparigas. Por cada 100 raparigas nascem 105 rapazes. No entanto a mortalidade (factor fundamental na análise da redução dos diversos efectivos) é mais intensa nos homens do que nas mu- lheres. Factores como as migrações, guerras, ... podem modificar ainda mais a assimetria ’natural’. A relação de masculinidade é dada pelo quociente, para cada idade (ou grupo de idades), efectivos masculinos efectivos femininos × 100. Como a relação de masculinidade dos nascimentos ronda os 105, a relação de masculi- nidade do primeiro grupo de idades é muito próxima de 105. À medida que se avança na idade, devido ao facto de que a mortalidade masculina é superior à mortalidade feminina, as relações de masculinidade diminuem. É o efeito idade. O índice, relação de masculinidade dos nascimentos, é frequentemente utilizado para apreciar a qualidade do registo de nascimentos, por sexos. Normalmente existem omissões mais acentuadas num sexo do que noutro. Quando o número de nascimentos não é suficientemente grande, alguns desvios podem ser consequência directa de flutuações aleatórias mesmo estando em presença de observa- ções perfeitas. No entanto, é possível calcular um intervalo de variação deste erro, em função do número de nascimentos observados: 1. Para uma relação de masculinidade de 105, em 1000 nascimentos teríamos 512 mas- culinos e 488 femininos. A proporção de rapazes é de 0.512 = 512 1000 . A proporção de raparigas é então de 0.488. 2. Os limites do intervalo de confiança a 95% (0.95 de probabilidade de conter o valor) para a proporção são 60
  • 68. CAPÍTULO 12. QUALIDADE DOS DADOS 61    0.512 − 1.96 0.512 × 0.488 n i , 0.512 + 1.96 0.512 × 0.488 n s    em que n representa o número total de nascimentos. 3. Os limites de confiança da relação de masculinidade são i 1 − i × 100, s 1 − s × 100 em que i e s são respectivamente os limites inferior e superior do intervalo do passo anterior. 4. Se o valor da relação de masculinidade observado está fora do intervalo (do passo anterior) é de admitir uma má qualidade no registo dos nascimentos. Se for superior existe provavelmente um sobre-registo dos nascimentos masculinos (menos provável) ou um sub-registo dos femininos (mais provável). 12.2 Índice de Whipple O método baseado no cálculo da relação de masculinidade dos nascimentos e, quando o número de nascimentos é pequeno, do intervalo de variação (limites de confiança da relação de masculinidade) serve para analisar a qualidade dos dados das estatísticas demográficas. O método baseado no índice de Whipple serve para analisar determinado tipo de distorção existente nos recenseamentos. O tipo de distorção referida é a atracção pelos números (idades) terminados em 0 e 5. Sabe-se que em demografia e em países não desenvolvidos e há muitos anos atrás as pessoas tinham dificuldade em declarar com exactidão a sua idade. Por exemplo, pessoas com 48, 49, 51 e 52 anos de idade tinham a tendência em declarar que tinham 50 anos. Esta idade aparecia com muitos registos e os valores adjacentes tinham poucos efectivos. O índice de Whipple constrói-se da seguinte maneira: 1. calcula-se o número de pessoas entre 23 e 62 anos (inclusivé); 2. calcula-se o número de pessoas que, no intervalo de idades de 23 a 62 anos, têm idades registadas que terminam em 0 e 5; 3. calcula-se o índice IW = no de pessoas na alínea 2 × 5 no de pessoas na alínea 1 × 100.
  • 69. CAPÍTULO 12. QUALIDADE DOS DADOS 62 O IW pode variar entre 100 (ausência de concentração) e 500 (caso limite em que todas as pessoas declaram idades terminadas em 0 e 5) Para facilitar a análise usa-se a escala de valores do anuário demográfico das Nações Unidas de 1963. Assim se pode concluir-se que IW < 105 dados muito exactos 105 ≤ IW < 110 dados relativamente exactos 110 ≤ IW < 125 dados aproximados 125 ≤ IW ≤ 175 dados grosseiros IW > 175 dados muito grosseiros 12.3 Índice de irregularidade Este índice serve para medir qualquer tipo de atracção, por exemplo, pelos números pares e impares, pelo número 0, pelo número 5, pelos números terminados em 1,2,3, ... O índice de irregularidade constrói-se da seguinte forma: 1. calcula-se o número de pessoas com a idade cuja atracção se pretende medir; 2. calcula-se a média aritmética do número de pessoas com as 5 idades que enquadram a idade que se pretende analisar; 3. calcula-se o índice II = no de pessoas da alínea 1 no de pessoas da alínea 2 × 100 Quanto mais o II se afasta de 100 mais demonstra a força da atracção. 12.4 Índice combinado das Nações Unidas Este índice serve para medir a qualidade global de um recenseamento. Este índice combina três indicadores:    indicador de regularidade das idades das pessoas do sexo masculino indicador de regularidade das idades das pessoas do sexo feminino indicador de masculinidade O índice combinado das Nações Unidas calcula-se da seguinte maneira: 1. calcula-se o índice de regularidade dos sexos (i.r.s.) da seguinte forma:
  • 70. CAPÍTULO 12. QUALIDADE DOS DADOS 63 i.r.s. = média aritmética das diferenças, em valor absoluto, entre as relações de masculinidade dos grupos sucessivos 2. calcula-se o índice de regularidade das idades do sexo masculino (i.r.i.(M)) e do sexo feminino (i.r.i.(F)) da seguinte maneira: i.r.i.(M) = média aritmética das diferenças, em valor absoluto, entre as relações de regularidade (r.r.) e o 100 com r.r.= efectivos do grupo média aritmética dos efectivos dos 2 grupos adjacentes × 100 (com fórmulas idênticas para o i.r.i.(F)) 3. calcula-se o índice ICNU=3 × (i.r.s.)+i.r.i.(M)+i.r.i(F) Para faciliar a interpretação existe uma grelha (das Nações Unidas) classificativa: se pode concluir-se que ICNU < 20 a validade do recenseamento é boa 20 ≤ ICNU < 40 a qualidade é má ICNU ≥ 40 a qualidade é muito má 12.5 A equação da concordância A equação da concordância tem como objectivo verificar se existe ou não uma con- cordância entre os diversos dados disponíveis. Estes dados estão relacionados com os dois tipos de movimentos: natural migratório que se verificam num determinado período de tempo. Considerem-se dois instantes x e x + n (n anos após o instante x), i.e., dois períodos com n anos de diferença. Se conhecermos a população nos dois instantes:
  • 71. CAPÍTULO 12. QUALIDADE DOS DADOS 64 Px ← população no momento x Px+n ← população no momento x + n e se N é o número de nascimentos verificados naquele período, O, o número de óbitos ocorridos naquele período, E, o número de emigrantes naquele período, e I, o número de imigrantes no mesmo período, então a equação da concordância (se todos os elementos nela intervenientes tiverem sido correctamente apurados) é: Px+n = Px + N − O + I − E em que N − O representa o crescimento natural e I − E representa o crescimento migratório. A Px + N − O + I − E chama-se população esperada. Quando a população esperada não coincide com a população recenseada, Px+n, deve-se tentar explicar essa diferença. Três hipóteses podem ser formuladas: 1. as parcelas N e I (+) estão subavaliadas; 2. as parcelas O e E (-) estão sobreavaliadas; 3. os recenseamentos não são de boa qualidade. Face à realidade do país em estudo (na época em estudo) assim se podem tirar as conclusões mais acertadas. Algumas recomendações: 1. Face à diferença observada entre população esperada e população recenseada ter em atenção o sinal dessa diferença; 2. Verificar a qualidade dos dados pelos índices de irregularidade e Whipple e ICNU e pela relação de masculinidade dos nascimentos. Se a qualidade for boa, afasta-se a hipótese de recenseamento de má qualidade. 3. Resta uma análise dos movimentos migratórios; 4. Resta ainda uma análise dos registos de nascimento e dos óbitos. Nos registos de nascimento, a relação de masculinidade dos nascimentos ajuda a concluir sobre o subregisto (ou sobreregisto). 5. Notar que é mais frequente um subregisto do que um sobreregisto.
  • 72. Capítulo 13 Análise da mortalidade O estudo da mortalidade, enquanto fenómeno social, gira em torno das três vertentes: 1. caracterização do declínio observado na época em estudo; 2. estudo dos factores responsáveis por esse declínio; 3. estudo das diferenças observadas entre determinados grupos (mortalidade diferencial) 13.1 Taxa bruta de mortalidade A taxa bruta enquanto medida elementar de análise da mortalidade geral é dada por t.b.m.= total de óbitos num período população média existente nesse período × 1000 t.b.m. significa taxa bruta de mortalidade. A taxa bruta de mortalidade pode ser calculada como resultante da interacção entre o modelo do fenómeno e a estrutura por idades. A t.b.m. é a soma dos produtos das estruturas relativas em cada idade (ou grupo de idades) pelas taxas nessas idades (ou grupo de idades): x=0 Pxtx em que Px representa a estrutura relativa em cada grupo de idades (proporção) e é igual a população do grupo de idades população total e tx é a taxa de mortalidade do grupo que é igual a total de óbitos no grupo população no grupo × 1000. Ao conjunto de taxas por idades (ou grupo de idades) chama-se modelo do fenómeno. 65
  • 73. CAPÍTULO 13. ANÁLISE DA MORTALIDADE 66 Exemplo 13.1.1 [3] Completar e Grupos de idades total de óbitos população tx × 1000 Px Pxtx 1 1848 46514 39,73 0,0326 1,30 1-4 1087 184916 5,88 0,1295 0,76 5-9 318 215461 1,48 0,1509 0,22 10-14 171 173563 0,99 0,1215 0,12 15-19 198 145227 1,36 0,1017 0,14 20-24 197 125339 1,57 0,0878 0,14 25-29 185 101699 30-34 182 82518 35-39 200 73395 40-44 247 60945 45-49 251 53330 50-54 346 46561 55-59 398 37816 60-64 483 27889 65-69 502 20397 70+ 2463 32502 Total 9076 1428082 1,0000 6,37 • calcular a taxa bruta de mortalidade (geral); • calcular a taxa bruta de mortalidade como resultante da interacção entre modelo e estrutura. Por este processo ficam visíveis os factores intervenientes - o modelo e as estruturas. Quando surgem diferenças nos valores da t.b.m., elas podem vir dos tx (modelos) ou dos Px (estruturas) e têm significados diferentes: • Variações entre modelos (tx) significam a existência de diferentes riscos de mortali- dade (diferenças nas condições gerais de saúde e higiene); • Variações entre estruturas (Px; maior ou menor envelhecimento) são alheias ao fenó- meno em análise. As taxas brutas são muito sensíveis aos efeitos da estrutura. Basta as proporções da população serem diferentes nos grupos em que a mortalidade é mais intensa para termos importantes efeitos de estrutura que nos impossibilitam a comparação entre países, regiões ou épocas. A validade de uma análise feita através das taxas brutas é tanto menor quanto mais di- versificadas forem as estruturas das regiões ou épocas que se querem comparar. A validade aumenta com a homogeneização das estruturas populacionais.
  • 74. CAPÍTULO 13. ANÁLISE DA MORTALIDADE 67 13.2 Tipos particulares de mortalidade 1. A taxa de mortalidade por idades e por grupos de idades é dada por total de óbitos entre as idades exactas população média existente entre essas idades × 1000 2. A taxa de mortalidade infantil (t.m.i) calcula-se da seguinte maneira: total de óbitos entre 0 e 1 anos exactos população média existente entre 0 e 1 anos exactos × 1000 Exemplo 13.2.1 Se numa região houve 11751 nascimentos em 1961, 11730 em 1962, 385 óbitos com menos de 1 ano de vida em 1962, então a t.m.i. em 1962 é: t.m.i. = 385 11740.5 × 1000 = 32.8 por mil 3. A taxa de mortalidade infantil clássica (t.m.i.c.) é dada por total de óbitos com menos de 1 ano total de nascimentos nesse ano × 1000. Tradicionalmente esta medida da taxa de mortalidade infantil relacionava o número de óbitos com menos de um ano e o efectivo dos nascimentos nesse ano (noção de quociente - proporção). Exemplo 13.2.2 Tomando os valores do exemplo 13.2.1: t.m.i.c.= 385 11730 × 1000 = 32.8 por mil Esta definição não é totalmente satisfatória pois os óbitos ocorridos num ano não resultam apenas de nascimentos desse ano. Sem informação relativa ao ano de nas- cimento do óbito ocorrido num certo ano, podemos imputar os óbitos a uma média ponderada dos dois efectivos de nascimentos em causa (do ano em questão e do ante- rior). Este novo processo para calcular a mortalidade infantil chama-se método da média ponderada (m.m.p.). Os coeficientes de ponderação que se devem usar são os da tabela:
  • 75. CAPÍTULO 13. ANÁLISE DA MORTALIDADE 68 Ponderação da mortalidade infantil (método de Shryock e Siegel) t.m.i.c. k k 200 0.6 0.4 150 0.67 0.33 100 0.75 0.25 50 0.8 0.2 25 0.85 0.15 15 0.95 0.05 Os coeficientes de ponderação a usar têm em conta os seis tipos de população, de acordo com o nível de mortalidade infantil esperado e que é determinado pela taxa de mortalidade infantil clássica. Assim t.m.i.(m.m.p.)= total de óbitos com menos de 1 ano k N0 + k N1 × 1000 sendo N0 o total de nascimentos do ano anterior, N1 o total de nascimentos daquele ano e k e k os coeficientes da tabela que correspondem à t.m.i.c. calculada. Exemplo 13.2.3 Do exemplo 13.2.1: t.m.i.(m.m.p.) = 385 0.15(11751) + 0.85(11730) × 1000 = 32.8 por mil uma vez que a t.m.i.c.=32.8 e da tabela, o valor mais próximo, corresponde à 2a linha a contar do fim. 4. Taxas de mortalidade endógena e exógena As causas que originam a mortalidade infantil são endógenas e exógenas. As endógenas são consequência de deformações congénitas, doenças hereditárias ou traumatismos causados pelo parto. Estes óbitos ocorrem normalmente durante o primeiro mês (menos de 28 dias). Os óbitos exógenos estão relacionados com doenças infecciosas, alimentação e cuida- dos hospitalares insuficientes ou acidentes. Estes óbitos ocorrem nos restantes meses (de 28 dias até 11 meses). Não havendo registo de óbitos por causas de morte pode usar-se um método (J. Bourgeois-Pichat) que não exige senão o conhecimento dos óbitos por dias e idades. Assim, para se calcular o total de óbitos exógenos, soma-se ao total de óbitos observados no intervalo 28-365 dias, 22.8% destes (ou 25% para uma divisão de 31 a
  • 76. CAPÍTULO 13. ANÁLISE DA MORTALIDADE 69 365 dias). O total de óbitos endógenos é então a diferença entre o total dos óbitos registados e os óbitos exógenos calculados. A taxa de mortalidade infantil clássica é igual à taxa de mortalidade endógena (t.m.end.) mais a taxa de mortalidade exógena (t.m.exo.) sendo t.m.end.= total de óbitos endógenos total de nascimentos do ano × 1000 t.m.exo.= total de óbitos exógenos total de nascimentos do ano × 1000. 13.3 Tábua de mortalidade É possível fazer uma análise da mortalidade de uma população calculando outros índices. O princípio da estandardização [3], que separa o impacte das estruturas do das frequências (modelos), tem como objectivo manter o efeito das estruturas constante, calculando os índices comparativos. Não é contudo o método mais usado. É comum usar o princípio da translação. Com este princípio procura-se estimar a inten- sidade e o calendário a partir das frequências calculadas em transversal. Aplica-se, assim, o método da coorte fictícia que consiste em transpôr os fenómenos que se observam num determinado momento do tempo, para uma coorte imaginária. No caso da mortalidade, a intensidade mede o número médio de acontecimentos por pessoa e o calendário mede a sua repartição no tempo. O calendário, ao ser resumido pelo índice da tendência central, a média, dá-nos a possibilidade de conhecer a duração de vida média das pessoas. No cômputo dos efectivos de uma população podem surgir efectivos de idade ignorada. Havendo um número significativo de pessoas de idade ignorada, pode usar-se um critério de repartição dessas pessoas. Calcula-se o factor (Coale e Demeny) de correcção: população total população total - população de idade desconhecida e os efectivos de cada idade (ou grupo de idades) são multiplicados por este factor. Existem tábuas de mortalidade por idades que se chamam completas, e tábuas de mortalidade por grupos de idades, chamadas tábuas abreviadas. Nota 13.3.1 No caso da tábua de mortalidade abreviada, as diversas funções são calcu- ladas por grupos de idades quinquenais (n=5), excepto no primeiro grupo, que devido à importância da mortalidade infantil, se divide em dois grupos: • menos de 1 ano (n=1) • 1-4 anos completos (n=4). As diversas funções que integram uma tábua de mortalidade são: