Este documento fornece uma introdução à interpretação de gráficos e análises estatísticas. Ele discute a importância de se ter habilidade em interpretar gráficos e resultados estatísticos, e como os dois estão interligados. O documento também apresenta diferentes tipos de gráficos como box plots e gráficos de barras, e explica como ler e interpretar cada um deles.
2. PREFÁCIO
Os gráficos estão presentes na vida de todos, principal-
mente no cotidiano de estudantes de diversas áreas do conheci-
mento. É extremamente comum ver esses alunos de diversos
níveis acadêmicos se deparando com gráficos - seja em sala de
aula, artigos, apresentações de trabalhos em congressos, livros, ou
até em meios cientificamente não convencionais como programas
de televisão, embalagens de alimentos, revistas, entre outros – e
tendo dificuldade na sua interpretação. Isso ocorre especialmente
quando nos deparamos com os meios de comunicação acadêmica,
onde a leitura dos gráficos pode se tornar uma tarefa conflituosa!
Nas ciências biológicas, em especial na ecologia, contamos
diariamente com o avanço tecnológico da computação e as melho-
rias de modelos matemáticos. Aliado a isso, devemos ter a capaci-
dade de analisar grandes conjuntos de dados, como por exemplo,
as diversas variáveis necessárias para tentar compreender as mu-
danças climáticas e suas consequências na biodiversidade.
Temos que ter o cuidado de passar as informações da
maneira mais clara e objetiva nos nossos trabalhos —
Os gráficos são uma ótima ferramenta para isso!
Página 2
3. Gráficos são representações visuais que contem infor-
mação numérica ou espacial. Um gráfico tem a função de facilitar
a interpretação de resultados de testes estatísticos mais compli-
cados, ou sumarizar as informações gigantescas que uma tabela
pode ter. Porém, a depender da informação que está sendo colo-
cada ali, ler e interpretar um gráfico pode ser uma frustração
para o biólogo.
Fazendo uma rápida pesquisa com alguns amigos de
diversos lugares do Brasil – pessoas com distintas formações
acadêmicas — sobre quais são seus maiores medos em relação
ao domínio em estatística, alguns me responderam com a seguin-
te frase: “Uai, meu medo em não saber estatística é não saber
interpretar meus próprios dados”... [dá pra perceber pelo pala-
vreado que foi um mineiro(a) que respondeu a essa pergunta ].
Outros disseram “Então, acho que as atribuições das variáveis.
Receio de escolher elas de forma errada e, na maiorias das vezes,
errar a interpretação dos gráficos”. E mais um chegou a dizer que
“O meu maior medo é fazer uma interpretação incorreta dos
dados”.
Você percebe que o verbo INTERPRETAR apa-
receu em todas as respostas? Parece que não só a
forma de interpretar os resultados analíticos é um
medo para os estudantes de biologia e de áreas afins de
diversos graus acadêmicos. Interpretar os gráficos é também
um fator limitante. Página 3
4. E tanto interpretar resultados analíticos quanto interpre-
tar gráficos são dois atributos bastante interligados em análises
de dados biológicos. Realmente, se essas duas coisas não estiver-
em bem conectadas, sua capacidade em compreender uma
informação estará prejudicada.
Vamos pensar em um exemplo bem rápido!
É muito comum você encontrar em um artigo científico
essa sintaxe de linguagem estatística:
O que cada letra e número querem dizer? Quais infor-
mações podemos tirar disso? Podemos ter a capacidade de imagi-
nar quantas unidades amostrais independentes foram obtidas
nesse trabalho? Será que podemos saber qual o possível tipo de
gráfico que um resultado como esse pode gerar?
Bem, a resposta da última pergunta é SIM!
Novamente, se a sintaxe agora for essa
será que podemos ter uma ideia de que gráfico pode sair? A res-
posta também é SIM!
Agora vamos tentar fazer o inverso. Observando os gráfi-
cos abaixo, podemos ter uma ideia de que análise foi
feita?
(F3, 36
= 4.56; p < 0.05)
(F1, 58
= 5.1; p < 0.05),
Página 4
5. A B C D
85
90
95
100
105
110
115
Áreas de Coleta
Abundância
20 30 40 50
2
4
6
8
10
12
14
Umidade (%)
Riqueza
●
●
●
●
●
●●
●
●
●
●
●
●●●
●
●
●
●
● ●
●
●
●
●● ●●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●●
●●
●
●
●●
●
●
●
●
●
●
Você consegue saber quais possíveis análises foram
feitas para gerar esses gráficos? Novamente a resposta é: SIM!
Eu tenho certeza que olhando esses gráficos, com um
pouco de prática em análise de dados e conhecimento biológico,
você saberá facilmente interpretar esses gráficos e até dar
um palpite certeiro de quais análises foram utilizadas para
gerar esses gráficos.
Respondendo...
Quem chutou uma ANOVA ou GLM para o gráfico da
esquerda, acertou.
Quem falou em REGRESSÃO e CORRELAÇÃO para o gráfi-
co da direita, acertou. Porém nem todo artigo tem gráficos tão
intuitivos e simplificados como os desses exemplos. Veja as seguir
gráficos que mostram várias informações:
Página 5
6. 0.3
0.6
0.9
1.2
1.5
−1.0 −0.5 0.0 0.5
Meanrange
size
of
birds
High
Low
Ant
species
richness
per
tansect
a
b
c
Land-use class
PFU PFL PFLB SEF REF PAS AGR
Solar et al. 2016
Barlow et al. 2016
Petsch et al. 2015
Você saberia acertar que análise estatística foi feita para um
gráfico como esses abaixo? OBS.: Esses gráficos foram tirados de
artigos científicos, dos quais estão referenciados.
Acho que agora deve ter ficado um pouco mais complicado!
Sendo assim, criamos esse e-book com o objetivo de compi-
lar várias imagens gráficas, de diversos tipos e formas, para que
você tenha o mínimo de condição de compreender algumas
formas de representação gráfica e tenha capacidade e confiança
na interpretação de análises estatísticas.
ENTÃO VAMOS LÁ!!!
NMDS
NMDS
-1.0 -0.5 0.0 0.5
-0.5
0.0
0.5
1.0
1.0 1.5
RDA2
RDA1
14
12
10
8
6
4
2
0
-2
-4
-6
-8
14
12
10
8
6
4
2
0
-2
-4
-6
Lentics
Lotics
O.M.
Mud
Depth
M.S.
pH
Gra.
Temp.
Cond.
P. americana
C.S.
V.C.S.
N. bonettoi
A. pigweti
Página 6
7. introdução
Antes de olhar para um gráfico e compreender a infor-
mação que ele quer transmitir, é muito importante que você
tenha a noção dos tipos de variáveis utilizadas a priori. A ideia
do gráfico é perceber relações - ou a falta delas - ou ilustrar
o tamanho do efeito de uma predição biológica.
Em geral, em um gráfico sempre são plotadas infor-
mações de dados em dois eixos cartesianos: vertical/horizontal,
ordenadas/abcissas, y/x, dependente/independente, resposta/-
explicativa. Então, para entender a forma do gráfico é preciso ter
a capacidade de identificar qual tipo de variável está associada
ao eixo Y (conhecido como eixo da variável resposta ou de-
pendente) e ao eixo X (conhecida como eixo da variável ex-
plicativa ou independente).
Abcissas
Horizontal
Ordenadas
Vertical
X
Independente
Explicativa
Y
Dependente
Resposta
Página 7
8. Existem dois tipos de variáveis: categórica/qualitativa e
numérica/quantitativa. A natureza quanto ao tipo de dado não só
influenciará na forma gráfica, como também na análise estatísti-
ca. Variáveis categóricas são aquelas que possuem qualidade,
ou como o próprio nome já diz, categorias: macho/fêmea; juve-
nil/jovem/adulto; dia/noite; seco/chuvoso; inicial/intermediário/-
tardio. Essas categorias inclusive podem ser variadas, como cores
por exemplo: vermelho, laranja, amarelo, verde, azul, anil, e viole-
ta. As cores do arco-íris podem ser consideradas classes de uma
categoria.
As variáveis numéricas podem ser divididas em dois
tipos: i) variável onde os números são contínuos (representado
por casas decimais). Ex: peso, altura, volume, distância; ou ii)
variável onde os números são discretos (representados por
números naturais). Ex. número de indivíduos de uma população
(não existe 1 indivíduo e meio: ou é 1 ou são 2).
Página 8
9. BOX PLOT
É um dos gráficos mais clássicos, porém não tão utilizado
em artigos científicos. No entanto , nos dias de hoje, no meio
acadêmico se sugere usar com mais frequência esse tipo de gráfi-
co, pois ele demonstra com maior fidelidade a dispersão das
observações (Krzywinski and Altman, 2014).
A B
0
10
20
30
{
1
2
3
Tipo de Variável
Y – numérica
X - categórica
Tipo de Análises
Teste-t
Teste U de Mann-Whitney
Anova one-way
GLM
1 – O quadrado central representa 50% da cobertura central dos dados, também conhecida
como IQR (InterQuartile Range). Seus limites inferiores e superiores representam 25º e 75º
percentil, também podendo ser o 1º quartil e o 3º quartil. A faixa escura do meio é o 2º quartil
ou a mediana. A mediana é o valor do meio, dentro de um conjunto de dados. Ex.: Se temos
o conjunto de dados 1, 2, 3, 4, e 5, o valor 3 é a mediana. O 1º e 3º quartis, que nesse nosso
exemplo são representados pelos valores 2 e 4 respectivamente, representam a mediana
entre o valor mínimo e máximo e o 2º quartil.
Página 9
10. 1
2
3
4
5
3º quartil
2º quartil
ou mediana
1º quartil
}IQR
2 – As extremidades são conhecidas como bigodes (tradução literal do inglês Whiskers). Elas
representam a extensão máxima de 1.5 x IQR além da caixa.
3 – Os pontos são representados pelos outliers, que são pontos mais isolados da maior con-
centração dos dados.
Para se ter uma melhor ideia das distribuições dos
pontos pelo gráfico de caixa, abaixo vai uma comparação de dois
boxplots.
A B
0
10
20
30
●
●
●
●
●
●
●
●
A B
0
10
20
30
●
●
● ●
●
● ●
●
●
●
● ● ●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
● ●
●
●
● ●
● ●
● ●
●
●
●●
●
●
●
●
●
●
●
●
●
Página 10
11. Perceba que na caixa que representa o lado B há uma
maior concentração dos pontos próximo em zero, e essa frequên-
cia vai diminuindo com o aumento do eixo Y. Abaixo mais um
exemplo de como os boxplots representam melhor a dispersão
em relação a um outro gráfico que iremos falar na próxima
sessão.
Página 11
12. Bar PLOT
É um tipo de gráfico muito utilizado para representar
médias e desvios. Um dos tipos de gráfico mais comum em artigos
científicos e de interpretação simples e intuitiva.
A B
0
10
20
30
*
2
}1
1 – Sempre quando trabalhamos com amostras, nossa intenção é coletar uma pequena
parte de uma determinada população para que possamos fazer inferências sobre ela
como todo. Uma das principais medidas de posição gerada para descrever a população
através de uma amostragem é a média, representada pela parte superior da barra. Como
a população varia dentro dessa média, existe uma medida da dispersão desses dados em
relação a essa média, representada pelo numeral 1 no gráfico. Essas medidas de
dispersão podem ser representadas pela amplitude máxima e mínima, variância, desvio
padrão, erro padrão ou intervalo de confiança e o tipo de medida você está usando deve
ser informada no rótulo do eixo Y. Para saber mais sobre barras de erro, sugiro ler o artigo
do Cumming e colaboradores (2007).
Página 12
13. 2 – O asterisco entre as barras é geralmente inserido no gráfico para representar a
significância do teste estatístico utilizado. Como queremos comparar valores e saber se as
médias diferem estatisticamente, quando o resultado analítico fica abaixo do nosso nível
de significância (geralmente é α < 0.05), essa é a forma que representamos esse resultado
no gráfico. Mas atenção, isso só é útil quando temos apenas duas barras ou “trata-
mentos”! Mais que duas, mostrarei para você como representamos da maneira corre-
ta.
Bem, ainda tá fácil, mas é o cientista que escolhe o gráfico
para representar seus resultados da melhor forma possível. Veja
abaixo uma prancha com diferentes formas gráficas que podemos
escolher para representar o mesmo conjunto de dados.
A B
0
10
20
30
40
*
●
●
A B
0
5
10
15
20
25
30
35
*
A B
−60
−40
−20
0
20
40
60
*
A B
−60
−40
−20
0
20
40
60
*
Página 13
14. A B C
Áreas de Coleta
Riqueza
de
Aves
(Média
±
EP)
0
5
10
15
20
25
a
a
b
1
A B
−60
−40
−20
0
20
40
60
*
A B
−60
−40
−20
0
20
40
60
t1$y
●
●
*
Ainda na sessão de barplots podemos encontrar outras
variações de gráfico. Nesse exemplo a seguir, a interpretação é a
mesma. Mas mudaremos as análises estatísticas utilizadas, além
de um detalhe na forma de representação.
Página 14
15. 1 – As letras em cima de cada erro padrão no gráfico representam um teste de comparação
múltipla de médias, denominado Teste de Tukey. Se todos os pressupostos para realizar
uma análise de variância (ANOVA) forem aceitos, é preciso realizar um teste a posteriori, caso
você tenha mais de 2 níveis para sua variável X categórica. Nesse nosso exemplo, temos 3
níveis da variável Área. Caso a ANOVA gere um resultado abaixo do nível de significância esta-
belecido, a única interpretação que você pode fazer é que no mínimo um dos níveis é difer-
ente dos outros. Aí vem a seguinte pergunta: Quem é diferente de quem? Dessa forma,
precisamos realizar um teste a posteriori, que nesse nosso caso foi o Teste de Tukey. Após
interpretar o resultado, letras devem ser colocadas em cima de cada barra. Quando colo-
camos letras iguais, não existe diferença estatística entre as médias; letras diferentes indica a
existência de diferença.
Página 15
16. scatter PLOT
Saindo dos gráficos de barras, os scatter plots ou gráficos
de dispersão, são extremamente importantes quando queremos
demonstrar a relação entre variáveis numéricas, seja ilustrando
uma relação de causa e efeito ou uma relação de associação entre
variáveis. Esses tipos de gráficos são importantes para verificar
padrões ecológicos, diferente dos gráficos de barras que repre-
sentam tamanho de efeito.
●
●
●
●●
●
●
●
● ●
●
●
● ●
●
● ●
● ●
●
●
●
● ●
●
●
●
●
●
●
26 28 30 32 34 36 38 40
0
5
10
15
20
Temperatura (ºC)
Abundância
de
Morcegos
y = −17.4905 + 0.8156*x
R² = 0. 48
Tipo de Variável
Y - numérica
X - numérica
Tipo de Análises
Regressão
Correlação
GLM
Página 16
17. ●
●
●
●
●
●
●
●
●
●
2 4 6 8 10
2
4
6
8
10
x
y
R² = 1
●
●
●
●
●
●
●
●
●
●
2 4 6 8 10
2
4
6
8
10
R² = 0.86
●
●
●
●
●
●
●
●
●
●
2 4 6 8 10
2
4
6
8
10
x
y
R² = 0.65
●
●
●
●
●
●
●
●
●
2 4 6 8 10
2
4
6
8
10
x
y
R² = 0.27
1 – Esses valores podem vir diretamente no texto ou na legenda do gráfico. Essa equação
representa a fórmula na qual foi calculada a estimativa da linha reta (geralmente presente
somente em resultados significativos). Lembrando lá do ensino médio, neste caso é apenas
uma equação do primeiro grau Y = a + bx. Porém, vamos entender o que isso significa. O “a”,
representado no gráfico pelo valor 27.8, representa o ponto que a reta começa em Y, levando
em consideração que o X é zero. Perceba que no nosso gráfico o eixo X inicia em 10. Esse “a” é
conhecido como o intercepto da reta. O “b” representa o coeficiente angular e ele demonstra
a inclinação da reta e a relação que a variável Y tem com o X. Ou seja, o quanto cada unidade
de X variando que vai influenciar na variável Y.
2 – Esse valor é conhecido como coeficiente de determinação. Esse valor varia entre 0 e 1 e
geralmente é o valor do poder de explicação que a variável X tem em relação a variável Y.
Quanto mais próximo de 1, mais próximos os pontos estão da reta; quanto mais distante,
mais dispersos em relação a reta os pontos estão. Veja os exemplos abaixo.
x
y
Página 17
18. Até agora, acho que ainda continua tranquilo.
Assim como nos gráficos de barras, que permite variadas
maneiras de representação, no scatter plot você tem formas de
melhorar a reta se ajustando ao padrão que é observado. Segue
abaixo algumas variações das retas de regressão e suas formas de
escrever as equações.
●
●
●
●
●
●
●
●
●
●
2 4 6 8 10
2
4
6
8
10
x
y
y = 0.3333 + 0.9394*x
●
● ●
●
● ● ● ●
● ●
0 2 4 6 8 10
0
1
2
3
4
5
x
y
y = 1.24 + 1.13*log(x)
● ●
●
●
● ●
●
●
●
●
2 4 6 8 10
2
4
6
8
10
x
y
y = exp(−064 + 0.27*x)
●
●
● ●
●
●
●
●
●
●
2 4 6 8 10
2
4
6
8
10
x
y
y = 4.75 + 1.71*x − 0.22*x²
Página 18
19. Depois de explicar para você um pouco sobre gráficos de
barra, que são para variáveis categóricas, e gráficos de dis-
persão, que são para variáveis numéricas, será que temos uma
maneira de, em um mesmo gráfico, colocar variáveis categóricas e
numéricas? A resposta você já sabe! É claro que tem.
Agora as coisas talvez comecem a complicar um pouco, mas
não tem tanto segredo. Imagine em um caso hipotético que vamos
coletar insetos em duas áreas, sitio A e sitio B. Só que vamos coletar
todo mês durante dois longos anos. Além de coletar os insetos nas
duas áreas, vamos lá medir também a temperatura.
A depender do grupo taxonômico e do ambiente no qual
estamos coletando, a temperatura influencia na quantidade de inse-
tos, e geralmente essa influência é positiva. Dessa forma, parece
que temos duas variáveis: sitio de amostragem e temperatura. Uma
categórica e outra contínua. E agora?!
Como será um gráfico e uma análise quando temos uma
variável qualitativa e uma quantitativa ao mesmo tempo?
Página 19
20. ●
●
●
●●
●
●
●
● ●
●
●
● ●
●
● ●
● ●
●
●
●
● ●
●
●
●
●
●
●
26 28 30 32 34 36 38 40
0
5
10
15
20
Temperatura (ºC)
Abundância
de
Morcegos
●
●
A
B
1 – O ponto de interseção entre as retas é representado pela interação entre os dois
parâmetros analisados. Vamos pensar um pouco! [eu sei, foi plágio...]. Eu poderia analisar
as duas variáveis de forma separada, fazendo um gráfico de barras para saber a diferença
das medias entre as áreas, e outro gráfico de dispersão para verificar a relação entre quan-
tidade de morcegos e a temperatura. Mas eu iria gastar mais espaço na folha do meu artigo
ou relatório e ainda iria perder uma informação preciosa que é a INTERAÇÃO. Sabemos
que na natureza não um único fator não possui a capacidade de explicar todos os padrões
que conseguimos enxergar. Na verdade são muitas as variáveis explicativas possíveis, às
vezes variáveis que nem conseguimos medir ou observar. No entanto essas variáveis não
agem sozinhas e isoladas, mas interagem entre si para gerar as maravilhas do nosso siste-
ma natural. Esse gráfico nos dá esse exemplo. Essa imagem é a mesma imagem do nosso
primeiro exemplo de SCATTER PLOT, no entanto conseguimos colocar mais uma infor-
mação que foram as áreas de coleta (sítio A e sítio B).
Tipo de Variável
Y – numérica
X - categórico + numérica
Tipo de Análises
ANCOVA
GLM
1
Página 20
21. Esquecendo a existência das duas cores, é evidente observar que os pontos da área B
estão há uma maior media de indivíduos de morcegos que a área A (olhando a
distribuição dos pontos em relação ao eixo Y) e que a temperatura influencia positiva-
mente nessa abundância. Porém, não é sempre que a área B tem mais morcegos que a
área A. A temperatura age de maneira distinta nas duas áreas de estudo. Se pudéssemos
coletar em uma maior amplitude de temperatura na área A, a quantidade de morcegos
nessa área iria ser superior que na área B. Isso mostra que o efeito da temperatura na
quantidade de indivíduos de morcegos é diferente a depender da área, e caso fizéssemos
um gráfico de dispersão ou um gráfico de barras, essa informação não poderia ser capaz
de visualizar. Então cabe a você como pesquisador ou profissional da conservação a tarefa
de compreender e explicar quais são os processos e mecanismos que estão associados às
áreas para explicar como o efeito da temperatura difere.
Ok, agora grande parte dos gráficos comumente apre-
sentados em artigos de ecologia e conservação foram explana-
dos. O que muda a partir daí é a abordagem, a criatividade, o rigor
que o redator do trabalho dá à sua apresentação e análise. Como
falei no início do e-book, compreender os tipos de variáveis asso-
ciadas aos eixos é fundamental para saber qual tipo de gráfico de-
vemos gerar e qual(ais) análise(s) devemos fazer. A partir de agora
vamos falar de algumas variações gráficas referentes às análises
estatísticas.
Página 21
22. ●
●
●
● ●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
0 50 100 150
Rainfall (mm)
Likelihood
of
flight
event
0.0
0.5
1.0
jun.06
3
fev.07
3
may.07
2
mar.07
18
mar.06
4
jun.07
1
jul.07
2
Esse tipo de gráfico é gerado quando temos uma variável resposta binária. Mas como seria
isso Arleu? Seria assim: Uma variável resposta binária é quando estamos verificando um
evento de forma dual (p. ex. acontece ou não acontece, tem ou não tem, homem ou
mulher...). Estritamente a variável explicativa tem que ser uma variável continua. Essa
análise verifica a probabilidade de um determinado fator observacional, ou seja, nossa
variável de interesse, acontecer ou não acontecer dado a mudança da variável explicativa.
Vamos ao nosso exemplo! Eu estava verificando mensalmente durante o ano todo, vários
ninhos de cupins para saber o período em que aconteceriam revoadas. Telei os ninhos com
tecido e verificava se em cada vistoria havia buracos abertos, alados mortos ou presos, asas
caídas, qualquer característica que pudesse diagnosticar o evento de revoada. Então minha
variável resposta era a presença ou ausência de revoada em determinado mês. Depois
de finalizar todas as campanhas de campo, eu tinha também dados de precipitação daquele
mês. Esta seria minha variável explicativa. Então realizando modelos estatísticos com esses
dados eu cheguei a esse gráfico. Página 22
23. 0 1 2 3 4 5 6 7 8 9 10
0.0
0.2
0.4
0.6
0.8
1.0
Tempo (dias)
Sobrevivência
(%)
●
● Somente Cupins
Controle
Fungo
Mas o que ele me diz Arleu!? Como falei anteriormente, ele nos informa a probabilidade
do evento acontecer ou não acontecer. Se levarmos em consideração que no 50% (no eixo
Y está com o numero 0.5) é o momento onde há a probabilidade do evento mudar de “não
acontecer”, para “acontecer” (ou vice-versa, dependendo da sua variável), qual ponto do
eixo X esse fenômeno ocorre? Olhando para o gráfico, mais ou menos quando atingimos
50 mm de chuva ocorre essa probabilidade de revoada. É assim que interpretamos este
gráfico baseado nesta análise. Assim, a partir daí, eu preciso explicar quais mecanismos
estão por trás dessa influência da chuva na probabilidade de revoada por cupins.
Agora vamos falar de uma análise que é muito impor-
tante quando queremos verificar algumas questões, como fitness
(valor adaptativo) por exemplo.
Tipo de Variável
Y – tempo
X - categórica
Tipo de Análises
Analise de sobrevivência
Página 23
24. Temos agora um exemplo bastante peculiar de gráfico. Olhando o padrão da curva se
assemelha bastante ao exemplo anterior, porém com uma relação invertida. Mesmo com
toda essa semelhança, essa análise traz informações bem mais complexas e interessantes.
Estamos falando da análise de sobrevivência. Essa análise é bem usada pelo pessoal da
agronomia quando querem ver o tempo de germinação de uma espécie de planta em
relação à diferentes tratamentos, como tipos de substrato. Mas sem delongas... Vamos
interpretar esse gráfico! A análise de sobrevivência é uma análise vulgarmente conheci-
da como “análise de tempo até o evento”. Para entender o que isto significa, para realizar
uma análise de sobrevivência é preciso, a priori, estabelecer um evento muito evidente,
que não deixe dúvida do que seja. Esse evento tem que ser binário. Lembra muito a
regressão logística, não é? No entanto essa analise verifica a probabilidade desse evento
acontecer (ou não) no tempo. Como disse anteriormente na caixinha do gráfico, não foi
colocado que a variável resposta pode ser contínua ou categórica. Disse que o TEMPO é a
nossa variável de interesse. Um pouco confuso, não é? Mas vamos tentar trabalhar com o
gráfico. Neste experimento, queria verificar o efeito de diferentes recursos na mortalidade
de cupins [CUPINS DE NOVO, ARLEU! Foi mal, este é o grupo que eu trabalho ]. Então,
inseri em uma placa de petri 25 indivíduos de uma mesma colônia em contato com difer-
entes recursos, separados em três tratamentos: i) papel filtro contaminado com fungos; ii)
papel filtro umedecido; iii) apenas cupins na placa sem nenhum recurso. Todas foram
alocadas em um ambiente controlado sob os mesmo efeitos externos. Diariamente veri-
ficávamos a taxa de sobrevivência dos indivíduos e anotávamos quanto tempo demorava
desde o tempo zero (primeiro dia do experimento) até o dia em que todos os indivíduos
morressem. Agora acho que ficou mais fácil de entender... Nosso evento era a morte de
todos os indivíduos. É um evento claro, sem a mínima condição de dúvida. Neste caso,
nossa variável resposta era o dia de morte e nossa variável explicativa eram os nossos
tratamentos. Logo, fazendo modelos estatísticos para verificar o tempo de morte desses
indivíduos frente a um determinado tipo de recurso, chegamos ao resultado apresentado
neste gráfico. Percebam que a longevidade dos cupins aumenta quando estão em contato
com um recurso contaminado com fungo se comparamos com a falta de recurso ou
quando estão com um recurso úmido. O que isso quer dizer então Arleu?
Página 24
25. É simples! Parece que fungos auxiliam na sobrevivência dessa espécie de cupim,
aumentando seu tempo de vida. A partir daí cabe a nós explicar quais benefícios os cupins
têm quando associados aos fungos.
10 15 20 25 30
0
20
40
60
80
100
Days
Percent
germinated
5
10
15
20
0 5
Então meu (minha) caro(a) amigo(a), este e-book que pre-
parei para você é só um passo inicial para que você tenha uma
noção de como observar e interpretar algumas formas gráficas e a
quais análises elas podem está associadas. Há muito ainda pela
frente, não só na maneira de apresentar um resultado, como
também de compreender algumas análises. A estatística multivari-
ada, as famosas análises de séries temporais, ou até estatísticas
mais complexas - como modelos bayesianos ou modelagens espa-
ciais - podem ser exemplos do que almejar no mundo da estatísti-
ca.
5 10 15 20
0
1
2
3
4
)
s
y
a
d
(
t
–log(–log(S(t)))
Site 2
Site 3
Site 1
Male–female
Male–male
Single male
Searching
rate
1
0.8
0.6
0.4
0.2
0 20 40 60 80 100 120
Time elapsed until nest establishment (h)
Página 25
26. Este e-book pode ser o primeiro passo para você se
tornar um pouco mais autônomo na sua forma de ver e interpre-
tar um gráfico em um artigo ou relatório. Em um segundo mo-
mento podemos trabalhar com você coisas sobre gráficos multi-
variados, erros mais comuns e sugestões de como elaborar um
bom gráfico. Páginas do próximo capítulo... Por enquanto, espero
que este conteúdo abordado lhe traga um bom desempenho!
Abaixo, deixo para você links relacionados à gráficos e
alguns sites onde você pode brincar de estatística. Coisa simples,
mas vale a pena dar uma olhada:
1. Esses dois sites são um compilado de exemplos de
plots de diversas formas, com excelente qualidade para análise de
dados, ciência, publicação, apresentações, entre outras coisas.
Todos os exemplos gráficos destes sites utilizam uma linguagem
baseada no software R, um dos melhores e mais completos pro-
gramas estatísticos da atualidade. O software é gratuito e pode
ser baixado no link https://cran.r-project.org/. Nos sites, eles dis-
ponibilizam códigos de scripts (que são tipo receitas, verdadeiros
passo-a-passo de como elaborar esses gráficos) para que você
possa fazer sozinho(a).
R graph gallery:
http://rgraphgallery.blogspot.com.br/
R graph catalog:
http://shiny.stat.ubc.ca/r-graph-catalog/
Página 26
27. OBRIGADO
2. Os próximos dois links são uma forma divertida de você brin-
car dando palpites de coeficientes de correlação, conhecido em tra-
balhos como r (errezinho). O coeficiente de correlação é muito semel-
hante ao coeficiente de determinação (R²) da regressão. A diferença é
que o r é uma medida de associação e ela varia entre -1 e 1. Utilizando a
mesma lógica do R², quanto mais dispersos os pontos estão da reta,
mais próximos de zero vão estar. A diferença é que como essa métrica
varia de -1 a 1, ela informa a direção da associação realizada. Se encon-
trarmos valores entre -1 e 0, teremos uma associação negativa (reta de-
crescente). Se for entre 0 e 1, é uma associação positiva (reta ascenden-
te).
http://guessthecorrelation.com/
http://www.istics.net/Correlations/
Então é isso! Divirta-se e dê um bom palpite. Até a próxima.
Página 27
28. MSc. Arleu Barbosa Viana-Junior
Possuo graduação em Ciências Biológicas – Licenciatura
Plena pela Universidade Tiradentes/SE (UNIT) e sou mestre em Eco-
logia e Conservação pela Universidade Federal de Sergipe (UFS).
Atualmente sou doutorando do programa de Ecologia, Conservação
e Manejo da Vida Silvestre pela Universidade Federal de Minas
Gerais. Possuo experiência em entomologia, com ênfase em
térmitas (cupins), e tenho um grande apreço por análises de dados
ecológicos e uso do software R. Já ministrei mais de 10 cursos (for-
mais e informais) abordando temas como introdução ao método
científico, bases para o delineamento experimental e analises de
dados.
Página 28
29. RECOMENDAÇÕES DE LEITURA
Cohen J. (1990). Thing I have learned (so far). American Psy-
chologist. 45: 1304-1312.
Cumming G. et al. (2007). Error bars in experiments biology.
The Journal of Cell Biology. 177: 7-11.
Krzywinski M. and Altman N. (2013). Error bars. Nature Meth-
ods. 10: 921-922.
Krzywinski M. and Altman N. (2014). Visualizing sample with
box plots. Nature Methods. 11: 119-120.
Streit M. and Gehlenborg N. (2014). Bar charts and box plots.
Nature Methods. 11: 117.
Weissgerber T. L. et al. (2015). Beyond Bar and Line Graphs:
Time for a New Data Presentation Paradigm. Plos One. 13: 1-10
Página 29
30. AGRADECIMENTO
Este E-BOOK foi elaborado em 2016 após anos de
estudo dentro da minha jornada acadêmica em ciências biológi-
cas da qual gostaria de agradecer os professores doutores Lean-
dro Sousa-Souto (UFS), Frederico Neves (UFMG), Ricardo Solar
(UFMG), Ronaldo Reis (Unimontes), Og de Souza (UFV) que até
hoje são minhas referencias em analises de dados e estudo das
técnicas com o software R. Não poderia deixar de agradecer
também os amigos do Laboratório de Entomologia da UFS e da
Vila Parentoni (UFMG) que enriquecem meus conhecimentos
dentro da biologia e analises de dados. Agradeço a Renata
Muylaert por todas as conversas e aprendizados sobre R e pela
revisão realizada nesse e-book. Agradeço também a Bocaina –
Biologia da Conservação pela oportunidade de parceria com os
diretores (Lucas Perillo e Felipe Fonseca).
Design: Tiago Bruno - (31) 991776719
tiago211287@gmail.com
Alguns desenhos foram projetados por Freepik
Página 30