Análises de agrupamento e dissimilaridade

ANÁLISES DE
AGRUPAMENTO E
DISSIMILARIDADE

Mestrando: Cristiano Lemes
Prof: Giovani Benin

Teoria da Seleção - 2012

ANÁLISES QUE SERÃO
ABORDADAS

 Métodos de Agrupamento:
 Variáveis Canônicas
 Componentes Principais
 Transformar matriz de similaridade em dissimilaridade

 Dissimilaridade:
 Distância Euclidiana (baseada no arquivo de médias)
 Distância Mahalabonis (considera as repetições)
 Correlação cofenética e Ponto de corte

 Bootstrap e ponto de corte em dendogramas

 Dissimilaridade através de marcadores:
 morfológicos
 Moleculares

TÉCNICAS DE AGRUPAMENTO

 Os métodos de agrupamento têm por finalidade separar um
grupo original de observações em vários subgrupos, de forma a
obter homogeneidade dentro e heterogeneidade entre os
subgrupos.

 Dentre estes métodos, os hierárquicos e os de otimização são
empregados em grande escala pelos melhoristas de plantas.

Principais análises

1 - Estimativa de uma medida de distância

Distancia Euclidiana
Distancia generalizada de Mahalanobis

2 - Adoção de uma técnica de agrupamento

Variáveis canônicas Dispersão gráfica
Componentes principais
Agrupamento de Tocher
Agrupamento (Vizinho mais próximo, mais distante e distância
média)

FINALIDADE:

Reunir os genitores em grupos

Segundo critérios de similaridade ou dissimilaridade

OBJETIV
Homogeneidade dentro de grupos
OS:
Heterogeneidade entre grupos

Etapas:
1 – Estimativa das distâncias
2 – Adoção de uma técnica de agrupamento

Identificação do par de genitores mais similares
Avalia a possibilidade de inclusão de novos genitores

VARIÁVEIS CANÔNICAS
- Técnica de Dispersão Gráfica
- exige experimento com delineamento experimental (repetições)
- Para serem representativos as 2 primeiras variáveis devem
explicar pelo menos 80% da variação original dos dados;

- Abrir arquivo de médias
- Em “Dispersão” completar com o “cre”
- Declarar o número de variáveis
- Nomear variáveis

Nesse caso as 2
primeiras
variáveis
explicam
mais de 80% da
variação original
dos dados

COMPONENTES PRINCIPAIS
- Técnica de Dispersão Gráfica
- Permitem a identificação da divergência genética
- Não exige experimentos com delineamento experimental (usa-se apenas
o arquivo de médias)
- Para ser representativo os 2 primeiros componentes devem explicar
pelo menos 80% da variação original dos dados.

Nesse caso os 2
primeiros
componentes
explicam
mais de 80% da
variação original
dos dados

C. PRINCIPAIS VS V. CANÔNICAS

 SEMELHANÇAS:
 Permitem a identificação da divergência genética;

 Possibilidade de resumir o conjunto de variáveis
originais em poucos componentes, o que significará ter
uma boa aproximação do comportamento dos indivíduos
de um espaço dimensional em um espaço bi ou tri
dimensional;

 Para serem representativos os 2 primeiros componentes
devem explicar pelo menos 80% da variação original dos
dados;

 Os componentes são independentes entre si;

 Ambas utilizam dados padronizados.

TOCHER
- Método de Agrupamento
- A média das medidas de distância dentro de cada grupo deve ser
menor do que as distâncias médias entre quaisquer grupo
- Não permite comparar acessos dentro do mesmo do mesmo grupo

DISSIMILARIDADE - DISTÂNCIA DE
EUCLIDIANA
Observações individuais

Experimentos que não contemplam delineamento
Deve ser
Experimentos com delineamento - Médias das repetições
evitado
Menor precisão em relação a distancia generalizada de Mahalanobis

- Saída do Dendograma

- Desvantagem do Genes:

- Pouca possibilidade para editar e formatar as figuras

Dissimilaridade - Distância de Mahalanobis
- Leva em conta as variâncias e covariâncias e correlações residuais
entre os caracteres aferidos.
-Considera as repetições experimentais
-é possível destacar a distância generalizada de Mahalanobis D 2
- Leva em consideração a existência de correlações entre os caracteres
analisados,
Necessita de ensaios experimentais com repetições

-Nomear as Variáveis
- Gerar Matriz
-Processar Agrupamento

-Bootstrap
-Testa a consistência das bifurcações em porcentagem a partir de um
número determinado de simulações

CONTRIBUIÇÃO RELATIVA DOS CARACTERES
– SINGH 1981

Identificação dos caracteres que mais contribuíram para
a dissimilaridade genética entre os genótipos avaliados

Dendograma gerado a partir da matriz de distância de
Mahalanobis

CORRELAÇÃO COFENÉTICA (CCC)
Mede a correlação (ajuste) entre a matriz de distância original e as distâncias
apresentadas no dendrograma.
Muito importante quando são realizadas inferências com base no
dendrograma
Valores de CCC acima de 0,70 indicam uma representação confiável entre a
matriz de distância original e as distâncias gráficas

Abrir a “matriz de distância genética” que se deseja analisar

CONSTRUINDO DENDOGRAMAS
NO NTSYS

- Abrir a “matriz de
distância genética” no
Genes

- Exportá-lo para o Excel

- Formatá-lo conforme o
modelo ao lado

- NoNTSYS, em clustering, clicar
em SAHN, e no Imput file abrir a
matriz de dissimilaridade (Excel)
-

No output tree file, digitar
um nome de saída
(exemplo DE =
dendrograma)

Em Clustering methods deixar UPGMA; aí
pedir para rodar (Compute), Com isso vai
abrir uma janela de escritas que pode ser
fechada, e após deves buscar no canto
inferior esquerdo da janela uma figura
pequena em forma de dendrograma:
Clicando nela aparece a FIGURA que pode
ser formatada conforme interesse, sendo
salva formato metafile.

Conforme exposto acima, o programa Ntsys possui vários
mecanismos que podem ser ajustados para formatar os
dendogramas da mais adequada a cada situação

MATRIZ MAHALANOBIS - NTSYS

Idem passos anteriores para
construção do dendograma a partir
da matriz de Distância Euclidiana

CCC NO NTSYS

Lembrar do arquivo
de saída que foi salvo
anteriormente

- Antes de começar o cálculo do CCC refazer analise de dissimilaridade no Ntsys,
substituindo o nome dos genótipos por letras.

- Calcular a matriz cofenética a partir do dentrograma que foi salvo (DE). Isto é
feito no mesmo local clustering, clicar em Cophenetic values, e em
Imput tree file abrir o DE e na Output Coph file, colocar um nome de
saída (CCC).

- Após isso clicar em “Compute”.

-Depois, clicar em Graphics, em seguida em Matrix comprison plot, e no
Input file 1 (X) abrir a matriz de dissimilaridade do Excel, aquela do inicio, e
no Input file 2 (X), abrir a matriz cofenética de nome salvo (CCC).

- No Input file 3 (X) não vai nada. No Number of permutations, digitar
1000. (feito isso pedir para rodar). Vai abrir um gráfico que quando fechado
aparece uma janela de escritas, e em uma delas aparece o valor da correlação
entre as matrizes e que é o valor cofenético.

CÁLCULO DE SIMILARIDADE GENÉTICA A
PARTIR DE MARCADORES MOLECULARES

- Juntar todos os marcadores polimórficos em única planilha do
Excel

- Colocar nome dos genótipos e números de códigos (exemplo
1=cálculo da similaridade; 10=número de genótipos;
182=número de marcadores utilizados)

- No NTSYS: entrar em Similarity, depois em quantitative date
e no Input file one buscar a planilha de dados do Excel com os
códigos, genótipos e marcadores.
- Deixar clicado X em By rows, Coefficient clicar em DICE, e
em Output file escrever qualquer nome de saída do arquivo de
similaridade (só escrever o nome que ele salva no mesmo lugar que
foi buscada a planilha de dados anterior.
- Rodar a análise (compute) e depois editar o dendograma

Transformá-la em
dissimilaridade
genética (1 menos os
valores de
similaridade que
abrirem

Após, sem números em
formato de fórmula, inserir uma
coluna e duas linhas, colocando
o nome dos genótipos em forma
de matriz, porém, nas primeiras
três células da linha digitar os
códigos: 2=indica cálculo de
dissimilaridade, 10 e 10=
indicam a dimensão da matriz.

OBRIGADO

 cristianolemes.utfpr@gmail.com

Análises de agrupamento e dissimilaridade

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Destacado

Destacado (20)

Similar a Análises de agrupamento e dissimilaridade

Similar a Análises de agrupamento e dissimilaridade (20)

Último

Último (20)

Análises de agrupamento e dissimilaridade