Este documento discute técnicas de agrupamento e dissimilaridade para análises genéticas. Aborda métodos como variáveis canônicas, componentes principais e distância de Mahalanobis. Também explica como construir dendogramas no programa NTSYS e calcular a correlação cofenética.
2. ANÁLISES QUE SERÃO
ABORDADAS
Métodos de Agrupamento:
Variáveis Canônicas
Componentes Principais
Transformar matriz de similaridade em dissimilaridade
Dissimilaridade:
Distância Euclidiana (baseada no arquivo de médias)
Distância Mahalabonis (considera as repetições)
Correlação cofenética e Ponto de corte
Bootstrap e ponto de corte em dendogramas
Dissimilaridade através de marcadores:
morfológicos
Moleculares
3. TÉCNICAS DE AGRUPAMENTO
Os métodos de agrupamento têm por finalidade separar um
grupo original de observações em vários subgrupos, de forma a
obter homogeneidade dentro e heterogeneidade entre os
subgrupos.
Dentre estes métodos, os hierárquicos e os de otimização são
empregados em grande escala pelos melhoristas de plantas.
4. Principais análises
1 - Estimativa de uma medida de distância
Distancia Euclidiana
Distancia generalizada de Mahalanobis
2 - Adoção de uma técnica de agrupamento
Variáveis canônicas Dispersão gráfica
Componentes principais
Agrupamento de Tocher
Agrupamento (Vizinho mais próximo, mais distante e distância
média)
5. FINALIDADE:
Reunir os genitores em grupos
Segundo critérios de similaridade ou dissimilaridade
OBJETIV
Homogeneidade dentro de grupos
OS:
Heterogeneidade entre grupos
Etapas:
1 – Estimativa das distâncias
2 – Adoção de uma técnica de agrupamento
Identificação do par de genitores mais similares
Avalia a possibilidade de inclusão de novos genitores
6. VARIÁVEIS CANÔNICAS
- Técnica de Dispersão Gráfica
- exige experimento com delineamento experimental (repetições)
- Para serem representativos as 2 primeiras variáveis devem
explicar pelo menos 80% da variação original dos dados;
7. - Abrir arquivo de médias
- Em “Dispersão” completar com o “cre”
- Declarar o número de variáveis
- Nomear variáveis
8. Nesse caso as 2
primeiras
variáveis
explicam
mais de 80% da
variação original
dos dados
9.
10. COMPONENTES PRINCIPAIS
- Técnica de Dispersão Gráfica
- Permitem a identificação da divergência genética
- Não exige experimentos com delineamento experimental (usa-se apenas
o arquivo de médias)
- Para ser representativo os 2 primeiros componentes devem explicar
pelo menos 80% da variação original dos dados.
11.
12.
13. Nesse caso os 2
primeiros
componentes
explicam
mais de 80% da
variação original
dos dados
14.
15. C. PRINCIPAIS VS V. CANÔNICAS
SEMELHANÇAS:
Permitem a identificação da divergência genética;
Possibilidade de resumir o conjunto de variáveis
originais em poucos componentes, o que significará ter
uma boa aproximação do comportamento dos indivíduos
de um espaço dimensional em um espaço bi ou tri
dimensional;
Para serem representativos os 2 primeiros componentes
devem explicar pelo menos 80% da variação original dos
dados;
Os componentes são independentes entre si;
Ambas utilizam dados padronizados.
16. TOCHER
- Método de Agrupamento
- A média das medidas de distância dentro de cada grupo deve ser
menor do que as distâncias médias entre quaisquer grupo
- Não permite comparar acessos dentro do mesmo do mesmo grupo
17.
18.
19.
20. DISSIMILARIDADE - DISTÂNCIA DE
EUCLIDIANA
Observações individuais
Experimentos que não contemplam delineamento
Deve ser
Experimentos com delineamento - Médias das repetições
evitado
Menor precisão em relação a distancia generalizada de Mahalanobis
21.
22.
23.
24.
25.
26. - Saída do Dendograma
- Desvantagem do Genes:
- Pouca possibilidade para editar e formatar as figuras
27.
28. Dissimilaridade - Distância de Mahalanobis
- Leva em conta as variâncias e covariâncias e correlações residuais
entre os caracteres aferidos.
-Considera as repetições experimentais
-é possível destacar a distância generalizada de Mahalanobis D 2
- Leva em consideração a existência de correlações entre os caracteres
analisados,
Necessita de ensaios experimentais com repetições
29.
30. -Nomear as Variáveis
- Gerar Matriz
-Processar Agrupamento
-Bootstrap
-Testa a consistência das bifurcações em porcentagem a partir de um
número determinado de simulações
31.
32. CONTRIBUIÇÃO RELATIVA DOS CARACTERES
– SINGH 1981
Identificação dos caracteres que mais contribuíram para
a dissimilaridade genética entre os genótipos avaliados
36. CORRELAÇÃO COFENÉTICA (CCC)
Mede a correlação (ajuste) entre a matriz de distância original e as distâncias
apresentadas no dendrograma.
Muito importante quando são realizadas inferências com base no
dendrograma
Valores de CCC acima de 0,70 indicam uma representação confiável entre a
matriz de distância original e as distâncias gráficas
37.
38. Abrir a “matriz de distância genética” que se deseja analisar
39.
40. CONSTRUINDO DENDOGRAMAS
NO NTSYS
- Abrir a “matriz de
distância genética” no
Genes
- Exportá-lo para o Excel
- Formatá-lo conforme o
modelo ao lado
41. - NoNTSYS, em clustering, clicar
em SAHN, e no Imput file abrir a
matriz de dissimilaridade (Excel)
-
42. No output tree file, digitar
um nome de saída
(exemplo DE =
dendrograma)
Em Clustering methods deixar UPGMA; aí
pedir para rodar (Compute), Com isso vai
abrir uma janela de escritas que pode ser
fechada, e após deves buscar no canto
inferior esquerdo da janela uma figura
pequena em forma de dendrograma:
Clicando nela aparece a FIGURA que pode
ser formatada conforme interesse, sendo
salva formato metafile.
43.
44. Conforme exposto acima, o programa Ntsys possui vários
mecanismos que podem ser ajustados para formatar os
dendogramas da mais adequada a cada situação
46. MATRIZ MAHALANOBIS - NTSYS
Idem passos anteriores para
construção do dendograma a partir
da matriz de Distância Euclidiana
47.
48.
49.
50.
51. CCC NO NTSYS
Lembrar do arquivo
de saída que foi salvo
anteriormente
52. - Antes de começar o cálculo do CCC refazer analise de dissimilaridade no Ntsys,
substituindo o nome dos genótipos por letras.
- Calcular a matriz cofenética a partir do dentrograma que foi salvo (DE). Isto é
feito no mesmo local clustering, clicar em Cophenetic values, e em
Imput tree file abrir o DE e na Output Coph file, colocar um nome de
saída (CCC).
- Após isso clicar em “Compute”.
53. -Depois, clicar em Graphics, em seguida em Matrix comprison plot, e no
Input file 1 (X) abrir a matriz de dissimilaridade do Excel, aquela do inicio, e
no Input file 2 (X), abrir a matriz cofenética de nome salvo (CCC).
- No Input file 3 (X) não vai nada. No Number of permutations, digitar
1000. (feito isso pedir para rodar). Vai abrir um gráfico que quando fechado
aparece uma janela de escritas, e em uma delas aparece o valor da correlação
entre as matrizes e que é o valor cofenético.
54.
55.
56. CÁLCULO DE SIMILARIDADE GENÉTICA A
PARTIR DE MARCADORES MOLECULARES
- Juntar todos os marcadores polimórficos em única planilha do
Excel
- Colocar nome dos genótipos e números de códigos (exemplo
1=cálculo da similaridade; 10=número de genótipos;
182=número de marcadores utilizados)
57. - No NTSYS: entrar em Similarity, depois em quantitative date
e no Input file one buscar a planilha de dados do Excel com os
códigos, genótipos e marcadores.
- Deixar clicado X em By rows, Coefficient clicar em DICE, e
em Output file escrever qualquer nome de saída do arquivo de
similaridade (só escrever o nome que ele salva no mesmo lugar que
foi buscada a planilha de dados anterior.
- Rodar a análise (compute) e depois editar o dendograma
58.
59. Transformá-la em
dissimilaridade
genética (1 menos os
valores de
similaridade que
abrirem
Após, sem números em
formato de fórmula, inserir uma
coluna e duas linhas, colocando
o nome dos genótipos em forma
de matriz, porém, nas primeiras
três células da linha digitar os
códigos: 2=indica cálculo de
dissimilaridade, 10 e 10=
indicam a dimensão da matriz.