GENÉTICA GEOGRÁFICA:

Documentos relacionados
Métodos Quantitativos Aplicados

Estatistica Espacial em Genética de Populações e da Paisagem

Escalonamento Multidimensional

GENÉTICA GEOGRÁFICA:

Análise de componentes principais (PCA)

Análise Fatorial e Componentes Principais Aplicadas na Engenharia de Avaliações

MINICURSO. Uso da Calculadora Científica Casio Fx. Prof. Ms. Renato Francisco Merli

4 ANÁLISE DE DADOS. Erro do balanço iônico (%) = Σ cátions - Σ ânions x 100 Σ (cátions + ânions) (1)

Descoberta de Conhecimento em Bases de Dados. Pesquisa de Clusters

Aula 25: Análise Fatorial. Prof. Eduardo A. Haddad

MATRIZ DE REFERÊNCIA-Ensino Médio Componente Curricular: Matemática

M l u t l i t c i oli l n i e n arid i a d de

Matrizes e Linearidade

Geometria anaĺıtica e álgebra linear


RESOLUÇÃO DA PROVA DE RACIOCÍCNIO LÓGICO, MATEMÁTICA E ESTATÍSTICA P/ PAPILOSCOPISTA

Reconhecimento de Padrões

2 Processo de Agrupamentos

Níveis descritivos de testes estatísticos de variabilidade como medidas de similaridade entre objetos em análises de agrupamento

MÉTODOS MULTIVARIADOS. Rodrigo A. Scarpel

1 Introdução aos Métodos Estatísticos para Geografia 1

Autovalores e Autovetores

Análise de agrupamento dos dados sedimentológicos da plataforma e talude continentais da Bahia

DEPARTAMENTO DE ESTATÍSTICA PLANO DE ENSINO FICHA N.º 1

ESCOLA E B 2,3/S MIGUEL LEITÃO DE ANDRADA - AGRUPAMENTO DE ESCOLAS DE PEDRÓGÃO GRANDE DEPARTAMENTO DAS CIÊNCIAS EXATAS 2015/2016

REGRESSÃO E CORRELAÇÃO

Medidas de Dispersão ou variabilidade

Universidade Federal de Alagoas UFAL Centro de Tecnologia - CTEC Programa de Pós-Graduação em Engenharia Civil - PPGEC

Súmario APRESENTAÇÃO DA COLEÇÃO...13

MP-208: Filtragem Ótima com Aplicações Aeroespaciais

Provas. As notas da primeira e segunda prova já foram digitadas no Minha UFMG. Caso você não veja sua nota, entre em contato com o professor.

MATRIZ DE REFERÊNCIA PARA O ENEM 2009

a1q1: Seja ABCDEF GH um cubo de aresta unitária de E 3 e considere o espaço V 3 orientado pela base { CD, CB, CH}. Então podemos afirmar que: a)

9 Correlação e Regressão. 9-1 Aspectos Gerais 9-2 Correlação 9-3 Regressão 9-4 Intervalos de Variação e Predição 9-5 Regressão Múltipla

Separe em grupos de folhas diferentes as resoluções dos grupos I e II das resoluções dos grupos III e IV GRUPO I (50 PONTOS)

A análise de aglomerados

CC-226 Aula 05 - Teoria da Decisão Bayesiana

- identificar operadores ortogonais e unitários e conhecer as suas propriedades;

Lista de Álgebra Linear Aplicada

Programação de Conteúdos de Matemática SPE Ensino Médio REGULAR 2013

Pré-requisitos Algebra Linear. Lorí Viali. Afiliação

Análise Fatorial. Matriz R de coeficientes de correlação: Não confundir análise de componentes principais com análise fatorial!

MINISTÉRIO DA EDUCAÇÃO CENTRO FEDERAL DE EDUCAÇÃO TECNOLÓGICA DE MINAS GERAIS CONSELHO DE GRADUAÇÃO

Aula 2 Regressão e Correlação Linear

Matrizes hermitianas e unitárias

MATEMÁTICA - 8.º Ano. Ana Soares ) Catarina Coimbra

linearmente independentes se e somente se: Exercícios 13. Determine o vetor X, tal que 3X-2V = 15(X - U).

Estatística Aplicada ao Serviço Social

Aprendizado de Máquina

Planificação anual- 8.º ano 2014/2015

PLANO CURRICULAR DISCIPLINAR. MATEMÁTICA 7º Ano

Geometria (X 6 ) Português (X 3 ) Álgebra (X 4 )

UNIVERSIDADE FEDERAL FLUMINENSE. Programa de Mestrado e Doutorado em Engenharia de Produção. Disciplina: Estatística Multivariada

AGRUPAMENTO DE ESCOLAS DR. VIEIRA DE CARVALHO

Modelos de Regressão Linear Simples - Análise de Resíduos

Capítulo 6 Estatística não-paramétrica

Análise de Correspondência em acessos de pimenta

GEOMETRIA ANALÍTICA CONTEÚDOS. Distância entre pontos Equação da reta Distância ponto reta Coeficientes Equação da circunferência.

Nessa situação, a média dessa distribuição Normal (X ) é igual à média populacional, ou seja:

ESCOLA SECUNDÁRIA FERREIRA DIAS

MATEMÁTICA NÍVEL MÉDIO

PRÁTICA 8. A Distância Euclidiana entre dois vetores n-dimensionais x e y é definida como o escalar: d = norm(x y)

EXAME DE ÁLGEBRA LINEAR (Semestre Alternativo, Alameda) GRUPO I

Aula 7 Medidas de Distância. Profa. Elaine Faria UFU

Matrizes e Sistemas Lineares

Técnicas Multivariadas em Saúde

3) O ponto P(a, 2) é equidistante dos pontos A(3, 1) e B(2, 4). Calcular a abscissa a do ponto P.

Algoritmos Numéricos 2 a edição

Matemática II /06 - Matrizes 1. Matrizes

. (1) Se S é o espaço vetorial gerado pelos vetores 1 e,0,1

Agrupamento de Escolas de Águeda Escola Básica Fernando Caldeira

Elementos de Matemática Avançada

Matriz de referência de MATEMÁTICA - SAERJINHO 5 ANO ENSINO FUNDAMENTAL

Colégio Adventista Portão EIEFM MATEMÁTICA Geometria Analítica 3º Ano APROFUNDAMENTO/REFORÇO

Algebra Linear. 1. Revisitando autovalores e autovetores. 2. Forma Diagonal e Forma de Jordan. 2.1 Autovalores distintos. 2.2 Autovalores complexos

Calendarização da Componente Letiva Ano Letivo 2016/2017

CORRELAÇÃO LINEAR. Referência Cap. 7 - Métodos Estatísticos para Geografia

Vetor de Variáveis Aleatórias

A UTILIZAÇÃO DE MÉTODOS ESTATÍSTICOS NO PLANEJAMENTO E ANÁLISE DE ESTUDOS EXPERIMENTAIS EM ENGENHARIA DE SOFTWARE (FONTE:

Modelos de Escolha Discreta. a)pretende-se conhecer os coeficientes da função de utilidade, assim como a sua significância estatística.

Pré processamento de dados II. Mineração de Dados 2012

Capítulo 11 Análise da Variância. Statistics for Managers Using Microsoft Excel, 5e 2008 Prentice-Hall, Inc. Chap 11-1

Análise Discriminante

ANÁLISE DE CLUSTER APLICADA À LOGÍSTICA: DEFINIÇÃO DE ZONAS DE TRANSPORTE PARA UMA EMPRESA DO SETOR SIDERÚRGICO

Noções de Álgebra Linear

MELHORIA DA CORRELAÇÃO COFENÉTICA PELA EXCLUSÃO DE UNIDADES EXPERIMENTAIS NA CONSTRUÇÃO DE DENDROGRAMAS

)XQGDPHQWRVGHSUREDELOLGDGHHHVWDWtVWLFD

Transcrição:

GENÉTICA GEOGRÁFICA: Estatistica Espacial em Genética de Populações e da Paisagem JOSÉ ALEXANDRE FELIZOLA DINIZ FILHO LABORATORIO DE ECOLOGIA TEÓRICA & SÍNTESE Departamento de Ecologia, ICB, Universidade Federal de Goiás, Brasil (diniz@ufg.br) THANNYA NASCIMENTO SOARES LABORATÓRIO DE GENÉTICA & BIODIVERSIDADE Departamento de Genética, ICB, UFG (tnsoares@gmail.com)

ABORDAGENS ESPACIAIS ESPACIALMENTE IMPLICITAS Ecologia & Genética ESPACIALMENTE EXPLICITAS

Matriz quadrada (n * n), simétrica e com zero na diagonal principal Relação genética entre as populações F ST (e estatísticas relacionadas) par-apar Distâncias genéticas Outras matrizes de similaridade http://www.uwyo.edu/dbmcd/molmark/gendisteqns.pdf

Wright s F ST Análise de Variância de Frequencias Alélicas ( P ) AMOVA R ST Holsinger s Bayesian ST G ST Q ST (fenótipo) Valores para-par (n * n, simétrica)

Valores para-par (n * n, simétrica) Propriedades importantes: 1. Simétrica ( upper = lower triangle ) 2. Diagonal ( direção da relação ) SIMILARIDADE (1.0) DISSIMILARIDADE (0.0)

Distância Euclidiana (ca. distância de Rogers 1972) Quando existem apenas dois descritores, essa equação resulta no valor da hipotenusa: d ij {( x x ) ( x x 2 i1 j1 i2 j2 ) 2 }

Em um espaço multidimensional (e.g. frequências de múltiplos alelos em vários loci...) p d ij (xik x jk) k1 2

A distância Euclidiana não apresenta um limite superior, ou seja, o valor aumenta indefinidamente com o aumento do número de descritores. Assim, podemos calcular a distância Euclidiana média: d AB p k 1 ( x Ak x Bk ) 2 / p A distância de Rogers usa p = 2

p j j p j j p j j j y y y y C 1 2 2 1 2 1 1 2 1 1,2) ( 1 2 Cavalli-Sforza s & Edward (1967) chord distance Populations are conceptualised as existing as points in a m-dimensional Euclidean space which are specified by m allele frequencies (i.e. m equals the total number of alleles in both populations).

Nei s genetic distances D = -ln (I) Where I = Σx i y i / (Σx i2 Σy i2 ) 0.5 Masatoshi Nei A identidade de Nei é, portanto, a correlação de Pearson entre as populações ao longo das frequencias alélicas...

Rogers Distance Matrix Chord Distance Matrix 0.3 0.35 0.4 0.45 0.5 0.55 0.6 0.65 0.7 0.75 Nei Distance Matrix 0.8 0.85 0.9 0.95 1 1.05 0.5 0.6 0.7 0.8 0.9 1 1.1 1.2 Nei Distance Matrix 1.3 1.4 1.5 1.6 1.7

População 1 Coeficientes de SIMILARIDADE para dados binários Transformar frequencias alélicas em dados 0/1 (ou seja, presença ou ausência do alelo ou haplótipo) Tabela de Freqüência 2 X 2 População 2 1 0 1 a b a +b 0 c d c +d a +c b +d

1 0 1 a b a +b 0 c d c +d a +c b +d Uma maneira simples de calcular a similaridade entre os dois objetos envolve a contagem dos números de descritores que codificam estes objetos do mesmo modo e a posterior divisão pelo número total de descritores p (a+b+c+d): S 1 a p d S 1 = Coincidência simples ( simple matching )

Y 1 Y 2 Y 3 Y 4 Y 5 Y 6 Y 7 Y 8 Y 9 Y 10 Local A 1 1 0 1 0 1 1 0 0 1 Local B 1 0 0 1 0 1 1 1 0 0 1 0 1 a b a +b 0 c d c +d a +c b +d A 4 1 5 B 2 3 5 6 4 10 S 1 a d p 4 3 S 1 10 0,7 (0 = baixa similaridade e 1 = alta similaridade)

Coeficientes de similaridade para dados binários: modo Q (Coeficientes assimétricos) 1 0 1 a b a +b 0 c d c +d a +c b +d Jaccard S 7 a a b c Sørensen S 8 2a 2 a b c

A idéia é desdobrar a (dis)similaridade em diferentes componentes, incluindo turnover e riqueza de alelos

Turnover (substituição) Riqueza alélica Para o Baru, o componente de turnover representa 69% da similaridade, mas o interessante é que apenas o componente de riqueza possui padrão espacial

As relações entre as n populações estão definidas em um espaço p-dimensional (onde p é o numero de alelos) Por exemplo, rodando o modelo em ilhas com 10 alelos (5 loci), a correlação média entre as várias é -0.1111

E agora, José? Com n objetos (unidades amostrais) vamos ter uma matriz com: [n (n 1)/2] valores (e.g. se n = 25 300 valores) Como podemos representar eficientemente o padrão de similaridade entre esses objetos?

e.g., Quais as relações entre os 6 objetos a partir dessa matriz de distancias? A B C D E F A 0.00 B 0.67 0.00 C 1.41 0.74 0.00 D 2.12 1.47 0.77 0.00 E 0.79 0.67 1.09 1.62 0.00 F 2.49 1.84 1.13 0.37 1.96 0.00

Agrupamento & Ordenações

Classificação das técnicas de Agrupamento ( Clustering, ou Cluster Analysis ) Algumas propriedades das técnicas: Aglomerativos: Os grupos são formados, sucessivamente, até reunir todos os objetos em um único grande grupo, ou; Divisivos: Subdivide os grupos até o isolamento de cada objeto (e.g. chaves de taxonomia); Hierárquicos: elementos de um determinado grupo são agrupados dentro de grupos em níveis maiores, ou; Não-hierárquicos: Produzem uma única divisão que maximiza a homogeneidade dentro de grupos;

Análise de Classificação Análise de Agrupamentos (SAHN) B (nx p) T (nx p) S (nx n) Distância C.C.C. U.A. 1 U.A. 2 U.A. 3 U.A. 4 U.A. 5... U.A. n Y1 i Distância(D i,j ) C (nx n) j Y 2

Vários métodos de agrupamento:

Aplicação da técnica de agrupamento: Construção do dendrograma (método médias das distâncias, UPGMA) A 0.00 A B C D E F B 0.67 0.00 C 1.41 0.74 0.00 D 2.12 1.47 0.77 0.00 E 0.79 0.67 1.09 1.62 0.00 F 2.49 1.84 1.13 0.37 1.96 0.00

Primeiro passo: Unir D e F (0,37) Distância de ligação 0,37 D F

Segundo passo: Calcular as distância em relação ao novo grupo A B C D E F A 0.00 B 0.67 0.00 C 1.41 0.74 0.00 D 2.12 1.47 0.77 0.00 E 0.79 0.67 1.09 1.62 0.00 F 2.49 1.84 1.13 0.37 1.96 0.00 Neste ponto, vamos verificar qual o par com menor distância (2,12+2,49)/2 E assim, sucessivamente, para esta linha A B C E B 0.67 C 1.41 0.74 E 0.79 0.67 1.09 DF 2.30 1.66 0.95 1.79

Terceiro passo: Unir A e B (0,67) Distância de ligação A B D F

Quarto passo: Calcular as distância em relação ao novo grupo C E DF E 1.09 DF 0.95 1.79 AB 1.08 0.73 1.98 d d (DF,AB) (DF,AB) Vamos agrupar: (E) com (AB) d( D, A) d( D, B) D( F, A) d( F, B) / 4 (2,12 1,47 2,49 1,84) / 4 1,98 A B C D E F A 0.00 B 0.67 0.00 C 1.41 0.74 0.00 D 2.12 1.47 0.77 0.00 E 0.79 0.67 1.09 1.62 0.00 F 2.49 1.84 1.13 0.37 1.96 0.00

Quinto passo: Unir E e AB (0,73) Distância de ligação A B E D F

Demais passos: Calcular as distância em relação ao novo grupo C DF DF 0.95 ABE 1.08 1.92 Agrupar (CDF) com (ABE) CDF ABE 1.64 Shortcut to ABE x CDF.lnk A B E C D F

Resultado do NTSYS

Para os dados das 25 populações de Baru (UPGMA), a partir do F ST par-a-par...?

VISUALIZANDO OS PADRÕES NO ESPAÇO...

Subp. Local de coleta 1 Cocalinho-MT 2 Água Boa-MT 3 Pirenópolis-GO 4 Sonora-MS 5 Alcinópolis-MS 6 Alvorada-TO 7 São Miguel do Araguaia-GO 8 Luziânia-GO 9 Icém-SP 10 Monte Alegre de Minas-MG 11 Estrela do Norte-GO 12 Santa Terezinha-GO 13 Arinos-MG 14 Pintópolis-MG 15 Paraíso-MS (Chapadão do Sul) 16 Paraíso/Camapuã-MS (Camapuã) 17 Camapuã-MS 18 Indiara-GO 19 Araguaia-MT (Barra do Garça) 20 Araguaia-GO (Aragarças) 21 Jandaia-GO 22 Natividade-TO 23 Arraias-TO 24 Aquidauana- MS 25 Cáceres- MT

Subp. Local de coleta 1 Cocalinho-MT 2 Água Boa-MT 3 Pirenópolis-GO 4 Sonora-MS 5 Alcinópolis-MS 6 Alvorada-TO 7 São Miguel do Araguaia-GO 8 Luziânia-GO 9 Icém-SP 10 Monte Alegre de Minas-MG 11 Estrela do Norte-GO 12 Santa Terezinha-GO 13 Arinos-MG 14 Pintópolis-MG 15 Paraíso-MS (Chapadão do Sul) 16 Paraíso/Camapuã-MS (Camapuã) 17 Camapuã-MS 18 Indiara-GO 19 Araguaia-MT (Barra do Garça) 20 Araguaia-GO (Aragarças) 21 Jandaia-GO 22 Natividade-TO 23 Arraias-TO 24 Aquidauana- MS 25 Cáceres- MT

B (nx p) T (nx p) S (nx n) Distância C.C.C. U.A. 1 U.A. 2 U.A. 3 U.A. 4 U.A. 5... U.A. n Y1 i Distância(D i,j ) C (nx n) j Y 2

O dendrograma representa adequadamente a matriz de distância original? Matriz Cofenética A B C D E F A B 0.67 C 1.64 1.64 D 1.64 1.64 0.95 E 0.73 0.73 1.64 1.64 F 1.64 1.64 0.95 0.37 1.64 Matriz Original A B C D E F A B 0.67 C 1.41 0.74 D 2.12 1.47 0.77 E 0.79 0.67 1.09 1.62 F 2.49 1.84 1.13 0.37 1.96 r X i Yi X iyi n 2 2 X i ) Y X 2 ( i ) i Yi n n 2 ( CCC=0,75 Coeficiente de Correlação Cofenética CCC) Bom ou Ruim?

Diagrama de Shepard: diagrama de dispersão que relaciona distâncias em um espaço com dimensão reduzida com a distâncias originais (mais adequado para técnicas de ordenação): No caso do Baru, o CCC foi igual a 0.845

Problemas com a Análise de Agrupamentos (i) Resultados são dependentes dos protocolos utilizados; DistânciaEuclidiana UPGMA DistânciaEuclidiana WPGMA 7 6 5 4 3 2 1 7 4 6 5 3 2 1 (ii) discretizar um processo que pode ser, na verdade, contínuo, de modo que; (iii) O número de grupos é dependente do nível de corte; (iv) Dificuldade de interpretação

Distância U.A. 1 U.A. 2 U.A. 3 U.A. 4 U.A. 5... U.A. n

Métodos para determinação do nível de corte Maximizar diferenças entre grupos Minimizar diferenças dentro de grupos

Zero para quando u.a. estão em grupos iguais definidos pelo nível de corte 1 para quando u.a. estão em diferentes grupos definidos pelo nível de corte Nível 1 Nível 2 Bini, L. M. & Diniz Filho, J. A. F. (1995) Spectral Decomposition in cluster analysis with applications to limnological data. Acta Limnologica Brasiliensia, 7: 35-40.

CCC Matriz Modelo (Nível de corte 1) Matriz Modelo (Nível de corte 2) Matriz de distância Original Nível de Corte

(v) Mesmo com um conjunto aleatório de dados é possível encontrar grupos. u.a. Y1 Y2 A 0 0.2 B -1-2 C -0-0 D 0.7 0.3 E 0 1.4 F 1.8-0 G 1.4 0.9 H -1-0 I 0.9-1 J -0 0.3 B IF E GD J HC A

Model-based Clustering: STRUCTURE -Pressupostos (H-W, equilibrio de ligação) -Maximizar a probabilidade de individuos pertencerem a grupos (que são desconhecidos) -Vários dados (marcadores) e modelos de evolução -Associar com outras caracteristicas dos individuos (inclusive espaço ) - Abordagem Bayesiana (MCMC)

-11000 P_DK -10000-9000 -------------------------------------------- Estimated Ln Prob of Data = -8723.8 Mean value of ln likelihood = -8313.4 Variance of ln likelihood = 820.8 Mean value of alpha = 0.0405-8000 0 5 10 15 20 25 K

http://taylor0.biology.ucla.edu/structureharvester/

8 grupos... -11000-10000 P_DK -9000-8000 0 5 10 15 20 25 K

Subp. Local de coleta 1 Cocalinho-MT 2 Água Boa-MT 3 Pirenópolis-GO 4 Sonora-MS 5 Alcinópolis-MS 6 Alvorada-TO 7 São Miguel do Araguaia-GO 8 Luziânia-GO 9 Icém-SP 10 Monte Alegre de Minas-MG 11 Estrela do Norte-GO 12 Santa Terezinha-GO 13 Arinos-MG 14 Pintópolis-MG 15 Paraíso-MS (Chapadão do Sul) Paraíso/Camapuã-MS 16 (Camapuã) 17 Camapuã-MS 18 Indiara-GO 19 Araguaia-MT (Barra do Garça) 20 Araguaia-GO (Aragarças) 21 Jandaia-GO 22 Natividade-TO 23 Arraias-TO 24 Aquidauana- MS 25 Cáceres- MT CLUSTERS 1 2 3 4 5 6 7 8 n BEST p2 0.026 0.01 0.078 0.012 0.753 0.03 0.073 0.017 32 5 0.581 0.007 0.095 0.086 0.013 0.167 0.525 0.092 0.014 32 6 0.329 0.007 0.013 0.056 0.017 0.31 0.547 0.032 0.018 32 6 0.400 0.12 0.145 0.017 0.53 0.014 0.017 0.054 0.103 31 4 0.331 0.069 0.692 0.018 0.081 0.012 0.056 0.023 0.05 32 2 0.497 0.013 0.009 0.128 0.061 0.089 0.016 0.094 0.589 32 8 0.384 0.011 0.018 0.583 0.012 0.301 0.015 0.044 0.016 32 3 0.433 0.009 0.015 0.347 0.124 0.045 0.398 0.044 0.018 32 6 0.299 0.009 0.032 0.232 0.59 0.034 0.024 0.051 0.029 31 3 0.408 0.022 0.021 0.028 0.034 0.509 0.036 0.015 0.335 32 5 0.376 0.009 0.02 0.436 0.021 0.323 0.045 0.077 0.068 12 3 0.308 0.014 0.041 0.024 0.038 0.516 0.034 0.122 0.211 12 5 0.331 0.008 0.01 0.011 0.014 0.058 0.024 0.854 0.021 32 7 0.734 0.006 0.017 0.092 0.029 0.016 0.012 0.811 0.016 32 7 0.668 0.096 0.5 0.137 0.017 0.022 0.066 0.077 0.085 13 2 0.296 0.01 0.811 0.027 0.015 0.043 0.016 0.011 0.067 13 2 0.665 0.015 0.807 0.061 0.063 0.011 0.013 0.014 0.017 13 2 0.660 0.005 0.145 0.058 0.034 0.035 0.676 0.01 0.036 13 6 0.485 0.018 0.157 0.173 0.183 0.03 0.348 0.043 0.048 27 6 0.215 0.018 0.285 0.068 0.09 0.03 0.129 0.025 0.356 37 8 0.239 0.011 0.014 0.389 0.104 0.063 0.356 0.014 0.049 32 3 0.296 0.007 0.008 0.81 0.036 0.019 0.022 0.012 0.086 12 3 0.666 0.009 0.009 0.667 0.142 0.1 0.024 0.021 0.028 15 3 0.477 0.033 0.049 0.171 0.484 0.061 0.139 0.047 0.016 31 4 0.292 0.94 0.008 0.007 0.009 0.007 0.005 0.008 0.014 30 1 0.884

grupo Case: 21 Longitude: -50.201 Latitude: -16.912 grupo: 3 8 7.5 7 6.5 6 5.5 5 4.5 4 3.5 3 2.5 2 1.5 1 p2 Case: 18 Longitude: -49.973 Latitude: -17.162 p2: 0.485 0.88 0.86 0.84 0.82 0.8 0.78 0.76 0.74 0.72 0.7 0.68 0.66 0.64 0.62 0.6 0.58 0.56 0.54 0.52 0.5 0.48 0.46 0.44 0.42 0.4 0.38 0.36 0.34 0.32 0.3 0.28 0.26 0.24 0.22

Os 8 grupos do STRUCTURE no espaço geográfico 6 8 3 3 5 1 4 2 8 3 6 6 7 5 4 3

8 3 6 3 5 1 4 2 8 3 6 6 7 5 4 3

8 3 6 3 5 1 4 2 8 3 6 6 7 5 4 3

8 3 6 3 8 5 1 1 8 3 6 5 6 3 6 7 7 4 2 2 5 4 3

8 3 6 3 8 5 1 1 4 8 2 3 6 5 6 3 6 7 7 4 2 5 4 3

Os 8 grupos do STRUCTURE no espaço geográfico 6 8 3 3 5 1 4 2 8 3 6 6 7 5 4 3

Subp. Local de coleta 1 Cocalinho-MT 2 Água Boa-MT 3 Pirenópolis-GO 4 Sonora-MS 5 Alcinópolis-MS 6 Alvorada-TO 7 São Miguel do Araguaia-GO 8 Luziânia-GO 9 Icém-SP 10 Monte Alegre de Minas-MG 11 Estrela do Norte-GO 12 Santa Terezinha-GO 13 Arinos-MG 14 Pintópolis-MG 15 Paraíso-MS (Chapadão do Sul) 16 Paraíso/Camapuã-MS (Camapuã) 17 Camapuã-MS 18 Indiara-GO 19 Araguaia-MT (Barra do Garça) 20 Araguaia-GO (Aragarças) 21 Jandaia-GO 22 Natividade-TO 23 Arraias-TO 24 Aquidauana- MS 25 Cáceres- MT

E. Dysenterica ( cagaiteira ) 23 17 14 18 23 pops 11 loci 22 10 61 2 3 7 16 135 11 12 4 19 21 20 9 15 8 N 200 km

Delta K 0 1 2 3 4 5 5 10 15 20 Number of clusters (K)

1.5] 2] 2.5] 3] 3.5]

TÈCNICAS DE ORDENAÇÃO Representar a variação p-dimensional em um espaço (eixos) contínuo que compacte essa variação variação em um numero com m > p de dimensões (normalmente 1, 2 ou 3)

MAPAS SINTÉTICOS baseados em Análise de Componentes Principais (ACP) -Eliminar estrutura de correlação entre variáveis transformando-as em eixos ortogonais (os componentes principais); -Interpretar os eixos principais como conseqüência de processos microevolutivos. Hotteling, H. 1933. Analysis of a complex of statistical variables into principal componentes. Journal of Educational Psychology. v. 24, p. 417-441.

R- I =0 Em resumo, na ACP três matrizes são importantes 1) Autovalores importância de cada eixo; 2) Autovetores coeficientes das variáveis nos eixos; 3) Escores componentes principais (eixo)

Autovalores e Autovetores Y 1 Y 2 Y 3 Y 4 Y 5 R = Y 1 Y 2 1 Y 3 2 5 Y 4 3 6 8 Y 5 4 7 9 10... Ra = a

Exemplo numérico X1 X2 X1P X2P u1 2 0-0.24-0.63 u2 5 3 0.47 0.32 u3 5 4 0.47 0.63 u4 3 2 0.00 0.00 u5 0 1-0.71-0.32 Matriz de correlação entre variáveis: R- I =0 R 1 0,82 0,82 1

0 1 0 82 0 82 1 0 0 1 0 82 0 82 1 1 0 0 1 1 0 82 0 82 1 λ,, λ λ λ,, λ,, λi R

Determinante de uma matriz 2 x 2: a c b d ( ad) - ( bc) 1 λ 0,82 0,82 1 λ 0 (1 λ 2 λ) 2 (0,82) 2 λ 0,33 0 2 o primeiro termo ao quadrado, menos duas vezes o produto dos dois termos mais o quadrado do segundo)

a b c λ 2 2λ 0,33 0 λ b b 2 2a 4ac 2 (2 2 ) 4(0,33) 2 1.64 λ 2 2 λ I 2 1.64 2 1,82 (Ignore o sinal) λ II 2 1.64 2 0,18 (Ignore o sinal)

% de explicação do CP 1 = I / = 1,82/2 = 91 % % de explicação do CP 2 = II / = 0,18/2 = 9 % Total = 100 % Conclusões... 1. Redistribuiu (não perdeu...) a variação; 2. Reorganizou em 2 eixos ortogonais

Aspectos importantes do PCA - Muitas variáveis quantitativas - Reduzir a dimensão, com alguma perda de informação - Interpretação dos eixos - Critérios de Parada (Stopping rules...)

How many principal components? Stopping rules Autovalores 4.0 3.5 3.0 2.5 2.0 1.5 1.0 0.5 0.0 Observado Distribuição de Broken-Stick 0 1 2 3 4 5 6 Ordem dos componentes

Principal Component 1

Diffusion of farming (cultural) or farmers (genetic)?

Nature Genetics 35: 311-313, 2003

Dados do Baru (1 locus DA20)

Principal Component 1 ase: 14 Longitude: -45.166 Latitude: -16.061 Principal Component 1: 2.309 Principal Component 2 Case: 23 Longitude: -46.863 Latitude: -12.99 Principal Component 2: -0.939

OUTRAS TÉCNICAS DE ORDENAÇÃO ANALISE DE COORDENADAS PRINCIPAIS (PCOA) - resolve o problema do PCA de poucas populações, pois extrai os autovetores de uma matriz de distâncias (transformada) - Pode utilizar qualquer métrica de distância (incluindo distancias de Nei, F ST, etc) ESCALONAMENTO MULTIDIMENSIONAL NÃO-MÉTRICO (NMDS) -Técnica de otimização não-linear para espaço com m dimensões (medida de stress ) -Pode iniciar com a PCOA e melhorar a configuração

NMDS Final STRESS1 = 0.07954 CCC = 0.968 PCOA CCC = 0.907

Ordination Distance 0.00 0.05 0.10 0.15 0.20 0.25 0.30 0.35 Non-metric fit, R 2 0.932 Linear fit, R 2 0.789 0.05 0.10 0.15 0.20 Observed Dissimilarity

NMDS Final STRESS1 = 0.07954 CCC = 0.968 PCOA CCC = 0.907

Structure PCOA1 1.5] 2] 2.5] 3] 3.5] -0.1] -0.05] 0] 0.05]

0.0 0.1 0.2 0.3 0.4 Spatial autocorrelation (I) 14 d = 2 d = 2 23 17-0.5 18 22 10 61 2 3 16 13 5 4-1.5 0 7 11 12 20 19 21 9 1.5 Connection network 15 8 Score 1 d = 2 d = 2 Score 1 Score 1 Eigenvalues Eigenvalues decomposition 1 0.5 0-0.5 5 7 6 8 9 10 11 12 13 14 15 16 17 18 19 20 21 4 3 2 1 22-1 0.0 0.1 0.2 0.3 0.4 0.5 0.6 Variance