GENÉTICA GEOGRÁFICA:

Documentos relacionados
Aula 3: Análise Exploratória de Dados Espaciais (AEDE) Prof. Eduardo A. Haddad

AUTOCORRELAÇÃO ESPACIAL. Flávia F. Feitosa

CORRELAÇÃO E REGRESSÃO

Estatística Aplicada II. } Regressão Linear

INTRODUÇÃO À ESTATÍSTICA ESPACIAL. Prof. Anderson Rodrigo da Silva

i j i i Y X X X i j i i i

1 Introdução aos Métodos Estatísticos para Geografia 1

CONHECIMENTOS ESPECÍFICOS

TÉCNICAS EXPERIMENTAIS APLICADAS EM CIÊNCIA DO SOLO

Correlação e Regressão

Econometria Semestre

TRANSFORMAÇÕES. 1 Tornar comparáveis descritores medidos em diferentes unidades

REGRESSÃO E CORRELAÇÃO

Interpolação. Dr. Marcos Figueiredo

Análise e Previsão de Séries Temporais Aula 1: Introdução às séries temporais. Eraylson Galdino

aula ANÁLISE DO DESEMPENHO DO MODELO EM REGRESSÕES

Reamostragem e Permutação

Tópicos Extras 1ª parte. Testes Não Paramétricos, Análise Multivariada, Outras Técnicas

INTRODUÇÃO A ECONOMETRIA

Séries Temporais. Fernando Lucambio. Agosto de Departamento de Estatística Universidade Federal do Paraná Curitiba/PR, , Brasil

SUMÁRIO. 1.1 Introdução, Conceitos Fundamentais, 2

Caros Alunos, segue a resolução das questões de Estatística aplicadas na prova para o cargo de Auditor Fiscal da Receita Municipal de Teresina.

MAE Introdução à Probabilidade e Estatística II Resolução Lista 5

Professora conteudista: Maria Ester Domingues de Oliveira. Revisor: Francisco Roberto Crisóstomo

Autocorrelação Espacial. Sistemas de Informação Geográfica II. Estatística espacial MAUP. Estatísticas espaciais. Estatística espacial

Métodos Quantitativos para Avaliação de Políticas Públicas

PROVA ESPECÍFICA Cargo 23

Estatistica Espacial em Genética de Populações e da Paisagem

Variável dependente Variável independente Coeficiente de regressão Relação causa-efeito

Universidade Federal de Goiás. Bioestatística. Prof. Adriano Sanches Melo - Dep. Ecologia ICB asm.adrimelo gmail.com

Modelos de Regressão Linear Simples - Análise de Resíduos

ESTATÍSTICA Distribuições qui-quadrado, t de Student e F de Snedecor Lucas Schmidt

CONHECIMENTOS ESPECÍFICOS

Análise Multivariada Aplicada à Contabilidade

Variância pop. * conhecida Teste t Paramétrico Quantitativa Distribuição normal Wilcoxon (teste dos sinais, Wilcoxon p/ 1 amostra)

Modelos de Regressão Linear Simples - Análise de Resíduos

Modelos de Regressão Linear Simples - parte III

RESPOSTAS - PROVA ESTATÍSTICA AGENTE PF 2018

A Metodologia de Box & Jenkins

CORRELAÇÃO LINEAR. Referência Cap. 7 - Métodos Estatísticos para Geografia

A ANÁLISE EXPLORATÓRIA DE DADOS ESPACIAIS: breve introdução José Irineu Rangel Rigotti

Instituto Nacional de Pesquisas Espaciais - INPE. Divisão de Processamento de Imagens - DPI

CORRELAÇÃO. Flávia F. Feitosa

Universidade Federal de Alfenas Programa de Pós-graduação em Estatística Aplicada e Biometria-PPGEAB Prova de Conhecimentos Específicos

REGRESSÃO LINEAR Parte I. Flávia F. Feitosa

GENÉTICA GEOGRÁFICA:

CORRELAÇÃO LINEAR. Referência Cap. 7 - Métodos Estatísticos para Geografia

Estatística Aplicada II. } Correlação e Regressão

Correlação e Regressão Linear

DELINEAMENTO INTEIRAMENTE CASUALIZADO. Profª. Sheila Regina Oro

PREVISÃO. Prever o que irá. acontecer. boas decisões com impacto no futuro. Informação disponível. -quantitativa: dados.

Aula 2 Uma breve revisão sobre modelos lineares

Regressão. PRE-01 Probabilidade e Estatística Prof. Marcelo P. Corrêa IRN/Unifei

Métodos Estatísticos Avançados em Epidemiologia

Mais Informações sobre Itens do Relatório

4. ANÁLISE DOS RESULTADOS DA PESQUISA

Prof. Lorí Viali, Dr.

ANEXO C ANÁLISES DE REGRESSÃO (DADOS POR BAIRROS) VULNERABILIDADE X RENDA REGRESSÃO CLÁSSICA

MINICURSO. Uso da Calculadora Científica Casio Fx. Prof. Ms. Renato Francisco Merli

Dado que há um número ímpar de elementos, a mediana será o elemento que coincide com o seguinte:

Capítulo 1 Estatística Descritiva. Prof. Fabrício Maciel Gomes

APONTAMENTOS DE SPSS

Planejamento e Otimização de Experimentos

Bibliografia Recomendada.

RESOLUÇÃO Nº 01/2016

AULA 09 Regressão. Ernesto F. L. Amaral. 17 de setembro de 2012

Aplicação de métodos estatísticos para a solução de problemas biológicos

A PAISAGEM NA GENÉTICA NA PAISAGEM. Kelly Souza Ms. Ecologia e Evolução-UFG

Súmario APRESENTAÇÃO DA COLEÇÃO...13

Testes de Hipóteses para. uma Única Amostra. Objetivos de Aprendizagem. 9.1 Teste de Hipóteses. UFMG-ICEx-EST-027/031 07/06/ :07

Modelo de regressão estável aplicado a econometria

VERIFICAÇÃO DOS RECURSOS NECESSÁRIOS. Capítulo 1 VARIÁVEIS E AMOSTRAS 1

CONHECIMENTOS ESPECÍFICOS

Cap. 9 Comparação entre tratamentos

BIOESTATÍSTICA. Parte 5 Testes de Hipóteses

Probabilidade II. Departamento de Estatística. Universidade Federal da Paraíba

Realimentação de Relevância

Noções sobre Regressão

Aulas 4-5: Análise Exploratória de Dados Espaciais (AEDE) Prof. Eduardo A. Haddad

AJUSTE DE UM MODELO DE SÉRIES TEMPORAIS PARA PREVISÃO DA TEMPERATURA MÍNIMA DO AR PARA LAVRAS/MG EM 2011

Regressão linear simples

Modelo de Regressão Múltipla

PROVA DE ESTATÍSTICA SELEÇÃO MESTRADO/UFMG 2006

AULAS 14 E 15 Modelo de regressão simples

Mario de Andrade Lira Junior

Transcrição:

GENÉTICA GEOGRÁFICA: Estatistica Espacial em Genética de Populações e da Paisagem JOSÉ ALEXANDRE FELIZOLA DINIZ FILHO LABORATORIO DE ECOLOGIA TEÓRICA & SÍNTESE Departamento de Ecologia, ICB, Universidade Federal de Goiás, Brasil (diniz@icb.ufg.br)

Análises Espacialmente Implícitas Analise de Dados em Genética Geográfica Espacialmente explícitas

COMPONENTE ESPACIAL Epidemiologia Economia Demografia Sociologia Geografia Geologia Genetica Ecologia

Padrão de pontos DADOS ESPACIAIS Superfícies

DADOS Interpolação... 0.14 0.12 0.1 0.08 0.06 0.04 0.02 0-0.02 SUPERFICIE - Real? - Processos?

Dados em pontos de amostragem Unidade espacial de análise

superficies Visualização Paisagem

CONEXÕES ENTRE UNIDADES ESPACIAIS Descrever a relação espacial entre as observações, com base nas coordenadas X, Y Matriz W (conectividade, adjacência ou peso da ligação entre unidades espaciais)

distância Matriz W (Estrutura espacial) Conectividade (rede) Adjacências

Latitude (Y) Distância Geográfica (espacial) entre as unidades amostrais i j Longitude (X) d ij {( x i x j ) 2 ( y i y j ) 2 } (distância física verdadeira)

A A questão das distâncias esféricas ou geodésicas Latitude Longitude D D km km 6371 E * 180 6371arccos[sin 1sin 2 cos 1 cos 2 cos( 1 2)] Distância esférica (em arco) Distância em corda B

1) Funções das distâncias espaciais - W ij = 1 / d ij - W ij = 1 / d ij 2 - W ij = e (- d ij ) W Relação funcional entre W e D Distância 2) Estabelecer distância de truncamento (d T )

Matriz de distâncias geográficas (km) A B C D E F A 0 B 1 0 C 1.2 1.2 0 D 4 4 4 0 E 4 4 4 1.5 0 F 4 4 4 1.5 1 0 d T = 2 Matriz W A B C D E F A 0 B 1 0 C 1 1 0 D 0 0 0 0 E 0 0 0 1 0 F 0 0 0 1 1 0

Redes de conexão 3 8 2 1 6 7 4 5 Barreira geográfica... Rede de Gabriel - este é um dentre os vários critérios possíveis para estabelecer redes...

Modelos de conexão

Matriz W de conexão com base nas ligações da rede 1 2 3 4 5 6 7 8 1 x 2 1 x 3 0 1 x 4 0 0 0 x 5 0 0 0 1 x 6 1 0 0 0 0 x 7 0 0 0 1 0 1 x 8 0 0 0 0 0 0 1 x

1. Posição dos pontos

2. Rede de conexão

3. Bi-setores perpendiculares

A B 4. Polígonos de Thiessen (regiões) C D E A B C D E A 0 B 1 0 C 1 0 0 D 1 1 1 0 E 0 1 0 1 0 Matriz W de adjacência entre as regiões

Torre (Rook) Unidades geopolíticas em Goiás - Brasil Bispo (Bishop) Rainha (Queen)

Topologias alternativas e conexões

- Temos agora uma matriz de distâncias geográficas ou pesos ligando as populações, então... Como podemos associar essas matrizes geográficas com as distancias genéticas discutidas anteriormente (Nei, F ST, etc)?

TESTE DE MANTEL Mantel, N. (1967). Detection of disease clustering and a generalized regression approach. Cancer Research 27 (2P1): 209-220. SND = [Z E(Z)] / VAR(Z) 1/2 Mielke (Biometrics 34: 277-282, 1978) Nathan Mantel (1919-2002) PERMUTAÇÃO (ou aleatorização)

Sokal 1979 Peter Smouse

150 Number of papers 100 50 0 1987 1992 1997 2002 2007 2012 YEAR Web of Science => Mantel AND genet*

TESTE DE MANTEL n p variables Similarity/Dissimilarity (Nei distances, Identity, F ST Rogers, Jaccard, Euclidian, etc) Distancias geográficas n GEN Z n n i 1 j 1 GEN ij * GEO ij GEO n

GEN A B C D E Distancias genéticas (Nei) A 0 B 0.0961 0 C 0.1595 0.0647 0 D 0.1542 0.0942 0.1019 0 E 0.0277 0.0859 0.1427 0.1518 0 GEO A B C D E Distancias geográficas (km) A 0 B 6 0 C 15 2 0 D 12 9 11 0 E 1 8 18 13 0 produto A B C D E A 0 B 0.5766 0 C 2.3925 0.1294 0 D 1.8504 0.8478 1.1209 0 E 0.0277 0.6872 2.5686 1.9734 0 Z n n i 1 j 1 GEN ij * GEO ij Mantel Z 12.175 (Ou 2* soma, se quiser considerar o outro lado da matriz)

n GEN Z n n i 1 j 1 GEN ij * GEO ij GEO n -Esse valor de Z depende do numero de elementos a serem somados e do proprio valor em GEN e em GEO; -O que o Mantel fez foi derivar uma formula para o valor esperado e para a variancia (erro) dessa somatoria, de modo que SND = Z E(Z) / erro(z) pode ser testada por um desvio normalizado da distribuição normal (standard normal deviate). Mas Mielke mostrou que só funciona bem em alguns casos...

Sendo X igual a GEO e Y igual a GEN... Z n n i 1 j 1 GEN ij * GEO ij O Z de Mantel é uma parte do coeficiente de correlação de Pearson entre as matrizes; A correlação r entre as matrizes é uma teste Z de Mantel padronizado quando as matrizes são normalizadas (média 0 e sd = 1) Mas é diferente correlacionar um vetor Y e X e matrizes de distancias euclidianas entre X e Y

1 2 3 4 5 1 0,0000 2 0,0961 0,0000 3 0,1595 0,0647 0,0000 4 0,1542 0,0942 0,1019 0,0000 5 0,0277 0,0859 0,1428 0,1518 0,0000 Genetic 0.0961 0.1595 0.1542 0.0277 0.0647 0.0942 0.0859 0.1019 0.1428 0.1518 Geo (km) 6 15 12 1 2 9 8 11 18 13 Pearson r = 0.903 Mas como testar essa correlação?

Teste de aleatorização n GEN Z n n i 1 j 1 GEN ij * GEO ij GEO n -Embaralhar linhas e colunas; -Recalcular o Z; -Repetir 1000 vezes ou mais; -Contar quantas vezes o Z observado foi maior do que os 1000 valores de Z (isso é o valor de P, ou erro tipo I)

Note-se que não é a mesma coisa embaralhar os elementos da matriz e as linhas e colunas;

Constantes sob a permutação de linhas e colunas -Sob essas aleatorizações (permutações), a média e a variância são constantes, de modo que isso não afeta a estandardização do Z para a correlação de Pearson entre as matrizes

Quantas permutações? Depende: -Do n (para o máximo) -Do P-valor desejado (para o mínimo)

Para as 25 populações de Baru r = 0.487 Elevando-se o r ao quadrado, tem-se que cerca de 23.7% da variação nas distancias geneticas pode ser explicadas pelas distâncias geográficas

400 95% da área 300 Permutations 200 2.5% da área -0.192 0.259 2.5% da área 100 0-0.35-0.25-0.15-0.05 0.05 0.15 0.25 Mantel correlation 0.35 0.45 0.55

400 - O valor observado de r = 0.487 é maior dos que os 4999 valores aleatorizados, de modo que a probabilidade encontrar esse valor ao acaso é 1/5000; Permutations 300 200 100 -Separando-se os 125 valores maiores e os 125 valores menores (5%), tem-se os limites de 0.259 e -0.192 (esse é o intervalo de confiança não paramétrico a 95%). -O IC95 paramétrico está entre -0.236 e 0.235. 0-0.35-0.25-0.15-0.05 0.05 0.15 0.25 Mantel correlation 0.35 0.45 0.55

Teste de Mantel e Isolamento-por-distancia (IBD)

Interpretar Mantel e IBD conjuntamente requer modificações (não é só a correlação, mas sim transformar FST/(1-FST) e log (distancias)

fstr_quad 1.2 1.1 1 0.9 0.8 0.7 0.6 r²: 0.196 y = 5.672 + 1.314*x 0.5 0.4 0.3 0.2 0.1 0-0.1-0.2-0.3 2 2.5 3 3.5 4 4.5 lndist 5 5.5 6 6.5 7

http://ibdws.sdsu.edu/~ibdws/

Pierre Legendre Marie Jose Fortin

EXPANSÕES DO TESTE DE MANTEL Correlograma de Mantel Mantel parcial (correlação parcial e regressão parcial)

Distâncias entre 0 e 2 A B C D E F A 0 B 1 0 C 1.2 1.2 0 D 4 4 4 0 E 4 4 4 1.5 0 F 4 4 4 1.5 1 0 Distâncias > 2 W 1 W 2 A B C D E F A 0 B 1 0 C 1 1 0 D 0 0 0 0 E 0 0 0 1 0 A B C D E F A 0 B 0 0 C 0 0 0 D 1 1 1 0 E 1 1 1 0 0 F 1 1 1 0 0 0 Calculo do Z ou r de Mantel Calculo do Z ou r de Mantel

I j j j XY X j Y W1 W matrices 0 100 km D N ln I 1 2 3 4 5 1 0,0000 2 0,0961 0,0000 3 0,1595 0,0647 0,0000 4 0,1542 0,0942 0,1019 0,0000 5 0,0277 0,0859 0,1428 0,1518 0,0000 W2 100 200 km W3 200 300 km MANTEL CORRELOGRAM W4 300 400 km

A matriz de distâncias geográficas (simétrica e com n (n-1) / 2 observações) pode ser desdobrada em diversas matrizes de conectividade W k, cada uma delas ligando pares sucessivos e exclusivos de locais de coleta distantes uns dos outros por um intervalo crescente. Questões: - Número de classes? n = 20 k = 4 ou 5 classes - Regra de Sturge No. de classes = 1 + 3.3log 10 [(n*n-1)/2] (n = 20 8 classes) - Como dividir a matriz de distâncias e criar as matrizes W?

Como dividir a matriz de distâncias? 1) Classes de distâncias iguais (mesmo intervalo); Ex.: 0-100; 100-200; 200-300 km; etc 2) Número aproximadamente igual de conexões (W) (I de Moran mais comparáveis e mais estáveis...); W (I k ) = [ n (n-1) ] / k onde k é o número de classes Ex: classes irregulares - 0-100; 100-250; 250-500; 500-980 km

TESTE GLOBAL DO CORRELOGRAMA critérios de Bonferroni Para estabelecer a significância total do correlograma mantendo-se a Probabilidade de Erro Tipo I a um nível de 5 % (por exemplo), é necessário utilizar o critério de Bonferroni: 1) Testar a significância de cada um dos índices I a um nível de 0,05/k. Assim, o correlograma como um todo será significativo se pelo menos um dos valores de I for significativo a 0,05/k. 2) Usar o critério de Bonferroni sequencial: r(1) = 0.05/1 r(2) = 0.05/2 r(3) = 0.05/3... r(k) = 0.05/k

Importante: Note-se que a matriz W é uma matriz de similaridade, no qual o valor alto (no caso 1) indica que as populações estão LIGADAS, ou seja, estão juntas. Por outro lado, as matrizes de FST ou Nei etc, são matrizes de distância, no qual o valor alto indica diferença! Então, no caso de comparar uma matriz de SIMILARIDADE qualquer e uma matriz de DISTANCIA, o Mantel dará uma correlação negativa quando houver de fato uma relação positiva entre as matrizes (dependendo do software, pode ser preciso inverter o sinal do Mantel). Por exemplo, se ao invés de usar distância geográfica utilizar 1/D 2, o Mantel dará uma forte relação NEGATIVA

W 1 Populações geograficamente próximas A B C D E F A 0 B 1 0 C 1 1 0 D 0 0 0 0 E 0 0 0 1 0 A B C D E F A 0 B 0.1 0 C 0.2 0.3 0 D 0.5 0.4 0.3 0 E 0.6 0.5 0.5 0.2 0 F 0.7 0.6 0.9 0.3 0.1 0 Distâncias genéticas W 2 Populações geograficamente distantes A B C D E F A 0 B 0 0 C 0 0 0 D 1 1 1 0 E 1 1 1 0 0 F 1 1 1 0 0 0 Médias das distâncias genéticas entre populações próximas = 0.2 Médias das distâncias genéticas entre populações distantes

W 1 Populações geograficamente próximas A B C D E F A 0 B 0.1 0 C 0.2 0.3 0 D 0.4 0.4 0.4 0 E 0.6 0.4 0.5 0.2 0 F 0.6 0.5 0.7 0.3 0.1 0 Distâncias genéticas W 2 Populações geograficamente distantes A B C D E F A 0 B 1 0 C 1 1 0 D 0 0 0 0 E 0 0 0 1 0 A B C D E F A 0 B 0 0 C 0 0 0 D 1 1 1 0 E 1 1 1 0 0 F 1 1 1 0 0 0 Médias das distâncias genéticas entre Médias das distâncias genéticas populações próximas = 0.2 entre populações distantes = = 0.5

Distanciograma ou Distograma 0.5 0.2 Classe de Distância Geográfica W1 W2

0.18 0.16 Distância de NEI média 0.14 0.12 0.10 0.08 0.06 0.04 0.02 0.00 0 80 160 240 Distância Geográfica (km)

Distância de Tanimoto Output SGS 0.6 Observado 0.5 0.4 + Limite inferior do intervalo de confiança (95%) 0.3 + Limite superior do intervalo de confiança (95%) 0.2 872 1745 2618 3490 4362 5235 6108 6980 7852 Limite superior das classes de distância (m) + Média/ausência de autocorrelação Figura 4. Distograma (Tanimoto) construído a partir das distâncias genéticas médias entre 32 plantas (Dipteryx alata), coletadas em Icém - SP, distribuídas em nove classes de distâncias geográficas.

O uso do teste de Mantel a partir de uma matriz binária W de conexão abre a possibilidade de utilizar o Mantel para testar qualquer efeito de variação entre as localidades Funciona assim como uma Analise de Variancia não-paramétrica multivariada (AMOVA), na qual o teste (hipotese nula) é que as distâncias entre os grupos são iguais às distancias dentro dos grupos. A idéia é que 1 indica que as populações estão no mesmo grupo e zero o que estão em grupos diferentes

TESTE DE MANTEL PARCIAL Correlações parciais -Correlação parcial de 1 a. Ordem (ou ordens superiores) -Correlação entre as variáveis 1 e 2 mantendo `fixo` o efeito da variável 3 (r 12.3 ) (controle estatístico) r 12.3 r 12 2 13 r 13 r 23 1 r 1 r 2 23

Causa e Correlação This view is summed up in the mantra that is learnedt by almost every student who has ever taken an elementary couse in statistics: correlation does not imply causation. In fact, with few exceptions, correlation does imply causation...a more accurate sound bite for introductory statistics would be that a simple correlation implies an unresolved causal structure... (Pat Shipley, 2000) -Dados experimentais versus dados observacionais -Controle Estatístico versus Controle Físico

Definições de causa e causalidade Aristóteles Conceitos operacionais: o que seriam relações causais? AXIOMAS: 1. Relações transitivas se o evento A causa o evento B, que por sua vez causa o evento C, então A causa C; 2. As relações devem ser locais (condição Markoviana) se A causa C apenas por meio de B, então a influência de A sobre C é bloqueada se o evento B é impedido de responder a A; 3. As relações devem ser irreflexivas um evento não causa a ele mesmo (exceto em loops temporais); 4. As relações devem ser assimétricas se A causa B, então B não ser a causa de A simultaneamente.

Correlações... Riqueza (c) 0.889 0.776 AET (b) 0.737 Latitude (a)

2 23 2 13 23 13 12 12.3 1 1 r r r r r r 0.74388 0.737 1 0.776 1 0.737 0.776 0.889 2 2 /. lat aet r riq AET (b) Riqueza (c) Latitude (a) Correlações... 0.889 0.776 0.737 0.889 0.744

Genetica (c) 0.585 0.286 0.720 0.582 Fenótipo (b) 0.584 0.289 Geografia (a)

TESTE DE MANTEL E REGRESSÃO PARCIAL A idéia central é desdobrar a variação em diferentes componentes: a = componente puro de variação em Y definido somente por X (história, ambiente, etc); b = componente de variação da sobreposição entre X e espaço; c = componente puro de variação espacial; d = resíduo

a = componente de variação em Y definido somente por X; b = componente de variação da sobreposição X e espaço; c = componente de variação espacial; d = resíduo Para realizar o desdobramento, são necessários os coeficientes de determinação (R 2 ) de 3 modelos: 1) Mantel com as variáveis preditoras (X) (R 2 A) (a + b); 2) Mantel geográfico (R 2 G) (b + c); 3) Mantel geográfica + preditoras (R 2 T) (a + b + c) A fração residual é dada por 1 R 2 T. A fração b (sobreposição) é dada por b = R 2 A + R 2 G - R 2 T De modo que... a = R 2 A - b c = R 2 G b

Regressão parcial Dist.Genéticas Total: 64.7% IBD: 4% Barriers: 9% Overlap: 51.7% Dist.Geograficas Isolamento