MEEMF- 2011 Aula 08 Inferência de tempos de divergência entre espécies
A descoberta do relógio molecular Em 1962, Zuckerkandl e Pauling verificaram que as taxas evolutivas da hemoglobina em vertebrados é aproximadamente constante Em 1963 Margoliash constatou o mesmo fenômeno no citocromo c Posteriormente, Doolitle e Bloombäck (1964) obtiveram resultados semelhantes em fibrinopeptídeos
O que isso significava? Taxas evolutivas constantes ao longo das linhagens significavam que as proteínas sofriam substituições de forma aproximadamente constante ao longo do tempo Existe uma relação linear entre o número de substituições nas proteínas e o tempo Era como se as substituições ocorressem como as batidas de um relógio O fenômeno ficou conhecido como relógio molecular
Linearidade da substituição de aminoácidos Dickerson, 1971
Se as taxas evolutivas são constantes... Uma relação linear entre o número de substituições e o tempo permite estabelecer relações do tipo: 1. Se homem e chimpanzé possuem, digamos, 3% de diferença num gene X, e sabemos que as duas linhagens divergiram há ~8 Ma. 2. A divergência entre humanos e roedores, que possuem 35% de diferença neste mesmo gene X ocorreu há: 3% 8Ma 35% x x = 93Ma
O relógio em filogenias Para os relógio funcionar, a taxa de evolução deve ser constante entre as linhagens Dessa forma, após um evento de cladogênese ambas as linhagens filhas devem acumular aproximadamente o mesmo número de substituições ancestral T a µ µ b a sp 2 = µ T a sp1 b a sp1 = µ T a sp2 d sp1 sp 2 = b a sp1 + b a sp 2 = (µ T a ) + (µ T a ) = 2µT a
Conseqüentemente
Ponto de calibração
O significado do tamanho de ramo Suponhamos que desejamos inferir as relações evolutivas entre as seqüências 1 e 2 abaixo: sítios 1 2 3 4 5 6 7 8 9 10... n seq1 A T G C T A A C G G... T seq2 A T G C C A T C G A... A A única relação possível é: seq1 seq2
O significado do tamanho de ramo O ramo que separa as seqüências 1 e 2 indica o número de sítios que sofreram substituição (distância genética) O número de substituições é o produto da taxa de substituição pelo tempo de separação entre as seqüências 1 e 2: d = µt
seq1 A T G C T A A C G G... T d = µt µ à taxa de subsftuição t à tempo de separação entre 2 seqs seq2 A T G C C A T C G A... A # de subsftuições/sífo = # subst./sífo/tempo X tempo Exemplo: d = µt µ = 2 10 9 t =12 10 6 d = 0,024
A distância em filogenias d=0.0304+0.0289 = 0.0593
O tamanho de ramo revisitado Desde o ancestral ocorreram 0.124 mudanças por sífo
Generalizando t e m p o T a d A1 = b 1 = µ 1 T a A d A 2 = b 2 = µ 2 T a seqüência 2 seqüência 1
A distância genética generalizada t e m p o T a d A1 = b 1 = µ 1 T a A d A 2 = b 2 = µ 2 T a seqüência 2 seqüência 1 d 12 = b 1 + b 2 d 12 = d A1 + d A 2 d 12 = (µ 1 T a ) + (µ 2 T a )
O problema Não sabemos a seqüência ancestral. Portanto... t e m p o T a =?? seqüência 1 A d 12 = 2µ T a seqüência 2
Ainda o problema Dado um par de seqüência, se soubermos o tempo que ambas divergiram do ancestral poderemos calcular a taxa evolutiva média Suponha que a distância calculada pelo método de Jukes-Cantor seja de 0.0593 subst./sítio e que o tempo de divergência é de 10.000.000 de anos d 12 = 2µ T a 0,0593 = 2µ 10000000 µ = 0,000000002965
Como calcular taxas específicas para cada ramo? Existe uma forma de não calcular a taxa média? Sim, você deverá usar um grupo externo. Ao fazer isso, você terá a composição mínima para inferência de taxas para linhagens O Grupo externo evidencia as mudanças exclusivas da linhagem grupo externo seqüência 2 seqüência 1
Portanto Se T=10000000 0,0289 d 2A = µ 2 T 0,0289 = µ 2 10000000 grupo externo 0,0304 seqüência 2 µ 2 = 0,00000000289 d 1A = µ 1 T 0,0304 = µ 1 10000000 seqüência 1 µ 1 = 0,00000000304
Se os tamanhos de ramos forem iguais...... as taxas evolutivas serão iguais nas duas linhagens. 0,0297 0,0297 d 2A = µ 2 T 0,0297 = µ 2 10000000 µ 2 = 0,00000000297 grupo externo seqüência 1 seqüência 2 d 1A = µ 1 T 0,0297 = µ 1 10000000 µ 1 = 0,00000000297
Testando a constância de taxas Se podemos testar taxas pelo tamanho de ramo, é relativamente simples bolar um teste para a hipótese nula H 0 : µ 1 = µ 2 H 0 : b 1 = b 2
Teste paramétrico Considere a filogenia abaixo: raiz b B b A B A d AB = b A + b B d AC = b A + b C d BC = b B + b C b C C
Teste paramétrico raiz b C b B b A D C A B Isto é significafvo? D = b A + b B = d AC d BC var(d) = var(d AB ) 2cov(d AB,d BC ) + var(d BC )
Teste paramétrico Após computar D e var(d), podemos usar o teste Z para verificar a hipótese nula de que a diferença é igual a zero H 0 : b A = b B H 0 : b A b B = 0 H 0 : D = 0 Z = D var(d)
Teste não-paramétrico Podemos também conceber um teste que não usa distâncias genéticas, apenas as mudanças observadas
Evidenciando autapomorfias Num alinhamento de 2 espécies + grupo externo, temos: A : B : C : T A G G T T A T A C T C C A T Tipo de sífo: iii iij ijk ijj jij H 0 : n ijj = n jij
Teste não paramétrico χ 2 = (n ijj n jij ) 2 n ijj + n jij H 0 : n ijj = n jij H 1 : n ijj n jij
O ponto de calibração Linhagem A Linhagem B t e m p o X Ma Y Ma Fóssil com sinapomorfias de A Fóssil com sinapomorfias de B A divergência entre as linhagens A e B ocorreu há, no mínimo, Y milhões de anos
Diferenciação morfológica vs genética Um fóssil é associado a uma linhagem, pois apresenta as sinapomorfias morfológicas desta Entretanto, a diferenciação morfológica raramente acompanha a diferenciação genética após a especiação Quando falamos de tempo de separação entre duas linhagens, estamos nos referindo à separação genética
Portanto O tempo do registro fóssil é menor que a separação datada geneticamente através do relógio molecular
Críticas ao relógio molecular É biologicamente improvável que as taxas de substituição sejam aproximadamente constantes em linhagens tão diferentes quanto, por exemplo, mamíferos e angiospermas Na verdade, diversos estudos mostraram que o relógio é freqüentemente violado Diferenciação morfológica vs genética
Críticas estatísticas ao relógio molecular Assim como no cálculo de distâncias genéticas, existe um erro estocástico grande associado aos tempos de divergência estimados pelo relógio As seqüência não tem tamanho infinito, portanto a variância não é nula A estimativa do tempo deve vir acompanhada do erro associado T ˆ = 93Ma ± erro
Algumas fontes de erro Erro estocástico da distância genética Erro da calibração T = 93 Ma ± erro ± erro
Diante de tantos erros... Não deveríamos esquecer o relógio molecular? Erros são encontrados em qualquer estimativa, é importante que saibamos qual é origem do erros. Assim, ponderaremos nossa confiança na estimativa
Reduzindo o erro estocástico Conforme o seqüenciamento de DNA fica mais barato, mais genes podem ser estudados Assim o tamanho amostral de sítios usados na inferência do tempo de divergência aumenta e o erro estocástico diminui N var(θ) 0
Erros sistemáticos Além dos erros associados ao tamanho amostral, as estimativas possuem erros associados ao modelo usado. Esses erros são chamados de sistemáticos
Exemplo Suponhamos que as sequencias tenham evoluído por GTR+G Se usarmos Jukes-Cantor para calcular a distâncias genéticas, elas serão subestimadas Mas, se o tamanho amostral for grande, a estimativa de tempo de divergência terá um erro pequeno! Obteremos um estimativa viciada
O Estimador ideal Idealmente, devemos usar um estimador que: N var(θ) 0 θ ˆ θ consistente não viciado
Reduzindo erro sistemático Na era da filogenômica, não precisamos ter medo de usar modelos complexos Modelos complexos acomodam mais realisticamente a evolução das sequências
As duas correntes de pensamento em Filogenética Escola clássica: use modelos simples (com menor número de parâmetros), pois a variância das estimativas será menor. A evolução biológica é complexa demais para ser modelada Escola contemporânea: os dados são abundantes. Use modelos complexos, pois existe informação nas seqüências para estimar múltiplos parâmetros. Podemos modelar a complexidade da evolução biológica
Avanços recentes na inferência de Relógios locais tempos de divergência Flexibilização da calibração Modelagem da evolução das taxas evolufvas Decomposição do tamanho de ramo em tempo e taxa UFlização de inferência bayesiana
a b Relógios locais Suponhamos o seguinte caso: c d
Relógios locais µ 1 µ 2 c d a b
Relógios locais c C 2 µ µ 1 C1 2 d Se cada região da árvore que apresentar a mesma taxa possuir um ponto de calibração interno, outros nós podem ser datados a b
Relógios locais T =?? µ 1 µ 2 b 4 C 2 µ 1 = b 2 C 1 µ 2 = b 5 C 2 b 1 C 1 b 2 b 3 c b 5 b 6 d T = (b 1 + b 2 ) µ 1 T = (b 4 + b 5 ) µ 2 a b
Revisitando o tamanho de ramo Detalhando ainda mais o significado do tamanho de ramo T sp1 A b sp2 b = µ T = T t = 0 µ(t)dt
Por que? A taxa de evolução naturalmente deve variar ao longo do ramo que liga o ancestral A até a sp2 sp1 μ(t) T t=0 A b sp2 b = T t = 0 µ(t)dt b
Variação ao longo da árvore Além de variar ao longo do ramo, a taxa de evolução também varia entre ramos T (12)3 T 12 sp1 b 1 µ 1 A (12)3 b 12 µ 12 A 12 b 3 b 2 µ 2 sp2 µ 3 sp3
Como modelar isso? Teoricamente, se tivéssemos um modelo de como a taxa de evolução varia na árvore poderíamos decompor o tamanho de ramo Ao decompor o tamanho de ramo, taxa e tempo são estimados independentemente e não há necessidade de assumir o relógio molecular Ou seja, a decomposição do tamanho de ramo resultaria num relógio molecular relaxado
Relógio molecular relaxado Como o tamanho de ramo é decomposto? b = µ T Estabelece um modelo para a evolução das taxas Usa informação de múlfplos pontos de calibração ou intervalos de calibração
O ponto de calibração revisitado Tradicionalmente, a informação sobre o tempo de divergência das linhagens é obtida dos fósseis e considerada pontualmente x anos A B
Intervalos de calibração y x No mínimo há x e no máximo há y anos A B
Intervalos de calibração usando soft bounds B hard bounds y x A B x y som bounds y x A x y
Relógio molecular relaxado Várias estratégias foram propostas para decompor o tamanho de ramo: Sanderson (1997); Sanderson (2002): r8s Thorne et al. (1998); Kishino et al. (2001); Thorne e Kishino (2002): Multidivtime Drummond et al. (2006): Beast Yang e Yoder (2003); Yang (2004): PAML Rannala e Yang (2007): PAML
Relógio molecular relaxado As diversas estratégias podem ser divididas pelo tipo de método de inferência usado Máxima verossimilhança Inferência bayesiana Sanderson (1997) Sanderson (2002) Yang e Yoder (2003) Yang (2004) Thorne et al. (1998) Kishino et al. (2001) Thorne e Kishino (2002) Drummond et al. (2006) Rannala e Yang (2007)
Relógio molecular relaxado A divisão também pode ser feita pelo tipo de modelagem Não- paramétrico Generalização do relógio local Sanderson (1997) Sanderson (2002) Yang e Yoder (2003) Yang (2004) Taxas evolufvas correlacionadas Thorne et al. (1998) Kishino et al. (2001) Thorne e Kishino (2002) Taxas evolufvas independentes Drummond et al. (2006) Rannala e Yang (2007)
Relógio molecular relaxado Divisão pela forma de calibração Pontos de calibração Yang e Yoder (2003) Yang (2004) Intervalos de calibração hard Sanderson (1997) Sanderson (2002) Thorne et al. (1998) Kishino et al. (2001) Thorne e Kishino (2002) Intervalos de calibração so6 Drummond et al. (2006) Rannala e Yang (2007)
Modelos de taxas evolutivas correlacionadas De modo geral, os modelos correlacionados incluem um parâmetro que força correlação entre as taxas dos ramos pai e filho T (12)3 T 12 µ 1 sp1 µ 12 f (µ 1 µ 12 ) A 12 A (12)3 µ 2 sp2 µ 3 sp3
Abordagem browniana O modelo não assume uma trajetória geral para evolução as taxas na árvore. A taxa tem liberdade de variação de nó em nó
O modelo de Kishino et al. (2001) O modelo usado no programa multidivtime estipula dependência entre taxas através de um hiperparâmetro ν µ 2 A 2 σ = Δt ν µ 1 Δt C B µ 1 f (µ 2 µ 1 )
O modelo lognormal de Kishino et al. µ 2 µ 1 A 2 σ = Δt ν Δt C B µ 1 f (µ 2 µ 1 ) f (µ 2 µ 1 ) = 1 µ 2 2πΔtσ exp 1 2 2Δtσ log µ 2 2 + Δtσ 2 µ1 2 2
O hiperparâmetro ν O hiperparâmetro ν influencia na variância da função que correlaciona as taxas dos nós pai e filho 2 σ = Δt ν 2 σ = Δt ν 2 σ = Δt ν µ 1 µ 1 µ 1 Quanto maior o valor de ν, mais desviantes do relógio as taxas são ν = 0 (relógio molecular)
Decompondo os ramos Uma árvore filogenética é na verdade o produto de uma árvore de taxas por uma árvore de tempos de divergência T 1 µ b 4 4 µ 1 µ 2 = T 2 b 1 b 2 b 3 µ 3
Como decompor? b 1 b 4 b 2 b 3 µ 4? T 1 µ 1 µ 2 T 2 µ 3
A fórmula de Bayes para filogenias O terema de Bayes para filogenias O termo τ Pr(τ,θ X) = τ Pr(X τ,θ) Pr(τ,θ) Pr(X τ,θ) Pr(τ,θ)dθ representa a topologia θ O termo θ representa o vetor de parametros do modelo de substituição e os tamanhos de ramo θ = { κ, α, b, b2,..., b 1 n }
Bayes e a decomposição do ramo Ao estimar tempos de divergência frequentemente a topologia é fixa. O que desejamos estimar é o vetor de parâmetros apenas Uma pequena modificação na fórmula permite a inclusão de tempo T e taxas µ: Pr(T, µ X,τ ) = T µ Pr(X,τ T, µ) Pr(T, µ) Pr(X,τ T, µ) Pr(T, µ)dµ µ 2 A 2 σ = Δt ν µ 1 Δt C B µ 1
multidivtime Pr( T, µ, ν X, τ ) = Pr( X, τ T, µ, ν ) Pr( µ T, ν ) Pr( X ) Pr( T ) Pr( ν ) µ 2 A 2 σ = Δt ν µ 1 Δt C B µ 1
E os tempos de calibração? Pr( T, µ, ν X, τ, C) = Pr( X, τ, C T, µ, ν ) Pr( µ T, ν ) Pr( T Pr( X ) C) Pr( ν ) A calibrações limitam a distribuição a priori dos tempos Pr(T)