MEEMF- 2011 Aula 08. Inferência de tempos de divergência entre espécies



Documentos relacionados
Analise filogenética baseada em alinhamento de domínios

Introdução à Filogenética para Professores de Biologia

por séries de potências

Exercícios Teóricos Resolvidos

Probabilidade e Estatística I Antonio Roque Aula 11 Probabilidade Elementar: Novos Conceitos

AULAS 14, 15 E 16 Análise de Regressão Múltipla: Problemas Adicionais

Aula 4 Estatística Conceitos básicos

Aula 4 Conceitos Básicos de Estatística. Aula 4 Conceitos básicos de estatística

Experimento 3 # Professor: Data: / / Nome: RA:

Aula 8.1 Conteúdo: Eletrodinâmica: Associação de resistores em série, potência elétrica de uma associação em série de resistores. INTERATIVIDADE FINAL

MÓDULO 4 DISTRIBUIÇÃO DE FREQÜÊNCIAS

Resolução de sistemas lineares

Datas Importantes 2013/01

Velocidade Média Velocidade Instantânea Unidade de Grandeza Aceleração vetorial Aceleração tangencial Unidade de aceleração Aceleração centrípeta

Eventos independentes

AULAS 02 E 03 Modelo de Regressão Simples

DETERMINAÇÃO DO TAMANHO DE UMA AMOSTRA

PlanetaBio Resolução de Vestibulares UNESP ª fase

Notas de Cálculo Numérico

Função bayesiana em R para o problema de Behrens-Fisher multivariado

Um estudo sobre funções contínuas que não são diferenciáveis em nenhum ponto

Exemplos de Testes de Hipóteses para Médias Populacionais

REPRESENTAÇÃO DE DADOS EM SISTEMAS DE COMPUTAÇÃO AULA 03 Arquitetura de Computadores Gil Eduardo de Andrade

Curvas em coordenadas polares

1. Os métodos Não-Paramétricos podem ser aplicados a uma ampla diversidade de situações, porque não exigem populações distribuídas normalmente.

AV1 - MA (b) Se o comprador preferir efetuar o pagamento à vista, qual deverá ser o valor desse pagamento único? 1 1, , , 980

4. RESULTADOS E DISCUSSÃO

Aula 9 ESCALA GRÁFICA. Antônio Carlos Campos

FUNÇÃO DE 1º GRAU. = mx + n, sendo m e n números reais. Questão 01 Dadas as funções f de IR em IR, identifique com um X, aquelas que são do 1º grau.

Processos Estocásticos

Sérgio Carvalho Matemática Financeira

Análise de regressão linear simples. Departamento de Matemática Escola Superior de Tecnologia de Viseu

Estatística II Antonio Roque Aula 9. Testes de Hipóteses

Resolvendo problemas com logaritmos

Escalas. Antes de representar objetos, modelos, peças, A U L A. Nossa aula. O que é escala

3º Ano do Ensino Médio. Aula nº10 Prof. Daniel Szente

Análise de Regressão Linear Simples e Múltipla

Faculdade Sagrada Família

Distribuição de probabilidades

Sistemas Lineares. Módulo 3 Unidade 10. Para início de conversa... Matemática e suas Tecnologias Matemática

ESTATÍSTICA BÁSICA COM ANÁLISE E TRATAMENTO ESTATÍSTICO DE DADOS EM SPSS

BIOLOGIA - 2 o ANO MÓDULO 64 EVOLUÇÃO DO HOMEM

O teste de McNemar. A tabela 2x2. Depois

Além do Modelo de Bohr

Sistema de Memórias de Computadores

Modelos Pioneiros de Aprendizado

SUMÁRIO 1. AULA 6 ENDEREÇAMENTO IP:... 2

Eduardo Camponogara. DAS-5103: Cálculo Numérico para Controle e Automação. Departamento de Automação e Sistemas Universidade Federal de Santa Catarina

Aula 3 CONSTRUÇÃO DE GRÁFICOS EM PAPEL DILOG. Menilton Menezes. META Expandir o estudo da utilização de gráficos em escala logarítmica.

DICAS PARA CÁLCULOS MAIS RÁPIDOS ARTIGO 06

BC0406 Introdução à Probabilidade e à Estatística Lista de Exercícios Suplementares 2 3 quadrimestre 2011

UNIDADE 3 MEDIDAS DE POSIÇÃO E DISPERSÃO OBJETIVOS ESPECÍFICOS DE APRENDIZAGEM

Memória cache. Prof. Francisco Adelton

Disciplina: Biologia Série: 2ª série EM - 1º TRIM Professora: Ivone Azevedo da Fonseca Assunto: Genética de Populações

DURATION - AVALIANDO O RISCO DE MUDANÇA NAS TAXAS DE JUROS PARTE ll

SOBRE NoBreak s Perguntas e respostas. Você e sua empresa Podem tirar dúvidas antes de sua aquisição. Contulte-nos. = gsrio@gsrio.com.

UTILIZAÇÃO DE RECURSOS AVANÇADOS DO EXCEL EM FINANÇAS (PARTE II): ATINGIR META E SOLVER

O PLANEJAMENTO FINANCEIRO E AS MICRO E PEQUENAS EMPRESAS NO BRASIL 1

A importância da certificação para os laboratórios de meio ambiente A importância da certificação para os laboratórios de meio ambiente

MÓDULO 1. I - Estatística Básica

Estudaremos métodos numéricos para resolução de sistemas lineares com n equações e n incógnitas. Estes podem ser:

MATEMÁTICA GEOMETRIA ANALÍTICA I PROF. Diomedes. E2) Sabendo que a distância entre os pontos A e B é igual a 6, calcule a abscissa m do ponto B.

EQUAÇÕES DIFERENCIAIS ORDINÁRIAS

ARQUITETURA E ORGANIZAÇÃO DE COMPUTADORES SISTEMAS DE NUMERAÇÃO: REPRESENTAÇÃO EM PONTO FLUTUANTE. Prof. Dr. Daniel Caetano

4. A FUNÇÃO AFIM. Uma função f: R R chama-se afim quando existem números reais a e b tais que f(x) = ax + b para todo x R. Casos particulares

Linguagem e Técnicas de Programação I Tipos de dados, variáveis e constantes. Prof. MSc. Hugo Souza Material desenvolvido por: Profa.

Métodos Quantitativos Prof. Ms. Osmar Pastore e Prof. Ms. Francisco Merlo. Funções Exponenciais e Logarítmicas Progressões Matemáticas

LISTA DE INTERVALO DE CONFIANÇA E TESTE DE HIPÓTESES

ESPAÇOS MUNIDOS DE PRODUTO INTERNO

AMOSTRAGEM ESTATÍSTICA EM AUDITORIA PARTE ll

"SISTEMAS DE COTAGEM"

Origem da variação. Conceitos importantes. Diversidade Genética. Variação genética

PUCGoiás Física I. Lilian R. Rios. Rotação

APOSTILA DE EXEMPLO (Esta é só uma reprodução parcial do conteúdo)

MÉDIA ARITMÉTICA MÉDIA PONDERADA MODA MEDIANA

A árvore genealógica dos seres vivos

Aula 2 - Cálculo Numérico

Modelos de Equações simultâneas

RESUMO 2 - FÍSICA III

Dois eventos são disjuntos ou mutuamente exclusivos quando não tem elementos em comum. Isto é, A B = Φ

Campos Vetoriais e Integrais de Linha

Caderno de Exercícios

A Matemática do ENEM em Bizus

Aritmética de Ponto Flutuante

Potenciação no Conjunto dos Números Inteiros - Z

MLP (Multi Layer Perceptron)

N1Q1 Solução. a) Há várias formas de se cobrir o tabuleiro usando somente peças do tipo A; a figura mostra duas delas.

Nome:...N o...turma:... Data: / / ESTUDO DOS GASES E TERMODINÂMICA

Equações Diferenciais Ordinárias

Análise de Arredondamento em Ponto Flutuante

Arquitetura de Rede de Computadores

Introdução ao Estudo da Corrente Eléctrica

2 Pesquisa de valores em uma lista de dados

Laboratório de Física I - EAD- UESC 2011

Eng Civil Washington Peres Núñez Dr. em Engenharia Civil pela Universidade Federal do Rio Grande do Sul

Juros Simples, Compostos, e Contínuos

INSTITUTO TECNOLÓGICO

E A D - S I S T E M A S L I N E A R E S INTRODUÇÃO

Cotagem de dimensões básicas

Matemática para Engenharia

Transcrição:

MEEMF- 2011 Aula 08 Inferência de tempos de divergência entre espécies

A descoberta do relógio molecular Em 1962, Zuckerkandl e Pauling verificaram que as taxas evolutivas da hemoglobina em vertebrados é aproximadamente constante Em 1963 Margoliash constatou o mesmo fenômeno no citocromo c Posteriormente, Doolitle e Bloombäck (1964) obtiveram resultados semelhantes em fibrinopeptídeos

O que isso significava? Taxas evolutivas constantes ao longo das linhagens significavam que as proteínas sofriam substituições de forma aproximadamente constante ao longo do tempo Existe uma relação linear entre o número de substituições nas proteínas e o tempo Era como se as substituições ocorressem como as batidas de um relógio O fenômeno ficou conhecido como relógio molecular

Linearidade da substituição de aminoácidos Dickerson, 1971

Se as taxas evolutivas são constantes... Uma relação linear entre o número de substituições e o tempo permite estabelecer relações do tipo: 1. Se homem e chimpanzé possuem, digamos, 3% de diferença num gene X, e sabemos que as duas linhagens divergiram há ~8 Ma. 2. A divergência entre humanos e roedores, que possuem 35% de diferença neste mesmo gene X ocorreu há: 3% 8Ma 35% x x = 93Ma

O relógio em filogenias Para os relógio funcionar, a taxa de evolução deve ser constante entre as linhagens Dessa forma, após um evento de cladogênese ambas as linhagens filhas devem acumular aproximadamente o mesmo número de substituições ancestral T a µ µ b a sp 2 = µ T a sp1 b a sp1 = µ T a sp2 d sp1 sp 2 = b a sp1 + b a sp 2 = (µ T a ) + (µ T a ) = 2µT a

Conseqüentemente

Ponto de calibração

O significado do tamanho de ramo Suponhamos que desejamos inferir as relações evolutivas entre as seqüências 1 e 2 abaixo: sítios 1 2 3 4 5 6 7 8 9 10... n seq1 A T G C T A A C G G... T seq2 A T G C C A T C G A... A A única relação possível é: seq1 seq2

O significado do tamanho de ramo O ramo que separa as seqüências 1 e 2 indica o número de sítios que sofreram substituição (distância genética) O número de substituições é o produto da taxa de substituição pelo tempo de separação entre as seqüências 1 e 2: d = µt

seq1 A T G C T A A C G G... T d = µt µ à taxa de subsftuição t à tempo de separação entre 2 seqs seq2 A T G C C A T C G A... A # de subsftuições/sífo = # subst./sífo/tempo X tempo Exemplo: d = µt µ = 2 10 9 t =12 10 6 d = 0,024

A distância em filogenias d=0.0304+0.0289 = 0.0593

O tamanho de ramo revisitado Desde o ancestral ocorreram 0.124 mudanças por sífo

Generalizando t e m p o T a d A1 = b 1 = µ 1 T a A d A 2 = b 2 = µ 2 T a seqüência 2 seqüência 1

A distância genética generalizada t e m p o T a d A1 = b 1 = µ 1 T a A d A 2 = b 2 = µ 2 T a seqüência 2 seqüência 1 d 12 = b 1 + b 2 d 12 = d A1 + d A 2 d 12 = (µ 1 T a ) + (µ 2 T a )

O problema Não sabemos a seqüência ancestral. Portanto... t e m p o T a =?? seqüência 1 A d 12 = 2µ T a seqüência 2

Ainda o problema Dado um par de seqüência, se soubermos o tempo que ambas divergiram do ancestral poderemos calcular a taxa evolutiva média Suponha que a distância calculada pelo método de Jukes-Cantor seja de 0.0593 subst./sítio e que o tempo de divergência é de 10.000.000 de anos d 12 = 2µ T a 0,0593 = 2µ 10000000 µ = 0,000000002965

Como calcular taxas específicas para cada ramo? Existe uma forma de não calcular a taxa média? Sim, você deverá usar um grupo externo. Ao fazer isso, você terá a composição mínima para inferência de taxas para linhagens O Grupo externo evidencia as mudanças exclusivas da linhagem grupo externo seqüência 2 seqüência 1

Portanto Se T=10000000 0,0289 d 2A = µ 2 T 0,0289 = µ 2 10000000 grupo externo 0,0304 seqüência 2 µ 2 = 0,00000000289 d 1A = µ 1 T 0,0304 = µ 1 10000000 seqüência 1 µ 1 = 0,00000000304

Se os tamanhos de ramos forem iguais...... as taxas evolutivas serão iguais nas duas linhagens. 0,0297 0,0297 d 2A = µ 2 T 0,0297 = µ 2 10000000 µ 2 = 0,00000000297 grupo externo seqüência 1 seqüência 2 d 1A = µ 1 T 0,0297 = µ 1 10000000 µ 1 = 0,00000000297

Testando a constância de taxas Se podemos testar taxas pelo tamanho de ramo, é relativamente simples bolar um teste para a hipótese nula H 0 : µ 1 = µ 2 H 0 : b 1 = b 2

Teste paramétrico Considere a filogenia abaixo: raiz b B b A B A d AB = b A + b B d AC = b A + b C d BC = b B + b C b C C

Teste paramétrico raiz b C b B b A D C A B Isto é significafvo? D = b A + b B = d AC d BC var(d) = var(d AB ) 2cov(d AB,d BC ) + var(d BC )

Teste paramétrico Após computar D e var(d), podemos usar o teste Z para verificar a hipótese nula de que a diferença é igual a zero H 0 : b A = b B H 0 : b A b B = 0 H 0 : D = 0 Z = D var(d)

Teste não-paramétrico Podemos também conceber um teste que não usa distâncias genéticas, apenas as mudanças observadas

Evidenciando autapomorfias Num alinhamento de 2 espécies + grupo externo, temos: A : B : C : T A G G T T A T A C T C C A T Tipo de sífo: iii iij ijk ijj jij H 0 : n ijj = n jij

Teste não paramétrico χ 2 = (n ijj n jij ) 2 n ijj + n jij H 0 : n ijj = n jij H 1 : n ijj n jij

O ponto de calibração Linhagem A Linhagem B t e m p o X Ma Y Ma Fóssil com sinapomorfias de A Fóssil com sinapomorfias de B A divergência entre as linhagens A e B ocorreu há, no mínimo, Y milhões de anos

Diferenciação morfológica vs genética Um fóssil é associado a uma linhagem, pois apresenta as sinapomorfias morfológicas desta Entretanto, a diferenciação morfológica raramente acompanha a diferenciação genética após a especiação Quando falamos de tempo de separação entre duas linhagens, estamos nos referindo à separação genética

Portanto O tempo do registro fóssil é menor que a separação datada geneticamente através do relógio molecular

Críticas ao relógio molecular É biologicamente improvável que as taxas de substituição sejam aproximadamente constantes em linhagens tão diferentes quanto, por exemplo, mamíferos e angiospermas Na verdade, diversos estudos mostraram que o relógio é freqüentemente violado Diferenciação morfológica vs genética

Críticas estatísticas ao relógio molecular Assim como no cálculo de distâncias genéticas, existe um erro estocástico grande associado aos tempos de divergência estimados pelo relógio As seqüência não tem tamanho infinito, portanto a variância não é nula A estimativa do tempo deve vir acompanhada do erro associado T ˆ = 93Ma ± erro

Algumas fontes de erro Erro estocástico da distância genética Erro da calibração T = 93 Ma ± erro ± erro

Diante de tantos erros... Não deveríamos esquecer o relógio molecular? Erros são encontrados em qualquer estimativa, é importante que saibamos qual é origem do erros. Assim, ponderaremos nossa confiança na estimativa

Reduzindo o erro estocástico Conforme o seqüenciamento de DNA fica mais barato, mais genes podem ser estudados Assim o tamanho amostral de sítios usados na inferência do tempo de divergência aumenta e o erro estocástico diminui N var(θ) 0

Erros sistemáticos Além dos erros associados ao tamanho amostral, as estimativas possuem erros associados ao modelo usado. Esses erros são chamados de sistemáticos

Exemplo Suponhamos que as sequencias tenham evoluído por GTR+G Se usarmos Jukes-Cantor para calcular a distâncias genéticas, elas serão subestimadas Mas, se o tamanho amostral for grande, a estimativa de tempo de divergência terá um erro pequeno! Obteremos um estimativa viciada

O Estimador ideal Idealmente, devemos usar um estimador que: N var(θ) 0 θ ˆ θ consistente não viciado

Reduzindo erro sistemático Na era da filogenômica, não precisamos ter medo de usar modelos complexos Modelos complexos acomodam mais realisticamente a evolução das sequências

As duas correntes de pensamento em Filogenética Escola clássica: use modelos simples (com menor número de parâmetros), pois a variância das estimativas será menor. A evolução biológica é complexa demais para ser modelada Escola contemporânea: os dados são abundantes. Use modelos complexos, pois existe informação nas seqüências para estimar múltiplos parâmetros. Podemos modelar a complexidade da evolução biológica

Avanços recentes na inferência de Relógios locais tempos de divergência Flexibilização da calibração Modelagem da evolução das taxas evolufvas Decomposição do tamanho de ramo em tempo e taxa UFlização de inferência bayesiana

a b Relógios locais Suponhamos o seguinte caso: c d

Relógios locais µ 1 µ 2 c d a b

Relógios locais c C 2 µ µ 1 C1 2 d Se cada região da árvore que apresentar a mesma taxa possuir um ponto de calibração interno, outros nós podem ser datados a b

Relógios locais T =?? µ 1 µ 2 b 4 C 2 µ 1 = b 2 C 1 µ 2 = b 5 C 2 b 1 C 1 b 2 b 3 c b 5 b 6 d T = (b 1 + b 2 ) µ 1 T = (b 4 + b 5 ) µ 2 a b

Revisitando o tamanho de ramo Detalhando ainda mais o significado do tamanho de ramo T sp1 A b sp2 b = µ T = T t = 0 µ(t)dt

Por que? A taxa de evolução naturalmente deve variar ao longo do ramo que liga o ancestral A até a sp2 sp1 μ(t) T t=0 A b sp2 b = T t = 0 µ(t)dt b

Variação ao longo da árvore Além de variar ao longo do ramo, a taxa de evolução também varia entre ramos T (12)3 T 12 sp1 b 1 µ 1 A (12)3 b 12 µ 12 A 12 b 3 b 2 µ 2 sp2 µ 3 sp3

Como modelar isso? Teoricamente, se tivéssemos um modelo de como a taxa de evolução varia na árvore poderíamos decompor o tamanho de ramo Ao decompor o tamanho de ramo, taxa e tempo são estimados independentemente e não há necessidade de assumir o relógio molecular Ou seja, a decomposição do tamanho de ramo resultaria num relógio molecular relaxado

Relógio molecular relaxado Como o tamanho de ramo é decomposto? b = µ T Estabelece um modelo para a evolução das taxas Usa informação de múlfplos pontos de calibração ou intervalos de calibração

O ponto de calibração revisitado Tradicionalmente, a informação sobre o tempo de divergência das linhagens é obtida dos fósseis e considerada pontualmente x anos A B

Intervalos de calibração y x No mínimo há x e no máximo há y anos A B

Intervalos de calibração usando soft bounds B hard bounds y x A B x y som bounds y x A x y

Relógio molecular relaxado Várias estratégias foram propostas para decompor o tamanho de ramo: Sanderson (1997); Sanderson (2002): r8s Thorne et al. (1998); Kishino et al. (2001); Thorne e Kishino (2002): Multidivtime Drummond et al. (2006): Beast Yang e Yoder (2003); Yang (2004): PAML Rannala e Yang (2007): PAML

Relógio molecular relaxado As diversas estratégias podem ser divididas pelo tipo de método de inferência usado Máxima verossimilhança Inferência bayesiana Sanderson (1997) Sanderson (2002) Yang e Yoder (2003) Yang (2004) Thorne et al. (1998) Kishino et al. (2001) Thorne e Kishino (2002) Drummond et al. (2006) Rannala e Yang (2007)

Relógio molecular relaxado A divisão também pode ser feita pelo tipo de modelagem Não- paramétrico Generalização do relógio local Sanderson (1997) Sanderson (2002) Yang e Yoder (2003) Yang (2004) Taxas evolufvas correlacionadas Thorne et al. (1998) Kishino et al. (2001) Thorne e Kishino (2002) Taxas evolufvas independentes Drummond et al. (2006) Rannala e Yang (2007)

Relógio molecular relaxado Divisão pela forma de calibração Pontos de calibração Yang e Yoder (2003) Yang (2004) Intervalos de calibração hard Sanderson (1997) Sanderson (2002) Thorne et al. (1998) Kishino et al. (2001) Thorne e Kishino (2002) Intervalos de calibração so6 Drummond et al. (2006) Rannala e Yang (2007)

Modelos de taxas evolutivas correlacionadas De modo geral, os modelos correlacionados incluem um parâmetro que força correlação entre as taxas dos ramos pai e filho T (12)3 T 12 µ 1 sp1 µ 12 f (µ 1 µ 12 ) A 12 A (12)3 µ 2 sp2 µ 3 sp3

Abordagem browniana O modelo não assume uma trajetória geral para evolução as taxas na árvore. A taxa tem liberdade de variação de nó em nó

O modelo de Kishino et al. (2001) O modelo usado no programa multidivtime estipula dependência entre taxas através de um hiperparâmetro ν µ 2 A 2 σ = Δt ν µ 1 Δt C B µ 1 f (µ 2 µ 1 )

O modelo lognormal de Kishino et al. µ 2 µ 1 A 2 σ = Δt ν Δt C B µ 1 f (µ 2 µ 1 ) f (µ 2 µ 1 ) = 1 µ 2 2πΔtσ exp 1 2 2Δtσ log µ 2 2 + Δtσ 2 µ1 2 2

O hiperparâmetro ν O hiperparâmetro ν influencia na variância da função que correlaciona as taxas dos nós pai e filho 2 σ = Δt ν 2 σ = Δt ν 2 σ = Δt ν µ 1 µ 1 µ 1 Quanto maior o valor de ν, mais desviantes do relógio as taxas são ν = 0 (relógio molecular)

Decompondo os ramos Uma árvore filogenética é na verdade o produto de uma árvore de taxas por uma árvore de tempos de divergência T 1 µ b 4 4 µ 1 µ 2 = T 2 b 1 b 2 b 3 µ 3

Como decompor? b 1 b 4 b 2 b 3 µ 4? T 1 µ 1 µ 2 T 2 µ 3

A fórmula de Bayes para filogenias O terema de Bayes para filogenias O termo τ Pr(τ,θ X) = τ Pr(X τ,θ) Pr(τ,θ) Pr(X τ,θ) Pr(τ,θ)dθ representa a topologia θ O termo θ representa o vetor de parametros do modelo de substituição e os tamanhos de ramo θ = { κ, α, b, b2,..., b 1 n }

Bayes e a decomposição do ramo Ao estimar tempos de divergência frequentemente a topologia é fixa. O que desejamos estimar é o vetor de parâmetros apenas Uma pequena modificação na fórmula permite a inclusão de tempo T e taxas µ: Pr(T, µ X,τ ) = T µ Pr(X,τ T, µ) Pr(T, µ) Pr(X,τ T, µ) Pr(T, µ)dµ µ 2 A 2 σ = Δt ν µ 1 Δt C B µ 1

multidivtime Pr( T, µ, ν X, τ ) = Pr( X, τ T, µ, ν ) Pr( µ T, ν ) Pr( X ) Pr( T ) Pr( ν ) µ 2 A 2 σ = Δt ν µ 1 Δt C B µ 1

E os tempos de calibração? Pr( T, µ, ν X, τ, C) = Pr( X, τ, C T, µ, ν ) Pr( µ T, ν ) Pr( T Pr( X ) C) Pr( ν ) A calibrações limitam a distribuição a priori dos tempos Pr(T)