Métodos Filogenéticos. Comparação de seqüências de aminoácidos. Medição de divergência de seqüência

Métodos Filogenéticos Distância: Seleciona a árvore que melhor representa as distâncias entre os pares de organismos observados Máxima verossimilhança: Seleciona a árvore com maior probabilidade de ter gerado os dados observados Parcimônia: Seleciona a árvore que infere o menor número de substituições (eventos mutacionais) Comparação de seqüências de aminoácidos Medição de divergência de seqüência Seqüência Seqüência 2 Seqüência Seqüência 2 Seqüência Seqüência 2 Seqüência 3 Seqüência 4 Seqüência 5 Seqüência 6 leu arg phe cys ser ser arg leu phe cys ser ser arg leu arg phe cys ser ser arg leu gap phe cys ser ser arg leu arg phe cys ser ser arg leu gap phe cys ser phe arg leu gap phe cys ser phe arg leu arg ile cys ser ser arg leu arg ile cys ala ser arg leu arg phe cys ile ser arg Seqüências de aa de cadeias alfa de hemoglobina No. de Taxa : 6 Gaps/Dados ausentes : Deleção completa Método de distância : AA corrigida Poisson No. de Sítios : 40 d : Estimativa 2 3 4 5 6 [] Homem - [2] Cavalo 0.3 - [3] Vaca 0.3 0.3 - [4] canguru 0.2 0.23 0.20 - [5] Salamandra 0.57 0.64 0.60 0.64 - [6] Carpa 0.66 0.65 0.62 0.7 0.75 - Divergência pode ser usada para se agrupar O modelo de Jukes-Cantor de substituição de nucleotídeos 0. 2 3 4 5 6 [] Homem - [2] Cavalo 0.3 - [3] Vaca 0.3 0.3 - [4] canguru 0.2 0.23 0.20 - [5] Salamandra 0.57 0.64 0.60 0.64 - [6] Carpa 0.66 0.65 0.62 0.7 0.75 - Homem Cavalo Vaca Canguru Salam Carpa Common ancestor of human and orang. t time units human (now) Considere o nt na 2a posição da α- globin2 Alu α = Taxa de substituição de nt, assumido como constante Matriz infinitesimal Q = A G C T A - 3α α α α G α - 3α α α C α α - 3α α T α α α - 3 α

O modelo de 2 parâmetros de Kimura para mudança de nucleotídeos Métodos de Filogenia Molecular A G C T A G C T c a b b a c b b b b c a b b a c Taxas de transição: Horizontal: a Diagonal e vertical: b Self: c = a 2b c c A b C a b a G T b c c Métodos de Distância Matriz de diferenças (ou semelhanças) Agrupamento UPGMA não permite taxas de evolução diferentes Agrupamentos Vizinhos Neighbor Joining (Saitou e Nei, 987) permite taxas de evolução diferentes nos ramos Similaridade vs. relacionamento evolutivo Similar: ser semelhante (uma constatação) Relacionado: Ter genes idênticos por descendência uma inferência histórica Dois taxa podem ser mais similares do que taxas relacionados 3 6 Taxon C Taxon A 5 Taxon D Taxon B C é mais similar a A (d=3) do que a B (d=7), embora C e B sejam mais relacionados Medição de divergência de seqüência Métodos Filogenéticos Taxa não são relacionados porque são similares, eles são similares por serem relacionados Distância: Seleciona a árvore que melhor representa as distâncias entre os pares de organismos observados Máxima verossimilhança: Seleciona a árvore com maior probabilidade de ter gerado os dados observados Parcimônia: Seleciona a árvore que infere o menor número de substituições (eventos mutacionais) 2

Máxima Verossimilhança Maximum likelihood procura obter o modelo mais provável de ter gerado os dados obtidos através do cálculo de várias verossimilhanças Tenta reconstruir a filogenia a partir de um modelo explícito de evolução que pode ser testado Por envolver um trabalho computacional intenso, mesmo modelos simples podem se tornar inviáveis e é o mais lento dos métodos filogenéticos Métodos Filogenéticos Obtendo uma filogenia a partir de caracteres Distância: Seleciona a árvore que melhor representa as distâncias entre os pares de organismos observados Máxima verossimilhança: Seleciona a árvore com maior probabilidade de ter gerado os dados observados Parcimônia: Seleciona a árvore que infere o menor número de substituições (eventos mutacionais) Caráter derivado Mandíbula Pulmão Unhas ou Penas Pelos Gls Coração de 4 Taxon garras mamárias câmaras Lampreia - - - - - - - Perca + - - - - - - Salamandra + + - - - - - Lagarto + + + - - - - Crocodilo + + + - - - + Pombo + + + + - - + Rato + + + - + + + Chimpanzé + + + - + + + 3

Mandíbula Pulmões Unhas ou garras Uma filogenia simples Penas Lampreia Perca Salamandra Lagarto Crocodilo Pombo Árvores filogenéticas Grupo externo Parafilético Polifilético Monofilético Coração de 4 câmaras Pelo, glândulas mamárias Rato Chimpanzé Tempo evolutivo relativo Eventos antigos Eventos recentes Grupo externo Uma linhagem proximamente relacionada ao grupo focal Taxa Monofilético inclui todos os descendentes de um ancestral comum Taxa Parafilético inclui alguns, mas não todos, os descendentes Taxa Polifilético inclui membros com mais de um ancestral comum mais recente Dobzhansky & Sturtevant (936): Árvore de inversão para Drosophila pseudoobscura (A) e D.persimilis (B) Máxima parcimônia A navalha de Occam Quando propositio verificatur pro rebus,si duae res sufficiuntad eius veritatem, superfluum estponere tertiam Quando uma coisa se mostra verdade, se duas coisas são suficiente para demonstrar esta verdade, uma terceira é supérflua Pluralitas non estponenda sine necessitate Pluralidade não deve ser inferida a menos que necessariamente William de Occam (300-349) Máxima parcimônia A navalha de Occam Teorias devem ser tão simples quanto possível,mas não as mais simples Albert Einstein (879-955) A melhor árvore é a que requer o menor número de substituições A essência da Máxima Parcimônia (MP): A árvore que assume o menor número de mudanças é preferida NÃO cremos que evolução seja sempre parcimoniosa, mas sim que os caracteres que escolhemos evoluem de tal forma que a máxima parcimônia oferece o melhor modelo para se recuperar as relações filogenéticas corretas. Comprimento da árvore se torna o nosso critério: escolha a árvore mais curta! 4

Parcimônia na prática Caracteres 2 3 4 5 A G G G G G T B T G G G T ax C T T T G T a D E T T T T G Comprimento T T T T G da árvore Árvore 2 2 7 Árvore 2 2 6 Árvore A B C D E Árvore 2 A B C D E Destas 2 árvores, a 2 tem o menor comprimento logo é a mais parcimoniosa Ambas requerem alguma homoplasia Parcimônia pode ser inconsistente Felsenstein (978) criou um modelo simples com 4 taxa e uma mistura de ramos curtos e longos Neste modelo a parcimônia irá produzir uma árvore errada A Model tree p p q q q C D B Rates or A Branch lengths p >> q Parsimony tree C B Wrong D Ramos longos são atraídos mas a similaridade é homoplástica Mais dados não resolverão melhor a árvore, pelo contrário, portanto parcimônia é estatisticamente inconsistente Este problema é comum a quase todos métodos filogenéticos e um dos maiores impecilhos à inferência filogenética Floresta pode ser habitada por vários local minima e ilhas de árvores subótimas Adição aleatória de taxa Métodos de consenso estrito (Strict consensus) Duas árvores fundamentais A B C D E F G A B C E D F G Falha Sucesso Falha Branch Swapping Branch Swapping Comprimento Branch Swapping da árvore A B C D E F G Local Minimum GLOBAL MINIMUM Local Minima Árvore de consenso estrito 5

Consenso da regra da maioria (Majority rule consensus) 3 Árvores fundamentais Métodos de consenso por redução 2 Árvores fundamentais A B C D E F G A G B C D E F A B C E D F G A B C D E F G A B C E F D G A B C D E F A B C DE F G Números indicam a freqüência de clados nas árvores fundamentais A B C E D F G 66 66 66 66 Árvore consenso da regra da maioria (majority-rule) Árvore reduzida de consenso estrito Táxon G é excluído Árvore consenso estrito Completamente não resolvida Estrutura de testes de randomização Rejeita a hipótese nula se mais do que 5% de permutações aleatórias tiverem medidas tão boas ou melhores do que os dados reais Freqüência Passa Teste Rejeita a hipótese nula 95% cutoff Medida da qualidade dos dados Boa Não passa o teste Má Testes de Randomização das Matrizes Ciliate SSUrDNA Real data Randomly permuted Min = 430 Max = 927 Consenso estrito Symbiodinium Loxodes Spirostomum Gruberia Tetrahymena Symbiodinium Loxodes Tetrahymena Spirostomum Gruberia MPT L = 68 CI = 0.696 RI = 0.74 PTP = 0.0 PC-PTP = 0.00 Significantemente não aleatório 3 MPTs L = 792 CI = 0.543 RI = 0.272 PTP = 0.68 PC-PTP = 0.737 Não significativamente diferente do aleatório Enviesamento da distribuição de comprimentos de árvores Árvores filogenéticas Número de árvores Número de árvores Árvore mais curta Comprimento da árvore Árvore mais curta Comprimento da árvore Estudos com dados aleatórios (e filogeneticamente não informativos) mostram que a distribuição tende a ser normal Em contraste, dados filogeneticamente informativos produzem uma distribuição enviesada, com poucas árvores mais curtas paciente B-x paciente B-y paciente A-x paciente E-y paciente E-x paciente C-x paciente C-y Dentista-y Freeman and Herron, 998 paciente A-y paciente G-x paciente G-y Dentista X LC02-x LC03-x Dentista com HIV LC02-y LC09 LC35 paciente D-x paciente D-y LC03-y paciente F-x paciente F-y HIVLI 6

Qual a confiança que a árvore está correta? Investigando hipóteses filogenéticas Vários métodos têm sido propostos que estabelecem valores numéricos a ramos internos em árvores que têm o intuito de prover uma medida do grau de suporte daqueles ramos e dos grupos correspondentes: métodos de reamostragem de caracteres -bootstrap e jackknife análises de decaimento (decay index) Testes de randomização adicionais Bootstrapping (não-paramétrico) Bootstrapping é uma técnica estatística moderna que usa reamostragem dos dados para se determinar o erro amostral ou intervalo de confiança para algum parâmetro estimado Dados originais com n caracteres. Retire n caracteres aleatoriamente com substituição. Repita m vezes. 2 3 4 5 6 7 8 9 0 2 3 4 5 6 7 8 9 20 C G A C G G T G G T C T A T A C A C G A C G G C G G T G A T C T A T G C A C G G T G G C G G C G T C T C A T A C A A T A T A A C G A T G A C C C G A C T A T T G 2 3 3 8 3 9 4 6 20 20 7 9 7 0 6 4 8 6 G A A G A G T G A A T C G C A T G T G C G G A G G G T G G G T C A C A T G T G C G G A G G T T G A A C T T T A C G T G C A A G G A T A A G G T T A C A C A A G T m pseudo-réplicas, cada uma com n characters. Bootstrap Análise original, p.ex. MP, ML, NJ. Repita análise original em cada um dos dados pseudo-replicados. Avalie os resultads das m análises. 75% Dados originais Caracteres Taxa 2 3 4 5 6 7 8 A R R Y Y Y Y Y Y B R R Y Y Y Y Y Y C Y Y Y Y Y R R R D Y Y R R R R R R Outgp R R R R R R R R Bootstrapping Reamostre os caracters aleatoriamente, com substituição, para criar várias réplicas bootstrap do mesmo tamanho que os dados originais - analise cada conjunto de dados replicado A B C D A B C D 5 2 5 8 2 7 8 2 6 6 5 6 2 4 3 Outgroup Dados reamostrados Caracteres Taxa 2 2 5 5 6 6 8 A R R R Y Y Y Y Y B R R R Y Y Y Y Y C Y Y Y Y Y R R R D Y Y Y R R R R R Outgp R R R R R R R R Outgroup Sumarize os resultados das múltiplas análises através de uma árvore consenso da maioria. Proporções de boostrap são a freqüênfcia com que cada grupo é encontrado nas análises dos dados replicados A B C D 96% 66% Outgroup Bootstrapping - um exemplo Ciliate SSUrDNA - bootstrap de parcimônia () Symbiodinium (2) (3) (8) 84 Tetrahymena (9) 96 Loxodes (4) (5) Spirostomum (6) Gruberia (7) Consenso da Maioria Wim de Grave et al. Fiocruz bioinformatics training course Bootstrapping - dados aleatórios 7 59 Symbiodinium Loxodes Spirostomumum Tetrahymena Gruberia 6 59 26 2 7 6 Symbiodinium Loxodes Spirostomumum Tetrahymena Gruberia Consenso da maioria (com componentes da minoria) Wim de Grave et al. Fiocruz bioinformatics training course 7

O que os valores de bootstrap significam? Valores de Bootstrap não seguem comportamento estatístico padrão Valores de Bootstrap de 95% são na verdade próximos de % de confiança no ramo Valores de Bootstrap de 75% são próximos aos 95% de confianca Valores de Bootstrap de 60% são muito mais baixos Limitações do Bootstrap Pelo fato de estarmos reamostrando de dados existentes, não podemos ter pseudoreplicados com colunas não observadas nos dados originais Pode levar a superestimativas de valores de bootstrap para ramos particulares Suporte do Ramo (Bremer 988, 994) = Decay Index ou índice de decaimento de Donoghue et al. 992) O número de passos adicionais que devem ser adicionados para descobrir um cladograma que não tenha o grupo em questão Análise de Decaimento Na análise de parcimônia, uma forma de se determinar suporte para um grupo é verificar se este grupo ocorre em árvores um pouco menos parcimoniosas A diferença entre uma árvore mais curta incluindo o grupo e a mais curta que não inclua o grupo é o índice de decaimento. Equivale ao número de passos a mais que a árvore terá por não ter um grupo Análise de Decaimento Dados de Ciliados SSUrDNA +27 Symbiodinium +45 Loxodes Spirostomum +5 Gruberia +0 +7 Tetrahymena Dados permutados +8 + + +3 Symbiodinium Loxodes Tetrahymena Spirostomum Gruberia Índices de Decaimento Geralmente quanto maior o decaimento, maior o suporte relativo para o grupo Como boostrap, decaimento pode não ser confiável, se dados não são confiáveis Ao contrário de bootstrap, dados não estão em escala (0- ) sendo menos claro o que é um índice de decaimento aceitável Magnitude do decaimento e bootstrap estão geralmente correlacionados Apenas grupos que são encontrados em todas árvores mais parcimoniosas tem decaimento > zero 8

Decaimento vs valores de Bootstrap Outros métodos de confiança na árvore Valores de Bootstrap 90 80 70 60 50 40 30 20 0 0 = Monocotiledôneas (Davis 995) = Josiini (Miller et al. 997) 0 5 0 5 20 25 Índice de Decaimento Jackknifing remove seqüências individuais ou partes do alinhamento Bootstrap Paramétrico dados construídos baseados em um modelo evolutivo específico Testes de likelihood ratio compara a verossimilhança de duas (ou mais) árvores rivais O que é um bom método? Freqüência de inferências corretas Desempenho em dados simulados 0.9 0.9 Eficiência Poder Consistência Robustês Falsificabilidade Tempo para se achar a/uma solução Taxa de convergência/ quantos dados precisam Converge na solução correct a medida que dados são acrescidos Performance quando pressupostos são violados Rejeição do modelo quando inadequado 0.8 0.8 UPGMA, Kimura 0.7 0.7 NJ, percentage 0.6 0.6 Parsimony, unifo 0.5 0.5 Parsimony, 0.4 0.4 weighted NJ, Kimura 0.3 0.3 ML, Kimura Lakes invariants Parsimonny,uniform 0.2 0.2 UPGMA,Kimura NJ,Kimura ML,Kimura Parsimony,weighted 0. 0. 0 0 0 0 00 000 0 0 00 000 Comprimento da seqüência Todos 0.50 0.30 e 0.05 respectivamente Prós e contras de alguns métodos Distância, como UPGMA e Neighbor-joining + Rápido + Modelos podem ser usados quando transformando em distância - Informação é perdida quando transformando em distância par a par - Uma árvore será gerada, mas não teremos medida de quão boa para se comparar com outras hipóteses Parcimônia + Filosoficamente atraente Navalha de Occam + Permite estudo de evolução de caracteres particulares - Pode ser inconsistente - Pode ser lento de se computar Máxima verossimilhança + Baseado em modelo - Baseado em modelo - MUITO lento de se computar O que pode dar errado? Erros amostrais medidos, p.ex., pelo bootstrap Erros sistemáticos (métodos inconsistentes) Testes de adequação dos modelos usados Realidade Uma árvore pode ser um modelo infiel da história real Informação foi perdida por mudanças evolutivas subseqüentes Árvores de genes vs. árvores de espécies 9

0 t 0 Sorteamento incompleto de linhagens Iinhagens ancestrais Hibridação introgressiva A Iinhagens ancestrais B B Tempo de Geração A * t f Espécie A Espécie B Espécie B Iinhagens atuais Iinhagens atuais Métodos de Reconstrução de árvores: O que pode dar errado? Uma ou mais (talvez várias) árvores podem descrever os dados. Árvores igualmente parcimoniosas/prováveis podem não ser consistentes. Árvores de genes e árvores de espécies: uma árvore de gene pode não ser necessariamente refletir uma árvore da espécie. J. C. Avise: Phylogeography: the history and formation of species Erros amostrais medidos, p.ex., pelo bootstrap Erros sistemáticos (métodos inconsistentes) Testes de adequação dos modelos usados Realidade Uma árvore pode ser um modelo infiel da história real Informação foi perdida por mudanças evolutivas subseqüentes Árvores de genes vs. árvores de espécies O que está errado com esta árvore? A árvore esperada Canis Gadus Mus Erro amostral mínimo (em cada seqüência) Árvore estimada por um método consistente Duplicação gênica Árvore da espécie Árvore dos genes

Ortólogos Ortólogos O que foi estudado... Canis Mus Gadus Gadus Mus Canis Canis Gadus Mus Parálogos Duas cópias (parálogas) presentes nos genomas