Métodos Filogenéticos. Comparação de seqüências de aminoácidos. Medição de divergência de seqüência



Documentos relacionados
17/10/2012. Bases Instrumentais de bioinformática aplicada à Epidemiologia Molecular das doenças transmissíveis. Fábio Gregori. O que é?

Analise filogenética baseada em alinhamento de domínios

O que são domínios protéicos

Introdução. Métodos de inferência são usados para tirar conclusões sobre a população usando informações obtidas a partir de uma amostra.

Departamento de Matemática - UEL Ulysses Sodré. Arquivo: minimaxi.tex - Londrina-PR, 29 de Junho de 2010.

MEEMF Aula 08. Inferência de tempos de divergência entre espécies

Estudaremos métodos numéricos para resolução de sistemas lineares com n equações e n incógnitas. Estes podem ser:

Avaliando o que foi Aprendido

Introdução a Química Analítica. Professora Mirian Maya Sakuno

Métodos de Síntese e Evidência: Revisão Sistemática e Metanálise

Capítulo 3. Avaliação de Desempenho. 3.1 Definição de Desempenho

COMPARAÇÃO DOS TESTES DE ADERÊNCIA À NORMALIDADE KOLMOGOROV- SMIRNOV, ANDERSON-DARLING, CRAMER VON MISES E SHAPIRO-WILK POR SIMULAÇÃO

Exercícios Teóricos Resolvidos


ORIGEM E EVOLUÇÃO DA VIDA SISTEMÁTICA

1. Avaliação de impacto de programas sociais: por que, para que e quando fazer? (Cap. 1 do livro) 2. Estatística e Planilhas Eletrônicas 3.

Objetivos: Construção de tabelas e gráficos, escalas especiais para construção de gráficos e ajuste de curvas à dados experimentais.

UNIVERSIDADE DE SÃO PAULO. Faculdade de Arquitetura e Urbanismo

Comparação Estatística de Algoritmos Evolutivos

Seminário de Genética BG Principal Resumo Professores Componentes Bibliografia Links

Aula 04 Método de Monte Carlo aplicado a análise de incertezas. Aula 04 Prof. Valner Brusamarello

TTT-PLOT E TESTE DE HIPÓTESES BOOTSTRAP PARA O MODELO BI-WEIBULL. Cleber Giugioli Carrasco 1 ; Francisco Louzada-Neto 2 RESUMO

Métodos de Monte Carlo

Dificuldades de Modelos de PNL. Onde está a solução ótima? Outro exemplo: Condição ótima Local vs. Global Quinta-feira, 25 de abril

CONCEITOS BÁSICOS DE FILOGENIA

A árvore genealógica dos seres vivos

Módulo 4. Construindo uma solução OLAP

Ancestralidade Materna polimorfismos matrilínea DNA Mitocondrial (mtdna).

Cláudio Tadeu Cristino 1. Julho, 2014

MINERAÇÃO DE DADOS APLICADA. Pedro Henrique Bragioni Las Casas

UNIDADE DE PESQUISA CLÍNICA Centro de Medicina Reprodutiva Dr Carlos Isaia Filho Ltda.

)HUUDPHQWDV &RPSXWDFLRQDLV SDUD 6LPXODomR

ACIDENTE E INCIDENTE INVESTIGAÇÃO

Aula 4 Conceitos Básicos de Estatística. Aula 4 Conceitos básicos de estatística

AULAS 13, 14 E 15 Correlação e Regressão

SUMÁRIO. Introdução... 3

Introdução à Análise Química QUI 094 ERRO E TRATAMENTO DE DADOS ANALÍTICOS

Probabilidade. Distribuição Exponencial

ESTUDO DE VIABILIDADE. Santander, Victor - Unioeste Aula de Luiz Eduardo Guarino de Vasconcelos

Resoluções comentadas de Raciocínio Lógico e Estatística - SEPLAG EPPGG

Descobrimos que os testes 1, 2 e 7 foram os mais úteis para avaliação da estabilidade do gráfico Xbar na carta I:

Backup. Permitir a recuperação de sistemas de arquivo inteiros de uma só vez. Backup é somente uma cópia idêntica de todos os dados do computador?

Introdução à Filogenética para Professores de Biologia

Revisão de Estatística Básica:

Estatísticas Nacionais do (VoIP) Manual do Usuário Estatísticas do

Engenharia de Software II

DESENVOLVIMENTO DE UM SOFTWARE NA LINGUAGEM R PARA CÁLCULO DE TAMANHOS DE AMOSTRAS NA ÁREA DE SAÚDE

Trabalhando com Pequenas Amostras: Distribuição t de Student

ADM041 / EPR806 Sistemas de Informação

Anotação de Genomas. Fabiana G. S. Pinto

Testedegeradoresde. Parte X. 38 Testes de Ajuste à Distribuição Teste Chi-Quadrado

A presente seção apresenta e especifica as hipótese que se buscou testar com o experimento. A seção 5 vai detalhar o desenho do experimento.

Probabilidade. Distribuição Exponencial

Base Nacional Comum Curricular Lemann Center at Stanford University

Até que Ponto Seus Dados estão Seguros? Por Kris Land, CTO, diretor de tecnologia da InoStor Corp.

Extração de Conhecimento & Mineração de Dados

Capítulo 2 Endogamia. Acasalamentos Preferenciais. Introdução

2. Método de Monte Carlo

IV.4 Análise de Dados da Avaliação

Aula 5 Metodologias de avaliação de impacto

UNIDADE II. Conceitos e Teorias da Análise RDS. Lisa Johnston

UNIVERSIDADE FEDERAL DE SANTA CATARINA GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA DATA MINING EM VÍDEOS

INF 1771 Inteligência Artificial

Capítulo 7 Medidas de dispersão

O DNA é formado por pedaços capazes de serem convertidos em algumas características. Esses pedaços são

Qual é o risco real do Private Equity?

Curso: Redes II (Heterogênea e Convergente) Tema da Aula: Características Roteamento

SIMULADO DO TESTE DE RESOLUÇÃO DE PROBLEMAS

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU

3 Método de Monte Carlo

Atividade extra. Questão 1. Questão 2. Ciências da Natureza e suas Tecnologias Biologia. A diversidade biológica é o fruto da variação genética.

Bioinformática. Trabalho prático enunciado complementar. Notas complementares ao 1º enunciado

Sistemas de Arquivos. André Luiz da Costa Carvalho

Medidas e Incertezas

Engenharia de Software

Normas Internacionais de Avaliação. Preço Custo e valor Mercado Abordagem de valores Abordagens de avaliação

Estudo da Viabilidade da utilização de Cartão de Crédito para um Grupo de Clientes Essenciais

Roteiro de Estudos de Ciências 7 ANO. 3º trimestre

RESOLUÇÃO CFC Nº /09. O CONSELHO FEDERAL DE CONTABILIDADE, no exercício de suas atribuições legais e regimentais,

Tutorial 5 Questionários

Fases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse

Avaliação da variação do sistema de medição Exemplo 1: Diâmetros de bico injetor de combustível

TÉCNICAS DE ANÁLISE DE DADOS

Tecido A B

TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE

AVALIAÇÃO DE IMPACTO NA PRÁTICA GLOSSÁRIO

Desempenho da Fase Analítica. Fernando de Almeida Berlitz

Sumário. Comunicação Multicast. Soluções. Multicast. Application-Level Multicast. October 20, 2008 Algoritmos Epidémicos

6. Pronunciamento Técnico CPC 23 Políticas Contábeis, Mudança de Estimativa e Retificação de Erro

AULAS 14, 15 E 16 Análise de Regressão Múltipla: Problemas Adicionais

CAP5: Amostragem e Distribuição Amostral

Manual do Usuário - ProJuris Web - Biblioteca Jurídica Página 1 de 20

Inteligência Artificial Prof. Marcos Quinet Pólo Universitário de Rio das Ostras PURO Universidade Federal Fluminense UFF

Modelagem no Domínio do Tempo. Carlos Alexandre Mello. Carlos Alexandre Mello 1

Licenciatura em Engenharia Electrotécnica e de Computadores 1998/99. Erros

Transcrição:

Métodos Filogenéticos Distância: Seleciona a árvore que melhor representa as distâncias entre os pares de organismos observados Máxima verossimilhança: Seleciona a árvore com maior probabilidade de ter gerado os dados observados Parcimônia: Seleciona a árvore que infere o menor número de substituições (eventos mutacionais) Comparação de seqüências de aminoácidos Medição de divergência de seqüência Seqüência Seqüência 2 Seqüência Seqüência 2 Seqüência Seqüência 2 Seqüência 3 Seqüência 4 Seqüência 5 Seqüência 6 leu arg phe cys ser ser arg leu phe cys ser ser arg leu arg phe cys ser ser arg leu gap phe cys ser ser arg leu arg phe cys ser ser arg leu gap phe cys ser phe arg leu gap phe cys ser phe arg leu arg ile cys ser ser arg leu arg ile cys ala ser arg leu arg phe cys ile ser arg Seqüências de aa de cadeias alfa de hemoglobina No. de Taxa : 6 Gaps/Dados ausentes : Deleção completa Método de distância : AA corrigida Poisson No. de Sítios : 40 d : Estimativa 2 3 4 5 6 [] Homem - [2] Cavalo 0.3 - [3] Vaca 0.3 0.3 - [4] canguru 0.2 0.23 0.20 - [5] Salamandra 0.57 0.64 0.60 0.64 - [6] Carpa 0.66 0.65 0.62 0.7 0.75 - Divergência pode ser usada para se agrupar O modelo de Jukes-Cantor de substituição de nucleotídeos 0. 2 3 4 5 6 [] Homem - [2] Cavalo 0.3 - [3] Vaca 0.3 0.3 - [4] canguru 0.2 0.23 0.20 - [5] Salamandra 0.57 0.64 0.60 0.64 - [6] Carpa 0.66 0.65 0.62 0.7 0.75 - Homem Cavalo Vaca Canguru Salam Carpa Common ancestor of human and orang. t time units human (now) Considere o nt na 2a posição da α- globin2 Alu α = Taxa de substituição de nt, assumido como constante Matriz infinitesimal Q = A G C T A - 3α α α α G α - 3α α α C α α - 3α α T α α α - 3 α

O modelo de 2 parâmetros de Kimura para mudança de nucleotídeos Métodos de Filogenia Molecular A G C T A G C T c a b b a c b b b b c a b b a c Taxas de transição: Horizontal: a Diagonal e vertical: b Self: c = a 2b c c A b C a b a G T b c c Métodos de Distância Matriz de diferenças (ou semelhanças) Agrupamento UPGMA não permite taxas de evolução diferentes Agrupamentos Vizinhos Neighbor Joining (Saitou e Nei, 987) permite taxas de evolução diferentes nos ramos Similaridade vs. relacionamento evolutivo Similar: ser semelhante (uma constatação) Relacionado: Ter genes idênticos por descendência uma inferência histórica Dois taxa podem ser mais similares do que taxas relacionados 3 6 Taxon C Taxon A 5 Taxon D Taxon B C é mais similar a A (d=3) do que a B (d=7), embora C e B sejam mais relacionados Medição de divergência de seqüência Métodos Filogenéticos Taxa não são relacionados porque são similares, eles são similares por serem relacionados Distância: Seleciona a árvore que melhor representa as distâncias entre os pares de organismos observados Máxima verossimilhança: Seleciona a árvore com maior probabilidade de ter gerado os dados observados Parcimônia: Seleciona a árvore que infere o menor número de substituições (eventos mutacionais) 2

Máxima Verossimilhança Maximum likelihood procura obter o modelo mais provável de ter gerado os dados obtidos através do cálculo de várias verossimilhanças Tenta reconstruir a filogenia a partir de um modelo explícito de evolução que pode ser testado Por envolver um trabalho computacional intenso, mesmo modelos simples podem se tornar inviáveis e é o mais lento dos métodos filogenéticos Métodos Filogenéticos Obtendo uma filogenia a partir de caracteres Distância: Seleciona a árvore que melhor representa as distâncias entre os pares de organismos observados Máxima verossimilhança: Seleciona a árvore com maior probabilidade de ter gerado os dados observados Parcimônia: Seleciona a árvore que infere o menor número de substituições (eventos mutacionais) Caráter derivado Mandíbula Pulmão Unhas ou Penas Pelos Gls Coração de 4 Taxon garras mamárias câmaras Lampreia - - - - - - - Perca + - - - - - - Salamandra + + - - - - - Lagarto + + + - - - - Crocodilo + + + - - - + Pombo + + + + - - + Rato + + + - + + + Chimpanzé + + + - + + + 3

Mandíbula Pulmões Unhas ou garras Uma filogenia simples Penas Lampreia Perca Salamandra Lagarto Crocodilo Pombo Árvores filogenéticas Grupo externo Parafilético Polifilético Monofilético Coração de 4 câmaras Pelo, glândulas mamárias Rato Chimpanzé Tempo evolutivo relativo Eventos antigos Eventos recentes Grupo externo Uma linhagem proximamente relacionada ao grupo focal Taxa Monofilético inclui todos os descendentes de um ancestral comum Taxa Parafilético inclui alguns, mas não todos, os descendentes Taxa Polifilético inclui membros com mais de um ancestral comum mais recente Dobzhansky & Sturtevant (936): Árvore de inversão para Drosophila pseudoobscura (A) e D.persimilis (B) Máxima parcimônia A navalha de Occam Quando propositio verificatur pro rebus,si duae res sufficiuntad eius veritatem, superfluum estponere tertiam Quando uma coisa se mostra verdade, se duas coisas são suficiente para demonstrar esta verdade, uma terceira é supérflua Pluralitas non estponenda sine necessitate Pluralidade não deve ser inferida a menos que necessariamente William de Occam (300-349) Máxima parcimônia A navalha de Occam Teorias devem ser tão simples quanto possível,mas não as mais simples Albert Einstein (879-955) A melhor árvore é a que requer o menor número de substituições A essência da Máxima Parcimônia (MP): A árvore que assume o menor número de mudanças é preferida NÃO cremos que evolução seja sempre parcimoniosa, mas sim que os caracteres que escolhemos evoluem de tal forma que a máxima parcimônia oferece o melhor modelo para se recuperar as relações filogenéticas corretas. Comprimento da árvore se torna o nosso critério: escolha a árvore mais curta! 4

Parcimônia na prática Caracteres 2 3 4 5 A G G G G G T B T G G G T ax C T T T G T a D E T T T T G Comprimento T T T T G da árvore Árvore 2 2 7 Árvore 2 2 6 Árvore A B C D E Árvore 2 A B C D E Destas 2 árvores, a 2 tem o menor comprimento logo é a mais parcimoniosa Ambas requerem alguma homoplasia Parcimônia pode ser inconsistente Felsenstein (978) criou um modelo simples com 4 taxa e uma mistura de ramos curtos e longos Neste modelo a parcimônia irá produzir uma árvore errada A Model tree p p q q q C D B Rates or A Branch lengths p >> q Parsimony tree C B Wrong D Ramos longos são atraídos mas a similaridade é homoplástica Mais dados não resolverão melhor a árvore, pelo contrário, portanto parcimônia é estatisticamente inconsistente Este problema é comum a quase todos métodos filogenéticos e um dos maiores impecilhos à inferência filogenética Floresta pode ser habitada por vários local minima e ilhas de árvores subótimas Adição aleatória de taxa Métodos de consenso estrito (Strict consensus) Duas árvores fundamentais A B C D E F G A B C E D F G Falha Sucesso Falha Branch Swapping Branch Swapping Comprimento Branch Swapping da árvore A B C D E F G Local Minimum GLOBAL MINIMUM Local Minima Árvore de consenso estrito 5

Consenso da regra da maioria (Majority rule consensus) 3 Árvores fundamentais Métodos de consenso por redução 2 Árvores fundamentais A B C D E F G A G B C D E F A B C E D F G A B C D E F G A B C E F D G A B C D E F A B C DE F G Números indicam a freqüência de clados nas árvores fundamentais A B C E D F G 66 66 66 66 Árvore consenso da regra da maioria (majority-rule) Árvore reduzida de consenso estrito Táxon G é excluído Árvore consenso estrito Completamente não resolvida Estrutura de testes de randomização Rejeita a hipótese nula se mais do que 5% de permutações aleatórias tiverem medidas tão boas ou melhores do que os dados reais Freqüência Passa Teste Rejeita a hipótese nula 95% cutoff Medida da qualidade dos dados Boa Não passa o teste Má Testes de Randomização das Matrizes Ciliate SSUrDNA Real data Randomly permuted Min = 430 Max = 927 Consenso estrito Symbiodinium Loxodes Spirostomum Gruberia Tetrahymena Symbiodinium Loxodes Tetrahymena Spirostomum Gruberia MPT L = 68 CI = 0.696 RI = 0.74 PTP = 0.0 PC-PTP = 0.00 Significantemente não aleatório 3 MPTs L = 792 CI = 0.543 RI = 0.272 PTP = 0.68 PC-PTP = 0.737 Não significativamente diferente do aleatório Enviesamento da distribuição de comprimentos de árvores Árvores filogenéticas Número de árvores Número de árvores Árvore mais curta Comprimento da árvore Árvore mais curta Comprimento da árvore Estudos com dados aleatórios (e filogeneticamente não informativos) mostram que a distribuição tende a ser normal Em contraste, dados filogeneticamente informativos produzem uma distribuição enviesada, com poucas árvores mais curtas paciente B-x paciente B-y paciente A-x paciente E-y paciente E-x paciente C-x paciente C-y Dentista-y Freeman and Herron, 998 paciente A-y paciente G-x paciente G-y Dentista X LC02-x LC03-x Dentista com HIV LC02-y LC09 LC35 paciente D-x paciente D-y LC03-y paciente F-x paciente F-y HIVLI 6

Qual a confiança que a árvore está correta? Investigando hipóteses filogenéticas Vários métodos têm sido propostos que estabelecem valores numéricos a ramos internos em árvores que têm o intuito de prover uma medida do grau de suporte daqueles ramos e dos grupos correspondentes: métodos de reamostragem de caracteres -bootstrap e jackknife análises de decaimento (decay index) Testes de randomização adicionais Bootstrapping (não-paramétrico) Bootstrapping é uma técnica estatística moderna que usa reamostragem dos dados para se determinar o erro amostral ou intervalo de confiança para algum parâmetro estimado Dados originais com n caracteres. Retire n caracteres aleatoriamente com substituição. Repita m vezes. 2 3 4 5 6 7 8 9 0 2 3 4 5 6 7 8 9 20 C G A C G G T G G T C T A T A C A C G A C G G C G G T G A T C T A T G C A C G G T G G C G G C G T C T C A T A C A A T A T A A C G A T G A C C C G A C T A T T G 2 3 3 8 3 9 4 6 20 20 7 9 7 0 6 4 8 6 G A A G A G T G A A T C G C A T G T G C G G A G G G T G G G T C A C A T G T G C G G A G G T T G A A C T T T A C G T G C A A G G A T A A G G T T A C A C A A G T m pseudo-réplicas, cada uma com n characters. Bootstrap Análise original, p.ex. MP, ML, NJ. Repita análise original em cada um dos dados pseudo-replicados. Avalie os resultads das m análises. 75% Dados originais Caracteres Taxa 2 3 4 5 6 7 8 A R R Y Y Y Y Y Y B R R Y Y Y Y Y Y C Y Y Y Y Y R R R D Y Y R R R R R R Outgp R R R R R R R R Bootstrapping Reamostre os caracters aleatoriamente, com substituição, para criar várias réplicas bootstrap do mesmo tamanho que os dados originais - analise cada conjunto de dados replicado A B C D A B C D 5 2 5 8 2 7 8 2 6 6 5 6 2 4 3 Outgroup Dados reamostrados Caracteres Taxa 2 2 5 5 6 6 8 A R R R Y Y Y Y Y B R R R Y Y Y Y Y C Y Y Y Y Y R R R D Y Y Y R R R R R Outgp R R R R R R R R Outgroup Sumarize os resultados das múltiplas análises através de uma árvore consenso da maioria. Proporções de boostrap são a freqüênfcia com que cada grupo é encontrado nas análises dos dados replicados A B C D 96% 66% Outgroup Bootstrapping - um exemplo Ciliate SSUrDNA - bootstrap de parcimônia () Symbiodinium (2) (3) (8) 84 Tetrahymena (9) 96 Loxodes (4) (5) Spirostomum (6) Gruberia (7) Consenso da Maioria Wim de Grave et al. Fiocruz bioinformatics training course Bootstrapping - dados aleatórios 7 59 Symbiodinium Loxodes Spirostomumum Tetrahymena Gruberia 6 59 26 2 7 6 Symbiodinium Loxodes Spirostomumum Tetrahymena Gruberia Consenso da maioria (com componentes da minoria) Wim de Grave et al. Fiocruz bioinformatics training course 7

O que os valores de bootstrap significam? Valores de Bootstrap não seguem comportamento estatístico padrão Valores de Bootstrap de 95% são na verdade próximos de % de confiança no ramo Valores de Bootstrap de 75% são próximos aos 95% de confianca Valores de Bootstrap de 60% são muito mais baixos Limitações do Bootstrap Pelo fato de estarmos reamostrando de dados existentes, não podemos ter pseudoreplicados com colunas não observadas nos dados originais Pode levar a superestimativas de valores de bootstrap para ramos particulares Suporte do Ramo (Bremer 988, 994) = Decay Index ou índice de decaimento de Donoghue et al. 992) O número de passos adicionais que devem ser adicionados para descobrir um cladograma que não tenha o grupo em questão Análise de Decaimento Na análise de parcimônia, uma forma de se determinar suporte para um grupo é verificar se este grupo ocorre em árvores um pouco menos parcimoniosas A diferença entre uma árvore mais curta incluindo o grupo e a mais curta que não inclua o grupo é o índice de decaimento. Equivale ao número de passos a mais que a árvore terá por não ter um grupo Análise de Decaimento Dados de Ciliados SSUrDNA +27 Symbiodinium +45 Loxodes Spirostomum +5 Gruberia +0 +7 Tetrahymena Dados permutados +8 + + +3 Symbiodinium Loxodes Tetrahymena Spirostomum Gruberia Índices de Decaimento Geralmente quanto maior o decaimento, maior o suporte relativo para o grupo Como boostrap, decaimento pode não ser confiável, se dados não são confiáveis Ao contrário de bootstrap, dados não estão em escala (0- ) sendo menos claro o que é um índice de decaimento aceitável Magnitude do decaimento e bootstrap estão geralmente correlacionados Apenas grupos que são encontrados em todas árvores mais parcimoniosas tem decaimento > zero 8

Decaimento vs valores de Bootstrap Outros métodos de confiança na árvore Valores de Bootstrap 90 80 70 60 50 40 30 20 0 0 = Monocotiledôneas (Davis 995) = Josiini (Miller et al. 997) 0 5 0 5 20 25 Índice de Decaimento Jackknifing remove seqüências individuais ou partes do alinhamento Bootstrap Paramétrico dados construídos baseados em um modelo evolutivo específico Testes de likelihood ratio compara a verossimilhança de duas (ou mais) árvores rivais O que é um bom método? Freqüência de inferências corretas Desempenho em dados simulados 0.9 0.9 Eficiência Poder Consistência Robustês Falsificabilidade Tempo para se achar a/uma solução Taxa de convergência/ quantos dados precisam Converge na solução correct a medida que dados são acrescidos Performance quando pressupostos são violados Rejeição do modelo quando inadequado 0.8 0.8 UPGMA, Kimura 0.7 0.7 NJ, percentage 0.6 0.6 Parsimony, unifo 0.5 0.5 Parsimony, 0.4 0.4 weighted NJ, Kimura 0.3 0.3 ML, Kimura Lakes invariants Parsimonny,uniform 0.2 0.2 UPGMA,Kimura NJ,Kimura ML,Kimura Parsimony,weighted 0. 0. 0 0 0 0 00 000 0 0 00 000 Comprimento da seqüência Todos 0.50 0.30 e 0.05 respectivamente Prós e contras de alguns métodos Distância, como UPGMA e Neighbor-joining + Rápido + Modelos podem ser usados quando transformando em distância - Informação é perdida quando transformando em distância par a par - Uma árvore será gerada, mas não teremos medida de quão boa para se comparar com outras hipóteses Parcimônia + Filosoficamente atraente Navalha de Occam + Permite estudo de evolução de caracteres particulares - Pode ser inconsistente - Pode ser lento de se computar Máxima verossimilhança + Baseado em modelo - Baseado em modelo - MUITO lento de se computar O que pode dar errado? Erros amostrais medidos, p.ex., pelo bootstrap Erros sistemáticos (métodos inconsistentes) Testes de adequação dos modelos usados Realidade Uma árvore pode ser um modelo infiel da história real Informação foi perdida por mudanças evolutivas subseqüentes Árvores de genes vs. árvores de espécies 9

0 t 0 Sorteamento incompleto de linhagens Iinhagens ancestrais Hibridação introgressiva A Iinhagens ancestrais B B Tempo de Geração A * t f Espécie A Espécie B Espécie B Iinhagens atuais Iinhagens atuais Métodos de Reconstrução de árvores: O que pode dar errado? Uma ou mais (talvez várias) árvores podem descrever os dados. Árvores igualmente parcimoniosas/prováveis podem não ser consistentes. Árvores de genes e árvores de espécies: uma árvore de gene pode não ser necessariamente refletir uma árvore da espécie. J. C. Avise: Phylogeography: the history and formation of species Erros amostrais medidos, p.ex., pelo bootstrap Erros sistemáticos (métodos inconsistentes) Testes de adequação dos modelos usados Realidade Uma árvore pode ser um modelo infiel da história real Informação foi perdida por mudanças evolutivas subseqüentes Árvores de genes vs. árvores de espécies O que está errado com esta árvore? A árvore esperada Canis Gadus Mus Erro amostral mínimo (em cada seqüência) Árvore estimada por um método consistente Duplicação gênica Árvore da espécie Árvore dos genes

Ortólogos Ortólogos O que foi estudado... Canis Mus Gadus Gadus Mus Canis Canis Gadus Mus Parálogos Duas cópias (parálogas) presentes nos genomas