! Uma forma gráfica de retratar os processos históricos que geraram a diversidade! Mostra graficamente as relações evolutivas entre os taxons estudados.
A diferença entre genealogia e filogenia é tênue. filogenia espécies genealogia
Fluxo gênico interrompido filogenia genealogia
Interrupção+do+ fluxo+gênico+
! A forma tradicional de representar as relações evolutivas é através de árvores
raiz+ ramo+interno+ nó+ ramo+externo+ A" B" táxon+terminal+ou+otu+ C" D" grupo"externo"
A" A+ B+ C+ D+ B" C" D" D+ C+ B+ A+ Diferentes árvores com a mesma topologia
! Descrição das relações entre os táxons terminais (+(++(++A+++,++++B+++)++,+++C+++)++,+D++)+ 1+dimensão+ +formato+newick+ 2+dimensões+
Tempo
! Embora teoricamente simples, não é sempre fácil observar os padrões da diversidade?"?"
! Para quatro organismos, existem 15 filogenias enraizadas possíveis: 1" 2" 3" 4" 1" 3" 2" 4" 1" 4" 2" 3" 1" 2" 3" 4" 2" 1" 4" 3" 3" 4" 2" 1" 1" 3" 4" 2" 2" 3" 4" 1" 3" 2" 1" 4" 1" 4" 2" 3" 2" 4" 1" 3" 3" 1" 2" 4" 1" 4" 3" 2" 2" 4" 3" 1" 3" 4" 1" 2"
Número de estrelas no universo 3 x 10 22 2,2+x+10 20+
Táxons termina is Topologi as sem raiz 2 1 3 1 4 3........ Maior que o número de átomos de 50 > 10 80 hidrogênio no universo!
? Qual é a filogenia desses organismos?
! Se a filogenia é uma representação gráfica de processos históricos! Mas, se eu não posso observar diretamente esses processos! Eu preciso inferir a minha filogenia a partir dos padrões que eu posso observar Caracteres compartilhados entre as linhagens:! Morfológicos! Moleculares
Cebus_albifrons Gorilla_gorilla Ornithorhynchus ctt ata ctt tta acc cta att acc ttt att acc ctg aac aac ctt ctc gga att aca ccc tac gca ctt atg tta ata tga tta att att ttt att gcc aca acc aac ctc ctc gga ctc ttg ccc cac tca cta ata tta att aca tta att atc ttt att gcc tca aca aat ctt tta gga ctt tta cca tac acc
! Quanto mais próximo evolutivamente, maior é a quantidade de caracteres compartilhados
! Caráter! Estado de caráter
Se você quer estudar as relações evolutivas, você deverá comparar regiões homólogas
! Inicialmente, o conceito de homologia foi estabelecido por Richard Owen! Duas estruturas são ditas homólogas se elas são originárias de uma mesma estrutura ancestral
! crânio dos primatas
! Homologias revelam as relações filogenéticas
! Semelhanças estruturais! Relações entre as partes! Desenvolvimento embrionário
! Para estudar a evolução dos primatas, a característica coluna vertebral é inútil, pois todos os primatas a possuem. Ela é uma simplesiomorfia
! Homologias compartilhadas entre crocodilo e lagarto, estão presentes no ancestral comum entre as três espécies
Grupo externo Fósseis
! A reconstrução filogenética objetiva recuperar as relações de ancestralidade entre as linhagens! Isso é possível, pois linhagens irmãs compartilham características, chamadas de sinapomorfias A" sinapomorfia+de+{a,+b,+c}+ sinapomorfia+de+{a,+b,+c,+d}+ sinapomorfia+de+{a,+b}+ B" C" D"
! Algumas linhagens acumulam mudanças exclusivas, elas são chamadas de autapomorfias autapomorfia+de+{a}+ A" autapomorfias+de+{b}+ B" C" D" autapomorfia+de+{d}+
! Às vezes, algumas características aparecem em linhagens independentes como resultado de evolução convergente. Elas são chamadas de homoplasias A" B" C" D" homoplasia+
! Eventualmente algumas características são perdidas ao longo do processo evolutivo A" B" C" D"
! O processo evolutivo gera um mosaico de sinapomorfias, autapomorfias e homplasias. A" C" B" D"
! A natureza do processo de geração dos caracteres torna a diversidade hierárquica A" B" {A,+B}+ {A C" {A,+B,+C}+ D" {A,+B,+C,+D}+
! A hierarquia que observamos (padrão) nos oferece informação sobre o processo que a gerou A" B" {A,+B}+ {A C" {A,+B,+C}+ D" processo" {A,+B,+C,+D}+
Padrão"(observado)" A" B" {A,+B}+ {A C" {A,+B,+C}+ D" Processo"(inferido)" {A,+B,+C,+D}+
! Evolução ocorre por meio do menor número de passos possível! Redução do número de conflitos: Convergências (homoplasias confundidas com homologias) Polarização errada dos caracteres (plesiomorfias confundidas com sinapomorfias)! Hipótese aceita é a corroborada pelo maior número de caracteres
Definindo o problema? Qual é a filogenia desses organismos?
Cebus_albifrons Gorilla_gorilla Ornithorhynchus ctt ata ctt tta acc cta att acc ttt att acc ctg aac aac ctt ctc gga att aca ccc tac gca ctt atg tta ata tga tta att att ttt att gcc aca acc aac ctc ctc gga ctc ttg ccc cac tca cta ata tta att aca tta att atc ttt att gcc tca aca aat ctt tta gga ctt tta cca tac acc
! Proteínas! RNA! DNA Frederick Sanger
Por exemplo, vamos acompanhar um gene X ao longo do tempo.
mutação tempo Alelos do gene X
! Mutações pontuais: Substituições Inserções/deleções! Para reconstrução filogenética homologia deve ser inferida a cada sítio
! Mutação! erros instantâneos cometidos pela enzima! Substituição! erros que passaram pelo crivo da seleção e permaneceram na população
Cebus_albifrons Gorilla_gorilla atg aac caa aat cta ttt gcc tct taa aat ata cca ata M N Q N L F A S stop N M P M atg aac gaa aat tta ttc gct tca ttc att gcc ccc aca M N E N L F A S F I A P T não-sinônimas Sinônimas Sem sentido
Cebus_albifrons atg aac aat cta ttt gcc tct ttc cca M N N L F A S F P Gorilla_gorilla atg aac aat tta ttc gct tca ttc ccc M N N L F A S F P mesmo fenótipo
Cebus_albifrons atg aac caa aat cta ttt gcc tct ttc aat ata cca ata M N Q N L F A S F N M P M Gorilla_gorilla atg aac gaa aat tta ttc gct tca ttc att gcc ccc aca M N E N L F A S F I A P T não-sinônimas fenótipos diferente
proteínas homólogas
? Qual é a filogenia desses organismos?
Sequencie um gene homólogo
>bush ATGTTCGCCGACCGTTGACTATTCTCTACAAACCACAAAGACATTGGAACACTATACCTATTATTCGGCG CATGAGCTGGAGTCCTAGGCACAGCTCTAAGCCTCCTTATTCGAGCCGAGCTGGGCCAGCCAGGCAACCT TCTAGGTAACGACCACATCTACAACGTTATCGTCACAGCCCATGCATTTGTAATAATCTTCTTCATAGTA ATACCCATCATAATCGGAGGCTTTGGCAACTGACTAGTTCCCCTAATAATCGGTGCCCCCGATATGGCGT TTCCCCGCATAAACAACATAAGCTTCTGACTCTTACCTCCCTCTCTCCTACTCCTGCTCGCATCTGCTAT AGTGGAGGCCGGAGCAGGAACAGGTTGAACAGTCTACCCTCCCTTAGCAGGGAACTACTCCCACCCTGGA GCCTCCGTAGACCTAACCATCTTCTCCTTACACCTAGCAGGTGTCTCCTCTATCTTAGGGGCCATCAATT TCATCACAACAATTATCAATATAAAACCCCCTGCCATAACCCAATACCAAACGCCCCTCTTCGTCTGATC CGTCCTAATCACAGCAGTCCTACTTCTCCTATCTCTCCCAGTCCTAGCTGCTGGCATCACTATACTACTA ACAGACCGCAACCTCAACACCACCTTCTTCGACCCCGCCGGAGGAGGAGACCCCATTCTATACCAACACC TATTCTGATTTTTCGGTCACCCTGAAGTTTATATTCTTATCCTACCAGGCTTCGGAATAATCTCCCATAT TGTAACTTACTACTCCGGAAAAAAAGAACCATTTGGATACATAGGTATGGTCTGAGCTATGATATCAATT GGCTTCCTAGGGTTTATCGTGTGAGCACACCATATATTTACAGTAGGAATAGACGTAGACACACGAGCAT ATTTCACCTCCGCTACCATAATCATCGCTATCCCCACCGGCGTCAAAGTATTTAGCTGACTCGCCACACT CCACGGAAGCAATATGAAATGATCTGCTGCAGTGCTCTGAGCCCTAGGATTCATCTTTCTTTTCACCGTA GGTGGCCTGACTGGCATTGTATTAGCAAACTCATCACTAGACATCGTACTACACGACACGTACTACGTTG TAGCTCACTTCCACTATGTCCTATCAATAGGAGCTGTATTTGCCATCATAGGAGGCTTCATTCACTGATT TCCCCTATTCTCAGGCTACACCCTAGACCAAACCTACGCCAAAATCCATTTCACTATCATATTCATCGGC GTAAATCTAACTTTCTTCCCACAACACTTTCTCGGCCTATCCGGAATGCCCCGACGTTACTCGGACTACC CCGATGCATACACCACATGAAACATCCTATCATCTGTAGGCTCATTCATTTCTCTAACAGCAGTAATATT AATAATTTTCATGATTTGAGAAGCCTTCGCTTCGAAGCGAAAAGTCCTAATAGTAGAAGAACCCTCCATA AACCTGGAGTGACTATATGGATGCCCCCCACCCTACCACACATTCGAAGAACCCGTATACATAAAATCTA COI >ferret ATGTTCATTAACCGATGACTGTTCTCCACTAATCACAAGGATATTGGTACTTTATACTTACTATTTGGAG CATGAGCCGGTATAGTAGGCACTGCTTTGAGCCTCCTCATCCGAGCCGAACTAGGTCAGCCCGGTACTTT ACTAGGTGACGATCAAATTTATAATGTCATCGTAACCGCCCATGCTTTCGTAATAATCTTCTTCATAGTC ATGCCCATCATAATTGGGGGCTTTGGAAACTGACTAGTGCCGTTAATAATTGGTGCTCCGGACATGGCAT TCCCCCGAATAAATAACATGAGCTTCTGACTCCTTCCTCCATCCTTTCTTCTACTATTAGCATCTTCTAT GGTAGAAGCAGGTGCAGGAACGGGATGAACCGTATACCCCCCACTGGCTGGCAATCTGGCCCATGCAGGA GCATCCGTTGACCTTACAATTTTCTCCTTACACTTAGCCGGAGTCTCTTCTATTTTAGGGGCAATTAATT TCATCACTACTATTATCAACATAAAACCCCCTGCAATATCCCAGTATCAAACTCCCCTGTTTGTATGATC AGTACTAATTACAGCAGTTCTACTCTTACTATCCCTGCCTGTACTGGCTGCTGGAATTACAATACTTTTA ACAGACCGGAATCTTAATACAACATTTTTTGATCCCGCTGGAGGAGGAGACCCTATCCTATATCAACACC TATTCTGATTCTTCGGACATCCTGAAGTTTACATTCTTATCCTGCCCGGATTCGGAATAATTTCTCACAT TGTCACTTACTACTCAGGGAAAAAAGAGCCTTTCGGTTATATAGGAATAGTATGAGCAATAATATCTATT GGGTTTTTAGGCTTTATCGTATGAGCTCACCATATGTTTACCGTAGGAATAGATGTAGACACACGAGCGT ACTTTACGTCCGCCACTATAATTATCGCTATTCCAACGGGAGTAAAAGTATTTAGTTGACTGGCAACACT TCATGGAGGCAATATTAAATGATCTCCAGCTATGCTATGAGCTTTAGGGTTTATTTTCTTATTTACAGTA GGCGGGTTAACAGGTATTGTCCTAGCTAATTCGTCCTTAGACATCGTTCTTCATGATACATATTATGTTG TGGCTCATTTTCACTATGTGCTTTCAATAGGAGCAGTTTTTGCCATTATGGGAGGATTTGCCCACTGATT CCCTTTATTCTCAGGTTATACTCTTAACGATACTTGAGCAAAGATTCACTTTACAATTATGTTTGTGGGA GTAAATATAACTTTCTTCCCTCAACATTTCCTAGGTTTATCTGGAATACCTCGTCGATACTCTGACTACC CAGATGCATATACTACCTGAAATACCGTCTCCTCTATAGGATCGTTTATCTCGCTTACAGCGGTGATGCT TATAATTTTTATGATCTGGGAAGCCTTTGCATCCAAACGAGAAGTTGCTATAGTAGAACTTACTACAACT AACATTGAGTGACTACATGGATGTCCCCCTCCATACCACACGTTCGAAGAACCTACATATGTGATCCAAA AATAA
Isso:
Virou isso: >ferret ATGTTCATTAAC CGA... + >peixe ATGTTCATTAAC CGA... + >saíra ATGTTCATTAAC CGA... + >perereca ATGTTCATTAAC CGA... + >protozoa ATGTTCATTAAC CGA... + >molusco ATGTTCATTAAC CGA... + COI >leão ATGTTCATTAAC CGA... + >bush ATGTTCATTAAC CGA... + >besouro ATGTTCATTAAC CGA... +
>ferret ATGTTCATTAAC CGA... +>saíra ATGTTCATTAAC CGA... + >peixe ATGTTCATTAAC CGA... +>perereca ATGTTCATTAAC CGA... + >protozoa ATGTTCATTAAC CGA... + >molusco ATGTTCATTAAC CGA... + >besouro ATGTTCATTAAC CGA... + >leão ATGTTCATTAAC CGA... +>bush ATGTTCATTAAC CGA... +
! Dadas as regiões homólogas do genoma, como construir a árvore filogenética? Sítios 1 2 3 4 5 6 7 8 9 10 OTU 1 A C G C G G C A A T OTU 2 A C G C G G T A A T OTU 3 A T G C G G A A A T OTU 4 A G T C G G G A A T OTU 5 A G T C G G G A A C
Existem vários algoritmos de reconstrução filogenética: Métodos de distância ( Mean. UPGMA (Unweighted Pair Group Method with Arithmetic. Neighbor joining Métodos de parcimônia Métodos de máxima verossimilhança
! Para construir árvores filogenéticas por métodos de distância devemos primeiro obter a matriz de distância das seqüências analisadas
OTU 1 OTU 2 OTU 3 OTU 4 OTU 5 OTU 1 OTU 2 OTU 3 OTU 4 OTU 5 d 12 d 13 d 23 d 14 d 24 d 34 d 15 d 25 d 35 d 45
! Diversas distâncias genéticas foram propostas Distância p Jukes-Cantor Kimura 2 parâmetros Tajima-Nei Tamura-Nei Entre outras
Sítios 1 2 3 4 5 6 7 8 9 10 OTU 1 A C G C G G C A A T OTU 2 A C G C G G T A A T OTU 3 A T G C G G A A A T OTU 4 A G T C G G G A A T OTU 5 A G T C G G G A A C d p= n N d 12 = 1 10 = 0,1
OTU 1 OTU 2 OTU 3 OTU 4 OTU 5 OTU 1 OTU 2 0,1 OTU 3 0,2 0,2 OTU 4 0,3 0,3 0,3 OTU 5 0,4 0,4 0,4 0,1
! Intuitivamente, seqüências com menor distância são geneticamente mais próximas... OTU 1 OTU 2 OTU 3 OTU 4 OTU 5 OTU 1 OTU 2 0,1 OTU 3 0,2 0,2 OTU 4 0,3 0,3 0,3 OTU 5 0,4 0,4 0,4 0,1
! A idéia do UPGMA é agrupar OTUs progressivamente de acordo com a distância genética! OTUs agrupadas passam a compor um cluster! A distância entre uma OTU e o cluster é a média entre as distâncias individuais
cluster (1,2) cluster (1,2) OTU 1 + OTU 2 OTU 1 + OTU 2? d (1,2),3 d 13 d 23 OTU 3 OTU 3 d (1,2)3 = d 13 + d 23 2
OTU 1 OTU 2 OTU 3 OTU 4 OTU 5 OTU 1 OTU 2 0,1 OTU 3 0,2 0,2 OTU 4 0,3 0,3 0,3 OTU 5 0,4 0,4 0,4 0,1 d (1,2)3 = d 13 + d 23 2 cluster(1,2) OTU 3 cluster(1,2) OTU 3 cluster(4,5) 0,2 0,35 0,35 cluster(4,5) d (1,2)(4,5) = d 14 + d 15 + d 24 + d 25 4 d (4,5)3 = d 43 + d 53 2
cluster(1,2) OTU 3 cluster(1,2) OTU 3 cluster(4,5) 0,2 0,35 0,35 cluster(4,5) cluster(1,2,3) cluster(4,5) cluster(1,2,3) 0,35 cluster(4,5) d (1,2,3)(4,5) = d 14 + d 15 + d 24 + d 25 + d 34 + d 35 6
! A ordem de agrupamento foi Passo Grupos 1 2 3 4 5 1 (1,2) & (4,5) 2 (1,2,3) & (4,5) 3 (1,2,3,4,5)
Pontos de quebra d (1,2)3 2 d 12 2 OTU 1 OTU 2 OTU 3 OTU 4 OTU 5 d (1,2,3)(4,5) 2 0.15 0.10 d 45 2 0.05 0.00
d (1,2) 2 d (1,2)3 2 d (1,2)3 = 0,2 d (1,2)3 2 = 0,1 d (1,2) = 0,1 d (1,2) 2 = 0,05 OTU 1 OTU 2 OTU 3 OTU 4 d (1,2,3)(4,5) 2 OTU 5 d (1,2,3)(4,5) = 0,35 d (1,2,3)(4,5) 2 = 0,175 d (4,5) 2 d (4,5) = 0,1 d (4,5) 2 = 0,05
0.0750 0.1250 0.0500 0.1000 0.0500 0.0500 0.0500 0.0500 OTU 1 OTU 2 OTU 3 OTU 4 OTU 5 0.15 0.10 0.05 0.00
0.0750 0.1250? 0.0500 0.1000 0.0500 0.0500 0.0500 0.0500 OTU 1 OTU 2 OTU 3 OTU 4 OTU 5 0.15 0.10 0.05 0.00
ancestral µ T T b 1 = 0,05 b 2 = 0,05 OTU 1 OTU 2 d 12 = 2 µ T d 12 = b 1 + b 2
! O método do UPGA assume que a taxa de substituição mi é constante ao longo das linhagens! Constância de taxas evolutivas = relógio molecular! Ou seja, o UPGA assume o relógio molecular
0.003 0.037 0.043 0.081 0.042 0.035 0.070 0.011 0.004 0.023 0.043 D. mulleri 0.021 0.017 0.015 0.032 0.121 0.083 0.070 D. affinidisjuncta D. heteroneura D. adiastola D. mimica D. nigra 0.044 0.054 S. albovittata D. crassifemur S. lebanonensis D. melanogaster D. pseudoobscura 0.02
ancestral µ 1 T T b 1 b 2 µ 2 T µ 1 µ 2 OTU 2 OTU 1 d 12 = b 1 + b 2
! Quando o relógio molecular não funciona, o UPGMA não recupera a topologia correta A d(ab),d < d(ab),c B A B D árvore verdadeira C árvore recuperada pelo UPGMA D C
! Em 1987, Saitou e Nei propuseram um algoritmo que não assume o relógio molecular.! Esse algoritmo chama-se neighbor joining
! O algoritmo de NJ tem o objetivo de encontrar a árvore que minimiza o somatório dos tamanhos de ramo! Para fazer isso, ele vai decompondo uma árvore em estrela formando clusters até encontrar o par que minimiza o somatório dos ramos
árvore estrela N(N 1) 2 número de pares possíveis na conformação X-Y
A A B B C C D árvore verdadeira D árvore recuperada pelo NJ
! Não assume a constância de taxas evolutivas! Estima uma única árvore não-enraizada
! A probabilidade de se observar os dados (seqüências ) dada um filogenia.! A filogenia mais provável é aquela com a maior probabilidade de ter produzidos as seqüências observadas.! Vantagens (é o método mais usado atualmente) Permite variações nas taxas de evolução entre as linhagens, genes ou através do tempo. Mais rigoroso e preciso estatisticamente
Isso é um grave problema!!!