Bioinformática URSOS EM BIOLOGIA, BIOQUÍMIA, BIOTENOLOGIA, E ENGENHARIA BIOLÓGIA João Varela jvarela@ualg.pt Aulas T9-T10
Esquema de anotação Annothaton 1. ORFs? oordenadas? Quadro de leitura? adeia + ou -? (SMS ORF Finder) 2. Existem proteínas homólogas? (BLASTp, BLASTx) 3. Existem domínios funcionais? Onde? (InterProScan) 4. Qual o tamanho / massa molecular da proteína codificada pela ORF em aa / kda? 5. A que organismo ou táxon pertencerá a sequência metagenómica? (BLAST Taxonomy Report) 6. Relações filogenéticas (MSA; Prof. Rita astilho) 7. onclusões e Análise de Resultados (PONTO PRINIPAL DA AVALIAÇÃO)
Massa Molecular (Molecular Weight) 1 Da = 1 unidade de massa atómica = 1/12 massa de um átomo de massa de um átomo de H 1 mole de H tem uma massa de 1 g Logo: 1 Da => 1 g mol -1 A massa molecular de uma macromolécula depende do nº de unidades que a forma Mw Proteína = somatório da Mw dos resíduos de aa Mw DNA = somatório da Mw dos resíduos de nucleótidos Annothaton: anotar Mw - apenas se a ORF estiver completa!
A ORF está completa quando: Identificámos o seu codão STOP (a 3 ) Identificámos o seu codão START (a 5 ) O alinhamento múltiplo (MSA = multisequence alignment) com sequências homólogas não revela a falta de qualquer sequência
Determinação do codão START por MSA Exemplo 1 GOS_12345 MSAHNTMALAGHAHHHAIKLYVVFA BD_P0001 MSAHYTMALVGHAHKHAIKLYVIFA BP_P0002 MSAHYTMALVGHAHHHAIKLYVVFA Exemplo 2 onclusão A ORF está completa na sua extremidade 5 onclusão GOS_12345 BD_P0001 BP_P0002 MALAGHAHHHAIKLYVVFA MSAHYTMALVGHAHKHAIKLYVIFA MSAHYTMALVGHAHHHAIKLYVVFA A ORF está incompleta na sua extremidade 5 Exemplo 3 onclusão GOS_12345 BD_P0001 BP_P0002 MSAHNTMALAGHAHHHAIKLYVVFA MALVGHAHKHAIKLYVIFA MALVGHAHHHAIKLYVVFA A ORF começa no 2º codão START
Alinhamentos de sequências múltiplas (MSA) Para que servem? Determinar qual o verdadeiro codão START por comparação com sequências homólogas e corrigir a extremidade 5 dada pela greedy approach Procurar sequências adicionais Montar sequências genómicas Montar ESTs Pontos de partida para análises filogenéticas
Alinhamentos de sequências múltiplas (MSA) Pesquisa de sequências adicionais 5 -ATGATTAGAATAAGGAATAAAATGTTAGAT-3 5 -ATGATTAATAATTGATTAATGATAATTTAT-3 5 -ATGATTAGATAAGGAATAAAATGTATGTTAT-3 onsenso ATGATTASAWMYAWKGAWTAAMWSWSYWWWSYYAT primer, sonda (sequência comum usada para detectar famílias de genes [homólogos] por hibridação)
Alinhamentos de sequências múltiplas (MSA) Montagem de sequências genómicas 5 -AGTATTAAGGAATTGAATGGGTTAGTAGAAATTTAG-3 seq123_67 seq123_24 5 -TTGAATGGGTTAGTAGAAATTTAGTAGT-3 seq123_89 5 -AAATTTAGTAGTTGATTA-3 seq123_67 + seq123_24 + seq123_89 = contig
ESTs (Expressed Sequence Tags) RNA1 RNA2 RNA3 RNA4... RNAn Extracção de RNA, Síntese de cdna cdna1 cdna2 cdna3 cdna4... cdnan Sequenciação 5 EST1-1 EST1-2 cdna1 5 Expressed Sequence Tags (fragmentos de sequências de cdna de RNAs transcritos de um dado tecido ou células) élula
Alinhamentos de sequências múltiplas (MSA) Montagem de ESTs para a dedução de sequências completas de RNA transcrito numa célula / tecido Detecção de splicing alternativo http://cseweb.ucsd.edu/groups/bioinformatics/ests/index.html
Esquema de anotação Annothaton 1. ORFs? oordenadas? Quadro de leitura? adeia + ou -? (SMS ORF Finder) 2. Existem proteínas homólogas? (BLASTp, BLASTx) 3. Existem domínios funcionais? Onde? (InterProScan) 4. Qual o tamanho / massa molecular da proteína codificada pela ORF em aa / kda? 5. A que organismo ou táxon pertencerá a sequência metagenómica? (BLAST Taxonomy Report) 6. Relações filogenéticas 7. onclusões e Análise de Resultados (PONTO PRINIPAL DA AVALIAÇÃO)
BLAST Taxonomy Reports
Lineage Report
A importância do Organism Report Score Valor E
ritérios de decisão de taxonomia da fonte biológica de sequências metagenómicas Escolher o táxon que tenha valores E e scores com diferenças significativas com os restantes taxa aso haja apenas taxa com valores E e scores muito próximos (não significativos) essa sequência não é diagnosticante para esse táxon; por isso escolher um táxon mais abrangente
Esquema de anotação Annothaton 1. ORFs? oordenadas? Quadro de leitura? adeia + ou -? (SMS ORF Finder) 2. Existem proteínas homólogas? (BLASTp, BLASTx) 3. Existem domínios funcionais? Onde? (InterProScan) 4. Qual o tamanho / massa molecular da proteína codificada pela ORF em aa / kda? 5. A que organismo ou táxon pertencerá a sequência metagenómica? (BLAST Taxonomy Report) 6. Relações filogenéticas 7. onclusões e Análise de Resultados (PONTO PRINIPAL DA AVALIAÇÃO)
Taxonomia e Ontologia Molecular Taxonomia (Annotathon) Ontologia Génica (GO) onclusões (Annotathon)
Taxonomia Uma das funções das anotações (meta)genómicas é a definição do táxon da fonte de material genético
Tipos de lassificações lassificação hierárquica (de Lineu) lassificação cladística
lassificação Hierárquica de Sistemas Biológicos Domínio Superreino, Reino, Subreino Superfilo, Filo ( divisão), Subfilo (Superclasse,) lasse, Subclasse Superordem, Ordem, Subordem (, Infraordem) (Superfamília, Epifamília,) Família, Subfamília (, Tribo, Subtribo, Infratribo) Género, Subgénero Espécie, Subespécie Estirpe ( variedade)
lades lades ramos monofiléticos de uma árvore filogenética
Monofilia, Parafilia e Polifilia Grupo monofilético grupo taxonómico que provém de um ancestral comum cujos descendentes se encontram incluídos neste grupo ( grupo holofilético) Grupo parafilético grupo taxonómico que provém de um ascendente comum cujos descendentes se encontram parcialmente incluídos neste grupo Grupo polifilético grupo taxonómico que provém de mais que um ascendente
Monofilia, Parafilia e Polifilia
lades
NBI Taxonomy Database ada táxon tem um nº de identificação - NBI numerical identifier ou Taxonomy ID
Filogenia http://www.ncbi.nlm.nih.gov/taxonomy/ Pesquisa por táxon ou identificador numérico olocar o identificador numérico no campo Taxonomy para o táxon menos abrangente ao qual a sequência deverá pertencer com uma elevada probabilidade (analisar valores E do BLAST e o nó imediatamente superior do ramo à qual pertence a sequência em estudo das árvores filogenéticas obtidas) Raramente se consegue identificar até à espécie a fonte biológica de sequências metagenómicas
Determinação da fonte biológica de uma sequência metagenómica Os resultados do Taxonomy Report do BLAST não são indicadores suficientes para a fonte biológica de uma sequência metagenómica Nem sempre os melhores resultados do BLAST correspondem ao táxon indicado pela análise filogenética Os resultados do BLAST e da análise filogenética devem ser congruentes e significativos para a atribuição da fonte biológica ser credível
Determinação da fonte biológica de uma sequência metagenómica Os resultados do Taxonomy Report do BLAST não são indicadores suficientes para a fonte biológica de uma sequência metagenómica Nem sempre os melhores resultados do BLAST correspondem ao táxon indicado pela análise filogenética Os resultados do BLAST e da análise filogenética devem ser congruentes e significativos para a atribuição da fonte biológica ser credível
Fonte biológica de uma sequência metagenómica A fonte biológica de uma sequência metagenómica corresponde ao táxon que terá maior probabilidade de ser o dador da sequência nucleotídica em estudo A classificação taxonómica da fonte biológica nem sempre pode ser realizado até à espécie A classificação taxonómica da fonte biológica deve corresponder ao táxon menos abrangente do qual se tenha fortes indicações através da análise filogenética e da análise dos resultados do BLAST
ritérios de atribuição taxonómica Se o melhor resultado ter uma identidade > 98% e valores E claramente diferente do 2º melhor resultado que aponte para um táxon diferente do 1º, muito provavelmente esse será o táxon da fonte biológica Function [species] Identity E value Glycerol 3-P dehydrogenase [species x] 99 % 0.0 Glycerol 3-P dehydrogenase [species y] 74% 1o -74 Glycerol 3-P dehydrogenase [species z] 65% 1o -46 Function [species] Identity E value Glycerol 3-P dehydrogenase [species x] 99 % 1o -106 Glycerol 3-P dehydrogenase [species y] 98% 1o -105 Glycerol 3-P dehydrogenase [species z] 94% 1o -103?
ritérios de atribuição taxonómica Se o melhor resultado ter uma identidade << 98% e valor E claramente diferente do 2º melhor resultado que aponte para um táxon diferente do 1º, a espécie x poderá ser aparentada com a da fonte biológica ou poderemos a estar lidar com sequências parálogas à nossa sequência (query) Function [species] Identity E value Glycerol 3-P dehydrogenase [species x] 75 % 10-86? Glycerol 3-P dehydrogenase [species y] 55% 1o -74 Glycerol 3-P dehydrogenase [species z] 25% 1o -46
Filogenia e taxonomia molecular A análise filogenética serve para apoiar ou não conclusões tiradas com resultados do BLAST em relação à atribuição da fonte biológica mais provável da sequência query A análise filogenética dá-nos também informação sobre as relações evolutivas entre sequências A análise filogenética é uma ferramenta essencial em taxonomia molecular (atribuição de classificação taxonómica de um ou mais organismos dadores de DNA por métodos moleculares)
Filogenia A análise filogenética serve para apoiar ou não conclusões tiradas com resultados do BLAST em relação à atribuição da fonte biológica mais provável da sequência query A análise filogenética dá-nos também informação sobre as relações evolutivas entre sequências A análise filogenética é uma ferramenta essencial em taxonomia molecular (atribuição de classificação taxonómica de um ou mais organismos dadores de DNA por métodos moleculares)
Exemplo: Filogenia dos Primatas Gorilas himpanzés Bonobos Orangotangos Seres Humanos Seres Humanos himpanzés Bonobos Gorilas Orangotangos 15-30 MYA 0 14 MYA 0 Via morfologia Via mtdna, genes nucleares e hibridização de moléculas de DNA Fonte: Swofford (2003)
Exemplo: Filogenia e a iência Forense Árvore filogenética de sequências genómicas do HIV DENTISTA Paciente Paciente A Paciente G Paciente B Paciente E Paciente A DENTISTA ontrolo 2 ontrolo 3 Paciente F ontrolo 9 ontrolo 35 ontrolo 3 Paciente D Sim: A fonte provável de contaminação será o dentista para estes pacientes Não Não Fonte: Ou et al. (1992) and Page & Holmes (1998), redesenhado por aro-beth Stewart
Filogenia melhora a atribuição de função Eisen et al. (1998)
Passos da análise filogenética Seleção da ORF a estudar Identificação de sequências homólogas Alinhamento múltiplo (MSA) da sequência query com sequências homólogas onstrução de árvores filogenéticas Inferência funcional das sequências utilizadas Inferência filogenética das sequências utilizadas Adaptado de Eisen et al. (1998)
Sequências parálogas vs. ortólogas Árvore A: Indica a existência de sequências parálogas Árvore B: Indica apenas a existência de sequências ortólogas Eisen et al. (1998)
Semelhança vs. Homologia Sequências muitos semelhantes entre si são geralmente homólogas (i.e., têm um ancestral comum) e têm a mesma função Sequências semelhantes podem ter a mesma função, mas não ser homólogas se a semelhança resultar de evolução convergente Árvores filogenéticas podem indicar a presença de sequências parálogas caso haja sequências da mesma espécie com scores e valores E significativamente diferentes Adaptado de Eisen et al. (1998)
Termos associados a árvores filogenéticas raiz ramos ou linhagens A E B nós terminais ou nós foliares (leaf nodes) ou taxa ou OTUs (OTUs = Operational Taxonomical Units) nós internos ou ancestrais hipotéticos D Fonte: Swofford (2003)
Termos associados a árvores filogenéticas politomia "hard" politomia "soft" A A A B B B D D D E E E Árvore estrelada com resolução nula (árvore colapsada) Árvore não binária com resolução parcial Árvore binária com elevada resolução Fonte: Swofford (2003)
A importância de enraizar uma árvore Para inferir relações evolutivas é necessário determinar a raiz da árvore B Raiz D Para enraizar uma árvore mentalmente, imagine que puxa um fio com 4 pontas pela raiz, até que as extremidades (os taxa) fiquem no lado oposto ao da raiz. A A B D árvore não enraizada Notar que na árvore enraizada, o táxon A não está mais relacionado com o taxon B que com os taxa ou D. Root árvore enraizada Slide por aro-beth Stewart Fonte: Swofford (2003)
Número de árvores não enraizadas possíveis 1 3 Taxa N u 3 1 4 3 5 15 6 105 7 945 8 10395 9 135,135 10 2,027,025 11 34,459,425 12 654,729,075 13 13,749,310,575 14 316,234,143,225 15 7,905,853,580,625 1 3 4 2 2 4 1 3 4 2 N u =(2n-5). (2n-7). (...). 3. 1=(2n-5)!/[2 n-3. (n-3)!] Adaptado de Swofford (2003)
Número de árvores enraizadas possíveis Taxa N r 3 3 4 15 5 105 6 945 7 10395 8 135,135 9 2,027,025 10 34,459,425 11 654,729,075 12 13,749,310,575 13 316,234,143,225 14 7,905,853,580,625 15 2,134,580,4667,6875 1 3 1 2 1 3 2 4 3 4 4 2 4 2 3 1 2 4 3 1 4 2 1 3 4 2 3 1 4 2 3 1 N r =(2n-3). (2n-5). (...). 3. 1=(2n-3)!/[2 n-2. (n-2)!] Adaptado de Swofford (2003)
Árvores com a mesma topologia A A D D B B B D A D A A B B Árvore enraizada D B B D D Slide por aro-beth Stewart A A Fonte: Swofford (2003)
omo enraizar uma árvore Existem duas maneiras: Por definição de outgroup : Definido por um táxon ou taxa exterior ao grupo em estudo ( ingroup ), mas requer um conhecimento taxonómico prévio (usado no Annotathon). Pode ser também uma família molecular (não usado no Annotathon). outgroup Por ponto de meia-distância (midpoint): A raiz é o ponto de meia-distância entre os taxa mais distintos da árvore e é determinado pelo tamanho dos ramos. Porém, assume que a evolução molecular é igual para todos os ramos (i.e., assume a existência de um relógio molecular ). Adaptado de um slide por aro-beth Stewart A 10 B d (A,D) = 10 + 3 + 5 = 18 Midpoint = 18 / 2 = 9 2 3 2 5 D Fonte: Swofford (2003)
Métodos de inferência filogenética: caracteres Métodos de caracteres: Alinhamento de caracteres, nucleótidos ou aminoácidos, para construir uma árvore e inferir filogenia: Taxa Species A Species B Species Species D Species E aracteres ATGGTATTTTATAGTAG ATGTAGTTTATATTAA TTATAGATGTGGTA TTGAAGATGTGGTG TTGAAGTTTTAGTTG Adaptado de um slide por aro-beth Stewart Fonte: Swofford (2003)
Métodos de inferência filogenética: distância Métodos de distância: Transforma as dissemelhanças entre sequências em distâncias, sendo utilizada a respetiva matriz para calcular a árvore. A B D E Species A ---- 0.20 0.50 0.45 0.40 Species B 0.23 ---- 0.40 0.55 0.50 Species 0.87 0.59 ---- 0.15 0.40 Species D 0.73 1.12 0.17 ---- 0.25 Species E 0.59 0.89 0.61 0.31 ---- Distância não corrigida (= % de diferença entre sequências) Parâmetro de distância Kimura 2 (estimativa corrigida da verdadeira distância de substituições de caracteres (nt. ou aa.) entre taxa. Adaptado de um slide por aro-beth Stewart Fonte: Swofford (2003)
Semelhança vs. Relação Evolutiva Semelhança e relação evolutiva são conceitos diferentes, apesar da segunda ser inferida através da primeira. Semelhança: parecença (observação) Relação evolutiva: há uma relação genética (um facto histórico) Dois taxa podem ser semelhantes, mas não terem uma relação evolutiva próxima. omo? 3 5 1 1 1 Taxon 6 Taxon A Taxon D Taxon B tem maior semelhança com A (d = 3) que com B (d = 7), mas e B são mais próximos em termos evolutivos (i.e., e B partilham um ancestral comum mais recente do que com A). Adaptado de um slide por aro-beth Stewart Fonte: Swofford (2003)
Tipos de semelhanças: Simplesiomorfia e Sinapomorfia A semelhança observada entre dois taxa pode ser devido a: Relação evolutiva: com caracteres ancestrais partilhados: simplesiomorfia com caracteres ancestrais derivados: sinapomorfia caracter ancestral plesiomorfia G G caracter derivado apomorfia Adaptado de um slide por aro-beth Stewart Fonte: Swofford (2003)
Tipos de semelhanças: homoplasia Homoplasia: Evolução independente do mesmo caracter Relação evolutiva convergente: Eventos evolutivos convergentes entre taxa relacionados (ou não) evolutivamente: através de eventos paralelos: G G G G Eventos paralelos em diferentes ramos da árvore Fonte: Swofford (2003)
Tipos de semelhanças: homoplasia Homoplasia: Evolução independente do mesmo caracter Relação evolutiva convergente: Eventos evolutivos convergentes entre taxa relacionados (ou não) evolutivamente: através de eventos de reversão: G G Mutação G G Reversão G Mutações e reversões podem esconder a verdadeira história evolutiva. Por isso, é necessário cuidado com interpretações de árvores. Em métodos de distância, semelhança = relação evolutiva caso as distâncias forem baseadas em matrizes / árvores ultramétricas.
Distâncias / matrizes / Árvores Ultramétricas Satisfazem a hipótese do relógio molecular Todas as distâncias desde a raiz até aos nós foliares são iguais O tamanho dos ramos é proporcional ao tempo evolutivo Isto é verdade para a maioria das árvores?