Modelos e Métodos para Alinhamento de Transcritoma

Tamanho: px
Começar a partir da página:

Download "Modelos e Métodos para Alinhamento de Transcritoma"

Transcrição

1 Modelos e Métodos para Alinhamento de Transcritoma Andreia Sofia Monteiro Teixeira Dissertação para obtenção do Grau de Mestre em Engenharia Informática e de Computadores Júri Presidente: Orientador: Vogais: Professor Doutor José Carlos Alves Pereira Monteiro Professor Doutor Alexandre Paulo Lourenço Francisco Doutor Luís Manuel Silveira Russo Doutora Alexandra Sofia Martins de Carvalho Outubro 2012

2 2

3 Agradecimentos Apesar de todo um curso parecer confinado à dissertação de mestrado, a verdade é que foi um processo bem mais longo, cheio de altos e baixos, e que não teria sido possível sem o apoio incondicional de algumas pessoas e entidades. Todas as conquistas conseguidas ao longo deste tempo só foram possíveis por ter sempre o apoio e o amor incondicional de toda a minha família. Em especial, pai e mãe, por toda a força e motivação que me transmitiram ao longo deste tempo e por todas as birras e pilhas de nervos que tiveram de aturar. Obrigada também aos meus amigos, eles sabem quem são, mas especialmente à minha família académica (Pedro Nogueira, Renato Vieira, Eugénio Ribeiro, Henrique Moisés e Diana Pinguicha), ao Henrique Campos, Paulo Gonçalves, Eduardo Camões Fernandes, Ricardo Monteiro e Rui Sebastião. Todos vós, em momentos diferentes, fostes cruciais para que a minha sanidade mental não se desvanecesse por completo e para que eu me mantivesse no caminho certo. Também o desporto teve o seu papel, contribuindo sempre para o meu bem-estar físico e psicológico. Acabei por travar amizades que se tornaram indispensáveis neste último ano. Aqui o agradecimento vai para ambas as equipas, feminina e masculina, de basquetebol da Associação dos Estudantes do Instituto Superior Técnico, com um especial agradecimento aos treinadores João Lima, João Coelho e Fernando Gomes, eles sabem porquê. Não podia deixar de referir os leitores do meu blogue, Morrighan. Têm sido incansáveis nas suas mensagens de apoio, tanto no blogue como no facebook, e extremamente compreensivos com o meu inevitável desleixo nos últimos meses. Também eles levaram com imensos desabafos e mesmo assim arranjaram sempre maneira de me fazer sorrir com as suas mensagens de motivação. Desculpem a minha ausência, mas quero acreditar que foi por uma boa causa. A sério, vocês são os melhores! Obrigada! Relativamente a este último ano em especifico, gostaria de agradecer à FCT (Fundação para a Ciência e Tecnologia) pois sem o seu apoio financeiro através do projecto TAGS (The power of the short - Tools and Algorithms for next Generation Sequencing applications), liderado pela 3

4 4 professora Ana Teresa Freitas, o desenvolvimento desta dissertação de mestrado não teria sido possível. Agradeço também à professora, pela sua iniciativa em me colocar neste projecto e pelo tempo em que me pôde acompanhar e a toda a equipa do projecto, em especial ao meu coorientador Paulo Fonseca e ao Francisco Fernandes, pela disponibilidade mostrada sempre que solicitada e pelo apoio. Na sequência deste evento, quero agradecer ao grupo KDBIO, sediado no INESC-ID, por me terem acolhido e dado as condiçõoes necessárias para que a realização deste projecto corresse da melhor maneira possíel. Quero também deixar aqui um agradecimento a algumas pessoas que apenas entraram na minha vida neste derradeiro ano e que se mostraram uma ajuda preciosa. Obrigada Joana Neto, Mara Rosado e Melissa Diogo por todas as partilhas e por se terem mostrado sempre disponíveis para me ouvir quando mais precisei. Por último, mas não menos importante, muito pelo contrário, quero deixar um agradecimento do fundo do coração ao meu orientador, o professor Alexandre Francisco. Sinceramente, não podia ter desejado melhor orientador. O caminho que percorremos não foi, de todo, linear, mas graças ao seu apoio e confiança em mim, fui tendo sempre a motivação necessária, mesmo quando parecia estar à beira do desespero. Muito obrigada também pela sua paciência e disponibilidade incondicionais. Mais uma vez, obrigada.

5 Existem três fundamentos da sabedoria: discrição ao aprender, memória ao reter e eloquência ao contar. - Antiga tríade irlandesa 5

6 6

7 Resumo Nos últimos anos, a introdução de novas plataformas de sequenciação de DNA veio mudar substancialmente o panorama dos estudos genéticos. Estes protocolos de sequenciação de nova geração (protocolos NGS - Next Generation Sequencing) geram quantidades massivas de dados, levando à necessidade de criação de novas ferramentas computacionais que permitam lidar de forma rápida e económica com estes dados. Com o desenvolvimento da metodologia RNA-Seq, que utiliza os novos protocolos de sequenciação para obter informação sobre amostras de RNA, o estudo do transcritoma ganhou um novo impulso. Problemas como a identificação de níveis de expressão de genes e de splicing alternativo podem ser resolvidos com a montagem e estudo do transcritoma. Ao mesmo tempo, a utilização desta tecnologia tem a grande vantagem de permitir que se façam novas descobertas e observações biológicas, tendo, no entanto, a contrapartida de requerer um esforço computacional bastante considerável. Neste trabalho apresento um estudo detalhado sobre o problema de alinhamento de transcritomas e uma solução computacional eficiente para tal, que passa pelo desenvolvimento de heurísticas para identificação de pontos de junção utilizando métodos e estruturas de dados para um mapeamento eficiente. Palavras-chave: transcritoma, sequenciação, RNA-Seq, protocolos de sequenciação de nova geração, NGS, pontos de junção 7

8 8

9 Abstract In recent years, the introduction of new DNA sequencing platforms dramatically changed the landscape of genetic studies. These protocols for next-generation sequencing (NGS) are able to generate massive amounts of data, requiring the creation of new computational tools to deal with this data quickly and economically. With the development of the RNA-Seq methodology, which uses the new sequencing protocols to get information about RNA samples, the study of the transcriptome gained a new boost. Problems such as the identification of genes expression levels and alternative splicing can be solved with the assembly and the study of the transcriptome. At the same time, the use of this technology has the great advantage of allowing new biological discoveries and observations. This technology has, however, the downside of requiring a very considerable computational effort. This work aims to present a detailed study about the problem of transcriptome alignment, presenting an efficient computational solution, which requires the development of heuristics to identify splice junctions using methods and data structures for an efficient mapping. Keywords: transcriptome, RNA-Seq, Next-Generation Sequencing, NGS, sequecing, splice junctions 9

10 10

11 Glossário Ácido Nucleico Polímero celular em que as unidades básicas são os nucleótidos. Código Genético Linguagem que a célula utiliza na transferência da informação genética e na expressão dessa informação em proteínas. DNA (ácido desoxirribonucleico) Molécula, enrolada em dupla hélice, que é a base do material genético encontrado em todas as células. O DNA controla a actividade celular e transmite a informação hereditária às novas células. EST Abreviatura para Expressed Sequence Tag, terminologia inglesa para uma subsequência de cdna sequenciado através de clonagem. Eucariota Organismo cujas células apresentam um núcleo individualizado, separado no citoplasma por uma membrana que o envolve. Exões Regiões do DNA que codificam proteínas. Estas regiões normalmente são encontradas separadas ao longo de uma determinada cadeia de DNA. Durante a transcrição, do DNA para o RNA, os exões separados são unidos para formar uma região de codificação contínua. Gene Secção da molécula de DNA que codifica uma sequência de aminoácidos que vai originar uma proteína em particular. Genoma Informação hereditária de um organismo, codificada no DNA. 11

12 12 Intrões Regiões não codificantes dentro de um gene que separam os exões. São removidos durante o processo de splicing. mrna Molécula de RNA, transcrita a partir de uma cadeia de DNA, que transporta a mensagem para a síntese de proteínas. NGS Abreviatura para Next Generation Sequencing, terminologia inglesa para tecnologias de sequenciação de nova geração. Nucleótidos Unidades básicas que constituem os ácidos nucleicos. Cada um e constituído por uma pentose, um fosfato e uma base azotada. Polímero Macromolécula formada a partir de unidades estruturais mais pequenas. Pontos de Junção Pontos, no genoma, que assinalam as fronteiras entre exões e intrões. Procariota Organismo cujas células não apresentam núcleo individualizado, por falta de membrana. Reads Terminologia inglesa para os fragmentos de cdna gerados pelas tecnologias NGS. Ribossoma Estrutura da célula onde o mrna e traduzido durante a síntese de proteínas. RNA (ácido ribonucleico) Ácido nucleico constituído por ribonucleótidos. RNA-Seq Metodologia para estudar o transcritoma utilizando as tecnologias NGS. Seeds No contexto da Informática, correspondem a subsequências de uma dada string. Splice Sites

13 13 Sítios, no genoma, onde se encontram os dinucleótidos que assinalam os pontos de junção. Splicing Processo que separa os exões dos intrões no processo de transcrição, removendo os intrões e juntando os exões. Splicing Alternativo Processo no qual os exões se juntam em diversas combinações gerando cadeias de mrna diferentes, dando origem a diferentes proteínas. String Sequência de caracteres. Tradução Processo celular que utiliza um RNA mensageiro como molde para sintetizar uma proteína. Transcrição Processo celular que utiliza o DNA como molde para a síntese da molécula de RNA complementar. É o primeiro passo da expressão do gene. Transcritoma Conjunto de todos os transcritos, ou seja, de todos os RNAs.

14 14

15 Conteúdo 1 Introdução Contexto Motivação Organização do Documento Sequenciação de Nova Geração Conceitos de Biologia Molecular e Genética Estrutura dos Ácidos Nucleicos Expressão dos Genes Tecnologias de Sequenciação Roche/ Illumina/Solexa Genome Analyzer Applied Biosystems SOLiD Outras Tecnologias RNA-Seq Desafios para a Bioinformática Alinhamento de Transcritomas Alinhamento de Reads Contra um Genoma de Referência Estratégias de Mapeamento Directo contra Genoma de Referência Estruturas de Dados e Métodos de Indexação Bowtie vs TAPyR Métodos de Identificação de Pontos de Junção QPalma

16 16 CONTEÚDO SpliceMap TopHat MapSplice Novo Método de Alinhamento de Transcritomas Problemas em Relação às Pipelines Existentes Criação de Uma Nova Abordagem Adaptação do TAPyR ao Alinhamento de Transcritomas Vantagens Limitações Resultados Dados Utilizados Performance do TAPyR Comparação de Resultados Com Outros Modelos Existentes Conclusões Trabalho Futuro

17 Lista de Figuras 2.1 Estrutura 3D do DNA Tabela do Codigo Genético Dogma Central da Biologia Molecular Processo de Transcrição Fluxo de trabalho da plataforma Fluxo de trabalho da plataforma Illumina Fluxo de trabalho da plataforma SOLiD Alinhamento contra Genoma de Referência e Alinhamento de novo Pipeline Computacional RNA-Seq, baseado no trabalho de Costa et al [26] Exemplo do método seed-and-extend Exemplo do método spaced seeds Exemplo de uma tabela de dispersão para o texto T = ACGT T T T GCGT A$ Exemplo de uma árvore de sufixos o texto T = ACACGCT $ Exemplo de uma tabela de sufixos para o texto T = ACACGCT $ Exemplo da BWT para o texto T = ACACGCT $ Exemplo de um splice site canónico Pipeline do QPalma [31] Pipeline do SpliceMap [58] Pipeline do TopHat [33] Pipeline do MapSplice [59] Selecção de seeds do TAPyR Formação de chains do TAPyR

18 18 LISTA DE FIGURAS 4.3 Fluxograma do TAPyR Caso 1 gapsizeinread = 0 e Caso 2 gapsizeinread > Vizinhanças, no genoma de referência, considerada para a procura dos pontos de junção Alinhamento entre as posições e do TAPyR em modo DNA e em modo RNA

19 1.1 Contexto 1 Introduc~ao A investigação que constituiu a base deste trabalho decorreu no âmbito do projecto TAGS : The power of the short - Tools and Algorithms for next Generation Sequencing applications, executado pelo grupo KDBIO (Knowledge Discovery and BIOinformatics) do INESC-ID, Lisboa, e que contou com a participação do Instituto Gulbenkian de Ciência. O projecto em questão tem como objectivo, no âmbito da sequenciação, o desenvolvimento de modelos de erros precisos para as plataformas de sequenciação seleccionadas, o desenvolvimento de métodos de indexação aproximados, o desenvolvimento e aplicação de estruturas de dados distribuídas e a definição de uma arquitectura computacional distríbuida. O trabalho subjacente a esta dissertação consistiu, essencialmente, na disponibilização de uma nova ferramenta de alinhamento de RNA, através do desenvolvimento de um módulo para identificação de pontos de junção com o objectivo de o integrar no algoritmo TAPyR desenvolvido no KDBIO. Isto é, o desenvolvimento de um método para o alinhamento de reads de cdna, resultantes das plataformas de sequenciação de nova geração, usando métodos de indexação e estruturas de dados eficientes, e a sua validação com dados reais. Este trabalho foi parcialmente suportado pelo projecto TAGS PTDC/EIA-EIA/112283/2009, financiado pela Fundação para a Ciência e Tecnologia. 1.2 Motivação A sequenciação completa do genoma de vários organismos, incluindo o do genoma humano, tem sido, na última década, um dos centros da atenção da comunidade científica. De todo este esforço de sequenciação, que consiste em determinar as moléculas que constituem o ácido desoxirribonucleico (DNA), resulta uma grande quantidade de informação biológica que tem de ser armazenada em bases de dados, manipulada e analisada de forma a transformar estes dados em conhecimento. Daqui resultou uma nova área de interligação entre a biologia molecular, a estatística e a informática, a área da Bioinformática. 19

20 20 CAPÍTULO 1. INTRODUÇÃO A área da Bioinformática tem como principal objectivo o desenvolvimento de modelos e ferramentas que permitam a análise e extração de informação, de forma eficiente, da enorme quantidade de dados biológicos actualmente existentes. Durante muitos anos, os métodos padrão para determinar a sequência de genes transcritos envolveram a sequenciação do ácido ribonucleico mensageiro (mrna) utilizando DNA complementar (cdna) através do método convencional de Sanger [2] usando ESTs (Expressed Sequence Tags) [18] ou através de microarrays [3]. Recentemente surgiu um novo método experimental, o método RNA-Seq, que trouxe inúmeras vantagens em relação aos outros métodos convencionais. Este novo método usa tecnologias NGS (NGS - Next Generation Sequencing), dando origem à obtenção de sequências de RNA mensageiro (mrna) com menos erros. Esta nova abordagem gera muitos mais dados por experiência, permitindo que esses dados possam ser usados como medida directa de nível de expressão gênica. As experiências RNA-Seq não só capturam o transcritoma, isto é, todas as sequências de RNA presentes numa célula, como vêm substituir as experiências convencionais com microarrays. Um dos passos críticos numa experiência RNA-Seq é o mapeamento dos fragmentos, gerados pelas tecnologias NGS, num genoma de referência. Actualmente existem várias ferramentas desenvolvidas para concretizar o alinhamento directo desses fragmentos num genoma de referência. Porém, como as células eucariotas sofrem do fenómeno de splicing (um transcrito pode conter partes de mais do que um exão), estas ferramentas não cobrem o caso em que um fragmento se estende por mais que um exão. Para conseguir alinhar estes fragmentos é necessário desenvolver métodos que consigam identificar os pontos de junção, pontos de fronteira entre exões e intrões, permitindo assim que se consiga identificar correctamente a origem do transcrito em causa. O tema deste trabalho consiste precisamente na análise de métodos e modelos de identificação de pontos de junção, essenciais para o problema do alinhamento do transcritoma, e na sugestão de uma solução computacional para tal. 1.3 Organização do Documento O restante relatório está organizado da seguinte forma: no Capítulo 2 estão descritos os conceitos fundamentais para a compreensão do problema do alinhamento do transcritoma; o Capítulo 3 contém os métodos e modelos existentes para alinhamento de reads; no Capítulo 4 encontra-se documentada a nova abordagem criada para o alinhamento de transcritomas; no Capítulo 5 são apresentados os resultados obtidos pela nova abordagem e respectiva discussão; o Capítulo 6 contém as conclusões sobre todo o trabalho desenvolvido e perspectivas de trabalho futuro.

21 2 Sequenciac~ao de Nova Gerac~ao Um transcritoma é o conjunto completo de todas as sequências de RNA (transcritos) de uma célula. A interpretação do transcritoma é essencial para compreender os elementos fundamentais de um genoma e para identificar os constituintes moleculares de células e tecidos. É também fundamental para compreender as pequenas alterações dos genes (mutações) que dão origem a doenças. Os principais objectivos da transcritómica são: catalogar todas as espécies de transcritos que existem, incluindo RNAs mensageiros (mrna), RNAs não codificantes (non-coding RNA) e pequenos RNAs (small RNA); determinar a estrutura transcritómica dos genes, em termos dos seus sítios iniciais (start sites) e dos seus terminais 5 e 3 ; padrões de splicing e outras modificações pós-transcricionais; e, por último, para quantificar as mudanças de níveis de expressão de cada transcrito durante o seu desenvolvimento e sob diferentes condições [1]. Por todas estas razões, é cada vez mais importante sequenciar o transcritoma. As tecnologias NGS vieram facilitar em muito a acessibilidade aos dados (em termos de custo e de tempo) e, com a chegada da metodologia RNA-Seq, várias soluções, mas também desafios, foram surgindo. Assim sendo, na Seccção 2.1 são apresentados todos os conceitos de Biologia Molecular e Genética necessários à compreensão do problema; na Secção 2.2 estão detalhadas as tecnologias NGS escolhidas; na Secção 3.3 está descrita a mais recente metodologia para alinhamento de RNA (RNA-Seq); e a Secção 2.4 contém todos os desafios que surgiram para a Bioinformática. 2.1 Conceitos de Biologia Molecular e Genética Estrutura dos Ácidos Nucleicos O Ácido Nucleico é um polímero celular com funções de armazenamento, transmissão e utilização de informação. A sua unidade básica é o nucleótido. Existem dois tipos de ácidos nucleicos: o ácido desoxirribonucleico (DNA na terminologia inglesa ou ADN na terminologia portuguesa) e o ácido ribonucleico (RNA na terminologia inglesa ou ARN na terminologia portuguesa). Neste documento serão usados os termos DNA e RNA. 21

22 22 CAPÍTULO 2. SEQUENCIAÇÃO DE NOVA GERAÇÃO Figura 2.1: Estrutura 3D do DNA. O DNA é o suporte universal da informação genética que define as características de cada organismo vivo. É constituído por quatro nucleótidos que se associam de uma forma específica, formando uma cadeia dupla enrolada em hélice [4] (Figura 2.1). Cada nucleótido é constituído por: uma pentose (desoxirribose), um grupo fosfato e uma de quatro bases azotadas: a adenina (A), a guanina (G), a citosina (C) e a timina (T). As cadeias são complementares antiparalelas e mantêm-se emparelhadas através de pontes de hidrogénio estabelecidas entre as bases azotadas de cada par de nucleótidos: timina com adenina e citosina com guanina. Assim, uma vez conhecida a sequência de bases de uma cadeia, deduz-se imediatamente a sequência de bases da cadeia complementar. De uma forma simples, abstraindo as propriedades químicas, podemos ver o DNA como uma sequência de caracteres cujo alfabeto contém apenas quatro letras {A, C, T, G}, em que cada caracter representa uma base. A ordem pela qual as quatro bases aparecem ao longo da cadeia de DNA é determinante pois representa as instruções contidas no código genético (Figura 2.2) de cada organismo. Como unidade de medida de comprimento de uma molécula de DNA utiliza-se o número de pares de bases que a formam. Os genes são segmentos de uma cadeia de DNA que controlam a síntese proteica. Ao conjunto de genes que constitui a informação genética de um organismo dá-se o nome de genoma. Além dos genes, existem regiões no DNA que servem para regular a activação dos genes e outras para as quais ainda não há funções conhecidas. É sabido que existem diferenças entre o material genético de organismos procariotas (caracterizados pela ausência de um núcleo individualizado) e eucariotas (estes organismos contêm um

23 2.1. CONCEITOS DE BIOLOGIA MOLECULAR E GENÉTICA 23 Figura 2.2: Tabela do Codigo Genético. núcleo). Apesar do DNA ser considerado, do ponto de vista da sua estrutura molecular, idêntico em todos os organismos, este apresenta-se de forma diferente nestes dois tipos de organismos. Nas células procariotas apresenta-se na forma de uma única molécula circular. Nas eucariotas o DNA está combinado com numerosas proteínas, formando o complexo DNA-proteínas, denominado cromatina. Esta está localizada no núcleo da célula e apresenta uma estrutura molecular complexa. A estrutura dos genes, nos organismos eucariotas, é também mais complexa que a dos organismos procariotas. Os genes são constituídos por regiões codificantes, os exões, que vão dar origem à proteína, intercaladas por regiões não codificantes, os intrões. Os genes dos organismos procariotas não apresentam intrões. Para além do DNA, outro ácido nucleico é o RNA. Quando comparado com o DNA, este apresenta uma constituição diferente: enquanto que o açúcar do DNA é uma desoxirribose, o do RNA é uma ribose e a base timina (T) é substituída pela base de uracilo (U). O RNA existe nas células vivas em quantidades superiores à do DNA. Enquanto que a quantidade de DNA é igual em todas as células somáticas, a de RNA celular é variável e relaciona-se com a maior ou menor actividade metabólica da célula. Nas células, podem ser encontrados diferentes tipos de RNA, cada um com o seu papel: RNA mensageiros (mrna) que servem como molde para a síntese proteica; os RNA ribossomais (rrna) que constituem o ribossoma; os RNA de transferência que são utilizados no processo de tradução (trna) e ainda uma inúmera variedade de pequenos RNAs não codificantes que desempenham um papel determinante em todos os mecanismos de regulação de genes. O conjunto de todos os RNAs, denomina-se de transcritoma. Através de processos bioquímicos complexos, tais como a transcrição e a tradução, os genes codificam todas as proteínas necessárias à vida. As proteínas são responsáveis por controlar a

24 24 CAPÍTULO 2. SEQUENCIAÇÃO DE NOVA GERAÇÃO Figura 2.3: Dogma Central da Biologia Molecular. grande maioria das funções fisiológicas. Podem ter um carácter estrutural, como é o caso da proteína Miosina que é um dos constituintes das fibras musculares, ou podem ser agentes activos em determinadas actividades como é o caso da coagulação sanguínea, do transporte de materiais nos fluídos do organismo, da produção de anticorpos, etc. As proteínas são constituídas por aminoácidos que estão ordenados numa sequência linear. A ordenação dos aminoácidos confere à proteína características e uma função muito específica. A alteração de um aminoácido numa sequência pode conduzir a uma modificação na estrutura e função biológica da molécula em causa. Cada grupo de três nucleótidos de um gene, designado por um codão ou tripleto, codifica um aminoácido em particular. Como existem 64 codões diferentes e apenas 20 aminoácidos, o código genético é degenerado, ou seja, vários codões podem codificar o mesmo aminoácido. Independentemente do grau de complexidade estrutural, todos os organismos vivos dependem da produção de proteínas sintetizadas a partir da informação contida no DNA. Da mesma forma, todas as células usam o mesmo mecanismo geral para transformar a informação contida no DNA em proteínas, denominado de expressão genética. Descreve-se de seguida parte desse mecanismo para os organismos eucariotas, que serão objecto de estudo neste trabalho, deixando-se de lado os organismos procariotas Expressão dos Genes A expressão dos genes é o processo pelo qual as proteínas são produzidas a partir da informação contida no DNA. Este processo é também designado por Dogma Central da Biologia (Figura 2.3) e envolve dois passos críticos: a transcrição e a tradução.

25 2.1. CONCEITOS DE BIOLOGIA MOLECULAR E GENÉTICA 25 Figura 2.4: Processo de Transcrição. Transcrição A transcrição (Figura 2.4) nos organismos eucariotas ocorre no núcleo das células (que contêm o DNA) e consiste na síntese de moléculas de RNA mensageiro (mrna), RNA ribossomal (rrna) e RNA de transferência (trna), a partir da molécula de DNA. Existem três enzimas RNA polimerases. Os genes que codificam proteínas são transcritos pela enzima RNA polimerase II. A enzima liga-se ao gene numa área específica, chamada região promotora, e começa a construir a cadeia de mrna com uma sequência de bases complementar à sequência de DNA. Quando a transcrição termina, a porção de DNA que codifica a proteína é agora representada por uma molécula de mrna que irá ser usada na tradução. Os rrna e os trna são transcritos pelas RNA polimerases I e III. Deste processo resulta o pre-mrna ou transcrito primário, que vai sofrer um conjunto de modificações, descritas por maturação. Como foi dito anteriormente, os organismos eucariotas têm regiões codificantes, exões, e não codificantes, intrões. Durante a fase de maturação, os intrões são removidos do pre-mrna por um processo designado de splicing, sendo os exões unidos posteriormente, resultando no mrna maduro. Neste processo pode ocorrer o fenómeno de splicing alternativo, uma vez que a mesma sequência de pre-mrna pode dar origem a diferentes moléculas de mrna e, por sua vez, a diferentes proteínas. O splicing alternativo ocorre com frequência neste tipo de organismos e é um mecanismo importante na regulação dos genes complementando o controlo da transcrição. O mrna maduro é depois transportado do núcleo para o citoplasma da célula, atravessando a membrana nuclear. Uma vez no citoplasma, ocorre a tradução dos codões do mrna em aminoácidos de acordo com o código genético.

26 26 CAPÍTULO 2. SEQUENCIAÇÃO DE NOVA GERAÇÃO Tal como já foi referido anteriormente, ao conjunto de todos os RNAs resultantes do processo de transcrição dá-se o nome de transcritoma. Após terem sido referidos os conceitos fundamentais de biologia molecular, assim como o mecanismo fundamental que dá origem ao transcritoma, será omitida parte de tradução (em que as moléculas de RNA dão origem às proteínas) pois foge ao âmbito deste trabalho. 2.2 Tecnologias de Sequenciação Com a sequenciação de um genoma, processo que determina a ordem dos nucleótidos na cadeia inteira do DNA de um indivíduo, consegue-se obter os dados necessários ao estudo da variação fenotípica entre indivíduos, à compreensão das doenças genéticas e à rápida formulação de diagnósticos genéticos, contribuindo para uma medicina cada vez mais personalizada. Desde que a sequenciação do DNA foi conseguida pela primeira vez em 1977 com o método de Sanger [2] novos métodos foram criados. Recentemente surgiram os chamados protocolos de nova geração (NGS - Next Generation Sequencing) [5, 6] que são bastante eficientes e que permitem uma sequenciação massiva em paralelo. Existem neste momento no mercado três grandes companhias que comercializam ferramentas baseadas nesses protocolos: Roche/454 [7], Illumina/Solexa Genome Analyzer [8] e Applied Biosystems/SOLiD [12]. A quantidade de reads (fragmentos de cdna) geradas, o seu tamanho e ainda o tipo de erros de sequenciação, variam de plataforma para plataforma. Todas estas tecnologias dão origem a quantidades consideráveis de dados, que representam fragmentos aleatórios da sequência original e precisam de ser alinhados de forma a fornecerem informação útil. Estes dados são normalmente apresentados em formato FASTA - ficheiro de texto que contém as bases da sequência de cada read e a sua identificação, o seu id. Por vezes as reads podem também conter informação associada sobre a qualidade do sinal usado pela ferramenta, para a determinação de cada base individualmente. Neste caso o formato do ficheiro gerado é FASTAQ. Outro aspecto destas plataformas é o conceito de paired-end reads, às vezes também apelidado de mate-pair reads. São pares de reads associados com alguma informação sobre a sua posição relativamente uma à outra, isto é, a distância aproximada que separa uma read da outra é conhecida. Esta informação extra sobre o posicionamento das reads ajuda de forma considerável a sinalizar a correcta localização de ambos os fragmentos aquando do alinhamento das mesmas. Pelo processo da sequenciação são geradas as reads ainda em estado puro para mais tarde

27 2.2. TECNOLOGIAS DE SEQUENCIAÇÃO 27 Figura 2.5: Fluxo de trabalho da plataforma 454. serem analisadas, interpretadas e processadas, por ferramentas de mapeamento e montagem Roche/454 Os instrumentos da tecnologia Roche/454 [7] utilizam o método de pirosequenciação. Inicialmente as amostras genómicas a serem sequenciadas são divididas em pequenos fragmentos. Em cada molécula de DNA são ligados adaptadores de modo a que a molécula seja purificada, quantificada, amplificada e sequenciada. Esses adaptadores permitirão que o DNA se ligue a uma, e apenas uma, micela (bead) na fase de amplificação. De seguida dá-se a emulsificação do fragmento, em meio aquoso, juntamente com os reagentes da reação PCR (Polymerase Chain Reaction). Neste processo todos os fragmentos ligados a beads são amplificados simultaneamente, sendo que cada bead apresentará várias cópias do único fragmento que lhe estava ligado inicialmente. Depois da amplificação, as beads que contêm as moléculas de DNA são colocadas no suporte de sequenciação. Nesta fase, a incorporação de cada nucleótido complementar ao DNA da bead liberta um pirofosfato que é então detectado através de um sinal quimioluminescente e é capturado pela câmera CCD da ferramenta. A intensidade do sinal e a informação sobre a posição do fragmento é convertido num flowgram, permitindo que seja determinada a sequência de nucleótidos de cada read. Cada fragmento corresponde a uma read. Uma ilustração deste processo encontra-se na Figura 2.5. Esta tecnologia processa mais de um milhão de reads de tamanho médio de 400 pares de bases (400bp) num único processamento de 10 horas. Apesar deste sistema ser capaz de produzir reads mais compridas do que as restantes tecnologias, é mais susceptível a erros de homopolímeros (inserções ou remoções consecutivas da mesma base).

28 28 CAPÍTULO 2. SEQUENCIAÇÃO DE NOVA GERAÇÃO Figura 2.6: Fluxo de trabalho da plataforma Illumina Illumina/Solexa Genome Analyzer A Illumina/Solexa [8] desenvolveu uma tecnologia de sequenciação baseada em terminadores de fluoróforo reversíveis. O DNA é fragmentado aleatoriamente e os adaptadores são ligados a ambas as extremidades dos fragmentos. De seguida, cada fragmento liga-se aos oligonucleótidos imobilizados à superfície das células de fluxo do instrumento e são amplificados milhões de vezes formando um cluster. Os modelos são sequenciados em paralelo, base a base, usando quatro tipos de terminadores fluorescentes reversíveis nos nucleótidos, que competem simultaneamente para se ligarem ao modelo. De seguida, os clusters são excitados através de um laser, emitindo uma cor que identifica a nova base que foi adicionada (Figura 2.6). O marcador fluorescente e o grupo bloqueador são então removidos, permitindo a adição da próxima base. O sistema é capaz de produzir cerca de 6.5Gb de dados por dia para um processamento de 2x100bp de paired-end reads. O tamanho das reads varia entre 1x35bp para single-end reads num processamento de dois dias, e 2x150bp para paired-end reads num processamento de 14 dias. Apesar de ter o melhor rendimento, em termos de quantidade de dados gerados, por processamento de entre as três tecnologias, cada processamento é muito longo e o tamanho das reads é relativamente pequeno. Os erros mais comuns nas reads geradas por esta tecnologia são as substituições de bases [9]. Uma possível desvantagem é a sub-representação de zonas ricas em dinucleótidos AT e GT, provavelmente por causa da fase de amplificação durante a preparação dos fragmentos [9, 10, 11] Applied Biosystems SOLiD A tecnologia Applied Biosystems [12] é baseada num método chamado sequenciação por ligação (Figura 2.7). Este método processa-se através de rondas sequenciais de ligação de nucleótidos usando sondas que codificam às duas bases de cada vez. Cada sonda tem uma das combinações de 16

29 2.2. TECNOLOGIAS DE SEQUENCIAÇÃO 29 Figura 2.7: Fluxo de trabalho da plataforma SOLiD. dinucleótidos e um dos quatro corantes fluorescentes. Assim, em vez de usar uma sequência de referência baseada em quatro nucleótidos, usa uma sequência de referência baseada num espaço de quatro cores. Como cada corante pode corresponder a quatro dinucleótidos, uma matriz de descodificação é usada para converter a sequência de cores numa sequência base. Esta codificação a duas bases permite que os erros de sequenciação possam ser distinguidos, de forma eficiente, das inserções de uma única base real, remoções e SNPs (Single-Nucleotide Polymorphism). Tal como no sistema Roche/454, as amostras de DNA são fragmentadas, modificadas com adaptadores em ambos os fins, são ligadas a beads, clonadas por emulsão PCR em microreactores e, por fim, depositadas numa lâmina de vidro. O equipamento é capaz de gerar 30Gb de dados por dia, em que as reads são de tamanho 35bp, mas suporta reads de tamanho até 70bp. O espaço das cores das reads é retornado por este equipamento através de ficheiros em formato CSFASTA e CSFASTAQ, onde cada read é definida por uma base inicial seguida de uma sequência de números entre 0 e 3 representando as quatro cores. Os tipos de erros mais comuns são as substituições e, de forma semelhante à plataforma Illumina, também apresenta uma sub-representação de zonas ricas em dinucleótidos AT e GT [10] Outras Tecnologias De todas as tecnologias NGS existentes, as três acima mencionadas são consideradas como fazendo parte da categoria de tecnologias de segunda geração, existindo já algumas classificadas de terceira geração [13]. Ainda nas de segunda geração existe a tecnologia Helicos, primeiro sequenciador de molécula-

30 30 CAPÍTULO 2. SEQUENCIAÇÃO DE NOVA GERAÇÃO Figura 2.8: Alinhamento contra Genoma de Referência e Alinhamento de novo. única (single-molecule), ou seja, não utiliza amplificação [14] no processo de sequenciação, que produz, por cada execução, 400 milhões de reads de tamanho 25-35bp. As tecnologias de terceira geração são caracterizadas pelo esforço de tornar a sequenciação ainda mais barata e rápida, utilizando nanotecnologias e outras ferramentas avançadas com o objectivo de eliminar a amplificação e a necessidade da detecção óptica de eventos de sequenciação [13]. Como exemplo dessas tecnologias temos a Pacific Biosciences and Complete Genomics [15], Ion Torrent [16] e Oxford Nanopore [17]. 2.3 RNA-Seq RNA-Seq [1] é uma metodologia desenvolvida recentemente cujo objectivo é estudar o transcritoma, usufruindo das tecnologias de sequenciação em larga escala que foram descritas na secção anterior. De uma forma geral, uma população de RNA (total ou fraccionada) é convertida numa biblioteca de fragmentos de cdna. Consoante o protocolo de preparação das amostras inerente a cada tecnologia, cada fragmento recebe adaptadores, é sequenciado e gera uma sequência curta (cada read é da ordem de pb, dependendo da tecnologia utilizada). Após a sequenciação, as reads resultantes são alinhadas contra um genoma de referência ou um transcritoma de referência. Podem ainda ser montadas de novo, ou seja, sem uma sequência de referência (Figura 2.8). O objectivo é produzir um mapa transcricional em escala genómica composto pela estrutura transcricional e/ou o nível de expressão de cada gene. As principais vantagens do RNA-Seq são: a detecção dos transcritos não fica restrita somente

31 2.4. DESAFIOS PARA A BIOINFORMÁTICA 31 àqueles correspondentes a uma sequência genómica pré-existente (tal como ocorre com as abordagens baseadas em hibridização), tornando o método atractivo para a pesquisa em organismos cujos genomas ainda não foram determinados; podem ser determinadas localizações precisas dos limites de transcrição; é possível a detecção de variações da sequência genómica (SNPs) nas regiões transcritas; como não existem etapas de clonagem nas tecnologias de nova geração, o RNA-Seq requer uma quantidade muito menor de amostras de RNA [1]. O RNA-Seq é ainda o primeiro método baseado em sequenciação que permite que um transcritoma completo seja pesquisado em larga-escala e de maneira quantitativa. Oferece resolução de uma única base para anotação e de níveis de expressão gênica digital em escala genómica, normalmente a um custo bem menor, quando comparado com as técnicas de microarrays ou de sequenciamento EST (Expressed Sequence Tag) [18]. Será, certamente, uma ferramenta valiosa para compreender a dinâmica transcricional, não só durante as mudanças fisiológicas normais associadas ao desenvolvimento do organismo, mas também na comparação entre tecidos saudáveis e doentes. 2.4 Desafios para a Bioinformática Com as plataformas NGS são gerados dados de uma sensibilidade sem precedentes, o que permite que sejam descobertos novos factos biológicos. No entanto, isto requer um esforço considerável no desenvolvimento de novas ferramentas bioinformáticas para lidar com esta quantidade massiva de dados. Um dos primeiros desafios para a informática consiste no armazenamento e transferência de grandes volumes de dados entre computadores. Numa única execução de qualquer uma das tecnologias NGS, os dados gerados e ainda por processar podem ser da ordem dos terabytes. Ou seja, transferir estes ficheiros pode representar um desafio técnico para as redes de computadores de muitos centros de pesquisa. Adicionalmente, mesmo quando os dados são passíveis de serem transferidos para processamento, um computador (desktop) comum apresenta limitações em termos de CPU e memória face ao enorme volume de dados. Uma solução possível é utilizar um cluster de computadores para aumentar a capacidade computacional [26]. Outro problema é a disponibilidade do software necessário para realizar a análise dos dados. O resultado de uma experiência RNA-Seq pode consistir em milhões de reads com centenas de pares de bases, dependendo da tecnologia usada, da sua versão e do custo total da experiência. A análise destes dados baseia-se muito num mapeamento adequado das reads numa sequência

32 32 CAPÍTULO 2. SEQUENCIAÇÃO DE NOVA GERAÇÃO de referência ou numa montagem eficiente de novo. Mapear estas reads de forma eficiente e fidedigna enfrenta alguns obstáculos. Tal como foi identificado por McPherson [19], as diferenças entre as várias plataformas de sequenciação na preparação das amostras, nos químicos usados, no tipo, volume e formato de dados em cru, são bastante consideráveis. Isto faz com que cada plataforma produza dados com erros de um determinado perfil. Por exemplo, o sistema 454 pode produzir reads com erros de inserção ou remoção em homopolímeros (polímeros que são formados por unidades idênticas de monómeros) e gera menos, mas mais longas sequências num formato FASTA, permitindo a sua adaptação a algoritmos clássicos de alinhamento; as ferramentas Illumina têm uma grande probabilidade de acumular erros de sequenciação no final das reads e, embora estas estejam em formato FASTA, são consideravelmente mais pequenas (short reads) que as 454 requerendo algoritmos de alinhamento mais específicos; a tecnologia SOLiD também tende a acumular erros no final das reads, mas usa uma codificação a duas bases e cada sequência de saída está codificada num espaço de cores no formato CSFASTA. Consequentemente, alguns erros de sequenciação são corrigíveis, providenciando uma melhor descriminação entre erros de sequenciação e polimorfismos (variações genotípicas), com o custo de ser necessário ter ferramentas direccionadas especificamente para este tipo de problema. Relativamente ao mapeamento das reads num genoma de referência, o desafio poderia ser mais simples se todas alinhassem de forma exacta nas regiões exónicas da sequência de referência. Porém, tal como foi visto anteriormente, as células eucariotas dispõem de um mecanismo de splicing e, portanto, é possível que uma read se estenda por mais do que um exão. Para conseguirmos alinhar estas reads correctamente, é necessário identificar os pontos de junção (pontos de fronteira que separam os exões dos intrões). Estes pontos de junção podem ser identificados de várias formas, algumas delas descritas na secção seguinte. No entanto, uma solução parcial é a construção de uma biblioteca, em que estão compiladas todas as regiões exónicas conhecidas e previstas, e mapear as reads contra essa biblioteca [20, 21]. Um outro obstáculo surge pelo simples facto de uma quantidade significativa de reads poder alinhar em múltiplos sítios no genoma. Uma solução para alinhar estes fragmentos é atribuílos de forma proporcional com base no número de reads mapeadas nas suas sequências únicas vizinhas [21, 22]. As short reads que têm um número elevado de cópias (mais de 100) e em que grande parte se repete muitas vezes, representam um desafio ainda maior. Utilizar reads maiores, como as da tecnologia 454, é uma possível solução para a questão de alinhamento múltiplo. Uma alternativa é usar uma estratégia paired-end, em que as sequências pequenas são determinadas a partir das duas extremidades de um fragmento de DNA [23, 24, 25], e o tamanho

33 2.4. DESAFIOS PARA A BIOINFORMÁTICA 33 dos fragmentos mapeados é ampliado para bp sendo, certamente, útil no futuro. Erros de sequenciação e de polimorfismos representam problemas de mapeamento não só para o DNA repetitivo, mas para todos os genomas. Não é surpreendente que não exista software padrão para um utilizador final. Assim sendo, a implementação de pipelines individuais de processamento para os diversos dados, combinada com alguns packages existentes e novos métodos computacionais, é uma abordagem a seguir. No entanto, mesmo com alguns packages a permitirem que vários aspectos do RNA-Seq sejam resolvidos, estes requerem um grande esforço temporal, muito devido à falta de documentação clara na maioria dos algoritmos e à variação dos formatos dos dados. Como tal, uma documentação muito bem definida e precisa é necessária para assegurar uma total compreensão dos dados processados, tal como é útil adoptar um formato comum para os dados (input/output) de forma a tornar mais simples a sua manipulação: alinhamentos, montagens de referência e detecção de variações. A resolução destes problemas pode fazer com que a lacuna que existe no software de processamento de sequências (alinhamento, montagem, posicionamento e detecção de variações) passe para a de análise de sequências (anotação e impacto funcional) [26].

34 34 CAPÍTULO 2. SEQUENCIAÇÃO DE NOVA GERAÇÃO

35 3 Alinhamento de Transcritomas Com a evolução das tecnologias e das metodologias, surgiu a necessidade urgente de desenvolver novas abordagens computacionais que permitam que a sequenciação seja cada vez mais rápida e barata. O volume de dados gerado é cada vez maior e torna-se fundamental existirem métodos e ferramentas que permitam uma fácil manipulação dos mesmos. A pipeline computacional clássica do RNA-Seq está ilustrada na Figura 3.1 (o âmbito deste projecto restringe-se à fase do software de alinhamento/mapeamento). A figura mostra-nos que numa primeira fase as reads, resultantes de uma das experiências NGS, são alinhadas contra um genoma de referência. Alinhar o transcritoma de organismos sem um genoma de referência requer uma montagem de novo. Dado que esta foge ao âmbito do projecto, sugere-se a leitura de artigos de revisão para uma compreensão do problema em causa [27, 28]. A decisão de qual das estratégias a utilizar depende muito da aplicação a que se propõe. No entanto, independentemente da abordagem seguida, há sempre uma fase preliminar que consiste na filtragem de reads removendo as de má qualidade, reduzindo o tempo e esforço computacional na altura da análise dos dados. Nas próximas secções estão explicados, de forma detalhada, os mecanismos e etapas necessárias ao alinhamento de qualquer transcritoma. Na Secção 3.1 encontram-se descritas as abordagens computacionais existentes para o alinhamento directo de reads contra um genoma de referência. Como esse mapeamento em si não resolve o problema de alinhamento do transcritoma, pois as reads podem estender-se por mais do que um exão, é necessário desenvolver métodos para a identificação dos limites de transcrição, ou seja, dos pontos de junção. Na Secção 3.2 estão explicados alguns mecanismos, já existentes, para a identificação desses pontos. 3.1 Alinhamento de Reads Contra um Genoma de Referência O desafio de alinhamento/mapeamento é um dos problemas mais antigos na Bioinformática, mas os algoritmos que são tradicionalmente usados (baseados em programação dinâmica simples) para o resolver de forma eficiente, não são passíveis de serem utilizados em problemas que envolvam a manipulação de grandes volumes de dados. Dado que é necessário alinhar reads 35

36 36 CAPÍTULO 3. ALINHAMENTO DE TRANSCRITOMAS Figura 3.1: Pipeline Computacional RNA-Seq, baseado no trabalho de Costa et al [26]. de tamanho muito pequeno num genoma de referência, que pode chegar aos Gbs de tamanho, outras estratégias foram desenvolvidas, na sua maioria baseadas em seeds (seed-and-extend ou spaced seeds, por exemplo) tal como algumas técnicas de indexação que visam acelerar todo o processo de alinhamento. Nas próximas subsecções, serão descritas essas estratégias, os métodos de indexação mais utilizados, e ainda é feita uma análise comparativa de dois dos algoritmos mais eficientes de alinhamento directo contra um genoma de referência Estratégias de Mapeamento Directo contra Genoma de Referência Dado que o DNA é composto por um alfabeto de quatro letras {A, C, T, G}, os problemas relacionados com o alinhamento de reads contra um genoma de referência podem reduzir-se a problemas de emparelhamento de cadeias de caracteres (string matching). No entanto, não deixa de ser necessário fazer alguns ajustamentos devido à grande discrepância que existe nos tamanhos das cadeias de caracteres (a partir de agora utilizar-se-á a terminologia inglesa strings) a serem alinhadas em aplicações de sequenciação. Programação Dinâmica Vários algoritmos de programação dinâmica foram testados e aprovados na área da sequenciação, mas nem todos contribuem para a resolução do problema de alinhamento de reads contra um

37 3.1. ALINHAMENTO DE READS CONTRA UM GENOMA DE REFERÊNCIA 37 Figura 3.2: Exemplo do método seed-and-extend. genoma de referência. O objectivo não é tentar alinhá-las contra o genoma inteiro, isto é, um alinhamento global, mas sim contra pequenas regiões do genoma, ou seja, encontrar um alinhamento local óptimo utilizando um algoritmo como o Smith-Waterman-Gotoh [34]. Apesar deste algoritmo garantir que se encontra uma solução óptima, é muito exigente em termos de tempo e memória, tornando impraticável a sua utilização. Como tal, as ferramentas de alinhamento procuram por strings que tenham um alinhamento exacto, seeds, e depois alinham as lacunas (na terminologia inglesa gaps) existentes entre essas seeds. Neste caso, um alinhamento semi-global é executado entre as gaps que separam as seeds na read e as gaps correspondentes na referência. Para tal, é aplicada uma variante do algoritmo de alinhamento global Needleman-Wunsch [35]. Exemplos de métodos que utilizam programação dinâmica para resolver o alinhamento nas regiões entre as seeds, são as ferramentas BWA [51] e RazerS [52]. Seed-and-Extend Devido à inviabilidade do uso directo de algoritmos de programação dinâmica para alinhar cada read contra a sequência de referência, outras estratégias não tão precisas, mas praticáveis, têm que ser usadas. É aqui que entra o paradigma seed-and-extend. Sendo um método heurístico, visa o aumento de velocidade em troca de uma menor sensibilidade e, apesar de não garantir o melhor alinhamento entre duas sequências, faz com que seja prático aplicá-lo. O algoritmo baseia-se numa estratégia de alinhamento local, ou seja, começa por encontrar um alinhamento exacto de palavras de tamanho fixo, as seeds, presentes tanto nas reads como na referência. Neste passo, as seeds são normalmente alinhadas com o auxílio de uma estrutura de indexação. As ocorrências destas seeds são depois estendidas para ambos os lados através do alinhamento exacto entre as reads e a referência, usando eventualmente programação dinâmica entre essas seeds para completar o alinhamento. Através destes passos, uma aproximação ao algoritmo Smith-Waterman-Gotoh é conseguida. Apesar de admitir alguns erros, executa muito mais rapidamente e requer menos espaço de memória. Uma ferramenta muito útil que utiliza

38 38 CAPÍTULO 3. ALINHAMENTO DE TRANSCRITOMAS Figura 3.3: Exemplo do método spaced seeds. esta estratégia é a aplicação BLAST [29]. Spaced seeds Na estratégia anterior, as seeds precisam de ser alinhadas de forma exacta e por isso os tamanhos usados para as mesmas são muito importantes. Seeds muito compridas irão falhar algumas correspondências, e quando muito pequenas irão aumentar o tempo de execução. Para superar isto, o conceito de seeds espaçadas (spaced seeds) foi criado [36]. São seeds normais, mas em que nem todos os caracteres precisam de ser alinhados de forma exacta, fazendo com que certas posições sejam ignoradas (Figura 3.3). Em sequências onde as falhas no emparelhamento (mismatches na terminologia inglesa) são muitas e estão bastante dispersas, as spaced seeds produzem melhores resultados do que usando seeds contíguas com o mesmo número de posições de emparelhamento requiridas, obtendo assim uma maior sensibilidade no alinhamento. Não obstante, é necessário ter cuidado para não descurar na especificidade do alinhamento [37]. Esta estratégia revela-se extremamente importante quando na fase de sequenciação ocorrem alguns erros como inserção, remoção ou substituição em homopolímeros. Um número considerável de ferramentas utilizam esta estratégia de seeding eficiente, tais como ZOOM [39], SHRiMP [40] e PerM [43]. Princípio Pigeon-hole O Princípio Pigeon-hole [38] define que se quisermos alinhar uma string de tamanho n permitindo que hajam no máximo k erros, então podemos dividi-la de forma igual em k+1 seeds de tamanho n/(k+1), com k << n. Esta divisão garante que pelo menos uma delas terá um alinhamento exacto, isto é, sem erros. Muitas ferramentas como a RMAP [44] e a SeqMap [45], especificam um número máximo de erros a priori e depois aplicam este princípio para obter pelo menos uma seed de alinhamento exacto que será estendida mais tarde.

39 3.1. ALINHAMENTO DE READS CONTRA UM GENOMA DE REFERÊNCIA Estruturas de Dados e Métodos de Indexação A simples procura de uma read em grandes genomas de referência seria computacionalmente pesada se não houvessem mecanismos para acelerar o processo. Assim sendo, os algoritmos de sequenciação precisam de alguns tipos de estruturas de dados específicos para tornar possível essa aceleração. Como tal, quase todas as ferramentas utilizam alguma espécie de índice. As estruturas mais comuns são em forma de tabelas de dispersão, tabelas construídas para fazer corresponder cada string às posições em que ocorrem na sequência. No entanto, as tecnologias mais recentes tiram vantagem de técnicas de indexação mais avançadas como a FM- Index [47], uma estrutura que vem directamente da Transformada de Burrows-Wheeler [46] e que está intimamente ligada às tabelas e às árvores de sufixos. Algumas ferramentas optam por indexar o genoma de referência, outras as reads, e algumas chegam a indexar ambas. No entanto, esta indexação permite obter de forma rápida e eficiente as posições em que uma determinada sequência ocorre exactamente, sem erros. Tabelas de Dispersão As tabelas de dispersão são uma estrutura simples, e ainda assim eficiente, que mapeiam uma chave num valor (chave, valor) em que a chave é única (Figura 3.5). Na área do alinhamento de sequências, as chaves são representadas por k-mers (palavras de tamanho k), também chamadas de k-grams, e os valores que lhes estão associados são as posições correspondentes em que os k-mers ocorrem na sequência de referência. A maior parte das ferramentas utiliza as tabelas de dispersão para rapidamente obter a posição das seeds. Cada ferramenta escolhe o tamanho k que melhor corresponde às suas necessidades, tendo em conta um valor pré-definido ou um número de erros que o utilizador define. Os tipos de implementação variam bastante, mas a implementação mais comum e mais eficiente é obtida quando cada k-gram é convertida numa representação de bitwise (bit a bit) comprimido que encaixa numa unidade de processamento, ou seja, num número inteiro. Sendo o DNA um alfabeto de tamanho 4, são apenas precisos 2 bits para cada caracter, permitindo que cada combinação de 16 bases seja representada por um número único de 32 bits, resultando num meio rápido e directo de obter uma entrada da tabela. Apesar de o tempo de procura ser O(1), não é tão flexível como as estruturas que serão apresentadas de seguida e, mesmo usando alguns truques como funções de dispersão eficientes, entre outros, no geral, as tabelas de dispersão continuam a requerer muito espaço de armazenamento, para além da sua construção não ser trivial.

40 40 CAPÍTULO 3. ALINHAMENTO DE TRANSCRITOMAS Figura 3.4: Exemplo de uma tabela de dispersão para o texto T = ACGT T T T GCGT A$. As ferramentas RMAP [44], ZOOM [39], SeqMap [45] e SHRiMP [40] usam as tabelas de dispersão para indexar as reads; as ferramentas SOAPv1 [41] e BFAST [42], entre outras, usamnas para indexar o genoma. Árvores de Sufixos As Árvores de Sufixos [53] (suffix trees segundo a terminologia inglesa) foram a primeia estrutura de dados eficiente a permitir encontrar soluções em tempo linear para vários problemas de emparelhamento de strings. O algoritmo de Ukkonen [49] permite a sua construção em tempo e espaço linear. No entanto, quando comparadas com estruturas de dados como as tabelas de sufixos ou como o FM-Index, descritas em seguida, o factor espaço continua a ser consideravelmente maior. Dado um texto T de tamanho n e um alfabeto Σ, seja T [i] o caracter da posição i do texto e seja T [i...j] a substring de T de tamanho (j i + 1) definida da posição i à posição j, com i = 1,..., n e j = i,..., n. Desta forma define-se T [i...n] como o sufixo i de T e T [1...i] como o prefixo i de T. A árvore de sufixos de T é definida, adicionando ao fim de T um símbolo extra $, que não ocorre em Σ e que cujo código é mais pequeno que qualquer um dos seus elementos, ordenando de forma lexicográfica todos os (n + 1) sufixos de T $. De seguida colapsam-se os prefixos comuns de prefixos adjacentes num mesmo nó. Ao nó de onde partem todos os ramos, chama-se raiz. Cada nó interno tem uma etiqueta não vazia e entre dois e ( Σ + 1) nós filhos. Cada nó final sem filhos, ou folha, tem uma etiqueta acabada com o símbolo $(Figura 3.6). A complexidade espacial é O(n). A operação de procura de um padrão P de tamanho m em T pode ser feita em O(m) passos, ou ainda retornar todas as k ocorrências do padrão P no texto T num tempo O(m + k) independente do tamanho de T. Esses passos podem ser optimizados através de estruturas

41 3.1. ALINHAMENTO DE READS CONTRA UM GENOMA DE REFERÊNCIA 41 Figura 3.5: Exemplo de uma árvore de sufixos o texto T = ACACGCT $. Figura 3.6: Exemplo de uma tabela de sufixos para o texto T = ACACGCT $. chamadas suffix links que ligam nós cujas etiquetas representam sufixos consecutivos da mesma substring. Embora não haja conhecimento de uma ferramenta específica que use árvores de sufixos, a sua introdução é importante pois podem ser usadas (embora não obrigatoriamente) para derivar de forma directa as tabelas de sufixos, uma estrutura da mesma família, mas mais eficiente em termos de espaço. Tabelas de Sufixos As Tabelas de Sufixos [54] são definidas através de listas de inteiros que representam as posições iniciais de todos os sufixos, ordenados lexicograficamente, de um texto T $. Por apenas guardar esta lista de posições (números inteiros) e o texto original, as tabelas de sufixos conseguem reduzir o espaço de memória utilizado, quando comparadas com as outras estruturas de dados descritas anteriormente. Esta estrutura pode ser enriquecida se mantiver informação sobre os prefixos comuns mais longos (LCP - longest common prefixes) [55], guardando o número de caracteres iniciais comuns que cada sufixo tem com o anterior (Figura 3.7). O algoritmo de pesquisa usado é o de procura binária com uma complexidade temporal O(m + logn) no pior caso e um texto de tamanho n.

42 42 CAPÍTULO 3. ALINHAMENTO DE TRANSCRITOMAS Figura 3.7: Exemplo da BWT para o texto T = ACACGCT $. BWT/FM-Index A Transformada de Burrows-Wheeler (BWT) [46] foi inicialmente desenvolvida para a compressão de dados e por isso é a estrutura de indexação mais eficiente a nível do espaço ocupado. Existem alguns índices baseados na BWT, um deles o FM-Index. O FM-Index é um índice comprimido baseado na Transformada de Burrows-Wheeler que em termos de memória requer apenas O(n log σ), em que σ é o tamanho do alfabeto (σ = 4 para DNA e σ = 20 para proteínas, por exemplo) [47]. A BWT de um texto consiste na rotação dos caracteres desse texto T $ sendo construída através da ordenação lexicográfica, não de todos os sufixos como nas tabelas e nas árvores de sufixos, mas de todas as rotações cíclicas do texto retirando o último caracter em cada rotação. Também pode ser obtida da tabela de sufixos de T $ definindo BW T [i] = T [SA[i] 1], isto é, o caracter i da BWT de T é o caracter de T localizado na posição imediatamente antes do início do sufixo i, ordenado lexicograficamente, em que SA[i] é a posição i da tabela de sufixos (SA - Suffix Array) (Figura 3.8). Esta estrutura de dados é usada de forma muito eficiente pela última geração de softwares de alinhamento, nomeadamente o Bowtie [50], o TAPyR [56], o BWA [51] e o SOAP2 [57], atingindo velocidades que superam em muito as que utilizam tabelas de dispersão, ao mesmo tempo que consegue consumir muito pouca memória. Esta estrutura de dados revelou-se como a melhor estrutura para lidar com grandes quantidades de dados como é o caso da montagem do genoma de referência humano, por exemplo Bowtie vs TAPyR Os algoritmos Bowtie e TAPyR foram desenhados com um mesmo propósito - alinhar da forma mais rápida, eficiente e economicamente possível as reads geradas pelas tecnologias NGS. Ambos utilizam o FM-Index como método de indexação para o genoma de referência tornando-as, assim, duas das ferramentas de maior sucesso nesta tarefa.

43 3.1. ALINHAMENTO DE READS CONTRA UM GENOMA DE REFERÊNCIA 43 Embora não exista uma comparação documentada entre estes dois algoritmos, durante o desenvolvimento deste projecto e dado o seu contexto, tornou-se oportuno fazer uma análise mais minunciosa de ambos e perceber que vantagens se podem obter mediante a utilização de cada uma. Apesar de ter sido provado que o TAPyR é uma das ferramentas de alinhamento mais rápidas a sequenciar genomas [56], o Bowtie tem sido a ferramenta a que mais se tem recorrido para inserir em pipelines de alinhamento de transcritomas. Após um estudo desses pipelines conclui-se que essa opção deve-se às características que os distinguem. Um dos factores, e talvez o mais determinante, que os diferencia é a plataforma NGS para a qual foram desenhados. Como já foi visto anteriormente, cada tecnologia gera reads de diferentes tamanhos com diferentes tipos de erros. Dados estes factos, tanto o Bowtie como o TAPyR foram desenhados para melhor corresponderem às necessidades de tratamento das reads geradas por diferentes tecnologias. De seguida, são apresentadas as especificidades inerentes a cada um dos softwares, sendo, por fim, feito um pequeno balanço entre os dois. Bowtie e a Tecnologia Illumina O Bowtie foi especialmente concebido para alinhar reads produzidas pela tecnologia Illumina, ou seja, reads de tamanho reduzido. O seu melhor desempenho dá-se quando os fragmentos são de tamanho menor do que 100bp, idealmente no intervalo 35bp-75bp. Sendo as reads muito pequenas, apesar de o algoritmo de pesquisa em estruturas FM-Index ser o Exactmatch desenvolvido por Ferragina e Manzini [48], este sofre algumas alterações, para permitir que os erros e os mismatches sejam tidos em conta durante o alinhamento, baseadas em estratégias de rastreio [50]. Para que o Bowtie possa ter uma elevada performance, o algoritmo assume alguns compromissos que rapidamente são postos à prova se um utilizador mais exigente quiser obter resultados com uma margem de erro mínima. Isto, porque quando existe mais que um alinhamento exacto para uma read, é garantido que o Bowtie reporta um, mas quando se trata de um alinhamento não exacto, não é garantida a qualidade desse alinhamento para todos os casos. No entanto, se o utilizador desejar um aumento da fidelidade do alinhamento, o Bowtie disponibiliza mecanismos de parameterização para tal, com a consequência de um maior custo computacional.

44 44 CAPÍTULO 3. ALINHAMENTO DE TRANSCRITOMAS TAPyR e a Tecnologia Roche/454 A criação do TAPyR veio no contexto de, não obstante existirem já vários algoritmos de alinhamento directo, haver ainda espaço para melhorias. O TAPyR é dos poucos sistemas computacionais preparados para lidar de forma rápida e eficaz com as reads resultantes da plataforma Roche/454, ou seja, com reads de tamanho superior a 100bp e tendo em conta as características dos dados resultantes da pirosequenciação. A abordagem seguida por este algoritmo usa a estrutura FM-Index optimizada para o alfabeto do DNA, juntamente com uma estratégia baseada em seeds flexível [56]. Contrariamente a outras ferramentas de alinhamento baseadas em seeds, a estratégia do TAPyR fornece uma maior flexibilidade ao dispensar a necessidade de previamente definir o número e comprimento das seeds. A sua heurística baseia-se em algumas assumpções razoáveis que são expectáveis dos projectos de sequenciação baseados em pirosequenciação, nomeadamente que os alinhamentos óptimos são, na sua maioria, compostos por grandes blocos de emparelhamentos exactos, intercalados por pequenas regiões contendo possivelmente algumas gaps. Mais, como as reads são de poucas centenas de bases, este assume que as regiões de emparelhamento exacto sejam grandes o suficiente para poderem usar partes destas, as seeds, como espinha dorsal para definir a posição real do alinhamento na sequência de referência ou, pelo menos, para reduzir a quantidade de posições candidatas para esse alinhamento ao ponto de poderem ser tratadas e testadas individualmente. Balanço Final As reads geradas pelas diferentes plataformas de sequenciação requerem cuidados e tratamentos bastante específicos se queremos tirar o maior proveito possível da informação que podem transmitir quando alinhadas. Apesar de o mercado estar inundado de software de alinhamento de short reads, tais como as produzidas pela tecnologia Illumina, até à criação do TAPyR havia uma grande lacuna nos modelos de alinhamento de reads geradas pela pirosequenciação (Roche/454). Apesar de se poder cair na tentação de comparar estes dois métodos de alinhamento de DNA, Bowtie e TAPyR, a verdade é que após uma análise mais profunda chega-se à conclusão que estes acabam por se complementar. O Bowtie só tem uma performance eficiente e rápida para reads inferiores a 100bp e o TAPyR para reads superiores a 100bp. Se se juntar isto ao facto de o TAPyR utilizar as características das reads geradas pela pirosequenciação como base de conhecimento para o desenho do seu algoritmo, torna-se complicado fazer uma comparação directa do desempenho de ambas as ferramentas. Porém, utilizando dados minimamente favoráveis às

45 3.2. MÉTODOS DE IDENTIFICAÇÃO DE PONTOS DE JUNÇÃO 45 duas ferramentas, mesmo assim o TAPyR obtém uma performance um pouco melhor que a do Bowtie. Esta conclusão foi obtida após se ter executado o Bowtie e o TAPyR contra um mesmo genoma de referência, mas em que no caso do Bowtie as reads eram de 36bp e no caso do TAPyR as reads eram de 100bp. Cada pacote de reads, originadas pela tecnologia Illumina, continha à volta de um milhão delas e os tempos e as percentagens de alinhamento para o Bowtie foram: Tempo de Alinhamento - 17 segundos Percentagem de Alinhamento % E para o TAPyR foram: Tempo de Alinhamento - 16 segundos Percentagem de Alinhamento % É de notar que o TAPyR foi executado para alinhar reads Illumina com o tamanho mínimo para uma performance aceitável. Talvez não seja inapropriado extrapolar que com reads 454 e de maior comprimento, a sua performance seria ainda melhor. A baixa percentagem de alinhamento de ambas as ferramentas deve-se ao facto de as reads provirem de uma experiência RNA-Seq que será analisada no Capítulo 5. Relativamente ao alinhamento do transcritoma, como a grande maioria dos dados RNA-Seq disponíveis são Illumina e dado que o Bowtie é, de entre os demais algoritmos de alinhamento exacto, dos mais rápidos e eficientes, este rapidamente se tornou uma primeira opção para os investigadores. No entanto, dada a especificidade do problema de alinhamento do transcritoma e dada a filosofia do alinhamento do TAPyR, é de esperar que este tenha um papel importante a desempenhar com dados RNA-Seq gerados pela Roche/454 ou até por Illumina ou outras plataformas que produzam reads iguais ou superiores a 100bp. 3.2 Métodos de Identificação de Pontos de Junção O fenómeno de splicing de uma sequência de RNA é uma etapa de pós-transcrição muito importante, em que os intrões são removidos do pré-mrna, ficando apenas os exões que são concatenados formando o mrna maduro. Através do splicing alternativo é possível produzir diferentes transcritos a partir da mesma sequência de DNA. Por vezes existem fenómenos

46 46 CAPÍTULO 3. ALINHAMENTO DE TRANSCRITOMAS Figura 3.8: Exemplo de um splice site canónico. anormais de splicing que estão associados a muitas doenças humanas. Por esta razão, torna-se importante para a Biologia e para a Medicina desenvolver técnicas que identifiquem e quantifiquem eventos de splicing, ou seja, técnicas de identificação de pontos de junção entre regiões classificadas como exões e regiões classificadas como intrões. Existem dois tipos de sítios onde o splicing ocorre (splice sites). Os splice sites canónicos que são caracterizados pelos dinucleótidos GT-AG (Figura 3.9), e os splice sites não canónicos. Nesta última categoria conhecem-se já alguns pontos de junção que podem ocorrer sendo os pares GC-AG e AT-AC os mais frequentes. Num estudo feito em genomas de mamíferos por Burset [30], conclui-se que, no geral, 99.24% dos splice sites seriam canónicos (par GT- AG ) e entre os não canónicos a distribuição seria, 0.69% para o par GC-AG, 0.05% para o par AT-AC e apenas 0.02% consistiriam em splice sites com outras características. Nos dados obtidos através do RNA-Seq, esta situação reflecte-se quando uma read contém partes de mais do que um exão, sendo necessário identificar que partes da read pertencem a que exão, identificando as fronteiras entre os exões e os intrões. Não existe um método padrão para a identificação destas fronteiras, nem um conjunto de factos concretos que nos permitam identificar todos estes pontos no genoma. Esta falta de conhecimento sobre os verdadeiros modelos biológicos, dificulta em muito o desenvolvimento de uma ferramenta com uma eficácia inquestionável. No entanto, existe um conjunto de métodos que tentam identificar estes limites de transcrição da forma mais fiel possível. Alguns baseiam-se na identificação dos pares de bases, ou os chamados terminais de dinucleótidos, que se sabem ser característicos daquelas zonas e que foram mencionados acima, enquanto que outros têm como base scores resultantes de um dado alinhamento e ainda existem métodos que utilizam uma combinação destes dois últimos. Veremos, de seguida, quais as

47 3.2. MÉTODOS DE IDENTIFICAÇÃO DE PONTOS DE JUNÇÃO 47 Figura 3.9: Pipeline do QPalma [31]. ferramentas que utilizam estes métodos QPalma Um dos métodos pioneiros nesta área foi explorado pelo algoritmo QPalma [31] (Figura 3.10), que tenta identificar os pontos de junção através de aprendizagem automática, treinando um classificador de pontos de junção já conhecidos do genoma de referência. Este método depende da disponibilidade de pontos de junção já anotados e, quando encontra potenciais novos pontos de junção, estes são forçosamente parecidos com os do conjunto de treino, podendo falhar na identificação de pontos que tenham características diferentes, não sendo um método muito fiável. Outro factor que fez este algoritmo não ter muito sucesso foi o facto de utilizar o método Vmatch [32] como algoritmo de alinhamento inicial. Apesar de ser fléxivel e rápido, não foi desenhado para mapear pequenas reads em sistemas computacionais com menor memória, sendo substancialmente mais lento do que outros algoritmos de mapeamento de reads SpliceMap Outra abordagem é a explorada pelo SpliceMap [58] (Figura 3.11), que é um algoritmo que não depende de anotação existente de zonas exónicas. Este método começa por assumir que uma read que se estende por um ponto de junção, ou seja, que cobre parte de dois exões, deve ter uma correspondência directa, no genoma, de comprimento igual ou superior a metade do seu. Por norma, as reads são divididas de forma a terem no máximo 50bp. Tal correspondência faz com que essa parte sirva de seed para identificar regiões de splicing. O SpliceMap é composto por três etapas principais: Mapeamento de half-reads (as reads são divididas em fragmentos com metade do seu tamanho); Selecção de seeds; Procura de pontos de junção. Tal como a maioria dos métodos até agora publicados, começa por tentar alinhar as half-reads contra um

48 48 CAPÍTULO 3. ALINHAMENTO DE TRANSCRITOMAS Figura 3.10: Pipeline do SpliceMap [58]. genoma de referência usando o Bowtie [50], Eland ou o SeqMap [45] (Mapeamento de half-reads). Numa segunda fase, as half-reads mapeadas são unidas para determinar a localização de exões e possíveis junções (Selecção de seeds). As half-reads não mapeadas são usadas para procurar por pontos de junção. Esta procura é feita, à semelhança do método anterior, através da procura de sítios canónicos caracterizados apenas pelo par GT-AG TopHat Um outro método surgiu com o desenvolvimento do algoritmo TopHat [33] (Figura 3.12), baseando-se em cobertura de ilhas. O TopHat encontra pontos de junção sem uma anotação de referência, ou seja, sem conhecimento prévio de fronteiras existentes. Começa por mapear as reads de RNA-Seq no genoma, identificando possíveis exões pois algumas reads alinham de forma contígua no genoma. Após este mapeamento inicial, o TopHat constrói uma base de dados de possíveis pontos de junção, mapeando de seguida as reads contra estes, confirmando-os. A base de dados é gerada em função de três abordagens. A primeira consiste em emparelhamentos de cobertura de ilhas, que são regiões distintas onde as reads foram alinhadas no mapeamento inicial. Como normalmente o splicing acontece entre ilhas vizinhas, o TopHat tenta arranjar maneira de as juntar com um intrão. A segunda abordagem é apenas usada quando o TopHat recebe paired-end reads como dados de entrada. Quando as reads pertencentes ao mesmo par vêm de diferentes exões de um transcrito, por norma serão mapeadas a uma distância considerável nas coordenadas espaciais do genoma. Quando isto acontece, o TopHat tenta fechar este espaçamento, procurando por subsequências do intervalo genómico entre pares cujo com-

49 3.2. MÉTODOS DE IDENTIFICAÇÃO DE PONTOS DE JUNÇÃO 49 Figura 3.11: Pipeline do TopHat [33]. Figura 3.12: Pipeline do MapSplice [59]. primento total seja mais ou menos igual à distância esperada entre pares. Os intrões nesta subsequência são adicionados à base de dados. A terceira, e mais forte, identificação de um ponto de junção acontece quando dois segmentos da mesma read são mapeadas longe uma da outra, ou quando um segmento interno falha o mapeamento. Com long reads (com mais de 75bp), intrões do tipo GT-AG, GC-AG e AT-AC podem ser encontrados ab initio. Com reads mais pequenas, o TopHat apenas reporta alinhamentos apenas contra intrões GT-AG. Estes alinhamentos são feitos através de uma abordagem de alinhamento seed-and-extend, explicado na secção anterior.

50 50 CAPÍTULO 3. ALINHAMENTO DE TRANSCRITOMAS MapSplice Existe ainda outra abordagem que surgiu com o MapSplice [59] (Figura 3.13). Enquanto que o TopHat [33] e o SpliceMap [58] precisam de uma biblioteca de pontos de junção ou se baseiam em características empíricas das fronteiras exão/intrão (como os terminais de dinucleótidos de intrões GT-AG ), o MapSplice detecta pontos de junção sem depender disso. Isto permite que o MapSplice consiga detectar pontos de junção não canónicos. A pipeline do MapSplice é constituída por duas fases: alinhamento de segmentos e inferência de pontos de junção. Na primeira fase existem quatro passos. No primeiro, as reads são divididas em segmentos de 20-25bp (para uma read de tamanho m, os segmentos terão tamanho k com k m/2). Os segmentos que compõem cada read formam uma tag T e cada segmento é marcado como t 1, t 2,..., t n, com n = m/k. No segundo passo é feito um alinhamento exónico com ferramentas como o BWA [51] ou o Bowtie [50] determinando para cada t i de T um valor n i que corresponde ao número de alinhamentos exónicos possíveis. De seguida, são identificados os t i cujo n i = 0, isto é, as tags que não alinharam. Para obter o posicionamento destas tags é necessário procurar pelo alinhamento de t i 1 e t i+1 e aí surgem duas situações principais. Se t i 1 e t i+1 têm um alinhamento exónico, então é calculado o melhor posicionamento para t i com base na distância de Hamming. Se houverem várias posições com o score mínimo, então são guardados os múltiplos alinhamentos para t i. Se apenas t i 1 ou t i+1 têm alinhamentos exónicos, então a localização de t i será baseada na procura de sufixos h-mer no limite inferior ou superior de t i, respectivamente. Por fim, os segmentos são montados (os que alinham de forma contígua) de todas as formas possíveis, dados os múltiplos alinhamentos possíveis, e é calculado um score de mismatches para cada montagem. Terminada esta fase passa-se para a inferência de pontos de junção em que primeiro calcula-se a qualidade do ponto de junção segundo um determinado score, escolhendo-se por fim o melhor alinhamento das tags através da combinação desse score com o que foi calculado anteriormente.

51 4 Novo Metodo de Alinhamento de Transcritomas Nos capítulos anteriores foram descritos, com algum detalhe, todos os conceitos necessários à compreensão do problema do alinhamento do transcritoma, tal como alguns métodos já existentes que o tentam resolver. Todas as soluções analisadas até ao momento, têm em comum uma espécie de esqueleto em forma de pipeline computacional. Isto é, dado um conjunto de reads, começam por alinhar as reads que têm correspondência directa na sequência de referência, utilizando um dos algoritmos de alinhamento directo como o Bowtie ou o BWA, guardando as que não conseguiram ser alinhadas. Nesta fase, e consoante a abordagem, são definidas algumas heurísticas/estratégias, para fazer o alinhamento dessas reads (Secção 3.2). O conceito de pipeline computacional para alinhamento de transcritomas, no contexto dos algoritmos desenvolvidos até agora como o MapSplice ou o TopHat, seria extremamente atractivo e bem aproveitado se fosse tão flexível como era suposto ser, permitindo que o utilizador escolhesse qual o algoritmo de alinhamento directo que deseja utilizar. Aliás, várias destas pipelines, nas suas publicações oficiais, dizem permitir isso mesmo, mas a realidade não é assim tão linear. Um dos objectivos iniciais deste trabalho consistia em adaptar o algoritmo TAPyR, por todas as razões discutidas na Secção 3.1.3, a uma destas pipelines de forma a observar até que ponto o desempenho poderia melhorar e, posteriormente, desenvolver heurísticas que permitissem tirar o melhor partido possível das características do TAPyR. Tal não foi possível e, na Secção 4.1, encontra-se um estudo sobre o funcionamento dessas pipelines, as suas limitações e de que forma poderiam ser melhoradas. Após uma primeira tentativa, sem sucesso, de colocar o TAPyR a alinhar transcritomas inserindo-o numa pipeline destinada a tal, a opção seguinte foi de o tornar num método que, mediante a opção do utilizador, pudesse alinhar genomas e/ou transcritomas. Aqui abandonouse o conceito de pipeline e criou-se um novo método inovador e flexível, cuja estrutura e método de funcionamento se encontram explicados na Secção

52 52 CAPÍTULO 4. NOVO MÉTODO DE ALINHAMENTO DE TRANSCRITOMAS 4.1 Problemas em Relação às Pipelines Existentes Do ponto de vista computacional, quando se pretende criar software que irá conter vários blocos de execução distintos em que os resultados de saída de um servem como dados de entrada de outro, opta-se por construir uma pipeline de forma a modularizar o problema. No caso das pipelines associadas ao alinhamento de transcritomas, os módulos, na sua maioria, consistem no seguinte: um primeiro para o alinhamento directo; um para uma possível fase intermédia em que existe um tratamento dos dados obtidos através do módulo anterior; outro para o alinhamento das reads, tratadas ou não, que ficaram por alinhar. Quando se tentou integrar o TAPyR na pipeline do MapSplice, a realidade desta mostrou-se um pouco diferente do esperado. O objectivo era substituir o algoritmo de alinhamento directo desta pipeline e era expectável que tal fosse possível. No entanto, apesar de na publicação oficial do MapSplice constar que numa fase inicial se pode utilizar qualquer algoritmo de alinhamento directo desde que este respeite determinados critérios [59], quando se analisou e se tentou mudar o seu código para testar essa flexibilidade, o resultado não foi favorável. Isto vai de encontro, em parte, aos desafios para a Bioinformática descritos na Secção 2.4. Um dos problemas apontados foi não haver um formato padrão de ficheiros de dados de entrada e saída, pois cada software de alinhamento manipula os ficheiros da forma mais conveniente para o seu funcionamento. Por exemplo, o Bowtie requer que definamos nome e directoria para o ficheiro das reads não alinhadas enquanto que o TAPyR guarda esse ficheiro na pasta onde estas se encontram e cujo nome é o original procedido de -unaligned. Mesmo no ficheiro de saída de dados, o que contém os alinhamentos, difere de um algoritmo para outro. Enquanto que o TAPyR imprime os dados em formato SAM [60], um dos formatos que pode ser considerado padrão e dos mais utilizados, o Bowtie imprime os resultados num formato próprio [50] permitindo, porém, que sejam escritos em formato SAM sendo, para tal, necessário ter as SAMtools instaladas [60] e colocar essa opção como argumento de entrada a cada execução. Estes pormenores, apesar de parecerem irrelevantes para o resultado final, acabam por ser determinantes no desenho de uma pipeline. No caso do MapSplice, o Bowtie está de tal maneira embutido na sua arquitectura que se mostrou bastante complicado fazer qualquer tipo de modificação que envolvesse a sua substituição. O MapSplice é basicamente composto por uma interface, desenvolvida em Python, que através de chamadas ao sistema executa vários módulos, escritos em C++. Dada esta modularidade era então esperado que fosse fácil fazer alterações à sua estrutura o que não é, de todo, verdade. As várias camadas foram preparadas apenas para os ficheiros do Bowtie não havendo um módulo de abstração para possível uniformização

53 4.2. CRIAÇÃO DE UMA NOVA ABORDAGEM 53 de formatos. Por todas estas razões, a inserção do TAPyR na pipeline do MapSplice não foi bem sucedida. Feita esta análise, surge a conclusão a que já se chegou na Secção 2.4. É importante que os algoritmos de sequenciação adotpem formatos e extensões padrão, deixando em aberto possíveis opções, na forma de argumentos de entrada da apliacação, para o utilizador que pretenda outros formatos que não os devolvidos. 4.2 Criação de Uma Nova Abordagem Com a evolução das tecnologias NGS e das ferramentas que permitem lidar com os dados que geram, tornou-se ainda mais urgente tirar partido delas para se obter a máxima informação biológica das espécies sequenciadas. Seja em relação a mamíferos, plantas ou bactérias, os vários RNAs presentes nos genomas têm efeito imediato nas proteínas a que dão origem. Muitas vezes ocorrem mutações que mudam as propriedades dos organismos levando a que estes tenham comportamentos inesperados. Todos estes factos fazem com que seja fundamental existirem ferramentas que possam servir como base para a identificação destes fenómenos. Isso implica que possam suportar grandes volumes de dados, como por exemplo o genoma humano, e ainda extrair informação de forma rápida e económica. Dados os vários sequenciadores NGS que geram dados com diferentes características, quando se desenvolve uma aplicação para este tipo de problemática tende-se a construir uma arquitectura vocacionada para lidar com um tipo específico de dados. É muito pouco provável que um mesmo algoritmo consiga alinhar de forma eficiente reads longas e outras mais pequenas. Na Secção acabou por se chegar a essa mesma conclusão quando se comparou o Bowtie e o TAPyR - estes acabavam por se complementar no que diz respeito à sua eficiência em relação ao tamanho das reads que alinham. Para o alinhamento de transcritomas, actualmente existem maioriamente ferramentes desenvolvidas para lidar com as short reads da tecnologia Illumina. Como tal, e porque o TAPyR é um dos poucos algoritmos preparados para lidar com reads longas, como as da plataforma 454, foi de todo o interesse tentar com que este tivesse um papel a desempenhar com dados RNA-Seq. O TAPyR é um dos algoritmos de alinhamento mais rápidos e que ocupa menos memória quando comparado com outros do mesmo tipo [56]. Como tal, e dado que a sua adaptação a pipelines de alinhamento de transcritomas não foi possível, tornou-se oportuno tirar partido das suas características para se criar um novo modelo para um alinhamento rápido, eficaz e credível

54 54 CAPÍTULO 4. NOVO MÉTODO DE ALINHAMENTO DE TRANSCRITOMAS de transcritomas. Todas as abordagens até agora seguidas pelas plataformas revistas na Secção 3.2, envolvem o encadeamento e uma ordem de acontecimentos mais ou menos rígidos: primeiro faz-se um alinhamento exónico e depois tentam-se encaixar as reads que não foram alinhadas mediante uma estratégia e/ou um conjunto de heurísticas estudado. Com a análise do funcionamento do TAPyR surgiu uma questão que, dependendo da resposta, poderia servir como impulso para a construção de uma nova abordagem para o alinhamento dos fragmentos de cdna. Como em qualquer outro algoritmo de alinhamento, quando todos os critérios para alinhar uma read são esgotados e, mesmo assim, não foi possível encontrar a sua correspondência na referência, esta é descartada ficando por alinhar. É o conjunto destas reads não alinhadas que algumas abordagens usam, mais tarde, para posterior alinhamento e pesquisa de pontos de junção. Porque não, quando se está para descartar uma read, verificar nesse momento se esta é resultado do fenómeno de splicing? Dada a estratégia baseada em seeds do TAPyR, tal mostrou-se possível e vantajoso. Nas próximas secções serão apresentadas as propriedades de desenho deste algoritmo que levaram à sua adaptação para o alinhamento de dados RNA-Seq, como é que tal foi implementado, as vantagens que daí se podem obter e as suas limitações Adaptação do TAPyR ao Alinhamento de Transcritomas Várias ferramentas de alinhamento têm sido desenvolvidas para a montagem de pequenas reads. No entanto, a quantidade massiva de dados gerada pelas tecnologias NGS e a necessidade de alinhar reads contra genomas de referência cada vez maiores, limitam a aplicabilidade de algumas. Uma forma de acelerar o alinhamento das reads baseia-se na utilização de técnicas de indexação aproximadas (Secção 3.1.3). Isto quer dizer que toda a sequência de referência é pesquisada enquanto se aplica um algoritmo de programação dinâmica. Algoritmos de alinhamento indexados, que pré-processam o genoma de referência numa estrutura de dados em forma de índice que depois pode ser pesquisada, correspondem a abordagens mais eficientes. O TAPyR é um desses algoritmos e usa um índice comprimido, o FM-Index (Secção 3.2.1), indexando o genoma de referência para acelerar o alinhamento. Tal como foi dito anteriormente, o TAPyR usa uma heurística baseada em múltiplas seeds para melhor fixar os respectivos candidatos a alinhamento. Também como já foi visto, esta heurística tem a vantagem de dispensar a necessidade de determinar antecipadamente o número e o comprimento das seeds, recorrendo

55 4.2. CRIAÇÃO DE UMA NOVA ABORDAGEM 55 Figura 4.1: Selecção de seeds do TAPyR. à assumpção que os alinhamentos óptimos são, na sua maioria, compostos por grandes blocos de correspondências exactas espaçadas por pequenas, possívelmente com algumas gaps, regiões divergentes. Numa última fase é usada programção dinâmica para finalizar o alinhamento das seeds candidatas com múltiplos alinhamentos, considerando restrições definidas pelo utilizador. Utilizando todas as vantagens deste modelo computacional, a adaptação do TAPyR para o alinhamento do transcritoma consistiu na criação de um novo módulo que, em momento oportuno, é executado, identificando se existe ou não evidência de splicing na read a ser alinhada. Este momento oportuno depende de dois factores: o utilizador ter definido que estamos em modo RNA através de um argumento aquando da execução do TAPyR e da read em questão não ter conseguido ser alinhada de forma directa no genoma de referência. Enquanto que todos os métodos computacionais que vimos na Secção 3.2 acabam por dividir as reads em dois grupos, alinhadas e não alinhadas, tendo que analisar uma segunda vez o segundo conjunto de reads, o TAPyR faz tudo de forma sequencial. O módulo desenvolvido para a identificação de splicing identifica splice sites caónicos e não canónicos. Isto é, procura pelo par canónico GT-AG e pelos pares não canónicos GC-AG e AT-AC. De seguida, encontra-se a implementação descrita de forma mais detalhada. Implementação Para ser possível colocar o TAPyR a alinhar dados de RNA de forma sequencial, algumas adaptações tiveram que ser feitas ao algoritmo inicial. Essas alterações vão estar indicadas com o símbolo =. O processamento das reads decorre da seguinte maneira: seja r = r[1]...r[m] a read a alinhar. O procedimento começa na primeira posição da read e usa o índice para encontrar o maior prefixo da read com ocorrência exacta no genoma de referência, r[1...l] = r[1]...r[l]. Na prática, obtémse o equivalente ao intervalo da BWT que contém as posições no genoma de referência g em que r[1...l] ocorre. Como r[1...l + 1] não existe no genoma de referência, define-se r[1...l] como

56 56 CAPÍTULO 4. NOVO MÉTODO DE ALINHAMENTO DE TRANSCRITOMAS Figura 4.2: Formação de chains do TAPyR. a primeira seed, salta-se a posição r[l + 1] na read e começa-se a construção de uma nova seed na posição r[l + 2]. Este processo repete-se até ter sido atingido o fim da read r[m]. Na Figura 4.1 está ilustrada a construçao das seeds para a read de exemplo. Depois deste processamento feito vão-se buscar todas as ocorrências, isto é, todas as posições na sequência de referência de todas as seeds, procedendo com a ordenação por posição das mesmas. Daqui surge uma lista ordenada de ocorrências que é logo de seguida analisada com o objectivo de identificar as seeds que aparecem na mesma ordem e com distâncias semelhantes na read e no genoma de referência. = Se as reads forem de transcritoma, quando as seeds não têm uma distância parecida na read e no genoma isto pode significar que existe um intrão a separá-las, ou seja, que pode ter ocorrido splicing naquela read. Essa distância é analisada e se estiver dentro dos limites mínimo e máximo, valores default ou definidos pelo utilizador, o módulo de identificação de pontos de junção é chamado. Os conjuntos de ocorrências de seeds que satisfaçam essas condições formam chains, isto é, possíveis candidatos de ocorrências da read no genoma (Figura 4.2). Se o alinhamento for de DNA, são seleccionadas as chains cuja soma dos comprimentos das seeds que as constituem é a maior, e faz-se programação dinâmica nos espaços entre as seeds para se identificar o número de erros. Se esse número de erros, respectivo a uma dada chain, for menor que o número máximo de erros, a sua posiçao no genoma é escrita no ficheiro SAM de output. = Se o alinhamento for de RNA e tiver sido identificado o fenómeno de splicing pelo novo módulo, não se faz programação dinâmica e indica-se logo o intrão no ficheiro SAM com o código N e o tamanho do espaço entre essas seeds. Uma das propriedades desta implementação é que as chains não precisam de conter todas as seeds, podem ter só algumas. Por exemplo, a read pode ter dado origem a três seeds, mas

57 4.2. CRIAÇÃO DE UMA NOVA ABORDAGEM 57 Figura 4.3: Fluxograma do TAPyR. a chain só conter a primeira e a terceira seeds, sendo talvez necessário realizar programação dinânima no espaço onde deveria estar a segunda seed. = No alinhamento de RNA, quando um intrão aparece antes ou depois de uma seed em falta, não se consegue alinhar essa read pois seria necessário fazer programação dinâmica de ambos os extremos para se ver em que lado é que os caracteres da read iam encaixar. Se uma read não tiver nenhum erro, dá origem a apenas uma seed e por isso haverá apenas uma chain por cada ocorrência no genoma. Este é o funcionamento global do algoritmo TAPyR tanto para o alinhamento de DNA como de RNA (Figura 4.3). Segue-se a descrição do módulo criado para a identificação de pontos de junção. Módulo de Identificação de Splicing O módulo de identificação de splicing recebe seis argumentos: o genoma (genome), a read (read), a posição onde começa o gap na read (gapstartinread), a posição onde termina o gap

58 58 CAPÍTULO 4. NOVO MÉTODO DE ALINHAMENTO DE TRANSCRITOMAS Figura 4.4: Caso 1 gapsizeinread = 0 e Caso 2 gapsizeinread > 0. na read (gapendinread), a posição onde tem início o gap no genoma (gapstartingenome) e a posição onde termina o gap no genoma (gapendingenome). Recebidos estes argumentos são calculados os tamanhos dos gaps tanto na read como no genoma, ou seja, o gapsizeinread e o gapsizeingenome. Quando este módulo é chamado é necessário ter em atenção dois casos (Figura 4.4): Caso 1 - gapsizeinread = 0. Caso 2 - gapsizeinread > 0. No primeiro caso, o algoritmo vai apenas verificar se nas posições iniciais e finais do gap no genoma contém os sinais de splicing considerados. Se algum desses pares estiver presente é porque existe evidência de splicing e tal é reportado. O segundo caso não é assim tão simples. Quando gapsizeinread > 0, isto significa que houve algum pedaço da read que não foi alinhado e por isso é necessário saber se encaixa em algum dos lados do genoma. Seja, g = gapstartingenome e r = gapstartinread, o emparelhamento é feito através da comparação directa, genome[g] == read[r], até gapsizeinread = 0 ou genome[g] read[r]. Caso se verifique a segunda condição e gapsizeinread > 0, tenta-se alinhar a partir do fim da gap, ou seja, g = gapstartendgenome e r = gapstartendread, fazendo-se o emparelha-

59 4.2. CRIAÇÃO DE UMA NOVA ABORDAGEM 59 Figura 4.5: Vizinhanças, no genoma de referência, considerada para a procura dos pontos de junção. mento genome[g] == read[r] até gapsizeinread = 0 ou genome[g] read[r]. Acabado o alinhamento procuram-se os sinais de splicing e se encontrados, é reportada a evidência de splicing. Quando estes dois casos falham, um último teste é feito. Dado que o TAPyR cria as seeds pesquisando a read no índice da referência por ordem inversa, da direita para a esquerda, pode ocorrer a situação em que a segunda seed dessa read contenha caracteres que poderiam fazer parte da primeira seed. Isto é, os primeiros caracteres da segunda seed têm correspondência no genoma em dois locais: no fim da primeira seed e onde a segunda seed encaixa. Consequentemente, após a análise de várias ocorrências deste caso, foi verificado que se essa parte, comum aos dois locais no genoma, estivesse alinhada logo após à primeira seed, seria possível identificar evidências de splicing nessa read. Para se resolver esta questão, após os dois casos acima mencionados terem falhado, o algoritmo tenta alinhar no genoma de referência, logo após a primeira seed, correspondências directas dos caracteres da segunda seed. Quando esse alinhamento acaba, caso hajam essas ocorrências, procuram-se os sinais de splicing e se encontrados reporta a evidência de splicing. Em qualquer uma das situações acima descritas, sempre que é chamada a função de procura de pontos de junção são considerados três casos (Figura 4.5). Seja S = gapstartingenome e E = gapendingenome, os pontos de junção podem encontrar-se nas seguintes posições: Caso 1 - genome[s, S + 1] && genome[e 1, E] Caso 2 - genome[s 1, S] && genome[e 2, E 1] Caso 3 - genome[s + 1, S + 2] && genome[e, E + 1] O Caso 1 é sempre o primeiro a ser verificado pois é o que tem maioritariamente ocorrência. Se a verificação deste falhar, testam-se os outros dois casos. Esta consideração é tida em conta pois, se repararmos nos pares GT-AG e GC - AG, tanto o primeiro caracter do primeiro

Replicação Quais as funções do DNA?

Replicação Quais as funções do DNA? Replicação Quais as funções do DNA? Aula nº 4 22/Set/08 Prof. Ana Reis Replicação O DNA é a molécula que contém a informação para todas as actividades da célula. Uma vez que as células se dividem, é necessário

Leia mais

Hoje estudaremos a bioquímica dos ácidos nucléicos. Acompanhe!

Hoje estudaremos a bioquímica dos ácidos nucléicos. Acompanhe! Aula: 2 Temática: Ácidos Nucléicos Hoje estudaremos a bioquímica dos ácidos nucléicos. Acompanhe! Introdução: Os ácidos nucléicos são as moléculas com a função de armazenamento e expressão da informação

Leia mais

DO GENE À PROTEÍNA ALGUNS CONCEITOS BASICOS COMO SE ORGANIZAM OS NUCLEÓTIDOS PARA FORMAR O DNA?

DO GENE À PROTEÍNA ALGUNS CONCEITOS BASICOS COMO SE ORGANIZAM OS NUCLEÓTIDOS PARA FORMAR O DNA? DO GENE À PROTEÍNA O processo de formação das proteínas no ser humano pode ser difícil de compreender e inclui palavras e conceitos que possivelmente nos são desconhecidos. Assim, vamos tentar explicar

Leia mais

ÁCIDOS NUCLEÍCOS RIBOSSOMO E SÍNTESE PROTEÍCA

ÁCIDOS NUCLEÍCOS RIBOSSOMO E SÍNTESE PROTEÍCA ÁCIDOS NUCLEÍCOS RIBOSSOMO E SÍNTESE PROTEÍCA ÁCIDOS NUCLÉICOS: Moléculas orgânicas complexas, formadas polimerização de nucleotídeos (DNA e RNA) pela Contêm a informação que determina a seqüência de aminoácidos

Leia mais

Equipe de Biologia. Biologia

Equipe de Biologia. Biologia Aluno (a): Série: 3ª Turma: TUTORIAL 5B Ensino Médio Equipe de Biologia Data: Biologia Ácidos nucléicos Os ácidos nucléicos são moléculas gigantes (macromoléculas), formadas por unidades monoméricas menores

Leia mais

MEDICINA VETERINÁRIA. Disciplina: Genética Animal. Prof a.: D rd. Mariana de F. Gardingo Diniz

MEDICINA VETERINÁRIA. Disciplina: Genética Animal. Prof a.: D rd. Mariana de F. Gardingo Diniz MEDICINA VETERINÁRIA Disciplina: Genética Animal Prof a.: D rd. Mariana de F. Gardingo Diniz TRANSCRIÇÃO DNA A transcrição é o processo de formação de uma molécula de RNA a partir de uma molécula molde

Leia mais

MEDICINA VETERINÁRIA. Disciplina: Genética Animal. Prof a.: Drd. Mariana de F. G. Diniz

MEDICINA VETERINÁRIA. Disciplina: Genética Animal. Prof a.: Drd. Mariana de F. G. Diniz MEDICINA VETERINÁRIA Disciplina: Genética Animal Prof a.: Drd. Mariana de F. G. Diniz Gene, é a unidade fundamental da hereditariedade. Cada gene é formado por uma sequência específica de ácidos nucléicos

Leia mais

Núcleo Celular. Biomedicina primeiro semestre de 2012 Profa. Luciana Fontanari Krause

Núcleo Celular. Biomedicina primeiro semestre de 2012 Profa. Luciana Fontanari Krause Núcleo Celular Biomedicina primeiro semestre de 2012 Profa. Luciana Fontanari Krause Núcleo Celular Eucarioto: núcleo delimitado por membrana nuclear (carioteca) Portador dos fatores hereditários e controlador

Leia mais

Princípios moleculares dos processos fisiológicos

Princípios moleculares dos processos fisiológicos 2012-04-30 UNIVERSIDADE AGOSTINHO NETO FACULDADE DE CIÊNCIAS DEI-BIOLOGIA ---------------------------------------------- Aula 5: Princípios moleculares dos processos fisiológicos (Fisiologia Vegetal, Ano

Leia mais

O fluxo da informação é unidirecional

O fluxo da informação é unidirecional Curso - Psicologia Disciplina: Genética Humana e Evolução Resumo Aula 3- Transcrição e Tradução Dogma central TRANSCRIÇÃO DO DNA O fluxo da informação é unidirecional Processo pelo qual uma molécula de

Leia mais

DNA E SÍNTESE PROTEICA

DNA E SÍNTESE PROTEICA Genética Animal DNA e síntese proteica 1 DNA E SÍNTESE PROTEICA Estrutura do DNA: -Molécula polimérica, cujos monômeros denominam-se nucleotídeos. -Constituição dos nucleotídeos: açúcar pentose (5 -desoxirribose)

Leia mais

O DNA é formado por pedaços capazes de serem convertidos em algumas características. Esses pedaços são

O DNA é formado por pedaços capazes de serem convertidos em algumas características. Esses pedaços são Atividade extra Fascículo 2 Biologia Unidade 4 Questão 1 O DNA é formado por pedaços capazes de serem convertidos em algumas características. Esses pedaços são chamados de genes. Assinale abaixo quais

Leia mais

Sequenciamento de DNA

Sequenciamento de DNA Sequenciamento de DNA Figure 8-50a Molecular Biology of the Cell ( Garland Science 2008) Método de Sanger Reação de síntese de DNA por uma DNA polimerase A incorporação de um dideoxinucleotídeo interrompe

Leia mais

As bactérias operárias

As bactérias operárias A U A UL LA As bactérias operárias Na Aula 47 você viu a importância da insulina no nosso corpo e, na Aula 48, aprendeu como as células de nosso organismo produzem insulina e outras proteínas. As pessoas

Leia mais

ACESSO VESTIBULAR QUESTÕES DE PROCESSAMENTO DE RNA OU SPLICING 01. (MAMA 2007.1) PÁGINAS OCULTAS NO LIVRO DA VIDA

ACESSO VESTIBULAR QUESTÕES DE PROCESSAMENTO DE RNA OU SPLICING 01. (MAMA 2007.1) PÁGINAS OCULTAS NO LIVRO DA VIDA ACESSO VESTIBULAR QUESTÕES DE PROCESSAMENTO DE RNA OU SPLICING 01. (MAMA 2007.1) PÁGINAS OCULTAS NO LIVRO DA VIDA Os biólogos supunham que apenas as proteínas regulassem os genes dos seres humanos e dos

Leia mais

Sequenciamento de genomas

Sequenciamento de genomas Sequenciamento de genomas 1 o genoma completo vírus OX174 5.000 nt (Sanger et al. 1977) em 1977 1000 pb sequenciados por ano neste ritmo genoma E. coli K-12 4.6-Mbp levaria mais de 1000 anos para ser completo

Leia mais

COMUNICAÇÃO DA INFORMAÇÃO NAS MOLÉCULAS DE DNA E RNA

COMUNICAÇÃO DA INFORMAÇÃO NAS MOLÉCULAS DE DNA E RNA COMUNICAÇÃO DA INFORMAÇÃO NAS MOLÉCULAS DE DNA E RNA Andréia Cristina Hypólito José 11075810 Fernando Caldas Oliveira 11085410 Giovana Zaninelli 11017210 Renato Fernandes Sartori 11061110 Rodrigo de Mello

Leia mais

Bioinformática Aula 01

Bioinformática Aula 01 Bioinformática Aula 01 Prof. Ricardo Martins Ramos * * Doutorando em Genética e Toxicologia Aplicada CEFET-PI/ULBRA-RS Linha de Pesquisa Bioinformática Estrutural E-mail: ricardo@cefetpi.br Visão Holística

Leia mais

BANCO DE QUESTÕES - BIOLOGIA - 1ª SÉRIE - ENSINO MÉDIO ==============================================================================================

BANCO DE QUESTÕES - BIOLOGIA - 1ª SÉRIE - ENSINO MÉDIO ============================================================================================== PROFESSOR: Leonardo Mariscal BANCO DE QUESTÕES - BIOLOGIA - 1ª SÉRIE - ENSINO MÉDIO ============================================================================================== Ácidos Nucleicos 01- Os

Leia mais

EXAME DE BIOLOGIA Prova de Acesso - Maiores 23 Anos (21 de Abril de 2009)

EXAME DE BIOLOGIA Prova de Acesso - Maiores 23 Anos (21 de Abril de 2009) INSTITUTO POLITÉCNICO DE BEJA EXAME DE BIOLOGIA Prova de Acesso - Maiores 23 Anos (21 de Abril de 2009) Nome do Candidato Classificação Leia as seguintes informações com atenção. 1. O exame é constituído

Leia mais

ISO 9000:2000 Sistemas de Gestão da Qualidade Fundamentos e Vocabulário. As Normas da família ISO 9000. As Normas da família ISO 9000

ISO 9000:2000 Sistemas de Gestão da Qualidade Fundamentos e Vocabulário. As Normas da família ISO 9000. As Normas da família ISO 9000 ISO 9000:2000 Sistemas de Gestão da Qualidade Fundamentos e Vocabulário Gestão da Qualidade 2005 1 As Normas da família ISO 9000 ISO 9000 descreve os fundamentos de sistemas de gestão da qualidade e especifica

Leia mais

Bases Moleculares da Hereditariedade

Bases Moleculares da Hereditariedade UNIVERSIDADE FEDERAL DO PIAUÍ CENTRO DE CIÊNCIAS AGRÁRIAS PROG. DE PÓS GRAD. EM GENET. E MELHORAMENTO NÚCLEO DE ESTUDOS EM GENET. E MELHORAMENTO Bases Moleculares da Hereditariedade Ministrante: João Paulo

Leia mais

Organização do Material Genético nos Procariontes e Eucariontes

Organização do Material Genético nos Procariontes e Eucariontes Organização do Material Genético nos Procariontes e Eucariontes Organização do Material Genético nos Procariontes e Eucariontes Procariontes Eucariontes Localização Organização Forma Disperso no citoplasma

Leia mais

> ESTUDO DO RNA. (C) O ácido nucléico I é DNA e o II, RNA. (D) O ácido nucléico I é RNA e o II, DNA. (E) I é exclusivo dos seres procariontes.

> ESTUDO DO RNA. (C) O ácido nucléico I é DNA e o II, RNA. (D) O ácido nucléico I é RNA e o II, DNA. (E) I é exclusivo dos seres procariontes. Biologia > Citologia > Sintese Protéica > Alunos Prof. Zell (biologia) (C) O ácido nucléico I é DNA e o II, RNA. (D) O ácido nucléico I é RNA e o II, DNA. (E) I é exclusivo dos seres procariontes. > ESTUDO

Leia mais

Criado e Desenvolvido por: RONNIELLE CABRAL ROLIM Todos os direitos são reservados 2015. www.tioronni.com

Criado e Desenvolvido por: RONNIELLE CABRAL ROLIM Todos os direitos são reservados 2015. www.tioronni.com Criado e Desenvolvido por: RONNIELLE CABRAL ROLIM Todos os direitos são reservados 2015. www.tioronni.com ÁCIDOS NUCLEICOS ÁCIDOS NUCLÉICOS: são substâncias formadoras de genes, constituídas por um grande

Leia mais

Novas Tecnologias de Sequenciamento

Novas Tecnologias de Sequenciamento Novas Tecnologias de Sequenciamento Tecnologias de sequenciamento Sanger (Capilaridade) Uma das inovações tecnológicas de maior influência na pesquisa biológica, desde que foi lançada em 1977 Abordagem

Leia mais

UNIVERSIDADE FEDERAL DE ALAGOAS INSTITUTO DE CIÊNCIAS BIOLÓGICAS E DA SAÚDE SETOR DE BIOLOGIA CELULAR E MOLECULAR

UNIVERSIDADE FEDERAL DE ALAGOAS INSTITUTO DE CIÊNCIAS BIOLÓGICAS E DA SAÚDE SETOR DE BIOLOGIA CELULAR E MOLECULAR UNIVERSIDADE FEDERAL DE ALAGOAS INSTITUTO DE CIÊNCIAS BIOLÓGICAS E DA SAÚDE SETOR DE BIOLOGIA CELULAR E MOLECULAR DISCIPLINA: BIOLOGIA CELULAR E MOLECULAR ESTUDO DIRIGIDO FLUXO DA INFORMAÇÃO GÊNICA págs:

Leia mais

Modelo Cascata ou Clássico

Modelo Cascata ou Clássico Modelo Cascata ou Clássico INTRODUÇÃO O modelo clássico ou cascata, que também é conhecido por abordagem top-down, foi proposto por Royce em 1970. Até meados da década de 1980 foi o único modelo com aceitação

Leia mais

- Ácido ribonucléico (ARN ou RNA): participa do processo de síntese de proteínas.

- Ácido ribonucléico (ARN ou RNA): participa do processo de síntese de proteínas. 1- TIPOS DE ÁCIDO NUCLÉICO: DNA E RNA Existem dois tipos de ácidos nucléicos: - Ácido desoxirribonucléico (ADN ou DNA): é o principal constituinte dos cromossomos, estrutura na qual encontramos os genes,

Leia mais

Ácidos nucléicos. São polímeros compostos por nucleotídeos. Açúcar - pentose. Grupo fosfato. Nucleotídeo. Base nitrogenada

Ácidos nucléicos. São polímeros compostos por nucleotídeos. Açúcar - pentose. Grupo fosfato. Nucleotídeo. Base nitrogenada ÁCIDOS NUCLÉICOS Ácidos nucléicos São polímeros compostos por nucleotídeos Açúcar - pentose Nucleotídeo Grupo fosfato Base nitrogenada Composição dos Ácidos nucléicos pentoses: numeração da pentose: pentose

Leia mais

1. (Unesp) A ilustração apresenta o resultado de um teste de paternidade obtido pelo método do DNA-Fingerprint, ou "impressão digital de DNA".

1. (Unesp) A ilustração apresenta o resultado de um teste de paternidade obtido pelo método do DNA-Fingerprint, ou impressão digital de DNA. Ácidos Nuclêicos 1. (Unesp) A ilustração apresenta o resultado de um teste de paternidade obtido pelo método do DNA-Fingerprint, ou "impressão digital de DNA". a) Segundo o resultado acima, qual dos homens,

Leia mais

BASES NITROGENADAS DO RNA

BASES NITROGENADAS DO RNA BIO 1E aula 01 01.01. A determinação de como deve ser uma proteína é dada pelos genes contidos no DNA. Cada gene é formado por uma sequência de códons, que são sequências de três bases nitrogenadas que

Leia mais

Introdução à Bioinformática. Prof. IVAné@

Introdução à Bioinformática. Prof. IVAné@ Introdução à Bioinformática Prof. IVAné@ Bioinformática União da ciência da computação com a biologia molecular É uma área nova Há 10 anos atrás o termo nem existia Depois da descoberta de Watson e Crick

Leia mais

Biologia Avançada Jatropha curcas L.

Biologia Avançada Jatropha curcas L. 1 Pesquisadores: Hugo Bruno C. Molinari Betania F. Quirino Biologia Avançada Jatropha curcas L. Maior banco de informações moleculares em todo o mundo Gerar ferramentas para subsidiar programa de Melhoramento

Leia mais

Estrutura e função dos ácidos nucléicos. Profa. Melissa de Freitas Cordeiro-Silva

Estrutura e função dos ácidos nucléicos. Profa. Melissa de Freitas Cordeiro-Silva Estrutura e função dos ácidos nucléicos Profa. Melissa de Freitas Cordeiro-Silva > Polímeros de nucleotídeos Funções: DNA (ácido desoxirribonucléico) : > Armazenar as informações necessárias para a construção

Leia mais

O processo fisiológico que está representado no gráfico é

O processo fisiológico que está representado no gráfico é Questão 01) Analise o gráfico a seguir. Disponível em: . Acesso em: 22 set. 2014. O processo fisiológico que está representado no gráfico é a) o efeito do aumento

Leia mais

Genética Humana. Prof. João Ronaldo Tavares de Vasconcellos Neto

Genética Humana. Prof. João Ronaldo Tavares de Vasconcellos Neto Genética Humana Prof. João Ronaldo Tavares de Vasconcellos Neto JAN/2012 Princípios Básicos As proteínas são vinculo entre genótipo e fenótipo; A expressão gênica é o processo pelo qual o DNA coordena

Leia mais

RNA: transcrição e processamento

RNA: transcrição e processamento Universidade Federal do Piauí Centro de Ciências Agrárias Programa de Pós-graduação em Genética e Melhoramento Núcleo de Estudos em Genética e Melhoramento Bases Moleculares da Hereditariedade RNA: transcrição

Leia mais

Introdução à genética quantitativa usando os recursos do R

Introdução à genética quantitativa usando os recursos do R Introdução à genética quantitativa usando os recursos do R Marisa R. Cantarino 1 Julia M. P. Soler (orientadora) 2 1 Introdução Um dos principais desafios da pesquisa genética atualmente é estabelecer

Leia mais

Criado e Desenvolvido por: Todos os direitos são reservados 2015. www.tioronni.com

Criado e Desenvolvido por: Todos os direitos são reservados 2015. www.tioronni.com Criado e Desenvolvido por: Todos os direitos são reservados 2015. www.tioronni.com O NÚCLEO E A SÍNTESE PROTEÍCA O núcleo celular, descoberto em 1833 pelo pesquisador escocês Robert Brown, é uma estrutura

Leia mais

Projeto Genoma e Proteoma

Projeto Genoma e Proteoma Projeto Genoma e Proteoma Grupo 3: *Artur S. Nascimento *Bárbara S. Costa *Beatrice Barbosa *Tamyres S. E. Guimarães *Yara Cavalcante O que é genoma? O genoma é o conjunto de todo o material genético que

Leia mais

Programa de Parcerias e Submissão de Propostas 2014/15

Programa de Parcerias e Submissão de Propostas 2014/15 DEPARTAMENTO DE INFORMÁTICA Programa de Parcerias e Submissão de Propostas 2014/15 O Departamento de Informática (DI) da Faculdade de Ciências da Universidade de Lisboa (FCUL) procura criar e estreitar

Leia mais

GESTÃO DE ARQUIVOS E DEPÓSITOS. Regulamento

GESTÃO DE ARQUIVOS E DEPÓSITOS. Regulamento GESTÃO DE ARQUIVOS E DEPÓSITOS Regulamento 1. Enquadramento A necessidade de arquivos e depósitos no Pavilhão de Civil é partilhada pelas várias unidades funcionais instaladas. Em particular, este documento

Leia mais

Os primeiros indícios de que o DNA era o material hereditário surgiram de experiências realizadas com bactérias, sendo estas indicações estendidas

Os primeiros indícios de que o DNA era o material hereditário surgiram de experiências realizadas com bactérias, sendo estas indicações estendidas GENERALIDADES Todo ser vivo consiste de células, nas quais está situado o material hereditário. O número de células de um organismo pode variar de uma a muitos milhões. Estas células podem apresentar-se

Leia mais

DOCUMENTO DE APOIO AO ESTUDO BIOLOGIA E GEOLOGIA 11.º

DOCUMENTO DE APOIO AO ESTUDO BIOLOGIA E GEOLOGIA 11.º DOCUMENTO DE APOIO AO ESTUDO BIOLOGIA E GEOLOGIA 11.º Avisos 1.EstedocumentoapenasservecomoapoioparcialàsaulasdeBiologiaeGeologia11.ºano Unidade5 lecionadas na Escola Secundária Morgado Mateus(Vila Real)

Leia mais

Figura 1 - O computador

Figura 1 - O computador Organização e arquitectura dum computador Índice Índice... 2 1. Introdução... 3 2. Representação da informação no computador... 4 3. Funcionamento básico dum computador... 5 4. Estrutura do processador...

Leia mais

15 Computador, projeto e manufatura

15 Computador, projeto e manufatura A U A UL LA Computador, projeto e manufatura Um problema Depois de pronto o desenho de uma peça ou objeto, de que maneira ele é utilizado na fabricação? Parte da resposta está na Aula 2, que aborda as

Leia mais

DNA barcoding é um método que utiliza um trecho do DNA de cerca de 650 nucleotídeos como marcador para caracterizar espécies. Trata-se de uma sequência extremamente curta em relação à totalidade do genoma,

Leia mais

PCR Real-time thermal cycler Standard thermal cycler

PCR Real-time thermal cycler Standard thermal cycler PCR Real-time thermal cycler Standard thermal cycler Tópicos (1) Estratégias gerais de estudo de sequências de DNA específicas em populações de DNA complexas Requisitos da reacção de polimerização em cadeia

Leia mais

Computação Paralela. Desenvolvimento de Aplicações Paralelas João Luís Ferreira Sobral Departamento do Informática Universidade do Minho.

Computação Paralela. Desenvolvimento de Aplicações Paralelas João Luís Ferreira Sobral Departamento do Informática Universidade do Minho. Computação Paralela Desenvolvimento de Aplicações Paralelas João Luís Ferreira Sobral Departamento do Informática Universidade do Minho Outubro 2005 Desenvolvimento de Aplicações Paralelas Uma Metodologia

Leia mais

1 http://www.google.com

1 http://www.google.com 1 Introdução A computação em grade se caracteriza pelo uso de recursos computacionais distribuídos em várias redes. Os diversos nós contribuem com capacidade de processamento, armazenamento de dados ou

Leia mais

Algoritmos e Programação (Prática) Profa. Andreza Leite andreza.leite@univasf.edu.br

Algoritmos e Programação (Prática) Profa. Andreza Leite andreza.leite@univasf.edu.br (Prática) Profa. Andreza Leite andreza.leite@univasf.edu.br Introdução O computador como ferramenta indispensável: Faz parte das nossas vidas; Por si só não faz nada de útil; Grande capacidade de resolução

Leia mais

5. Métodos ágeis de desenvolvimento de software

5. Métodos ágeis de desenvolvimento de software Engenharia de Software 5. Métodos ágeis de desenvolvimento de software Nuno Miguel Gil Fonseca nuno.fonseca@estgoh.ipc.pt Desenvolver e entregar software o mais rapidamente possível é hoje em dia um dos

Leia mais

GESTÃO de PROJECTOS. Gestor de Projectos Informáticos. Luís Manuel Borges Gouveia 1

GESTÃO de PROJECTOS. Gestor de Projectos Informáticos. Luís Manuel Borges Gouveia 1 GESTÃO de PROJECTOS Gestor de Projectos Informáticos Luís Manuel Borges Gouveia 1 Iniciar o projecto estabelecer objectivos definir alvos estabelecer a estratégia conceber a estrutura de base do trabalho

Leia mais

Criatividade e Inovação Organizacional: A liderança de equipas na resolução de problemas complexos

Criatividade e Inovação Organizacional: A liderança de equipas na resolução de problemas complexos Criatividade e Inovação Organizacional: A liderança de equipas na resolução de problemas complexos Dizer que o grande segredo do sucesso das empresas, especialmente em tempos conturbados, é a sua adaptabilidade

Leia mais

Painéis Do Organismo ao Genoma

Painéis Do Organismo ao Genoma Painéis Do Organismo ao Genoma A série de 5 painéis do organismo ao genoma tem por objetivo mostrar que os organismos vivos são formados por células que funcionam de acordo com instruções contidas no DNA,

Leia mais

SÍNTESES NUCLEARES. O DNA éo suporte da informação genética. Parte 1 Replicação

SÍNTESES NUCLEARES. O DNA éo suporte da informação genética. Parte 1 Replicação SÍNTESES NUCLEARES O DNA éo suporte da informação genética Parte 1 Replicação Estrutura do DNA Replicação do DNA Nucleótidos A informação genética das células é armazenada sob a forma de 2 moléculas similares:

Leia mais

CONTROLE DO METABOLISMO GENES

CONTROLE DO METABOLISMO GENES CONTROLE DO METABOLISMO GENES 10/06/15 1º ANO - BIOLOGIA 1 ESTRUTURA DO GENE Segmentos (pedaços) da molécula de DNA, o constituinte dos nossos cromossomos, onde estão inscritas receitas (códigos genéticos)

Leia mais

BIOLOGIA MOLECULAR. Prof. Dr. José Luis da C. Silva

BIOLOGIA MOLECULAR. Prof. Dr. José Luis da C. Silva BIOLOGIA MOLECULAR Prof. Dr. José Luis da C. Silva BIOLOGIA MOLECULAR A Biologia Molecular é o estudo da Biologia em nível molecular, com especial foco no estudo da estrutura e função do material genético

Leia mais

TIC Unidade 2 Base de Dados. Informação é todo o conjunto de dados devidamente ordenados e organizados de forma a terem significado.

TIC Unidade 2 Base de Dados. Informação é todo o conjunto de dados devidamente ordenados e organizados de forma a terem significado. Conceitos relativos à Informação 1. Informação O que á a informação? Informação é todo o conjunto de dados devidamente ordenados e organizados de forma a terem significado. 2. Dados Em informática designa-se

Leia mais

A natureza química do material genético Miescher nucleínas. ácidos nucleicos. ácido desoxirribonucleico ácido ribonucleico Avery MacLeod McCarty

A natureza química do material genético Miescher nucleínas. ácidos nucleicos. ácido desoxirribonucleico ácido ribonucleico Avery MacLeod McCarty UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL COLÉGIO DE APLICAÇÃO Departamento de Ciências Exatas e da Natureza Disciplina: Biologia Professora: Lauren Valentim A natureza química do material genético A natureza

Leia mais

Trabalhos Práticos. Programação II Curso: Engª Electrotécnica - Electrónica e Computadores

Trabalhos Práticos. Programação II Curso: Engª Electrotécnica - Electrónica e Computadores Trabalhos Práticos Programação II Curso: Engª Electrotécnica - Electrónica e Computadores 1. Objectivos 2. Calendarização 3. Normas 3.1 Relatório 3.2 Avaliação 4. Propostas Na disciplina de Programação

Leia mais

DNA A molécula da vida. Prof. Biel Série: 9º ano

DNA A molécula da vida. Prof. Biel Série: 9º ano DNA A molécula da vida Prof. Biel Série: 9º ano DNA FINGER-PRINTING A expressão DNA "Finger-Print" (ou Impressões Genéticas) designa uma técnica de separação de segmentos de DNA que permite a identificação

Leia mais

NCE/11/01396 Relatório preliminar da CAE - Novo ciclo de estudos

NCE/11/01396 Relatório preliminar da CAE - Novo ciclo de estudos NCE/11/01396 Relatório preliminar da CAE - Novo ciclo de estudos Caracterização do pedido Perguntas A.1 a A.10 A.1. Instituição de ensino superior / Entidade instituidora: E.I.A. - Ensino, Investigação

Leia mais

Bioinformática. Licenciaturas em Biologia, Bioquímica, Biotecnologia, Ciências Biomédicas, Engenharia Biológica. João Varela jvarela@ualg.

Bioinformática. Licenciaturas em Biologia, Bioquímica, Biotecnologia, Ciências Biomédicas, Engenharia Biológica. João Varela jvarela@ualg. Bioinformática Licenciaturas em Biologia, Bioquímica, Biotecnologia, Ciências Biomédicas, Engenharia Biológica João Varela jvarela@ualg.pt Docentes Paulo Martel (alinhamentos, pesquisas de sequências em

Leia mais

DEPARTAMENTO DE MATEMÁTICA E CIÊNCIAS EXPERIMENTAIS

DEPARTAMENTO DE MATEMÁTICA E CIÊNCIAS EXPERIMENTAIS DEPARTAMENTO DE MATEMÁTICA E CIÊNCIAS EXPERIMENTAIS Planificação Anual da Disciplina de TIC Módulos 1,2,3-10.ºD CURSO PROFISSIONAL DE TÉCNICO DE APOIO À GESTÃO DESPORTIVA Ano Letivo 2015-2016 Manual adotado:

Leia mais

Transição de POC para SNC

Transição de POC para SNC Transição de POC para SNC A Grelha de Transição surge no âmbito da entrada em vigor, no ano de 2010, do Sistema de Normalização Contabilística (SNC). O SNC vem promover a melhoria na contabilidade nacional,

Leia mais

Programa de Pós-Graduação Stricto Sensu em Biologia Computacional e Sistemas. Seleção de Mestrado 2012-B

Programa de Pós-Graduação Stricto Sensu em Biologia Computacional e Sistemas. Seleção de Mestrado 2012-B Programa de Pós-Graduação Stricto Sensu em Biologia Computacional e Sistemas Seleção de Mestrado 2012-B INSTRUÇÕES (LEIA ATENTAMENTE ANTES DE PREENCHER A PROVA): a. Identifique sua prova unicamente com

Leia mais

Tabela de Símbolos. Análise Semântica A Tabela de Símbolos. Principais Operações. Estrutura da Tabela de Símbolos. Declarações 11/6/2008

Tabela de Símbolos. Análise Semântica A Tabela de Símbolos. Principais Operações. Estrutura da Tabela de Símbolos. Declarações 11/6/2008 Tabela de Símbolos Análise Semântica A Tabela de Símbolos Fabiano Baldo Após a árvore de derivação, a tabela de símbolos é o principal atributo herdado em um compilador. É possível, mas não necessário,

Leia mais

MÓDULO 7 Modelo OSI. 7.1 Serviços Versus Protocolos

MÓDULO 7 Modelo OSI. 7.1 Serviços Versus Protocolos MÓDULO 7 Modelo OSI A maioria das redes são organizadas como pilhas ou níveis de camadas, umas sobre as outras, sendo feito com o intuito de reduzir a complexidade do projeto da rede. O objetivo de cada

Leia mais

CAPÍTULO 7 NÍVEL DE LINGUAGEM DE MONTAGEM

CAPÍTULO 7 NÍVEL DE LINGUAGEM DE MONTAGEM CAPÍTULO 7 NÍVEL DE LINGUAGEM DE MONTAGEM 71 Introdução Difere dos níveis inferiores por ser implementado por tradução A tradução é usada quando um processador está disponível para uma mensagem fonte mas

Leia mais

1.1. Organização de um Sistema Computacional

1.1. Organização de um Sistema Computacional 1. INTRODUÇÃO 1.1. Organização de um Sistema Computacional Desde a antiguidade, o homem vem desenvolvendo dispositivos elétricoeletrônicos (hardware) que funciona com base em instruções e que são capazes

Leia mais

INSTITUTO SUPERIOR DE COMUNICAÇÃO EMPRESARIAL REGULAMENTO DE ACTIVIDADE PROFISSIONAL RELATÓRIO FINAL

INSTITUTO SUPERIOR DE COMUNICAÇÃO EMPRESARIAL REGULAMENTO DE ACTIVIDADE PROFISSIONAL RELATÓRIO FINAL REGULAMENTO DE ACTIVIDADE PROFISSIONAL RELATÓRIO FINAL MESTRADO EM MARKETING ESTRATÉGICO MESTRADO EM COMUNICAÇÃO EMPRESARIAL 1. Princípios Gerais O presente normativo tem por finalidade, possibilitar aos

Leia mais

1. NÍVEL CONVENCIONAL DE MÁQUINA

1. NÍVEL CONVENCIONAL DE MÁQUINA 1. NÍVEL CONVENCIONAL DE MÁQUINA Relembrando a nossa matéria de Arquitetura de Computadores, a arquitetura de Computadores se divide em vários níveis como já estudamos anteriormente. Ou seja: o Nível 0

Leia mais

FACULDADE DE ENGENHARIA DE COMPUTAÇÃO. PROJETO FINAL I e II PLANO DE TRABALHO <NOME DO TRABALHO> <Nome do Aluno> <Nome do Orientador>

FACULDADE DE ENGENHARIA DE COMPUTAÇÃO. PROJETO FINAL I e II PLANO DE TRABALHO <NOME DO TRABALHO> <Nome do Aluno> <Nome do Orientador> FACULDADE DE ENGENHARIA DE COMPUTAÇÃO PROJETO FINAL I e II PLANO DE TRABALHO O Trabalho de Conclusão de Curso (TCC) a ser desenvolvido

Leia mais

REAÇÃO EM CADEIA DA POLIMERASE (PCR)

REAÇÃO EM CADEIA DA POLIMERASE (PCR) Área de Ciências da Saúde Curso de Medicina Módulo: Saúde do Adulto e Idoso II GENÉTICA HUMANA Professora: Dra. Juliana Schmidt REAÇÃO EM CADEIA DA POLIMERASE (PCR) A molécula de DNA é um longo polímero

Leia mais

DESENVOLVER E GERIR COMPETÊNCIAS EM CONTEXTO DE MUDANÇA (Publicado na Revista Hotéis de Portugal Julho/Agosto 2004)

DESENVOLVER E GERIR COMPETÊNCIAS EM CONTEXTO DE MUDANÇA (Publicado na Revista Hotéis de Portugal Julho/Agosto 2004) DESENVOLVER E GERIR COMPETÊNCIAS EM CONTEXTO DE MUDANÇA (Publicado na Revista Hotéis de Portugal Julho/Agosto 2004) por Mónica Montenegro, Coordenadora da área de Recursos Humanos do MBA em Hotelaria e

Leia mais

ICORLI. INSTALAÇÃO, CONFIGURAÇÃO e OPERAÇÃO EM REDES LOCAIS e INTERNET

ICORLI. INSTALAÇÃO, CONFIGURAÇÃO e OPERAÇÃO EM REDES LOCAIS e INTERNET INSTALAÇÃO, CONFIGURAÇÃO e OPERAÇÃO EM REDES LOCAIS e INTERNET 2010/2011 1 Protocolo TCP/IP É um padrão de comunicação entre diferentes computadores e diferentes sistemas operativos. Cada computador deve

Leia mais

Tais operações podem utilizar um (operações unárias) ou dois (operações binárias) valores.

Tais operações podem utilizar um (operações unárias) ou dois (operações binárias) valores. Tais operações podem utilizar um (operações unárias) ou dois (operações binárias) valores. 7.3.1.2 Registradores: São pequenas unidades de memória, implementadas na CPU, com as seguintes características:

Leia mais

DESENVOLVIMENTO DE UM SOFTWARE NA LINGUAGEM R PARA CÁLCULO DE TAMANHOS DE AMOSTRAS NA ÁREA DE SAÚDE

DESENVOLVIMENTO DE UM SOFTWARE NA LINGUAGEM R PARA CÁLCULO DE TAMANHOS DE AMOSTRAS NA ÁREA DE SAÚDE DESENVOLVIMENTO DE UM SOFTWARE NA LINGUAGEM R PARA CÁLCULO DE TAMANHOS DE AMOSTRAS NA ÁREA DE SAÚDE Mariane Alves Gomes da Silva Eliana Zandonade 1. INTRODUÇÃO Um aspecto fundamental de um levantamento

Leia mais

Utilização do SOLVER do EXCEL

Utilização do SOLVER do EXCEL Utilização do SOLVER do EXCEL 1 Utilização do SOLVER do EXCEL José Fernando Oliveira DEEC FACULDADE DE ENGENHARIA DA UNIVERSIDADE DO PORTO MAIO 1998 Para ilustrar a utilização do Solver na resolução de

Leia mais

TECNOLOGIAS DA INFORMAÇÃO E COMUNICAÇÃO. SISTEMAS DE GESTÃO DE BASE DE DADOS Microsoft Access TECNOLOGIAS DA INFORMAÇÃO E COMUNICAÇÃO

TECNOLOGIAS DA INFORMAÇÃO E COMUNICAÇÃO. SISTEMAS DE GESTÃO DE BASE DE DADOS Microsoft Access TECNOLOGIAS DA INFORMAÇÃO E COMUNICAÇÃO TECNOLOGIAS DA INFORMAÇÃO E COMUNICAÇÃO Microsoft Access TECNOLOGIAS DA INFORMAÇÃO E COMUNICAÇÃO CONCEITOS BÁSICOS 1 Necessidade das base de dados Permite guardar dados dos mais variados tipos; Permite

Leia mais

ZS Rest. Manual Profissional. BackOffice Mapa de Mesas. v2011

ZS Rest. Manual Profissional. BackOffice Mapa de Mesas. v2011 Manual Profissional BackOffice Mapa de Mesas v2011 1 1. Índice 2. Introdução... 2 3. Iniciar ZSRest Backoffice... 3 4. Confirmar desenho de mesas... 4 b) Activar mapa de mesas... 4 c) Zonas... 4 5. Desenhar

Leia mais

GereComSaber. Disciplina de Desenvolvimento de Sistemas de Software. Sistema de Gestão de Serviços em Condomínios

GereComSaber. Disciplina de Desenvolvimento de Sistemas de Software. Sistema de Gestão de Serviços em Condomínios Universidade do Minho Conselho de Cursos de Engenharia Licenciatura em Engenharia Informática 3ºAno Disciplina de Desenvolvimento de Sistemas de Software Ano Lectivo de 2009/2010 GereComSaber Sistema de

Leia mais

Colónias satélite: ao fim de 2 dias (a e b) e de 4 (c)

Colónias satélite: ao fim de 2 dias (a e b) e de 4 (c) Colónias satélite: ao fim de 2 dias (a e b) e de 4 (c) 1 Regulação da expressão de genes 2 A decisão em iniciar a transcrição de um gene que codifica uma proteína em particular é o principal mecanismo

Leia mais

PROGRAMA TEÓRICO. 2. O Dogma Central da Biologia Molecular

PROGRAMA TEÓRICO. 2. O Dogma Central da Biologia Molecular PROGRAMA TEÓRICO 1. As moléculas da Biologia Molecular: DNA, RNA e proteínas Aspectos particulares da composição e estrutura do DNA, RNA e proteínas. EG- Características bioquímicas dos ácidos nucleicos,

Leia mais

Programação 2ºSemestre MEEC - 2010/2011. Programação 2º Semestre 2010/2011 Enunciado do projecto

Programação 2ºSemestre MEEC - 2010/2011. Programação 2º Semestre 2010/2011 Enunciado do projecto Mestrado Integrado em Engenharia Electrotécnica e de Computadores Programação 2º Semestre 2010/2011 Enunciado do projecto O projecto a desenvolver pelos alunos consistirá numa sistema de monitorização,

Leia mais

Conceito. As empresas como ecossistemas de relações dinâmicas

Conceito. As empresas como ecossistemas de relações dinâmicas Conceito As empresas como ecossistemas de relações dinâmicas PÁG 02 Actualmente, face à crescente necessidade de integração dos processos de negócio, as empresas enfrentam o desafio de inovar e expandir

Leia mais

Realizou-se dia 24 de Março, na Maia, nas instalações da Sonae Learning Center, a 6ª sessão da CoP, desta vez presencial.

Realizou-se dia 24 de Março, na Maia, nas instalações da Sonae Learning Center, a 6ª sessão da CoP, desta vez presencial. CoP de Gestão do Conhecimento Notas da sessão presencial de 24 de Março de 2014 Realizou-se dia 24 de Março, na Maia, nas instalações da Sonae Learning Center, a 6ª sessão da CoP, desta vez presencial.

Leia mais

Introdução ao Modelos de Duas Camadas Cliente Servidor

Introdução ao Modelos de Duas Camadas Cliente Servidor Introdução ao Modelos de Duas Camadas Cliente Servidor Desenvolvimento de Sistemas Cliente Servidor Prof. Esp. MBA Heuber G. F. Lima Aula 1 Ciclo de Vida Clássico Aonde estamos? Page 2 Análise O que fizemos

Leia mais

Módulo de Administração de Utilizadores

Módulo de Administração de Utilizadores base Módulo de Administração de Utilizadores Versão 2.0 Manual do utilizador Janeiro 2002 Ficha técnica Título BIBLIObase : Módulo de Administração de Utilizadores: versão 2.0 : manual do utilizador Autores

Leia mais

Ficha de Apoio Teórico: Replicação do DNA

Ficha de Apoio Teórico: Replicação do DNA Escola Secundária c/ 3º Ciclo João Gonçalves Zarco Ano Lectivo 2008/2009 Biologia/Geologia (ano 2) Ficha de Apoio Teórico: Replicação do DNA Introdução Uma das características mais pertinentes de todos

Leia mais

REDE TEMÁTICA DE ACTIVIDADE FÍSICA ADAPTADA

REDE TEMÁTICA DE ACTIVIDADE FÍSICA ADAPTADA REDE TEMÁTICA DE ACTIVIDADE FÍSICA ADAPTADA Patrocinada e reconhecida pela Comissão Europeia no âmbito dos programas Sócrates. Integração social e educacional de pessoas com deficiência através da actividade

Leia mais

STATGEN Plataforma web para análise de dados genéticos.

STATGEN Plataforma web para análise de dados genéticos. STATGEN Plataforma web para análise de dados genéticos. Diogo Gonçalves Neder 1 1 Introdução O melhoramento de plantas visa principalmente identificar combinações genotípicas com performance superior quando

Leia mais

Consolidar os bancos de tumores existentes e apoiar o desenvolvimento de outros bancos de tumores em rede;

Consolidar os bancos de tumores existentes e apoiar o desenvolvimento de outros bancos de tumores em rede; Rede Nacional de Bancos de Tumores O Programa Nacional das Doenças Oncológicas da Direção Geral da Saúde tem como uma das suas prioridades a criação duma Rede Nacional de Bancos de Tumores (RNBT). Um banco

Leia mais

Roteiro. Arquitetura. Tipos de Arquitetura. Questionário. Centralizado Descentralizado Hibrido

Roteiro. Arquitetura. Tipos de Arquitetura. Questionário. Centralizado Descentralizado Hibrido Arquitetura Roteiro Arquitetura Tipos de Arquitetura Centralizado Descentralizado Hibrido Questionário 2 Arquitetura Figura 1: Planta baixa de uma casa 3 Arquitetura Engenharia de Software A arquitetura

Leia mais

Exercício 3 PCR Reação em Cadeia da Polimerase

Exercício 3 PCR Reação em Cadeia da Polimerase Exercício 3 PCR Reação em Cadeia da Polimerase (Polymerase Chain Reaction - PCR) Uma das dificuldades dos pesquisadores frente à análise baseada no DNA é a escassez deste. Na medicina forense pode-se ter

Leia mais

DEMONSTRAÇÕES FINANCEIRAS COMBINADAS

DEMONSTRAÇÕES FINANCEIRAS COMBINADAS 24 DEMONSTRAÇÕES FINANCEIRAS COMBINADAS Os mercados de capitais na Europa e no mundo exigem informações financeiras significativas, confiáveis, relevantes e comparáveis sobre os emitentes de valores mobiliários.

Leia mais

QFD: Quality Function Deployment QFD: CASA DA QUALIDADE - PASSO A PASSO

QFD: Quality Function Deployment QFD: CASA DA QUALIDADE - PASSO A PASSO QFD: CASA DA QUALIDADE - PASSO A PASSO 1 - INTRODUÇÃO Segundo Akao (1990), QFD é a conversão dos requisitos do consumidor em características de qualidade do produto e o desenvolvimento da qualidade de

Leia mais