Universidade de Brasília

Transcrição

1 Universidade de Brasília Instituto de Ciências Exatas Departamento de Ciência da Computação Pipelines para transcritomas obtidos por sequenciadores de alto desempenho Paulo Antonio Alvarez Monografia apresentada como requisito parcial para conclusão do Bacharelado em Ciência da Computação Orientadora Prof. a Maria Emília Machado Telles Walter Brasília 2009

2 Universidade de Brasília UnB Instituto de Ciências Exatas Departamento de Ciência da Computação Bacharelado em Ciência da Computação Coordenador: Prof. Marcus Vinicius Lamar Banca examinadora composta por: Prof. a Maria Emília Machado Telles Walter (Orientadora) CIC/UnB Prof. a Célia Ghedini Ralha CIC/UnB Prof. Marcelo de Macedo Brígido IB/UnB CIP Catalogação Internacional na Publicação Alvarez, Paulo Antonio. Pipelines para transcritomas obtidos por sequenciadores de alto desempenho / Paulo Antonio Alvarez. Brasília : UnB, p. : il. ; 29,5 cm. Monografia (Graduação) Universidade de Brasília, Brasília, Sequenciadores de alto desempenho, 2. Projetos Genoma, 3. Métodos Computacionais, 4. pipeline CDU 004 Endereço: Universidade de Brasília Campus Universitário Darcy Ribeiro Asa Norte CEP Brasília DF Brasil

3 Universidade de Brasília Instituto de Ciências Exatas Departamento de Ciência da Computação Pipelines para transcritomas obtidos por sequenciadores de alto desempenho Paulo Antonio Alvarez Monografia apresentada como requisito parcial para conclusão do Bacharelado em Ciência da Computação Prof. a Maria Emília Machado Telles Walter (Orientadora) CIC/UnB Prof. a Célia Ghedini Ralha CIC/UnB Prof. Marcelo de Macedo Brígido IB/UnB Prof. Marcus Vinicius Lamar Coordenador do Bacharelado em Ciência da Computação Brasília, 14 de dezembro de 2009

4 Dedicatória Dedico este trabalho aos meus pais e a minha família. 4

5 Agradecimentos Agradeço a minha orientadora pelo apoio durante o desenvolvimento deste projeto. 5

6 Resumo Neste trabalho propusemos e implementamos um protótipo de pipeline de software para projetos transcritoma utilizando dados provenientes de sequenciadores de alto desempenho. O pipeline foi desenvolvido utilizando a linguagem Java e o sistema gerenciador de banco de dados PostgreSQL, sendo executado através da linha de comando e configurado por meio da edição de arquivos de properties. O estudo de caso feito com o pipeline envolveu dados de Salmonella enterica obtidos por meio do sequenciador 454/Roche. O pipeline completo executou em menos de duas horas, com arquivos iniciais totalizando cerca de sequências. O filtro da montagem selecionou cerca de sequências agrupadas em cerca de grupos (contigs e singlets ). Foram anotados cerca de grupos utilizando BLAST com o banco de dados KOG. Palavras-chave: Sequenciadores de alto desempenho, Projetos Genoma, Métodos Computacionais,pipeline 6

7 Abstract In this work we propose and implement a software pipeline prototipe for transcriptome projects using data from high throughput DNA sequencers. The pipeline was developed using the Java programming language and the database management system PostgreSQL, it runs through the command line and is configured by means of editing properties files. The test case was developed with data from Salmonella enterica obtained by the sequencer 454/Roche. The pipeline executed in less than two hours, with its inicial files providing about sequences. The assembly filter select around sequences, which originated around groups(singlets and contigs). Around groups were annotated using BLAST against the KOG database. Keywords: Next generation sequencers, Genome Projects, Computational Methods, pipeline 7

8 Sumário Lista de Figuras 10 Lista de Tabelas 11 1 Introdução Contextualização Problema Hipóteses Objetivos Descrições dos Capítulos Conceitos Básicos em Biologia Molecular Vida Proteínas Ácidos nucléicos DNA RNA Genes e cromossomos Dogma central da Biologia Molecular Bioinformática Pipeline de um projeto de sequenciamento Pipeline para um projeto de sequenciamento Sanger Projetos transcritoma Sequenciadores Massivamente Paralelos FLX Roche Illumina Solexa Softwares e pipelines para Sequenciadores Massivamente Paralelos Softwares para submissão Software para submissão do sequenciador Software para submissão do sequenciador Illumina Softwares para mapeamento Softwares para montagem Softwares para anotação Pipelines para sequenciadores de alto desempenho

9 5 Proposta de pipeline para o Sequenciador 454 e Estudo de Caso Estrutura geral do pipeline Subsistema de submissão Subsistema de mapeamento Subsistema de montagem Subsistema de anotação Detalhes técnicos A camada de persistência Armazenamento de informações Aplicação do pipeline com dados de Salmonella enterica Conclusões e Trabalhos Futuros 57 Referências 59 9

10 Lista de Figuras 2.1 Estrutura geral dos aminoácidos Ligação peptídica entre dois aminoácidos Os diversos níveis estruturais de uma proteína, sendo mostradas em azul as seções correspondentes entre cada nível Estrutura dos 20 aminoácidos encontrados na natureza Representação esquemática da estrutura de um nucleotídeo, mostrando seus principais componentes: açúcar, fosfato e base Os açúcares encontrados nos ácidos nucléicos. São mostradas as numerações dos átomos de carbono e destacados os carbonos 3 e 5, através das quais uma orientação dos ácidos nucléicos pode ser obtida Estrutura espacial das moléculas de DNA e RNA, em conjunto com a estrutura química das bases nitrogenadas Associação entre trincas de bases (códons) e aminoácidos. Consulte a Figura 2.4 para a ligação entre o código de três letras e o nome e estrutura dos aminoácidos Processo de sequenciamento utilizado pelo sequenciador 454/Roche [19] Visão esquemática do processo de amplificação do DNA utilizado pelo sequenciador Illumina/Solexa [19] Processo de determinação de uma base do sequenciador Illumina/Solexa [19] Exemplo de grafos de de Bruijn e o relacionamento entre eles Pipeline de software para novos sequenciadores com a fase de mapeamento Pipeline de software para novos sequenciadores sem a fase de mapeamento Pipeline de software para novos sequenciadores com as fases de submissão, mapeamento e anotação Diagrama esquemático mostrando o fluxo das informações pelo pipeline e os programas utilizados em cada fase Hierarquia das classes básicas de comando utilizadas na camada de persistência Tabelas utilizadas no protótipo de pipeline desenvolvido

11 Lista de Tabelas 4.1 Lista de programas de mapeamento e respectivos endereços web onde mais informações podem ser obtidas (Adaptado de [29]) Tabela com dados de montadores para sequenciadores massivamente paralelos Número de sequências tratadas em cada etapa do pipeline e tempo necessário para execução de cada etapa

12 Capítulo 1 Introdução A descoberta da estrutura espacial da molécula de DNA por Watson e Crick [32] abriu novos horizontes para as ciências da vida, em especial no que tange ao entendimento das diversas características em nível molecular dos seres vivos no mundo. Como um repositório das informações necessárias à construção de proteínas de um dado organismo, o DNA assumiu um papel central em pesquisas biológicas, e propiciou o surgimento de diversas novas disciplinas, entre elas a Biologia Molecular. A Biologia Molecular busca explicar os fenômenos genéticos em termos das leis químicas e físicas conhecidas [30]. 1.1 Contextualização A partir dos estudos feitos em Biologia Molecular, verificou-se que as informações necessárias à síntese de proteínas em um dado organismo estão armazenadas no seu DNA, e a passagem do DNA de geração a geração permite que as espécies se mantenham essencialmente inalteradas com o passar do tempo. Dessa forma, a determinação da informação contida no DNA tornou-se um importante meio no estudo das características dos seres vivos. Para descobrir a informação armazenada no DNA deve-se identificar a sua sequência de bases, o que é feito por meio de técnicas de sequenciamento. No entanto, o trabalho envolvido na determinação de tais bases é, em geral, muito grande. Assim, para a determinação das bases do DNA de um organismo são constituídos os projetos genoma, formados por equipes de diversas áreas com o objetivo comum de decodificar e analisar a informação presente no DNA. Atualmente, mais de 1000 projetos genoma foram concluídos e aproximadamente 6000 estão em andamento, o que mostra a grande importância do estudo das informações contidas no DNA [12]. Entre os diversos projetos genoma já concluídos, podemos destacar o Projeto Genoma Humano (PGH), uma iniciativa no sentido de determinar todos os pares de bases do DNA humano. Após nove anos de trabalho envolvendo diversas organizações e países, em 2001 foi publicado um rascunho do genoma humano pelo Consórcio Genoma Humano [3] [9]. Além de ter estimulado um grande desenvolvimento das técnicas de sequenciamento de DNA, o PGH impulsionou uma série de outros projetos genoma, com o objetivo de estudar organismos similares ao humano 12

13 e/ou com características significativas dentro de uma determinada classificação taxonômica. No Brasil, o primeiro projeto genoma concluído com sucesso foi o sequenciamento do genoma completo da bactéria Xylella fastidiosa [8], causadora de uma doença em plantas conhecida como amarelinho com enormes prejuízos na cultura de laranja, cerca de 30% dos laranjais paulistas são afetados por essa doença. No caso específico da Região Centro-Oeste, um grande impulso foi dado com a implantação do projeto Rede Genoma Centro-Oeste. Este projeto foi submetido ao MCT/CNPq, tendo sido aprovado como uma das oito unidades regionais brasileiras para o sequenciamento de genomas. Foi iniciado em 2001 e concluído em 2004, tanto em relação aos experimentos realizados nos laboratórios de biologia molecular quanto no tocante ao desenvolvimento de um sistema computacional para armazenamento e tratamento das informações biológicas. Até recentemente, os projetos genoma utilizavam principalmente a técnica de sequenciamento Sanger, assim nomeada em homenagem a Frederick Sanger, criador da técnica [25]. Nesta técnica, a molécula de DNA é primeiramente fragmentada em diversos pedaços. Após isso, são feitas diversas cópias dos fragmentos de DNA, seja por meio de reações químicas envolvendo diversas enzimas ou inserindo o fragmento desejado de DNA em vírus ou bactérias e utilizando a capacidade reprodutiva dos mesmos para a realização das diversas cópias necessárias [26]. Após isso, uma técnica conhecida como gel eletroforese é utilizada para a determinação das bases de DNA. Esta última técnica é automatizada, permitindo a determinação das bases de maneira rápida e menos sujeita a erros. Uma vantagem do sequenciamento Sanger é o tamanho dos fragmentos que podem ser sequenciados de cada vez, que pode chegar a até 1000 bases. Durante décadas, esta foi praticamente a única técnica utilizada nestes projetos. Apesar de ser uma técnica relativamente barata, custando apenas US$ 0,001 para cada base sequenciada [28], este custo se torna proibitivo quando se tenta sequenciar genomas muito grandes, da ordem de bilhões de bases de DNA. Como em geral o sequenciamento de DNA é feito mais de uma vez, o custo desses projetos se torna muito alto para ser viável com sequenciamento Sanger. Assim, a comunidade científica percebeu a necessidade de um novo método mais barato de sequenciamento. Recentemente, novos sequenciadores de alto desempenho surgiram para atender a esta necessidade. Estes sequenciadores produzem uma quantidade imensa de dados, a uma fração do custo dos sequenciadores Sanger, por exemplo, laboratórios cobram US$ 0,0002 para cada base obtida com o sequenciador 454. Elas obtém tal desempenho ao realizar o sequenciamento de milhões de sequências de DNA em paralelo, utilizando uma série diversas de técnicas, tais como pirosequenciamento e sequenciamento por síntese. Como exemplos desses sequenciadores de alto desempenho podemos citar o 454-FLX da Roche, o Illumina da Solexa, e o Solid. Atualmente, o Brasil dispõe de quatro sequenciadores de alto desempenho, sendo um 454 em São Paulo, outro em Brasília e um último no LNCC(RJ), e um Illumina localizado em Brasília. Diversos projetos científicos estão sendo montados para fazer uso desta nova tecnologia e assim permitir o desenvolvimento de vacinas e remédios, aumento 13

14 da produtividade na agricultura e pecuária e uma melhor compreensão sobre as características biológicas de diversos seres vivos de interesse. Nesse contexto, a criação de um pipeline para realizar o processamento de dados dos novos sequenciadores ajudaria tais projetos a obter resultados mais confiáveis em um espaço de tempo menor, melhorando assim o uso dos recursos. 1.2 Problema O uso dos novos sequenciadores abre diversas fronteiras para a pesquisa biológica derivada do sequenciamento de DNA. No entanto, os dados produzidos por tais sequenciadores possuem características muito diversas dos dados oriundos dos sequenciadores Sanger, tornando muito difícil a adaptação dos programas utilizados em análise computacional de dados de sequenciadores Sanger. Mesmo assim, o baixo custo e a grande quantidades de dados são motivos suficientemente fortes para o desenvolvimento de novos métodos para processamento desses dados, e de fato, diversos programas para tratamento de sequências dos novos sequenciadores já foram desenvolvidos. 1.3 Hipóteses Como os novos sequenciadores permitem um custo mais baixo de sequenciamento, espera-se um grande aumento na quantidade de dados a serem processados por sistemas de bioinformática. Com o sequenciamento paralelo, a quantidade de dados de sequenciamento produzida por unidade de tempo também tende a aumentar. Dadas essas considerações, é improvável um processamento eficaz deste enorme volume de dados gerados em um tempo menor, por meio de programas seriais ou sistemas baseados em processamento serial. De fato, assumimos como hipótese que nas diferentes fases de processamento das sequências biológicas produzidas deverão ser adotadas técnicas de processamento paralelo e/ou distribuído para a análise dos dados em tempo hábil. Além disso, o armazenamento e recuperação de dados nesse novo contexto deve ser repensado. 1.4 Objetivos Nesse contexto, nosso objetivo é a criação de um protótipo de pipeline de software para análise de transcritomas produzidos por sequenciadores de alto desempenho. Tal pipeline será aplicado nos dados produzidos pelos sequenciadores 454 e Illumina, recentemente adquiridos pela Fundação de Apoio à Pesquisa do Distrito Federal (FAP-DF). Após a conclusão de tal trabalho, objetivamos a escrita de um artigo cientifíco junto aos biológos da Universidade de Brasília (UnB) para estender o conhecimento científico neste novo ramo de pesquisas. 14

15 1.5 Descrições dos Capítulos No Capítulo 2 apresentamos os diversos conceitos de Biologia Molecular necessários ao desenvolvimento do presente trabalho e expomos os principais aspectos da bioinformática, a disciplina específica onde este trabalho se encontra. Além disso detalhamos alguns tipos de projetos de sequenciamento onde este trabalho será aplicado. A seguir o Capítulo 3 mostra de forma resumida o funcionamento de alguns dos novos sequenciadores, apontando características específicas advindas do método utilizado por cada um. Para realizar a montagem do pipeline, é necessário utilizar ou adaptar softwares para realizar o processamento dos dados dos sequenciadores de alto desempenho. No Capítulo 4 analisamos os diversos softwares disponíveis na literatura. Além disso, apresentamos o método de pipeline a ser adotado no projeto de genomas baseado em sequenciadores de alto desempenho. O Capítulo 5 apresenta a estrutura do pipeline e sua aplicação em um estudo de caso feito a partir de sequências de Salmonella obtidas com o sequenciador 454. Por fim no Capítulo 6 apresentamos as conclusões e trabalhos futuros. 15

16 Capítulo 2 Conceitos Básicos em Biologia Molecular Neste capítulo serão definidos os conceitos básicos de biologia molecular necessários ao entendimento deste trabalho. A Seção 2.1 discute de forma breve o conceito de vida e apresenta as motivações para o estudo dos conceitos expostos nas próximas seções. A Seção 2.2 apresenta os principais conceitos referentes às proteínas em um ser vivo, enfatizando o importante papel exercido pelas mesmas. Na Seção 2.3, são apresentados os conceitos importantes relativos a ácidos nucléicos e detalhados os dois principais ácidos encontrados nos seres vivos, o DNA e o RNA. A Seção 2.4, define genes e apresenta o código genético utilizado na tradução das bases do DNA em proteínas. Na Seção 2.5 é exposto o dogma central da biologia molecular, ou o processo através do qual as informações contidas no DNA são utilizadas para a síntese de proteínas. Finalmente, a Seção 2.6 detalha os conceitos relativos à Bioinformática, área onde este trabalho se insere. 2.1 Vida De acordo com pesquisas, a vida na Terra começou a cerca de 3,5 bilhões de anos. Desde então, os seres vivos vêm sofrendo constantes mutações devido a um processo chamado evolução, onde os mesmos tentam se adaptar às condições do ambiente [5]. Mas o que é a vida, como podemos definí-la? De maneira muito simplista, neste trabalho diremos que todo ser que troca constantemente matéria e energia com o ambiente está vivo. Embora imperfeita, tal definição servirá a todos os nossos propósitos. Apesar das formas de vida variarem muito em tamanho e complexidade, todas possuem uma química molecular básica, ou bioquímica. Os principais componentes desta química são as proteínas e os ácidos nucléicos. As proteínas realizam diversas funções necessárias à manutenção da vida, como catalisação de reações e transporte de nutrientes, entre muitas outras. Já os ácidos nucléicos contém a informação necessária para a síntese de proteínas e a passagem dessa informação de geração para geração permite que as espécies permaneçam essencialmente inalteradas por longos períodos de tempo. A seguir discutiremos em mais detalhes esses componentes essenciais à vida. 16

17 2.2 Proteínas As proteínas são polímeros (moléculas grandes formadas pelo encadeamento de moléculas mais simples) com uma gama muito vasta de funções nos seres vivos, variando desde o transporte de nutrientes e eliminação de resíduos tóxicos, até a construção de estruturas complexas. Além disso, proteínas chamadas enzimas são responsáveis por catalisar, ou acelerar, a ocorrência de reações químicas necessárias à vida. Sem essas enzimas, diversas reações importantes a manutenção da vida ocorreriam muito lentamente, encerrando-a completamente. Como se vê, as funções das proteínas são essenciais a manutenção de um ser vivo, compreendêlas significa também compreender o funcionamento de um dado organismo que sintetiza essas proteínas. Para melhor entendê-las é necessário, no entanto, um conhecimento básico sobre a estrutura das mesmas. As proteínas são formadas a partir do encadeamento de moléculas mais simples chamadas aminoácidos. A estrutura geral de um aminoácido é mostrada na Figura 2.1. Nessa figura são mostrados os principais elementos de um aminoácido, a saber: um carbono central, ou carbono alfa(c α ) onde se ligam um grupo amina, um grupo carboxila e uma cadeia lateral (denotada na figura como R). Figura 2.1: Estrutura geral dos aminoácidos Os aminoácidos diferem entre si pela estrutura da cadeia lateral, que varia desde um único átomo de hidrogênio até anéis carbônicos. Existem 20 aminoácidos diferentes na natureza e toda proteína, não importa sua complexidade, é formada a partir destes 20 aminoácidos básicos. A Figura 2.4 mostra a estrutura dos vinte aminoácidos, junto com os códigos de uma e três letras utilizados para designar os mesmos. 17

18 Para formar uma proteína, os aminoácidos encadeiam-se através de ligações químicas chamadas ligações peptídicas. Nessa ligação, o carbono do grupo carboxila de um aminoácido liga-se ao átomo de nitrogênio do grupo amina de um outro aminoácido, liberando uma molécula de água no processo. Após essa ligação, o que resta é um resíduo dos aminoácidos originais, por causa disso falamos em uma proteína com 200 resíduos, e não 200 aminoácidos. A Figura 2.2 mostra esquematicamente a ligação peptídica entre dois aminoácidos quaisquer, os átomos em vermelho são os átomos perdidos pelas moléculas após a ligação, e em verde é mostrado o ponto onde a ligação molecular entre os aminoácidos é estabelecida. Assim, uma dada proteína é formada pela ligação peptídica entre seus diversos aminoácidos, podendo ser composta por um número muito grande desses. Dado que uma proteína é, sob certo ponto de vista, uma sequência de aminoácidos, toda proteína pode ser descrita e identificada de forma única pela sequência de aminoácidos que a compõem. Figura 2.2: Ligação peptídica entre dois aminoácidos. Embora uma proteína possa ser identificada univocamente pela sequência de aminoácidos que a forma, as proteínas não são cadeias lineares de aminoácidos. Forças moleculares atuando entre aminoácidos próximos e grupos de aminoácidos dão à uma proteína uma forma espacial bem definida. Essa forma espacial pode ser visualizada em diferentes níveis, assim falamos nos níveis estruturais de uma dada proteína, a saber: 1. O nível primário, formado apenas pela sequência linear de aminoácidos. 2. O nível secundário, onde existem arranjos espaciais de aminoácidos próximos na cadeia. 18

19 3. O nível terciário, onde existem arranjos espaciais dos aminoácidos fisicamente distantes na cadeia (estrutura tri-dimensional). 4. O nível quartenário, a estrutura espacial formada pela união e interação entre diversas proteínas. A Figura 2.3 dá um exemplo de cada um desses níveis e mostra a relação entre os mesmos em uma proteína hipotética. Figura 2.3: Os diversos níveis estruturais de uma proteína, sendo mostradas em azul as seções correspondentes entre cada nível. A importância do estudo do formato tridimensional das proteínas reside na observação de uma íntima conexão entre o formato de uma proteína e a função exercida pela mesma. De fato, as diversas hélices e dobras formam uma estrutura única capaz de se ligar a um grupo de moléculas, podendo essas serem componentes de uma reação química ou ainda outras proteínas que formam estruturas mais complexas [26]. Algumas ligações são tão específicas que é utilizado o termo ligação chave-fechadura para as mesmas. Dada a sua imensa importância, as proteínas são constantemente fabricadas pelos seres vivos, desde os procariotos mais simples até os eucariotos mais complexos. Entender o processo de síntese das mesmas é, portanto, essencial no sentido de auxiliar na identificação e descoberta das mesmas. Tal processo está intimamente ligado a moléculas conhecidas como ácidos nucléicos, explicados a seguir. 19

20 Figura 2.4: Estrutura dos 20 aminoácidos encontrados na natureza. 20

21 2.3 Ácidos nucléicos Assim como as proteínas, os ácidos nucléicos também são polímeros formados a partir de moléculas mais simples, os nucleotídeos. Um nucleotídeo é formado por um açúcar composto por cinco átomos de carbono (pentose), ligado a um grupo fosfato e uma base nitrogenada. ( Figura 2.5). Figura 2.5: Representação esquemática da estrutura de um nucleotídeo, mostrando seus principais componentes: açúcar, fosfato e base. As ligações entre diferentes nucleotídeos para a formação de ácidos nucléicos se dá através dos grupos fosfatos, por meio de uma ligação chamada ligação fosfodiéster. Nesse tipo de ligação o átomo de fósforo do grupo fosfato estabelece fortes ligações covalentes com os átomos de carbono da pentose dos nucleotídeos. Essa pentose tem os átomos numerados de 1 até 5, assim é possível identificar os átomos de carbono participantes nas ligações fosfodiéster. A Figura 2.6 mostra as duas principais pentoses encontradas nos seres vivos DNA O DNA é um ácido nucléico cuja principal função biológica é o armazenamento das informações necessárias a síntese das proteínas de um organismo. Esse ácido é formado por nucleotídeos com a pentose 2-desoxirribose (Figura 2.6 (a)) e as bases são quatro, a saber: adenina (A), timina (T), citosina (C) e guanina (G). A molécula de DNA tem o formato espacial de duas fitas (ou cadeias) de ácidos nucléicos unidos pelas bases nitrogenadas formando uma espiral que gira no sentido da mão direita [32]. A Figura 2.7 apresenta uma visão desse formato espacial, em conjunto com a estrutura das bases nitrogenadas do DNA. As fitas do DNA são ditas complementares, pois a cada base presente em uma fita corresponde uma base complementar na fita oposta. As bases adenina e timina são complementares entre si, o mesmo valendo para a citosina e a guanina. 21

22 Figura 2.6: Os açúcares encontrados nos ácidos nucléicos. São mostradas as numerações dos átomos de carbono e destacados os carbonos 3 e 5, através das quais uma orientação dos ácidos nucléicos pode ser obtida. 22

23 Figura 2.7: Estrutura espacial das moléculas de DNA e RNA, em conjunto com a estrutura química das bases nitrogenadas 23

24 2.3.2 RNA O RNA é o outro ácido nucléico encontrado nos seres vivos. Em contraste com o DNA, a pentose presente em seus nucleotídeos é a ribose (Figura 2.6 (b)), outra diferença significativa é a presença da base nitrogenada uracila (U) em substituição à timina. A molécula de RNA tem uma única cadeia (fita) de nucleotídeos e não assume uma forma espacial bem definida, tendo diversos formatos de acordo com a função exercida por ela. Dessa forma, diversas classes de RNA são encontradas nas células dos seres vivos. A Figura 2.7 mostra uma possível disposição espacial de uma molécula de RNA. O RNA ribossômico (rrna) é responsável pela constituição de ribossomos, organelas celulares cujo propósito é a construção de proteínas. O RNA mensageiro (mrna) carrega as informações para a síntese de proteínas do DNA para os ribossomos. Finalmente, o RNA transportador (trna) é responsável por trazer ao ribossomo os aminoácidos necessários para formar uma proteína. 2.4 Genes e cromossomos Como visto, toda a informação necessária a produção das proteínas de um dado ser vivo está presente em seu DNA. Mais especificamente, essa informação está dispersa pela sequência de bases presentes nas fitas do DNA. Embora o DNA armazene as informações necessárias à produção de proteínas, nem todas as sequências de nucleotídeos do DNA codificam essa informação. Para cada proteína sintetizada por um organismo, existe uma porção de DNA correspondente onde estão presentes os dados para sua fabricação. A esta porção de DNA contendo a informação de uma proteína damos o nome de gene. Os genes são distribuídos através das grandes moléculas de DNA, chamadas de cromossomos. O número e o tamanho dos cromossomos varia de espécie para espécie, e não está diretamente ligado a complexidade da mesma. Então, os genes armazenam a informação necessária para síntese de uma proteína. Conforme visto na Seção 2.2, uma dada sequência de aminoácidos permite a identificação precisa de uma proteína. No caso dos genes, os aminoácidos são codificados por meio de trincas de nucleotídeos, conhecidas como códons. Cada trinca corresponde a um aminoácido. Como existem 4 bases nitrogenadas no DNA, é possível formar 64 trincas diferentes, no entanto existem apenas 20 aminoácidos na natureza. A consequência disso é que diversos aminoácidos são codificados por mais de um códon. Essa redundância permite diminuir o impacto das mutações, que são alterações na sequência de nucleotídeos do DNA. Assim a informação presente no DNA é conservada por um período maior de tempo. A Figura 2.8 mostra a associação entre códons e aminoácidos, na tabela do Código Genético. O STOP é um sinal especial utilizado para indicar o final do processo de síntese de uma proteína. Nessa figura, as bases mostradas não são bases do DNA, mas sim as bases do RNA. Isso ocorre pois o RNA transporta a informação contida num gene para o local onde as proteínas serão sintetizadas, processo que será detalhado a seguir. 24

25 Figura 2.8: Associação entre trincas de bases (códons) e aminoácidos. Consulte a Figura 2.4 para a ligação entre o código de três letras e o nome e estrutura dos aminoácidos. 2.5 Dogma central da Biologia Molecular Nesta seção explicaremos como as informações presentes em uma dada molécula de DNA são utilizadas na célula para a síntese de uma proteína. O processo de síntese de uma proteína começa através do reconhecimento do início de um gene graças a uma pequena região do DNA sinalizando o início de um gene, chamada promotor. Tendo localizado o gene, a célula copia a informação do gene criando uma molécula de RNA complementar a uma das fitas de DNA. Esta molécula de RNA é chamada de RNA mensageiro ou mrna. Assim o mrna possui a mesma sequência de uma das fitas de DNA, mas tendo a base U no lugar da T. Este processo é chamado de transcrição. O processo de transcrição descrito acima é válido para seres chamados de procariotos, organismos sem núcleo celular e com o DNA flutuando livremente na célula. Já em organismos chamados eucariotos, seres onde o DNA está armazenado em um núcleo celular, o processo de transcrição é um pouco mais complexo. Os genes dos seres eucariotos são compostos de duas partes, os íntros e os éxons. Após a transcrição, os íntrons são removidos do mrna. Sendo assim, em um organismo eucarioto, nem todas as bases de um gene são utilizadas na transcrição. Ao DNA contendo todas as bases do gene denominamos DNA genômico, e às bases do DNA presentes no mrna após a remoção dos íntrons chamamos DNA codificador (cdna). Feita a transcrição, a proteína será sintetizada em estruturas celulares chamadas de ribossomos. Os ribossomos são estruturas compostas de proteínas e um tipo especial de RNA, chamado de RNA ribossômico e abreviado como rrna. Os ribos- 25

26 somos funcionam como linhas de montagem de proteínas, lendo a informação para síntese do mrna e utilizando moléculas conhecidas como RNA transportadores (trna) para realizar a tradução dos códons para os aminoácidos correspondentes. Mecanismos celulares realizam a junção dos diversos aminoácidos. Mais detalhadamente, os RNAs são as moléculas responsáveis por efetuar a conexão entre os códons e os aminoácidos correspondentes, em um processo chamado tradução. Cada trna é composto de duas partes, uma delas possui afinidade química à um dado códon, enquanto a outra liga-se com facilidade ao aminoácido correspondente ao códon. Conforme a fita de mrna passa pelo ribossomo, um trna correspondente ao códon sendo lido pelo ribossomo liga-se ao códon em questão, trazendo consigo o aminoácido correspondente. Uma enzima então catalisa a ligação peptídica para adicionar o aminoácido em questão à proteína. A síntese prossegue assim, um aminoácido de cada vez, parando apenas quando um códon do tipo STOP é encontrado. Quando isso ocorre, a proteína desliga-se do ribossomo e é liberada na célula. O mrna é degradado para posterior reaproveitamento dos seus componentes. 2.6 Bioinformática A Bioinformática é um campo interdisciplinar envolvendo as áreas de Biologia Molecular, Estatística, Matemática e Ciência da Computação com o objetivo de realizar a análise de dados biológicos, entre eles sequências de bases de DNA e genes, e predizer a estrutura e função de diversas macromoléculas [22]. Apesar de ampla, esta definição não deve ser confundida com Biologia Computacional. A Biologia Computacional preocupa-se com o desenvolvimento de algoritmos rápidos e eficientes para a resolução de diversos problemas biológicos possíveis de serem tratados por meio de técnicas computacionais. Um exemplo é problema do alinhamento de sequências de DNA, que tem entre suas diversas soluções o conhecido algoritmo de Smith-Waterman [27], em homenagem aos criadores do mesmo. Já a Bioinformática tem como foco principal o desenvolvimento de ferramentas para realizar o armazenamento e manipulação dos dados biológicos gerados durante um projeto de sequenciamento. Com o atual volume de dados produzidos pelos projetos de sequenciamento, a utilização de ferramentas computacionais traz grandes auxílios aos biólogos, ao permitir a recuperação rápida dos dados armazenados de um projeto genoma e apresentar os resultados de maneira a facilitar a análise dos mesmos e assim auxiliar na descoberta de funções para as sequências obtidas. Cabe notar que, apesar de serem disciplinas com objetivos distintos, ambas se complementam. Os algoritmos desenvolvidos pela Biologia Computacional são posteriormente incorporados pelas ferramentas de Bioinformática, sendo utilizados pelas últimas para realizar a análise dos dados de um projeto. Assim, Biologia Computacional e Bioinformática estão intimamente relacionadas, sendo difícil, as vezes, distinguí-las. Como vimos, até recentemente os principais projetos genomas utilizam quase exclusivamente a técnica de sequenciamento Sanger. Desta forma, muitas ferra- 26

27 mentas de bioinformática disponíveis eram otimizadas para o trabalho com estes dados. Embora os dados produzidos pelos novos sequenciadores de alto desempenho tenham características diferentes dos dados obtidos com sequenciadores Sanger, o pipeline utilizado para processamento dos mesmos é conceitualmente muito parecido com o pipeline de projetos com sequenciamento Sanger. Dessa forma, o estudo de um pipeline conceitual é importante no sentido de fornecer uma base teórica em relação ao trabalho realizado Pipeline de um projeto de sequenciamento Em um projeto de sequenciament, temos em geral três fases importantes: submissão, montagem e anotação. A submissão consiste no recebimento dos dados resultantes do processo de sequenciamento e no armazenamento de tais dados em um formato adequado para posterior processamento computacional. Entre os vários dados obtidos nesta fase, destacam-se a sequência de bases obtidas, em geral armazenada como um arquivo texto contendo uma sequência de letras, e os valores de qualidade para cada base das sequências, utilizados em posteriores análises para discriminar o quão provável é o fato de a base obtida ser a verdadeira base do DNA do organismo. Após o recebimento de todas as sequências na fase de submissão, segue-se para a etapa de montagem. A montagem consiste no uso de um ou mais programas para tentar unir os diversos fragmentos de DNA obtidos durante o sequenciamento e assim tentar recriar as sequências de DNA originais. Em geral, tal processo não consegue remontar perfeitamente o DNA fragmentado. Sequências de DNA (consenso) obtidas pela união de dois ou mais fragmentos (chamadas contigs), e sequências não agrupadas com outras (chamadas singlets). Feita a montagem do DNA sequenciado, segue-se para a etapa de anotação. A fase de anotação constitui a última fase de um pipeline de sequenciamento. Nesta fase, o objetivo é descobrir as diversas funções biológicas do DNA sequenciado, bem como identificar genes ainda não descobertos, entre outras importantes funções. Para realizar essas tarefas, em geral dividimos a anotação em duas etapas distintas. A anotação automática é executada primeiro e consiste em tentar inferir as funções biológicas das sequências de DNA através de métodos computacionais. Não obstante, a técnica mais comumente empregada neste passo consiste no uso de programas para comparação das sequências obtidas com bancos de dados contendo sequências cujas funções já são conhecidas, tais como o BLAST [1]. Apesar do primeiro genoma completo só ter sido completado em 1976 [11], atualmente esses bancos de dados contém um número imenso de sequências, e crescem diariamente. Feita a anotação automática, procede-se à anotação manual. Nesta etapa, os biológos verificam as inferências feitas durante a anotação automática e as utilizam como um guia para a análise das sequências. Os biológos podem confirmar, mudar ou recusar as sugestões das anotações automáticas. As sugestões também podem ser utilizadas para a realização de experimentos significativos ao trabalho de pesquisa do organismo. Embora o pipeline descrito aqui seja genérico e adaptável a uma série de projetos com diferentes objetivos e técnicas, cabe notar que em geral, o processamento 27

28 realizado em cada etapa é dividido em uma série de programas de Biologia Computacional. A correta integração desses programas no pipeline e a exposição dos resultados significativos são uma preocupação da Bioinformática. A seguir, apresentamos um exemplo de pipeline aplicável em um projeto de sequenciamento baseado na técnica Sanger, apresentando exemplos de programas a serem utilizados em cada uma das fases do pipeline Pipeline para um projeto de sequenciamento Sanger Na fase de submissão de um projeto genoma utilizando sequenciadores Sanger, após a recepção dos arquivos contendo o resultado do sequenciamento, os mesmos são processados pelo programa Phred [10]. Este programa traduz os dados presentes no arquivo em uma sequência de letras contendo as bases identificadas e a probalidade de erro associada a determinação de cada fase. Após isso, o programa Phd2Fasta cria para cada arquivo processado pelo Phred dois arquivos texto no formato FASTA, um contendo a sequência de bases nitrogenadas e outro contendo os valores das probabilidades de erro. As probabilidades de erro constituem valiosa informação pois permitem a remoção de sequências cujas bases contêm uma alta probabilidade de erro, podendo gerar resultados incorretos durante as próximas fases. Assim, embora várias sequências sejam recebidas durante a fase de submissão, nem todas são utilizadas nos próximos passos. Para tanto, a sequência deve possuir uma probabilidade de erro suficientemente baixa, determinada de acordo com cada projeto. Quanto menor essa probabilidade de erro, em geral menos sequências serão aceitas e maior o custo e confiabilidade dos dados do projeto. Como o sequenciamento Sanger envolve a cópia do DNA a ser sequenciado, muitas vezes, antes do sequenciamento propriamente dito, o DNA sequenciado pode conter sequências não pertencentes ao organismo sendo estudado. O programa Cross match identifica e retira vetores e contaminantes das sequências. Por fim, uma análise de redundância das sequências submetidas pode ser feita através do programa CAP3 [14], e os agrupamentos identificados por esse programa consistem em geral sequências redundantes. A montagem das sequências pode ser feita através de programas como o CAP3 ou o Phrap. Estes programas geram arquivos FASTA contendo as sequências de todos os singlets identificados, arquivos com dados sobre a composição e sequências dos contigs, e informações gerais sobre a montagem dos fragmentos de DNA. Por fim, o programa Glimmer [24] pode ser utilizado com o objetivo de identificar os possíveis genes presentes nos contigs e singlets obtidos durante a montagem. Este último passo nem sempre é feito, pois alguns projetos trabalham com cdnas de um dado organismo. Nesse caso, como as sequências de DNA já se constituem em genes, não há a necessidade de se utilizar o Glimmer para identificá-los. Por último, utiliza-se o programa BLAST para comparar as sequências identificadas com bancos de dados de sequências cujas funções já são conhecidas na fase de anotação automática. Os bancos utilizados variam de acordo com o projeto e o organismo sendo estudado. Feito isso, os biológos podem proceder a anotação manual das sequências de acordo com seus conhecimentos. 28

29 Durante todas as etapas anteriormente descritas, são armazenadas estatísticas sobre o projeto em questão, tais como número de sequências aceitas e rejeitadas, número de contigs e singlets encontrados, entre muitos outras. Também são armazenadas as anotações manuais e automáticas feitas durante o processo, e em alguns projetos, as mesmas são armazenadas com o objetivo de verificar possíveis erros cometidos durante o processamento do pipeline Projetos transcritoma Como visto na Seção 2.5, a síntese de uma proteína ocorre através da transcrição das informações contidas no DNA em um RNA mensageiro e posterior tradução desta informação em aminoácidos. Dizemos então que o gene codificando a proteína em questão é expresso. O conjunto dos RNAs mensageiros de uma célula é chamado de transcritoma, e projetos de sequenciamento visando a obtenção desses RNAs mensageiros são conhecidos como projetos transcritoma. A obtenção de todos os transcritomas de todas as células de um dado organismo é uma tarefa complexa, pois nem todos os genes são expressos a todo momento. De fato, durante diferentes fases da vida de um organismo, diferentes genes são expressos em diferentes intensidades. Dessa forma, grande parte dos projetos transcritoma envolvem o sequenciamento dos RNAs mensageiros em um dado estado da vida do organismo de interesse, podendo este ser durante o desenvolvimento de uma planta, a metamorfose de um inseto ou mesmo a ocorrência de um câncer. Para a obtenção dos transcritomas, uma técnica muito utilizada consiste em capturar os RNAs mensageiros de uma célula exposta à dadas condições, e a partir da mesma gerar a sequência de DNA cuja transcrição originou o mrna. Conforme exposto na Seção 2.5, essa fita de mrna é complementar à sequência de DNA que a originou. Portanto, para obter a sequência de nucleotídeos efetivamente expressos durante a produção da proteína em questão, basta obter o complemento desta fita de RNA. A sequência de DNA obtida desta maneira, é conhecida como DNA codificador ou cdna. Para determinar os transcritomas, procede-se ao sequenciamento dos cdnas, seja através do método Sanger, ou por meio dos novos sequenciadores de alto desempenho. Uma das principais informações obtidas através dos transcritomas é o conjunto de proteínas expressas durante uma dada condição de um organismo, por exemplo, durante uma infecção. Estas sequências são chamadas de Expressed Sequence Tags(ESTs). Os ESTs tem um importante papel na anotação de genomas, pois expõem dados sobre as regiões codificadoras de um genoma e provêm uma primeira evidência experimental da existência de um gene predito por alguma ferramenta computacional. No entanto, como os ESTs contém as sequências de DNA efetivamente expressas em um dado momento, uma informação de interesse é a posição na molécula de DNA de onde os ESTs provêm. Em outras palavras, é interessante identificar a região do DNA cuja transcrição dá origem a um dado EST. Isso é feito por meio de uma fase chamada de mapeamento, na qual se busca alinhar os ESTs obtidos durante um projeto transcritoma a um genoma de referência, às vezes, o genoma do próprio organismo de onde os ESTs derivaram. No entanto, outros organismos 29

30 podem ser utilizados. Um exemplo seria o mapeamento utilizando uma espécie próxima do organismo de interesse, com o objetivo de detectar quais proteínas são expressas por ambos os seres vivos, e quais proteínas são potencialmente exclusivas à somente um deles. Em um projeto transcritoma, a anotação apresenta certas diferenças em relação a projetos de sequenciamento de DNA. Um dos principais objetivos da fase de anotação de um projeto transcritoma é a identificação de RNAs não codificadores (ncrnas). Embora toda proteína seja obtida por meio da tradução de um RNA mensageiro, e em última instância por um RNA, nem todo RNA está diretamente ligado à produção de uma proteína. RNAs não diretamente ligados a síntese de proteínas são os ncrnas, e estão ligados à uma série de processos celulares importantes, como a degradação do mrna, replicação do DNA e inibição do processo de tradução entre outros. Para a identificação de ncrnas podem ser utilizadas, além da comparação de sequências, técnicas de Inteligência Artificial, em especial o aprendizado por máquina. Tal técnica consiste no processamento de uma massa de dados específica por um programa de computador, com o objetivo de fornecer parâmetros pelos quais o programa poderá buscar informações de interesse nos dados a serem analisados. Por exemplo, a busca de ncrnas em projetos transcritoma. Dois exemplos de técnicas utilizadas com esse propósito são o naive Bayes e o Support Vector Machines. Tais abordagens são utilizadas pois não só permitem uma nova perspectiva de análise, como também efetuam análises mais rápidas em comparação com ferramentas existentes, sem perda significativa de acurácia. A anotação de projetos transcritoma também usa métodos para comparação de sequências. Nesse caso, os bancos de dados de sequências são ESTs providas de outros projetos transcritoma depositadas em bancos de dados públicos. Alguns desses bancos podem ser obtidos gratuitamente através da internet, em geral através do uso do File Transfer Protocol (FTP). Além das diferentes bases de dados utilizadas na fase de anotação de projetos transcritoma, diferentes ferramentas são utilizadas para a comparação de sequências. Apesar de ferramentas como o BLAST em geral estarem presentes nestes projetos, ferramentas especializadas projetadas para a comparação de RNAs mensageiros e sequências genômicas também são muito utilizadas. Um exemplo deste último tipo é o comparador de sequências BLAT [16]. 30

31 Capítulo 3 Sequenciadores Massivamente Paralelos Embora o sequenciamento Sanger tenha sido a técnica de sequenciamento dominante durante os últimos anos, novas técnicas de sequenciamento massivamente paralelas atingiram o mercado e estão revolucionando a forma como se realiza o sequenciamento de DNA no mundo. Ao permitirem o sequenciamento de milhões de sequências a um custo muito baixo em comparação com o método Sanger, esses métodos tiveram um grande impacto nas áreas de pesquisa onde se realizam sequenciamentos de DNA, e abriram novas frentes de pesquisa, tais como o estudo de DNAs antigos, como mamutes, e a caracterização da diversidade ecológica por meio do sequenciamento de DNA de amostras ambientais [19]. A fim de propor um pipeline para processamento das sequências geradas pelos sequenciadores massivos, devemos entender melhor o seu funcionamento, e quais os desafios enfrentados devido as técnicas de sequenciamento utilizadas por cada um. Na Seção 3.1 estudaremos o funcionamento do sequenciador 454-FLX da Roche. A Seção 3.2 expõe a técnica de sequenciamento utilizado pelo sequenciador Illumina da empresa Solexa FLX Roche Este sequenciador foi o primeiro a aparecer no mercado, em 2004, e utiliza uma técnica de sequenciamento conhecida como pirosequenciamento. No pirosequenciamento a incorporação de cada nucleotídeo a uma fita de DNA por meio da enzima DNA polimerase acarreta a liberação de pirofosfato. Esta molécula por sua vez, inicia uma série de reações químicas cujo produto final é a liberação de luz. A detecção da luz por um sensor permite a determinação das bases de uma sequência de DNA. Uma característica importante desta técnica é que, a cada vez que um mesmo nucleotídeo é incorporado a sequência, a intensidade da luz liberada aumenta. Se essa intensidade ultrapassar a capacidade do detector de luz, a leitura do número de bases iguais será incorreta. Este é o principal tipo de erro enfrentado por este tipo de sequenciador, a incorreta determinação do número de bases em um monômero (molécula formada pela repetição de uma mesma estrutura), tal como CCCCCCC. 31

32 Agora descreveremos como o sequenciador 454/Roche efetua o sequenciamento. O primeiro passo no processo de sequenciamento consiste na amplificação do DNA a ser sequenciado. Isso é feito misturando-se os fragmentos de DNA com estruturas de agarose 1 contendo sequências de DNA complementares às sequências adaptadoras do 454 presentes nos fragmentos a serem sequenciados. Desta forma cada estrutura de agarose fica ligada a um único fragmento de DNA. A seguir, cada uma dessas estruturas contendo um fragmento de DNA é isolada em micélios óleo:água contendo reagentes para a enzima DNA polimerase. Através de um ciclo térmico, produzem-se um milhão de cópias do fragmento de DNA contidos na superfície da estrutura de agarose. Após a amplificação do DNA, realiza-se o sequenciamento propriamente dito. Cada estrutura de agarose é colocada em um recipiente de estrutura de silica capilar, contendo centenas de milhares de locais para inserção de uma estrutura de agarose. O objetivo destes recipientes é fornecer uma localização fixa para monitoramento das reações de sequenciamento. Em cada recipiente, enzimas que catalizam a reação de pirosequenciamento são adicionadas a cada recipiente e a mistura é centrifugada com o objetivo de cobrir as agaroses com as enzimas. A incorporação de cada nucleotídeo é feita em um passo de cada vez, e em cada passo um sensor CCD registra a luz emitida em cada recipiente, assim determinando a sequência de DNA, uma base por vez. No entanto, tal sensor não consegue interpretar corretamente a incorporação de um mesmo nucleotídeo várias vezes (mais de 6), o que significa que porções de DNA onde uma mesma base ocorre várias vezes podem acarretar erros. Caso o número de bases determinados pelo sequenciador, temos um erro de inserção, se for menor teremos um erro de remoção. O sequenciador 454 provê sequências de cerca de 250 bases de comprimento durante um processamento de 8 horas. Após um processamento para a remoção de sequências com baixa qualidade, obtemos cerca de 100 milhões de bases com boa qualidade em média. Apesar do tamanho das sequências obtidas com o sequenciador 454 ser muito menor em comparação com os sequenciadores Sanger, o mesmo foi utilizado com sucesso no sequenciamento de genomas virais e bacteriais com alta qualidade. A Figura 3.1 mostra esquematicamente o processo descrito nesta seção. 1 A agarose é um polímero composto de subunidades de galactose. Quando dissolvida em água quente e seguidamente arrefecida, a agarose toma uma consistência gelatinosa, este gel é muito utilizado em biologia molecular para atividades como sequenciamento. 32

Exibir mais