UNIVERSIDADE ABERTA DO BRASIL/UNIVERSIDADE FEDERAL DE SÃO PAULO ESPECIALIZAÇÃO EM INFORMÁTICA EM SAÚDE TRABALHO DE CONCLUSÃO DE CURSO 2016/2 APLICAÇÃO DA BIOINFORMÁTICA NO SEQUENCIAMENTO DE NOVA GERAÇÃO. BIOINFORMATICS APPLICATION IN NEW GENERATION SEQUENCING Jéssica Cristina Dib Caetano ¹ Denise Caluta Abranches ² 1. Bacharel em Biomedicina, Unirondon, Cuiabá-MT. Especialista em Patologia Clínica modalidade Biologia Molecular, pelo Hospital Israelita Albert Einstein, São Paulo-SP. 2. Professora Doutora. Universidade Aberta do Brasil, Universidade Federal de São Paulo UNIFESP, São Paulo (SP), Brasil. EIXO TEMÁTICO: Bioinformática. LINHA DE PESQUISA: Aplicação da Bioinformática em técnicas de biologia molecular. Endereço para correspondência: Jéssica Cristina Dib Caetano. Rua Turiassu, nº1085, Perdizes, São Paulo SP. CEP: 05005001. E-mail: dib_caetano@hotmail.com.
UNIVERSIDADE ABERTA DO BRASIL/UNIVERSIDADE FEDERAL DE SÃO PAULO ESPECIALIZAÇÃO EM INFORMÁTICA EM SAÚDE TRABALHO DE CONCLUSÃO DE CURSO 2016/2 APLICAÇÃO DA BIOINFORMÁTICA NO SEQUENCIAMENTO DE NOVA GERAÇÃO. BIOINFORMATICS APPLICATION IN NEW GENERATION SEQUENCING Jéssica Cristina Dib Caetano ¹ Denise Caluta Abranches ² 1. Bacharel em Biomedicina, Unirondon, Cuiabá-MT. Especialista em Patologia Clínica modalidade Biologia Molecular, pelo Hospital Israelita Albert Einstein, São Paulo-SP. 2. Professora Doutora. Universidade Aberta do Brasil, Universidade Federal de São Paulo UNIFESP, São Paulo (SP), Brasil. Resumo O projeto genoma trouxe uma demanda por ferramentas de geração de dados e armazenamento e análise, com isso surgiu a Bioinformática. A Bioinformática que é a união de diversas disciplinas com a função de resolver questões biológicas, reunindo conhecimentos ciência da computação, biologia molecular e matemática. E com surgimento e evolução da Bioinformática, surge o sequenciamento de nova geração e são inúmeras aplicações de ferramentas em todas as etapas do sequenciamento de nova
geração. E esta pesquisa pauta-se em descrever estas aplicações e foram utilizadas como referências para seu desenvolvimento artigos pesquisados em bases de dados Lilacs, Scielo, Pub Med e Bireme. Entre as ferramentas descritas estão programas de banco de dados, sistemas operacionais, programas de alinhamento de sequências, programas de matrizes de substituição, programas de leitura das sequências, programa de agrupamentos das sequências e programas de anotação gênica. Está evidente a aplicação da Bioinformática no Sequenciamento de nova geração e como evoluem em conjunto. Palavras-chave: Bioinformática, Sequenciamento de Nova Geração, Projeto Genoma Humano. Abstract The genome project brought a demand for data generation and storage and analysis tools, which led to Bioinformatics. Bioinformatics is the union of several disciplines with the function of solving biological issues, bringing together computer science, molecular biology and mathematics. And with the emergence and evolution of Bioinformatics, new generation sequencing emerges and there are numerous tool applications at all stages of new generation sequencing. And this research is based on describing these applications and were used as references for their development articles searched in databases Lilacs, Scielo, Pub Med and Bireme. Among the tools described are database programs, operating systems, sequence alignment programs, replacement matrix programs, sequence reading programs, sequence grouping program, and gene annotation programs. The application of Bioinformatics in the sequencing of new generation is evident and how they evolve together. Key-words: Bioinformática, Sequenciamento de Nova Geração, Projeto Genoma Humano. 1 Introdução O projeto genoma humano iniciado em 1990 nos Estados Unidos, em conjunto com outros países, que teve seu término em 2003, dois anos antes do planejado, teve
como função compreender as bases de funcionamento dos seres vivos, através do sequenciamento de todo genoma humano e mapeamento dos genes humano. Estavam entre os principais objetivos o armazenamento de informações em banco de dados e desenvolver ferramentas em análise de dados. Entre as descobertas se concluiu que o genoma humano contém um código genético composto por 10 trilhões de células em cada ser humano, com influências profundas no nosso comportamento, corpo e mentes. Que cada ser humano que existiu na terra com exceção de gêmeos idênticos, possui um genoma único, embora sejam idênticos 99,9%, ainda são milhões de diferenças em 3,2 bilhões de pares de bases de nucleotídeos que integram o genoma.¹ O sequenciamento do genoma humano foi um passo essencial para o entendimento e planejamento de pesquisas biomédicas, mas é uma parte de um todo, portanto agora se deve cruzar as informações genéticas com os dados clínicos, étnicos e informações ambientais para ter um quadro amplo.¹ A realização do projeto genoma humano somente foi possível pelo advento da bioinformática, as pesquisas envolvendo bioinformática são caracterizadas por aplicação de avançados métodos computacionais para resolver questões biológicas, sendo de suma importância para organização, armazenamento e análise de dados. A bioinformática não é apenas responsável pelas bases de dados, tem a função de fazer análise de informações altamente complexas, que apenas podem ser avaliadas por equipamentos automatizados.² Umas das ferramentas crucial da bioinformática são as técnicas de sequenciamento, as plataformas de sequenciamento de nova geração são essenciais para genômica estrutural e funcional. A partir do sequenciamento de nova geração foi possível obter informações de milhões de pares de bases numa única corrida.³ A análise de sequenciamento de nova geração Next Generation Sequencing (NGS),em laboratórios clínicos está sendo introduzida já que permite a análise em paralelo de várias regiões e até da sequência inteira, permitindo a identificação de mutações em diferentes genes. 4 A principal aplicação da bioinformática tem sido o processamento de dados gerados pelo sequenciamento de nova geração, todas estas massas de dados são armazenadas nos bancos de dados como o Genbank do NCBI (National Center for Biotechnology Information) e o banco de proteínas Uniprot (Universal Protein Resource), para que sejam informações importantes para pesquisas biológicas e a
análise de dados ocorre pela comparação entre muitas quantidades de sequências de DNA, RNA ou de proteínas, que são dependentes de algoritmos eficientes que sejam executados em plataformas computacionais de alto desempenho. 5 Contudo, esta pesquisa objetiva-se a destacar as aplicações da bioinformática no sequenciamento de nova geração, visto que pra existência e evolução do sequenciamento de nova geração é crucial o uso de ferramentas da bioinformática. 2- Método Trata-se um estudo descritivo pautado na pesquisa de artigos das bases de dados Lilacs, Scielo, Pub Med e Bireme. Os termos utilizados na pesquisa foram: Sequenciamento de nova geração, Bioinformática, Projeto Genoma Humano e Genômica. Os critérios para inclusão foram textos que abordassem a aplicação da bioinformática por intermédio do sequenciamento de nova geração. 3 Resultados e Discussão As aplicações da bioinformática em sequenciamento de nova geração estão em todo processo da execução do exame e na análise que se segue até encontrar os resultados pertinentes, são inúmeras ferramentas para ser feito a análise de uma sequência, que demandam multiprofissionais, para interpretar os resultados de maneira eficiente e confiável. O sequenciador de nova geração surgiu como uma alternativa de baixar os custos e acelerar as análises por possibilitar uma análise maior de pares de bases por corrida, que o sequenciamento sanger, padrão ouro em questão de sequenciamento. Hoje estão no mercado duas plataformas de sequenciamento de nova geração, que são mais frequentes nos laboratórios, o Illumina e o Ion Torrent, que utilizam metodologias diferentes. O NGS basicamente tem os mesmo passos para realização do exame, as etapas são preparo da amostra que se resume na fragmentação de DNA por processo químicos, enzimático ou mecânico, para que todo genoma seja comtemplado. 6
A próxima etapa é a amplificação da biblioteca que tem como função gerar milhares de cópias de cada fragmento de DNA produzido na etapa do preparo da amostra e o exame se finaliza com o sequenciamento. 6 O sequenciador executa uma série de reações químicas, estes sinais gerados e detectados que determinam a sequência de bases analisadas. A grande parte dos sequenciadores utiliza um DNA polimerase como fita complementar ao template, bases marcadas com fluoroforos, e câmeras pra detecção. Entretanto o Ion Torrent a detecção é feita por uma reação de polimerização que gera H +³, um próton que altera o PH do meio, esta alteração é detectada e transmitida em sinal elétrico. 6 São várias ferramentas de bioinformática utilizada pelo NGS para análise de resultados, de acordo com a análise que é feita estas ferramentas são requisitadas, são sistemas operacionais, banco de dados, programas de alinhamentos de sequências, programas de matrizes de substituição, programas de leitura das sequências, programa de agrupamentos das sequências e programas de anotação gênica. Os sistemas operacionais utilizados mais comumente são o Windows, Unix e MacOS. Porém ao uma preferência pelo Unix por ser mais confiável, trabalham melhor com volume grande de dados e algumas variantes dele como Linux tem código aberto e distribuição gratuita. 7 Os bancos de dados são na maioria unidos ao um sistema de gerenciamento, que é responsável pela construção, manipulação e administração desse banco dados alguns exemplos sistema de gerenciamento são MySQL, PostgreSQLe Oracle. Os bancos de dados armazenam todas as informações geradas pelo sequenciamento são milhares de dados o mais utilizado na bioinformática é o GenBank. 7 Há dois tipos de banco de dados os estruturais e funcionais, além de ser divididos em primários e secundários, nestes bancos de dados são armazenados diversas informações como estruturas de moléculas, expressão gênica, diversidade genética além das sequências geradas no NGS e outros métodos. 8 O alinhamento de sequência é usado para identificar similaridades de duas ou mais sequências e similaridades de fragmentos, pode ser executados pela rede de internet, os principais programas são FASTA, ClustalW e Multialin. As matrizes de substituição são usadas para auxiliar o alinhamento de sequências, sendo uma alternativa aos valores fixos de pontuação de combinações, as mais utilizadas as pertencentes à família de matrizes PAM. 7
NGS. 10 As aplicações do NGS são diversas, mas a grande possibilidade criada foi a Um dos programas de leitura de sequência são os programas de Base Calling, que se resume em um programa de leitura do sequenciador e identificação da sequência gerada, que atribui também um valor de qualidade a cada posição de nucleotídeo, o mais usado é PHRED. 7 Após a utilização de programas de Base Calling, passa o resultado para um programa de CrossMatch que vai identificar contaminantes, que são regiões que não representam o cdna ou DNA. Depois se usa programas de agrupamentos de sequências, o software mais utilizado é o PHRAP (Phragment Assembly Program), que responsável pela leitura da Base Call e a montagens dos fragmentos. 7 A anotação gênica é a etapa final que é realizada numa análise onde se faz a identificação de genes na sequência de DNA e atribuem as funções. Entres os principais softwares para anotações gênicas estão o Genscan, BLAST e Repeat Masker. As etapas de anotações gênicas são anotações e agrupamentos das sequências, identificar as sequências com critérios pré-definidos e por último deve ser discutir com resultados encontrados como relaciona a biologia do organismo em questão. 7-8 A bioinformática tem como desafio a geração de conhecimento e aplicações de grandes plataformas que evoluirá com a gestão de bases de dados e vai construir mais conhecimentos e o NGS vai evoluir em conjunto com a bioinformática já que estão interligadas. 9 A bioinformática surgiu para interpretar os dados referentes ao sequenciamento de genoma, mas a constante evolução dela que permitiu a existência da plataforma medicina personalizada que coloca em foco uma medicina que pode identificar genes relacionados a doenças hereditárias, oncológicas e infecciosas. Portanto agora antes mesmo do desenvolvimento da patologia se puder identificar a presença do gene. E se já acometido por uma doença pode analisar o gene e propor um tratamento personalizado para o paciente. 4 È inegável as aplicações da bioinformática em todo processo que envolve o NGS, e no detalhamento dos processos fica claro que a existência do NGS se condiciona ao avanço da bioinformática. Na tabela a seguir a exposição dos artigos que auxiliaram na produção desta pesquisa e foram essenciais pros resultados obtidos e conclusão desse estudo.
Referências Artigos Resultados Ojopi, Elida P. Benquique et al O genoma humano e as perspectivas para o estudo da esquizofrenia. Pereira, Andresa Costa; Silva A bioinformática na pesquisa de Marco Antonio da et al odontológica brasileira. Carvalho, Mayra Costa da Cruz Sequenciamento de DNA de nova Gallo de; Silva, Danielle geração e suas aplicações na genômica Cristina Gregorio da. de plantas. Pinho, João Renato Rebello; Medicina Personalizada e o laboratório Sitnik, Roberta; Mangueira, clínico. Cristóvão Luis Pitangueira Figueirôa, Luiz Henrique Alves. Uma plataforma híbrida baseada em FPGA para a aceleração de um algoritmo de alinhamento de sequências biológicas. Varuzza, Leonardo. Introdução à análise de dados de sequenciadores de nova geração. Prosdocimi F.,Cerqueira Bioinformática: Manual do Usuário. G.C.,Binneck E.,et al; Santos, Fabricio R.; Ortega, Bioinformática aplicada à genômica. José Miguel. Coltell, Óscar et al. La bioinformática en la práctica médica: Integración de datos biológicos y clínicos. Wieczorek E.M.;Leal E Caminhos e Tendências do uso de Bancos de Dados em Bioinformática. Tabela 1- Referências de estudos utilizados para produção desta pesquisa. A partir das informações genéticas podem avançar em pesquisas em relação a esquizofrenia. Avalia o papel da bioinformática na pesquisa odontológica brasileira. Estudos das plataformas de sequenciamento usados em pesquisa da genômica das plantas. A Medicina Personalizada é de grande importância nos dias atuais e o sequenciamento de nova geração que possibilitou sua evolução e aplicações nos laboratórios clínicos. Nesta pesquisa descreve um projeto que tem como objetivo a aceleração do algoritmo de alinhamento global de sequências biológicas. Introduz o sequenciamento de nova geração e todas as etapas e ferramentas. Descreve todas as ferramentas aplicadas nas analises de dados derivados das plataformas de sequenciamento. Expor todas as aplicações da Bioinformática na genômica. Expõem as aplicações da bioinformática na informática médica, bioinformática, informática biomédica e bioinformática clínica. Descrição dos caminhos e tendências dos bancos de dados com uma revisão da literatura de artigos relacionados com tema. 4 Conclusão A bioinformática é essencial para o desenvolvimento de pesquisas em Sequenciamento de Nova geração, e foi a partir do sequenciamento de nova geração que podemos evoluir na nova concepção de medicina, uma medicina personalizada onde o paciente pode conhecer as suas predisposições genéticas a desenvolver doenças e estudar seus genes quando acometidos por patologias para um atendimento mais personalizado. Agradecimentos A autora agradece a sua Vó Eni Sebastiana Oliveira Caetano in memorian por todas as lições ao longo da vida.
Á sua mãe Zaine Mohamed Dib e pai Carlos Alberto Caetano por todo apoio e dedicação ao longo desta caminhada. Ao seu amigo Flávio Henrique Oliveira que sempre estava presente para aconselhar. Referências 1. Ojopi, Elida P. Benquique et al. O genoma humano e as perspectivas para o estudo da esquizofrenia. Rev. psiquiatr. clín., São Paulo, v. 31, n. 1, p. 9-18, 2004. 2. Pereira, Andresa Costa; Silva Marco Antonio da et al. A bioinformática na pesquisa de odontológica brasileira. Journal of Hearth Informatics, outubrodezembro, 2013. 3. Carvalho, Mayra Costa da Cruz Gallo de; Silva, Danielle Cristina Gregorio da. Sequenciamento de DNA de nova geração e suas aplicações na genômica de plantas. Cienc. Rural, Santa Maria, v. 40, n. 3, p. 735-744, Mar. 2010. 4. Pinho, João Renato Rebello; Sitnik, Roberta; Mangueira, Cristóvão Luis Pitangueira. Medicina Personalizada e o laboratório clínico. Einstein, São Paulo 2014. 5. Figueirôa, Luiz Henrique Alves. Uma plataforma híbrida baseada em FPGA para a aceleração de um algoritmo de alinhamento de sequências biológicas, Dissertação de mestrado Universidade Federal de Pernambuco. Ciência da computação, 2015. 6. Varuzza, Leonardo. Introdução à análise de dados de sequenciadores de nova geração. Versão 2.0.1. Abril 2013. 7. Prosdocimi F.,Cerqueira G.C.,Binneck E.,et al; Bioinformática: Manual do Usuário. Biotecnologia Ciência e Desenvolvimento n 29, p. 12-25.
8. Santos, Fabricio R.; Ortega, José Miguel. Bioinformática aplicada à genômica. Manuscrito para capítulo do Biowork IV. 9. Coltell, Óscar et al. La bioinformática en la práctica médica: Integración de datos biológicos y clínicos. Rev. méd. Chile, Santiago, v. 136, n. 5, p. 645-652, mayo 2008. 10. Wieczorek E.M.;Leal E.; Caminhos e Tendências do uso de Bancos de Dados em Bioinformática. Curso de Sistemas de Informação Centro Universitário Luterano de Palmas (CEULP), Palmas-TO.