RELATÓRIO TÉCNICO - CIENTÍFICO



Documentos relacionados
Programa Institucional de Bolsas de Iniciação Científica em Desenvolvimento Tecnológico e Inovação PIBITI/CNPq/USP. Pró-Reitoria de Pesquisa

Metadados. 1. Introdução. 2. O que são Metadados? 3. O Valor dos Metadados

A BIOINFORMÁTICA COMO INSTRUMENTO DE INSERÇÃO DIGITAL E DE DIFUSÃO DA BIOTECNOLOGIA.

Teste de Software: Um Breve Estudo do Importante Processo no Desenvolvimento de Softwares

FACULDADE DE MEDICINA DE SÃO JOSÉ DO RIO PRETO FAMERP PLANO DE ENSINO. Carga horária Total:

TÉCNICAS DE PROGRAMAÇÃO

Universidade Estadual de Londrina (Reconhecida pelo Decreto Federal n de 07/10/71)

A SEGUIR ALGUMAS DICAS PARA O DESENVOLVIMENTO DE UM PROJETO CIENTÍFICO

UNIÃO EDUCACIONAL DO NORTE UNINORTE AUTOR (ES) AUTOR (ES) TÍTULO DO PROJETO

DIFUSÃO E DIVULGAÇÃO DA BIOTECNOLOGIA PARA ALUNOS DO ENSINO FUNDAMENTAL NO MUNICÍPIO DE CAMPOS DOS GOYTACAZES RJ

PROCEDIMENTOS DE AUDITORIA INTERNA

Ferramenta para Comunicação Empresarial: Estudo de Caso Marluvas

Áudio GUIA DO PROFESSOR. Idéias evolucionistas e evolução biológica

SERVIÇO PÚBLICO FEDERAL SECRETARIA DE EDUCAÇÃO PROFISSIONAL E TECNOLÓGICA INSTITUTO FEDERAL GOIANO CÂMPUS POSSE-GO

PRÓ-REITORIA DE ENSINO

FEUP RELATÓRIO DE CONTAS BALANÇO

Introdução. Capítulo. 1.1 Considerações Iniciais

FMEA (Failure Model and Effect Analysis)

ORGANIZAÇÃO DE COMPUTADORES MÓDULO 1

Cálculo de volume de objetos utilizando câmeras RGB-D

Em FORMATO E-LEARNING PQ A Página 1 de 6

CURSO: ADMINISTRAÇÃO GUIA DO TRABALHO FINAL

Instruções. Formulário de Gerenciamento de Estágio Probatório

DESENVOLVIMENTO DE COMPETÊNCIAS E TALENTOS

RESOLUÇÃO SESQV Nº 006 DE 15 DE SETEMBRO DE 2011.

Abstrações e Tecnologias Computacionais. Professor: André Luis Meneses Silva /msn: andreluis.ms@gmail.com Página: orgearq20101.wordpress.

IMPLEMENTAÇÃO DE UM PROTÓTIPO PARA INFORMATIZAÇÃO DE PROCESSO DE ADEQUAÇÃO DE FÉRIAS

Sistemas de Arquivos NTFS, FAT16, FAT32, EXT2 e EXT3

3.1 Definições Uma classe é a descrição de um tipo de objeto.

Carga horária : 4 aulas semanais (laboratório) Professores: Custódio, Daniel, Julio foco: introdução a uma linguagem de programação Linguagem Java

Qualidade e Comportamento do Produto em Pós-venda

PLATAFORMA DE DESENVOLVIMENTO PINHÃO PARANÁ TABELIÃO INTERFACE ADMINISTRATIVA MANUAL DE PRODUÇÃO

Projeto Físico e Lógico de Redes de Processamento. Kleber A. Ribeiro

Universidade Federal do Acre Departamento de Ciências Agrárias Pet- Agronomia

Planejamento - 7. Planejamento do Gerenciamento do Risco Identificação dos riscos. Mauricio Lyra, PMP

PROJETO DE REDES

CHAMADA PÚBLICA SIMPLIFICADA Nº 15/2013 SELEÇÃO DE PROFISSIONAIS PARA O PROJETO REGISTRO DE IDENTIDADE CIVIL REPLANEJAMENTO E NOVO PROJETO PILOTO

ÁREAS DE CONCENTRAÇÃO/LINHAS DE PESQUISA

PRÓ-REITORIA DE PESQUISA E PÓS-GRADUAÇÃO. EDITAL DO PROGRAMA INSTITUCIONAL DE BOLSAS DE INICIAÇÃO TECNOLÓGICA E INOVAÇÃO PIBITI/CNPq-UERGS 2011/2012

PROGRAMA INSTITUCIONAL DE BOLSAS DE INICIAÇÃO EM DESENVOLVIMENTO TECNOLÓGICO E INOVAÇÃO PIBITI EDITAL N o 03/2009

RECOMENDAÇÕES PARA ELABORAÇÃO

Modelo de Trabalho de Culminação de Estudos na Modalidade de Projecto de Pesquisa

Capítulo 7 Nível da Linguagem Assembly

ANEXO V Edital nº 03508/2008

ORIENTAÇÕES AOS DISCENTES E DOCENTES DA PÓS-GRADUAÇÃO EM QUÍMICA/UFJF MESTRADO

JinSol, uma interface em Java para solvers lineares.

Análise comparativa sobre bases de dados para armazenamento e consulta de dados não estruturados no formato JSON.

QUESTÕES INTERDISCIPLINARES (Biologia/Química) PUCSP

natureza do projeto e da aplicação métodos e ferramentas a serem usados controles e produtos que precisam ser entregues

ESTUDO EXPLORATÓRIO DA PERCEPÇÃO DE ALUNOS DO ENSINO MEDIO SOBRE BIOTECNOLOGIA

APLICAÇÕES E ANÁLISE DE SISTEMAS SUPERVISÓRIOS "SCADA"

Universidade Federal de Itajubá Pró-Reitoria de Pesquisa e Pós-Graduação Diretoria de Pesquisa e Inovação. EDITAL N o /2013

Resumo de alterações da versão 2.0 para a 3.0 do PA-DSS

NÚCLEO DE APOIO ESPECIALIZADO EM PROGRAMAÇÃO. Lucas Schwendler; Darlei Feix; Andreia Sias Rodrigues

Volume e qualificação de emprego. O papel do Grupo Unifloresta na dinamização da economia local. Unimadeiras

DGAJ/DF. Curso em E-learning

REGISTRO DE PRODUTOS VETERINÁRIOS FORMULÁRIO DE REGISTRO DE VACINAS DE SUBUNIDADES OBTIDAS POR MÉTODOS BIOTECNOLÓGICOS

UNIVERSIDADE EDUAL DE FEIRA DE SANTANA Chamada Pública. Abertura de Inscrições para Seleção de Bolsistas PIBITI/CNPq 01/2015

MINISTÉRIO DO DESENVOLVIMENTO SOCIAL E COMBATE À FOME. Secretaria-Executiva. Diretoria de Projetos Internacionais - DPI CONTRATAÇÃO DE CONSULTOR

Programa de Iniciação Científica Faculdade Integral Cantareira

SISTEMA DE AUTOMONITORAMENTO INDIVIDUALIZADO DE TI s E MÉTODO DE DIAGNÓSTICO PARA SISTEMAS DE MEDIÇÃO DE ENERGIA ELÉTRICA

CAPITAL DE GIRO: ESSÊNCIA DA VIDA EMPRESARIAL

NORMAS DE PARTICIPAÇÃO FREGUESIA

UNIVERSIDADE FEDERAL DE SANTA MARIA COLÉGIO TÉCNICO INDUSTRIAL DE SANTA MARIA Curso de Eletrotécnica

Utilizando os Diagramas da UML (Linguagem Unificada de Modelagem) para desenvolver aplicação em JSF

2. DAS MODALIDADES E DOS REQUISITOS PARA O CANDIDATO À BOLSA

Trabalho de Voluntariado Banco de Alimentos

Automação. Industrial. Prof. Alexandre Landim

deficiências gênicas em amostras de DNA, de seres humanos e/ou animais, o qual além

PROGRAMA DE ACÇÃO COMUNITÁRIO RELATIVO À VIGILÂNCIA DA SAÚDE. PROGRAMA DE TRABALHO PARA 2000 (Nº 2, alínea b), do artigo 5º da Decisão nº 1400/97/CE)

c. Técnica de Estrutura de Controle Teste do Caminho Básico

ITIL v3 - Operação de Serviço - Parte 1

FACCAMP MANUAL DE ATIVIDADES COMPLEMENTARES DO CURSO DE ENGENHARIA CIVIL. Faculdade Campo Limpo Paulista CAMPO LIMPO PAULISTA

Nota Técnica Atuarial de Carteira

REVISTA DO CURSO DE ADMINISTRAÇÃO

CRITÉRIOS DE AVALIAÇÃO

UNIVERSIDADE FEDERAL DO ESTADO DO RIO DE JANEIRO UNIRIO

Prof. Daniela Barreiro Claro

TERMO DE REFERÊNCIA. Contrato por Produto Nacional

TCC CURSO POS-GRADUAÇÃO ESPECIALIZAÇÃO DESIGN INSTRUCIONAL ROTEIRO DO PROJETO DE DESIGN INSTRUCIONAL DE UM CURSO

ESTRUTURA DE GERENCIAMENTO DE RISCO DE LIQUIDEZ. 1 ) Introdução

UNIVERSIDADE FEDERAL RURAL DE PERNAMBUCO ASSESSORIA DE COOPERAÇÃO INTERNACIONAL

Principais Responsabilidades:

FAZEMOS MONOGRAFIA PARA TODO BRASIL, QUALQUER TEMA! ENTRE EM CONTATO CONOSCO!

O ENSINO DE CÁLCULO NUMÉRICO: UMA EXPERIÊNCIA COM ALUNOS DO CURSO DE CIÊNCIA DA COMPUTAÇÃO

MODELAGEM E SIMULAÇÃO

INSTITUTO SUPERIOR DE EDUCAÇÃO, SAÚDE E PESQUISA -ISESP

O Uso da Inteligência Competitiva e Seus Sete Subprocessos nas Empresas Familiares

TechProf Documento de Arquitetura

UNIVERSIDADE DE SANTA CRUZ DO SUL UNISC CURSO DE COMUNICAÇÃO SOCIAL REGULAMENTO DOS TRABALHOS DE CONCLUSÃO DE CURSO

CADERNOS DE INFORMÁTICA Nº 1. Fundamentos de Informática I - Word Sumário

The next generation sequencing

Tecnologia WEB II. Prof. Erwin Alexander Uhlmann. Introdução ao PHP. UHLMANN, Erwin Alexander. Introdução ao PHP. Instituto Siegen. Guarulhos, 2012.

Mecanismo de Avaliação e Satisfação de Clientes

APERFEIÇOAMENTO DE PROCEDIMENTOS ESTATÍSTICOS PARA AVALIAÇÃO INSTITUCIONAL ONLINE: IMPLANTAÇÃO DE RELATÓRIOS ARMAZENÁVEIS

Roteiro SENAC. Análise de Riscos. Planejamento do Gerenciamento de Riscos. Planejamento do Gerenciamento de Riscos

Bioinformática. Licenciaturas em Biologia, Bioquímica, Biotecnologia, Ciências Biomédicas, Engenharia Biológica. João Varela

3. PESQUISA. 3.1.Tipo de Pesquisa

Transcrição:

UNIVERSIDADE FEDERAL DO PARÁ PRÓ-REITORIA DE PESQUISA E PÓS-GRADUAÇÃO DIRETORIA DE PESQUISA PROGRAMA INSTITUCIONAL DE BOLSAS DE INICIAÇÃO CIENTÍFICA PIBIC : CNPq, CNPq/AF, UFPA, UFPA/AF, PIBIC/INTERIOR, PARD, PIAD, PIBIT, PADRC E FAPESPA Período: Agosto/2014 a Julho/2015 ( ) PARCIAL (X) FINAL RELATÓRIO TÉCNICO - CIENTÍFICO Título do Projeto de Pesquisa: Análise da genômica funcional de Corynebacterium pseudotuberculosis biotipos ovis e equi sob diferentes condições de estresse biologicamente relevantes. Nome do Orientador: Rommel Thiago Jucá Ramos Titulação do Orientador: Doutor Faculdade: Faculdade de Biotecnologia Instituto/Núcleo: Instituto de Ciências Biológicas Laboratório: Centro de Título do Plano de Trabalho : Desenvolver um algoritmo para a montagem de genomas sequenciados pela plataforma Ion Torrent PGM. Nome do Bolsista: Diego Magalhães de Melo Tipo de Bolsa : (X) PIBIC/ CNPq 1

1. Introdução Um genoma consiste no conjunto de informações presentes no DNA de um determinado organismo (PROSDOCIMI, 2007). O estudo do genoma visa o conhecimento amplo da estrutura e função de genes, tornando possível a realização de pesquisas sobre diversos organismos: eucariotos, arqueias e procariotos, como a bactérias patogênicas Corynebacterium pseudotuberculosis, esta espécie é um patógeno intracelular facultativo que causa a linfadenite caseosa (LCA) em caprinos e ovinos, linfangite ulcerativa em equinos, abscessos superficiais em bovinos, suínos, cervos e animais de laboratório, artrites e bursites em ovinos, abscessos de peito em equinos e mais raramente em camelos, caprinos e cervos (KURIA et al., 2001). Apesar da sua importância na saúde animal, seus mecanismos patogênicos são pouco caracterizados tornando um alvo para o sequenciamento genômico (CEBIO, 2014). Os primeiros métodos de sequenciamento foram desenvolvidos na década de 1970, sendo os pioneiros: mais e menos (SANGER; COULSON, 1975), método por degradação química (MAXAM; GILBERT, 1977) e o de terminação de cadeia ou Dideoxi (SANGER et al., 1977), revolucionando as ciências biológicas, pois possibilitaram a decodificação de genes e posteriormente de genomas completos (SCHUSTER, 2008). Estas plataformas são caracterizadas por apresentar um elevado custo e limitada capacidade de sequenciamento, diversas limitações foram superadas com o surgimento de plataformas de sequenciamento de segunda geração. Tais plataformas não necessitam da etapa de clonagem gênica, conseguem efetuar o sequenciamento completo de genomas procariotos, gerando grande quantidade de dados com redução de custos e tempo de sequenciamento, quando comparados ao método de Sanger. (SCHUSTER, 2008; LAM et al., 2012). Como evolução dos sequenciadores de segunda geração, surgiram os sequenciadores de terceira geração, tais como PacBio RS System e Oxford Nanopore, que realizam o sequenciamento da molécula de DNA e RNA e a plataforma Ion Torrent PGM que o faz sem a utilização de fluorescência (THOMPSON et al., 2011; HENSON et al., 2012; EISENSTEIN, 2012), esta deu início ao sequenciamento pós-luz. O sequenciamento de genomas é o primeiro passo para obter uma caracterização de organismo, seguido pela montagem dos fragmentos de DNA obtidos neste processo. A montagem do genoma consiste no agrupamento das leituras oriundas dos sequenciadores com a finalidade de gerar uma sequência consenso ou contig. O Scaffold é gerado no processo de finalização onde os contigs são ordenados e orientados (MILLER et al., 2010). Estes agrupamentos são realizados baseando-se em algumas abordagens, como Grafo de DeBrujin, Overlap-Layout- Consensus e algoritmos gulosos. 2

2. Justificativa A adoção dos sequenciadores high-throughput proporcionou o aumento de projetos de sequenciamento de genomas e transcriptomas completos e devido as características dos dados produzidos por estas plataformas novos algoritmos de montagem tiveram que ser desenvolvidos para manusear essa grande quantidade de dados em sua maioria compostos de leituras curtas. As plataformas de sequenciamento Ion Torrent apresentam características especificas que dificultam o processo de montagem, assim, desenvolver um algoritmo para atuar especificamente em dados produzidos por esta plataforma representa uma importância relevante a comunidade científica e ao projeto de sequenciamento de genomas de Corynebacterium pseudotuberculosis, considerando que ainda há a previsão do sequenciamento de cerca de 20 genomas desta espécie no ano de 2015, e que o Ion Torrent PGM é um dos que apresenta os menores custos de sequenciamento. 3. Objetivo Geral Desenvolver um algoritmo capaz de realizar a montagem de genomas sequenciados pela plataforma Ion Torrent PGM. 4. Objetivos Específicos Revisar a bibliografia quanto as principais metodologias de montagem de genomas a partir de leituras longas; Avaliar os métodos de montagem e identificar o que apresenta melhores resultados; Desenvolver o algoritmo para a montagem; Realizar a montagem de um genoma utilizando o software desenvolvido neste trabalho. 5. Material e Métodos 5.1 Sequências de teste Os dados de teste foram obtidos a partir do banco de dados SRA (http://www.ncbi.nlm.nih.gov/sra), onde selecionou-se apenas sequências oriundas da plataforma Ion Torrent PGM ou Ion Torrent Proton em formato FastQ. 5.2 Ambiente Computacional Um servidor com 4 processadores, cada um com 16 cores de processamento e 1Tb de memória RAM foi utilizado para realizar os testes de performance do algoritmo. 3

5.3 Algoritmo de Montagem A ferramenta utiliza um algoritmo para realizar o tratamento das leituras obtidas através do banco de dados SRA, antes de serem repassadas ao algoritmo de montagem, estas leituras são divididas em conjuntos de tamanhos menores denominados k-mer s, o sistema permite ao usuário decidir qual o tamanho de k-mer deseja utilizar. O algoritmo de tratamento realiza um pré-processamento destes dados analisando cada k-mer, afim de determinar informações importantes acerca destes, tais como, frequência, conteúdo GC e cobertura, gerando uma pontuação para cada k-mer, baseada nessas informações. Estes dados serão armazenados no banco de dados NoSQL Apache Cassandra (http://cassandra.apache.org/), criado para dar auxilio ao sistema no momento da montagem do grafo. O Grafo de DeBruijn foi utilizado na implementação do algoritmo devido a sua eficiência e baixa complexidade na construção do grafo. A linguagem de programação Java (https://www.oracle.com/java) em conjunto com biblioteca JUNG Graph (http://jung.sourceforge.net/) foi utilizada para a implementação do grafo de montagem. O banco de dados NoSQL Apache Cassandra (http://cassandra.apache.org/), foi utilizado com o objetivo de armazenar os dados necessários para realizar a montagem, pois provem métodos de acesso aos dados de forma mais rápida, reduzindo o tempo de execução do algoritmo e auxiliando na montagem do grafo. 5.3.1 Montagem do Grafo Com as informações já depositadas no banco de dados NoSQL Apache Cassandra, o algoritmo montará o grafo baseando-se na sobreposição entre os k-mer s, transformando o valor de cada k-mer em um vértice do grafo, a sobreposição entre dois k-mer s em uma aresta entre estes e armazenando o vértice inicial de cada caminho do grafo. Após a montagem do grafo, é realizado a verificação dos caminhos contendo regiões repetitivas (Figura 1), durante esta verificação o algoritmo tem o objetivo de identificar e corrigir estas regiões. Figura 1 - Exemplo de Grafo 4

5.3.2 Geração de Contig s. Após a eliminação das regiões repetitivas, o software realiza a leitura completa do grafo partindo dos vértices iniciais de cada caminho e somando o valor da sobreposição do k-mer contido em cada vértice, ao chegar no vértice final de um caminho, o sistema gera um contig baseado nas informações coletadas no decorrer do caminho, esta ação pode ser observada através da figura 2. Figura 2 Contig gerado a partir de um caminho do grafo. Ao final da leitura de todos os caminhos contidos no grafo, o sistema gera um arquivo contendo todos os contig s montados a partir das informações presentes no arquivo de leituras provenientes de um sequenciamento. 5.4 Avaliação dos resultados Na avaliação dos resultados do algoritmo em comparação aos métodos já existentes, serão avaliadas as métricas N50, maior e menor contig, total de bases obtido com o software Quast (http://bioinf.spbau.ru/quast), além do tempo de execução e quantidade de memória RAM máxima utilizada. 5

6. Resultados O algoritmo desenvolvido é capaz de reconhecer e utilizar em seu processamento, arquivos de leituras no formato FastQ e Fasta. Identificou-se durante a realização de testes utilizando um arquivo reduzido de leituras, que o algoritmo conseguiu identificar todas as sobreposições possíveis entre os k-mer s gerados a partir das leituras. O arquivo gerado pelo algoritmo, contendo a estrutura já montada do grafo, permitiu a visualização de regiões de repetição e regiões de múltiplos caminhos, através do software CytoScape (http://cytoscape.org), sendo de grande importância no desenvolvimento de métodos para a correção destas regiões. Após a finalização da montagem do grafo, o algoritmo identificou e corrigiu todas as regiões consideradas repetitivas, gerando um grafo mais simples e aproveitando ao máximo as informações obtidas das leituras, permitindo que a varredura do grafo pudesse ser feita em um espaço de tempo mais curto e gerando informações mais confiáveis. 7. Conclusão A técnica de montagem de genomas é essencial para que seja possível a análise de genomas completos. O software descrito neste projeto foi desenvolvido, com o objetivo de solucionar especificamente os problemas enfrentados durante a montagem a partir de leituras provenientes da plataforma Ion Torrent PGM. Este sistema será de grande importância, tendo em vista que informações obtidas através de uma montagem de qualidade, são consideradas mais confiáveis, o que permite posteriormente uma análise mais precisa sobre o genoma de um determinado organismo. 6

Referências Bibliográficas 1. EISENSTEIN M. 2012 Oxford Nanopore announcement sets sequencing sector abuzz. Nature biotechnology 30: 295 296. 2. HENSON J, TISCHLER G & NING Z. 2012. Next-generation sequencing and large genome assemblies. Pharmacogenomics 901 915. 3. KURIA, J.K., MBUTHIA, P.G., KANG ETHE, E.K., WAHOME, R.G. Caseous lymphadenitis in goats: the pathogenesis, incubation periods and serological response after experimental infection. Veterinary Research Communications, v.25, p.89-97, 2001. 4. LOMAN, N.J., et al., 2012. Performance comparison of benchtop high-throughput sequencing platforms. Nature Biotechnology. 30, 434-9 5. MAXAM, A.M., GILBERT, W., 1977. A new method for sequencing DNA. Proc. Natl. Acad. Sci. USA 74, 560-564. 6. MILLER JR, KOREN S & SUTTON G. 2010. Assembly algorithms for next-generation sequencing data. Genomics 95: 315 327. 7. PROSDOCIMI, F. Introdução à Bioinformática. Curso Online, Brasília-DF. 2007. Disponível em: < http://www2.bioqmed.ufrj.br/prosdocimi/fprosdocimi07_cursobioinfo.pdf> Acesso em: 25 de dez. 2014. 8. SANGER, F., COULSON, A.R., 1975. A rapid method for determining sequences in DNA by primed synthesis with DNA polymerase. J. Mol. Biology. 94, 441-448 9. SANGER, F., et al.1977. DNA sequencing with chain-terminating inhibitors. PNAS. 74, 5463-5467. 10. Schuster, Stephan C, 2008. Next-generation sequencing transforms today s biology. Nature Methods. 5, 16-18. 11. THOMPSON JF & MILOS PM. 2011. The properties and applications of single molecule DNA sequencing. Genome biology 12: 217. 12. CEBIO (Centro de Excelência em Bioinformática), Corynebacterium pseudotuberculosis. Disponível em: < http://www.cebio.org/projetos/corynebacterium-pseudotuberculosis > Acesso em 28 de Dezembro de 2014. 7

PARECER DO ORIENTADOR: DATA : / / ASSINATURA DO ORIENTADOR ASSINATURA DO ALUNO INFORMAÇÕES ADICIONAIS: Em caso de aluno concluinte, informar o destino do mesmo após a graduação. Informar também em caso de alunos que seguem para pós-graduação, o nome do curso e da instituição. 8