Software para detecção de repetições encadeadas (SSR) em sequências de DNA



Documentos relacionados
3 Um Framework Orientado a Aspectos para Monitoramento e Análise de Processos de Negócio

Arquitetura de Rede de Computadores

BRAlarmExpert. Software para Gerenciamento de Alarmes. BENEFÍCIOS obtidos com a utilização do BRAlarmExpert:

Instalação: permite baixar o pacote de instalação do agente de coleta do sistema.

Manual de Administração DPS Printer 2.1 NDDigital S/A - Software

Revisão: Introdução. - Integração com o AutoManager; 1 Atualização de versão do banco de dados PostgreSQL

TRIBUNAL DE CONTAS DO ESTADO DO RIO DE JANEIRO SISTEMA INTEGRADO DE GESTÃO FISCAL MÓDULO DELIBERAÇÃO 260/13 MANUAL DE UTILIZAÇÃO

Software de segurança em redes para monitoração de pacotes em uma conexão TCP/IP

Iniciação à Informática

GUIA INTEGRA SERVICES E STATUS MONITOR

Microsoft Office PowerPoint 2007

Anexo III Funcionamento detalhado do Sistema Montador de Autoria

ÍNDICE. 1. Introdução O que é o Sistema Mo Porã Como acessar o Site Mo Porã Cadastro do Sistema Mo Porã...

DESENVOLVIMENTO DE UM SOFTWARE NA LINGUAGEM R PARA CÁLCULO DE TAMANHOS DE AMOSTRAS NA ÁREA DE SAÚDE

Este documento tem o objetivo de esclarecer alguns procedimentos e definir parâmetros para facilitar o processo.

Manual do Contribuidor. Portal de Internet. Projeto: Novo Portal de internet

Entrar neste site/arquivo e estudar esse aplicativo Prof. Ricardo César de Carvalho

Acadêmicos: Luís Fernando Martins Nagata Gustavo Rezende Vinícius Rezende Santos

Manual Integra S_Line

Especificação de Requisitos

Engenharia de Software III

Manual do Visualizador NF e KEY BEST

Manual Captura S_Line

2.0.0.X. Storage Client. TecnoSpeed. Tecnologia da Informação. Manual do Storage Client

As bactérias operárias

CONFIGURAÇÃO Cobian Backup Programa gratuito e de qualidade para realizar seus backups automáticos

Manual Operacional SIGA

ÍNDICE 1 INTRODUÇÃO ACESSO ABERTURA DE PROTOCOLO CONSULTA DE PROTOCOLO PROTOCOLO PENDENTE CONFIRMAÇÃO DE RECEBIMENTO.

Análise de Dados do Financeiro

MANUAL DE UTILIZAÇÃO SISTEMA DE CADASTRO INTRANET

Como gerar arquivos para Sphinx Operador

CONCEITOS INICIAIS. Agenda A diferença entre páginas Web, Home Page e apresentação Web;

Pag: 1/20. SGI Manual. Controle de Padrões

Algoritmos e Programação (Prática) Profa. Andreza Leite andreza.leite@univasf.edu.br

Procedimentos para Reinstalação do Sisloc

Um Driver NDIS Para Interceptação de Datagramas IP

Boletim Técnico. Esta melhoria depende de execução do update de base UPDSGA11, conforme Procedimentos para Implementação.

Tecnologia de Redes de Computadores - aula 5

MANUAL DO USUÁRIO SORE Sistema Online de Reservas de Equipamento. Toledo PR. Versão Atualização 26/01/2009 Depto de TI - FASUL Página 1

Tutorial do módulo Carteira Nacional de Militante

Kerio Exchange Migration Tool

ANDRÉ APARECIDO DA SILVA APOSTILA BÁSICA SOBRE O POWERPOINT 2007

Admistração de Redes de Computadores (ARC)

NetEye Guia de Instalação

AP_ Conta Aplicativo para digitação e envio de contas médicas no padrão TISS

SISTEMA INTEGRADO DE GESTÃO ACADÊMICA

Guia do usuário para utilização do sistema WCRC3 Central de Informações do Registro Civil da Arpen SP Gravação e envio dos registros

5 Mecanismo de seleção de componentes

Apesar de existirem diversas implementações de MVC, em linhas gerais, o fluxo funciona geralmente da seguinte forma:

ROTEIRO PARA TREINAMENTO DO SAGRES DIÁRIO Guia do Docente

INTRODUÇÃO 12. DOCUMENTAÇÃO INTRODUÇÃO INTRODUÇÃO

SIGECORS. Sistema de Gerenciamento de Resíduos Sólidos Industriais

Documentação EPL - Clientes

ÍNDICE 1 INTRODUÇÃO ACESSO CONSULTA DE PROTOCOLO PROTOCOLO PENDENTE CONFIRMAÇÃO DE RECEBIMENTO ANDAMENTO DE PROTOCOLO.

Orientação a Objetos

Sistema de Informação Integrado

Na Figura a seguir apresento um exemplo de uma "mini-tabela" de roteamento:

Instrução de Trabalho Base de Conhecimento

Sistemas Operacionais

PRODAV 05/2014 Passo a passo para inscrição do projeto

ArpPrintServer. Sistema de Gerenciamento de Impressão By Netsource Rev: 02

MANUAL DE UTILIZAÇÃO

TUTORIAL PRÁTICO SOBRE Git. Versão 1.1

Manual SAGe Versão 1.2 (a partir da versão )

Manual de Atualização Versão

SISTEMA UNIFICADO DE ADMINISTRAÇÃO PÚBLICA SUAP

Manual de configuração do sistema

Entendendo como funciona o NAT

Manual do sistema SMARsa Web

Engenharia de Software Sistemas Distribuídos

Feature-Driven Development

Está apto a utilizar o sistema, o usuário que tenha conhecimentos básicos de informática e navegação na internet.

Manual do Usuário Android Neocontrol

Documento de Análise e Projeto VideoSystem

FECHAMENTO FISCAL ENTRADAS

CAPÍTULO 7 NÍVEL DE LINGUAGEM DE MONTAGEM

O Software Face Match

Faculdade de Tecnologia SENAC Goiás. Disciplina: Gerenciamento de Rede de Computadores. Goiânia, 16 de novembro de 2014.

Controle Patrimonial WEB

IFPE. Disciplina: Sistemas Operacionais. Prof. Anderson Luiz Moreira

HCT Compatibilidade Manual do Usuário

AULA 6 - Operações Espaciais

INSTALAÇÃO DE NOKIA CONNECTIVITY CABLE DRIVERS

1 Sumário O Easy Chat Conceitos Perfil Categoria Instalação O Aplicativo HTML...

SISTEMA DE PRODUTOS E SERVIÇOS CERTIFICADOS. MÓDULO DO CERTIFICADOR MANUAL DE OPERAÇÃO Versão 2.4.6

DOCBASE. 1. Conceitos gerais. 2. Estrutura da pasta de associações. 3. A área de documentos reservados. 4. Associação de Imagens

A memória é um recurso fundamental e de extrema importância para a operação de qualquer Sistema Computacional; A memória trata-se de uma grande

Emissão de Nota Fiscal de Serviço Eletrônica

Curva ABC. Tecinco Informática Ltda. Av. Brasil, º Andar Centro Cascavel PR

INDICE 1. INTRODUÇÃO CONFIGURAÇÃO MÍNIMA INSTALAÇÃO INTERLIGAÇÃO DO SISTEMA ALGUNS RECURSOS SERVIDOR BAM...

Manual do Painel Administrativo

04/08/2012 MODELAGEM DE DADOS. PROF. RAFAEL DIAS RIBEIRO, MODELAGEM DE DADOS. Aula 1. Prof. Rafael Dias Ribeiro. M.Sc.

Estudo comparativo entre dois tradicionais algoritmos de roteamento: vetor distância e estado de enlace.

Sistema de de Bilhetagem Eletrônica MANUAL MÓDULO PDV

Sistema de Gestão de Recursos de Aprendizagem

Implementada melhoria para atender empresas que possuem controle alternativo de jornada de trabalho conforme portaria

INTRODUÇÃO 2 ACESSO AO SIGTECWEB 3 TEMPO DE CONEXÃO 5 NAVEGAÇÃO 7 BARRA DE AÇÕES 7 COMPORTAMENTO DOS BOTÕES 7 FILTROS PARA PESQUISA 8

Noções de. Microsoft SQL Server. Microsoft SQL Server

Procedimentos para Instalação do SISLOC

Transcrição:

Software para detecção de repetições encadeadas (SSR) em sequências de DNA Daniel Xavier de Sousa 1, Wellington Santos Martins 1, and David Bertioli 2 1 Universidade Católica de Goiás, Goiânia, Brasil, 2 Universidade Católica de Brasília e Cenagem/Embrapa Brasília, Brasil Resumo This work presents a computational tool to aid in the development of molecular markers by locating simple tandem repeats (microsatélites) in DNA sequences. The tool is based on the TROLL (http:// finder.sourcefoge.net/) program and allows for fast report of microsatélites and sequence quality control. Is has been integrated to the well know Staden Package which provides an easy and intuitive graphical interface. 1 Introdução A contribuição deste trabalho é o desenvolvimento de um módulo para o programa Pregap do pacote Staden. Tal módulo permite a localização rápida de microsatélites em seqüências genômicas e serve, assim, aos pesquisadores interessados em estudos envolvendo marcadores moleculares baseados em microsatélites. Como o módulo é integrado ao pacote Staden, permite aos usuários visualizar de forma fácil microsatélites encontrados nos arquivos cromatogramas. 2 Marcadores Moleculares, SSR s Marcadores moleculares são definidos como regiões localizáveis nos cromossomos (ex. sítio de clivagem de enzimas de restrição, gene, minisatélite, microsatélite) cuja herança pode ser monitorada. Estas regiões podem corresponder a regiões expressas do DNA ou a algum segmento de DNA sem função codificadora conhecida, mas cujo padrão de herança pode ser estudado. Os marcadores moleculares são hoje foco de estudo nos programas de melhoramento animal e vegetal [6]. Marcadores moleculares são também utilizados, por exemplo, para construção de mapas genéticos, que representa uma base de conhecimento para auxiliar a transferência das características de interesse para plantas de importância agronômica através de melhoramento tradicional. Marcadores moleculares do tipo microsatélites, também conhecidos como SSR (Simple Sequence Repeats) têm sido amplamente utilizados. Os SSR s são simples palavras chaves, formadas por uma ou até seis bases repetidas encadeadas, por um número indefinido de vezes. Estas seqüências estão distribuídas

2 ao acaso ao longo de todo o genoma e o polimorfismo de seu comprimento indica a variabilidade dentro da mesma espécie. Tais repetições são freqüentemente encontradas nos genomas e principalmente nos eucariotos. Em genomas de plantas, por exemplo, as mesmas são encontradas em ocorrência de 1 em 6 mil pares de base [4]. Em algumas bactérias, alterações no número de repetições de microsatélites provocam a produção de proteínas ligeiramente diferentes[8]. Nas plantas ou animais, os microsatélites contribuem para marcar genes que exerçam a mesma função. Sendo estes genes de indivíduos diferentes, os quais podem pertencer à mesma espécie ou não. 3 Programas para encontrar SSR Basicamente existem dois métodos para encontrar SSR s. Um deles é definir um modelo para a repetição e encontrar regiões que o satisfaçam, não sendo necessário 100% de exatidão, mas um alto grau de similaridade já é suficiente. Esta implementação é encontrada em programas como, Tandem Repeats Finder [3] e Sputnik [1]. No segundo método as repetições (motifs) são definidas antes (num dicionário) e chamadas para verificação de similaridade com a seqüência. Este método fornece uma rápida solução do problema e pode ser encontrado nos programas Repeat Masker [7] e Tandem Repeat Occurence Locator (TROLL)[5]. Este trabalho optou pelo programa TROLL, pois além de ser um projeto de código aberto à comunidade, apresentou o melhor desempenho comparado com vários outros programas disponíveis, veja os dados comparativos em [5]. O programa é baseado no Algoritmo Aho Corasick (ACA) [2] e possui complexidade linear O(n). Seu funcionamento se inicia, basicamente, a partir da construção de uma árvore de palavras chaves utilizando a lista de repetições (motifs) indicada previamente. As seqüências de busca são comparadas a esta árvore e todas as repetições encontradas são armazenadas numa estrutura conhecida como Repeat Buffer. Para cada igualdade encontrada, é verificado se a mesma é o início ou a continuação de uma repetição. 4 O Pacote Staden O Pacote Staden é uma ferramenta que reune vários programas que, possibilita ao biólogo facilidade na análise de seqüências genômicas. O mesmo tem sido amplamente atualizado pela comunidade científica (http://staden.sourceforge.net/). Dentro do pacote existem vários programas, dentre eles o Pregap e o Gap. O Pregap é responsável pela preparação dos arquivos de cromatogramas para que sejam analisados por vários módulos de execução. O usuário, de forma gráfica escolhe quais desses módulos deverão agir nos arquivos cromatogramas, preparando-os para análise. O programa Gap mostra de forma gráfica os resultados do processamento dos módulos executados no Pregap. Embora o pacote Staden possibilite a procura por microsatélites, através do programa RepeatMasker, este não é mais distribuído gratuitamente. Para sanar

3 este problema, desenvolvemos um módulo apresentado neste trabalho, que é específico para a localização rápida dos SSRs. 5 Implementação O módulo construído neste trabalho permite que, dado um conjunto de seqüências, a partir do programa Pregap, as mesmas sejam capturadas, filtradas (mascarando contaminantes e bases de má qualidade) e analisadas quanto à existência de microsatélites. O TROLL é executado somente uma vez para todas as seqüências, e para todos os SSR s encontrados de cada seqüência, é gravado um respectivo arquivo Experiment File (a base de informações para análise das seqüências). Este arquivo é utilizado para construção do repositório de dados do programa GAP, que irá mostrar as características da seqüência de forma gráfica, inclusive os microsatélites encontrados pelo módulo. Os módulos do Pregap são escritos na linguagem interpretada Tcl/Tk, seguindo um padrão do Pacote Staden de rotinas destinadas à interface com usuário e execução do módulo. Os módulos criados são salvos no diretório $STANDEN- ROOT/lib/pregap4/modules e com nomes terminados com extensão.p4m. O módulo desenvolvido neste trabalho obedece ao seguinte fluxograma: Figura 1. Fluxo de execução do módulo

4 Seqüências: Nesta fase o módulo utiliza a variável global file do Pregap que contém o endereço de acesso ao arquivo Experiment File referente a cada seqüência, que contém o nome, os nucleotídeos e as qualidades; Filtrar Contaminação: Aqui o módulo acessa os arquivos Experiment File a procura de campos que indiquem a posição na seqüência da existência de contaminantes, isto é, regiões de plasmídios utilizadas para duplicação da molécula de DNA. Caso encontre, os nucleotídeos contaminados serão mascarados; Filtro de Qualidade: Nesta fase, de acordo com os parâmetros passados pelo usuário, o filtro irá aceitar um número máximo de bases consecutivas com qualidade inferior a um dado valor. Por exemplo, dada a seguinte seqüência com a qualidade expressa entre chaves: G{18}T{18}G{18}A{20}C{30}A{19}C{18}A{22}C{21} Para que a mesma possa ser filtrada, considerando que o usuário tenha definido como aceite o máximo de 2 bases consecutivas com qualidade menor que 20 para toda a seqüência, o filtro fornecerá o seguinte resultado: YYYA- CACAC. O caractere Y mascara os nucleotídeos que não passam no filtro, pela baixa qualidade.o microsatélite encontrado neste caso é: ACACAC. Repare que a sexta e a sétima base possuem qualidade inferior à indicada pelo usuário, mas de forma encadeada não ultrapassam o aceite máximo do usuário de 2 bases, logo não foram mascaradas. Intercalar Seqüências: Todas as seqüências são concatenadas, acrescentando um símbolo curinga no final de cada seqüência para que o programa TROLL não as interprete como uma única seqüência. Executar TROLL : O TROLL é executado somente uma vez, para o arquivo montado, independente do número de seqüências. A possibilidade de executar o TROLL uma única vez permite maior rapidez, evitando o custo de acesso a disco para várias seqüências. A complexidade do módulo é de O(n+m), sendo n o número de seqüências e m o número de microsatélites encontrados, mantendo portanto, a complexidade linear do programa TROLL. Analisar Resultado : Analisa o resultado reportado pelo TROLL e, para cada SSR encontrado, é identificado o arquivo Experiment File da seqüência. Esta identificação é feita comparando o tamanho de cada seqüência e o valor registrado do início do microsatélite. Gravar Tag: O programa Gap4 precisa identificar as regiões que deverão ser mascaradas com microsatélites. Para isso, a repetição é gravada com uma etiqueta (tag) no arquivo Experiement File, informando o nucleotídeo início e fim do microsatélite. Também são gravadas informações como: número de nucleotídeos restante para o final da seqüência, os nucleotídeos que se repetem (motifs), o número de vezes que os motifs aparecem e o nome da seqüência.

5 Gerar Arquivos: Caso o usuário queira, o módulo pode gerar um arquivo com todas as seqüências que possuírem SSR s (*.SSR.passed) e outro arquivo com todas as seqüências que não possuírem SSR s (*.no SSR.passed). 6 Resultados O módulo implementado possui uma interface amigável ao usuário, seguindo o mesmo padrão do Pacote Staden, como mostra a Figura 2. Figura 2. Interface do módulo TROLL acrescentado ao Pacote Staden, para localizar microsatélites. Nela o usuário pode escolher o tamanho mínimo da motif: mono, di, tri, tetra ou penta; o número mínimo de repetições aceitas; a localização do arquivo motif.dat, exigido pelo TROLL. Ainda pode escolher entre gravar arquivos com seqüência que possuem ou não SSR; e o número máximo de nucleotídeos aceitos com qualidade abaixo do valor indicado pelo próprio usuário.

6 Após fazer filtros e encontrar os microsatélites, o resultado é mostrado na tela Textual Output do Pregap, a qual funciona como registro de processamento, ver Figura 3. Figura 3. Após o módulo TROLL ser executado, o Pregap mostra o resultado para cada seqüência, informando se houve ou não microsatélite. Com os resultados encontrados e gravados nos arquivos Experiment File, os mesmos podem ser vistos de forma gráfica pelo aplicativo Gap. Desta forma, não só os microsatélites são facilmente reconhecidos, como também é possível observar suas características, ver Figura 4. O usuário pode, ainda, visualizar todas as seqüências com seus respectivos microsatélites, ver Figura 5. 7 Conclusão Neste trabalho desenvolvemos uma ferramenta computacional que de forma rápida, permite encontrar, visualizar e anotar repetições encadeadas (microsatélites) em seqüências de DNA. Neste sentido, integramos duas ferramentas de código

7 Figura 4. Os microsatélites e suas descrições podem ser vistos pelo programa Gap. Figura 5. Seqüências e os microsatélites (em pontos verdes) encontrados para cada sequência. aberto disponível à comunidade científica (TROLL e Staden), alteramos os códigos fonte e disponibilizamos de forma gratuita. A ferramenta criada já vem sendo utilizada por vários laboratórios no desenvolvimento in silico de marcadores moleculares em larga escala. O software pode ser baixado a partir do site http:// wsmartins.net/bioinfoucg/, no link de serviços. São disponibilizadas versões, tanto para o sistema operacional Linux, quanto para o Windows. 8 Agradecimentos À Pró-Reitoria de Pós-graduação e Pesquisa (PROPE)/UCG - projeto de pesquisa 551 - e ao Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq)- processo N. 400617-03. Referências [1] Abajian, C. Sputnik.(1994) http://abajian.net/sputnik/ [2] Aho, A.V. and Corasick, M.J. Efficient string matching: an aid to bibliographic seach.(1975) Communication of the ACM, 18, 333-340, [3] Benson, G. Tandem repeats finder: a program to analyze dna sequences.(1999) Nucleic Acids Res., 27, 573-580. [4] Cardle, L., Ramsay, L., Milbourne, D., Macaulay, M., Marshall, D. and Wough, R. Computacional and experimental characterization of physically clustered simple sequence repeats in plants.(2000) Genetics, 156, 847-854.

8 [5] Castelo, T., Martins, S. and Gao, R.; Trandem Repeat Occurrence Locator. (2002) Bioinformatics. Oxford University Press, USA:, v.18, n.4, p.634-636 [6] Kumar, L. S. DNA markers in plant improvement: an overview.(1999) Biotechnology Advances, v.17, p. 143-182. [7] Smit, AFA and Green, P., Repeat Masker. (1997) http://ftp.genome.washington.edu/rm/repeatmasker.html [8] Van Belkun, A. The role of short sequence repeats in epidemiologic typing.(1999) Current Opinion in Microbiology. 1999. Vol. 2:306-311