Melhorando o Desempenho de Árvores de Sufixo na Indexação de Grandes Seqüências de Nucleotídeos

Transcrição

1 Melhorando o Desempenho de Árvores de Sufixo na Indexação de Grandes Seqüências de Nucleotídeos Caio César Mori Carélo 1 Profa. Dra. Cristina Dutra de Aguiar Ciferri Pós-Graduação em Ciências de Computação e Matemática Computacional Universidade de São Paulo, São Carlos, Brasil {ccarelo,cdac}@icmc.usp.br Nível: Mestrado Ano de ingresso no programa: 2007 Exame de qualificação: Abril de 2008 Época esperada de conclusão: Fevereiro de 2009 Resumo O avanço tecnológico dos laboratórios de biologia molecular tem tornado a coleta dos dados biológicos mais rápida que a sua interpretação. Esses dados referem-se às seqüências de nucleotídeos e aminoácidos que representam a estrutura do material genético dos seres vivos e as substâncias que são codificadas a partir deste. Existem vários trabalhos na literatura voltados à proposta de métodos de acesso para seqüências de nucleotídeos, com o intuito de tornar mais eficiente o acesso a esse tipo de dado. Dentre estes trabalhos, destacam-se os baseados em uma estrutura de dados chamada árvore de sufixo. Esta estrutura pode ser utilizada para resolver diversos problemas baseados em seqüências, como descobrir qual parte do código genético de um organismo é responsável por uma doença hereditária. O projeto de mestrado tem por objetivo propor uma nova técnica de construção de árvores de sufixo voltada à execução de consultas pontuais em grandes seqüências de nucleotídeos. Espera-se que esta nova técnica reduza as seguintes medidas: (i) tempo de construção de árvores de sufixo; (ii) tempo médio de resposta de consultas submetidas às árvores de sufixo; e (iii) espaço de memória secundária necessário para armazenar as árvores de sufixo. Palavras-chave Bioinformática, Árvore de sufixo, Seqüência de nucleotídeos. 1 Os autores agradecem o apoio financeiro das seguintes agências de fomento à pesquisa do Brasil: CNPq, CAPES, FINEP e FAPESP.

2 1. Introdução O desenvolvimento de grandes projetos da biologia molecular, como o projeto genoma, destaca a bioinformática como uma área de pesquisa muito relevante [Korf et al. 2003]. Esta área utiliza métodos da biologia, da matemática e da computação para solucionar questões biológicas relevantes a partir de seqüências de nucleotídeos, de aminoácidos e de informações relacionadas [Baxevanis and Ouellette 2005], os quais são armazenados em bancos de dados biológicos (BDB). Nestes BDB, as seqüências de nucleotídeos são constituídas por caracteres que representam as bases nitrogenadas adenina (A), citosina (C), timina (T ) e guanina (G). Com o avanço tecnológico, a quantidade de dados biológicos disponíveis para análise tem aumentado exponencialmente. Por exemplo, o GenBank, um dos maiores BDB existentes, disponibiliza aproximadamente pares de base (bp 2 ) provenientes de mais de 73 milhões de seqüências de nucleotídeos [Phoophakdee and Zaki 2007]. Assim, existe uma quantidade enorme de dados biológicos ao alcance da comunidade científica. Surge, então, o desafio de pesquisar estes BDB, comparando seqüências e identificando se elas são similares. A maioria das consultas envolvendo pesquisa por similaridade possui apenas uma pequena parte do BDB como resposta. Para auxiliar estas consultas, existem os métodos de acesso, os quais conduzem a busca a porções do BDB nas quais as seqüências armazenadas têm alta probabilidade de serem similares à consulta. Dentre os métodos de acesso existentes na literatura voltados à indexação de dados biológicos, um grupo utiliza uma estrutura de dados na forma de árvore para armazenar as seqüências de nucleotídeos, chamada de árvore de sufixo. Embora a árvore de sufixo seja amplamente utilizada, ela é muito volumosa e usualmente excede o tamanho do BDB (e.g., em uma ou duas ordens de magnitude). Outro desafio do uso desta estrutura de dados consiste em construir árvores de sufixo que excedem a memória principal com complexidade linear em relação ao tempo. O projeto de mestrado tem como objetivo melhorar o desempenho de árvores de sufixo na indexação de dados biológicos. Mais especificamente, o projeto de mestrado visa desenvolver um método de acesso baseado em árvores de sufixo voltado à execução de consultas pontuais em grandes seqüências de nucleotídeos. Além desta seção introdutória, o artigo é estruturado em mais cinco seções. A Seção 2 descreve a árvore de sufixo. A Seção 3 sintetiza trabalhos correlatos. A Seção 4 apresenta a proposta a ser desenvolvida e como esta será validada, enquanto que a Seção 5 discute atividades em andamento. O artigo é concluído na Seção 6, com as considerações finais. 2. Árvore de Sufixo Sejam Σ = {α 1, α 2,..., α σ } um alfabeto com σ símbolos, Σ o conjunto de todas as seqüências que podem ser construídas com Σ, e $ / Σ um símbolo terminal, o qual denota o final de uma seqüência. Sejam P Σ uma seqüência com m caracteres e P [i : j](1 i j m) uma subseqüência entre (e inclusive) o i-ésimo e j-ésimo caracteres de P. Sejam, ainda, qualquer subseqüência P [1 : j] um prefixo e qualquer P [i : m] um sufixo de P. A árvore de sufixo T de uma seqüência P $ é uma árvore com m + 1 nós folhas enumerados de 1 a m + 1, onde m = P. Cada nó interno pode ter dois ou mais filhos e cada aresta de T representa uma subseqüência não vazia de P $. Além disso, as arestas que partem de um mesmo nó não podem representar subseqüências com prefixo comum [Gusfield 1997]. 2 Tamanho das seqüências de nucleotídeos. Mbp e Gbp denotam 10 6 bp e 10 9 bp, respectivamente.

3 Em uma árvore de sufixo, sufixos com o mesmo prefixo compartilham o mesmo caminho a partir da raiz da estrutura, denotada por R[T ]. A Figura 1 mostra a árvore de sufixo T da seqüência T AGAGA$. O número de cada nó folha indica a posição inicial do sufixo formado pelo caminho entre R[T ] e o nó em questão. Por exemplo, o caminho da raiz até a folha 4 forma o sufixo AGA$, indicando que este sufixo inicia na quarta posição de P $. P$ = TAGAGA$ P[6:6]$ = A$ P[4:6]$ = AGA$ P[2:6]$ = AGAGA$ P[5:6]$ = GA$ P[3:6]$ = GAGA$ P[1:6]$ = TAGAGA$ R[T] A $ GA TAGAGA$ 7 1 $ GA $ GA$ $ GA$ 4 2 Figura 1. Árvore de sufixo T da seqüência T AGAGA$. 3. Trabalhos Correlatos O método trivial de construção de árvores de sufixo possui complexidade O(m 2 ). Weiner (1973) desenvolveu o primeiro algoritmo com complexidade linear para este fim. McCreight (1976) propôs um método que requer menos espaço de memória principal durante o processo de construção desta estrutura. Já Ukkonen (1995) desenvolveu uma técnica cuja principal contribuição é o uso de elos de sufixos, os quais otimizam a inserção de sufixos na construção da estrutura de dados [Gusfield 1997]. Contudo, as técnicas lineares de construção de árvores de sufixo compartilham a mesma limitação: a estrutura de dados gerada deve caber na memória principal disponível. Um dos primeiros trabalhos na literatura para construir árvores de sufixo que não cabem em memória principal é o de Hunt et al. (2001). O método proposto realiza várias passagens sobre a seqüência de entrada, construindo uma árvore de sufixo parcial para um subconjunto dos sufixos em cada passo. Apesar de aumentar a capacidade de construir árvores de sufixo, o método possui algumas desvantagens, como o abandono do uso de elos de sufixo. Além disso, nesse método os prefixos de seqüências não são necessariamente uniformemente distribuídos, de forma que algumas partições podem não caber em memória principal, gerando casos nos quais a técnica proposta não funciona. As técnicas DynaCluster [Cheung et al. 2005] e TOP-Q [Bedathur and Haritsa 2004] foram propostas para solucionar as limitações do trabalho de Hunt et al. (2001). Estas técnicas utilizam elos de sufixo e não sofrem dos problemas das partições. No entanto, elas não tratam eficientemente seqüências de escala genômica (i.e., tamanho do genoma humano, totalizando aproximadamente 3 Gbp). Já o método TDD [Tata et al. 2004] indexa todo o genoma humano, mas abandona o uso dos elos de sufixo. Atualmente, TRELLIS [Phoophakdee and Zaki 2007] e TREELIS+ [Phoophakdee and Zaki 2008] são os únicos métodos capazes de criar árvores de sufixo para seqüências de escala genômica mantendo os elos de sufixo. Entretanto, esses métodos geram muitas partições, além de produzirem árvores de sufixo muito volumosas (e.g., para o genoma humano, o tamanho da árvore de sufixo gerada é de 71,6 GB).

4 4. Proposta de Mestrado 4.1. Descrição As técnicas para criar árvores de sufixo que excedem a memória principal podem ser classificadas em dois grupos de acordo com a política de particionamento: as que utilizam prefixos de tamanho fixo, e as que definem prefixos de tamanho variável. O particionamento deve ser de tal forma que os prefixos tenham o menor tamanho possível, evitando desperdício de recursos computacionais. Além disso, o tamanho dos prexifos deve ser grande o suficiente para que todas as partições caibam na memória principal disponível [Phoophakdee and Zaki 2007]. Em estudos realizados até o momento, foi identificado que o número mínimo de partições necessárias para criar a árvore de sufixo de uma seqüência P $, denotado por N min (P ), pode ser calculado por meio da Equação 1. Nesta equação, MS real (P ) denota o requisito total de armazenamento em memória secundária da árvore de sufixo de P $ e MP disp representa a quantidade de memória principal disponível (i.e., 60% da memória principal total). N min (P ) = MSreal (P ) MP disp (1) Para melhorar o desempenho de árvores de sufixo na indexação de grandes seqüências de nucleotídeos, o projeto de mestrado visa propor uma nova técnica de particionamento variável para construir essa estrutura quando ela excede a memória principal. A técnica deverá gerar um número de partições próximo de N min, com o intuito de evitar o desperdício de recursos computacionais. Espera-se que um número de partições próximo de N min reduza as medidas: Tempo de construção da árvore de sufixo; Tempo médio de resposta das consultas realizadas; e Espaço de memória secundária necessário para armazenar a árvore de sufixo Validação O ambiente de teste que será usado para validar a técnica proposta considerará quatro aspectos: tipo de dado, origem dos dados, volume dos dados e tamanho das consultas. Para o tipo de dado, serão utilizados alfabetos de quatro caracteres, representando seqüências de nucleotídeos (i.e., Σ = {A, C, G, T }). Com relação à origem dos dados, serão usados dados reais e sintéticos. Os dados reais serão obtidos a partir do repositório disponível em ftp://ftp.ensembl.org/pub/current_fasta. Já os dados sintéticos serão gerados por meio de uma ferramenta já desenvolvida como parte das atividades do mestrado. Além disto, serão usados volume de dados de 10 Mbp (i.e., genomas de bactérias) a 100 Mbp, para investigar o comportamento da técnica proposta utilizando apenas memória principal, e volumes entre 200 Mbp e 3 Gbp (i.e., genoma humano), para analisar o seu desempenho em memória secundária. Por fim, serão submetidas consultas com tamanho variando entre 40 bp e bp, pois esta faixa de valores cobre a grande maioria das aplicações existentes [Phoophakdee and Zaki 2007]. As vantagens do uso da técnica proposta serão investigadas por meio da coleta de resultados de desempenho e de análises de complexidade de tempo e de espaço. Durante a construção da árvore de sufixo, serão analisadas as medidas número de partições criadas, requisito total de armazenamento e tempo total gasto. Já na execução de consultas, serão investigadas as medidas número de acessos a disco e tempo total gasto. Adicionalmente, os resultados obtidos serão comparados com os resultados de trabalhos listados na Seção 3. Especial enfoque será dado ao método TRELLIS+, o qual representa o estado da arte nesta linha de pesquisa.

5 5. Atividades em Andamento A técnica proposta deve contemplar três etapas: cálculo das partições, particionamento e junção das partições. A atividades de mestrado em andamento estão concentradas na primeira etapa, o cálculo das partições, a qual engloba dois passos. No passo 1, dada uma seqüência P $, essa seqüência é particionada em P 1 P 2... P n $ subseqüências de forma que qualquer P i $ (1 i n) caiba na memória principal disponível. Na técnica proposta, o tamanho de cada P i $ é determinado pelo tamanho de cada cromossomo que a partição representa. Por exemplo, o genoma humano possui 24 cromossomos e, portanto, para esse organismo são geradas 24 partições, uma para cada cromossomo. O tamanho da partição P 1 $ é o tamanho do cromossomo 1, e assim sucessivamente. Esta abordagem tem como principal vantagem o fato de não ser necessário tratar subseqüências que iniciam no final de uma partição P i e terminam no começo da partição P i+1. Já o passo 2 verifica se as árvores de sufixos parciais que serão criadas para cada P i $ na etapa de particionamento cabem individualmente na memória principal disponível. Para isso, a técnica proposta calcula dois valores. O primeiro deles é uma estimativa do tamanho final em memória secundária ocupado pela árvore de sufixo de P i $, sendo denotado por MS est (P i ). Esse valor é calculado pela Equação 2, onde NF e NI são os tamanhos em bytes do nó folha e do nó interno da árvore de sufixo, respectivamente, e m i é a quantidade de caracteres de P i. MS est (P i ) = (NF + 0, 7 NI) m i (2) O segundo valor diz respeito ao número de partições necessárias para criar P i $. Ele é denotado por N est (P i ) e é calculado por meio da Equação 3. Essa equação considera o espaço necessário para armazenar P i $ na memória principal disponível (i.e., P i ). O denominador dessa 4 fração indica a possibilidade de armazenamento de quatro caracteres por byte, desde que o projeto de mestrado visa a indexação de seqüências de nucleotídeos. N est (P i ) = MSest (P i ) MP disp P i 4 Em uma árvore de sufixo, sufixos com prefixos diferentes são indexados em subárvores distintas. Assim, a Equação 3 é utilizada para definir o particionamento dos dados, o qual é feito por meio dos tamanhos mínimos dos prefixos de cada P i $, denotado por T min (P i ). Estes tamanhos mínimos serão usados posteriormente na etapa de particionamento. A Tabela 1 mostra os valores obtidos para os cromossomos Y e 1 do ser humano, que são respectivamente o menor e o maior cromossomos desse organismo. Para o cromossomo Y, N est é 3, indicando que são necessárias 3 partições para indexá-lo. Desde que 1 caractere define 4 1 = 4 partições (i.e., A, C, G, T ), o valor de T min para esse cromossomo é 1. Já para o cromossomo 1, N est é 10, indicando que são necessárias 10 partições para indexá-lo. Nesse caso, o valor de T min é 2, desde que 2 caracteres definem 4 2 = 16 partições (e.g., AA, AC, AG,..., T T ). (3) Tabela 1. Valores MS est, N est e T min para os cromossomo Y e 1 do ser humano. Cromossomo Y Cromossomo 1 Tamanho 55 Mbp 235 Mbp MS est 2,58 GB 11,05 GB N est 3 10 T min 1 2

6 As atividades em andamento descritas nesta seção diferenciam-se da proposta do método TRELLIS+ como segue. Enquanto no TRELLIS+ existe um parâmetro de entrada por meio do qual o usuário deve informar o tamanho mínimo do prefixo, a técnica proposta identifica esse tamanho mínimo automaticamente. Além disso, desde que a técnica proposta identifica tal tamanho a partir de uma análise dos cromossomos, esse tamanho representa realmente o tamanho mínimo que um prefixo precisa ter, maximizando o uso dos recursos computacionais. Em contrapartida, o TRELLIS+ não garante que o parâmetro definido pelo usuário representa o tamanho mínimo necessário para um prefixo. 6. Considerações Finais e Próximas Atividades A pesquisa de similaridade em seqüências de nucleotídeos é uma área de pesquisa bastante relevante, desde que resultados obtidos nessa área podem ser aplicados diretamente na solução de problemas biológicos reais. O projeto de mestrado concentra-se em melhorar o desempenho de árvores de sufixo na indexação de dados biológicos, por meio da proposta de um método de acesso baseado nessa estrutura, voltado à execução de consultas pontuais em grandes seqüências de nucleotídeos. As próximas atividades a serem realizadas envolvem a implementação do método trivial da criação de árvores de sufixo, bem como da técnica de Ukkonen (1995). A comparação entre o desempenho destas abordagens permitirá a definição da estratégia a ser usada na etapa de particionamento, a segunda etapa da técnica proposta. Em seguida, será enfocada a etapa de junção das partições. Posteriormente, a técnica proposta será implementada e validada de acordo com as observações realizadas na Seção 4.2. Referências Baxevanis, A. D. and Ouellette, B. F. F. (2005). Bioinformatics: a practical guide to the analysis of genes and proteins. Wiley-Interscience. Bedathur, S. J. and Haritsa, J. R. (2004). Engineering a fast online persistent suffix tree construction. In Proc. ICDE, pages Cheung, C.-F., Yu, J. X., and Lu, H. (2005). Constructing suffix tree for gigabyte sequences with megabyte memory. IEEE Transactions on Knowledge and Data Engineering, 17(1): Gusfield, D. (1997). Algorithms on strings, trees, and sequences: computer science and computational biology. Cambridge University Press. Hunt, E., Atkinson, M. P., and Irving, R. W. (2001). sequences. In Proc. VLDB, pages Korf, I., Yandell, M., and Bedell, J. (2003). BLAST. O Reilly. A database index to large biological McCreight, E. M. (1976). A space-economical suffix tree construction algorithm. Journal of the ACM, 23(2): Phoophakdee, B. and Zaki, M. J. (2007). Genome-scale disk-based suffix tree indexing. In Proc. SIGMOD, pages Phoophakdee, B. and Zaki, M. J. (2008). TRELLIS+: an effective approach for indexing massive sequence. In PSB, pages Tata, S., Hankins, R. A., and Patel, J. M. (2004). Practical suffix tree construction. In Proc. VLDB, pages Ukkonen, E. (1995). On-line construction of suffix trees. Algorithmica, 14: Weiner, P. (1973). Linear pattern matching algorithms. In FOCS, pages 1 11.