Um estudo sobre diferentes modelos de Recuperação de Informação em documentos semi-estruturados (XML) -

Transcrição

1 Um estudo sobre diferentes modelos de Recuperação de Informação em documentos semi-estruturados (XML) - Implementação, Análise, Avaliação e Comparação Autor: Mirella Silva Junqueira 1, Orientador: Prof. Dr. Ilmério Reis da Silva 1 1 Programa de Pós-Graduação em Ciência da Computação Universidade Federal do Uberlândia (UFU) Uberlândia MG Brasil mirellajunqueira@gmail.com, ilmerio@facom.ufu.br Nível: Mestrado Ano de ingresso no programa: 2006 Época esperada de conclusão: Agosto / 2008 Etapa concluída: Aprovação da proposta de dissertação em Agosto/2007 Resumo. Um sistema de recuperação de informação (R.I.) semi-estruturada traz como vantagem um aumento na precisão dos resultados quando comparada à recuperação não estruturada. Um dos problemas neste ambiente é a especificação de consultas incluindo informação de contexto (estrutura). Para que tenhamos este acréscimo na precisão, estes sistemas precisam de uma interface que auxilie o usuário na contextualização de sua necessidade de informação. Este trabalho visa definir uma interface que ajude o usuário na formulação da consulta, levando à melhorias na qualidade do resultado. A avaliação deste resultado será feita utilizando uma generalização das métricas de precisão-revocação (EPRUM) aplicadas à dois modelos de R.I. semi-estruturada baseados no modelo vetorial (sterm e JuruXML) com uma grande coleção de documentos(inex). Palavras-Chave. Recuperação de Informação, modelo vetorial, interface, Precisão, Revocação, EPRUM, INEX, XML, estrutura, recuperação semiestruturada

2 1. Caracterização do Problema Sistemas de recuperação de Informação (R.I.) são frequentemente contrastados com bancos de dados relacionais. Sistemas R.I. recuperam informações à partir de texto não estruturado (texto sem marcadores). Bancos de dados são designados para pesquisas em dados estruturados: conjunto de registros que têm valores para atributos pré-definidos, tais como número de empregado e salário. Alguns problemas de busca altamente estruturada são resolvidos com um banco de dados relacional, por exemplo, se uma tabela de empregado contém um atributo para uma pequena descrição textual do serviço. Existem diferenças fundamentais entre R.I. e sistemas de banco de dados, como mostrado na tabela 1. Banco de Dados Recuperação de Informação Recuperação Semi-Estruturada Objetos Registros Documento não estruturado Árvore com texto nas folha Modelo Cálculos relacionais Espaço vetorial e outros? Estrutura de Dados Principal Tabela Índice invertido? Linguagem de Consulta SQL Consultas Textuais? Tabela 1. Banco de dados, recuperação de informação e recuperação semi-estruturada. Não existe consenso ainda sobre modelo formal, linguagem de consultas e estrutura de dados para recuperação semi-estruturada [Manning et al. 2007]. Conforme Tabela 1 verificamos que não existe consenso a respeito de modelo, estrutura de dados e consulta na recuperação de informação em XML. Existem dois tipos de problemas de recuperação de informação que são intermediários entre a recuperação de texto e a busca em dados relacionais. Um destes é a busca paramétrica 1, o outro, foco deste trabalho, é a recuperação XML. Documentos XML podem ser vistos como árvores que têm os nós folhas contendo texto e os nós internos rotulados que definem os papéis dos nós folhas no documento. Este tipo é chamado de texto semi-estruturado e a recuperação é a recuperação semi-estruturada. Recuperação semi-estruturada tem se tornado cada vez mais importante por causa do crescimento do uso do XML. XML é usada para conteúdo web, importação e exportação de textos com conteúdo geral, e outras aplicações. Hoje em dia, a maioria dos dados semiestruturados é codificada em XML. Dentre os desafios na recuperação semi-estruturada temos a ausência de uma unidade de indexação, a necessidade de distinguir diferentes contextos de um termo durante o cálculo de estatísticas e a interface do usuário que, em geral, não está familiarizado com a estrutura da coleção de documentos. O principal problema considerado neste trabalho é definir uma interface que apresente a estrutura da coleção e então permita ao usuário especificar os nós que está buscando. Como consequência, a interface de consulta é mais complexa que a caixa de busca para consultas na recuperação não estruturada [Manning et al. 2007]. O presente trabalho foi proposto a partir de estudos sobre a recuperação de informação de documentos semi-estruturados, formas de avaliação e a verificação de alguns problemas como a indexação e a interface de consulta. 2. Trabalhos Relacionados Dois modelos propostos na literatura [Schlieder and Meuss 2002] (nomeado em [dos Santos 2006] para sterm) e JuruXML [Carmel et al. 2001], detalhados na seção 2.1, 1 Busca Paramétrica: permite buscar por parâmetros específicos que definem o objeto.

3 apresentam a recuperação de informação em documentos XML de uma forma semiestruturada, com base em uma adaptação do modelo vetorial para a recuperação não estruturada. Apesar de possuírem a mesma base, existem diferenças na forma de definição dos conceitos, de estruturação da consulta e principalmente na forma como realizam o casamento entre a consulta e documentos da coleção visando o retorno para o usuário dos documentos mais relevantes. Modelos de R.I. podem ser avaliados de acordo com o conjunto de resultados retornados como resposta à uma consulta. Esta avaliação pode-se dar à partir do cálculo de alguns valores padrões de métricas, como a precisão(fração de documentos recuperados que são relevantes) e a revocação (fração de documentos relevantes que foram recuperados). Para avaliarmos os sitemas acima descritos utilizaremos o modelo EPRUM [Piwowarski and Dupret 2006] (Seção 2.3). A coleção de testes utilizada será a coleção INEX 2 [INEX ] para a tarefa de recuperação Ad hoc (Seção 2.4) Modelos Os modelos sterm e JuruXML são apresentados à seguir: sterm: A base do modelo sterm é o modelo vetorial clássico. Os conceitos são estendidos para uma interpretação estruturada. Uma consulta no modelo vetorial clássico é uma lista de palavras chaves. No modelo sterm, é adicionada estrutura nas palavras chaves de tal forma que as consultas possam ser interpretadas como árvores rotuladas. Documentos XML são árvores rotuladas, também. A coleção é modelada como uma única árvore, e cada sub-árvore como um documento lógico. A raiz da árvore da consulta determina a noção de documentos admissíveis: todo documento lógico, cujo nó raiz é igual ao nó raiz da consulta, é um candidato a ser retornado como resultado. Este documento é comparado com a consulta, e atribui-se um grau de similaridade que determina a sua posição no ranking. O grau de similaridade é calculado utilizando a distribuição dos termos estruturados (s-terms). Termos estruturados são sub-árvores da consulta e dos documentos. O número de ocorrências de um termo estrutural dentro de um documento lógico e o número de documentos lógicos que contém o termo estrutural são contados, normalizados e utilizados para computar o peso de um termo, como no modelo vetorial. Os pesos são utilizados para construir os vetores documentos. Os pesos do vetor consulta podem ser definidos pelo usuário. Os vetores consulta e documento são comparados utilizando critérios próprios do modelo. JuruXML: O modelo JuruXml foi inicialmente desenvolvido para recuperação de informação em documentos não-estruturados (Juru) e depois estendido para recuperação em documentos semi-estruturados (JuruXML). Sua base é o modelo vetorial. Os conceitos são estendidos para uma interpretação semi-estruturada. É adicionada estrutura nas palavras chaves. Consultas e documentos XML são interpretados como árvores rotuladas. A coleção é modelada como uma única árvore. Um documento é comparado com a consulta, e atribui-se um grau de similaridade que determina a sua posição no ranking. O número de ocorrências de um termo estrutural dentro de um documento e o número de documentos que contém o termo são utilizados para computar o peso de um termo. O conceito de sub-árvore é utilizado levando em conta apenas uma folha (termo léxico), ou seja, utiliza-se o conceito de caminho. As formulações para o cálculo dos pesos dos termos e das similaridades entre consulta e documento são calculados considerando a semelhança existente entre dois caminhos (sub-árvore de consulta e de documento). 2 Iniciativa para a avaliação da recuperação de informação em XML.

4 Em um sistema de recuperação de informação não estruturada, a interface de consulta do usuário pode ser apenas uma caixa de consulta, onde o usuário deve inserir os termos da consulta. Na recuperação semi-estruturada, o usuário deve utilizar o contexto, além dos termos da consulta. Com relação aos modelos acima citados temos as consultas como se segue: sterm: article [emph2 [notebook], academic, prediction, companies], onde temos os termos notebook, academic, prediction, companies e temos o contexto (estrutura) onde os termos estão, considerando esta consulta como uma árvore temos: raiz: article, seus filhos: emph2, academic, prediction e companies e temos notebook como filho de emph2. No modelo JuruXML teríamos a consulta na forma: notebook#article/emph2, onde temos o termo antes do marcador # e o contexto após o marcador. A interface de recuperação semi-estruturada deve ser melhor elaborada para facilitar a especificação da consulta utilizando o contexto e o termo Avaliação com EPRUM O EPRUM é a generalização da Precisão-Revocação (PR) que tem como alvo permitir ao usuário navegar na estrutura da coleção. É aplicado no contexto da recuperação XML semi-estruturada. É calculada utilizando as probabilidades de um usuário navegar para um documento à partir de outro documento, ou de um elemento (parágrafo, sessão, etc.) deste. A precisão é baseada na comparação entre a posição mínima que consegue a revocação especificada sobre todas as listas possíveis e sobre a lista avaliada. EPRUM considera elementos como pontos de entrada para a coleção onde o usuário navega para encontrar elementos relevantes se sente que esta estratégia é promissora. No paradigma de R.I. semi-estruturada, unidades recuperáveis não podem ser consideradas independentemente, em XML se um parágrafo é relevante, sua sessão também carrega alguma relevância. Para distinguir a relevância intrínseca do parágrafo da relevância herdada da sessão, diz-se que embora ambos sejam relevantes, só o parágrafo é ideal [Piwowarski and Dupret 2006]. Um elemento XML pode variar de um mero parágrafo a uma seção ou a um documento inteiro. No EPRUM os elementos ideais podem ser independentes. Um elemento ideal é sempre relevante mais o inverso não é verdadeiro. É importante distinguir o nível de idealismo de diferentes elementos desde que eles podem ser de valores significantemente diferentes para o usuário. O conceito de consideração sugere que, além da relevância, a informação seria valiosa se o usuário sentir que ele pode encontrar informação relevante no mesmo documento. O EPRUM confia em um conjunto de probabilidades em eventos simples da forma navegação a partir de um item da lista para um elemento na coleção [Piwowarski and Dupret 2006]. Um usuário vê um elemento quando navega por ele à partir de outro elemento ou da lista. Ele descobre um elemento quando o vê pela primeira vez. É importante para o sistema somente quando os elementos são descobertos, a contabilização de elementos quando não se considera apenas o momento em que os elementos são descobertos gera inconsistência nos valores de precisão e revocação, recompensando um sistema por recuperar duas vezes o mesmo elemento ideal INEX Uma grande parte da pesquisa acadêmica em recuperação XML é conduzida dentro do programa INEX, um esforço colaborativo que inclui coleções de referência, conjunto de consultas, julgamentos de relevância e um encontro anual para apresentar e discutir os

5 resultados da pesquisa, ao final de cada encontro é publicado um resumob com uma visão geral sobre o encontro. Em sua primeira edição, ocorrida em 2002, foram criados uma coleção de teste com documentos XML do mundo real, em conjunto com tópicos padronizados e os respectivos julgamentos de relevância. Grupos de pesquisas de 36 organizações participaram, apresentando as primeiras ferramentas de recuperação de informação, com seus resultados e as respectivas avaliações. Surgiram também as primeiras métricas de avaliação. A partir de então, edições anuais vêm dando prosseguimento à criação da coleção de testes, estudos de métricas de avaliação e apresentação de ferramentas para recuperação de informação em documentos XML. Existem dois tipos de consultas, chamadas tópicos, na INEX: somente conteúdo (CO) e conteúdo e estrutura (CAS). Tópicos CO são consultas regulares como na recuperação de informação não estruturada. Tópicos CAS têm conteúdo estrutural além das palavras chaves. Essas diferenças nas consultas CAS fazem avaliações de relevância mais complicadas que a recuperação não estruturada. INEX define uma cobertura componente e relevância tópica como dimensões ortogonais de relevância. A dimensão da cobertura componente avalia se o elemento recuperado é estruturalmente correto, isto é, nem muito baixo, nem muito alto na árvore. A dimensão de relevância tópica tem quatro níveis: altamente relevante, razoavelmente relevante, marginalmente relevante e irrelevante. Os componentes são julgados nas duas dimensões e os julgamentos são combinados em um código dígitoletra. Esse esquema de avaliação leva em conta o fato de que julgamentos de relevância binária (sim/não) são menos apropriados para recuperação XML do que pra recuperação não estruturada. 3. Caracterização da Contribuição A dissertação visa a análise das diferenças estruturais, conceituais, a implementação dos modelos propostos em [Schlieder and Meuss 2002] e [Carmel et al. 2001], a avaliação dos sistemas com base nos conceitos de precisão e revocação e ainda a aplicação de uma nova proposta de avaliação, o EPRUM [Piwowarski and Dupret 2006], que tende a aumentar os valores padrões de precisão e revocação por permitir que o usuário alcance documentos que possam ser relevantes pela navegação entre documentos (ou partes deste) à partir de um único documento retornado. Dois grandes problemas na Recuperação de Informação semi-estruturada são: a indexação e a formulação de consultas. A indexação, que não gera índice considerando apenas termos, mas também a estrutura onde o termo está inserido. Este problema pode levar a um tamanho inviável do índice, duas soluções propostas na literatura são conhecidas como a poda de índice e a indexação em tempo de consulta. Em relação à formulação de consultas, que em recuperação semi-estruturada são árvores, o usuário tem dificuldades em estabelecer contextos ligados à estrutura e precisa de ajuda para elaborálas. O grande desafio deste trabalho é encontrar uma interface que auxilie na construção da consulta, levando à melhorias na qualidade do resultado. Os modelos que serão implementados e avaliados apresentam bom formalismo. A idéia de avaliá-los com relação à mesma coleção [INEX ] e sistema de avaliação [Piwowarski and Dupret 2006] está na tentativa de verificar e propor melhorias, principalmente na interface de consulta, em busca de um modelo mais eficaz.

6 Todas as atividades propostas serão executadas baseadas nas especificações encontradas em seus artigos originais. As implementações dos modelos sterm e JuruXML estão sendo desenvolvidas da maneira mais fiel possível. A coleta dos dados de navegação no processo de consulta será feita com o auxílio de voluntários (colegas do programa de mestrado). Os resultados serão utilizados nas formulações para o cálculo do EPRUM. Os estudos teóricos serão utilizados nas etapas de análise, avaliação e comparação. 4. Estado Atual do Trabalho O sistema sterm já foi implementado em Java para a sua utilização com uma coleção de documentos pequena. A API Java para XML SAX [SAX ] foi utilizada para realizar leitura e análise dos arquivos XML, e, a partir daí, construir a árvore. O índice do sistema sterm é da forma: Label: (pre,bound,maxf). Cada nó u na coleção é representado pela tripla de inteiros: pre(u) é o número preorder de u; bound(u) é o número preorder da folha mais à direita da subárvore com raiz u; maxf(u) é o número máximo de ocorrências de algum termo na subárvore com raiz u. A próxima etapa para a finalização do sistema sterm irá lidar com questões de escalabilidade, em especial, no gerenciamento de memória. O objetivo está na criação do índice para uma coleção grande, como a do INEX que é foco da pesquisa neste trabalho. Assim, pretende-se realizar avaliações de Precisão e Revocação de maneira escalável. O sistema JuruXML está em fase inicial de desenvolvimento. A criação do índice também utiliza a API SAX. O índice do sistema JuruXML é da forma: termo# contexto. Onde o termo representa o termo da consulta (folhas na árvore) e contexto é o caminho da raiz até a folha. Neste sistema também verificamos o problema de gerenciamento de memória para coleções grandes. Referências Carmel, D., Amitay, E., Herscovici, M., Maarek, Y., Petruschka, Y., and Soffer, A. (Nov 2001). Juru at TREC 10 - Experiments with Index Pruning. In Proceedings of NIST TREC 10. dos Santos, D. (2006). Meta-Modelo Funcional para Recuperação de Informação baseado em λ-cálculo. In Dissertação (Mestrado em Ciência da Computação), Universidade Federal de Uberlândia, Faculdade de Computação, Uberlândia, Minas Gerais. INEX. Initiative for the evaluation of XML retrieval - INEX. Disponível em: Manning, C. D., Raghavan, P., and Schutze, H. (2007). Retrieval. In Preliminary draft (c) 2007 Cambridge UP. Introduction to Information Piwowarski, B. and Dupret, G. (2006). Evaluation in (XML) Information Retrieval: Expected Precision-Recall with User Modelling (EPRUM). In SIGIR 06: Proceedings of the 29th annual international ACM SIGIR conference on Research and development in information retrieval, pages SAX. API SAX. Disponível em: tutorial/sax/index.html. Schlieder, T. and Meuss, H. (Apr. 2002). Querying and Ranking XML Documents. In Journal of the American Society for Information Systems, volume 53, pages