Estudo exploratório da Indexação Semântica Latente e das funções peso

Transcrição

1 Pontifícia Universidade Católica do Rio Grande do Sul Faculdade de Informática Programa de Pós-Graduação em Ciência da Computação Estudo exploratório da Indexação Semântica Latente e das funções peso Diego Alonzo Hinojosa Foronda Orientadora: Profª. Drª. Vera Lúcia Strube de Lima Dissertação apresentada como requisito parcial à obtenção do grau de mestre em Ciência da Computação Porto Alegre, janeiro de 2005

2 ii

3 iii

4 AGRADECIMENTOS Agradeço a Deus por ter-me guiado nesta jornada. Aos meus pais por dar-me esta oportunidade, pelo seu apoio e por estarem sempre me encorajando para seguir em frente. Um agradecimento especial à professora Vera por toda sua paciência, ajuda e compreensão que teve comigo todo este tempo. Ao Marco por toda sua ajuda no transcurso da dissertação. Aos meus amigos do mestrado que no dia a dia estiveram Obrigado iv

5 ABSTRACT In this work we present a study of the Latent Semantic Indexing (LSI) and the weighting functions performance applied on this method. The LSI method allows to find a semantic structure associated to a document collection. An important factor that influences on the results gotten for a query is the weighting functions. It is through out these functions that we can distinguish a document inside of all the collection, because the weighting function associates relevance for each indexed term. For this research was chosen the weighting functions Ltu, Okapi and atc, the most used in information retrieval researches. A case study was made with the MEDLINE collection, through the implementation of a prototype the results shows that a good retrieve is going to depend of the weighting function and also of the chosen level (k-level) that represent the matrix. v

6 RESUMO Este trabalho apresenta um estudo exploratório da Indexação Semântica Latente (Latent Semantic Indexing ou LSI) e do rendimento que têm as funções peso aplicadas a este método. O LSI permite encontrar uma estrutura semântica associada a uma coleção de documentos. Um fator importante que influencia nos resultados obtidos por uma consulta são as funções peso. É por meio destas funções que se consegue distinguir um documento dentro de toda a coleção, pois a função peso associa uma relevância para cada termo de índice. Para esta pesquisa foram escolhidas as funções peso Ltu, Okapi e atc, as mais utilizadas nas pesquisas de recuperação de informação. Um estudo de caso foi realizado com a coleção de documentos MEDLINE através da implementação de um protótipo. Os resultados obtidos mostram que uma boa recuperação vai depender da função peso e também das dimensões (nível de k) escolhidas para a matriz de representação. vi

7 SUMÁRIO ABSTRACT... V RESUMO...VI LISTA DE FIGURAS...IX LISTA DE TABELAS... X LISTA DE SIGLAS E ABREVIATURAS...XI 1 INTRODUÇÃO PROBLEMA TRABALHOS CORRELATOS Trabalhos correlatos à Indexação Semântica Latente Trabalhos correlatos às Funções Peso OBJETIVOS METODOLOGIA UTILIZADA ORGANIZAÇÃO DESTA DISSERTAÇÃO RECUPERAÇÃO DE INFORMAÇÃO CONSIDERAÇÕES INICIAIS MODELO VETORIAL AVALIAÇÃO DA RECUPERAÇÃO DE INFORMAÇÃO OPERAÇÕES EM TEXTOS Eliminação de Stopwords Stemming Seleção de Termos de Índice, Indexação e Busca INDEXAÇÃO SEMÂNTICA LANTENTE UMA VISÃO GERAL Representação Matricial vii

8 3.2 SIMPLE VALUE DECOMPOSITION (SVD) Comparando consulta e índices Atualização Exemplo de aplicação do método LSI FUNÇÕES PESO INTRODUÇÃO Tipos de funções peso Uma Conceitualização de Função Peso ESTUDO DE CASO ORGANIZAÇÃO FUNÇÕES ESCOLHIDAS Função atc Função Ltu Função Okapi Função Básica COLEÇÃO DE DOCUMENTOS PROTÓTIPO Arquitetura do protótipo RESULTADOS OBTIDOS CONCLUSÕES PROCESSO DE PESQUISA Proposta inicial O Método LSI Funções Peso CONCLUSÕES REFERENTES AOS RESULTADOS OBTIDOS Implementação O método LSI e as funções peso Resultados obtidos RECOMENDAÇÕES E TRABALHOS FUTUROS BIBLIOGRAFIA...92 ANEXO...96 viii

9 LISTA DE FIGURAS Figura 2.1: Exemplo de Abrangência e Precisão...24 Figura 2.2: Precisão, Abrangência, Velocidade...25 Figura 3.1: Inserção de novos termos...39 Figura 3.2: Inserção de novos documentos...39 Figura 3.3: Projeção do vetor Consulta...53 Figura 3.4: Avaliação do exemplo...54 Figura 4.1: Freqüência de palavras...56 Figura 5.1: Arquitetura da Solução...72 Figura 5.2: Curvas abrangência precisão nível Figura 5.3: Curvas abrangência precisão nível Figura 5.4: Curvas abrangência precisão nível Figura 5.5: Curvas abrangência precisão nível Figura 5.6: Abrangência e precisão - Função Básica...80 Figura 5.7: Abrangência e precisão - Função atc...81 Figura 5.8: Abrangência e precisão - Função Ltu...82 Figura 5.9: Abrangência e precisão - Função Okapi ix

10 LISTA DE TABELAS Tabela 2.1: Modelos de RI...21 Tabela 2.2: Abrangência e Precisão...23 Tabela 3.1: Comparação entre os elementos do modelo vetorial e do modelo LSI...33 Tabela 3.2: Coleção de documentos...45 Tabela 3.3: Matriz termo-documento...46 Tabela 3.4: Ranking matriz pesada...51 Tabela 3.5: Coordenadas dos termos e documentos...52 Tabela 3.6: Comparação de resultados...53 Tabela 4.1: Exemplo tf...57 Tabela 4.2: Fórmulas de peso local (l ij )...60 Tabela 4.3: Fórmulas de peso global (g i )...61 Tabela 4.4: Fórmulas para normalização de documentos (d j )...61 Tabela 5.1: Abrangência e precisão com k = Tabela 5.2: Abrangência e precisão com k = Tabela 5.3: Abrangência e precisão com k = Tabela 5.4: Abrangência e precisão com k = x

11 LISTA DE SIGLAS E ABREVIATURAS avg_dl Average document lenght BM25 Best Match 25 dl Document lenght HTML HyperText Markup Language idf Inverse document frequency LSI Latent Semantic Indexing MAP Mean uninterpolated Average Precision PLSI Probabilistic Latent Semantic Indexing RI Recuperação de informação SCR SparseCcolumn-Row SPQR Sparse Pivoted QR approximation SVD Single Value Decomposition tf Term frequency TREC Text REtrieval Conference XML extensible Markup Language xi

12 1 INTRODUÇÃO Os sistemas de recuperação de informação (RI) ganharam importância quando surgiram as bibliotecas digitais: a necessidade de encontrar informação específica a perguntas em geral booleanas era o objetivo destes sistemas de RI. Com a chegada da Internet estes sistemas se tornaram mais populares e passaram a exigir mais recursos, já que a informação disponibilizada versara era mais sobre uma área específica de informação em um dado formato, mas sim sobre diversos assuntos e em diferentes formatos (textos, imagens, vídeo, etc.). Esta informação, que é disponibilizada por meio de Web sites, blogs, etc., cresceu de forma inesperada e com ela cresceu também a necessidade de encontrar informação específica na Internet. Devido à variedade de formatos de informação existentes, utilizam-se distintos formatos para mostrar a informação disponível (por exemplo: html 1, páginas dinâmicas, rss 2, etc.). Esta heterogeneidade de recursos e de informação disponível levou os sistemas de RI, conhecidos comumente como ferramentas de busca, a novos desafios: indexar a maior quantidade de páginas na Web e fornecer respostas às consultas feitas ao sistema pelos usuários. As tecnologias para mostrar a informação, apoiadas na criação de novos conteúdos, facilitaram também o desenvolvimento de sítios Web sem standards e possibilitaram o uso do spam 3 para melhorar seu posicionamento nas diversas ferramentas de busca, o que leva a uma resposta que em geral não satisfaz a consulta do usuário. Pela diversidade da informação on-line e dos domínios existentes na Web, entre outros fatores, as ferramentas de busca tiveram de melhorar seus algoritmos de indexação, busca e RI, pois a necessidade do usuário cresceu e, com ela, a concorrência entre as diversas ferramentas de busca. Esta necessidade levou a pesquisar-se áreas como clustering, indexação de diversos formatos de arquivos, interação humano-computador e semântica da informação, entre as mais destacadas. No presente trabalho de pesquisa nosso 1 Do inglês: HyperText Markup Language. 2 RDF Site Summary, Rich Site Summary, ou Really Simple Syndication. 3 Por spam entenda-se o envio de informação não solicitada e enviada em massa. Nas páginas Web, spam é o abuso de certos recursos que levam a melhorar o posicionamento destas páginas nas ferramentas de busca. 12

13 interesse é trabalhar com o conteúdo da informação, especificamente com a semântica da informação, considerada na atualidade como sendo uma das áreas que pode levar a satisfazer as exigências do usuário já que, quando se faz uma consulta, deseja-se obter uma resposta, a mais exata possível, para a consulta que se formulou. É nesse sentido que o método Latent Semantic Indexing (LSI) [BER94] trabalha, ajudando a encontrar uma relação semântica entre uma consulta e os termos indexados. Desta forma, embora as palavras não sejam iguais na relação, diminui a informação redundante. Este método é relativamente novo e visa melhorar os resultados, sobretudo, trabalhando com problemas tais como sinonímia e polissemia. A empresa Google demonstrou interesse por este método, incorporando o LSI em seu sistema de publicidade AdSense 4. Outra forma de melhorar o processo de RI na obtenção de uma resposta que satisfaça ao usuário é dotar o sistema de RI de critérios de discriminação entre os termos indexados, isto é, destacar quais são os termos mais relevantes dentro da coleção. Estes critérios de discriminação são chamados de funções peso. Estas funções determinam um valor numérico, chamado peso, para cada termo de índice da coleção de tal forma que, na realização de uma consulta, a relevância entre a consulta e os termos de índice vai ser determinada pelos termos que possuam maior peso. Em geral estes pesos vão depender do objetivo do sistema de RI e da coleção que está sendo utilizada. Existem diversas pesquisas sobre estas funções; entre elas, uma das propostas mais estudadas é a do sistema OKAPI [ROB99] [ROB04a]. É nesta linha que o presente trabalho de pesquisa aborda as duas áreas descritas anteriormente: o estudo do método LSI e o rendimento das funções peso aplicadas a este método. 4 Mais detalhes encontram-se em 13

14 1.1 PROBLEMA Quando se trabalha com uma coleção contendo uma quantidade abrangente de documentos, existe a dificuldade de encontrar, ou recuperar, documentos que sejam relevantes a uma necessidade expressa em uma consulta. Essa necessidade é suprida pelas ferramentas de busca, que recuperam documentos a partir de uma consulta fornecida por um usuário, mas os documentos recuperados, em geral, são documentos que não satisfazem plenamente à consulta do usuário, pelos seguintes motivos: O usuário exige cada vez mais das ferramentas de busca, com o menor esforço possível, sobretudo quanto aos resultados obtidos para a consulta que forneceu, tanto no tempo de resposta, quanto na exatidão (precisão) do rankeamento 5. Em resumo, o usuário busca ferramentas inteligentes que possam entender sua consulta e bem resolvê-la. No âmbito da Web, a falta de padronização na criação de páginas por parte dos programadores, webmasters e outros, e a sobrecarga de informação relevante (uso de técnicas de spam e técnicas de posicionamento SEO 6 ) fazem que se percam diferenças no conteúdo dos documentos. A maioria das ferramentas de busca recuperam documentos por similaridade entre as palavras do documento e a consulta fornecida. Observa-se que os três motivos anteriores estão relacionados a um único problema central: a falta de alguma análise semântica no tratamento da informação. 5 Por rankeamento entenda-se a classificação dos documentos mostrados como resposta. 6 Os SEOs (do inglês Search Engine Optimizator) são pessoas ou entidades que se dedicam à otimização de sítios Web. Por otimização entende-se o processo desenvolvido nos Web sites para que estes sejam posicionados nos primeiros lugares nas ferramentas de busca para algumas palavras-chave. 14

15 1.2 TRABALHOS CORRELATOS Embora o método LSI seja relativamente novo, existem pesquisas sobre este método aplicadas a distintas áreas. Nesta seção são elencadas as publicações referentes a LSI mais relevantes para esta pesquisa. Apresentam-se também os trabalhos de pesquisa referentes às funções peso, que são amplamente aplicadas em diversas áreas Trabalhos correlatos à Indexação Semântica Latente Dado que o LSI é um tema relativamente novo, ainda existem poucas referências a esse tema. A seguir relacionam-se as referências consideradas como relevantes. Cross-language: Em [DEE96a] e [LIT96] os autores mostram como o LSI auxilia na tradução (representação) de documentos multilingües. Tal trabalho tem como resultado gráficos de comparações, entre as consultas feitas em um idioma e documentos similares recuperados em outros idiomas, onde destaca-se que a consulta fornecida não precisa ser traduzida para recuperar os documentos. O trabalho não contribui para a presente pesquisa, já que o foco é o Cross-language Information Retrieval. Autotutor: É um sistema tutor inteligente para a Web [WIE99], auspiciado pela Universidade de Memphis e desenvolvido por uma equipe interdisciplinar. Este sistema conta com vários módulos, entre eles o LSI, e seu objetivo é utilizar agentes inteligentes, mediante uma conversa em linguagem natural, para ensino aos estudantes sobre um tema em particular. A forma de avaliar se os estudantes respondem corretamente faz uso do LSI: os pesquisadores fazem uma comparação entre as respostas esperadas (consideradas como boas ) e as respostas fornecidas pelos usuários. Devido ao grau de abrangência que uma resposta pode ter, ao utilizar o LSI chega-se a avaliar de melhor forma esta resposta, já que é considerada a semelhança que existe entre a resposta do usuário e a resposta do sistema. O foco do trabalho volta-se a um sistema tutor. A relação que o mesmo tem com RI é muito reduzida e pouco contribui ao trabalho de pesquisa realizado. 15

16 Michael W. Berry et al. descrevem em [BER94] e [BER99] o LSI aplicado à RI mostrando vantagens, relacionadas à sinonímia e à polissemia, para citar algumas. Em particular, os autores Michael W. Berry e Susan T. Dumais, são os que deram início às pesquisas sobre o LSI e possuem diversas publicações aplicando o LSI à RI. No decorrer deste documento, utilizam-se tais trabalhos como base teórica para a pesquisa realizada Trabalhos correlatos às Funções Peso Descrevendo o estado-da-arte, encontram-se os seguintes trabalhos de pesquisa relacionados às funções peso: PageRank [PAG98]: o conhecido algoritmo de rankeamento do Google, que serve para rankear páginas segundo a popularidade (determinada por este algoritmo) que a página possua, foi fruto de um estudo bastante completo voltado ao rankeamento de páginas Web, considerando variáveis tais como links de ingresso e saída de uma página. Diversas pesquisas foram desenvolvidas em torno deste PageRank. Entre estas encontrase o trabalho de Taher H. Haveliwala e Sepandar D. Kamvar [HAV03], que mostra como detectar o spam de links e calcular de forma mais rápida o PageRank, entre outros aspectos. Este trabalho contribui à presente pesquisa oferecendo uma visão da variabilidade que as funções peso podem ter: distintas variáveis que fazem parte da função vão depender do objetivo que o sistema de RI queira atingir. Em [BAE99], os autores abordam as funções peso clássicas tais como a norma e função booleana. Os autores não apresentam um estudo intenso sobre este tema, apenas fornecem uma conceitualização inicial do comportamento destas funções. Este livro dá a base inicial da pesquisa para descrever as funções peso. 16

17 O autor Stephen Robertson parece ser o pesquisador mais destacado neste tema. Diversas pesquisas sobre as funções peso levaram-no, com sua equipe, a criar a função peso Okapi, uma das funções mais utilizadas em RI. Em [JIN01] é relatada a utilização dessa função, junto com outras três, para mostrar uma forma alternativa de avaliar os documentos recuperados, sem utilizar abrangência e precisão. Em [ROB04a] mostra-se como aplicar a função peso BM25, uma das variações da função Okapi, em documentos estruturados em HTML ou XML. Tal artigo faz uma ponderação dos documentos em si, e das tags existentes nos mesmos. A presente dissertação utiliza os resultados das diversas pesquisas desenvolvidas por Stephen Robertson. Cross-language. Em [CHE01] é apresentado um estudo dos pesos na tradução de idiomas, especificamente na recuperação de documentos em inglês traduzidos ao árabe. Os pesquisadores utilizam como função peso uma variação da função inverse document frequency. As contribuições trazidas por esta pesquisa são empregadas no presente trabalho, no sentido de fazer modificações nas funções peso para obter uma melhor recuperação. 1.3 OBJETIVOS Embora o método LSI seja testado em coleções com uma quantidade de documentos relativamente grande, não foi aplicado (pelo menos, não foi encontrado registro de aplicação na revisão bibliográfica realizada até esta data) em sistemas de recuperação com um volume de informação considerável, associado a funções peso distintas, para fins de estudo. A única referência de aplicação encontrada foi a da empresa Google, que aplicou o método num serviço específico (AdSense ). Assim, o objetivo principal desta dissertação é: Fazer um estudo exploratório sobre o método LSI e a aplicação de funções peso associadas ao uso do método. 17

18 Os objetivos secundários são: Observar o comportamento que têm as funções peso neste contexto; Determinar qual(is) função peso melhor ajudam a recuperar documentos. trabalho. Na seguinte seção descreve-se a metodologia adotada para o desenvolvimento do 1.4 METODOLOGIA UTILIZADA A metodologia adotada para o desenvolvimento do presente trabalho constou inicialmente de uma pesquisa bibliográfica nas áreas de recuperação de informação de forma geral, aprofundada nas áreas concernentes ao método LSI e às funções peso. Após terminada a revisão bibliográfica estudou-se o método LSI, abrangendo desde a criação da matriz termo-documento (matriz inicial) até os métodos que podem ser utilizados para atualizar a estrutura semântica encontrada. No que se refere às funções peso, foi estudado o modo como estas funções são criadas e como afetam os termos de índice. Em particular, foram escolhidas e analisadas as funções peso mais utilizadas encontradas na bibliografia. De modo a analisar o comportamento das funções peso escolhidas para associação com o método LSI, constatou-se a necessidade de desenvolver um protótipo de modo a aplicar estas funções junto a uma coleção de documentos (previamente avaliada), cuja estrutura semântica foi obtida com o uso do método LSI. A determinação da(s) função(ões) que possuem melhor rendimento foi feita com uso das consultas pré-definidas da coleção empregada, e os resultados foram avaliados quanto a abrangência e precisão. 18

19 1.5 ORGANIZAÇÃO DESTA DISSERTAÇÃO O texto da dissertação divide-se em cinco capítulos, precedidos desta introdução e seguidos de Bibliografia e Anexo. No Capítulo 1 se faz uma introdução aos problemas existentes, discutem-se trabalhos de pesquisa realizados e apresentam-se trabalhos correlatos das duas áreas que são abordadas neste documento, o método LSI e as funções peso, destacando os trabalhos cujas contribuições são utilizadas nesta pesquisa. No Capítulo 2 se faz uma introdução à RI destacando os pontos concernentes à pesquisa. No Capítulo 3 é estudado em detalhe o método LSI, explicando-se a forma de representar os documentos e termos indexados e apresentando-se, o método matemático que é utilizado para reduzir a dimensão da matriz e realizar o matching entre uma consulta e os termos indexados. No Capítulo 4 são detalhadas as funções peso, a importância das mesmas e o modo como influenciam nos resultados de uma consulta. Já no Capítulo 5 apresenta-se o estudo de caso realizado, a modelagem do protótipo implementado, e o estudo de caso trabalhado no contexto da dissertação, através do qual foram analisadas quatro diferentes funções peso em uma coleção de documentos com consultas pré-definidas. Por último, no Capítulo 6, apresentam-se as conclusões da pesquisa realizada e considerações quanto a trabalhos futuros. 19

20 2 RECUPERAÇÃO DE INFORMAÇÃO 2.1 CONSIDERAÇÕES INICIAIS Os autores Baeza-Yates e Ribeiro-Neto [BAE99] e van Rijsbergen [RIJ99], respectivamente, iniciam suas obras abordando a diferença entre recuperar dados e recuperar informação. É natural que, no resultado dessa comparação, a RI tenha-se saído melhor. O motivo principal é que recuperar informação possui um valor maior do que recuperar só dados. Mas a RI também tem seus limites. Quando a RI trabalha com as palavras de um documento de forma isolada, só recupera palavras por semelhança literal, perdendo toda a informação existente no conjunto das palavras e dos documentos. Os documentos que se deseja recuperar não precisam necessariamente possuir as mesmas palavras da consulta. Em uma abordagem de recuperação semântica ter-se-ía que estar atento a um importante problema: a sinonímia. E não só à sinonímia de palavras, mas também de frases, já que duas frases distintas poderiam ter o mesmo significado, ou uma frase poderia ter representação equivalente a outra existente. Para trabalhar com este tipo de situação é preciso utilizar alternativas tais como stopwords, stemming, palavras funcionais e atribuição de pesos às palavras. As alternativas anteriores e os modelos clássicos de RI, o modelo vetorial e o probabilístico, são descritos em detalhe em [BAE99] e [RIJ99]. Quando se faz referência a modelos clássicos, estão aí incluídos os modelos mais aceitos e utilizados, tanto pela comunidade de pesquisa, quanto pelas empresas que implementam os motores de busca. Na Tabela 2.1 mostra-se como Baeza-Yates e Ribeiro- Neto classificam aos modelos de RI. 20

21 Modelos Clássicos Modelo Booleano Modelo Vetorial Tabela 2.1: Modelos de RI (adaptado de [BAE99]) Conjuntos Teóricos Alternativos Modelo de Conjuntos Difusos (Fuzzy sets) Extensão do Modelo Booleano Modelos Algébricos Alternativos Generalização do modelo espaço vetorial Latent Semantic Indexing (LSI) Modelo Probabilístico Redes Neurais é o LSI. Entre os modelos algébricos alternativos, uma abordagem apresentada em [BAE99] 2.2 MODELO VETORIAL A maioria dos sistemas de RI utilizam este modelo pelo fato de que o mesmo é capaz de representar e trabalhar com a informação de forma matemática e estatística. Esta abordagem gerou diversas pesquisas tanto na maneira como trabalhar cada elemento do vetor, quanto no modo de fazer o matching entre uma consulta e os documentos representados. Cada vetor representa um documento d, e este vetor possui como elementos os termos t i. Este vetor possui a seguinte representação: d j = (t 1,t 2,..., t n ) (1) Onde j é o número do documento d na coleção e cada t i é um termo, sendo que pertence ao intervalo 1 i n, sendo n o total de termos do documento. 21

22 Com respeito ao matching, quando um usuário faz uma consulta q esta pode ser representada em forma de vetor da mesma maneira como é representado um documento. A forma de saber se uma consulta q está próxima a um documento d é mediante o produto ponto, ou produto interno entre os dois vetores: d q. Este produto serve para medir o grau de similaridade entre um documento armazenado e a consulta do usuário. Fazendo uma ordenação pelos pesos dos documentos recuperados, como resultado se tem um ranking de um conjunto de documentos recuperados, obtendo uma resposta ordenada. A maneira como se designa um valor, denominado peso, para cada elemento do vetor, é explicada na seção AVALIAÇÃO DA RECUPERAÇÃO DE INFORMAÇÃO O tipo de avaliação geralmente depende do objetivo do sistema: a idéia é avaliar a performance da recuperação. C. J. van Rijsbergen [RIJ99] aponta a existência de diversos indicadores para a avaliação. Entre eles, os mais aceitos nas pesquisas de RI são abrangência e precisão, dado que seu propósito é medir a efetividade de um sistema de RI. A seguir serão descritos em detalhe estes dois indicadores e será brevemente comentado um terceiro, denominado fallout. Os modelos de abrangência e precisão podem ser utilizados como modelos de avaliação da RI na Web. Apresentam-se na Tabela 2.2 os conceitos inerentes à abrangência e precisão [RIJ00] (em uma visão de teoria dos conjuntos). 22

23 Tabela 2.2: Abrangência e Precisão (retirado de [RIJ99]) Responde à pergunta (A) Não responde à pergunta (~A) Recuperado (B) A B ~A B Não Recuperado (~B) A ~B ~A ~B Para entender melhor a Tabela 2.2 apresenta-se graficamente na Figura 2.1 cada um dos conceitos de abrangência e precisão. A seguir explicam-se estes dois conceitos: Abrangência. Representa uma porcentagem dos documentos que foram recuperados. É uma parte dos documentos, o subconjunto dos documentos relevantes (R), entre os documentos que foram recuperados. n d r Abrangênci a = ou r A B A (2) Onde, n r representa os n primeiros documentos relevantes recuperados e d r representa os documentos relevantes a uma determinada consulta. Precisão. Representa uma porcentagem dos documentos que foram recuperados. É uma parte dos documentos recuperados, o conjunto A, constituído pelos documentos que foram recuperados e que são realmente relevantes. Precisão n r A B = ou n B (3) Onde n r representa os n primeiros documentos relevantes recuperados e n o total de documentos. 23

24 Figura 2.1: Exemplo de Abrangência e Precisão (retirado de [BAE99]) A precisão em 11 pontos é uma forma de representar os resultados das medidas de abrangência e precisão. Estes pontos (no intervalo de 0 a 1) apresentam os valores da precisão em função dos valores da abrangência. Estes pontos são interpolados para cada valor da abrangência, considerando os documentos recuperados. Nesta interpolação, é considerado o valor máximo da precisão obtida para os valores da abrangência entre o ponto atual e, inclusive, o próximo [GON05]. Estes pontos podem ser representados em um gráfico onde o eixo das abscissas é a abrangência e o eixo das ordenadas é a precisão: esta forma de apresentar o resultado tem a facilidade de mostrar, no mesmo gráfico, cada um dos sistemas avaliados. 24

25 Figura 2.2: Precisão, Abrangência, Velocidade (retirado de [KOB00]) A Figura 2.2 mostra que os sistemas de RI em Internet possuem um terceiro fator de medida, que é a velocidade. Estes sistemas on-line precisam ter velocidade na recuperação de documentos. O usuário, particularmente, exige velocidade na recuperação dos documentos e precisão destes documentos com respeito à consulta que forneceu. 2.4 OPERAÇÕES EM TEXTOS Para trabalhar com textos considera-se que existem palavras mais relevantes que outras no mesmo texto, o que significa que aquelas palavras são mais representativas que as outras (no que se refere aos modelos de recuperação, estas palavras possuem peso maior). Estas palavras são chamadas termos de índice. Para obter resultados melhores, pode-se recorrer à desambigüização do texto, uma vez que se pretende identificar o sentido de uma palavra num determinado contexto e num conjunto de palavras candidatas. Para atingir tal objetivo se faz uma análise lexical. Esta análise é o processo de conversão de um conjunto de caracteres, do texto do documento, em uma cadeia de palavras, candidatas a ser termos de índice. 25

26 O objetivo de fazer uma análise lexical é identificar as palavras importantes dentro de um texto. Este processo vai estar sujeito a conhecimentos adicionais como distinguir letras maiúsculas de minúsculas, conhecer a importância dos números como termos de índice, etc Eliminação de Stopwords Palavras que aparecem no texto repetidas vezes são boas candidatas a termos de índice. Porém, existem palavras que, mesmo aparecendo com alta freqüência, não apresentam tal significância (exemplo: artigos, preposições, etc.). Este conjunto de palavras não significantes é conhecido como stopwords. A eliminação de stopwords evita que palavras não significantes interfiram no processo de recuperação, ajudando a reduzir o tamanho do texto e, com isto, potencialmente reduzir a abrangência. Quando se eliminam as stopwords se reduz o texto e o tamanho do documento, o que facilita o armazenamento dos documentos Stemming Quando o usuário faz uma consulta através de uma palavra, pode ser que uma variante dessa palavra (plural, palavra adicionada de sufixos, etc.) esteja num documento relevante, ou seja, uma variação dessa palavra pode permitir encontrar termos de índice e, desse modo, melhorar o resultado da busca. Para operar esta melhora se substitui a palavra pela respectiva raiz (stem), e este processo de substituição é conhecido como stemming. A raiz é a parte da palavra que resta, depois de eliminados seus afixos. 26

27 É importante utilizar o stemming para melhorar a performance da recuperação porque esta operação reduz as palavras a um termo núcleo, além do que os afixos de uma palavra não constituem a essência semântica da mesma. Existem diversas técnicas de stemming descritas por Baeza-Yates e Ribeiro-Neto [BAE99]: retirada de afixos, tabela de lookup, variação do sucessor e N gramas. A eliminação de sufixos às vezes pode trazer erros: só se remove um sufixo quando o contexto está correto [RIJ99]. Entenda-se por correto o contexto representado nas seguintes situações: 1. O comprimento restante do stem excede a um valor; usualmente este valor é 2; 2. A letra final do stem satisfaz a uma condição (por exemplo: que não termine com a letra g). Por exemplo, a palavra estadual, eliminado o sufixo ual leva à cadeia estad, mas para a palavra igual, se eliminado o sufixo ual, restaria ig (situação 1) e a palavra terminaria com a letra g (situação 2), levando a uma incorreção no stemming Seleção de Termos de Índice, Indexação e Busca Como já explicado anteriormente, um termo de índice pode derivar do texto de um documento ou pode ser independente. Os termos de índice a escolher podem ser identificados por um especialista ou ser identificados de forma automática. Para se ter um melhor controle da linguagem, pode-se prever uma hierarquia que relacione os termos de índice. 27

28 Existem dois fatores importantes para a efetividade de uma linguagem indexada 7, que são exaustividade (exhaustivity), que é o número de diferentes temas indexados, e especificidade (specificity), a facilidade com que se descrevem temas precisamente. Pensado em uma procura na Web, não é viável o uso deste modelo. Como alternativa podemos indexar termos do texto construindo uma estrutura a qual possa manter-se atualizada. É claro que isto vai ocorrer quando os índices não tiverem que ser inseridos constantemente (por exemplo, a cada segundo). Mas este exemplo de inserções constantes é que caracteriza a representação das máquinas de busca da Internet. indexação: Baeza-Yates e Ribeiro-Neto [BAE99] descrevem as seguintes técnicas de Arquivos Invertidos (Inverted files). Esta técnica consiste em transformar as palavras de um texto em uma lista ordenada ascendentemente. Os arquivos indexados são compostos por: o Vocabulário: Conjunto de todas as palavras do texto; o Ocorrências: É uma lista que armazena cada palavra e a posição onde aparece. Arrays de sufixos (Suffix arrays). Servem para dar respostas mais precisas a consultas mais complexas. Esta técnica pode ser utilizada para indexar palavras sem stopwords. Cada posição no texto é considerada como texto sufixo. 7 Linguagem indexada é a linguagem que descreve documentos e consultas. 28

29 Com respeito à busca, Kang e Kim [KAN03] classificam em três grupos os tipos de consultas que o usuário fornece na Internet: temas de relevância (de informação), busca de homepages (navegacional) e busca de serviços (transacional). Esta classificação ajuda a ter um filtro de busca para obter resultados mais exatos. 29

30 3 INDEXAÇÃO SEMÂNTICA LANTENTE 3.1 UMA VISÃO GERAL Em [DEE96a] os autores explicam que as limitações da atual indexação automática são causadas, principalmente, por três fatores: A maneira como os termos de índice são identificados é incompleta. Quando se escolhem palavras para servirem de índices, geralmente estas palavras são escolhidas por um grupo de pessoas que selecionam os termos mais freqüentes dentro de um documento, para evitar a sinonímia. Uma solução alternativa é a construção de tesauros (listas de palavras com seus significados e as relações entre elas; normalmente restritos a um domínio específico de conhecimento), só que esta alternativa de solução exige muito trabalho humano. Existe carência de modelos automáticos para trabalhar com a polissemia. Este problema pode ser tratado de duas formas: utilizar um humano que atue como tradutor. Os dois modelos anteriores não são totalmente efetivos, além de serem custosos [DEE96a]. Os termos são trabalhados de forma isolada. Desta maneira se perde a relação existente entre as palavras em uma mesma frase. A existência dos fatores anteriores levou ao desenvolvimento e pesquisa de outros modelos para melhorar essas falhas. O LSI trabalha rompendo as limitações com os três fatores mencionados anteriormente. 30

31 A Indexação Semântica Latente (do inglês Latent Semantic Indexing, LSI) tenta superar as deficiências da recuperação por combinação de termos, tratando a falta de confiabilidade dos dados associados a uma relação termo-documento ou documentodocumento, como um problema estatístico. Este método assume que há uma estrutura semântica oculta (latente), subjacente aos dados. Esta semântica é esquecida parcialmente pela aleatoriedade da escolha da palavra no que se refere à recuperação, pelo fato de que se escolhem palavras individuais para serem recuperadas, indexadas, etc. Utiliza-se no LSI um modelo matemático para estimar esta estrutura latente, que liberta do ruído constituído pela polissemia e pela sinonímia existente nos documentos. A descrição dos termos e dos documentos baseados na estrutura semântica latente é utilizada tanto para a indexação como para a recuperação. Entende-se por estrutura semântica a estrutura de correlação entre as palavras individuais que aparecem nos documentos; semântico implica o fato de que os termos, em um documento, possam ser tomados como referentes ao documento ou ao assunto desse documento. Esta técnica de análise da semântica de palavras em distintos documentos é automática: essa é a diferença principal que existe entre o LSI e os outros modelos existentes. O modelo matemático que se utiliza para criar a estrutura semântica é a decomposição Single Value Decomposition (SVD). O resultado da aplicação deste modelo, após realizadas operações matriciais, é uma matriz aproximada à matriz original. Esta matriz original é a matriz que representa uma relação, podendo ser esta relação termodocumento, termo-termo ou documento-termo. Matematicamente, este resultado pode ser interpretado como uma configuração espacial na qual o produto co-seno entre vetores representa a similaridade estimada entre dois documentos e, na área de RI, SVD é interpretada como uma técnica para gerar um conjunto de indexações não correlacionadas de variáveis ou fatores; cada relação (por exemplo, a relação termo-documento) é representada por seu vetor de valores [DEE96a]. 31

32 3.1.1 Representação Matricial O modelo vetorial é o mais aceito pelos pesquisadores para a RI. Este modelo é representado da seguinte forma [BAE99]: d j = ( w1, j, w2, j,..., wn, j ) (4) O vetor d j representa um documento j qualquer da coleção e w 1,j, w 2,j..., w n,j representam as palavras-chave do documento vetor j. d Da mesma forma que o modelo vetorial, o LSI trabalha com um conjunto de vetores que possuem as mesmas palavras-chave agrupando vários documentos e analisando, assim, a existência de palavras comuns entre esses documentos. De forma simples, a idéia principal é arranjar uma quantidade bastante grande de relações que co-ocorram simultaneamente em uma mesma dimensão. Entretanto, formalmente, trabalha-se com uma matriz na qual relacionam-se termos e documentos. Esta matriz é analisada pelo modelo SVD e, como resultado, é gerada uma matriz de menor dimensão. Se assume que essa nova matriz, de nível k, é a melhor aproximação à matriz original. Comparando os elementos do modelo vetorial e do LSI, se tem o resultado apresentado na Tabela 3.1. Nesta comparação, observou-se que a principal diferença que existe entre os dois modelos é que o modelo LSI trabalha com um conjunto de documentos (representados em uma matriz) ao mesmo tempo, enquanto que o modelo vetorial trabalha com um só documento por vez. 32

33 33 Tabela 3.1: Comparação entre os elementos do modelo vetorial e do modelo LSI Elemento do vetor j d Elemento da matriz A k w i,j Documento j, onde j ao j- ésimo vetor na coleção de documentos. Termo i, onde i representa a i- ésima posição no vetor d j. Palavra (ou termo) que ocorre na posição i do vetor j. w i,j Documento j, onde j à coluna de documentos. Termo i, onde i ao vetor-linha de termos t. Freqüência associada ao peso de i no documento j, onde i ocorre no documento j. A seguir observa-se a representação dos dois possíveis casos que ocorrem na decomposição SVD para uma matriz termo-documento onde m representa as linhas (os termos) e n as colunas (os documentos): Quando m > n: = * * * * * * * * * * * * * * * (5) Quando m < n: = * * * * * * * * * * * * * * * (6) documentos termo s A U V T documentos documentos termo s A V T U

34 Da equação (5) se tem que: A: É a matriz original com a relação termo-documento, de dimensões m x n; U: É a matriz ortogonal de dimensões m x k; k é um valor intermediário entre m e n. : É a matriz de tamanho k x k com elementos positivos ou nulos na diagonal principal. Os elementos da diagonal principal recebem o nome de valores singulares e estão ordenados de forma decrescente, sendo nulos nas últimas posições da matriz; V T : É a matriz ortogonal de tamanho k x n, onde T denota tratar-se de uma matriz transposta. A decomposição SVD representa a matriz original A nas matrizes U, e V T. Cada uma das associações que existem para construir a matriz A possui uma equação. A seguir se descreve cada uma dessas equações [DEE96a]: Comparação termo-termo. O produto co-seno entre dois vetores-linha de A k mostra a extensão na qual dois termos têm um padrão semelhante de ocorrências, em um conjunto de documentos. A matriz resultante é uma matriz quadrada simétrica: A = U 2 U T (6) Comparação documento-documento. O produto co-seno entre duas colunas mostra a extensão na qual dois documentos têm um perfil similar entre eles: A = V 2 V T (7) 34

35 Comparação termo-documento. O produto das matrizes resultantes de uma matriz que é aproximadamente igual à matriz A, sendo esta matriz de nível k. Assim o produto resultante é a matriz A k : A = U V T (8) Esta última equação da relação termo-documento vai ser trabalhada com detalhe nas próximas seções. 3.2 SIMPLE VALUE DECOMPOSITION (SVD) O SVD é realizado em matrizes reais ou complexas (condição inicial para aplicar a decomposição nas matrizes). Em [TRE97] descrevem-se duas formas de fazer a decomposição: uma forma reduzida e outra completa. Os exemplos abordados no presente trabalho de pesquisa utilizam matrizes reais e utilizam a decomposição SVD completa. A decomposição SVD gera uma matriz A k de nível k (rank-k) relacionada à matriz original A, uma matriz aproximada à matriz original A. Este nível k é representado como r k. Esta matriz A k expressa a melhor representação da estrutura semântica de certo domínio, podendo ser este domínio uma coleção de documentos ou um banco de dados. A escolha de qual o melhor nível de aproximação vai ser feita por testes empíricos, já que os modelos para encontrar esta matriz ainda estão em discussão [BER99]. As primeiras r A linhas de V T formam a base do espaço linha de A, enquanto que as primeiras r A colunas de U formam a base do espaço coluna de A. Obtendo a aproximação à matriz A de nível k, onde k r A, pode-se construir uma matriz aproximada A k de nível k, donde se obtém a seguinte equação: A 2 Ak = mín A B = F 1 rank ( B) k F k + 2 σ σ r A (9) 35

36 Onde A k = U k k V k T, e U k e V k são compostas das primeiras k colunas de U e V respectivamente e k é matriz diagonal de tamanho k x k contendo os k maiores valores singulares de A. O conteúdo semântico de um documento é geralmente determinado pela freqüência relativa de termos e, para descrever este conteúdo semântico de uma coleção de textos, podem ser utilizados os vetores base da matriz original A (os espaços coluna de A). A aplicação da decomposição SVD ajuda, principalmente, a reduzir o tamanho de m e n, já que em geral os dados da matriz A são altamente esparsos, isto porque nem todos os termos aparecem em todos os documentos Comparando consulta e índices Após aplicar a decomposição SVD à matriz original e encontrar a matriz A K aproximada à matriz original, resta ver como se faz o matching 8 entre uma consulta fornecida pelo usuário e a matriz aproximada. [BER94] apresenta uma equação simples para fazer o matching entre um vetor e a coleção de documentos: q ˆ (10) 1 = q T U kσ k A soma dos vetores-termo de dimensão k é refletida por q T U K na equação anterior, e esse resultado multiplicado por 1 diferencia os pesos em dimensões separadas. O resultado desta equação são as coordenadas dentro de um plano cartesiano; esta equação é mostrada visualmente na Figura 3.3 (Seção 3.2.3) após realizada a consulta ao sistema. 8 Por matching entenda-se o uso de um critério de comparação entre um recurso e outro, podendo ser estes recursos palavras, frases, documentos, etc. 36

37 Em geral, para fazer o matching entre uma consulta fornecida ao sistema e a coleção de documentos (neste caso, a matriz aproximada de nível k) é utilizado o método de comparação do co-seno. O objetivo de utilizar o co-seno é medir a semelhança existente entre uma consulta e os documentos da coleção. Esta equação é apresentada em [BER99] da seguinte forma: ( ) ( ) Ak e j q cos ϑ j = para j = 1, 2,.., n. (11) A e q k j T 2 2 Onde e j é um vetor que representa a coluna j de uma matriz identidade de tamanho n x n, q representa o vetor de consulta do usuário e 2 é a norma euclidiana do vetor. Assim, por exemplo, q representa a norma euclidiana do vetor q. Como critério de discriminação, 2 em [LAN98] utiliza-se para cos ϑ j o valor mínimo de 0.5. Isto indica que os valores iguais ou maiores (pesos dos documentos recuperados) que este valor são relevantes para a consulta q. Uma equação alternativa para encontrar o matching entre a consulta e os documentos, com um custo computacional mínimo segundo [BER99], é: ( ) ( ) T T s U q cos ˆ j k ϑ j = para j = 1, 2,..., n. (12) T s U q j 2 k 2 Onde, para documentos escalados, o vetor s j = Σ V e. Para todos os vetores documento k T k j (s j ) se cumpre que cosϑˆ j cos ϑ j. Isto implica que, às vezes, se recuperam mais documentos relevantes utilizando esta equação, do que com a equação proposta inicialmente. Tem-se de considerar que estes cálculos (e para que se obtenha um custo computacional baixo) são previstos para matrizes de tipo esparsas. 37

38 Em [FIE02] apresenta-se uma outra equação alternativa para o matching entre consultas. Para tanto, primeiro a consulta q é projetada sobre a estrutura semântica encontrada, da seguinte forma: 1 ˆ K T q = Σ U q (13) K Após encontrar qˆ realiza-se o matching através da seguinte equação: VK qˆ cos ˆ j ϑ j = para j = 1, 2,..., n. (14) V qˆ K j 2 2 O objetivo de projetar a consulta q nas matrizes K e U K é que a consulta faça o matching entre os termos de nível k da coleção (a multiplicação com as matrizes e U de nível k) e, uma vez encontrado o resultado, se faz a comparação com a matriz V K (os documentos de nível k da coleção). Note-se que, ao fazer o matching entre a consulta e os termos, esta operação é calculada uma vez só. O resultado (que é o vetor qˆ ) é comparado com todos os documentos da matriz V K, e isto leva a ter um ganho no processo da consulta, já que não é refeito o cálculo em cada iteração Atualização Uma vez encontrada a estrutura semântica, as matrizes U, e V de nível k, existe a possibilidade de querer inserir novos termos ou novos documentos na coleção de documentos, na matriz A K. A forma como teriam que ser inseridos os novos q termos e p documentos na matriz A K é mostrada nas figuras 3.1 e 3.2, correspondentemente. 38

39 Figura 3.1: Inserção de novos termos Figura 3.2: Inserção de novos documentos Para fazer uma atualização na estrutura semântica, o caminho mais simples seria criar uma nova matriz A com os novos termos ou documentos e calcular novamente a matriz A k. Esta forma de atualização, embora seja a mais precisa, tem custo computacional elevado. Como alternativa de solução existem dois métodos para fazer a atualização: o folding-in e o SVD-Updating, ambos descritos em [BER94] e [OBR94]. Nas próximas seções são abordados estes dois métodos. 39

40 Folding-in Uma alternativa de fazer a atualização é utilizar o folding-in, descrito em [BER94]. Uma condição inicial para que os novos documentos ou termos sejam adicionados à matriz A K é que sejam representados em forma de vetores. A adição de documentos em uma estrutura de LSI já existente se dá por meio da seguinte equação: 1 K d ˆ = d T U K (15) Assim, após ser calculado o resultado da equação anterior, é inserido o novo documento na matriz V K. De igual forma, para adicionar novos termos na matriz U k segue-se a equação: 1 V K K t ˆ = t (16) Esta forma de atualizar é rápida e com custo computacional baixo. A desvantagem de utilizar esta técnica de atualização é que a mesma reproduz uma representação inexata da atualização dos novos termos ou documentos [BER99], ou seja, quanto maior a quantidade de termos ou documentos adicionados, maior a variação nos resultados SVD-Updating O SVD-Updating é outra forma de atualizar a coleção de documentos; além de permitir inserir novos documentos e novos termos, tem a possibilidade de fazer correções nos pesos dos termos [BER99] [OBR94]. 40

41 No que se refere ao método de cálculo, seja D a representação dos p novos vetores documentos a serem processados, que será uma matriz esparsa 9 m x p (lembre-se que m representa o número de termos existentes na coleção). D é incorporada às colunas da matriz A de nível k, e para tal efeito são calculados os correspondentes valores e vetores singulares da equação: ( AK B) B = (17) A forma de calcular os novos valores para U B, B e V B é dada a seguir. Seja SVD( B) = U B Σ V. Então: B T B U T B VK B 0 I 0 P = T ( Σ U D) K K (18) Sendo A K = U Σ V. K K T K T Se F ( Σ K U K D) = e SVD( F) = U F Σ V então os valores para U K, K e V K são: F T F U B = U K U V 0 K F, VB = VF e Σ F = Σ B 0 I (19) P Para inserir novos termos, seja T a coleção de novos termos que serão anexados na coleção de documentos. Esta matriz esparsa T é de dimensão q x n (já que n representa o número de documentos existentes na coleção). Esta matriz é incorporada na matriz A K, então os novos valores e vetores singulares são calculados por meio da seguinte equação: A C = K T (20) 9 Afirma-se que esta matriz é esparsa já que nem todos os termos vão aparecer em todos os documentos. 41

42 Os novos valores para U C, C e V C são calculados da seguinte forma. Seja SVD( C) = U C Σ V, então: C T C U 0 T K 0 I q CV K Σ = TV K K (21) Σ K Se H = e TVK são: SVD( H ) = U H Σ V então os valores correspondentes para U C, C e V C H T H U C U 0 K = U H I, 0 q V C = V K V H e Σ H = Σ C (22) Já inclusos os novos termos ou documentos na coleção, procedemos às modificações nos pesos dos termos da coleção. Para trocar o valor do peso em j termos, segue-se o processo: seja Yj uma matriz de dimensão n x j, esta matriz é uma matriz unitária de nível j. Seja a matriz Zj de dimensão n x j onde as colunas especificam a diferença atual entre os pesos antigos e novos, para cada um dos j termos. A equação para calcular o novo peso é: W = A + Y Z (23) K j T j Para calcular os novos pesos dos termos e documentos procede-se da seguinte forma. Seja SVD( W ) = U W Σ V então: W T W T K K T T ( Σ U Y Z V ) U WV = + (24) K K j j K T T Se Q ( Σ +U Y Z V ) = e K K j j K SVD( Q) = U Q Σ V então os valores para U W e V W são: Q T Q 42

43 U W = U K U Q e V W = V K V Q (25) Maiores detalhes sobre os métodos de atualização explicados anteriormente encontram-se em [OBR94], onde o autor faz um estudo detalhado da atualização de termos ou documentos em uma estrutura semântica já calculada. Referentes ao SVD, existem estudos de melhoria ou variantes ao uso desta decomposição. Entre eles encontram-se: Decomposição Semidiscreta. A decomposição SDD (do inglês Semidiscrete Decomposition) e a decomposição QR 10 são descritas em [BER99] como dois métodos alternativos de decomposição de matrizes. Em geral as decomposições SVD e SDD estão baseadas na decomposição QR, e este processo de decomposição é descrito em [TRE97]. Riemannian SVD (R-SVD). Este é um dos métodos propostos como melhoria ao método LSI. Em [FIE02] os autores apresentam o método Riemannian-SVD aplicado ao LSI. O objetivo desta decomposição é criar as matrizes U, e V sem precisar da decomposição SVD. Estas matrizes, criadas pela decomposição ULV, possuem um nível k menor. Desta forma o cálculo da matriz A de nível k é mais rápido. Em [BER05] são estudados dois métodos de low-rank approximation, métodos alternativos ao método QR. Na pesquisa os autores apresentam algoritmos para calcular o sparse pivoted QR approximation (SPQR) e o sparce column-row (SCR), duas formas de obter um nível k mais baixo que o obtido pela decomposição SVD. 10 A decomposição QR de uma matriz é a decomposição da matriz numa matriz ortogonal e triangular. 43

Exibir mais