Aplicação da Busca por Informação via Texto em um Sistema de Recuperação de Imagens por Conteúdo

Departamento de Computação Trabalho de Conclusão de Curso EDUARDO ZANONI MARQUES Aplicação da Busca por Informação via Texto em um Sistema de Recuperação de Imagens por Conteúdo Londrina 2006

EDUARDO ZANONI MARQUES Aplicação da Busca por Informação via Texto em um Sistema de Recuperação de Imagens por Conteúdo Trabalho de conclusão de curso apresentado à Universidade Estadual de Londrina, como parte dos requisitos para obtenção do título de Bacharel em Ciência da Computação. Orientador: Prof. Ms. Daniel dos Santos Kaster. 2006

EDUARDO ZANONI MARQUES Aplicação da Busca por Informação via Texto em um Sistema de Recuperação de Imagens por Conteúdo COMISSÃO EXAMINADORA Prof. Ms. Daniel dos Santos Kaster Universidade Estadual de Londrina Prof. Esp. Ésio Dolci Universidade Estadual de Londrina Prof. Dr. Vitor Valério de S. Campos Universidade Estadual de Londrina Londrina, de de 2006.

DEDICATÓRIA À galera de casa que me deu aquele apoio pra que esta meta fosse alcançada.

AGRADECIMENTO Antes de qualquer coisa, agradeço ao Homem lá de cima por ter me dado capacidade física e mental para que pudesse concretizar este trabalho. Agradeço também à galera da sala pelos momentos de bobeira compartilhados que, diga-se de passagem, foram inúmeros. Agradeço ainda ao professor Daniel, por ter me ajudado durante este ano na construção desse tal de TCC, e, principalmente, por ter me aceito como orientado. Eu te devo uma, professor! E por fim, agradeço ao meu pai e à minha mãe por terem me dado condições, apoio, carinho e compreensão durante todos esses anos que estou na área, e, em especial, a minha maninha que, além de sempre me trazer um chaveiro de todos os lugares que vai, ainda me ajudou demais na construção deste trabalho. Valeu, maleta!

Shhhiii, I m trying to think here Jaina Proudmore, Warcraft III

RESUMO Com o avanço da tecnologia, vem ocorrendo uma explosão na quantidade de informações em formato multimídia, e isso está gerando a necessidade de sistemas que possam controlar estas informações. Neste contexto, surgiram os bancos de dados multimídia e, entre eles, os bancos de dados de imagens, os quais trabalham exclusivamente com imagens. Nestes, a imagem é normalmente indexada automaticamente com base em suas características como, por exemplo, a coloração. Isto faz com que não haja uma descrição textual desta imagem, o que impede uma busca textual nesta base de dados. Este trabalho busca a validação de uma nova estratégia para a implementação de sistemas de controle de imagens, na qual será acrescentada uma camada extra em um sistema de armazenamento e recuperação de imagens, para que a busca textual por informação possa ser efetuada, mesmo havendo a indexação automática por característica das imagens. Para isso, será usado como base o sistema de armazenamento e recuperação de imagens geográficas MapView, no qual será construída tal camada. Assim, esperase que esta técnica seja comprovada como uma estratégia viável e que sirva como base para novas pesquisas na área. Palavras-chave: sistemas de recuperação de informação, banco de dados de imagens, processamento de linguagem natural.

ABSTRACT With the advance of technology an explosion in the quantity of multimedia information has been occurring, and it s creating the need of systems which can control this information. In this context the multimedia databases appeared and, among them, the image databases, which work with images exclusively. In those, the image is normally indexed automatically based in its characteristics, like, per example, the coloration. Because of this, there's no textual description of an image, what impede a textual search in this database. This paper intends the validation of a new strategy to implement an image control system, where will be added an extra layer in an image storage and retrieval system, so the textual search for information can be done, even with the automatic indexing of the images in this system. For that, the system of storage and retrieval of geoprocessed images MapView will be used, in which this layer will be implemented. With this, is expected that a new technique will be proved as a feasible one and serve as base to new researches in this area. Key-words: information retrieval systems, images database, natural language processing.

LISTA DE FIGURAS Figura 1 - Formatos de armazenamento de imagens...21 Figura 2 - Sobreposição de camadas em uma imagem...22 Figura 3 - Casos de uso do usuário no sistema MapView...28 Figura 4 - Representação de um documento no 2D...33 Figura 5 - Erros de Digitação...45 Figura 6 - Variação da complexidade dos dicionários controlados...48 Figura 7 - Exemplo de lista...49 Figura 8 - Exemplo de um anel de sinônimos...49 Figura 9 - Exemplo de taxonomia...50 Figura 10 - Exemplo de thesaurus...52 Figura 11 - Hierarquia de Chomsky...55 Figura 12 - Mecanismo você quis dizer do sistema...60 Figura 13 - Inserção de um Padrão de Busca no MapView...63 Figura 14 - Busca Textual no MapView...63

LISTA DE TABELAS Tabela 1 - Diferenças entre as estruturas de armazenamento...21

LISTA DE ABREVIATURAS E SIGLAS BDI SRI SGBD PLN FAO JSP HTTP URL Banco de Dados de Imagens Sistema de Recuperação de Informação Sistema de Gerenciamento de Banco de Dados Processamento de Linguagem Natural Food and Agriculture Organization of the United Nations JavaServer Pages HyperText Transfer Protocol Universal Resource Locator

SUMÁRIO 1 - INTRODUÇÃO... 14 2 - SISTEMAS DE RECUPERAÇÃO DE DADOS MULTIMÍDIA... 17 2.1 - SISTEMAS DE RECUPERAÇÃO DE IMAGENS...17 2.1.1 - Imagem Digital...18 2.1.2 - Funcionamento de um Sistema de Recuperação de Imagens...22 2.1.3 - Sistema MapView...27 3 - SISTEMAS DE RECUPERAÇÃO DE INFORMAÇÃO... 29 3.1 - MODELOS DE SISTEMAS DE RECUPERAÇÃO DE INFORMAÇÃO...31 3.1.1 - Modelo booleano estendido...31 4 - CIÊNCIAS ENVOLVIDAS NA RECUPERAÇÃO DE INFORMAÇÃO... 35 4.1 - PROCESSAMENTO DE LINGUAGEM NATURAL...35 4.1.1 - Normalização de Variações Lingüísticas...37 4.1.2 - Expansão de Consultas...38 4.1.3 - Correção Ortográfica...43 4.2 - DICIONÁRIOS CONTROLADOS...47 4.2.1 - Lista...48 4.2.2 - Anel de Sinônimos...49 4.2.3 - Taxonomia...50 4.2.4 - Thesaurus...50 4.3 - LINGUAGENS FORMAIS...53 4.3.1 - Processamento de Linguagens Formais...55 5 - IMPLEMENTAÇÃO DO MECANISMO DE BUSCA POR INFORMAÇÃO NO SISTEMA MAPVIEW... 58 5.1 - FRAGILIDADES DO SISTEMA...58 5.2 - RESOLUÇÃO DAS FRAGILIDADES DO SISTEMA...59 6 - CONCLUSÃO... 64 6.1 - TRABALHOS FUTUROS...64 7 - REFERÊNCIAS BIBLIOGRÁFICAS... 66 APÊNDICE A LINGUAGEM FORMAL DAS SENTENÇAS DE BUSCA... 70

14 1 - INTRODUÇÃO O desenvolvimento tecnológico possibilitou que o armazenamento e a manipulação de dados multimídia pudessem ser feitos nas mais diversas aplicações, sendo estes dados compreendidos por documentos de texto, imagens, sons, vídeos e outros. O advento e a disseminação da internet vêm fazendo com que a disponibilidade destes dados cresça vertiginosamente, o que implica a necessidade da criação de soluções e sistemas que permitam a organização e manipulação destes dados, considerando todas as suas características. Estes sistemas são conhecidos como sistemas de recuperação de dados multimídia, ou banco de dados multimídia, que provêem a tecnologia necessária para que várias aplicações nas mais diversas áreas da ciência fossem criadas. Nesse contexto, uma área que se desenvolveu foi a do geoprocessamento. No geoprocessamento, o tipo de dado usado como base é o mapa, que, quando armazenado dentro do computador se transforma em uma imagem digital. Com o intuito de prover mecanismos de compartilhamento destas imagens, foram criados os BDI geo, como o MapView. O MapView é um fruto dos trabalhos (SHIGUEKI, 2005; MONTANARY, 2005; JUNIOR, 2005), sendo este um sistema web de recuperação de mapas. Neste sistema, a busca por imagens é feita através de imagens de exemplo, que devem ser inseridas pelo usuário do sistema ou através de um único termo, que está relacionado a um padrão pré-armazenado no sistema. O principal problema, por

15 detrás desta busca textual, está no fato de não haver nenhum tipo de tratamento nesta entrada, como a verificação da ortografia da mesma, entre outros tipos de tratamento que podem ser feitos sobre esta, a fim de aumentar a qualidade das buscas no sistema. Além disto, nenhum tipo de operador é disponibilizado ao usuário. Tendo esses problemas em vista, este trabalho busca modificar o MapView a fim de aprimorar a busca textual por imagens no sistema. Para isso, será construída uma camada intermediária entre o front-end da aplicação e a base de dados de imagens, onde será feita uma série de tratamentos sobre as sentenças de entrada do usuário, com o intuito de aprimorar o mecanismo de busca deste sistema. Para aumentar o poder das buscas textuais serão elaborados operadores lógicos, como os operadores AND e OR, e, posteriormente, técnicas de expansão de consultas serão adicionadas ao sistema. Para tanto, serão abordados no capítulo dois do trabalho, os sistemas de recuperação de dados multimídia, dando ênfase aos sistemas de recuperação de imagens, mostrando seu funcionamento básico, a estrutura dos dados que este tipo de sistema gerencia, alguns problemas relacionados a sistemas desta natureza e, fechando o capítulo, será apresentado o sistema MapView, que foi o sistema onde foram implementadas as técnicas estudadas neste trabalho. Posteriormente será feito um estudo de sistemas de recuperação de informação, demonstrando a diferença entre a busca de dados e a busca de informação.

16 Feito estes estudos, serão então analisadas algumas das ciências que estão envolvidas na recuperação de informação, destacando várias técnicas que podem ser aplicadas em um sistema deste tipo. Ao término de todos estes estudos, serão apontadas as alterações e a maneira como estas foram implementadas no sistema MapView.

17 2 - SISTEMAS DE RECUPERAÇÃO DE DADOS MULTIMÍDIA Com o desenvolvimento tecnológico se tornaram possíveis o armazenamento e a manipulação de dados multimídia nas mais diversas aplicações, sendo estes dados compreendidos por documentos de texto, imagens, sons, vídeos e outros. O advento e a disseminação da internet vêm fazendo com que a disponibilidade destes dados cresça vertiginosamente, demandando soluções e sistemas que permitam a organização e manipulação destes dados, considerando todas as suas características. Estes sistemas são conhecidos como sistemas de recuperação de dados multimídia, ou banco de dados multimídia e, entre eles daremos destaque aos Sistemas de Recuperação de Imagens (ELMASRI, NAVATHE; 2004). 2.1 - SISTEMAS DE RECUPERAÇÃO DE IMAGENS Os Sistemas de Recuperação de Imagens têm por objetivo solucionar os problemas acima descritos, porém trabalhando apenas com imagens. Ao se fazer essa limitação no escopo de trabalho do sistema, alguns problemas podem ser desconsiderados, tanto na indexação dos arquivos como na elaboração das consultas (GUPTA; JAIN, 1997). Com o desenvolvimento destes sistemas, vários sistemas puderam ser gerados, com aplicações nas áreas de: biodiversidade (TORRES, 2002), médica (SIADAT, 2005), reconhecimento facial (GUPTA; JAIN, 1997), impressão digital (COSTA, 2001), entre outros.

18 Para que haja um melhor entendimento de como este sistema funciona será descrita a estrutura da imagem digital, dando um enfoque especial na imagem digital, e posteriormente será descrito o funcionamento deste tipo de sistema, e, ao fim deste tópico, será abordado o sistema MapView, que foi o sistema usado para os testes de implementação deste trabalho. 2.1.1 - IMAGEM DIGITAL O termo imagem se refere a uma função bidimensional de intensidade de luz f(x,y), onde o valor desta função na coordenada espacial (x,y) indica a quantidade de luz na imagem no dado ponto, i.e. a cor. Sendo assim, a imagem digital nada mais é do que a esta função f(x,y), entretanto havendo a discretização desta função, tanto na aspecto do espaço quanto no nível de iluminação no ponto. Portanto, a imagem digital pode ser considerada uma matriz bidimensional, onde cada posição da matriz indica a localização de cada ponto na imagem, e o valor desta posição indica o nível de luz correspondente ao ponto. A cada elemento desta matriz é atribuído o nome de pixel, que é o diminutivo de picture element (elemento da imagem) (GONZALES; WOODS, 2001). Existem vários padrões para a definição das cores de um pixel. O mais comum a ser utilizado é o padrão RGB. Neste padrão, cada pixel possui três valores, que indicam a quantidade de vermelho, verde e azul que aquele ponto possui (KOLAS, 2006).

19 2.1.1.1 - Imagens Digitais Geográficas As imagens digitais geográficas são imagens nas quais estão armazenados basicamente mapas de diversos tipos, sendo estas bastante utilizadas no geoprocessamento (INPE, 2006). Numa definição básica, o mapa é uma representação da superfície terrestre, vista de cima, na qual são inseridas marcações para a identificação de objetos (RAISZ, 1969). Segundo Joly (1990), o mapa é definido como uma representação geométrica plana, simplificada e convencional, do todo ou parte da superfície terrestre, numa relação de similitude conveniente denominada escala. Uma outra definição de mapa é dada por Petchenik (1995), onde o mapa é definido como um contrato que é um documento de concordância a respeito da natureza e da distribuição dos fenômenos do espaço. No caso do Brasil, a ABNT define o mapa como uma representação gráfica, em geral uma superfície e numa determinada escala, com a representação de acidentes físicos e culturais da superfície da Terra, ou de um planeta ou satélite (FITZ apud ABNT, p. 25; 2000). Levando em conta estas definições, é correto afirmar que a tarefa primária do mapa é transmitir ao leitor uma imagem, total ou parcial, da superfície terrestre.

20 Atualmente, as imagens geográficas digitais são basicamente armazenadas em dois tipos de estruturas de dados: a estrutura de varredura (raster) e a vetorial (MORETTI, 2006). A estrutura de armazenamento raster (ver Figura 1) é composta por uma matriz bidimensional, onde cada posição da matriz representa um pixel da imagem, sendo que a posição do pixel na matriz é equivalente à posição deste na imagem (PIMENTEL; CRISTINA, 2006). A estrutura de armazenamento vetorial (ver Figura 1), segundo INPE (2006), é composta de três elementos básicos: ponto: é definido por como qualquer entidade que pode ser localizada por um par de coordenadas xy, sendo utilizado para representar a localização de um fenômeno geográfico ou alguma característica do mapa que é muito pequena para ser mostrada por uma linha ou área; linha: é composta por no mínimo dois pares de pontos e tem como utilidade representar feições que são muito estreitas para serem representadas por uma área; área: é representada por um conjunto de pontos, formando linhas que fechem uma região da imagem.

21 Figura 1 - Formatos de armazenamento de imagens O uso de ambas as estruturas proporciona certas vantagens e desvantagens. Na tabela 1 são apontadas algumas destas diferenças entre as estruturas de armazenamento. Tabela 1 - Diferenças entre as estruturas de armazenamento Vantagens Estrutura Vetorial Mapa representado na resolução original Associa atributos a elementos gráficos Relacionamento topológico Adequado para grandes escalas (1:25000 e maiores) Estrutura Raster Representa fenômenos variantes no espaço Simulação e modelagem mais fáceis Análise geográfica rápida Adequado para pequenas escalas (1:50000 e menores) Problemas Fonte: INPE, 2006 Não representa fenômenos com variação contínua no espaço Simulação e modelagem mais difícil Difícil associar atributos Espaço de armazenamento utilizado Possível perda de resolução O mapeamento de uma área é composto de vários níveis, planos ou camadas de informação, habitualmente denominados layers (ver Figura 2). Este mapeamento em camadas independe do tipo de estrutura de dados escolhida para o armazenamento, a tal ponto que é possível que diferentes níveis possuam diferentes estruturas de armazenamento. A utilização desta técnica permite que o usuário utilize apenas os dados que lhe interessam (FITZ; 2000).

22 Figura 2 - Sobreposição de camadas em uma imagem Para a aquisição de imagens geográficas, são basicamente utilizadas: fotografias, através da técnica da aerofotometria, na qual são tiradas fotos da superfície terrestre por um avião, e essas imagens são cruzadas para construir-se a imagem final; sensores, que tem a capacidade de captar a energia absorvida ou refletida de uma superfície qualquer, registrando-a através de imagens; e a técnica denominada Sensoriamento Remoto, na qual são utilizados sensores que captam e registram a energia refletida e absorvida das superfícies à distância (FITZ 2000). 2.1.2 - FUNCIONAMENTO DE UM SISTEMA DE RECUPERAÇÃO DE IMAGENS Como em qualquer outro tipo de sistema de recuperação de dados, o funcionamento deste tipo de sistema pode ser descrito por duas tarefas básicas: a inserção de novos dados na base de dados e a recuperação destes dados.

23 Tipicamente, durante a inserção de uma imagem dentro do sistema, é necessário que sejam gerados descritores para a imagem inserida, a fim de que esta possa ser posteriormente recuperada. Estes descritores têm por objetivo tornar a recuperação das imagens mais eficientes, fazendo assim, a função de index das imagens (OLIVEIRA, 2001). Inicialmente, estes descritores eram gerados de maneira manual em forma de texto. Estes descritores eram então armazenados em sistemas de gerenciamento de banco de dados baseados em texto, os quais eram consultados no momento da recuperação da imagem, sendo que a consulta às imagens nesse tipo de ambiente se dava de forma textual (ARAUJO, 2001). Esta abordagem foi logo abandonada, devido, principalmente, a dois problemas apontados por Araújo (2001). O primeiro se dá pelo fato de que em função da grande massa de imagens a serem indexadas, este processo se torna praticamente inviável. O segundo problema está relacionado a subjetividade da percepção humana, que é ferramenta primordial nesta técnica, sendo que isto, associado às possíveis anotações errôneas, pode gerar perdas irreversíveis no processo de recuperação. Tendo em vista estes problemas, uma nova linha de aplicação foi tomada para a criação dos descritores. Nesta nova proposta, os descritores são extraídos automaticamente das figuras, levando em conta características visuais da imagem. Estas características podem ser divididas em: características gerais e características específicas do domínio da aplicação.

24 As características gerais dizem respeito a atributos comuns de todas as imagens, como cor, textura e forma. Já as características específicas do domínio da aplicação estão relacionadas aos atributos específicos das imagens que o sistema trabalha, por exemplo, a impressão digital (RUI; HUANG; CHANG, 1999). A cor é um dos atributos mais utilizados nos Sistemas de Recuperação de Imagens. Isto ocorre, em parte, devido a este não sofrer alteração durante o redimensionamento da imagem. Entretanto a extração automática de cores de imagens pelo computador enfrenta o problema de que a cor dos objetos tende a sofrer alterações de acordo com variações no ambiente em que são adquiridas, como, por exemplo, a variação de luminosidade (OLIVEIRA, 2001). A representação mais comum da cor de imagens é o Histograma de Cor, que torna possível obter informações sobre a distribuição das cores na imagem (RUI; HUANG; CHANG, 1999). Um dos problemas do uso de Histogramas de Cor é que este tipo de representação não possui nenhum tipo de informação espacial sobre a imagem. Uma solução proposta para esse problema é fatiar a imagem em vários pedaços e extrair os histogramas destes pedaços. Desta maneira, é possível ter informações sobre a distribuição das cores em uma determinada parte da imagem (RUDEK, 2001). A textura diz respeito à um padrão visual que tem algumas propriedades de homogeneidade que não resultam simplesmente de uma cor ou intensidade (OLIVEIRA, 2001), de tal forma que esta propriedade contém

25 informações sobre a estrutura da superfície de objetos e o relacionamento desta estrutura com o ambiente que lhe circunda (RUI; HUANG; CHANG, 1999). Existem vários estudos sobre maneiras de representar a texturas de imagens, uma vez que esta propriedade é bastante utilizada em diversas aplicações científicas, como a visão computacional (RUI; HUANG; CHANG, 1999). Informações sobre a textura de uma imagem podem ser extraídas por métodos estatísticos, que levam em conta variações de intensidade em partes discretas das imagens. Entre as características que tem suas variações de intensidade analisadas estão o contraste (por exemplo, o contraste alto equivale à pele de zebra, enquanto contraste baixo equivale à pele de elefante) e a direcionalidade (por exemplo, direto equivale a tecido, enquanto indireto equivale a gramado) (ASLANDOGAN; YU, 1999). O uso de formas é um dos problemas mais complexos em Sistemas de Recuperação de Imagens. Este fato se da devido à dificuldade de extrair os objetos de interesse da imagem, sendo que esta técnica é limitada a objetos de grande destaque na mesma (ASLANDOGAN; YU, 1999). Para que as bordas de um objeto sejam detectadas, comumente é necessário que haja um pré-processamento desta imagem, sendo que este tende a variar conforme o tipo de objeto alvo da extração. Caso o objeto seja mais escuro que o fundo da imagem, o simples uso de um algoritmo de nivelamento da intensidade deve ser suficiente para isolar o objeto. Já, se a imagem for mais complexa, o emprego da remoção de ruídos pode ser necessário para o isolamento

26 do objeto. A partir do momento em que o objeto se encontra isolado, a extração deste pode ser feita com o auxílio de detecção de bordas. O uso de algoritmos de detecção de bordas torna-se mais complexo à medida que objetos da imagem se sobrepõem (ASLANDOGAN; YU, 1999). Tendo os limites de um objeto estabelecido, a forma deste objeto pode ser descrita por características como a área do objeto, seu alongamento em relação a um eixo, a orientação deste em relação a um eixo, entre outros (OLIVEIRA, 2001). Em Sistemas de Recuperação de Imagens que utilizam a extração de descritores visuais das imagens é comum que a consulta seja efetuada utilizando a técnica da busca por exemplo. Nesta técnica, o usuário fornece uma imagem ao sistema, para que esta sirva como chave da busca. Então, são extraídos os descritores visuais da imagem, utilizando as mesmas técnicas que foram usadas durante a extração dos descritores das imagens na inserção das mesmas no sistema. É feita então uma busca por imagens que possuam os descritores visuais que mais se aproximam aos descritores da imagem da chave de busca. Esta similaridade entre os descritores é calculada através do uso de uma função de distância (por exemplo, a distância euclidiana), sendo esta função escolhida de acordo com as características que são extraídas da imagem (JUNIOR, 2005). Com respeito à busca por exemplo, Roy e Lyu (2004) afirma que esta técnica se mostra muito restrita, uma vez que o usuário tem dificuldade em

27 descrever o conceito da sua pesquisa através do simples uso de imagens, já que não há semântica neste tipo de busca, fato que não ocorre na busca textual. Tendo em vista estas limitações novas pesquisas vêm sendo desenvolvidas, como a de (CARNEIRO; VASCONCELOS, 2005) que visa um método de extração automática de descritores textuais de imagens. 2.1.3 - SISTEMA MAPVIEW O propósito do sistema MapView é servir como um mecanismo para o armazenamento e busca de imagens geoprocessadas. Para atender a tal objetivo, o sistema foi construído como uma página web, fazendo uso da linguagem JSP para tornar suas páginas dinâmicas. As principais ações que o usuário pode fazer dentro deste sistema são descritas no diagrama de casos de uso do sistema, que pode ser visto na Figura 3.

28 Figura 3 - Casos de uso do usuário no sistema MapView O caso de uso cadastrar imagem tem por finalidade prover uma maneira do usuário armazenar imagens dentro deste sistema. O caso de uso cadastrar padrão de busca visa criar uma maneira do usuário cadastrar um padrão de busca que ele poderá usar para a busca textual de uma imagem. O caso de uso buscar imagem por texto e buscar imagem por exemplo tem por objetivo criar meios para que os usuários possam recuperar imagens dentro do sistema.

29 3 - SISTEMAS DE RECUPERAÇÃO DE INFORMAÇÃO Os Sistemas de Recuperação de Informação (SRI) podem ser definidos como sistemas cuja tarefa principal é a busca por documentos relevantes que atendam à necessidade de informação do usuário (RAMALHO; ROBIN, 2004). Porém, antes que qualquer coisa seja dita sobre os SRI, é necessário que fique clara a diferença entre a recuperação de dados e a recuperação de informação. A recuperação de informação é definida como um processo no qual é preciso que se faça a identificação dos dados que contêm informações referentes às necessidades do usuário. Na recuperação de dados, é necessário que seja efetuada a recuperação de todos os dados que satisfazem precisamente as condições formuladas através de uma expressão de busca. Um exemplo de sistemas de recuperação de dados são os Sistemas de Gerenciamento de Banco de Dados (SGBD) (FERNEDA, 2003). O significado dos termos dado e informação é amplamente estudado no campo da Ciência da Informação, sendo que não existe um consenso sobre o real significado destas palavras, uma vez que estes termos podem assumir significados diferentes dentro do contexto no qual eles são aplicados. Devido a isso, Heinz von Foerster rotula o termo informação como o camaleão intelectual (PINHEIRO, 2004). A definição que esse trabalho se baseia foi dada em 1969 por Hoshovsky e Massey (1968), na qual estes termos são definidos como:

30 dados: fatos não avaliados para qualquer uso específico. São passíveis de ser avaliados para validação ; informação: o dado mais a avaliação para uso futuro antecipado. A priori, existem duas atividades que um usuário pode fazer em um SRI: a de inserir um novo dado na base de dados, que pode ser documentos de texto, imagens, sons, etc; e a de buscar informações. Durante a inserção de um novo dado é necessário que o SRI atribua descritores a esse novo dado, sendo que estes descritores podem ser providos pelo usuário durante a ação de inserção do dado, ou podem ser extraídos automaticamente pelo sistema (FERNEDA, 2003). Na busca por informações, é papel do usuário somente inserir uma expressão de busca, com o objetivo de que esta sirva como base para que o sistema efetue a recuperação dos dados referentes à mesma. Esta recuperação é feita com o auxílio de alguma função de busca, que usa esta expressão de busca e os descritores dos dados para analisar quais dados devem ser retornados ao usuário (FERNEDA, 2003). Entretanto, existem técnicas que visam à melhoria no processo de recuperação de informação que necessitam de uma iteração maior entre o usuário e o sistema de busca. Uma destas técnicas é a expansão de consultas através da realimentação por relevância (relevance feedback), que será discutida no decorrer deste trabalho.

31 O maior problema enfrentado pelos SRI é o de que estes sistemas trabalham com objetos lingüísticos, e, portanto, precisam lidar com todos os problemas inerentes ao tratamento de linguagem natural, problemas estes inexistentes nos SGBD, uma vez que os dados possuem uma estrutura e uma semântica bem definidas, sendo possível que os SRI se aproximem aos padrões dos SGBD caso sejam submetidos a rígidos controles, tais como vocabulários controlados (FERNEDA, 2003). Com isso é necessário que as expressões de busca, uma vez que estas sejam através da linguagem natural em forma de texto, sofram algum tratamento para que essa aproximação possa ser efetuada. As técnicas para efetuar esse tratamento são objetos de estudo do Processamento da Linguagem Natural, que será discutido posteriormente neste trabalho. 3.1 - MODELOS DE SISTEMAS DE RECUPERAÇÃO DE INFORMAÇÃO Existem uma série de modelos que podem ser aplicados a um sistema a fim de promover a recuperação da informação no mesmo. Estes modelos são agrupados em duas principais categorias: os quantitativos, que são baseadas em disciplinas como a lógica e teoria de conjuntos; e os dinâmicos, onde existe uma forte interação entre o usuário e o sistema e fazem uso de técnicas como Redes Neurais e Algoritmos Genéticos (FERNEDA, 2003). Neste trabalho daremos um enfoque especial ao modelo quantitativo chamado de modelo booleano estendido. 3.1.1 - MODELO BOOLEANO ESTENDIDO O modelo booleano estendido foi proposto em Salton, Fox e Wu (1983), com a finalidade de resolver problemas inerentes ao uso da lógica booleana em Sistemas de Recuperação de Informação.

32 Quando é utilizado um predicado de busca composto de operadores OR (t1 OR t2 OR t3) e é utilizada a lógica booleana no mecanismo de recuperação de informações que atua sobre a base de dados (documentos) do sistema, os documentos que contêm apenas um dos termos da busca estarão no mesmo nível dos documentos que possuem dois ou mais termos. Para o sistema a quantidade de termos existentes é indiferente. Entretanto, quando se trabalha com a recuperação de informação, é sensato pensar que um documento que possui maior ocorrência de termos tem mais chance de estar relacionado a informação buscada pelo usuário do que um documento que possui menos quantidade de termos (FERNEDA, 2003). Um problema similar ocorre quando a chave de busca é composta por operadores AND (t1 And t2 AND t3). Neste caso os documentos que possuem alguns dos termos requeridos na busca estarão no mesmo dos que não possuem nenhum dos termos (FERNEDA, 2003). Pode-se notar que o uso da lógica booleana no mecanismo de busca não se encaixa bem nos SRI, devido ao fato deste tipo de lógica separar todos os objetos analisados em apenas duas classes: os que atendem aos requisitos da busca e aos que não atendem. Em SRI é necessário que seja criado um ranking para os documentos, indicando quais atenderam com maior precisão à chave de busca do usuário. Além disto, na lógica booleana, um termo ou está relacionado ou não a um documento. Neste modelo, um termo possui um nível de relevância dentro do documento, ou seja, um termo pode estar parcialmente relacionado a um documento. Isto gera um resultado mais refinado quando estes documentos são