Otimização de Recuperação de Informação usando Algoritmos Genéticos

Otimização de Recuperação de Informação usando Algoritmos Genéticos Neide de Oliveira Gomes, M. Sc., nog@inpi.gov.br Prof. Marco Aurélio C. Pacheco, PhD Programa de Doutorado na área de Métodos de Apoio a Decisão Departamento de Engenharia Elétrica, PUC - Rio Neide de Oliveira Gomes, Prof. Marco Aurélio C. Pacheco, PhD Resumo: Este trabalho apresenta um estudo na área de Recuperação de Informação (RI) onde é fornecido um conjunto de documentos e um algoritmo induz conceitos-chave que melhor representam esse conjunto de documentos. Utilizou-se a técnica de Algoritmos Genéticos para a representação do conjunto de documentos. Palavras Chave: Recuperação de Informação (IR), Algoritmos Genéticos (GA), representação de documentos, palavras-chave, conceitos-chave. 1. Introdução Algoritmos Genéticos (GA) são algoritmos probabilísticos de busca que usam os princípios inspirados na genética natural, com aplicação em pesquisas e em problemas de busca e otimização e tem a habilidade de explorar a informação armazenada em um espaço de busca desconhecido, auxiliando em pesquisas subseqüentes. Em GA, o espaço de busca é composto de soluções candidatas ao problema, cada representada por uma string chamada de cromossoma e que evolui durante um tempo 1

apropriado através de um processo de competição e variações controladas. Cada cromossoma tem um valor de função objetivo, chamado aptidão. Uma GA começa com uma população de cromossomas que representam as soluções possíveis do problema quer seja oriundo de algum conhecimento quer seja geradas randomicamente (soluções) e as quais evoluem baseadas na evolução natural, obtendo-se cromossomas melhores através da aplicação de operadores modelados no processo genético. Durante iterações sucessivas ou gerações, cromossomas de uma população vão evoluindo e com base nessas evoluções, é formada uma nova população de cromossomas usando-se um mecanismo de seleção e operadores genéticos específicos tal como crossover e mutação. A iteração termina quando o sistema não evolui mais ou quando uma quantidade máxima de gerações é alcançada. A saída da GA será o melhor indivíduo da população final ou uma combinação dos melhores cromossomas. Uma função de aptidão deve ser especificada para cada problema a ser solucionado. Algoritmos Genéticos têm sido usados em Recuperação de Informação para solucionar vários problemas. Nesse trabalho são usados Algoritmos Genéticos para se determinar conceitos-chave ou palavras-chaves oriundos de um conjunto de documentos. Recuperação de Informação (IR) é um sistema que trata de armazenamento de informações que necessitam ser processados, pesquisados e recuperados correspondendo a uma consulta feita pelo usuário. A maioria das IR usam palavras-chaves para recuperar documentos. Sistemas de IR tem dois problemas. Um é como extrair palavras-chaves precisamente e o outro é como decidir o peso de cada palavra-chave. O trabalho apresenta uma aplicação de GA onde através um conjunto de documentos é automaticamente gerado uma representação de cada documento ou do conjunto de documentos é extraído seus conteúdos mais relevantes. Os textos dos documentos são tipicamente representados por termos indexados que são os identificadores dos documentos. O sistema usado na IR é o modelo de espaço vetorial (vector space model). O documento é visto como um vetor de dimensão n onde n é a quantidade de termos distintos usados para descrever os conteúdos dos documentos na coleção sendo que cada termo representa uma dimensão no espaço do documento. Uma consulta é também tratada do mesmo modo e é constituído de termos e pesos providos na consulta do usuário. A similaridade entre palavras-chave ou consulta e os documentos 2

são baseados na medida de similaridade. umentos com uma similaridade maior as palavras-chave ou consulta são julgadas a serem mais relevantes e devem ser recuperados pela IR com uma posição mais relevante na lista de documentos recuperados. 2. Objetivo Esse trabalho teve como objetivo um estudo na área de Recuperação de Informação através da identificação de palavras-chave mais relevantes ou consulta representando um conjunto de documentos, usando-se Algoritmos Genéticos. Foi usada a ferramenta Evolver. 3. Motivação A principal motivação foi à aplicação da técnica de Algoritmos Genéticos na área de Recuperação de Informação. 4. Conjunto de umentos Como este trabalho é acadêmico, utilizaram-se os seguintes textos representando 10(dez) documentos:. 1- Neste artigo é usado o algoritmo genético visando o aprimoramento do sistema de recuperação de informação, usando-se a função de aptidão de similaridade do cosseno. Tem como meta a investigação do uso de algoritmos genéticos para recuperação de informação aplicada a documentos representados por frases ou conjunto de frases onde os documentos mais relevantes são apresentados aos usuários.. 2- Algoritmo genético é um algoritmo probabilístico que simula o mecanismo de seleção natural dos organismos vivos e é muitas vezes usado para resolver problemas nos quais as soluções usuais são soluções caras.. 3- No algoritmo genético o espaço de busca é composto de soluções candidatas do problema, cada representada por uma string chamada de cromossoma tendo um valor representado por uma função objetivo, chamada aptidão. Um conjunto 3

de cromossomas associado com suas aptidões é chamado de população e esta população em uma dada iteração do algoritmo genético é chamada de geração.. 4- Sistema de Recuperação de Informação é um sistema usado para armazenar itens de informação que necessitam ser processados, pesquisados e correspondentemente serem recuperados devido a consultas feitas por um usuário. A maioria dos sistemas de recuperação usa palavras-chave para recuperar documentos e o sistema inicialmente extrai palavras-chave dos documentos e depois designa essas palavras-chave usando diferentes aproximações, sendo que tal sistema deve extrair precisamente e decidir o peso de cada palavra-chave.. 5- Neste modelo um documento é visto como um documento num espaço de dimensão-n, onde n é a quantidade de termos usados para descrever o conteúdo do documento na coleção e cada termo representa uma dimensão no documento. Uma consulta é também construída de termos e pesos de acordo com a consulta feita por um usuário.. 6- Recuperação de Informação em documentos é baseada na medida de similaridade entre a consulta e os documentos e isto significa que os documentos com maior similaridade com a consulta são julgados a serem mais relevantes e os documentos devem ser recuperados pelo sistema de recuperação numa lista ordenada descendentemente pela relevância.. 7- A Aprendizagem por consulta é o grupo de aplicação mais relevante em Recuperação de Informação, usando algoritmo genético. A Aprendizagem por consulta é um processo no quais pesquisadores e usuários provem documentos e o algoritmo aprende os conceitos-chave como o propósito de achar outros documentos relevantes.. 8- A aprendizagem por consulta é um processo no quais usuários provem exemplos e os algoritmos aprendem os conceitos-chave para achar outros documentos relevantes. Este método é o processo para assistir os usuários na formulação da consulta desempenhado pelo método de aprendizagem de máquina. É baseado no conjunto de documentos relevantes e opcionalmente nos documentos não-relevantes provido pelo usuário, aplicando-se um processo de aprendizagem.. 9- Há várias maneiras de se medir a qualidade do sistema de recuperação de informação, sendo as mais usadas a precisão e a abrangência. Precisão é a razão entre os documentos relevantes recuperados pelo sistema de recuperação de 4

informação em resposta a uma consulta e a quantidade total de documentos recuperados. Abrangência é a razão da quantidade de documentos relevantes recuperados e quantidade total de documentos relevantes na consulta existente na coleção dos documentos.. 10- A indexação automática de documentos é uma aplicação que visa à adaptação dos documentos na coleção com o propósito de facilitar a recuperação de documentos face às consultas relevantes. Foi proposto um algoritmo genético para representação dos documentos, onde foi escolhido um esquema de codificação binária onde cada representação do documento tem um comprimento fixo e é representado por um vetor binário. A população genética é composta de diferentes descrições para o mesmo documento. 5. Representação do documento e da consulta A Representação do umento por texto completo é difícil e caro de se manipular computacionalmente, então dado um documento identificou-se os conceitos que melhor descrevem o seu conteúdo. É costume representar o documento como uma Centróide e através uma lista de termos com pesos associados ou não. O problema é a perda semântica. Foi escolhido para representação do documento o modelo do espaço vetorial (Vector Space Model), onde os documentos (d) e as consultas (q) são representados por vetores em um espaço n-dimensional, onde n é a quantidade total de termos usados para indexar os documentos. Nesse trabalho, o documento foi representado por um centróide com pesos associados, i.e, o número de vezes que a palavra aparece no texto. Para cada conjunto de documentos, cada consulta q é comparada com todos os documentos d, usando a medida de similaridade do cosseno do ângulo entre q e d. Quanto maior o cosseno, maior é a relevância entre d e q. A seguir é mostrado na figura 5.1, um exemplo de um documento e uma consulta com as respectiva medida de similaridade do cosseno do ângulo entre q e d. 5

Figura 5.1 - Modelo Espaço Vetorial com Pesos Associados O peso de cada termo é definido pela seguinte fórmula: wi = (tfi / tf) * log(d/dfi) onde wi peso do termo i normalizado tfi freqüência do termo (quantidade de vezes que um termo i ocorre em um documento) tf - maior freqüência do termo na coleção dos documentos D quantidade de documentos dfi freqüência do documento ou quantidade de documentos contendo termo i dfi/d razão da probabilidade de selecionar um documento contendo um termo da consulta (query). log(d/dfi) inverso da freqüência do documento (IDFi Inverse ument Frequency) A similaridade do cosseno é dada pela seguinte fórmula: Sim (q,d) = w q,i w d,i ( w 2 q,i) 1/2 * ( w 2 d,i) 1/2 6

As operações elaboradas sobre o texto foram: a eliminação de stopwords, i.e., palavras consideradas irrelevantes; e o agrupamento de palavras que tinham o mesmo radical. Em seguida os termos foram substituídos por índices e pelas suas freqüências nos documentos d. 6. Simulação A simulação foi feita com 10(dez) textos representando os documentos. Na tabela 6.1 a seguir são representados os textos ou documentos através de índices e freqüência das palavras. No total foram totalizados 110(cento e dez) termos ou índices. Foram também apresentadas as stopwords que foram eliminadas. Tabela 6.1 Representação dos textos ou documentos Descrição dos Itens 1 2 3 4 5 6 7 8 9 10 Total 1 Abrangência - - - - - - - - 2-2 2 Achar - - - - - - 1 1 - - 2 3 Adaptação - - - - - - - - - 1 1 4 Algoritmo(s) 2 2 2 - - - 2 1-1 10 5 Aplicada /Aplicação/ 1 - - - - - 1 1-1 4 Aplicando 6 Aprendizagem/ Aprende - - - - - - 3 4 - - 7 7 Apresentados 1 - - - - - - - - - 1 8 Aprimoramento 1 - - - - - - - - - 1 9 Aproximações - - - 1 - - - - - - 1 10 Aptidão (ões) 1-2 - - - - - - - 3 11 Armazenar - - - 1 - - - - - - 1 12 Artigo 1 - - - - - - - - - 1 13 Assistir - - - - - - - 1 - - 1 14 Associado - - 1 - - - - - - - 1 15 Automática - - - - - - - - - 1 1 16 Baseada (o) - - - - - 1-1 - - 2 17 Binária (o) - - - - - - - - - 2 2 18 Busca - - 1 - - - - - - - 1 19 Candidatas - - 1 - - - - - - - 1 20 Caras - 1 - - - - - - - - 1 21 Chamada(o) / Designa - - 4 1 - - - - - - 5 7

Continuação da Tabela 6.1 Representação dos textos ou documentos Descrição Total 1 2 3 4 5 6 7 8 9 10 22 Codificação - - - - - - - - - 1 1 23 Coleção - - - - 1 - - - 1 1 3 24 Composto (a) - - 1 - - - - - - 1 2 25 Comprimento - - - - - - - - - 1 1 26 Conjunto 1-1 - - - - 1 - - 3 27 Consulta(s) - - - 1 2 2 2 2 2 1 12 28 Conteúdo - - - - 1 - - - - - 1 29 Construída - - - - 1 - - - - - 1 30 Cosseno 1 - - - - - - - - - 1 31 Cromossoma(s) - - 2 - - - - - - - 2 32 Dada - - 1 - - - - - - - 1 33 Decidir - - - 1 - - - - - - 1 34 Descendentemente - - - - - 1 - - - - 1 35 Descrever /Descrições - - - - 1 - - - - 1 2 36 Desempenhado - - - - - - - 1 - - 1 37 Deve(m) - - - 1-1 - - - - 2 38 Diferentes - - - - - - - - - 1 1 39 Dimensão - - - - 2 - - - - - 2 Dimensão n 40 umento(s) 2 - - 2 4 4 2 3 5 6 28 41 Espaço - - 1-1 - - - - - 2 42 Esquema - - - - - - - - - 1 1 43 Exemplos - - - - - - - 1 - - 1 44 Existente - - - - - - - - 1-1 45 Extrair/extrai - - - 2 - - - - - - 2 46 Face - - - - - - - - - 1 1 47 Facilitar - - - - - - - - - 1 1 48 Feita - - - 1 1 - - - - - 2 49 Fixo - - - - - - - - - 1 1 50 Formulação - - - - - - - 1 - - 1 51 Frases 2 - - - - - - - - - 2 52 Função 1-1 - - - - - - - 2 53 Genético (a) (s) 2 1 2 - - - 1 - - 2 8 54 Geração - - 1 - - - - - - - 1 55 Grupo - - - - - 1 1 - - - 2 56 Indexação - - - - - - - - - 1 1 57 Informação 2 - - 2-1 1-2 - 8 58 Investigação 1 - - - - - - - - - 1 8

Continuação da Tabela 6.1 Representação dos textos ou documentos Descrição 1 2 3 4 5 6 7 8 9 59 Itens - - - 1 - - - - - - 1 60 Iteração - - 1 - - - - - - - 1 61 Julgados - - - - - 1 - - - - 1 62 Lista - - - - - 1 - - - - 1 63 Máquina - - - - - - - 1 - - 1 64 Mecanismo - 1 - - - - - - - - 1 65 Maneiras - - - - - - - - 1-1 66 Medida / Medir - - - - - 1 - - 1-2 67 Meta 1 - - - - - - - - - 1 68 Modelo - - - - 1 - - - - - 1 69 Muitas Vezes - 1 - - - - - - - - 1 70 Natural - 1 - - - - - - - - 1 71 Necessitam - - - 1 - - - - - - 1 72 Objetivo / - - 1 - - - 1 - - - 2 Propósito 73 Opcionalmente - - - - - - - 1 - - 1 74 Ordenada - - - - - 1 - - - - 1 75 Organismo - 1 - - - - - - - - 1 76 Palavra(s)-chave - - - 4 - - 1 1 - - 6 Conceitos-chave 77 Peso(s) - - - 1 1 - - - - - 2 78 Pesquisados/ - - - 1 - - 1 - - - 2 Pesquisadores 79 População - - 2 - - - - - - 1 3 80 Probabilístico - 1 - - - - - - - - 1 81 Problema(s) - 1 1 - - - - - - - 2 82 Precisão - - - - - - - - 2-2 83 Processados / Processo/ - - - 1 - - 1 5 - - 7 Método 84 Proposto / propósito - - - - - - - - - 2 2 85 Provem /provido - - - - - - 1 2 - - 3 86 Qualidade - - - - - - - - 1-1 87 Quantidade - - - - 1 - - - 3-4 88 Razão - - - - - - - - 2-2 89 Recuperação/recuperar/ 2 - - 4-3 1-5 1 16 recuperados 90 Relevantes /Relevância/ 1 - - - - 2 2 3 3 1 12 Não Relevantes 91 Representada (o)(os) 1-2 - 1 - - - - 3 7 Representa/ Representação 92 Resolver - 1 - - - - - - - - 1 10 Total 9

Continuação da Tabela 6.1 Representação dos textos ou documentos Descrição 1 2 3 4 5 6 7 8 9 10 Total 93 Resposta - - - - - - - - 1-1 94 Seleção /Escolhido - 1 - - - - - - - 1 2 95 Significa - - - - - 1 - - - - 1 96 Similaridade 1 - - - - 2 - - - - 3 97 Simula - 1 - - - - - - - - 1 98 Sistema(s) 1 - - 5-1 - - 2-9 99 Soluções - 2 1 - - - - - - - 3 100 String - - 1 - - - - - - - 1 101 Termos(s) - - - - 3 - - - - - 3 102 Total - - - - - - - - 2-2 103 Usado (a) (s)/ uso(a) / 3 1-3 1-1 - 1-10 usando 104 Usuais - 1 - - - - - - - - 1 105 Usuário(s) 1 - - 1 1-1 3 - - 7 106 Valor - - 1 - - - - - - - 1 107 Vetor - - - - - - - - - 1 1 108 Visando /Visa 1 - - - - - - - - 1 2 109 Visto - - - - 1 - - - - - 1 110 Vivos - 1 - - - - - - - - 1 Total itens 31 18 31 35 24 23 24 34 37 37 294 Stopwords a(s) x x - x x x X X x x Aos x - - - - - - - - - Cada - - x x x - - - - x Com - - x - x x - - - x Como x - - - x - X - - - correspondentemente - - - x - - - - - - de x x x x x x X - x x de acordo - - - - x - - - - - Depois - - - x - - - - - - Devido - - - x - - - - - - Diferentes - - - x - - - - - - do(s) (a) x x x x - - - x x x E - x x x x x X x x - Em - - x - - x X - x - Entre - - - - - x - - x - esta/ essa(s) /este - - x x - - - x - - inicialmente - - - x - - - - - - Isto - - - - - x - - - - Mais x - - - - x X - x - maior /maioria - - - x - x - - - - 10

Continuação da Tabela 6.1 Representação dos textos ou documentos Descrição 1 2 3 4 5 6 7 8 9 10 Mesmo - - - - - - - - - x na (os) (o) - x x - x x X x x x Neste x - - - x - - - - - numa /num - - - - x x - - - - o(s) x x x x x x X x x x Onde x - - - x - - - - x Ou x - - - - - - - - - Outros - - - - - - X x - - Para x x - x x - - x - x pela (o) - - - - - x - x x - Por x - x x x - X x - x precisamente - - - x - - - - - - Quais - x - - - - X x - - Que - x - x - x - - - x Se - - - - - - - - x - Suas - - x - - - - - - - Tal - - - x - - - - - - Também - - - - x - - - - - Um(a) - x x x X - X x x x Várias - - - - - - - - x - é/são/serem/ser/sendo/ foi 2 3 3 4 3 4 2 3 3 5 tem/tendo 1-1 - - - - - - 1 Há - - - - - - - - 1 - Total 7. Discussão e Resultados Foi utilizada para o estudo, a ferramenta Evolver, utilizando-se o método Recipe. Consulta 1: Dados os 10(dez) documentos encontrar as palavras-chave ou consulta mais relevante a todos os documentos. Foram usados os seguintes dados operacionais: - Crossover 0.5 e Mutação 0.08; - Tamanho da População 100; - Tentativas 20000; - Máxima mudança 0.01 em 1000 tentativas; - Otimização: Maximização da soma dos cossenos entre os documentos 1 a 10 e a consulta; - Células Ajustadas:B1:B110 (palavras-chave e consulta); 11

- Restrições: Freqüência dos termos entre os valores 0 e 1 e inteiro: [0<=B1:B110<=1]. Para representação dos documentos 1 a 10 foram obtidos 57(cinqüenta e sete) itens do total dos 110 (cento e dez). Para discriminação dos itens ver Tabela 7.1. Os ângulos entre a consulta obtida e os documentos 1 a 10 foram os seguintes: 0,26625 8 0,109377 0,332705 0,282614 0,351181 0,488062 0,348782 0,233555 0,385365 0,286767 A soma dos cossenos foi de 3,0847 (máximo 10). O maior ângulo encontrado foi o correspondente ao documento 6, i.e., 0,488062. Os itens selecionados acham-se discriminados na tabela 7.1: Do resultado obtido constatou-se que os termos selecionados originaram-se dos que tinham freqüência total superior ou igual a 2(dois), incluindo também todos os itens que apareceram no documento 6, i.e., o documento que apresentou maior grau de similaridade. Houve apenas 1(uma) exceção a regra, i.e., o item 109(cento e nove). Consulta 2: Achar os itens mais relevantes ao documento 1 ou 2 ou 3 ou 4, separadamente. Na consulta 2(dois), foram usados os seguintes dados operacionais: - Crossover 0.8 e Mutação 0.05; - Tamanho da População 100; - Tentativas 20000; - Máxima mudança 0.01 em 1000 tentativas; - Otimização: Maximização do cosseno entre o documento e a consulta; - Células Ajustadas: B1:B110 (consulta); - Restrições: Freqüência entre os termos entre 0 e 1 e inteiro [0<=B1:B110<=] e soma diferente de zero [soma(b1:b110)<>0] Todos os itens dos documentos foram selecionados. A diferença da quantidade foi à freqüência com que os itens apareceram no documento, pois na consulta eles foram restritos a 1(um). 12

Para representação do documento 1 foram obtidos 23(vinte e três) itens do total dos 31 (trinta e um) itens. Para representação do documento 2 foram obtidos 16(dezesseis) itens do total dos 18 (dezoito) itens. Para representação do documento 3 foram obtidos 22(vinte e dois) itens do total dos 31 (trinta e um) itens. Para representação do documento 4 foram obtidos 20(vinte) itens do total dos 35 (trinta e cinco) itens. Os ângulos entre a consulta obtida e os documentos 1, 2, 3 e 4 foram respectivamente os seguintes: 0.954; 0.9805; 0.8935; 0.8538. 4. Consulta 3: Achar os itens mais relevantes concernentes aos documentos 1, 2, 3 e Na consulta 3(três) foram usados os seguintes dados operacionais: - Crossover 0.5 e Mutação 0.01; - Tamanho da População 100; - Tentativas 20000; - Máxima mudança 0.01 em 1000 tentativas; - Otimização: Maximização da soma dos cossenos entre os documentos 1 a 4 e a consulta. - Células Ajustadas: B1:B110 (conslta); - Restrições: freqüência dos termos entre zero e um e inteiro. [0<=B1:B110<=1, inteiro] Para representação dos documentos 1, 2, 3 e 4 foram obtidos 63(sessenta e três) itens. Todos os itens dos documentos foram selecionados. A diferença da quantidade foi à freqüência com que os itens apareceram no documento, pois na consulta eles foram restritos a 1(um). Os ângulos entre a consulta obtida e os documentos 1, 2, 3 e 4 foram respectivamente os seguintes: 0.4719; 0.5189; 0.5177; 0.4071. 13

Tabela 7.1 Itens Selecionados da Consulta 1 Item Descrição dos Itens C 1 To Item Descrição dos Itens C 1 Total tal 1 Abrangência 1 2 37 Deve(m) 1 2 2 Achar 1 2 38 Diferentes - 1 3 Adaptação - 39 Dimensão 1 2 Dimensão n 4 Algoritmo(s) 1 10 40 umento(s) 1 28 5 Aplicada /Aplicação/ 1 4 41 Espaço 1 2 Aplicando 6 Aprendizagem/ Aprende 1 7 42 Esquema - 1 7 Apresentados - 1 43 Exemplos - 1 8 Aprimoramento - 1 44 Existente - 1 9 Aproximações - 1 45 Extrair/extrai 1 2 10 Aptidão (ões) 1 3 46 Face - 1 11 Armazenar - 1 47 Facilitar - 1 12 Artigo - 1 48 Feita 1 2 13 Assistir - 1 49 Fixo - 1 14 Associado - 1 50 Formulação - 1 15 Automática - 1 51 Frases 1 2 16 Baseada (o) 1 2 52 Função 1 2 17 Binária (o) 1 2 53 Genético (a) (s) 1 8 18 Busca - 1 54 Geração - 1 19 Candidatas - 1 55 Grupo 1 2 20 Caras - 1 56 Indexação - 1 21 Chamada(o) / Designa 1 5 57 Informação 1 8 22 Codificação - 1 58 Investigação - 1 23 Coleção 1 3 59 Itens - 1 24 Composto (a) 1 2 60 Iteração - 1 25 Comprimento - 1 61 Julgados 1 1 26 Conjunto 1 3 62 Lista 1 1 27 Consulta(s) 1 12 63 Máquina - 1 28 Conteúdo - 1 64 Mecanismo - 1 29 Construída - 1 65 Maneiras - 1 30 Cosseno - 1 66 Medida / Medir 1 2 31 Cromossoma(s) 1 2 67 Meta - 1 32 Dada - 1 68 Modelo - 1 33 Decidir - 1 69 Muitas Vezes - 1 34 Descendentemente 1 1 70 Natural - 1 35 Descrever /Descrições 1 2 71 Necessitam - 1 36 Desempenhado - 1 72 Objetivo / Propósito 1 2 14

Cont. Tabela 7.1 Itens Selecionados da Consulta 1 Item Descrição dos Itens C 1 Total Item Descrição dos Itens C1 Total 73 Opcionalmente - 1 92 Resolver - 1 74 Ordenada 1 1 93 Resposta - 1 75 Organismo - 1 94 Seleção /Escolhido 1 2 76 Palavra(s)-chave 1 6 95 Significa 1 1 Conceitos-chave 77 Peso(s) 1 2 96 Similaridade 1 3 78 Pesquisados/ 1 2 97 Simula - 1 Pesquisadores 79 População 1 3 98 Sistema(s) 1 9 80 Probabilístico - 1 99 Soluções 1 3 81 Problema(s) 1 2 100 String - 1 82 Precisão 1 2 101 Termos(s) 1 3 83 Processados/ Processo/ 1 7 102 Total 1 2 Método 84 Proposto / propósito 1 2 103 Usado (a) (s)/ uso(a) / 1 10 usando 85 Provem /provido 1 3 104 Usuais - 1 86 Qualidade - 1 105 Usuário(s) 1 7 87 Quantidade 1 4 106 Valor - 1 88 Razão 1 2 107 Vetor - 1 89 Recuperação/recuperar/ recuperados 90 Relevantes /Relevância/ Não Relevantes 91 Representada (o)(os) Representa/ Representação 1 16 108 Visando /Visa 1 2 1 12 109 Visto 1 1 1 7 110 Vivos - 1 Total 57 110 8. Conclusão O uso de algoritmos genéticos em conjunto com o uso do modelo de espaço vetorial para representação de documentos através palavras-chave mostrou-se eficiente, contudo futuramente deverão ser feitos testes com coleção de documentos conhecidos para que se façam comparações entre o método adotado e sistema clássico de Recuperação de Informação. 15

9. Referências Bibliográficas - Radwan, Ahmed A. A.; Tatef, Bahgat A. Abdel; Ali, Abdelmgeid A.; Sadeck, Osman A.; Using Genetic Algorithm to Improve Information Retrieval Systems; Proceedings of World Academy of Science, Engineering and Tecnology Volume A17, december 2006; - Aly, Abdelmgeid; Applying Genetic Algorithm in Query Improvement Problem, International Journal Information Technologies and Knowledge, vol 1, 2007 16