Otimização de Recuperação de Informação usando Algoritmos Genéticos



Documentos relacionados
Algoritmos Genéticos

Complemento IV Introdução aos Algoritmos Genéticos

Recuperação de Informação

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU

ALGORITMOS GENÉTICOS: UMA VISÃO EXPLANATÓRIA

Organizaçãoe Recuperação de Informação GSI521. Prof. Rodrigo Sanches Miani FACOM/UFU

Algoritmos Genéticos (GA s)

4 Avaliação Econômica

04/03/2013. Gerenciamento de Dados e Informação. Recuperação de Dado X Informação. Histórico

ALGORITMOS GENÉTICOS

textos documentos semi-estruturado

Nathalie Portugal Vargas

RECUPERAÇÃO DE DOCUMENTOS TEXTO USANDO MODELOS PROBABILISTICOS ESTENDIDOS

Inteligência Computacional Aplicada a Engenharia de Software

INF 1771 Inteligência Artificial

Banco de Dados Aula 1 Introdução a Banco de Dados Introdução Sistema Gerenciador de Banco de Dados

Tarefa Orientada 11 Junção Interna

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU

CLASSIFICAÇÃO AUTOMÁTICA DE PATENTES COM O MODELO VETORIAL DE REPRESENTAÇÃO DE DOCUMENTOS

Teoria Princípio do Capacitor

O modelo do computador

Microsoft Access: Criar consultas para um novo banco de dados. Vitor Valerio de Souza Campos

Tarefa Orientada 14 Subconsultas

Figure 2 - Nós folhas de uma árvore binária representando caracteres ASCII

CÁLCULO DO CURTO CIRCUITO PELO MÉTODO KVA

ADM041 / EPR806 Sistemas de Informação

1. Sistemas de numeração

Organização e Recuperação da Informação

15 Computador, projeto e manufatura

UNIVERSIDADE CATÓLICA DE PETRÓPOLIS CENTRO DE ENGENHARIA E COMPUTAÇÃO

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU

Fluxo de trabalho do Capture Pro Software: Indexação de OCR e separação de documentos de código de correção

Contagem I. Figura 1: Abrindo uma Porta.

PLANEJAMENTO DA MANUFATURA

centena dezena unidade

Fabio Bento

2. Representação Numérica

AMBIENTE PARA AUXILIAR O DESENVOLVIMENTO DE PROGRAMAS MONOLÍTICOS

Problemas onde a busca da solução depende da avaliação de diversas combinações (ORDEM) dos elementos considerados

PROJECTOS DE INVESTIGAÇÃO CIENTÍFICA E DESENVOLVIMENTO TECNOLÓGICO

Técnicas para Programação Inteira e Aplicações em Problemas de Roteamento de Veículos 14

A Otimização Colônia de Formigas

O ESPAÇO NULO DE A: RESOLVENDO AX = 0 3.2

SP 07/94 NT 179/94. O efeito da utilização do telefone celular sobre a atenção do motorista. Engº Fernando J. Antunes Rodrigues

4 Segmentação Algoritmo proposto

Revista Brasileira de Farmacognosia Sociedade Brasileira de Farmacognosia

Aprendizagem de Máquina

Algoritmos e Programação (Prática) Profa. Andreza Leite andreza.leite@univasf.edu.br

Cálculo Numérico Aula 1: Computação numérica. Tipos de Erros. Aritmética de ponto flutuante

Na medida em que se cria um produto, o sistema de software, que será usado e mantido, nos aproximamos da engenharia.

Algoritmos Genéticos em Mineração de Dados. Descoberta de Conhecimento. Descoberta do Conhecimento em Bancos de Dados

Curso: Técnico de Informática Disciplina: Redes de Computadores. 1- Apresentação Binária

15/03/2010. Análise por pontos de função. Análise por Pontos de Função. Componentes dos Pontos de Função. Componentes dos Pontos de Função

Ivan Guilhon Mitoso Rocha. As grandezas fundamentais que serão adotadas por nós daqui em frente:

Projeto e Análise de Algoritmos Projeto de Algoritmos Heurísticas e Algoritmos Aproximados

Título do trabalho: subtítulo do trabalho

Faculdade de Engenharia Optimização. Prof. Doutor Engº Jorge Nhambiu

Uma Heurística para o Problema de Redução de Padrões de Corte

Recuperação de Imagens na Web Baseada em Informações Textuais

Mercados de Publicidade

Computadores de Programação (MAB353)

Conteúdo. Disciplina: INF Engenharia de Software. Monalessa Perini Barcellos. Centro Tecnológico. Universidade Federal do Espírito Santo

Regra do Evento Raro p/ Inferência Estatística:

Algoritmos e Pseudocódigo

PESQUISA-AÇÃO DICIONÁRIO

Pós-Graduação em Engenharia Elétrica Inteligência Artificial

QUADRADO MÁGICO - ORDEM 4

Introdução às Redes Neurais Artificiais

SERVIÇO DE ANÁLISE DE REDES DE TELECOMUNICAÇÕES APLICABILIDADE PARA CALL-CENTERS VISÃO DA EMPRESA

Tarefa Orientada 16 Vistas

Aplicação da Medida TfIdf em Bancos de Dados Relacionais para Ordenação de Consultas por Termos

Prof. Júlio Cesar Nievola Data Mining PPGIa PUCPR

DESENVOLVIMENTO DE UM SOFTWARE NA LINGUAGEM R PARA CÁLCULO DE TAMANHOS DE AMOSTRAS NA ÁREA DE SAÚDE

MESTRADO EM MACROECONOMIA e FINANÇAS Disciplina de Computação. Aula 02. Prof. Dr. Marco Antonio Leonel Caetano

3 ALGORITMOS GENÉTICOS : CONCEITOS BÁSICOS E EXTENSÕES VINCULADAS AO PROBLEMA DE MINIMIZAÇÃO DE PERDAS

As fases na resolução de um problema real podem, de modo geral, ser colocadas na seguinte ordem:

Transcrição Automática de Música

Faculdade Alagoana de Administração FAA Ciência da Computação. (Resolução de Problemas em) Espaço de Estados

computador-cálculo numérico perfeita. As fases na resolução de um problema real podem, de modo geral, ser colocadas na seguinte ordem:

Algoritmos: Lógica para desenvolvimento de programação de computadores. Autor: José Augusto Manzano. Capítulo 1 Abordagem Contextual

Organização e Arquitetura de Computadores I

Circuitos Digitais. Engenharia de Automação e Controle Engenharia Elétrica. São Paulo Prof. José dos Santos Garcia Neto

Dadas a base e a altura de um triangulo, determinar sua área.

5. EXPERIÊNCIAS E ANÁLISE DOS RESULTADOS Os Programas de Avaliação

Morfologia Matemática Binária

A SOLUTION OF N-QUEENS PROBLEM BY GENETIC ALGORITHMS

Atividade extra. Questão 1. Questão 2. Ciências da Natureza e suas Tecnologias Biologia. A diversidade biológica é o fruto da variação genética.

Introdução ao GED Simone de Abreu

3.1 Definições Uma classe é a descrição de um tipo de objeto.

O DNA é formado por pedaços capazes de serem convertidos em algumas características. Esses pedaços são

LISTA DE EXEMPLOS - PROBABILIDADE

UNIVERSIDADE DO ESTADO DE SANTA CATARINA - UDESC DCC Departamento de Ciência da Computação Joinville-SC

2 Desenvolvimento da Publicidade de Busca

Roteiro 2: (Planilhas Eletrônicas) - Função procv / manipulação de formulários

BCC204 - Teoria dos Grafos

O Processo de KDD. Data Mining SUMÁRIO - AULA1. O processo de KDD. Interpretação e Avaliação. Seleção e Pré-processamento. Consolidação de dados

NBC TSP 10 - Contabilidade e Evidenciação em Economia Altamente Inflacionária

MINERAÇÃO DE DADOS APLICADA. Pedro Henrique Bragioni Las Casas

Do neurônio biológico ao neurônio das redes neurais artificiais

Estratégias de Pesquisa

Transcrição:

Otimização de Recuperação de Informação usando Algoritmos Genéticos Neide de Oliveira Gomes, M. Sc., nog@inpi.gov.br Prof. Marco Aurélio C. Pacheco, PhD Programa de Doutorado na área de Métodos de Apoio a Decisão Departamento de Engenharia Elétrica, PUC - Rio Neide de Oliveira Gomes, Prof. Marco Aurélio C. Pacheco, PhD Resumo: Este trabalho apresenta um estudo na área de Recuperação de Informação (RI) onde é fornecido um conjunto de documentos e um algoritmo induz conceitos-chave que melhor representam esse conjunto de documentos. Utilizou-se a técnica de Algoritmos Genéticos para a representação do conjunto de documentos. Palavras Chave: Recuperação de Informação (IR), Algoritmos Genéticos (GA), representação de documentos, palavras-chave, conceitos-chave. 1. Introdução Algoritmos Genéticos (GA) são algoritmos probabilísticos de busca que usam os princípios inspirados na genética natural, com aplicação em pesquisas e em problemas de busca e otimização e tem a habilidade de explorar a informação armazenada em um espaço de busca desconhecido, auxiliando em pesquisas subseqüentes. Em GA, o espaço de busca é composto de soluções candidatas ao problema, cada representada por uma string chamada de cromossoma e que evolui durante um tempo 1

apropriado através de um processo de competição e variações controladas. Cada cromossoma tem um valor de função objetivo, chamado aptidão. Uma GA começa com uma população de cromossomas que representam as soluções possíveis do problema quer seja oriundo de algum conhecimento quer seja geradas randomicamente (soluções) e as quais evoluem baseadas na evolução natural, obtendo-se cromossomas melhores através da aplicação de operadores modelados no processo genético. Durante iterações sucessivas ou gerações, cromossomas de uma população vão evoluindo e com base nessas evoluções, é formada uma nova população de cromossomas usando-se um mecanismo de seleção e operadores genéticos específicos tal como crossover e mutação. A iteração termina quando o sistema não evolui mais ou quando uma quantidade máxima de gerações é alcançada. A saída da GA será o melhor indivíduo da população final ou uma combinação dos melhores cromossomas. Uma função de aptidão deve ser especificada para cada problema a ser solucionado. Algoritmos Genéticos têm sido usados em Recuperação de Informação para solucionar vários problemas. Nesse trabalho são usados Algoritmos Genéticos para se determinar conceitos-chave ou palavras-chaves oriundos de um conjunto de documentos. Recuperação de Informação (IR) é um sistema que trata de armazenamento de informações que necessitam ser processados, pesquisados e recuperados correspondendo a uma consulta feita pelo usuário. A maioria das IR usam palavras-chaves para recuperar documentos. Sistemas de IR tem dois problemas. Um é como extrair palavras-chaves precisamente e o outro é como decidir o peso de cada palavra-chave. O trabalho apresenta uma aplicação de GA onde através um conjunto de documentos é automaticamente gerado uma representação de cada documento ou do conjunto de documentos é extraído seus conteúdos mais relevantes. Os textos dos documentos são tipicamente representados por termos indexados que são os identificadores dos documentos. O sistema usado na IR é o modelo de espaço vetorial (vector space model). O documento é visto como um vetor de dimensão n onde n é a quantidade de termos distintos usados para descrever os conteúdos dos documentos na coleção sendo que cada termo representa uma dimensão no espaço do documento. Uma consulta é também tratada do mesmo modo e é constituído de termos e pesos providos na consulta do usuário. A similaridade entre palavras-chave ou consulta e os documentos 2

são baseados na medida de similaridade. umentos com uma similaridade maior as palavras-chave ou consulta são julgadas a serem mais relevantes e devem ser recuperados pela IR com uma posição mais relevante na lista de documentos recuperados. 2. Objetivo Esse trabalho teve como objetivo um estudo na área de Recuperação de Informação através da identificação de palavras-chave mais relevantes ou consulta representando um conjunto de documentos, usando-se Algoritmos Genéticos. Foi usada a ferramenta Evolver. 3. Motivação A principal motivação foi à aplicação da técnica de Algoritmos Genéticos na área de Recuperação de Informação. 4. Conjunto de umentos Como este trabalho é acadêmico, utilizaram-se os seguintes textos representando 10(dez) documentos:. 1- Neste artigo é usado o algoritmo genético visando o aprimoramento do sistema de recuperação de informação, usando-se a função de aptidão de similaridade do cosseno. Tem como meta a investigação do uso de algoritmos genéticos para recuperação de informação aplicada a documentos representados por frases ou conjunto de frases onde os documentos mais relevantes são apresentados aos usuários.. 2- Algoritmo genético é um algoritmo probabilístico que simula o mecanismo de seleção natural dos organismos vivos e é muitas vezes usado para resolver problemas nos quais as soluções usuais são soluções caras.. 3- No algoritmo genético o espaço de busca é composto de soluções candidatas do problema, cada representada por uma string chamada de cromossoma tendo um valor representado por uma função objetivo, chamada aptidão. Um conjunto 3

de cromossomas associado com suas aptidões é chamado de população e esta população em uma dada iteração do algoritmo genético é chamada de geração.. 4- Sistema de Recuperação de Informação é um sistema usado para armazenar itens de informação que necessitam ser processados, pesquisados e correspondentemente serem recuperados devido a consultas feitas por um usuário. A maioria dos sistemas de recuperação usa palavras-chave para recuperar documentos e o sistema inicialmente extrai palavras-chave dos documentos e depois designa essas palavras-chave usando diferentes aproximações, sendo que tal sistema deve extrair precisamente e decidir o peso de cada palavra-chave.. 5- Neste modelo um documento é visto como um documento num espaço de dimensão-n, onde n é a quantidade de termos usados para descrever o conteúdo do documento na coleção e cada termo representa uma dimensão no documento. Uma consulta é também construída de termos e pesos de acordo com a consulta feita por um usuário.. 6- Recuperação de Informação em documentos é baseada na medida de similaridade entre a consulta e os documentos e isto significa que os documentos com maior similaridade com a consulta são julgados a serem mais relevantes e os documentos devem ser recuperados pelo sistema de recuperação numa lista ordenada descendentemente pela relevância.. 7- A Aprendizagem por consulta é o grupo de aplicação mais relevante em Recuperação de Informação, usando algoritmo genético. A Aprendizagem por consulta é um processo no quais pesquisadores e usuários provem documentos e o algoritmo aprende os conceitos-chave como o propósito de achar outros documentos relevantes.. 8- A aprendizagem por consulta é um processo no quais usuários provem exemplos e os algoritmos aprendem os conceitos-chave para achar outros documentos relevantes. Este método é o processo para assistir os usuários na formulação da consulta desempenhado pelo método de aprendizagem de máquina. É baseado no conjunto de documentos relevantes e opcionalmente nos documentos não-relevantes provido pelo usuário, aplicando-se um processo de aprendizagem.. 9- Há várias maneiras de se medir a qualidade do sistema de recuperação de informação, sendo as mais usadas a precisão e a abrangência. Precisão é a razão entre os documentos relevantes recuperados pelo sistema de recuperação de 4

informação em resposta a uma consulta e a quantidade total de documentos recuperados. Abrangência é a razão da quantidade de documentos relevantes recuperados e quantidade total de documentos relevantes na consulta existente na coleção dos documentos.. 10- A indexação automática de documentos é uma aplicação que visa à adaptação dos documentos na coleção com o propósito de facilitar a recuperação de documentos face às consultas relevantes. Foi proposto um algoritmo genético para representação dos documentos, onde foi escolhido um esquema de codificação binária onde cada representação do documento tem um comprimento fixo e é representado por um vetor binário. A população genética é composta de diferentes descrições para o mesmo documento. 5. Representação do documento e da consulta A Representação do umento por texto completo é difícil e caro de se manipular computacionalmente, então dado um documento identificou-se os conceitos que melhor descrevem o seu conteúdo. É costume representar o documento como uma Centróide e através uma lista de termos com pesos associados ou não. O problema é a perda semântica. Foi escolhido para representação do documento o modelo do espaço vetorial (Vector Space Model), onde os documentos (d) e as consultas (q) são representados por vetores em um espaço n-dimensional, onde n é a quantidade total de termos usados para indexar os documentos. Nesse trabalho, o documento foi representado por um centróide com pesos associados, i.e, o número de vezes que a palavra aparece no texto. Para cada conjunto de documentos, cada consulta q é comparada com todos os documentos d, usando a medida de similaridade do cosseno do ângulo entre q e d. Quanto maior o cosseno, maior é a relevância entre d e q. A seguir é mostrado na figura 5.1, um exemplo de um documento e uma consulta com as respectiva medida de similaridade do cosseno do ângulo entre q e d. 5

Figura 5.1 - Modelo Espaço Vetorial com Pesos Associados O peso de cada termo é definido pela seguinte fórmula: wi = (tfi / tf) * log(d/dfi) onde wi peso do termo i normalizado tfi freqüência do termo (quantidade de vezes que um termo i ocorre em um documento) tf - maior freqüência do termo na coleção dos documentos D quantidade de documentos dfi freqüência do documento ou quantidade de documentos contendo termo i dfi/d razão da probabilidade de selecionar um documento contendo um termo da consulta (query). log(d/dfi) inverso da freqüência do documento (IDFi Inverse ument Frequency) A similaridade do cosseno é dada pela seguinte fórmula: Sim (q,d) = w q,i w d,i ( w 2 q,i) 1/2 * ( w 2 d,i) 1/2 6

As operações elaboradas sobre o texto foram: a eliminação de stopwords, i.e., palavras consideradas irrelevantes; e o agrupamento de palavras que tinham o mesmo radical. Em seguida os termos foram substituídos por índices e pelas suas freqüências nos documentos d. 6. Simulação A simulação foi feita com 10(dez) textos representando os documentos. Na tabela 6.1 a seguir são representados os textos ou documentos através de índices e freqüência das palavras. No total foram totalizados 110(cento e dez) termos ou índices. Foram também apresentadas as stopwords que foram eliminadas. Tabela 6.1 Representação dos textos ou documentos Descrição dos Itens 1 2 3 4 5 6 7 8 9 10 Total 1 Abrangência - - - - - - - - 2-2 2 Achar - - - - - - 1 1 - - 2 3 Adaptação - - - - - - - - - 1 1 4 Algoritmo(s) 2 2 2 - - - 2 1-1 10 5 Aplicada /Aplicação/ 1 - - - - - 1 1-1 4 Aplicando 6 Aprendizagem/ Aprende - - - - - - 3 4 - - 7 7 Apresentados 1 - - - - - - - - - 1 8 Aprimoramento 1 - - - - - - - - - 1 9 Aproximações - - - 1 - - - - - - 1 10 Aptidão (ões) 1-2 - - - - - - - 3 11 Armazenar - - - 1 - - - - - - 1 12 Artigo 1 - - - - - - - - - 1 13 Assistir - - - - - - - 1 - - 1 14 Associado - - 1 - - - - - - - 1 15 Automática - - - - - - - - - 1 1 16 Baseada (o) - - - - - 1-1 - - 2 17 Binária (o) - - - - - - - - - 2 2 18 Busca - - 1 - - - - - - - 1 19 Candidatas - - 1 - - - - - - - 1 20 Caras - 1 - - - - - - - - 1 21 Chamada(o) / Designa - - 4 1 - - - - - - 5 7

Continuação da Tabela 6.1 Representação dos textos ou documentos Descrição Total 1 2 3 4 5 6 7 8 9 10 22 Codificação - - - - - - - - - 1 1 23 Coleção - - - - 1 - - - 1 1 3 24 Composto (a) - - 1 - - - - - - 1 2 25 Comprimento - - - - - - - - - 1 1 26 Conjunto 1-1 - - - - 1 - - 3 27 Consulta(s) - - - 1 2 2 2 2 2 1 12 28 Conteúdo - - - - 1 - - - - - 1 29 Construída - - - - 1 - - - - - 1 30 Cosseno 1 - - - - - - - - - 1 31 Cromossoma(s) - - 2 - - - - - - - 2 32 Dada - - 1 - - - - - - - 1 33 Decidir - - - 1 - - - - - - 1 34 Descendentemente - - - - - 1 - - - - 1 35 Descrever /Descrições - - - - 1 - - - - 1 2 36 Desempenhado - - - - - - - 1 - - 1 37 Deve(m) - - - 1-1 - - - - 2 38 Diferentes - - - - - - - - - 1 1 39 Dimensão - - - - 2 - - - - - 2 Dimensão n 40 umento(s) 2 - - 2 4 4 2 3 5 6 28 41 Espaço - - 1-1 - - - - - 2 42 Esquema - - - - - - - - - 1 1 43 Exemplos - - - - - - - 1 - - 1 44 Existente - - - - - - - - 1-1 45 Extrair/extrai - - - 2 - - - - - - 2 46 Face - - - - - - - - - 1 1 47 Facilitar - - - - - - - - - 1 1 48 Feita - - - 1 1 - - - - - 2 49 Fixo - - - - - - - - - 1 1 50 Formulação - - - - - - - 1 - - 1 51 Frases 2 - - - - - - - - - 2 52 Função 1-1 - - - - - - - 2 53 Genético (a) (s) 2 1 2 - - - 1 - - 2 8 54 Geração - - 1 - - - - - - - 1 55 Grupo - - - - - 1 1 - - - 2 56 Indexação - - - - - - - - - 1 1 57 Informação 2 - - 2-1 1-2 - 8 58 Investigação 1 - - - - - - - - - 1 8

Continuação da Tabela 6.1 Representação dos textos ou documentos Descrição 1 2 3 4 5 6 7 8 9 59 Itens - - - 1 - - - - - - 1 60 Iteração - - 1 - - - - - - - 1 61 Julgados - - - - - 1 - - - - 1 62 Lista - - - - - 1 - - - - 1 63 Máquina - - - - - - - 1 - - 1 64 Mecanismo - 1 - - - - - - - - 1 65 Maneiras - - - - - - - - 1-1 66 Medida / Medir - - - - - 1 - - 1-2 67 Meta 1 - - - - - - - - - 1 68 Modelo - - - - 1 - - - - - 1 69 Muitas Vezes - 1 - - - - - - - - 1 70 Natural - 1 - - - - - - - - 1 71 Necessitam - - - 1 - - - - - - 1 72 Objetivo / - - 1 - - - 1 - - - 2 Propósito 73 Opcionalmente - - - - - - - 1 - - 1 74 Ordenada - - - - - 1 - - - - 1 75 Organismo - 1 - - - - - - - - 1 76 Palavra(s)-chave - - - 4 - - 1 1 - - 6 Conceitos-chave 77 Peso(s) - - - 1 1 - - - - - 2 78 Pesquisados/ - - - 1 - - 1 - - - 2 Pesquisadores 79 População - - 2 - - - - - - 1 3 80 Probabilístico - 1 - - - - - - - - 1 81 Problema(s) - 1 1 - - - - - - - 2 82 Precisão - - - - - - - - 2-2 83 Processados / Processo/ - - - 1 - - 1 5 - - 7 Método 84 Proposto / propósito - - - - - - - - - 2 2 85 Provem /provido - - - - - - 1 2 - - 3 86 Qualidade - - - - - - - - 1-1 87 Quantidade - - - - 1 - - - 3-4 88 Razão - - - - - - - - 2-2 89 Recuperação/recuperar/ 2 - - 4-3 1-5 1 16 recuperados 90 Relevantes /Relevância/ 1 - - - - 2 2 3 3 1 12 Não Relevantes 91 Representada (o)(os) 1-2 - 1 - - - - 3 7 Representa/ Representação 92 Resolver - 1 - - - - - - - - 1 10 Total 9

Continuação da Tabela 6.1 Representação dos textos ou documentos Descrição 1 2 3 4 5 6 7 8 9 10 Total 93 Resposta - - - - - - - - 1-1 94 Seleção /Escolhido - 1 - - - - - - - 1 2 95 Significa - - - - - 1 - - - - 1 96 Similaridade 1 - - - - 2 - - - - 3 97 Simula - 1 - - - - - - - - 1 98 Sistema(s) 1 - - 5-1 - - 2-9 99 Soluções - 2 1 - - - - - - - 3 100 String - - 1 - - - - - - - 1 101 Termos(s) - - - - 3 - - - - - 3 102 Total - - - - - - - - 2-2 103 Usado (a) (s)/ uso(a) / 3 1-3 1-1 - 1-10 usando 104 Usuais - 1 - - - - - - - - 1 105 Usuário(s) 1 - - 1 1-1 3 - - 7 106 Valor - - 1 - - - - - - - 1 107 Vetor - - - - - - - - - 1 1 108 Visando /Visa 1 - - - - - - - - 1 2 109 Visto - - - - 1 - - - - - 1 110 Vivos - 1 - - - - - - - - 1 Total itens 31 18 31 35 24 23 24 34 37 37 294 Stopwords a(s) x x - x x x X X x x Aos x - - - - - - - - - Cada - - x x x - - - - x Com - - x - x x - - - x Como x - - - x - X - - - correspondentemente - - - x - - - - - - de x x x x x x X - x x de acordo - - - - x - - - - - Depois - - - x - - - - - - Devido - - - x - - - - - - Diferentes - - - x - - - - - - do(s) (a) x x x x - - - x x x E - x x x x x X x x - Em - - x - - x X - x - Entre - - - - - x - - x - esta/ essa(s) /este - - x x - - - x - - inicialmente - - - x - - - - - - Isto - - - - - x - - - - Mais x - - - - x X - x - maior /maioria - - - x - x - - - - 10

Continuação da Tabela 6.1 Representação dos textos ou documentos Descrição 1 2 3 4 5 6 7 8 9 10 Mesmo - - - - - - - - - x na (os) (o) - x x - x x X x x x Neste x - - - x - - - - - numa /num - - - - x x - - - - o(s) x x x x x x X x x x Onde x - - - x - - - - x Ou x - - - - - - - - - Outros - - - - - - X x - - Para x x - x x - - x - x pela (o) - - - - - x - x x - Por x - x x x - X x - x precisamente - - - x - - - - - - Quais - x - - - - X x - - Que - x - x - x - - - x Se - - - - - - - - x - Suas - - x - - - - - - - Tal - - - x - - - - - - Também - - - - x - - - - - Um(a) - x x x X - X x x x Várias - - - - - - - - x - é/são/serem/ser/sendo/ foi 2 3 3 4 3 4 2 3 3 5 tem/tendo 1-1 - - - - - - 1 Há - - - - - - - - 1 - Total 7. Discussão e Resultados Foi utilizada para o estudo, a ferramenta Evolver, utilizando-se o método Recipe. Consulta 1: Dados os 10(dez) documentos encontrar as palavras-chave ou consulta mais relevante a todos os documentos. Foram usados os seguintes dados operacionais: - Crossover 0.5 e Mutação 0.08; - Tamanho da População 100; - Tentativas 20000; - Máxima mudança 0.01 em 1000 tentativas; - Otimização: Maximização da soma dos cossenos entre os documentos 1 a 10 e a consulta; - Células Ajustadas:B1:B110 (palavras-chave e consulta); 11

- Restrições: Freqüência dos termos entre os valores 0 e 1 e inteiro: [0<=B1:B110<=1]. Para representação dos documentos 1 a 10 foram obtidos 57(cinqüenta e sete) itens do total dos 110 (cento e dez). Para discriminação dos itens ver Tabela 7.1. Os ângulos entre a consulta obtida e os documentos 1 a 10 foram os seguintes: 0,26625 8 0,109377 0,332705 0,282614 0,351181 0,488062 0,348782 0,233555 0,385365 0,286767 A soma dos cossenos foi de 3,0847 (máximo 10). O maior ângulo encontrado foi o correspondente ao documento 6, i.e., 0,488062. Os itens selecionados acham-se discriminados na tabela 7.1: Do resultado obtido constatou-se que os termos selecionados originaram-se dos que tinham freqüência total superior ou igual a 2(dois), incluindo também todos os itens que apareceram no documento 6, i.e., o documento que apresentou maior grau de similaridade. Houve apenas 1(uma) exceção a regra, i.e., o item 109(cento e nove). Consulta 2: Achar os itens mais relevantes ao documento 1 ou 2 ou 3 ou 4, separadamente. Na consulta 2(dois), foram usados os seguintes dados operacionais: - Crossover 0.8 e Mutação 0.05; - Tamanho da População 100; - Tentativas 20000; - Máxima mudança 0.01 em 1000 tentativas; - Otimização: Maximização do cosseno entre o documento e a consulta; - Células Ajustadas: B1:B110 (consulta); - Restrições: Freqüência entre os termos entre 0 e 1 e inteiro [0<=B1:B110<=] e soma diferente de zero [soma(b1:b110)<>0] Todos os itens dos documentos foram selecionados. A diferença da quantidade foi à freqüência com que os itens apareceram no documento, pois na consulta eles foram restritos a 1(um). 12

Para representação do documento 1 foram obtidos 23(vinte e três) itens do total dos 31 (trinta e um) itens. Para representação do documento 2 foram obtidos 16(dezesseis) itens do total dos 18 (dezoito) itens. Para representação do documento 3 foram obtidos 22(vinte e dois) itens do total dos 31 (trinta e um) itens. Para representação do documento 4 foram obtidos 20(vinte) itens do total dos 35 (trinta e cinco) itens. Os ângulos entre a consulta obtida e os documentos 1, 2, 3 e 4 foram respectivamente os seguintes: 0.954; 0.9805; 0.8935; 0.8538. 4. Consulta 3: Achar os itens mais relevantes concernentes aos documentos 1, 2, 3 e Na consulta 3(três) foram usados os seguintes dados operacionais: - Crossover 0.5 e Mutação 0.01; - Tamanho da População 100; - Tentativas 20000; - Máxima mudança 0.01 em 1000 tentativas; - Otimização: Maximização da soma dos cossenos entre os documentos 1 a 4 e a consulta. - Células Ajustadas: B1:B110 (conslta); - Restrições: freqüência dos termos entre zero e um e inteiro. [0<=B1:B110<=1, inteiro] Para representação dos documentos 1, 2, 3 e 4 foram obtidos 63(sessenta e três) itens. Todos os itens dos documentos foram selecionados. A diferença da quantidade foi à freqüência com que os itens apareceram no documento, pois na consulta eles foram restritos a 1(um). Os ângulos entre a consulta obtida e os documentos 1, 2, 3 e 4 foram respectivamente os seguintes: 0.4719; 0.5189; 0.5177; 0.4071. 13

Tabela 7.1 Itens Selecionados da Consulta 1 Item Descrição dos Itens C 1 To Item Descrição dos Itens C 1 Total tal 1 Abrangência 1 2 37 Deve(m) 1 2 2 Achar 1 2 38 Diferentes - 1 3 Adaptação - 39 Dimensão 1 2 Dimensão n 4 Algoritmo(s) 1 10 40 umento(s) 1 28 5 Aplicada /Aplicação/ 1 4 41 Espaço 1 2 Aplicando 6 Aprendizagem/ Aprende 1 7 42 Esquema - 1 7 Apresentados - 1 43 Exemplos - 1 8 Aprimoramento - 1 44 Existente - 1 9 Aproximações - 1 45 Extrair/extrai 1 2 10 Aptidão (ões) 1 3 46 Face - 1 11 Armazenar - 1 47 Facilitar - 1 12 Artigo - 1 48 Feita 1 2 13 Assistir - 1 49 Fixo - 1 14 Associado - 1 50 Formulação - 1 15 Automática - 1 51 Frases 1 2 16 Baseada (o) 1 2 52 Função 1 2 17 Binária (o) 1 2 53 Genético (a) (s) 1 8 18 Busca - 1 54 Geração - 1 19 Candidatas - 1 55 Grupo 1 2 20 Caras - 1 56 Indexação - 1 21 Chamada(o) / Designa 1 5 57 Informação 1 8 22 Codificação - 1 58 Investigação - 1 23 Coleção 1 3 59 Itens - 1 24 Composto (a) 1 2 60 Iteração - 1 25 Comprimento - 1 61 Julgados 1 1 26 Conjunto 1 3 62 Lista 1 1 27 Consulta(s) 1 12 63 Máquina - 1 28 Conteúdo - 1 64 Mecanismo - 1 29 Construída - 1 65 Maneiras - 1 30 Cosseno - 1 66 Medida / Medir 1 2 31 Cromossoma(s) 1 2 67 Meta - 1 32 Dada - 1 68 Modelo - 1 33 Decidir - 1 69 Muitas Vezes - 1 34 Descendentemente 1 1 70 Natural - 1 35 Descrever /Descrições 1 2 71 Necessitam - 1 36 Desempenhado - 1 72 Objetivo / Propósito 1 2 14

Cont. Tabela 7.1 Itens Selecionados da Consulta 1 Item Descrição dos Itens C 1 Total Item Descrição dos Itens C1 Total 73 Opcionalmente - 1 92 Resolver - 1 74 Ordenada 1 1 93 Resposta - 1 75 Organismo - 1 94 Seleção /Escolhido 1 2 76 Palavra(s)-chave 1 6 95 Significa 1 1 Conceitos-chave 77 Peso(s) 1 2 96 Similaridade 1 3 78 Pesquisados/ 1 2 97 Simula - 1 Pesquisadores 79 População 1 3 98 Sistema(s) 1 9 80 Probabilístico - 1 99 Soluções 1 3 81 Problema(s) 1 2 100 String - 1 82 Precisão 1 2 101 Termos(s) 1 3 83 Processados/ Processo/ 1 7 102 Total 1 2 Método 84 Proposto / propósito 1 2 103 Usado (a) (s)/ uso(a) / 1 10 usando 85 Provem /provido 1 3 104 Usuais - 1 86 Qualidade - 1 105 Usuário(s) 1 7 87 Quantidade 1 4 106 Valor - 1 88 Razão 1 2 107 Vetor - 1 89 Recuperação/recuperar/ recuperados 90 Relevantes /Relevância/ Não Relevantes 91 Representada (o)(os) Representa/ Representação 1 16 108 Visando /Visa 1 2 1 12 109 Visto 1 1 1 7 110 Vivos - 1 Total 57 110 8. Conclusão O uso de algoritmos genéticos em conjunto com o uso do modelo de espaço vetorial para representação de documentos através palavras-chave mostrou-se eficiente, contudo futuramente deverão ser feitos testes com coleção de documentos conhecidos para que se façam comparações entre o método adotado e sistema clássico de Recuperação de Informação. 15

9. Referências Bibliográficas - Radwan, Ahmed A. A.; Tatef, Bahgat A. Abdel; Ali, Abdelmgeid A.; Sadeck, Osman A.; Using Genetic Algorithm to Improve Information Retrieval Systems; Proceedings of World Academy of Science, Engineering and Tecnology Volume A17, december 2006; - Aly, Abdelmgeid; Applying Genetic Algorithm in Query Improvement Problem, International Journal Information Technologies and Knowledge, vol 1, 2007 16