Terceira Geração de Sistemas de Pesquisa de Informação

Documentos relacionados
Linguagem para Modelação de Sistemas de Pesquisa de Informação

Agrupamento de Escolas General Humberto Delgado Sede na Escola Secundária/3 José Cardoso Pires Santo António dos Cavaleiros

A informação, o conhecimento e o mundo das tecnologias

Novidades no EPC GM. Navegação gráfica. Navegação comum para cada veículo

Rui Carneiro, Rui Pereira, Tiago Orfão

Universidade do Algarve

DOCUMENTO DE APOIO N.º 1

ABD Arquivos e Bibliotecas Digitais

PageRank Matriz do Google Referências. Matrizes e Google. Manuela da Silva Souza IME - USP. 13 de novembro de 2013

ATIVIDADES ESTRATÉGIAS. 1. Compreender a evolução das Tecnologias de Informação e Comunicação e o seu papel no mundo contemporâneo:

Teoria da Computação. 2006/2007 Trabalho prático nº 1. Trabalho realizado por: Pedro Oliveira ( ) Rui Costa ( ) Turma: TP1

Proposta de trabalho

Click to edit Master title style. as Humanidades e C. Sociais

Ulisses Universidade de Lisboa

MyTv: Sistema Personalizado de Televisão

Catálogo BloguesEDU Apoio técnico

Planificação Anual TIC 8º Ano 2012/ PERÍODO

AGRUPAMENTO DE ESCOLAS À BEIRA DOURO ESCOLA BÁSICA E SECUNDÁRIA À BEIRA DOURO - MEDAS

Descoberta de conhecimento em textos - Análise semântica. Diogo Cardoso Eduardo Camilo Inácio Eduardo Monteiro Dellandréa Guilherme Gomes

Capítulo 3. Álgebra de Bool

8 conselhos para melhorar a sua privacidade e segurança online

PLANIFICAÇÃO A MÉDIO/LONGO PRAZO

AGRUPAMENTO DE ESCOLAS GONÇALO SAMPAIO ESCOLA E.B. 2, 3 PROFESSOR GONÇALO SAMPAIO

BASES DE DADOS I LTSI/2. Universidade da Beira Interior, Departamento de Informática Hugo Pedro Proença, 2010/2011

Ficheiros de texto 1. Ficheiros de texto. 1. Implementar um programa que leia uma frase do teclado e a escreva num ficheiro.

6. Pesquisa e Ordenação

Planificação ANUAL - Tecnologias de Informação e Comunicação - 3 º Ciclo 7º Ano

Licenciatura em Novas Tecnologias da Comunicação. ocumentação ROTÓTIPO ALFA PROJETO IAMEG1

6 Conclusão Contribuições da Dissertação

Seleção e Otimização de Fontes

Política de Cookies. Website Timestamp SI

CONHECIMENTOS, CAPACIDADES E ATITUDES. Segurança, responsabilidade e respeito em ambientes

Sabe usar o Google Maps em modo Offline no Android e no ios?

Metas curriculares 7º ano. Partindo do principio que a disciplina terá 90 minutos semanais

Política de Cookies. Website Timestamp BIW

Estruturas de Dados Apresentação

Compiladores. Análise Semântica

Centro de Informação Europeia Jacques Delors. Guia do utilizador

O que é uma cookie? Para que são usadas as cookies neste site?

O que é uma cookie? Para que são usadas as cookies neste site?

Web Presentation Patterns - Controllers

1. A informação, o conhecimento

Escola Básica de Gondomar. Tecnologias de Informação e Comunicação 3º Ciclo 7º ano ANO LECTIVO DE 2014/2015

Catálogo BloguesEDU Apoio técnico

Escola Profissional Agrícola de Lamego Ano Lectivo 2008 / 2009

Planificação a longo prazo

Introdução. descrever os tipos de interfaces e linguagens oferecidas por um SGBD. mostrar o ambiente de programas dos SGBD s

DESCOBERTA DO CONHECIMENTO COM O USO DE TEXT MINING APLICADA AO SAC TEXT MINING. Aluno José Lino Uber. Orientador Paulo Roberto Dias

Guia de Pesquisa na Internet. Bibliotecas Escolares

Melhor caminho entre duas estações de metro

Módulo 2 Gestão de Base

Tabela Hash: Índice remissivo

Corrigir um valor de erro

Mobilidade de Pessoal Não Docente

Domínio Conteúdos Objetivos / Descritores Aulas

ESCOLA BÁSICA 2 / 3 DE MARTIM DE FREITAS TIC Tecnologias de informação e comunicação - Ano lectivo de 2013 / 2014

3 Sistema Operacional Scriptável

Planificação Anual da disciplina de Programação e Sistemas de Informação 10º 1PI

ESCOLA EB2,3/S DE VILA FLOR

S E O. Search Engine Optimization Motores de Busca. ebook vol. I. Template por: SEOptimization Julho 2016

Preferências do Programa

Manual do Utilizador SISTEMA DE AVALIAÇÃO E GESTÃO DE DESEMPENHO. Data: 4 de janeiro de 2016

Didáxis Didáxis -- Escola Cooperativa de Va Escola Cooperativa de V le S C. os o me Cosme Módulo 3 Criação de Páginas W eb Web.

Tabelas de dispersão/hash

Criado por Vítor M. em 22 de Dezembro de comentários

ÉSCOLA BÁSICA DE 2º E 3º CICLOS JOSÉ MARIA DOS SANTOS PINHAL NOVO TIC 7º ANO PLANIFICAÇÃO /2014

Agrupamento de Escolas da Abelheira Escola EB 2, 3 de Viana do Castelo Ano letivo: 2015/2016

Plano da apresentação. Processamento computacional do português: o que é? Trabalhar numa língua e apresentar os resultados noutra

Pedro Oliveira

1.º Período. Domínio Subdomínio

Microsoft Outlook Versão Provisória

Manual de Funcionamento do Programa de Interface

AULA TEÓRICA 10. Tema 7. Introdução ao Microsoft Access Ø. conceitos

Tecnologias da Informação e. 7º/8º Anos. Comunicação PLANIFICAÇÃO ANUAL. Ano Letivo: 2012/2013. Professora: Marlene Fernandes. (Marlene Fernandes) / /

1 ō Trabalho Prático de Programação Imperativa 2001/2002 Propostas de trabalho

TECNOLOGIAS DE INFORMAÇÃO E COMUNICAÇÃO

Trabalho de Linguagens Formais e Compilação

TECNOLOGIAS DA INFORMAÇÃO E COMUNICAÇÃO SISTEMAS DE GESTÃO DE BASE DE DADOS FORMULÁRIOS

BASE DE DADOS DE PUBLICAÇÕES NO SISTEMA FENIX

PLANIFICAÇÃO SEMESTRAL

Gestão de Base de dados Formulários

Orientações de resposta ATIVIDADES FORMATIVAS 3

Tecnologias da Informação e da Comunicação 7º Ano Ano letivo 2016/2017 Área Disciplinar de Informática

Internet Explorer 9 - Chegou uma Web mais espectacular

CRIAÇÃO E PERSONALIZAÇÃO DE PÁGINAS PESSOAIS NO SISTEMA FENIX

3- Visualização de Informação em Formato de Imagem (Mapas de Distribuição de Espécies)

Fundamentos de Sistemas Operacionais. Threads. Prof. Edwar Saliba Júnior Março de Unidade Threads

Universidade Federal da Paraíba CCEN Departamento de Informática Disciplina: Banco de Dados. Aula 1 Introdução a Banco de Dados

Centro de Informação Europeia Jacques Delors. Guia do utilizador

Indexação automática. CBD/ECA Indexação: teoria e prática

P L A N I F I C A Ç Ã O 3 º C I C L O

Subdomínio: A informação, o conhecimento e o mundo das tecnologias

PLANIFICAÇÃO SEMESTRAL DE CONTEÚDOS TECNOLOGIAS DA INFORMAÇÃO E COMUNICAÇÃO

Tecnologias da Informação e Comunicação 7.º Ano

UNIDADE 2 Utilitários de Sistema

Bots. U'lizadores 3/16

Nova Plataforma Allianz. Intranet Outubro 2009

Transcrição:

Terceira Geração de Sistemas de Pesquisa de Informação João Ferreira Rui Jesus Arnaldo Abrantes jferreira@deetc.isel.ipl.pt rmfj@isel.ipl.pt aja@cedet.isel.ipl.pt Sumário: Pretende-se discutir e fundamentar um conjunto de ideias necessárias para o desenvolvimento de sistemas de pesquisa com o objectivo de melhorar o desempenho dos mesmos. Assuntos como a personalização, perfil, interfaces de ajuda, uso de sistemas de classificação e contextualização da pesquisa são analisados e discutidos numa abordagem que permite integrar de uma forma unificada as suas potencialidades. Palavras-chave: Pesquisa de Informação, Sistema de Pesquisa, Personalização. 1 Introdução Desde o aparecimento da Internet que o problema do excesso de informação e da respectiva recuperação tem sido abordado. Tornou-se prática comum a construção de sistemas de pesquisa (e.g. Altavista, Yahoo, Google). O objectivo destes sistemas é, dada uma necessidade de informação de um utilizador expressa numa pergunta por um conjunto de termos que o utilizador considere descreverem as suas necessidades, que devolva um conjunto de documentos. Estes sistemas podem dividir-se em duas grandes classes: os que trabalham num espaço aberto (e.g. Internet) e os que trabalham num espaço fechado, com colecções específicas e perguntas previamente elaboradas para as quais se conhece o conjunto de documentos relevantes. Historicamente podem dividir-se os sistemas em duas gerações: Os iniciais, atingindo o seu expoente máximo nos motores comerciais com o Altavista, o Excite e o Lycos (1992-1997), retirando-se apenas informação textual dos documentos, sendo posteriormente comparada; Segunda geração, que começou com a abordagem introduzida pelo Google (desde 1998), com base no seguimento das ligações dos documentos. Pretende-se discutir os requisitos essenciais para a próxima geração, aqui denominada como 3ª geração de sistemas de pesquisa, nos quais a personalização assume um papel fundamental na opinião dos autores. Personalização Personalização significa a existência de uma base de dados para guardar o perfil do utilizador e um conjunto de definições locais. Dada a falta de um sistema global para tratar este assunto e para evitar os problemas que um tal sistema originaria (e.g. privacidade, segurança), a melhor abordagem para este problema é solucionálo do lado do cliente, através de uma nova geração de browsers, capaz de guardar e manipular a informação dos utilizadores.

SistemaPesquisa3ªGeração + VistaCasosUtilização + VistaDados + V i sta P ro ce sso s Objectivo: Criar um sistema que permita ordenar resultados de diferentes sistemas de pesquisa comerciais de acordo com o perfil do utilizador ou com o sistem a de classificação escolhido. Explorar a componente da personalização nos sistemas de pesquisa 2 Vista de Casos de utilização Figura 1: Sistema de pesquisa de 3ªgeração. Escolhe Categoria(s) no Sistema de Classificação para o processo ce contextualização Recebe lista documento ordenados por medida de relev ância Retroação Resultados Escolhe Sistema de Pesquisa disponív el Define Define Perfil Escolhe Categorias\Termos num Espaço Classificado Introduz te rm os Escolhe Sistema Classificação Escolhe Método Comparação Cria Espaço Conhecimento (S is te m a Classificação e Dicionário) IR-User Escolha Lingua IR- Authority Implementa M étodos de Comparação Gere Espaço Conhecimento (S is te m a Classificação e Dicionário) IR- Producer Produz Documento Os IR-Actores são: Figura 2: Vista de Caso de Utilização do sistema de pesquisa de 3ª geração. IR-User, para além do papel habitual que desempenha nos sistemas de pesquisa pode ainda escolher os sistemas de pesquisa comerciais disponíveis, definir o perfil, escolher os métodos de comparação, escolher a(s) categoria(s) do sistema de classificação para o processo de contextualização, de forma a definir no sistema qual o contexto que pretende e a linguagem com que quer fazer a pesquisa de informação; IR-Authority, gere o espaço de conhecimento (sistemas de classificação e dicionários). Implementa métodos de comparação; IR-Producer, produz documentos, que se encontram disponibilizados na. 3 Vista de dados, conjunto de termos representativos das necessidades de informação do utilizador que pode ser expressa pela introdução livre de termos ou pela navegação num espaço classificado apropriado. O utilizador escolhe a língua em que a pergunta se encontra e a língua em que deseja transformar a pergunta. Escolhe também o conjunto de sistemas de pesquisa dos quais quer obter resultados. A pergunta necessita de uma interface de ajuda ao utilizador que consiste num conjunto de ferramentas para ajudar o utilizador a formular

correctamente as perguntas, corrigindo erros ortográficos, indicando sinónimos de termos (através do uso de dicionários), permitindo a navegação em sistemas de classificação temáticos, relembrado perguntas feitas no passado. Esta interface permite também a pesquisa em diferentes línguas, através do uso de um sistema central de tradução Dicionário, auxilia a elaboração da pergunta livre, evitando eventuais erros ortográficos. O dicionário foi implementado em duas versões: uma para a língua inglesa, de Roger Mitton da Oxford Advanced Learner http://www.oup.com/elt/global/products/oald/ e outro para a língua Portuguesa uma versão simplificada do dicionário electrónico da Porto Editora. ResultadoSP, é a lista ordenada de documentos, por ordem de relevância, que o sistema de pesquisa (SP) escolhido considerou. tradução termos «IR-Collection» «IR-Query» - lín g u a p e rg u n ta : S trin g - lingua pesquisa: String - sistema pesquisa: Int usa > «IR-Thesaurus» Dicionário lista doc relevantes apresentada função do SP ResultadoSP usa ResultadoProcessoPersonalização +output +output «IR-ClassifiedSystem» SistemaClassificação ResultadoProcessoContextualização «IR-UserProfile» PerfilUtilizador - método comparação: Int Figura 3: Vista de dados do sistema de pesquisa de 3ª geração Sistema de Classificação, são disponibilizados sistemas gerais (Yahoo) e específicos (ACM, MSC). O sistema de classificação no processo de contextualização serve de input para que os resultados sejam ordenados de acordo com o espaço de conhecimento representado no sistema de classificação. O sistema de classificação é usado para sugerir ao utilizador termos para as perguntas bem como para o perfil e simultaneamente o agrupamento de termos dos documentos considerados relevantes permite identificar as classes às quais corresponderiam os temas no espaço classificado. Esta correspondência nem sempre tem sucesso, havendo necessidade da intervenção humana quando não existe semelhança entre os termos dos documentos e os do espaço classificado.

ResultadoProcessoPersonalização, são os resultados obtidos pelo processo de comparação escolhido, o qual compara os índices dos documentos considerados relevantes pelos diferentes SP escolhidos, com o perfil do utilizador. PerfilUtilizador, contem termos representativos dos interesses estáveis obtidos por introdução de termos (assistida por corrector ortográfico) ou então por navegação no espaço classificado. A criação de um perfil, para evitar as questões de privacidade, requer uma base de dados local capaz de guardar a informação referente aos utilizadores (e.g., perfil, conteúdos de personalização). Estes dados são guardados localmente no cliente num formato que possa ser interpretado pelo sistema de pesquisa (lado do servidor) ou localmente pelo processo de personalização; Os dados locais no cliente são: (1) pergunta, (2) perfil, (3) resultadoprocessopersonalização, (4) resultadoprocessocontextualização. Os dados centrais são: (1) sistemas de classificação; (2) dicionários disponíveis. Na, temos a colecção de documentos e os resultados do sistema de pesquisa. 4 Vista de Processos Os principais processos são: Tradutor, recebe os termos, que vai traduzir tendo com referências a língua em que foi formulada a pergunta e da língua pretendida; Processo de pesquisa, corresponde ao processo padrão, podendo variar os processos de indexação, comparação e optimização consoante o sistema escolhido; Processos de indexação, os documentos identificados como relevantes são indexados pelo processo padrão de indexação; Processo de personalização, usa informação local para reordenar a informação a apresentar ao utilizador, pelo uso do perfil. Este processo usa o índice dos documentos considerados relevantes e por meio de comparação (escolhido pelo utilizador) os termos dos representativos dos documentos são comparados com os do perfil do utilizador. Deste processo resulta um menor número de documentos identificados como relevantes. Este processo pode também disponibilizar informação do perfil existente e usa processos de retroacção automáticos e manuais para ajustar os termos e as medidas existentes no perfil; Contexto de pesquisa, usa os termos da(s) categoria(s) do sistema de classificação escolhido para reduzir o número de documentos identificados como relevantes pelos diferentes sistema de pesquisa. O processo compara o índice dos documentos identificados como relevantes com os termos da(s) categoria(s). Os processos estabelecidos do lado do cliente, originam a necessidade de um sistema central, capaz de gerir e implementar um conjunto de sistemas de classificação inerente às diferentes áreas do conhecimento, disponibilizar de forma uniforme dicionários em diferentes línguas bem como permitir a utilização de um

sistema central de tradução de termos associado a diferentes contextos. O sistema local tem disponíveis os seguintes métodos de comparação (Disponibilizados centralmente): método vectorial (lnu-ltc), probabilísticos (fórmulas BMxx), seguimento de ligações, modelos linguísticos e também combinações. Cliente «IR-Query» Sistema Central «IR-Thesaurus» Dicionário Google - língua pesquisa: String - língua pergunta: String - si ste m a p e sq u i sa : In t Tradutor «IR-Collection» Yahoo Altav ista «IR-UserProfile» PerfilUtilizador - m étodo com paração: Int «IR -C l a ssi fi e d S yste m» SistemaClassificação M é todov e toria l SistemaX ProcessoComparação M étodoprobabilistico M étodoseguimentoligações M étodolm Personalização Contextualização Figura 4: Vista de processos do sistema de pesquisa de 3ª geração proposto. 5 Conclusões O sistema descrito encontra-se em fase de construção, e brevemente obter-se-ão resultados. O presente trabalho pretende mostrar uma reflexão sobre as direcções a tomar no que se refere a sistemas de recuperação de informação. Torna-se fundamental explorar as potencialidades dos perfis, sendo interessante a manipulação do lado do cliente para evitar a problemática associada aos temas privacidade e segurança e à dimensão de uma base de dados com os perfis dos utilizadores. Referências [1] Ferreira J, Silva A, Delgado J. (2005). Modelação da Pesquisa de Informação. JET2005. [2] http://www.oup.com/elt/global/products/oald/