Um estudo sobre diferentes modelos de Recuperação de Informação em documentos semi-estruturados (XML) -
|
|
- William Aires
- 5 Há anos
- Visualizações:
Transcrição
1 Um estudo sobre diferentes modelos de Recuperação de Informação em documentos semi-estruturados (XML) - Implementação, Análise, Avaliação e Comparação Autor: Mirella Silva Junqueira 1, Orientador: Prof. Dr. Ilmério Reis da Silva 1 1 Programa de Pós-Graduação em Ciência da Computação Universidade Federal do Uberlândia (UFU) Uberlândia MG Brasil mirellajunqueira@gmail.com, ilmerio@facom.ufu.br Nível: Mestrado Ano de ingresso no programa: 2006 Época esperada de conclusão: Agosto / 2008 Etapa concluída: Aprovação da proposta de dissertação em Agosto/2007 Resumo. Um sistema de recuperação de informação (R.I.) semi-estruturada traz como vantagem um aumento na precisão dos resultados quando comparada à recuperação não estruturada. Um dos problemas neste ambiente é a especificação de consultas incluindo informação de contexto (estrutura). Para que tenhamos este acréscimo na precisão, estes sistemas precisam de uma interface que auxilie o usuário na contextualização de sua necessidade de informação. Este trabalho visa definir uma interface que ajude o usuário na formulação da consulta, levando à melhorias na qualidade do resultado. A avaliação deste resultado será feita utilizando uma generalização das métricas de precisão-revocação (EPRUM) aplicadas à dois modelos de R.I. semi-estruturada baseados no modelo vetorial (sterm e JuruXML) com uma grande coleção de documentos(inex). Palavras-Chave. Recuperação de Informação, modelo vetorial, interface, Precisão, Revocação, EPRUM, INEX, XML, estrutura, recuperação semiestruturada
2 1. Caracterização do Problema Sistemas de recuperação de Informação (R.I.) são frequentemente contrastados com bancos de dados relacionais. Sistemas R.I. recuperam informações à partir de texto não estruturado (texto sem marcadores). Bancos de dados são designados para pesquisas em dados estruturados: conjunto de registros que têm valores para atributos pré-definidos, tais como número de empregado e salário. Alguns problemas de busca altamente estruturada são resolvidos com um banco de dados relacional, por exemplo, se uma tabela de empregado contém um atributo para uma pequena descrição textual do serviço. Existem diferenças fundamentais entre R.I. e sistemas de banco de dados, como mostrado na tabela 1. Banco de Dados Recuperação de Informação Recuperação Semi-Estruturada Objetos Registros Documento não estruturado Árvore com texto nas folha Modelo Cálculos relacionais Espaço vetorial e outros? Estrutura de Dados Principal Tabela Índice invertido? Linguagem de Consulta SQL Consultas Textuais? Tabela 1. Banco de dados, recuperação de informação e recuperação semi-estruturada. Não existe consenso ainda sobre modelo formal, linguagem de consultas e estrutura de dados para recuperação semi-estruturada [Manning et al. 2007]. Conforme Tabela 1 verificamos que não existe consenso a respeito de modelo, estrutura de dados e consulta na recuperação de informação em XML. Existem dois tipos de problemas de recuperação de informação que são intermediários entre a recuperação de texto e a busca em dados relacionais. Um destes é a busca paramétrica 1, o outro, foco deste trabalho, é a recuperação XML. Documentos XML podem ser vistos como árvores que têm os nós folhas contendo texto e os nós internos rotulados que definem os papéis dos nós folhas no documento. Este tipo é chamado de texto semi-estruturado e a recuperação é a recuperação semi-estruturada. Recuperação semi-estruturada tem se tornado cada vez mais importante por causa do crescimento do uso do XML. XML é usada para conteúdo web, importação e exportação de textos com conteúdo geral, e outras aplicações. Hoje em dia, a maioria dos dados semiestruturados é codificada em XML. Dentre os desafios na recuperação semi-estruturada temos a ausência de uma unidade de indexação, a necessidade de distinguir diferentes contextos de um termo durante o cálculo de estatísticas e a interface do usuário que, em geral, não está familiarizado com a estrutura da coleção de documentos. O principal problema considerado neste trabalho é definir uma interface que apresente a estrutura da coleção e então permita ao usuário especificar os nós que está buscando. Como consequência, a interface de consulta é mais complexa que a caixa de busca para consultas na recuperação não estruturada [Manning et al. 2007]. O presente trabalho foi proposto a partir de estudos sobre a recuperação de informação de documentos semi-estruturados, formas de avaliação e a verificação de alguns problemas como a indexação e a interface de consulta. 2. Trabalhos Relacionados Dois modelos propostos na literatura [Schlieder and Meuss 2002] (nomeado em [dos Santos 2006] para sterm) e JuruXML [Carmel et al. 2001], detalhados na seção 2.1, 1 Busca Paramétrica: permite buscar por parâmetros específicos que definem o objeto.
3 apresentam a recuperação de informação em documentos XML de uma forma semiestruturada, com base em uma adaptação do modelo vetorial para a recuperação não estruturada. Apesar de possuírem a mesma base, existem diferenças na forma de definição dos conceitos, de estruturação da consulta e principalmente na forma como realizam o casamento entre a consulta e documentos da coleção visando o retorno para o usuário dos documentos mais relevantes. Modelos de R.I. podem ser avaliados de acordo com o conjunto de resultados retornados como resposta à uma consulta. Esta avaliação pode-se dar à partir do cálculo de alguns valores padrões de métricas, como a precisão(fração de documentos recuperados que são relevantes) e a revocação (fração de documentos relevantes que foram recuperados). Para avaliarmos os sitemas acima descritos utilizaremos o modelo EPRUM [Piwowarski and Dupret 2006] (Seção 2.3). A coleção de testes utilizada será a coleção INEX 2 [INEX ] para a tarefa de recuperação Ad hoc (Seção 2.4) Modelos Os modelos sterm e JuruXML são apresentados à seguir: sterm: A base do modelo sterm é o modelo vetorial clássico. Os conceitos são estendidos para uma interpretação estruturada. Uma consulta no modelo vetorial clássico é uma lista de palavras chaves. No modelo sterm, é adicionada estrutura nas palavras chaves de tal forma que as consultas possam ser interpretadas como árvores rotuladas. Documentos XML são árvores rotuladas, também. A coleção é modelada como uma única árvore, e cada sub-árvore como um documento lógico. A raiz da árvore da consulta determina a noção de documentos admissíveis: todo documento lógico, cujo nó raiz é igual ao nó raiz da consulta, é um candidato a ser retornado como resultado. Este documento é comparado com a consulta, e atribui-se um grau de similaridade que determina a sua posição no ranking. O grau de similaridade é calculado utilizando a distribuição dos termos estruturados (s-terms). Termos estruturados são sub-árvores da consulta e dos documentos. O número de ocorrências de um termo estrutural dentro de um documento lógico e o número de documentos lógicos que contém o termo estrutural são contados, normalizados e utilizados para computar o peso de um termo, como no modelo vetorial. Os pesos são utilizados para construir os vetores documentos. Os pesos do vetor consulta podem ser definidos pelo usuário. Os vetores consulta e documento são comparados utilizando critérios próprios do modelo. JuruXML: O modelo JuruXml foi inicialmente desenvolvido para recuperação de informação em documentos não-estruturados (Juru) e depois estendido para recuperação em documentos semi-estruturados (JuruXML). Sua base é o modelo vetorial. Os conceitos são estendidos para uma interpretação semi-estruturada. É adicionada estrutura nas palavras chaves. Consultas e documentos XML são interpretados como árvores rotuladas. A coleção é modelada como uma única árvore. Um documento é comparado com a consulta, e atribui-se um grau de similaridade que determina a sua posição no ranking. O número de ocorrências de um termo estrutural dentro de um documento e o número de documentos que contém o termo são utilizados para computar o peso de um termo. O conceito de sub-árvore é utilizado levando em conta apenas uma folha (termo léxico), ou seja, utiliza-se o conceito de caminho. As formulações para o cálculo dos pesos dos termos e das similaridades entre consulta e documento são calculados considerando a semelhança existente entre dois caminhos (sub-árvore de consulta e de documento). 2 Iniciativa para a avaliação da recuperação de informação em XML.
4 Em um sistema de recuperação de informação não estruturada, a interface de consulta do usuário pode ser apenas uma caixa de consulta, onde o usuário deve inserir os termos da consulta. Na recuperação semi-estruturada, o usuário deve utilizar o contexto, além dos termos da consulta. Com relação aos modelos acima citados temos as consultas como se segue: sterm: article [emph2 [notebook], academic, prediction, companies], onde temos os termos notebook, academic, prediction, companies e temos o contexto (estrutura) onde os termos estão, considerando esta consulta como uma árvore temos: raiz: article, seus filhos: emph2, academic, prediction e companies e temos notebook como filho de emph2. No modelo JuruXML teríamos a consulta na forma: notebook#article/emph2, onde temos o termo antes do marcador # e o contexto após o marcador. A interface de recuperação semi-estruturada deve ser melhor elaborada para facilitar a especificação da consulta utilizando o contexto e o termo Avaliação com EPRUM O EPRUM é a generalização da Precisão-Revocação (PR) que tem como alvo permitir ao usuário navegar na estrutura da coleção. É aplicado no contexto da recuperação XML semi-estruturada. É calculada utilizando as probabilidades de um usuário navegar para um documento à partir de outro documento, ou de um elemento (parágrafo, sessão, etc.) deste. A precisão é baseada na comparação entre a posição mínima que consegue a revocação especificada sobre todas as listas possíveis e sobre a lista avaliada. EPRUM considera elementos como pontos de entrada para a coleção onde o usuário navega para encontrar elementos relevantes se sente que esta estratégia é promissora. No paradigma de R.I. semi-estruturada, unidades recuperáveis não podem ser consideradas independentemente, em XML se um parágrafo é relevante, sua sessão também carrega alguma relevância. Para distinguir a relevância intrínseca do parágrafo da relevância herdada da sessão, diz-se que embora ambos sejam relevantes, só o parágrafo é ideal [Piwowarski and Dupret 2006]. Um elemento XML pode variar de um mero parágrafo a uma seção ou a um documento inteiro. No EPRUM os elementos ideais podem ser independentes. Um elemento ideal é sempre relevante mais o inverso não é verdadeiro. É importante distinguir o nível de idealismo de diferentes elementos desde que eles podem ser de valores significantemente diferentes para o usuário. O conceito de consideração sugere que, além da relevância, a informação seria valiosa se o usuário sentir que ele pode encontrar informação relevante no mesmo documento. O EPRUM confia em um conjunto de probabilidades em eventos simples da forma navegação a partir de um item da lista para um elemento na coleção [Piwowarski and Dupret 2006]. Um usuário vê um elemento quando navega por ele à partir de outro elemento ou da lista. Ele descobre um elemento quando o vê pela primeira vez. É importante para o sistema somente quando os elementos são descobertos, a contabilização de elementos quando não se considera apenas o momento em que os elementos são descobertos gera inconsistência nos valores de precisão e revocação, recompensando um sistema por recuperar duas vezes o mesmo elemento ideal INEX Uma grande parte da pesquisa acadêmica em recuperação XML é conduzida dentro do programa INEX, um esforço colaborativo que inclui coleções de referência, conjunto de consultas, julgamentos de relevância e um encontro anual para apresentar e discutir os
5 resultados da pesquisa, ao final de cada encontro é publicado um resumob com uma visão geral sobre o encontro. Em sua primeira edição, ocorrida em 2002, foram criados uma coleção de teste com documentos XML do mundo real, em conjunto com tópicos padronizados e os respectivos julgamentos de relevância. Grupos de pesquisas de 36 organizações participaram, apresentando as primeiras ferramentas de recuperação de informação, com seus resultados e as respectivas avaliações. Surgiram também as primeiras métricas de avaliação. A partir de então, edições anuais vêm dando prosseguimento à criação da coleção de testes, estudos de métricas de avaliação e apresentação de ferramentas para recuperação de informação em documentos XML. Existem dois tipos de consultas, chamadas tópicos, na INEX: somente conteúdo (CO) e conteúdo e estrutura (CAS). Tópicos CO são consultas regulares como na recuperação de informação não estruturada. Tópicos CAS têm conteúdo estrutural além das palavras chaves. Essas diferenças nas consultas CAS fazem avaliações de relevância mais complicadas que a recuperação não estruturada. INEX define uma cobertura componente e relevância tópica como dimensões ortogonais de relevância. A dimensão da cobertura componente avalia se o elemento recuperado é estruturalmente correto, isto é, nem muito baixo, nem muito alto na árvore. A dimensão de relevância tópica tem quatro níveis: altamente relevante, razoavelmente relevante, marginalmente relevante e irrelevante. Os componentes são julgados nas duas dimensões e os julgamentos são combinados em um código dígitoletra. Esse esquema de avaliação leva em conta o fato de que julgamentos de relevância binária (sim/não) são menos apropriados para recuperação XML do que pra recuperação não estruturada. 3. Caracterização da Contribuição A dissertação visa a análise das diferenças estruturais, conceituais, a implementação dos modelos propostos em [Schlieder and Meuss 2002] e [Carmel et al. 2001], a avaliação dos sistemas com base nos conceitos de precisão e revocação e ainda a aplicação de uma nova proposta de avaliação, o EPRUM [Piwowarski and Dupret 2006], que tende a aumentar os valores padrões de precisão e revocação por permitir que o usuário alcance documentos que possam ser relevantes pela navegação entre documentos (ou partes deste) à partir de um único documento retornado. Dois grandes problemas na Recuperação de Informação semi-estruturada são: a indexação e a formulação de consultas. A indexação, que não gera índice considerando apenas termos, mas também a estrutura onde o termo está inserido. Este problema pode levar a um tamanho inviável do índice, duas soluções propostas na literatura são conhecidas como a poda de índice e a indexação em tempo de consulta. Em relação à formulação de consultas, que em recuperação semi-estruturada são árvores, o usuário tem dificuldades em estabelecer contextos ligados à estrutura e precisa de ajuda para elaborálas. O grande desafio deste trabalho é encontrar uma interface que auxilie na construção da consulta, levando à melhorias na qualidade do resultado. Os modelos que serão implementados e avaliados apresentam bom formalismo. A idéia de avaliá-los com relação à mesma coleção [INEX ] e sistema de avaliação [Piwowarski and Dupret 2006] está na tentativa de verificar e propor melhorias, principalmente na interface de consulta, em busca de um modelo mais eficaz.
6 Todas as atividades propostas serão executadas baseadas nas especificações encontradas em seus artigos originais. As implementações dos modelos sterm e JuruXML estão sendo desenvolvidas da maneira mais fiel possível. A coleta dos dados de navegação no processo de consulta será feita com o auxílio de voluntários (colegas do programa de mestrado). Os resultados serão utilizados nas formulações para o cálculo do EPRUM. Os estudos teóricos serão utilizados nas etapas de análise, avaliação e comparação. 4. Estado Atual do Trabalho O sistema sterm já foi implementado em Java para a sua utilização com uma coleção de documentos pequena. A API Java para XML SAX [SAX ] foi utilizada para realizar leitura e análise dos arquivos XML, e, a partir daí, construir a árvore. O índice do sistema sterm é da forma: Label: (pre,bound,maxf). Cada nó u na coleção é representado pela tripla de inteiros: pre(u) é o número preorder de u; bound(u) é o número preorder da folha mais à direita da subárvore com raiz u; maxf(u) é o número máximo de ocorrências de algum termo na subárvore com raiz u. A próxima etapa para a finalização do sistema sterm irá lidar com questões de escalabilidade, em especial, no gerenciamento de memória. O objetivo está na criação do índice para uma coleção grande, como a do INEX que é foco da pesquisa neste trabalho. Assim, pretende-se realizar avaliações de Precisão e Revocação de maneira escalável. O sistema JuruXML está em fase inicial de desenvolvimento. A criação do índice também utiliza a API SAX. O índice do sistema JuruXML é da forma: termo# contexto. Onde o termo representa o termo da consulta (folhas na árvore) e contexto é o caminho da raiz até a folha. Neste sistema também verificamos o problema de gerenciamento de memória para coleções grandes. Referências Carmel, D., Amitay, E., Herscovici, M., Maarek, Y., Petruschka, Y., and Soffer, A. (Nov 2001). Juru at TREC 10 - Experiments with Index Pruning. In Proceedings of NIST TREC 10. dos Santos, D. (2006). Meta-Modelo Funcional para Recuperação de Informação baseado em λ-cálculo. In Dissertação (Mestrado em Ciência da Computação), Universidade Federal de Uberlândia, Faculdade de Computação, Uberlândia, Minas Gerais. INEX. Initiative for the evaluation of XML retrieval - INEX. Disponível em: Manning, C. D., Raghavan, P., and Schutze, H. (2007). Retrieval. In Preliminary draft (c) 2007 Cambridge UP. Introduction to Information Piwowarski, B. and Dupret, G. (2006). Evaluation in (XML) Information Retrieval: Expected Precision-Recall with User Modelling (EPRUM). In SIGIR 06: Proceedings of the 29th annual international ACM SIGIR conference on Research and development in information retrieval, pages SAX. API SAX. Disponível em: tutorial/sax/index.html. Schlieder, T. and Meuss, H. (Apr. 2002). Querying and Ranking XML Documents. In Journal of the American Society for Information Systems, volume 53, pages
Recuperação de Informação
Recuperação de Informação Avaliação de Desempenho de Sistemas de Recuperação de Informação Renato Fernandes Corrêa 1 Para que avaliar? Existem muitos modelos de RI, mas qual é o melhor? Qual a melhor escolha
Leia maisMedidas de Avaliação
Medidas de Avaliação Medidas de Avaliação Para a maioria dos sistemas computacionais é necessário criar medidas para aferir sua eficácia e eficiência; A medida mais comum é o tempo e o espaço. Quanto menor
Leia maisMedidas de Avaliação. Após a execução de uma busca, pode-se dividir os documentos do corpus nos seguintes conjuntos: Recuperados não recuperados
Medidas de Avaliação Após a execução de uma busca, pode-se dividir os documentos do corpus nos seguintes conjuntos: Relevantes não-relevantes Recuperados não recuperados 1 Documentos úteis para atender
Leia maisAvaliação da Recuperação
Wendel Melo Faculdade de Computação Universidade Federal de Uberlândia Recuperação da Informação Adaptado do Material da Profª Vanessa Braganholo - IC/UFF Avaliação de sistemas de busca Podemos avaliar
Leia maisIndexação e Modelos Clássicos
Wendel Melo Faculdade de Computação Universidade Federal de Uberlândia Recuperação da Informação Adaptado do Material da Profª Vanessa Braganholo - IC/UFF Construção de um Sistema de Busca 1ª Etapa: Definir
Leia maisAvaliação de Desempenho de SRI
Avaliação de Desempenho de SRI Desempenho espaço x tempo é usual em computação quão preciso é o conjunto resposta (ranking) é usual em SRI Avaliação baseada em coleção de referência = documentos + consultas
Leia maisGSI024 - Organização e Recuperação da
GSI024 - Organização e Recuperação da Informação Ilmério Reis da Silva ilmerio@facom.ufu.br UFU/FACOM/BSI Arquivo 5 - Peso de termos GSI024-ORI Pg:5. 1 Busca paramétrica usando atributos Regiões em documentos
Leia maisProfª Ana Lúcia Lima Marreiros Maia Profª Fabiana Cristina Bertoni
Profª Ana Lúcia Lima Marreiros Maia Profª Fabiana Cristina Bertoni Motivação e Objetivos Etapas do Desenvolvimento de um Sistema de Recuperação de Informações (SRI): Pré-processamento; Representação; Extração
Leia maisSistemas de Banco de Dados
Sistemas de Banco de Dados Fundamentos em Bancos de Dados Relacionais Wladmir Cardoso Brandão www.wladmirbrandao.com Departamento de Ciência da Computação (DCC) Instituto de Ciências Exatas e Informática
Leia maisMineração de Textos. Mineração de Textos
Mineração de Textos Os estudos em Aprendizado de Máquina normalmente trabalham com dados estruturados Entretanto, uma grande quantidade de informação é armazenada em textos, que são dados semi-estruturados
Leia maisRealimentação de Relevância
Wendel Melo Faculdade de Computação Universidade Federal de Uberlândia Recuperação da Informação Ciclo de realimentação onde uma consulta q recebida do usuário é transformada em uma consulta modificada
Leia maisRACIOCÍNIO BASEADO EM CASOS APLICADO PARA AUXÍLIO NA SELEÇÃO DE CURSOS DO INSTITUTO FEDERAL CATARINENSE
RACIOCÍNIO BASEADO EM CASOS APLICADO PARA AUXÍLIO NA SELEÇÃO DE CURSOS DO INSTITUTO FEDERAL CATARINENSE. Autores: Munyque MITTELMANN, Daniel Gomes SOARES. Identificação autores: Acadêmica do IFC-Rio do
Leia maisBanco de Dados Profa. Dra. Cristina Dutra de Aguiar Ciferri. Banco de Dados Processamento e Otimização de Consultas
Processamento e Otimização de Consultas Banco de Dados Motivação Consulta pode ter sua resposta computada por uma variedade de métodos (geralmente) Usuário (programador) sugere uma estratégia para achar
Leia mais4 Testes e experimentos realizados 4.1. Implementação e banco de dados
32 4 Testes e experimentos realizados 4.1. Implementação e banco de dados Devido à própria natureza dos sites de redes sociais, é normal que a maior parte deles possua uma grande quantidade de usuários
Leia maisRecuperação de informação em documentos XML
Recuperação de informação em documentos XML Desde 2000, quando aconteceu o primeiro workshop sobre XML e Recuperação de Informação, este tema tem estado presente nas conferências ACM SIGIR, mostrando o
Leia maisGestão e Recuperação de Informação. Avaliação em Sistemas de Recuperação de Informação. José Borbinha DEI/IST
Gestão e Recuperação de Informação Avaliação em Sistemas de Recuperação de Informação José Borbinha DEI/IST Problema: Como avaliar um sistema de RI? 2 Comecemos, analisando um exemplo... 3 Exemplo... 4
Leia maisMineração de Textos na Web
Mineração de Textos na Web Luciano Antonio Digiampietri Escola de Artes Ciências e Humanidades da Universidade de São Paulo digiampietri@usp.br Resumo: Com o crescimento das informações disponíveis na
Leia maisModelo Probabilístico
Wendel Melo Faculdade de Computação Universidade Federal de Uberlândia Recuperação da Informação Adaptado do Material da Profª Vanessa Braganholo - IC/UFF Proposto em 1976 por Roberstson e Sparck Jones;
Leia maisModelagem de Sistemas Web. Modelagem de BD
Modelagem de Sistemas Web Aula 9 Modelagem de BD OBS: Pré-requisito: noções intermediárias em BD e de modelo ER Fonte: Proj. e Mod. BD 4/E Capítulo: Análise de Req. E Mod. Dados Conceit. - Toby Teorey
Leia maisCP Compiladores I Prof. Msc.. Carlos de Salles
CP 5017.9 Prof. Msc.. Carlos de Salles 1 - EMENTA O Processo de Compilação. Deteção e Recuperação de Erros. Introdução à geração de Código Intermediário. Geração de Código de Máquina. Otimização. Uma visão
Leia maisIntrodução a Ciência da Computação Estrutura e Organização das Informações PROFESSORA CINTIA CAETANO
Introdução a Ciência da Computação Estrutura e Organização das Informações PROFESSORA CINTIA CAETANO Introdução A qualidade do armazenamento dos dados, permitem uma melhor extração de informações, e consequentemente,
Leia mais4. Algoritmos de Busca em Vetores
Introdução à Computação II 5952011 4. Algoritmos de Busca em Vetores Prof. Renato Tinós Local: Depto. de Computação e Matemática (FFCLRP/USP) 1 Principais Tópicos 4.1. Introdução 4.2. Busca Linear 4.2.1.
Leia maisGSI024 - Organização e Recuperação da
GSI024 - Organização e Recuperação da Informação Ilmério Reis da Silva ilmerio@facom.ufu.br Arquivo 7 - Avaliação GSI024-ORI Pg:7. 1 Sumário de resultados Tornando os resultado úteis ao usuário Como avaliar
Leia maisFormas de Gerência de Dados XML
Bancos de Dados XML Formas de Gerência de Dados XML SGBDRs estendidos com suporte à XML adequados a dados XML fortemente estruturados ( documentos orientados a registros ) beira-mar104apto
Leia maisespecificação por meio de exemplos não é garantia de corretude, mas a experiência mostra que tende a ser melhor do que o estado da prática hoje
1 Introdução Testar é o conjunto de tarefas ou passos executados para verificar se um produto ou serviço atende à sua proposta. Dessa forma, a execução de testes em um programa contribui para a melhoria
Leia maisINE BDNC. Bancos de Dados XML
INE 661300 - BDNC Bancos de Dados XML Formas de Gerência de Dados XML SGBDRs estendidos com suporte à XML adequados a dados XML fortemente estruturados ( documentos orientados a registros )
Leia maisOrganizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU
Organizaçãoe Recuperaçãode Informação GSI521 Prof. Dr. Rodrigo Sanches Miani FACOM/UFU Realimentaçãode relevânciae expansão de consultas Organização e Recuperação de Informação(GSI521) Realimentação de
Leia maisIntrodução. descrever os tipos de interfaces e linguagens oferecidas por um SGBD. mostrar o ambiente de programas dos SGBD s
Introdução Contribuição do Capítulo 2: discutir modelos de dados definir conceitos de esquemas e instâncias descrever os tipos de interfaces e linguagens oferecidas por um SGBD mostrar o ambiente de programas
Leia maisBanco de Dados e Aplicações em Negócios: Introdução.
Banco de Dados e Aplicações em Negócios: Introdução evandro@usp.br Motivação Extenso uso de Banco de Dados (BD) no cotidiano Bancos, serviços, comércio em geral (comércio eletrônico) Web e seus serviços
Leia maisGSI024 - Organização e Recuperação da
GSI024 - Organização e Recuperação da Informação Ilmério Reis da Silva ilmerio@facom.ufu.br UFU/FACOM/BSI Arquivo 6 - Modelo Vetorial GSI024-ORI Pg:6. 1 Ranking baseado no modelo vetorial Considerações
Leia maisa determinadas condições de uso. Este mecanismo permite, ainda, a integração de domínios externos. A descrição da interface é feita de forma
120 5 Conclusão Este trabalho propõe uma arquitetura para adaptação e meta-adaptação de Sistemas Hipermídia. Com a adaptação, a utilização de sistemas hipermídia se torna mais eficaz evitando que a quantidade
Leia maisSISTEMA PARA RECUPERAÇÃO DE INFORMAÇÃO DE DOWNLOADS DE SOFTWARES
SISTEMA PARA RECUPERAÇÃO DE INFORMAÇÃO DE DOWNLOADS DE SOFTWARES Elzo Soares Pereira Filho, Matheus Rossi de Oliveira Costa, Vinícius Lobo Silva, Luciene Chagas de Oliveira, UNIUBE Universidade de Uberaba
Leia maisIntrodução a Teste de Software
Universidade Católica de Pelotas Tecnólogo em Análise e Desenvolvimento de Sistemas Disciplina de Qualidade de Software Introdução a Teste de Software Prof. Luthiano Venecian 1 Conceitos Teste de software
Leia maisIdentificação de Pontos Perceptualmente Importantes (PIP) em séries temporais de tópicos extraídos de dados textuais
Universidade de São Paulo Biblioteca Digital da Produção Intelectual - BDPI Departamento de Ciências de Computação - ICMC/SCC Comunicações em Eventos - ICMC/SCC 2015 Identificação de Pontos Perceptualmente
Leia mais4 Recuperação de Informação
4 Recuperação de Informação No presente capítulo são apresentados os fundamentos da área de Recuperação de Informação utilizados em Mineração de Textos, como por exemplo, os modelos de representação de
Leia maisSOFTWARE REQUIREMENTS
SOFTWARE REQUIREMENTS Ian Sommerville, 8º edição Capítulo 6 Aula de Luiz Eduardo Guarino de Vasconcelos O que é um requisito? Pode variar de uma declaração abstrata de alto nível de um serviço ou de uma
Leia maisRecuperação de Imagens Digitais com Base na Distribuição de Características de Baixo Nível em Partições do Domínio Utilizando Índice Invertido
Recuperação de Imagens Digitais com Base na Distribuição de Características de Baixo Nível em Partições do Domínio Utilizando Índice Invertido Autor: Patrícia Aparecida Proença 1, Orientador: Ilmério Reis
Leia mais5 Conclusão e trabalhos futuros
5 Conclusão e trabalhos futuros Neste capítulo fazemos uma retrospectiva do trabalho realizado, uma avaliação da proposta de solução de integração de dados ou conhecimentos mostrada na dissertação e também
Leia maisConsultas por Similaridade em Domínios de Dados Complexos
Consultas por Similaridade em Domínios de Dados Complexos Guilherme Felipe Zabot Orientador: Profº Dr Caetano Traina Jr Roteiro Objetivo Introdução Dados Complexos Representação de Dados Complexos Extração
Leia maisAula 2: Planejamento da RS
Universidade de São Paulo Instituto de Ciências Matemática e de Computação SSC 5905 - Revisão Sistemática Aula 2: da RS Profa. Dra. Elisa Yumi Nakagawa 1. Semestre de 2013 Processo de Revisão Sistemática
Leia maisUNIVERSIDADE FEDERAL DE SÃO CARLOS CAMPUS SOROCABA BACHARELADO EM CIÊNCIA DA COMPUTAÇÃO. Orientações para Projeto
UNIVERSIDADE FEDERAL DE SÃO CARLOS CAMPUS SOROCABA BACHARELADO EM CIÊNCIA DA COMPUTAÇÃO Orientações para Projeto Disciplina: Laboratório de Banco de Dados Período: 1S/2012 Estas orientações estão relacionadas
Leia maisAlgoritmos e Estruturas de Dados II. Trabalho Prático 4
Algoritmos e Estruturas de Dados II Trabalho Prático 4 Entrega: 23/11/09 Devolução: 10/12/09 (sem possibilidade de entrega com atraso) Trabalho em dupla Prof. Jussara Marques de Almeida Problema 1: Construção
Leia maisNivio Ziviani. Conjunto de transparências elaborado por Nivio Ziviani, Patrícia Correia e Fabiano C. Botelho
Tópicos em Recuperação de Informação 1 Nivio Ziviani 1 Conjunto de transparências elaborado por Nivio Ziviani, Patrícia Correia e Fabiano C. Botelho Tópicos em Recuperação de Informação - Nivio Ziviani
Leia maisPré-Processamento de Documentos
Pré-Processamento de Documentos Introdução Pré-Processamento : Análise léxica; Stopwords; Stemming; Vocabulário; Thesaurus Compressão: Fundamentos; Método Estatístico; Método Dicionário; Arquivos Invertidos
Leia maisINF1013 MODELAGEM DE SOFTWARE
INF1013 MODELAGEM DE SOFTWARE Departamento de Informática PUC-Rio Ivan Mathias Filho ivan@inf.puc-rio.br Programa Capítulo 1 O Paradigma Orientado a Objetos A Linguagem UML Descrição da Arquitetura 1 Programa
Leia maisTécnicas de recuperação de informação: filtragem, agrupamento
Técnicas de recuperação de informação: filtragem, agrupamento 1 Nome usado para descrever uma variedade de processos envolvendo a entrega de informação para pessoas que precisam dela; Compreende um método
Leia maisABD Arquivos e Bibliotecas Digitais
ABD Arquivos e Bibliotecas Digitais FEUP, Março de 2010 Parte III A interface dos Arquivos e Bibliotecas Digitais Documentos em ĺınguas diversas Tipos de interrogação Redução de maiúsculas e radicalização
Leia maisCapítulo 7. Expressões e Sentenças de Atribuição
Capítulo 7 Expressões e Sentenças de Atribuição Introdução Expressões são os meios fundamentais de especificar computações em uma linguagem de programação Para entender a avaliação de expressões, é necessário
Leia maisOs efeitos do paralelismo e relações de thesaurus em uma ferramenta de busca em bases textuais
72 Resumos Expandidos: XII Mostra de Estagiários e Bolsistas... Os efeitos do paralelismo e relações de thesaurus em uma ferramenta de busca em bases textuais Renan Gomes Pereira¹ Maria Fernanda Moura²
Leia mais6 Conclusão Contribuições da Dissertação
6 Conclusão Neste trabalho, foi apresentado um sistema colaborativo capaz de controlar as versões das edições de um vídeo no formato MPEG-2, sem que os editores estejam no mesmo local, ao mesmo tempo.
Leia maisJADEX: A BDI REASONING ENGINE. Alexander Pokahr, Lars Braubach e Winfried Lamersdorf Springer US - Multi-Agent Programming 2005 pp.
JADEX: A BDI REASONING ENGINE Alexander Pokahr, Lars Braubach e Winfried Lamersdorf Springer US - Multi-Agent Programming 2005 pp. 149-174 Volume 15 Motivação Existem muitas plataformas para desenvolvimento
Leia maisBIG DATA: UMA INTRODUÇÃO. Prof. Ronaldo R. Goldschmidt
BIG DATA: UMA INTRODUÇÃO Prof. Ronaldo R. Goldschmidt Instituto Militar de Engenharia Seção de Engenharia de Computação (SE/8) ronaldo.rgold@ime.eb.br / ronaldo.rgold@gmail.com 70% 60% 50% 40% 30% 20%
Leia maisGIRS - GENETIC INFORMATION RETRIEVAL SYSTEM - UMA PROPOSTA EVOLUTIVA PARA SISTEMAS DE RECUPERAÇÃO DE INFORMAÇÕES
GIRS - GENETIC INFORMATION RETRIEVAL SYSTEM - UMA PROPOSTA EVOLUTIVA PARA SISTEMAS DE RECUPERAÇÃO DE INFORMAÇÕES - (-) - A recuperação de informação é uma subárea da ciência da computação que estuda o
Leia maisAvaliação de Usabilidade Referências
Avaliação de Usabilidade Referências Avaliação de usabilidade Engenharia de Usabilidade Prof.: Clarindo Isaías Pereira da Silva e Pádua Departamento de Ciência da Computação - UFMG Hix, D.; Hartson, H.
Leia maisModelo Booleano Wendel Melo
Wendel Melo Faculdade de Computação Universidade Federal de Uberlândia Recuperação da Informação Adaptado do Material da Profª Vanessa Braganholo - IC/UFF Modelo simples; Baseado em teoria dos conjuntos
Leia maisOrganizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU
Organizaçãoe Recuperaçãode Informação GSI521 Prof. Dr. Rodrigo Sanches Miani FACOM/UFU Modelosde RI e o ModeloBooleano Organização e Recuperação de Informação(GSI521) Tópicos Modelagem em RI; Caracterização
Leia maisModelo Espaço Vetorial. Mariella Berger
Modelo Espaço Vetorial Mariella Berger Agenda Introdução Atribuição de Pesos Frequência TF-IDF Similaridade Exemplo Vantagens e Desvantagens Modelo Espaço Vetorial Introdução Modelo Espaço Vetorial O modelo
Leia maisIntrodução. Conceitos Básicos. Conceitos Básicos. Conceitos Básicos
Introdução Laboratório de Computação para Ciências Módulo II Prof. Guilherme Tavares de Assis Universidade Federal de Ouro Preto UFOP Instituto de Ciências Exatas e Biológicas ICEB Mestrado Profissional
Leia mais6 Inserção Seletiva de Nulos
6 Inserção Seletiva de Nulos 6.1 Introdução Neste capítulo será apresentado o algoritmo ADDNULLS - Inserção Seletiva de Nulos. Este algoritmo usa a técnica da esteganografia para esconder os símbolos codificados
Leia maisAprendizagem de Máquina
Aprendizagem de Máquina Aprendizagem Baseada em Instâncias Alessandro L. Koerich Mestrado/Doutorado em Informática (PPGIa) Pontifícia Universidade Católica do Paraná (PUCPR) Mestrado/Doutorado em Informática
Leia maisProjeto 1 Java Remote Method Invocation (RMI)
Projeto 1 Java Remote Method Invocation (RMI) Profs. Emilio Francesquini e Fernando Teubl Ferreira {e.francesquini,fernando.teubl}@ufabc.edu.br Centro de Matemática, Computação e Cognição Universidade
Leia maisBancos de Dados NoSQL
Bancos de Dados NoSQL Processamento Analítico de Dados Profa. Dra. Cristina Dutra de Aguiar Ciferri Banco de Dados NoSQL (Not Only SQL) Foco no armazenamento de gigantescos volumes de dados (big data)
Leia maisUniversidade Federal da Paraíba CCEN Departamento de Informática Disciplina: Banco de Dados. Aula 1 Introdução a Banco de Dados
Universidade Federal da Paraíba CCEN Departamento de Informática Disciplina: Banco de Dados Aula 1 Introdução a Banco de Dados 1. Introdução Um Sistema Gerenciador de Banco de Dados (SGBD) é constituído
Leia maisPredição de links em uma rede heterogênea baseada em dados geolocalizados e de relacionamentos
Universidade Federal de Pernambuco Centro de Informática Graduação em Ciência da Computação Predição de links em uma rede heterogênea baseada em dados geolocalizados e de relacionamentos Proposta de Trabalho
Leia mais5 QCDTool: Uma Ferramenta para Avaliar a Qualidade do Design em Modelos
5 QCDTool: Uma Ferramenta para Avaliar a Qualidade do Design em Modelos Este capítulo apresenta a ferramenta desenvolvida para apoiar a aplicação, em diagramas de classes, de mecanismos de análise da qualidade
Leia maisDescoberta de conhecimento em redes sociais e bases de dados públicas
Descoberta de conhecimento em redes sociais e bases de dados públicas Trabalho de Formatura Supervisionado Bacharelado em Ciência da Computação - IME USP Aluna: Fernanda de Camargo Magano Orientadora:
Leia maisPROJETO DE PROGRAMAS. Projeto de Programas PPR0001
PROJETO DE PROGRAMAS Projeto de Programas PPR0001 Desenvolvimento de Software 2 3 Desenvolvimento de Software Análise de Requisitos Distinguir e dividir o sistema em componentes: Analisar os componentes
Leia maisModelagem de Dados MODELAGEM DE DADOS. Sistemas de Banco de Dados. Profa. Rosemary Melo
MODELAGEM DE DADOS Sistemas de Banco de Dados Profa. Rosemary Melo SISTEMAS DE BANCO DE DADOS OBJETIVOS Apresentar os conceitos fundamentais de Sistemas de Banco de Dados. Principais componentes dos SGBDs
Leia mais4 Framework Proposto para Construção de Mediadores
41 4 Framework Proposto para Construção de Mediadores Neste capitulo apresentamos um framework que implementa a estratégia para enriquecimento de dados a partir de informações da Deep Web, descrita no
Leia maisAprendizagem de Máquina
Aprendizagem de Máquina Alessandro L. Koerich Programa de Pós-Graduação em Informática Pontifícia Universidade Católica do Paraná (PUCPR) Aprendizagem Baseada em Instâncias Plano de Aula Introdução Espaço
Leia maisMetamodelos para Banco de Dados. Carlos Julian Menezes Araújo Prof. Dr. Robson do Nascimento Fidalgo
Metamodelos para Banco de Dados Carlos Julian Menezes Araújo cjma@cin.ufpe.br Prof. Dr. Robson do Nascimento Fidalgo 1 Agenda Metadados MDA MOF Metamodelos CWM Pacote Relacional Referências 2 Metadados
Leia maisBCD29008 Banco de dados
BCD29008 Banco de dados Prof. Emerson Ribeiro de Mello Instituto Federal de Santa Catarina IFSC campus São José mello@ifsc.edu.br http://docente.ifsc.edu.br/mello/bcd 21 de fevereiro de 2018 1/24 Apresentação
Leia maisLINGUAGEM, TIPOS DE USUÁRIOS DE SGBD E MODELOS DE DADOS
Fundação Centro de Análise, Pesquisa e Inovação Tecnológica Instituto de Ensino Superior - FUCAPI LINGUAGEM, TIPOS DE USUÁRIOS DE SGBD E MODELOS DE DADOS Disciplina: Banco de Dados Prof: Márcio Palheta,
Leia maisGerência de Projetos e Qualidade de Software. Prof. Walter Gima
Gerência de Projetos e Qualidade de Software Prof. Walter Gima 1 OBJETIVOS Compreender o processo de gerenciamento de qualidade e as principais atividades do processo de garantia, planejamento e controle
Leia maisIntrodução. Conceitos Básicos. Conceitos Básicos. Conceitos Básicos
Conceitos Básicos Introdução Tópicos Especiais Modelagem de Dados Prof. Guilherme Tavares de Assis Universidade Federal de Ouro Preto UFOP Instituto de Ciências Exatas e Biológicas ICEB Mestrado Profissional
Leia maisBanco de Dados. SGBD - Sistema de Gerenciamento de Banco de Dados Parte 2. Prof. Leonardo Vasconcelos
Banco de Dados Parte 2 Prof. Leonardo Vasconcelos - Conceitos e Arquiteturas de SBD Modelos de dados: conjunto de conceitos que podem ser usados para descrever a estrutura de um banco de dados. Permitem
Leia mais2 Versão 1: Funcionalidade Básica e Interface Web
Técnicas de Projeto e Implementação de Sistemas II Descrição do Projeto da Disciplina 1 Introdução O projeto da disciplina consiste na implementação de um sistema de busca de tarifas de passagens aéreas.
Leia mais5 Detalhamento da arquitetura para OnOCs
Detalhamento da arquitetura para OnOCs 95 5 Detalhamento da arquitetura para OnOCs 5.1 Motivação A arquitetura para OnOCs descrita no capítulo anterior foi introduzida para facilitar e agilizar o desenvolvimento
Leia maisModelagem de Dados MODELAGEM DE DADOS. Sistemas de Banco de Dados. Profa. Rosemary Melo
MODELAGEM DE DADOS Sistemas de Banco de Dados Profa. Rosemary Melo SISTEMAS DE BANCO DE DADOS OBJETIVOS Apresentar os conceitos fundamentais de Sistemas de Banco de Dados. Principais componentes dos SGBDs
Leia maisModelo Booleano Wendel Melo
Wendel Melo Faculdade de Computação Universidade Federal de Uberlândia Recuperação da Informação Adaptado do Material da Profª Vanessa Braganholo - IC/UFF Modelo simples; Baseado em teoria dos conjuntos
Leia maisSBC - Sistemas Baseados em Conhecimento
Siglas, Símbolos, Abreviaturas DW - Data Warehouse KDD Knowledge Discovery in Database MD Mineração de Dados OLAP - On-line analytical processing SBC - Sistemas Baseados em Conhecimento 1. INTRODUÇÃO O
Leia maisANÁLISE E DESENVOLVIMENTO DE SISTEMAS TURMA º PERÍODO - 7º MÓDULO AVALIAÇÃO A1 DATA 10/09/2009 ENGENHARIA DE USABILIDADE
ANÁLISE E DESENVOLVIMENTO DE SISTEMAS TURMA 2008 4º PERÍODO - 7º MÓDULO AVALIAÇÃO A1 DATA 10/09/2009 ENGENHARIA DE USABILIDADE 2009/2 GABARITO COMENTADO QUESTÃO 1: 1. Considere as afirmações a seguir:
Leia mais15/03/2018. Professor Ariel da Silva Dias Modelos de Processo de Software
Professor Ariel da Silva Dias Modelos de Processo de Software Conjunto de atividades que leva à produção de um produto de Software [Sommerville,2011]; Podemos contar com ferramentas de apoio com o objetivo
Leia maisINF Projeto de Banco de Dados Plano de ensino
INF01006 - Projeto de Banco de Dados Plano de ensino Carlos A. Heuser 2009/1 1 Identificação Nome do departamento: Informática Aplicada Nome da atividade de ensino: INF01006 - Projeto de Banco de Dados
Leia maisQuinto Trabalho Prático. Este trabalho tem como objetivo indexar arquivos de dados usando um índice árvore-b.
Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação Departamento de Ciências de Computação Disciplina de Algoritmos e Estruturas de Dados II docente Profa. Dra. Cristina Dutra de
Leia maisMINERAÇÃO DE DADOS EM ARQUIVOS DE LOG GERADOS POR SERVIDORES DE PÁGINAS WEB
MINERAÇÃO DE DADOS EM ARQUIVOS DE LOG GERADOS POR SERVIDORES DE PÁGINAS WEB Acadêmico: Leonardo José Correia Orientador: Prof. Ricardo Alencar Azambuja Blumenau, Julho/2004 1 Roteiro Introdução Objetivo
Leia maisP R O J E T O: C A R N A V A L. 2. Informações Básicas sobre o Sistema a ser Desenvolvido
Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação Departamento de Ciências de Computação Disciplina de Banco de Dados Profa. Dra. Cristina Dutra de Aguiar Ciferri P R O J E T
Leia maisPROJETO DE PROGRAMAS. Projeto de Programas PPR0001
PROJETO DE PROGRAMAS Projeto de Programas PPR0001 Desenvolvimento de Software 2 3 Desenvolvimento de Software Análise de Requisitos Distinguir e dividir o sistema em componentes: Analisar os componentes
Leia maisDesenvolvimento de uma ferramenta para organização e gerenciamento de atividades de docentes
Universidade Federal de Uberlândia - UFU Faculdade de Computação Bacharelado em Sistemas de Informação Desenvolvimento de uma ferramenta para organização e gerenciamento de atividades de docentes Rafael
Leia maisApresentação do Capítulo 4 MDA (Model-Driven Archtecture) ALUNO: DOMENICO SCHETTINI FILHO NÚMERO USP:
Apresentação do Capítulo 4 MDA (Model-Driven Archtecture) ALUNO: DOMENICO SCHETTINI FILHO NÚMERO USP: 8429016 Definição de MDA OMG (Object Management Group) propôs uma aplicação abrangente das práticas
Leia maisEspecificação do TP3
Especificação do TP3 Data de Entrega: 21/05/2008 1 Descrição do Problema O problema a ser resolvido neste trabalho é conhecido na literatura como o problema de isomorfismo de sub-grafos Uma definição formal
Leia maisUNIVERSIDADE FEDERAL DE P ERNAMBUCO
UNIVERSIDADE FEDERAL DE P ERNAMBUCO GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO CENTRO DE INFORMÁTICA 2016.1 AutoTestPlan: Uma ferramenta para criação de planos de teste e seleção de casos de teste PROPOSTA DE
Leia maisPALAVRAS-CHAVE: Ortodontia, Análise Facial, Estética.
657 UMA FERRAMENTA COMPUTACIONAL PARA REALIZAÇÃO DE ANÁLISE FACIAL Raphael Silva Marques¹; Michele Fúlvia Angelo² 1. Bolsita PIBIC/CNPq, Graduando em Engenharia de Computação, Universidade Estadual de
Leia maisMaquetes Tridimensionais Interativas
XVIII ENIC - Encontro Nacional de Iniciação Científica da UFPB Maquetes Tridimensionais Interativas Eduardo L. Falcão e Liliane S. Machado Sumário 1. Objetivos Gerais 2. Objetivos Específicos 3. Campus
Leia maisDESCOBERTA DO CONHECIMENTO COM O USO DE TEXT MINING APLICADA AO SAC TEXT MINING. Aluno José Lino Uber. Orientador Paulo Roberto Dias
DESCOBERTA DO CONHECIMENTO COM O USO DE TEXT MINING APLICADA AO SAC TEXT MINING Aluno José Lino Uber Orientador Paulo Roberto Dias Dezembro/2004 Roteiro Introdução Objetivo Conceitos Motivação / Tipos
Leia mais2 O Modelo: SetModel. 2.1 Modelo de Informação
O Modelo: SetModel 2 O Modelo: SetModel 2.1 Modelo de Informação Modelo de informação é uma representação abstrata e formal de entidades incluindo suas propriedades, relações e operações que podem ser
Leia maisCOMPILADORES. Análise semântica. Prof. Geovane Griesang Universidade de Santa Cruz do Sul UNISC Departamento de informática
Universidade de Santa Cruz do Sul UNISC Departamento de informática COMPILADORES Análise semântica Parte 01 Prof. geovanegriesang@unisc.br Sumário Data 18/11/2013 Análise sintática Parte 01 25/11/2013
Leia mais