Documentos relacionados
Similaridade entre documentos semi-estruturados

ESIMILYONTO: UM MÉTODO EFICIENTE PARA OBTENÇÃO DA SIMILARIDADE ENTRE DOCUMENTOS DA WEB SEMÂNTICA

7. Avaliação da Integridade Estrutural de um Guincho Hidráulico Gerenciamento do Risco

textos documentos semi-estruturado

Introdução ao Projeto de Aeronaves. Aula 6 Projeto Conceitual de Aeronaves

EGC Gestão Estratégica da Tecnologia da Informação

Módulo 9 A Avaliação de Desempenho faz parte do subsistema de aplicação de recursos humanos.

UNIDADE I Aula 2 - Introdução aos Sistemas de Comunicação: Diagrama, Elementos e Transmissão da Informação. Fonte: Rodrigo Semente

NORMA BRASILEIRA DE CONTABILIDADE TÉCNICA DO SETOR PÚBLICO NBCT (IPSAS)

E/S CPU. Memória (Instruções e dados) 2 PARADIGMA IMPERATIVO. Instruções e dados. Resultados das operações. Unidade lógica e aritmética

2 Fundamentação Conceitual

ab g IMAGENS DO FUTURO: representações e preocupações das crianças sobre o ambiente Rosalina Gabriel, Ana Moura Arroz e Luzia Cordeiro Rodrigues

Grupo de Banco de Dados da UFSC

Projeto de inovação do processo de monitoramento de safra da Conab

Unidade 8: Padrão MVC e DAO Prof. Daniel Caetano

Recuperação de Informação

Instalações Máquinas Equipamentos Pessoal de produção

OWL-DL Propriedades. Tópicos Especiais em Ontologias UTFPR/CPGEI/Prof. Tacla

Escola de Ciência da Informação ECI/UFMG. Eduardo Ribeiro Felipe

Introdução ao Controlo Numérico Computorizado I Conceitos Gerais

CAPÍTULO 25 COERÊNCIA REGULATÓRIA

TÉCNICAS DE PROGRAMAÇÃO

JinSol, uma interface em Java para solvers lineares.

PROJETO DE REDES

Planejamento Estratégico de TI. Prof.: Fernando Ascani

LÓGICA DE PROGRAMAÇÃO. Professor Celso Masotti

Os botões padrões são encontrados na parte superior esquerda da aplicação. O primeiro botão Portal leva o colaborador à página inicial do Qualitor.

Como foi visto no tópico anterior, existem duas formas básicas para representar uma função lógica qualquer:

Linha de Financiamento do BNDES para Modernização da Administração Tributária e da Gestão dos Setores Sociais Básicos - BNDES PMAT e BNDES PMAT

Pesquisa de Orçamentos Familiares Simplificada - POF Simplificada. 11º Fórum SIPD

Proposta para elaboração de PROJETO DE MOBILIZAÇÃO SOCIAL E FORTALECIMENTO DO SUBCOMITÊ DO SISTEMA LAGUNAR DE JACAREPAGUÁ

7 etapas para construir um Projeto Integrado de Negócios Sustentáveis de sucesso

18º Congresso de Iniciação Científica IMPLEMENTAÇÃO DE UM MODELO DE TESTE DE APLICAÇÕES WEB

ESTEREOSCOPIA INTRODUÇÃO. Conversão de um par de imagens (a)-(b) em um mapa de profundidade (c)

PLATAFORMA MOODLE: POSSIBILIDADES PEDAGÓGICAS NO ENSINO SUPERIOR. Profª Drª Nara Nörnberg Assessora Pedagógica Unisinos EaD

UMA ABORDAGEM BASEADA EM MÉTRICAS DE REDES COMPLEXAS PARA O ESTABELECIMENTO DO GRAU DE INFLUÊNCIA DE TERMOS EM DOCUMENTOS

1 Introdução. Componentes Usuários. Provedor de Serviços. Figura 1.1 Ambiente de oferecimento de serviços

Logística Empresarial. O Produto Logístico Prof. José Correia

APERFEIÇOAMENTO DE PROCEDIMENTOS ESTATÍSTICOS PARA AVALIAÇÃO INSTITUCIONAL ONLINE: IMPLANTAÇÃO DE RELATÓRIOS ARMAZENÁVEIS

Astra LX Frases Codificadas Guia para o processo de Configuração de Frases Codificadas no Programa AstraLX.

FORFAIT: UM PACOTE DIFERENCIADO

Bacharelado em Ciência e Tecnologia Processamento da Informação TESTE DE MESA TESTE DE MESA

Mayalú Tameirão de Azevedo

MICROMASTER 4 Criando funções lógicas (Blocos Livres) no MM420

Apostila da disciplina Introdução à Engenharia de Software Professor: Sandro Melo Faculdades São José Curso de Tecnologia de Sistemas de Informação

Data Mining em Redes Sociais. Felipe Botelho e Pedro Ugioni

MATERIAIS MAGNÉTICOS USADOS EM TRANSFORMADORES E INDUTORES DE BAIXA E ALTA FREQÜÊNCIA

ANÁLISE DOS RESULTADOS DOS PROGRAMAS DE APOIO ÀS PMEs NO BRASIL Resumo Executivo PARA BAIXAR A AVALIAÇÃO COMPLETA:

Compiladores. Geração de Código Intermediário

ACESSIBILIDADE DOS VEÍCULOS DE TRANSPORTE PÚBLICO URBANO POR ÔNIBUS

UNIVERSIDADE FEDERAL DE SANTA MARIA COLÉGIO TÉCNICO INDUSTRIAL DE SANTA MARIA Curso de Eletrotécnica

PROCEDIMENTOS DE AUDITORIA INTERNA

Roteiro para Elaboração de Projetos de Investimento Simplificado

Classificação da imagem (ou reconhecimento de padrões): objectivos Métodos de reconhecimento de padrões

Projeções: leitura recomendada. Aulas 3, 4 e 10 da apostila Telecurso 2000

ANEXO II. (Relacione a(s) Parte(s) e entidades privadas e/ou públicas envolvidas na atividade de projeto e informe os dados para contato no Anexo 1.

LOJAS VIRTUAIS COMPLETAS

Roteiro SENAC. Análise de Riscos. Planejamento do Gerenciamento de Riscos. Planejamento do Gerenciamento de Riscos

Conectividade Social. Massificação MAIO 2011

1 INTRODUÇÃO 1.1 CONCEITO DE PARADIGMAS DE LINGUAGEM DE PROGRAMAÇÃO PARADIGMAS DE LINGUAGEM DE PROGRAMAÇÃO

É importante que nos atenhamos a alguns aspectos importantes sobre banco de dados:

Metadados. 1. Introdução. 2. O que são Metadados? 3. O Valor dos Metadados

PRIORIDADES EM SERVIÇOS E ORGANIZAÇÃO DO TRABALHO. Professora Andréia Ribas rp_andreiaribas@hotmail.com

Visões Ambientais para o Financiamento de Biocombustíveis no Brasil

Contabilidade II Licenciatura em Economia Ano Lectivo 2007/2008. Contabilidade II. CIN - Corporação Industrial do Norte, S.A. 2005

Computador E/S, Memória, Barramento do sistema e CPU Onde a CPU Registradores, ULA, Interconexão interna da CPU e Unidade de controle.

PLATAFORMA DE DESENVOLVIMENTO PINHÃO PARANÁ TABELIÃO INTERFACE ADMINISTRATIVA MANUAL DE PRODUÇÃO

AVALIAÇÃO DA SATISFAÇÃO DOS UTILIZADORES DO CANAL INTERNET AT 2014

Natureza do projeto e contexto

Figura 5 - Workflow para a Fase de Projeto

MÓDULO 2 PLANEJAMENTO LOGÍSTICO ASSOCIADO AO TRANSPORTE

FUNDAMENTAÇÃO TEÓRICA

PRODUÇÃO CARTOGRÁFICA UD 5 CONTROLE DE QUALIDADE

8.1 Planejar o Gerenciamento da Qualidade SAÍDAS

Gerenciamento do ciclo de vida de um documento Simone de Abreu

Especificação Operacional.

Introdução. Capítulo. 1.1 Considerações Iniciais

Apostila de. WordPress. Gustavo Teixeira da Cunha Coelho Henrique Gemignani Passos Lima. 13 de maio de Primeira Edição RC2

APLICAÇÃO DO SOFTWARE ELIPSE E3 NA CENTRAL TÉCNICA DE RECEPÇÃO DE SINAIS DA TV GLOBO DO RIO DE JANEIRO

Internet. Gabriela Trevisan Bacharel em Sistemas de Infomação

Aula II Introdução ao Modelo de Entidade-Relacionamento

A procura de emprego dos Diplomados. com habilitação superior

Qualidade de Software

Energia e Desenvolvimento Humano

ISO 9001: Gestão da Qualidade

CLASSIFICAÇÃO AUTOMÁTICA DE PATENTES COM O MODELO VETORIAL DE REPRESENTAÇÃO DE DOCUMENTOS

DESENVOLVENDO O SISTEMA

Transcrição:

II ERB Escola Regional de Banco de ados 6 a 8 de bril de 2006 Passo Fundo - RS SIMILRIE ENTRE OUMENTOS SEMI-ESTRUTUROS Rodrigo Gonçalves Ronaldo dos Santos Mello {rodrigog,ronaldo}@inf.ufsc.br epartamento de Informática e Estatística - INE Universidade Federal de Santa atarina - UFS

Sumário 1. Introdução 2. onceitos e métricas 3. Taxonomia sobre similaridade de dados 4. Estado da arte 5. onsiderações

Introdução Grande quantidade de informação omputadores distribuídos Várias fontes de dados disponíveis WEB Informações duplicadas Integração Máquinas de busca, ambientes de consulta, repositórios de dados, web semântica Quais dados são equivalentes e devem ser integrados?

Introdução ados equivalentes Similaridade Grau de semelhança Métricas iferentes tipos Valores atômicos, tuplas, listas, etc. ocumentos semi-estruturados XML

Introdução XML & Similaridade - ificuldades inamismo do XML mesma informação sob diferentes formas e acordo com o domínio dos dados Tópico em pesquisa atualmente Vários trabalhos na área Revisão sobre o assunto Taxonomia dos trabalhos spectos não solucionados ainda

Sumário 1. Introdução 2. onceitos e métricas 3. Taxonomia sobre similaridade de dados 4. Estado da arte 5. onsiderações

onceitos e Métricas ocumentos semi-estruturados Similaridade pela estrutura Similaridade pelo conteúdo Similaridade pela estrutura e conteúdo

onceitos e Métricas Métricas eterminam o grau de semelhança Geralmente um valor em um espaço métrico Principais categorias relacionadas a documentos semi-estruturados: Espaço Vetorial omparação entre strings omparação entre árvores Séries temporais Freqüência de valores

onceitos e métricas Métricas y Espaço Vetorial B Objetos complexos Várias propriedades x Transformadas em vetores omparações no espaço vetorial istância Euclidiana, etc. z

onceitos e métricas Métricas omparação entre strings istância de edição Seqüência de operações Transformação entre strings usto associado às operações Tipos istância Geral de Edição istância Simples de Edição

onceitos e métricas Métricas omparação entre strings istância de edição Exemplos: 1) asa asas 2) Porduto Produto 3) João S. ampos João Souza ampos 1) Uma inserção custo é 1 2) Uma troca custo é 2; ou uma exclusão e uma inclusão custo é 5. 3) Uma exclusão e quatro inserções custo é 8.

onceitos e métricas Métricas omparação entre Árvores istância de edição Mesmo princípio aplicado às strings Seqüência de operações com custo associado Similaridade representada pelo custo mínimo de transformação de uma árvore em outra

onceitos e métricas Métricas omparação entre Árvores istância de edição exemplo B E E F B B E E E

onceitos e métricas Métricas omparação entre Árvores istância de edição exemplo B E E F B E E E B

onceitos e métricas Métricas omparação entre Árvores istância de edição exemplo B E E F B E E B F B

onceitos e métricas Métricas Séries Temporais ocumento como uma série de tokens ada token tem um valor (pulso) associado Série de pulsos série numérica Sinal (onda) gerado Pulso 140 120 100 80 60 40 20 0 Sinais 1 2 3 4 5 6 7 8 Elementos ocumento 1 ocumento 2

onceitos e métricas Métricas Freqüência de valores Similaridade entre as freqüências dos valores IF Inverse ocument Frequency Exemplo 1) Grupo de Banco de ados da UFS GB 2) UFS - Grupo e Banco e ados 3) GB UFS 1 e 3 são mais similares que 1 e 2

1. Introdução Sumário 2. onceitos e métricas 3. Taxonomia sobre similaridade de dados 4. Estado da arte 5. onsiderações

Taxonomia Organizam-se, neste trabalho, as técnicas de determinação de similaridade em quatro categorias básicas onforme a natureza dos dados manipulados 1. ados simples 2. ados complexos 3. omparação estrutural 4. omparação completa Não se considera a semântica dos dados

Taxonomia ategorias ados simples Valores atômicos Palavras, números, datas, etc. Suporte a métricas mais complexas ados complexos ompostos por dados simples e/ou dados complexos Listas, coleções, tuplas Base dos documentos XML

Taxonomia ategorias omparação estrutural Semelhança estrutural ocumentos similares na apresentação Não se considera o conteúdo Utilizado em técnicas de clusterização de dados

Taxonomia ategorias omparação completa Leva em conta a estrutura e o conteúdo dos documentos ocumentos similares pela informação, não apenas pela forma usto elevado

Sumário 1. Introdução 2. onceitos e métricas 3. Taxonomia sobre similaridade de dados 4. Estado da arte 5. onsiderações

nálise comparativa Trabalho Foco ados e/ou estrutura? Principais métricas [hawathe e Garcia-Molina 1997] ados estruturados Estrutura Edge cover [Broder 1998] Frases e blocos de texto ados shingsem, shingon [Niermann e Jagadish 2002] ocumentos XML Estrutura istância de edição [Melnik et al. 2002] Grafos Estrutura Similarity flooding [arvalho e da Silva 2003] Objetos complexos ados Espaço vetorial [orneles et al. 2004] ados estruturados e semi-estruturados mbos tuplesim, listsim, setsim [Buttler 2004] ocumentos XML mbos Shingles [Weis e Naumann 2004] ocumentos XML Estrutura e/ou dados istância de edição, IF [Flesca et al. 2005] ocumentos XML mbos Série temporal

Sumário 1. Introdução 2. onceitos e métricas 3. Taxonomia sobre similaridade de dados 4. Estado da arte 5. onsiderações

onsiderações finais Similaridade entre documentos semiestruturados é um tópico com muitas questões em aberto poio semântico na comparação Uso de ontologias Melhor estabelecimento da similaridade e relações entre os elementos de um documento Grau de importância de determinados elementos em um domínio omparação de blocos de texto Shingles

onsiderações finais Similaridade entre documentos semiestruturados Questões em berto Plugins bordagem adaptativa onsiderados tipos de dados e estruturas sendo comparados etectar se dois documentos são versões Otimizar a comparação com métricas específicas onsulta aos esquemas dos documentos

onsiderações finais Similaridade entre documentos semiestruturados Questões em berto Estabelecimento de regras Usuário especialista Elementos importantes na comparação Regras para conversão de valores, etc Reorganização dos documentos Facilitar a comparação

onsiderações finais ontribuições do Trabalho Estudo e análise comparativa do estado da arte sobre similaridade entre dados semi-estruturados Taxonomia de técnicas de similaridade escrição de questões em aberto e pesquisas futuras Este trabalho faz parte do projeto IGITEX (financiamento NPq) plataforma de Editoração, Indexação e Busca Personalizada em Bibliotecas igitais projeto conjunto dos grupos de Banco de ados da UFRGS, UFS e UPel Objetivo específico desenvolvimento de uma técnica de determinação de similaridade entre instâncias XML representativas de documentos digitais

omentários?