II ERB Escola Regional de Banco de ados 6 a 8 de bril de 2006 Passo Fundo - RS SIMILRIE ENTRE OUMENTOS SEMI-ESTRUTUROS Rodrigo Gonçalves Ronaldo dos Santos Mello {rodrigog,ronaldo}@inf.ufsc.br epartamento de Informática e Estatística - INE Universidade Federal de Santa atarina - UFS
Sumário 1. Introdução 2. onceitos e métricas 3. Taxonomia sobre similaridade de dados 4. Estado da arte 5. onsiderações
Introdução Grande quantidade de informação omputadores distribuídos Várias fontes de dados disponíveis WEB Informações duplicadas Integração Máquinas de busca, ambientes de consulta, repositórios de dados, web semântica Quais dados são equivalentes e devem ser integrados?
Introdução ados equivalentes Similaridade Grau de semelhança Métricas iferentes tipos Valores atômicos, tuplas, listas, etc. ocumentos semi-estruturados XML
Introdução XML & Similaridade - ificuldades inamismo do XML mesma informação sob diferentes formas e acordo com o domínio dos dados Tópico em pesquisa atualmente Vários trabalhos na área Revisão sobre o assunto Taxonomia dos trabalhos spectos não solucionados ainda
Sumário 1. Introdução 2. onceitos e métricas 3. Taxonomia sobre similaridade de dados 4. Estado da arte 5. onsiderações
onceitos e Métricas ocumentos semi-estruturados Similaridade pela estrutura Similaridade pelo conteúdo Similaridade pela estrutura e conteúdo
onceitos e Métricas Métricas eterminam o grau de semelhança Geralmente um valor em um espaço métrico Principais categorias relacionadas a documentos semi-estruturados: Espaço Vetorial omparação entre strings omparação entre árvores Séries temporais Freqüência de valores
onceitos e métricas Métricas y Espaço Vetorial B Objetos complexos Várias propriedades x Transformadas em vetores omparações no espaço vetorial istância Euclidiana, etc. z
onceitos e métricas Métricas omparação entre strings istância de edição Seqüência de operações Transformação entre strings usto associado às operações Tipos istância Geral de Edição istância Simples de Edição
onceitos e métricas Métricas omparação entre strings istância de edição Exemplos: 1) asa asas 2) Porduto Produto 3) João S. ampos João Souza ampos 1) Uma inserção custo é 1 2) Uma troca custo é 2; ou uma exclusão e uma inclusão custo é 5. 3) Uma exclusão e quatro inserções custo é 8.
onceitos e métricas Métricas omparação entre Árvores istância de edição Mesmo princípio aplicado às strings Seqüência de operações com custo associado Similaridade representada pelo custo mínimo de transformação de uma árvore em outra
onceitos e métricas Métricas omparação entre Árvores istância de edição exemplo B E E F B B E E E
onceitos e métricas Métricas omparação entre Árvores istância de edição exemplo B E E F B E E E B
onceitos e métricas Métricas omparação entre Árvores istância de edição exemplo B E E F B E E B F B
onceitos e métricas Métricas Séries Temporais ocumento como uma série de tokens ada token tem um valor (pulso) associado Série de pulsos série numérica Sinal (onda) gerado Pulso 140 120 100 80 60 40 20 0 Sinais 1 2 3 4 5 6 7 8 Elementos ocumento 1 ocumento 2
onceitos e métricas Métricas Freqüência de valores Similaridade entre as freqüências dos valores IF Inverse ocument Frequency Exemplo 1) Grupo de Banco de ados da UFS GB 2) UFS - Grupo e Banco e ados 3) GB UFS 1 e 3 são mais similares que 1 e 2
1. Introdução Sumário 2. onceitos e métricas 3. Taxonomia sobre similaridade de dados 4. Estado da arte 5. onsiderações
Taxonomia Organizam-se, neste trabalho, as técnicas de determinação de similaridade em quatro categorias básicas onforme a natureza dos dados manipulados 1. ados simples 2. ados complexos 3. omparação estrutural 4. omparação completa Não se considera a semântica dos dados
Taxonomia ategorias ados simples Valores atômicos Palavras, números, datas, etc. Suporte a métricas mais complexas ados complexos ompostos por dados simples e/ou dados complexos Listas, coleções, tuplas Base dos documentos XML
Taxonomia ategorias omparação estrutural Semelhança estrutural ocumentos similares na apresentação Não se considera o conteúdo Utilizado em técnicas de clusterização de dados
Taxonomia ategorias omparação completa Leva em conta a estrutura e o conteúdo dos documentos ocumentos similares pela informação, não apenas pela forma usto elevado
Sumário 1. Introdução 2. onceitos e métricas 3. Taxonomia sobre similaridade de dados 4. Estado da arte 5. onsiderações
nálise comparativa Trabalho Foco ados e/ou estrutura? Principais métricas [hawathe e Garcia-Molina 1997] ados estruturados Estrutura Edge cover [Broder 1998] Frases e blocos de texto ados shingsem, shingon [Niermann e Jagadish 2002] ocumentos XML Estrutura istância de edição [Melnik et al. 2002] Grafos Estrutura Similarity flooding [arvalho e da Silva 2003] Objetos complexos ados Espaço vetorial [orneles et al. 2004] ados estruturados e semi-estruturados mbos tuplesim, listsim, setsim [Buttler 2004] ocumentos XML mbos Shingles [Weis e Naumann 2004] ocumentos XML Estrutura e/ou dados istância de edição, IF [Flesca et al. 2005] ocumentos XML mbos Série temporal
Sumário 1. Introdução 2. onceitos e métricas 3. Taxonomia sobre similaridade de dados 4. Estado da arte 5. onsiderações
onsiderações finais Similaridade entre documentos semiestruturados é um tópico com muitas questões em aberto poio semântico na comparação Uso de ontologias Melhor estabelecimento da similaridade e relações entre os elementos de um documento Grau de importância de determinados elementos em um domínio omparação de blocos de texto Shingles
onsiderações finais Similaridade entre documentos semiestruturados Questões em berto Plugins bordagem adaptativa onsiderados tipos de dados e estruturas sendo comparados etectar se dois documentos são versões Otimizar a comparação com métricas específicas onsulta aos esquemas dos documentos
onsiderações finais Similaridade entre documentos semiestruturados Questões em berto Estabelecimento de regras Usuário especialista Elementos importantes na comparação Regras para conversão de valores, etc Reorganização dos documentos Facilitar a comparação
onsiderações finais ontribuições do Trabalho Estudo e análise comparativa do estado da arte sobre similaridade entre dados semi-estruturados Taxonomia de técnicas de similaridade escrição de questões em aberto e pesquisas futuras Este trabalho faz parte do projeto IGITEX (financiamento NPq) plataforma de Editoração, Indexação e Busca Personalizada em Bibliotecas igitais projeto conjunto dos grupos de Banco de ados da UFRGS, UFS e UPel Objetivo específico desenvolvimento de uma técnica de determinação de similaridade entre instâncias XML representativas de documentos digitais
omentários?