Armazenamento de Dados XML em SGBDs. Agenda



Documentos relacionados
Armazenamento de Documentos XML em SGBDs Objeto-Relacionais. Vanessa Braganholo

Armazenamento de Documentos XML. Vanessa Braganholo

Dados Semi-Estruturados e XML

Dado: Fatos conhecidos que podem ser registrados e têm um significado implícito. Banco de Dados:

PEER DATA MANAGEMENT SYSTEM

Evolução. Tópicos. Bancos de Dados - Introdução. Melissa Lemos. Evolução dos Sistemas de Informação Esquemas Modelos. Características de SGBDs

INF Projeto de Banco de Dados Plano de ensino

Dados Semi-Estruturados e XML. Alberto Laender - DCC/UFMG

Banco de Dados. Aula 1 - Prof. Bruno Moreno 16/08/2011

INE 5336 Banco de Dados II

Usando Visões SQL/XML para publicação de Dados Relacionais

INTRODUÇÃO E CONCEITOS BÁSICOS. Prof. Ronaldo R. Goldschmidt

Disciplina: Tecnologias de Banco de Dados para SI s

Para construção dos modelos físicos, será estudado o modelo Relacional como originalmente proposto por Codd.

MOR: Uma Ferramenta para o Mapeamento Objeto-Relacional em Java

Uma Abordagem para o Armazenamento de Documentos XML Ativos Cláudio Ananias Ferraz 1 Orientação: Vanessa de Paula Braganholo 2, Marta Mattoso 1

Arquitetura de Banco de Dados

08/04/2013. Agenda. O Sistema CACHÉ. O Sistema CACHÉ. O Sistema CACHÉ. O Sistema CACHÉ

Interoperabilidade entre Bancos de Dados Relacionais e Bancos de Dados NoSQL

Análise comparativa sobre bases de dados para armazenamento e consulta de dados não estruturados no formato JSON.

SISTEMA GERENCIADOR DE BANCO DE DADOS

Roteiro 2 Conceitos Gerais

INE 5432 Banco de Dados II

INE 5616 Banco de Dados II

CONSULTANDO VISÕES XML DE BANCOS DE DADOS OBJETO-RELACIONAIS

INTRODUÇÃO. Enfoque abstrato. Enfoque Intermediário

Tipos de dados complexos e objectos Tipos de dados estruturados e herança em SQL Herança de tabelas Matrizes e multi-conjuntos em SQL Identidade de

INF220 - Banco de Dados I

Bancos de Dados. Conceitos F undamentais em S is temas de B ancos de Dados e s uas Aplicações

Sistema de Bancos de Dados. Conceitos Gerais Sistema Gerenciador de Bancos de Dados

XML e Banco de Dados. Prof. Daniela Barreiro Claro DCC/IM/UFBA

BANCO DE DADOS II. (Projeto Final)

Introdução e motivação SGBD XML Nativo Consultas em SGBDs XML Prática. Bancos de dados XML. Conceitos e linguagens de consulta

XVersioning - Uma Ferramenta para Versionamento de Esquemas XML

XML & Banco de Dados

Consultas sobre visões XML globais de Bases de Dados Distribuídas

PLANO DE ENSINO. PRÉ-REQUISITO: Modelagem e Programação Orientada a Objetos. PROFESSOR RESPONSÁVEL : Josino Rodrigues Neto

Hoje é inegável que a sobrevivência das organizações depende de dados precisos e atualizados.

XDocValidator: Uma Interface Gráfica Para Atualização e Validação Incremental de Documentos XML

Pollyanna Gonçalves. Seminário da disciplina Banco de Dados II

Banco de Dados Aula 1 Introdução a Banco de Dados Introdução Sistema Gerenciador de Banco de Dados

Tutorial. Introdução ao XML e tecnologias associadas. Aplicações e dialectos XML. Sessão Fevereiro XATA 06

Modelagem de dados e uso do SGBD MySQL

? O SQL SERVER é um sistema de gerenciamento de banco de dados relacional que foi desenvolvido inicialmente pela Microsoft em parceria com a Sybase.

HIBERNATE EM APLICAÇÃO JAVA WEB

GERÊNCIA DE DADOS SEMI ESTRUTURADOS - XQUERY. Prof. Angelo Augusto Frozza

05/06/2012. Banco de Dados. Gerenciamento de Arquivos. Gerenciamento de Arquivos Sistema Gerenciador de Banco de Dados Modelos de Dados

HadoopDB. Edson Ie Serviço Federal de Processamento de Dados - SERPRO

GERÊNCIA DE DADOS SEMIESTRUTURADOS -XML. Prof. Angelo Augusto Frozza, M.Sc.

Banco de Dados para Redes. Cassio Diego cassiodiego.com/bdr

UFG - Instituto de Informática

Revisitando Técnicas de Bancos de Dados no contexto da Web

Introdução à Banco de Dados. Definição

Sistemas de Gerência de Bancos de Dados. 7 - Outras Arquiteturas para SGBDs SGBDs e a Web

Introdução Banco de Dados

Sumário. Gerência de Dados da Web - DCC922 - Linguagens de Consulta. Características Desejáveis de uma LC/DSE. Linguagens de Consulta

CEFET.PHB - PI. Plano de Ensino. Banco de Dados. Plano de Ensino. Plano de Ensino. Plano de Ensino - Conteúdo. Plano de Ensino - Conteúdo

Gerência de Documentos XML no GOA

NoSQL: UMA RELAÇÃO, NÃO RELACIONAL *

Conteúdo. Disciplina: INF Engenharia de Software. Monalessa Perini Barcellos. Centro Tecnológico. Universidade Federal do Espírito Santo

Programação com acesso a BD. Prof.: Clayton Maciel Costa clayton.maciel@ifrn.edu.br

Banco de Dados. Introdução. João Eduardo Ferreira Osvaldo Kotaro Takai. DCC-IME-USP

GERÊNCIA DE DADOS SEMI ESTRUTURADOS -XML. Prof. Angelo Augusto Frozza, M.Sc.

CENTRO UNIVERSITÁRIO UNA DIRETORIA DE EDUCAÇÃO CONTINUADA, PESQUISA E EXTENSÃO CURSO DE PÓS GRADUAÇÃO ENGENHARIA DE SOFTWARE

Banco de Dados Conceito de Arquitetura

Universidade Federal de Goiás Ciências da Computação Sistemas Operacionais 2

Banco de Dados. Uma coleção de dados relacionados [ELMASRI/NAVATHE]

Banco de Dados I Introdução

Introdução. Conceitos Básicos. Conceitos Básicos. Conceitos Básicos

Banco de Dados Lista de Exercícios 01

Sistemas de Bases de Dados

Banco de Dados I. Introdução. Fabricio Breve

Banco de Dados. Conceitos e Arquitetura de Sistemas de Banco de Dados. Profa. Flávia Cristina Bernardini

Bases de dados semi-estruturadas, XML

Fundamentos dos Sistemas de Informação Organização de Dados e Informações

04/08/2012 MODELAGEM DE DADOS. PROF. RAFAEL DIAS RIBEIRO, MODELAGEM DE DADOS. Aula 2. Prof. Rafael Dias Ribeiro. M.Sc.

PROJETO DE BANCO DE DADOS -INTRODUÇÃO. Prof. Angelo Augusto Frozza, M.Sc.

MODELAGEM DE DADOS. Banco de Dados I. O uso da análise e do projeto Orientados a Objetos atenuou a separação! Unidade I

Banco de Dados 1 Prof. MSc Wagner Siqueira Cavalcante

XVerter: Armazenamento e Consulta de Dados XML em SGBDs

As principais características da abordagem de um banco de dados versus a abordagem de processamento de arquivos são as seguintes:

Diferenças entre Sistemas Gerenciadores de Banco de Dados para GIS - SGBDs

Sistemas de Informações Geográficas. Unidade 4: Arquitetura de SIG Prof. Cláudio Baptista

1. CONCEITOS BÁSICOS DE BD, SBD E SGBD

ARQUITETURA DE UM SISTEMA SPATIO-TEXTUAL. PALAVRAS-CHAVE: banco de dados espaciais, busca spatio-textual. aplicativo.

Roteiro. BCC321 - Banco de Dados I. Conceitos Básicos. Conceitos Básicos. O que é um banco de dados (BD)?

CONCEITOS BÁSICOS. 1. Conceitos básicos de BD, SBD e SGBD BANCO DE DADOS I

E N AT O M O L I N A T O T H

Aula 02 Modelagem de Dados. Banco de Dados. Aula 02 Modelagem de Dados. Superior /2011 Redes Computadores - Disciplina: Banco de Dados -

BANCO DE DADOS DISTRIBUÍDOS e DATAWAREHOUSING

XML (extensible Markup Language)

Modelos. Comunicação com clientes

TEMPTOOL UMA FERRAMENTA PARA A MODELAGEM TEMPORAL DOS DADOS

Sistemas Gerenciadores de Bancos de Dados

Bases de Dados Relacional/Objeto e NoSQL. Cristina C. Vieira Departamento de Engenharia Eletrónica e Informática

Etapas da evolução rumo a tomada de decisão: Aplicações Isoladas: dados duplicados, dados inconsistentes, processos duplicados.

Roteiro. Conceitos e Arquitetura de Sistemas de Banco de Dados. Conceitos e Arquiteturas de Sistemas de Banco de Dados. BCC321 - Banco de Dados I

Transcrição:

Armazenamento de Dados XML em SGBDs Fernanda Baião fernanda.baiao@uniriotec.br Apresentação baseada no material de Humberto José Vieira Junior e Gabriela Ruberg 2006 1 Agenda Introdução Armazenamento de Documentos XML Mapeamento relacional Mapeamento OO Transformação XQuery SQL3 Análise Comparativa Exercício XVerter 2 1

Motivação Documentos XML como troca de informação Armazenamento Arquivos texto SGBDs (Nativos, Relacionais ou baseados em Objetos) Consulta aos dados Conhecimento das linguagens de consulta Conhecimento da estrutura de armazenamento 3 Cenário Analisar estratégias para o armazenamento de documentos XML em SGBDs com pouca ou nenhuma perda semântica Dados estruturados e semi-estruturados em um mesmo sistema Analisar a reconstrução de documentos XML Analisar impactos para o processamento de consultas XQuery em SGBDs 4 2

Referências CHAUDHURI, S. SHIM K. Storage and Retrieval of XML Data using Relational Databases, Tutorial, VLDB 01. Também em ICDE 2003 Ronald Bourret, Native XML Databases, http://www.rpbourret.com/xml/prodsnative.htm Sun Developer Network, Java Architecture for XML Binding (JAXB), http://java.sun.com/webservices/jaxb Vieira, H. XVerter: Armazenamento e Consulta de Dados XML em SGBDs Tese de Mestrado, COPPE/UFRJ, dezembro 2002. Vieira, H., Ruberg, G., Mattoso, M., 2002, "XVerter: Armazenamento e Consulta de Dados XML em SGBDs". In: XVII Simpósio Brasileiro de Banco de Dados (SBBD'2002), pp. 224-238, Gramado, Brasil. 5 Referências FEGARAS, L.,ELMASRI, R., 2001, "Query Engines for Web-Accessible XML Data". In: 27th International Conference on Very Large Data Bases (VLDB'2001), pp. 251-260, Roma, Italy. FLORESCU, D.,KOSSMAN, D., 1999, "Storing and Querying XML Data using an RDBMS". In: IEEE Data Engineering Bulletin, v. 22, pp. 27-34. MANOLESCU, I., FLORESCU, D., KOSSMAN, D., 2001, "Answering XML Queries Over Heterogeneous Data Sources". In: 27th International Conference on Very Large Data Bases (VLDB'2001), pp. 241-250, Roma, Italy. MANOLESCU, I., FLORESCU, D., KOSSMAN, D., et al, 2000, "Agora: Living with XML and Relational". In: 26th International Conference on Very Large Data Bases (VLDB'2000), pp. 623-626, Cairo, Egypt 6 3

Referências RUNAPONGSA, K.,PATEL, J., 2002, "Storing and Querying XML Data in Object- Relational DBMSs". In: International Conference on Extending Database Technology (EDBT'2002) Workshops XMLDM, pp. 266-285, Prague, Czech Republic. SHANMUGASUNDARAM, J., SHEKITA, E., BARR, R., et al, 2000, "Efficiently Publishing Relational Data as XML Documents". In: 26th International Conference on Very Large Data Bases (VLDB'2000), pp. 65-76, Cairo, Egypt. SHANMUGASUNDARAM, J., SHEKITA, E., KIERNAN, J., et al, 2001, "A General Technique for Querying XML Documentos using a Relational Database System". In: Special Interest Group on Management of Data (SIGMOD) Record, v. 30, pp. 20-26. SHANMUGASUNDARAM, J., TUFTE, K., HE, G., et al, 1999, "Relational Databases for Querying XML Documents: Limitations and Opportunities". In: 25th International Conference on Very Large Data Bases (VLDB'1999), pp. 302-314, Edinburgh, Scotland, United Kingdom. 7 Referências TIAN, F., DEWITT, D., CHEN, J., et al, 2002, "The Design and Performance Evaluation of Alternative XML Storage Strategies". In: SIGMOD Record, v. 31. MASATOSHI YOSHIKAWA and TOSHIYUKI AMAGASA, XRel: A Path-Based Approach to Storage and Retrieval of XML Documents Using Relational Databases, ACM TOIT 1(1) 8 4

Armazenamento de Documentos XML Arquivos texto Dados estruturados e semi-estruturados separados Dificuldade de consulta SGBDs XML Nativos Documentos XML sem nenhuma perda Recursos de Gerência de dados (transações, otimização de consultas,...) em evolução SGBDs Tradicionais Dados estruturados e semi-estruturados em um mesmo sistema Aproveitamento das funcionalidades típicas de um SGBD 9 SGBDs XML Nativos Especificamente projetados para armazenar documentos XML Recursos de gerência de dados Transações, segurança, acesso multi-usuário, APIs programáveis, linguagens de consultas,... Índices Índices de valor, estruturais, textos-completos (full-text) Modelo interno de armazenamento baseado em XML Árvores (grafos), e não tabelas Suportam a noção de coleções 10 5

SGBDs XML Nativos - Usos Armazenamento de dados centrados em documentos Linguagens de consulta XML, difíceis de expressar em SQL "Get me all documents in which the third paragraph after the start of the section contains a bold word," Preservam ordem do documento, instruções de processamento, comentários, seções CDATA Integração de dados Evitam mapeamento das fontes de dados para modelo relacional (BDs federados) Maior flexibilidade Lidam melhor com evolução de esquemas Tratam dados não estruturados Domínios em que a estrutura dos dados evolui rapidamente Finanças Bioinformática Outros Transações longas, documentos grandes, etc 11 Qual o Problema? Cenário: receber grandes instâncias de dados XML armazenar, gerenciar, consultar através da XQuery Considerando o uso de SGBDs tradicionais: Como mapear XML para o relacional, relacional-objeto ou objeto? Como reconstruir o documento XML original? Como mapear a consulta XQuery para SQL, OQL? 12 6

How to store Native XML Data? [Shaudhuri e Shim 2001] Usuário provê mapeamento para tabelas relacionais específicas produtos comerciais em geral.. Mapeamento Genérico usuário não define o mapeamento Sem DTD Inferir mapeamento a partir do DTD ou XML Schema Analisar documentos XML e consultas 13 Mapeamento relacional Genérico arco (edge) Universal DTD Inferência 15 7

Documento XML <book> <title> The Calculus </title> <author> Tamer Ozsu </author> <author> Patrick Valduriez </author> <year> 1986 </year> </book> <book> <title> Foundations of Databases </title> <author> Serge Abiteboul </author> <author> <first-name> Rick </first-name> <last-name> Hull </last-name> <author> Victor Vianu </author> <year> 1995 </year> </book> 16 Armazenamento XML: Genérico (Edge) source Ref Val book &o1 dest Ref Source Label Dest title &o2 author author year &o3 &o4 &o5 &o6 The Calculus 1986 [Florescu, Kossman 1999] 17 &o1 book &o2 &o2 title &o3 &o2 author &o4 &o2 author &o5 &o2 year &o6 Val Node Value &o3 The Calculus &o4 &o5 &o6 1986 8

Armazenamento XML: Genérico (Edge) 18 Armaz XML: Genérico (Edge-Tab Unica) 19 9

Mapeamento de Consultas 20 Documento XML de exemplo <!DOCTYPE Dept SYSTEM Dept.dtd > <Dept dept_id= dept1 > <Student student_id= 123 > <Name>St1</Name> <Enroll>CS10</Enroll> <Enroll>CS20</Enroll> </Student> <Student student_id= 124 > <Name>St2</Name> </Student> </Dept> 21 10

Armazenamento XML: Genérico (Edge) 22 Armaz XML: Genérico (Edge-Inlining) 23 11

Armaz XML: Genérico (Edge-Binário) 24 Armaz XML: Genérico (Universal) 25 12

Armaz XML: Genérico (tipo DOM) [Manolescu et al. 2000] 26 Mapeamento a partir do DTD 27 13

Mapeamento a partir do DTD 28 Shared e Hybrid Inlining 29 14

Ex. DTD : SIGMOD Record 30 Ex. Shared Inlining 31 15

Ex. Hybrid Inlining 32 Storing XML: Derive Schema from XML-Schema DTD: <!ELEMENT bib (paper*)> <!ELEMENT paper (author*,title,year)> <!ELEMENT author (firstname, lastname)> Relational Schema: Paper(pid, title, year) Author(aid, pid, fn, ln) Sometimes this is poor. E.g. 80% of papers have <= 2 authors 18% have 3 authors 2% have 4 or more [Christophides et al. 1994, Shanmugasundaram et al. 1999] 33 16

STORED Approach: Mine Data to Derive Schema paper paper paper paper author title year author author title author title author title fn ln fn ln fn ln fn ln Papers1 fn1 ln1 fn2 ln2 title year X X X X X - X X - - X X X X - - X - Papers2 author title X X [Deutsch, Fernandez, Suciu, SIGMOD 99] Use overflow to store the rest (e.g. as blobs) 34 Mapeamento para objetos Genérico: DOM (padrão) Modelo de classes [Fegaras...] Tabela [Tian...] 35 17

Mapeamento para objetos: DOM <cartas> <carta id="1"> <para>joao</para> <de>maria</de> <assunto>viagem</assunto> </carta> <carta id="2"> <para>jane</para> <de>joao</de> <assunto>empresa</assunto> </carta> <bilhete id="1"> <conteudo> <para>maria</para> <de>jane</de> <assunto>carro</assunto> </conteudo> </bilhete> </cartas> AttrImpl <id = 1 > ElementImpl <carta> ElementImpl <para> TextImpl Joao DocumentImpl cartas.xml ElementImpl <cartas> ElementImpl <carta> ElementImpl <de> TextImpl Maria ElementImpl <bilhete> ElementImpl <assunto> TextImpl Viagem 36 Armazenamento de Documentos XML Abordagem de Mapeamento x Vantagens/Desvantagens Caixa Preta Genérica Única Específica 44 Vantagens -Reconstrução total dos documentos -N baixo de estruturas geradas -Esquema independente do documento armazenado -Facilita o processo de tradução -Esquema simples de representação -Mapeamento mais direto -Otimização no acesso a elementos do mesmo tipo Desvantagens -Falta de flexibilidade -Dificuldade de consulta -Restrito ao espaço de memória disponível -Necessidade de conhecimento das estruturas criadas para consulta -Dificuldade de consulta pois há apenas uma única estrutura de dados -Dificuldade de reconstrução total dos documentos -Geração de um n alto de estruturas (muitas junções...) 18

Armazenamento de Documentos XML Modelo de Dados x Vantagens/Desvantagens Vantagens Desvantagens Relacional Baseado em Objetos -Agrupamento físico eficiente das estruturas de dados -Tecnologia amplamente consolidada -Riqueza semântica do modelo OO -Capacidade de representação de herança -Semelhança entre o modelo OO e o XML -Dificuldade de reconstrução total dos documentos -Consultas com número excessivo de junções -Gap semântico entre os modelos Relacional e XML -Algumas diferenças entre a semântica OO e XML 45 Exercício Escolher um documento XML simples Fazer a representação relacional do documento para as diversas abordagens apresentadas: 46 19