Gestão e Tratamento de Informação. 1º Semestre 2011/2012 DEI IST

Documentos relacionados
Dados Semi-Estruturados e XML

Apresentação. Licenciatura em Engenharia Informática e de Computadores Computação Gráfica

MEIC: especialização em Sistemas de Informação. Quase Tudo Sobre o MEIC, 2017

XSLT e recursividade estrutural. Gestão e Tratamento de Informação DEI IST

Sistemas Distribuídos

Sistemas Distribuídos

Gerência de Dados da Web

UNIVERSIDADE LUSÍADA DE LISBOA. Programa da Unidade Curricular PROGRAMAÇÃO OPTIMIZADA PARA BASES DE DADOS Ano Lectivo 2011/2012

Gerência de Dados Semi- Estruturados

Tópicos. Apresentando a família XML HTML HTML. XML extesible Markup Language. Problemas com o HTML

INSTITUTO SUPERIOR TÉCNICO Gestão e Tratamento de Informação

Sumário. Gerência de Dados da Web - DCC922 - Linguagens de Consulta. Características Desejáveis de uma LC/DSE. Linguagens de Consulta

Introdução XML. Vanessa Braganholo

Apresentação da Unidade Curricular 2012/13

Apresentação. Licenciatura em Engenharia Informática e de Computadores Computação Gráfica

Programação. MEAer e LEE. Apresentação. Bertinho Andrade da Costa. Instituto Superior Técnico. 2010/2011 1º Semestre

Desenvolvimento de Aplicações Web I

Gerência de Dados Semiestruturados. Vanessa Braganholo

Linguagens de interrogação de dados XML - XPath. Gestão e Tratamento de Informação DEI IST

Gerência de Dados da Web

Dados Semi-Estruturados e XML. Alberto Laender - DCC/UFMG

Dados Semi-Estruturados e XML

Tópicos Especiais em Ciência da Computação: Gerência de Dados da Web DCC851 Introdução

Estrutura de Dados e Algoritmos

Introdução da disciplina Tópicos de Investigação

Arquitectura de Computadores

Sistemas Digitais LETI, LEE (2016/17 1º Sem.)

Ficha da Unidade Curricular

Protótipo de um sistema para elaboração e manutenção de um manual da qualidade usando tecnologia XML e Docbook

Sistemas Digitais LETI, LEE (2014/15 1º Sem.)

Reformulação de Consultas em Sistemas de Integração de Dados baseados em XML

UNIVERSIDADE LUSÍADA DE LISBOA. Programa da Unidade Curricular INTELIGÊNCIA ARTIFICIAL Ano Lectivo 2017/2018

INF Projeto de Banco de Dados Plano de ensino

Computação e Programação. MEMec - LEAN 1º Semestre

Evento: XXV SEMINÁRIO DE INICIAÇÃO CIENTÍFICA

Análise e Síntese de Algoritmos.

DOSSIER DA DISCIPLINA

PLANO DE ENSINO DA DISCIPLINA BLOCO I IDENTIFICAÇÃO

SM Sistemas Multimédia. 4.º / 6.º semestre LEIC (verão 2015/2016)

GUIA DE FUNCIONAMENTO DA UNIDADE CURRICULAR

Gestão e Tratamento de Informação 1º semestre

GUIA DE FUNCIONAMENTO DA UNIDADE CURRICULAR

SM Sistemas Multimédia. 4.º / 6.º semestre LEIC (verão 2014/2015)

Gestão e Tratamento de Informação

English version at the end of this document

Objectivos da disciplina e motivação Funcionamento da disciplina Aulas teóricas Aulas de laboratório Aulas de dúvidas

Sistemas Operativos 2012 /

English version at the end of this document

TELEMÉDIA. Licenciatura em Comunicação Social 4º ano 2006/2007

Motivação. Apresentação. Paulo Marques Departamento de Eng. Informática Universidade de Coimbra

Atualização Automática de Web Sites Complexos

Sistemas Operativos /

Corpo Docente Aulas Teóricas

Redes de Telecomunicações

Gerência de Dados da Web

Gerência de Dados da Web

English version at the end of this document

Plano da Unidade Curricular

Corpo Docente. Algoritmos e Estruturas de Dados LEE 2014/ /02/15. Apresentação. } Fernando Mira da Silva

Sistemas Operativos. 2017/2018 1º Semestre

AED Algoritmos e Estruturas de Dados LEE /2004

Arquitetura Técnica de Sistemas. Obrigatória CURRICULAR. Informação Empresarial Opcional

MPE(S)- Metodologias de Planeamento e Escalonamento Planning and Scheduling Methodologies

CONSULTANDO VISÕES XML DE BANCOS DE DADOS OBJETO-RELACIONAIS

Sistemas de Tempo Real

Matemática Aplicada. EACI, EEC e EM 2/1 2015/2016 Matemática DMat

Plano de Estudos. Escola: Instituto de Investigação e Formação Avançada Grau: Programa de Doutoramento Curso: Informática (cód.

Plano da Unidade Curricular

Um modelo por si próprio não pode realizar qualquer unidade de trabalho útil. É apenas uma representação da realidade.

Plano da Unidade Curricular

Gestão e Tratamento de Informação 1º semestre

D-DAY & D-DEI Ensino Horizontal

Carreiras. Luis M. Correia. Portfólio

Processamento de consultas XQuery usando Prolog

UNIVERSIDADE LUSÍADA DE LISBOA. Programa da Unidade Curricular TEORIA DA COMPUTAÇÃO Ano Lectivo 2017/2018

REGULAMENTO GERAL DE AVALIAÇÃO DE CONHECIMENTOS DAS LICENCIATURAS

Plano da Unidade Curricular

Sistemas Empresariais Integrados

Carreiras. Luis M. Correia. Portfólio

Disciplina de Química Orgânica

Rui Carneiro, Rui Pereira, Tiago Orfão

Termodinâmica I. Ano Lectivo 2015/16. Prof. Edgar C. Fernandes

Obtendo Interoperabilidade Semântica em Sistemas. Metamorphosis

SISTEMAS DISTRIBUÍDOS

Plano da Unidade Curricular

Introdução de XML. Dados da Web. Gerência de Dados da Web. A Web representa, nos dias de hoje, um repositório universal de dados, onde:

Gestão de Redes e de Sistemas Distribuídos

Redes Neurais (Inteligência Artificial)

AED Algoritmos e Estruturas de Dados LEEC /2006. Apresentação

Introdução da disciplina Tópicos de Investigação

UNIVERSIDADE LUSÍADA DE LISBOA. Programa da Unidade Curricular SISTEMAS MULTIMÉDIA Ano Lectivo 2010/2011

UNIVERSIDADE LUSÍADA DE LISBOA. Programa da Unidade Curricular OFICINA DE MULTIMÉDIA DIGITAL Ano Lectivo 2012/2013

MEIC Ano Lectivo de 2017/18

XML - Extensible Markup Language

Disciplina de Química Orgânica

GUIA DE FUNCIONAMENTO DA UNIDADE CURRICULAR

GUIA DE FUNCIONAMENTO DA UNIDADE CURRICULAR

Transcrição:

Gestão e Tratamento de Informação 1º Semestre 2011/2012 DEI IST

Corpo docente Helena Galhardas responsável Alameda docente teóricas Pável Calado responsável Tagus docente teóricas Bruno Martins docente teóricas e laboratório

Enquadramento Tecnologia dos Sistemas de Informação: Bases de Dados (3º ano) Sistemas Empresariais Integrados (4º ano) Sistemas de Apoio à Decisão (4º ano) Gestão e Tratamento de Informação (4º ano) Administração e Optimização de Bases de Dados (5º ano, opção)

Organização das aulas Aulas teóricas Aulas de laboratório Grupos de três elementos inscrições na página da cadeira no Fénix iniciam-se 12/9 Apoio no software a ser utilizado SW open-source Apoio na resolução dos mini-projectos

Avaliação (1) Exame (60%, n. min. 9,5 v) 16/1/2012 2/2/2012 4 Mini-Projectos (40%, n. min. 9,5 v) Enunciado é distribuído na aula teórica Alunos têm cerca de 2/3 semanas para resolver Entrega dos alunos efectuada no Fénix Conteúdo: uma parte teórica/prática e outra de SW Se a diferença entre a nota de exame e a média dos 4 projectos fôr >= 5 valores, o aluno será convocado para uma discussão oral.

Avaliação (2) Alunos com estatuto de trabalhador estudante podem optar por fazer só o exame, valendo 100% da nota final. A decisão do aluno terá que ser tomada até à 1ª entrega do projecto e é definitiva. Assume-se que, uma vez feita a 1ª entrega, o aluno optou por considerar ambas as componentes. Alunos com acesso à época especial podem optar por fazer só o exame de época especial, valendo 100% da nota final.

Calendário Mini-Projectos (entregas) MP1: 14/10 MP2: 4/11 MP3: 25/11 MP4: 16/12

Aulas de dúvidas Bruno Martins 2ªf -11:00-12:30 (Alameda, sala dúvidas Pav Informática I) 5ªf - 11:00-12:30 (TagusPark - 2N5-17) Helena Galhardas / Pável Calado 3ªf -14:00-15:30 (Alameda, sala dúvidas Pav Informática I) 6ªf -15:00-16:30 (TagusPark, 2N7.1)

Programa Gestão de dados XML (Bruno Martins) Linguagens de interrogação e modificação: XPath, XSLT, XQuery, XQuery Update SW: Qizx XQuery Engine Extracção de Informação (Pável Calado) Extracção de dados da Web Técnicas de extracção de informação a partir de texto Hidden Markov Models SW: LingPipe Integração de dados e esquema (Helena Galhardas) Global-as-view vs local-as-view Mediadores e wrappers Sistemas: LSD, TSIMMIS, Information Manifold SW: Qizx XQuery Engine Transformação e limpeza de dados (Helena Galhardas) Discrepâncias de esquemas e dados Detecção e eliminação de duplicados Fusão de informação SW: Qizx XQuery Engine, SimPack

Gestão de dados XML XML é vastamente utilizada como linguagem de troca de dados na Internet DTD, XMLSchema, XPath, XSLT são assuntos já conhecidos (sim?) A linguagem XQuery é a linguagem de interrogação de dados XML que vamos estudar aqui

Extracção de informação 1. Extracção de dados estruturados a partir da Web (docs HTML, XML) 2. Extracção de dados estruturados a partir de texto Tb. conhecido por prospecção de texto (text mining) Desafios da Web: Número grande de fontes de dados Páginas Web devem ser transformadas em dados estruturados Falta de controlo sobre os dados Fontes de dados têm restrições de entrada e saída Natureza distribuída da Web pode tornar a integração de dados muito lenta

Extracção de dados estruturados a partir de texto Como descobrir estrutura em dados não estruturados Exemplo (http://www.imdb.com): Elegant redhead Nicole Kidman, known as one of Hollywood's top Australian imports, was actually born in Honolulu, Hawaii, to Anthony (a biochemist and clinical psychologist) and Janelle (a nursing instructor) Kidman.... Algumas técnicas de aprendizagem automática (Machine Learning) podem ser usadas

Integração de dados e esquema Integrar dados oriundos de múltiplas fontes de dados heterogéneas Desafios: Acesso aos dados Resolver as diferenças existentes ao nível de esquema e dados Executar a integração de forma eficiente

Transformação e limpeza de dados Durante e após a integração, alguns problemas de qualidade dos dados precisam de ser resolvidos Exemplo: Filmes (id, título, realizador, ano, ano_ult_remake) (1 Casablanca Weir 1942 1940) (2 Dead Poets Society Curtiz 1989 -) (3 Rman Holiday Wylder 1953 -) (4 Casblanca Weir 1940 1950)

Bibliografia Grande parte da matéria é coberta pelo livro a editar em 2012: Principles of Data Integration Alon Halevy, Zachary Ives, Anhai Doan Algumas partes da matéria cobertas por artigos Outros livros interessantes: Data on the Web: From Relations to Semistructured Data and XML Serge Abiteboul, Peter Buneman, Dan Suciu Morgan Kaufmann Publishers 2000 (4 ex. Bib IST Tagus) XQuery from the Experts: A Guide to the W3C XML Query Language Howard Katz, Don Chamberlin, Denise Draper, Mary Fernandez, Michael Kay, Jonathan Robie, Michael Rys, Jerome Simeon, Jim Tivy, Philip Wadler Addison-Wesley 2004 (1 ex. Bib IST Tagus) Web Data Mining, 2nd edition Bing Liu Springer 2011 Data Quality: Concepts, Methodologies and Techniques Carlo Batini, Monica Scannapieco Springer 2006 (4 ex. Bib. IST Tagus)

Outras informações Questões?