Gestão e Tratamento de Informação 1º Semestre 2011/2012 DEI IST
Corpo docente Helena Galhardas responsável Alameda docente teóricas Pável Calado responsável Tagus docente teóricas Bruno Martins docente teóricas e laboratório
Enquadramento Tecnologia dos Sistemas de Informação: Bases de Dados (3º ano) Sistemas Empresariais Integrados (4º ano) Sistemas de Apoio à Decisão (4º ano) Gestão e Tratamento de Informação (4º ano) Administração e Optimização de Bases de Dados (5º ano, opção)
Organização das aulas Aulas teóricas Aulas de laboratório Grupos de três elementos inscrições na página da cadeira no Fénix iniciam-se 12/9 Apoio no software a ser utilizado SW open-source Apoio na resolução dos mini-projectos
Avaliação (1) Exame (60%, n. min. 9,5 v) 16/1/2012 2/2/2012 4 Mini-Projectos (40%, n. min. 9,5 v) Enunciado é distribuído na aula teórica Alunos têm cerca de 2/3 semanas para resolver Entrega dos alunos efectuada no Fénix Conteúdo: uma parte teórica/prática e outra de SW Se a diferença entre a nota de exame e a média dos 4 projectos fôr >= 5 valores, o aluno será convocado para uma discussão oral.
Avaliação (2) Alunos com estatuto de trabalhador estudante podem optar por fazer só o exame, valendo 100% da nota final. A decisão do aluno terá que ser tomada até à 1ª entrega do projecto e é definitiva. Assume-se que, uma vez feita a 1ª entrega, o aluno optou por considerar ambas as componentes. Alunos com acesso à época especial podem optar por fazer só o exame de época especial, valendo 100% da nota final.
Calendário Mini-Projectos (entregas) MP1: 14/10 MP2: 4/11 MP3: 25/11 MP4: 16/12
Aulas de dúvidas Bruno Martins 2ªf -11:00-12:30 (Alameda, sala dúvidas Pav Informática I) 5ªf - 11:00-12:30 (TagusPark - 2N5-17) Helena Galhardas / Pável Calado 3ªf -14:00-15:30 (Alameda, sala dúvidas Pav Informática I) 6ªf -15:00-16:30 (TagusPark, 2N7.1)
Programa Gestão de dados XML (Bruno Martins) Linguagens de interrogação e modificação: XPath, XSLT, XQuery, XQuery Update SW: Qizx XQuery Engine Extracção de Informação (Pável Calado) Extracção de dados da Web Técnicas de extracção de informação a partir de texto Hidden Markov Models SW: LingPipe Integração de dados e esquema (Helena Galhardas) Global-as-view vs local-as-view Mediadores e wrappers Sistemas: LSD, TSIMMIS, Information Manifold SW: Qizx XQuery Engine Transformação e limpeza de dados (Helena Galhardas) Discrepâncias de esquemas e dados Detecção e eliminação de duplicados Fusão de informação SW: Qizx XQuery Engine, SimPack
Gestão de dados XML XML é vastamente utilizada como linguagem de troca de dados na Internet DTD, XMLSchema, XPath, XSLT são assuntos já conhecidos (sim?) A linguagem XQuery é a linguagem de interrogação de dados XML que vamos estudar aqui
Extracção de informação 1. Extracção de dados estruturados a partir da Web (docs HTML, XML) 2. Extracção de dados estruturados a partir de texto Tb. conhecido por prospecção de texto (text mining) Desafios da Web: Número grande de fontes de dados Páginas Web devem ser transformadas em dados estruturados Falta de controlo sobre os dados Fontes de dados têm restrições de entrada e saída Natureza distribuída da Web pode tornar a integração de dados muito lenta
Extracção de dados estruturados a partir de texto Como descobrir estrutura em dados não estruturados Exemplo (http://www.imdb.com): Elegant redhead Nicole Kidman, known as one of Hollywood's top Australian imports, was actually born in Honolulu, Hawaii, to Anthony (a biochemist and clinical psychologist) and Janelle (a nursing instructor) Kidman.... Algumas técnicas de aprendizagem automática (Machine Learning) podem ser usadas
Integração de dados e esquema Integrar dados oriundos de múltiplas fontes de dados heterogéneas Desafios: Acesso aos dados Resolver as diferenças existentes ao nível de esquema e dados Executar a integração de forma eficiente
Transformação e limpeza de dados Durante e após a integração, alguns problemas de qualidade dos dados precisam de ser resolvidos Exemplo: Filmes (id, título, realizador, ano, ano_ult_remake) (1 Casablanca Weir 1942 1940) (2 Dead Poets Society Curtiz 1989 -) (3 Rman Holiday Wylder 1953 -) (4 Casblanca Weir 1940 1950)
Bibliografia Grande parte da matéria é coberta pelo livro a editar em 2012: Principles of Data Integration Alon Halevy, Zachary Ives, Anhai Doan Algumas partes da matéria cobertas por artigos Outros livros interessantes: Data on the Web: From Relations to Semistructured Data and XML Serge Abiteboul, Peter Buneman, Dan Suciu Morgan Kaufmann Publishers 2000 (4 ex. Bib IST Tagus) XQuery from the Experts: A Guide to the W3C XML Query Language Howard Katz, Don Chamberlin, Denise Draper, Mary Fernandez, Michael Kay, Jonathan Robie, Michael Rys, Jerome Simeon, Jim Tivy, Philip Wadler Addison-Wesley 2004 (1 ex. Bib IST Tagus) Web Data Mining, 2nd edition Bing Liu Springer 2011 Data Quality: Concepts, Methodologies and Techniques Carlo Batini, Monica Scannapieco Springer 2006 (4 ex. Bib. IST Tagus)
Outras informações Questões?