16 de Maio de 2014 Arquivos e Web Semântica (BAD/gt-GDA; AUCoimbra) 1 A WEB SEMÂNTICA Pedro Rangel Henriques (com a colaboração de Nuno Oliveira) Departamento de Informática Universidade do Minho
16 de Maio de 2014 Arquivos e Web Semântica (BAD/gt-GDA; AUCoimbra) 2 Sumário Tim Berners-Lee adaptou-se à (na altura) nova tendência da comunicação entre computadores e revolucionou-a! Tal revolução levou à criação de espaços partilhados de informação, acessíveis a todo o mundo! A Web continuou a evoluir ao ponto de se estar agora a preparar para a sua terceira fase, onde as máquinas irão compreenderão o conteúdo dos recursos documentais... As IDIs e os seus profissionais também evoluíram com o tempo, adaptando-se às demandas da sociedade e à evolução tecnológica! As noções de anotação e metadados, e o seu relacionamento com base em ontologias, são o segredo para a organização de informação que vai permitir concretizar a noção semântica que a Web quer para si.
16 de Maio de 2014 Arquivos e Web Semântica (BAD/gt-GDA; AUCoimbra) 3 World Wide Web (WWW) (ou simplesmente Web) É um arquivo à escala mundial para depósito, armazenamento, disseminação de documentos digitais variados É aberto (para depósito e acesso) Não tem Curador (nem catalogação) É hiper-ligado
16 de Maio de 2014 Arquivos e Web Semântica (BAD/gt-GDA; AUCoimbra) 4 World Wide Web (WWW) Para compreender o que queremos (para onde vamos) É fundamental perceber o que temos
16 de Maio de 2014 Arquivos e Web Semântica (BAD/gt-GDA; AUCoimbra) 5 World Wide Web (WWW) Temos Documentos depositados anotados em HTML Leitores de Documentos anotados em HTML que Os Formatam Os Ligam (mesmo à distância) Motores de Pesquisa que recuperam os Documentos que satisfazem um pedido
16 de Maio de 2014 Arquivos e Web Semântica (BAD/gt-GDA; AUCoimbra) 6 World Wide Web (WWW) Esses Motores de Pesquisa Recuperam os Documentos com base na frequência de ocorrência, dentro dos documentos disponíveis, das palavras que descrevem o pedido. Não têm noção do seu significado (apenas se fazem calculos estatísticos).
16 de Maio de 2014 Arquivos e Web Semântica (BAD/gt-GDA; AUCoimbra) 7 World Wide Web (WWW) EXEMPLO Se procuro Pedro Henriques encontro documentos Onde essas duas palavras co-existem (e ocorrem várias vezes) Desses, uns podem ser documentos de vários tipos produzidos por Pedro Henriques, Mas outros podem ser documentos produzidos por outros mas que falam de Pedro Henriques
16 de Maio de 2014 Arquivos e Web Semântica (BAD/gt-GDA; AUCoimbra) 8 World Wide Web (WWW) EXEMPLO (cont.) Se quiser só documentos de que Pedro Henriques é Autor Todos os documentos onde essas palavras co-existem serão recuperados: Mesmo que seja um documento do autor X que diz Pedro Henriques é autor de 3 artigos sobre gramáticas de atributos ou então o Autor e Pedro Henriques já se conheciam. Além dos documentos desejados do tipo Autor: Pedro Henriques Isto acontece por os Pesquisadores não sabem o que é ser autor
16 de Maio de 2014 Arquivos e Web Semântica (BAD/gt-GDA; AUCoimbra) 9 Web Semântica O que se pretende: Ter Pesquisadores que percebam a informação que está nos documentos E que sejam inteligentes suficientes para identificar sinónimos, subclasses, etc.
16 de Maio de 2014 Arquivos e Web Semântica (BAD/gt-GDA; AUCoimbra) 10 Web Semântica O que é preciso: Anotar os dados contidos nos documentos com etiquetas que os permitam interpretar Adicionar informação complementar aos documentos que faculte a sua classificação/catalogação e ajude à sua interpretação.
16 de Maio de 2014 Arquivos e Web Semântica (BAD/gt-GDA; AUCoimbra) 11 Web Semântica Porém para que os Pesquisadores percebam (interpretem) os documentos, i.é, retirem o seu significado: As etiquetas a usar nas Anotações têm de ser conhecidas, isto é, tem de pertencer a Vocabulários pré-definidos e partilhados (Vocabulários Controlados). Além disso, a MetaInformação associada aos documentos tem de ser devidamente estruturada e usar descritores normalizados. Assim vão surgir as Ontologias ligadas à Web Semântica
16 de Maio de 2014 Arquivos e Web Semântica (BAD/gt-GDA; AUCoimbra) 12 Anotação - exemplo A Associação Portuguesa de Editores e Livreiros agradeceu, esta sexta-feira, a Pinto da Costa a oferta do estádio do Dragão para realizar a Feira do Livro do <cidade> Porto. Apesar da proposta, o evento continua suspenso. <estádio-futebol> <associação> <data> <pessoa> <evento> notícia retirada do JN a 2013-05-03
16 de Maio de 2014 Arquivos e Web Semântica (BAD/gt-GDA; AUCoimbra) 13 Metadados do Documento Três grandes tipos de metadados... Descritivos Descrevem a identificação/autoria do recurso. E.g., título, autor, etc. Administrativos Descrevem dados administrativos que ajudam na manutenção do documento. E.g., a data de criação, como foi a criação, etc. Estruturais Descrevem como o recurso é composto. E.g., ordenação de páginas, organização em sistema de ficheiros
16 de Maio de 2014 Arquivos e Web Semântica (BAD/gt-GDA; AUCoimbra) 14 Esquemas de Metadados - Dublin Core para simples descrição de um documento - TEI (Text Encoding Initiative) para anotação de textos eletrónicos (e.g., romances) - METS (Metadata Encoding and Transmission Standard) para expressar estrutura de um objeto digital assim como para o descrever e localizar os ficheiros que o compõem - EAD (Encoded Archival Description) para anotar dados em inventários ou índices em linha - ISAD(g) (General International Standard Archival Description ) guias para descrever arquivos - LOM (Learning Object Metadata) para fomentar o uso de recursos didáticos suportados por tecnologia - CDWA (Categories for Description of Works of Art) para descrever objetos visuais como pinturas ou esculturas
16 de Maio de 2014 Arquivos e Web Semântica (BAD/gt-GDA; AUCoimbra) 15 Vocabulários Metadados Compreensão? Cooperação Só haverá cooperação entre sistemas se todos falarem a mesma língua! XML é a língua franca para a interoperabilidade (de informação)! Por isso se usa XML para descrever Anotações, Metadados, Vocabulários e Ontologias
16 de Maio de 2014 Arquivos e Web Semântica (BAD/gt-GDA; AUCoimbra) 16 Vocabulários Simple Knowledge Organization System (SKOS) Friend-of-a-Friend (FOAF) Semantically-Interlinked Online Communities (SIOC) Description of a Project (DOAP) Review Vocabulary (RV) Creative Commons (CC)
16 de Maio de 2014 Arquivos e Web Semântica (BAD/gt-GDA; AUCoimbra) 17 Vocabulários Vocabulários são insuficientes para uma completa exploração dos documentos. É preciso mais do que simples listas de palavras
16 de Maio de 2014 Arquivos e Web Semântica (BAD/gt-GDA; AUCoimbra) 18 Representação do Conhecimento RDF (Resource Description Framework): uma representação do conhecimento sobre um dado domínio baseado num Grafo em que cada Triplo é da forma (Sujeito, Predicado, Objeto) Sujeito é o URI do recurso a descrever Predicado é o URI que identifica (num determinado vocabulário) a Relação em causa Objeto é um literal (valor da propriedade em causa) ou um URI do recurso relacionado
16 de Maio de 2014 Arquivos e Web Semântica (BAD/gt-GDA; AUCoimbra) 19 Ontologias Uma ontologia é um artefacto que define um conjunto de conceitos, relações e axiomas para um domínio de saber específico, representando e organizando o conhecimento implícito. Retirado, traduzido e adaptado de Ontological Adaptive Integration Of Reverse Engineering Tools
16 de Maio de 2014 Arquivos e Web Semântica (BAD/gt-GDA; AUCoimbra) 20 Ontologia O = (C, R, A) - C Entidades da Ontologia - C C Conceitos (Ex: Mãe, Pessoa, Filho, Irmão) - C I Instâncias dos conceitos (Ex: Teresa, Nuno) - R Relações entre entidades da Ontologia - R H Relações taxonómicas/hierárquicas entre Conceitos (Ex: Mãe é_uma Pessoa) - R I Relações entre Conceitos e Instâncias (Ex: Teresa é_uma Mãe) - R S Relações não taxonómicas entre Conceitos (Ex: Mãe tem_filho Filho) - R P Propriedades dos Conceitos (Ex: Pessoa data_de_nascimento 1986-02-26) - A Axiomas. Dão consistência à ontologia e são usados para inferir novo conhecimento (Ex: Se dois Filho têm a mesma Mãe então são Irmão )
16 de Maio de 2014 Arquivos e Web Semântica (BAD/gt-GDA; AUCoimbra) 21 Representação de Ontologias OWL (Web Ontology Language): Permite descrever Classes Instâncias Relações Atributos Restrições
PREFIX foaf: 16 de Maio <http://xmlns.com/foaf/0.1/> de 2014 SELECT?name Arquivos?email e Web WHERE Semântica {?person (BAD/gt-GDA; a foaf:person. AUCoimbra)?person foaf:name 22?name.?pe Pesquisa na Web Semântica Agora sobre a Rede de Conhecimento procura-se usando Motores diferentes e recorrendo a uma Linguagem semelhante a SQL: SPARQL (SPARQL Protocol and RDF Query Language)
PREFIX foaf: 16 de Maio <http://xmlns.com/foaf/0.1/> de 2014 SELECT?name Arquivos?email e Web WHERE Semântica {?person (BAD/gt-GDA; a foaf:person. AUCoimbra)?person foaf:name 23?name.?pe Pesquisa na Web Semântica Nome e Email de todas as Pessoas na Rede friend-of-a-friend? PREFIX foaf: <http://xmlns.com/foaf/0.1/> SELECT?name?email WHERE {?person a foaf:person.?person foaf:name?name.?person foaf:mbox?email. }
PREFIX foaf: 16 de Maio <http://xmlns.com/foaf/0.1/> de 2014 SELECT?name Arquivos?email e Web WHERE Semântica {?person (BAD/gt-GDA; a foaf:person. AUCoimbra)?person foaf:name 24?name.?pe Pesquisa na Web Semântica Qual o nome das Capitais de Países em África? PREFIX abc: <http://example.com/exampleontology#> SELECT?capital?country WHERE {?x abc:cityname?capital ; abc:iscapitalof?y.?y abc:countryname?country ; abc:isincontinent abc:africa. }
16 de Maio de 2014 Arquivos e Web Semântica (BAD/gt-GDA; AUCoimbra) 25 Web Semântica O que resultou para além disso: Uma rede global onde co-existem os documentos anotados (arquivados pelos seus autores ou seus detentores) e As ontologias que dão significado a essas anotações (são também consultáveis e relacionáveis) Hoje fala-se então com frequência na Linked Data
16 de Maio de 2014 Arquivos e Web Semântica (BAD/gt-GDA; AUCoimbra) 26 Linked Data O princípio base: Tudo que se quer descrever e partilhar deve ser identificado de forma única por um URI / IRI O URI será um endereço acessível por HTTP Documentos, Imagens e outros Objetos de Comunicação digitais são Recursos de Informação ; outros Items do mundo real que queremos identificar (Pessoas, Locais, etc.) são Recursos Nãoinformação Usa RDF para descrever os Recursos
16 de Maio de 2014 Arquivos e Web Semântica (BAD/gt-GDA; AUCoimbra) 27 Linked Data Esta realidade que emergiu da política seguida na construção da Web Semântica deu origem ao projeto à escala mundial Linking Open Data para criar a tal rede global de recursos interpretáveis e disponíveis na Web o Grafo de DataSets emergente pode ser visto em http://lod-cloud.net/