Geração de ontologias para a Web Semântica a partir de textos da Língua Portuguesa



Documentos relacionados
Declaração de Pesquisa: Extração Automática de Ontologias da Wikipédia

CORREFSUM: REVISÃO DE COESÃO REFERENCIAL EM SUMÁRIOS EXTRATIVOS. Mestrando: Patricia Nunes Gonçalves Orientadora: Renata Vieira

Ontologias na Computação

ESPECIFICAÇÃO E CONCEITUAÇÃO DE UMA ONTOLOGIA APLICADA ÀS ETAPAS DE ENGENHARIA DE REQUISITOS

Ferramentas para aprendizagem de ontologias a partir de textos

Virtual Museum Ontology: uma descrição ontológica de objetos virtuais 3D em Museus Virtuais

Engenharia de Ontologias Seminário UPON

SEMÂNTICA NA WEB BRASILEIRA

Protégé Desenvolvimento de contologias

Modelagem de ferramentas focadas em ontologias para a EaD baseadas em teorias sociais e agentes inteligentes

Transformação de um Modelo de Empresa em Requisitos de Software

Geração do Portal CPCX - UFMS pelo UNION: Um Estudo de Caso

Identificando Especialistas a partir da Análise dos Artigos Disponíveis em uma Biblioteca Digital

Modelagem UML com Software Livre. Palestrante: Marcio Junior Vieira

ECOSSISTEMAS DE SOFTWARE

Reengenharia e Ontologias: Análise e Aplicação

Categorização de Textos baseada em Conceitos

Internet. Gabriela Trevisan Bacharel em Sistemas de Infomação

UNIVERSIDADE FEDERAL DE PERNAMBUCO GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO CENTRO DE INFORMÁTICA

Uma Ontologia para Engenharia de Requisitos de Software

Reconhecimento de entidades nomeadas em textos em português do Brasil no domínio do e-commerce

Web Semântica e Matching de Ontologias: Uma Visão Geral

Ambientes Computacionais para o Desenvolvimento e Aplicação de Sistemas de Documentação Ativa

Ferramenta para instanciação de processos de software que permite o gerenciamento de projetos de desenvolvimento distribuído

Uma Representação Ontológica da Geografia Física de Portugal

ODST: Uma Ontologia para o Domínio e Estudo das Doenças Sexualmente Transmissíveis

ESTUDO DE CASO: LeCS: Ensino a Distância

Subsídios para a Elaboração Automática de Taxonomias

Classificação: Determinístico

ONTOLOGIA DE DOMÍNIO PARA ANÁLISE DE BLOGS

Hierarquias de Conceitos para um Ambiente Virtual de Ensino Extraídas de um Corpus de Jornais Populares

Utilizando os Diagramas da UML (Linguagem Unificada de Modelagem) para desenvolver aplicação em JSF

Redes Sociais como Fonte de Informação para Cidades Inteligentes

Uma Ontologia para Gestão de Segurança da Informação

Uma Análise de Técnicas Utilizadas no Aprendizado de Ontologias

Em Busca de uma Arquitetura de Referência para Frameworks de Aplicação Dirigidos por Modelos para Sistemas de Informação

Ontology Patterns e Ontology Pattern Languages

UMA METODOLOGIA DE AVALIAÇÃO DE FERRAMENTAS PARA GESTÃO DE ONTOLOGIAS A METHODOLOGY FOR EVALUATING ONTOLOGY MANAGEMENT TOOLS

PROCESSAMENTO TEXTUAL EM PÁGINAS DA WEB

Sistema SeRELeP para o reconhecimento de relações

Descoberta de Domínio Conceitual de Páginas Web

Modelagem UML com. Marcio Junior Vieira Ambiente Livre - Marcio Junior Vieira

OntoLP: Engenharia de Ontologias em Língua Portuguesa

UM ESTUDO SOBRE OS FRAMEWORKS JSF E PRIMEFACES NO DESENVOLVIMENTO DE SOFTWARE WEB

Uma Estratégia para o Alinhamento Taxonômico de Ontologias

Apoio à Decisão Gerencial na Alocação de Recursos Humanos em Projetos de Software Ahilton Silva Barreto

Influência do Encaminhamento de Mensagens na Topologia de Redes Sociais

Modelagem Flexível para Processos de Negócio. Resultados de um Estudo Experimental

Uma Ontologia Genérica para a Análise de Domínio e Usuário na Engenharia de Domínio Multiagente

ONIAQUIS Uma Ontologia para a Interpretação de Análise Química do Solo

Joaquim Reis ISCTE-IUL mestrados Fev-2012 Joaquim Reis, DCTI - ISCTE - mestrados de MCC, METI, MEI, MIGE,

UNIVERSIDADE ESTADUAL DE CAMPINAS. Instituto de Matemática, Estatística e Computação Científica

TECNOLOGIA WEB Aula 1 Evolução da Internet Profa. Rosemary Melo

Linhas de Produtos de Software. Professor: Uirá DIMAp / UFRN,

Desenvolvimento em Ambiente Web. HTML - Introdução

UNIVERSIDADE LUSÍADA DE LISBOA. Programa da Unidade Curricular PROGRAMAÇÃO PARA WEB Ano Lectivo 2011/2012

Paradigmas de Linguagens de Programação

Experiências de Avaliação (alunos) online

Aspectos semânticos em um sistema de integração de informações na Web 1 1 Centro de Informática Universidade Federal de Pernambuco (UFPE)

A Web Semântica e o Ensino a Distância RESUMO

Domínios Especializados

Descoberta Automática de Relações Não- Taxonômicas a partir de Corpus em Língua Portuguesa

Modelagem de Conhecimento integrando Regras de Produção e Ontologias

ONTOLOGIA E SUAS APLICAÇÕES EM MODELAGEM CONCEITUAL PARA BANCO DE DADOS PROPOSTA DE TRABALHO DE GRADUAÇÃO

Novo dicionário de formas flexionadas do Unitex-PB: Avaliação da flexão verbal

Criação e publicação de um dataset de dados interligados das edições passadas do Simpósio Brasileiro de Banco de Dados

Classificação Automática de Expressões Anafóricas em textos da Língua Portuguesa

Tecnologia para Sistemas Inteligentes Apontamentos para as aulas sobre. Introdução à Representação e Processamento de Ontologias: Framework O3f

Francisca Raquel de Vasconcelos Silveira Gustavo Augusto Lima de Campos Mariela Inés Cortés

Colaboração em Sistemas Multiagentes Modelados por Ontologias

Ontologia de Domínio da Biodisponibilidade de Ferro: Uma Experiência no Projeto Nutri-Fuzzy-Orixás

ICMC USP São Carlos 24/03/2011

Odyssey-MDA: Uma Ferramenta para Transformações de Modelos UML

Introdução ao Paradigma Orientado a Objetos. Principais conceitos

DAS Inteligência Artificial Aplicada à Controle de Processos e Automação Industrial

Esta comunicação está sendo submetida sob o [x] Tema 1 Aspectos teóricos e metodológicos nos estudos em ontologias

Introdução ao RUP Rational Unified Process. por Denize Terra Pimenta Outubro/2004

Gerenciamento de Workflows Científicos em Bioinformática

Sistema de Aquisição semi-automática de Ontologias

Uma Proposta para o Uso de Folksonomias como Conceitualizações Compartilhadas na Especificação de Modelos Conceituais

O PAPEL DA SEMÂNTICA NO BUSINESS INTELLIGENCE 2.0: Um Exemplo no Contexto de um Programa de Pós-Graduação

Engenharia de Software

Seminário - Two Case Studies of Open Source Software Development: Apache and Mozilla

Projeto de Domínio baseado em Ontologias na Engenharia de Domínio Multiagente

Um Simulador para Avaliação da Antecipação de Tarefas em Sistemas Gerenciadores de Workflow

18º Congresso de Iniciação Científica IMPLEMENTAÇÃO DE UM MODELO DE TESTE DE APLICAÇÕES WEB

Cordis-FBC: um Ambiente Configurado TABA com Gerência do Conhecimento

Computador E/S, Memória, Barramento do sistema e CPU Onde a CPU Registradores, ULA, Interconexão interna da CPU e Unidade de controle.

Web Design Aula 01: Conceitos Básicos

Interoperabilidade Semântica no LexML

sendo bastante acessível e compreendido pelos usuários que o utilizarem.

ONTOBRAS Seminário de Pesquisa em Ontologia do Brasil

M O D E L O E U R O P E U D E

Universidade Federal de Pernambuco

Hierarquias de conceitos extraídas automaticamente de corpus de domínio específico Um experimento sobre um corpus de Pediatria

MAPEAMENTO DE CONSULTAS SQL EM XML ENTRE SISTEMAS GERENCIADORES DE BANCO DE DADOS RELACIONAIS

Integração da Informação e do Conhecimento no Contexto da Copa do Mundo e os Jogos Olímpicos no Brasil

ONTOLOGIA PARA PUBLICAÇÃO CIENTÍFICA 1 ONTOLOGY FOR SCIENTIFIC PUBLICATION

Transcrição:

Geração de ontologias para a Web Semântica a partir de textos da Língua Portuguesa Mestrando: Luiz Carlos Ribeiro Jr. Orientadora: Renata Vieira 1

Introdução Protégé OntoLT OntoLP Anotação lingüística Experimentos preliminares Trabalhos futuros Referências Perguntas > Sumário 2

> Introdução Web Semântica Reengenharia da Web Atual Baseada em HTML Páginas sem significado para máquinas Objetivo Criar ferramentas e padrões que permitam atribuir e manipular significados claros aos conteúdos das páginas web Projeto dirigido por Tim Berners-Lee Baseada em XML Para o funcionamento da web semântica, computadores devem ter acesso a coleções estruturadas de informação e conjuntos de regras que eles possam usar para conduzir raciocínio automático (Berners-Lee, 2001). 3

> Introdução Ontologia Uma ontologia define um domínio, ou, mais formalmente, especifica uma conceitualização acerca dele (Gruber, 95) A proliferação de ontologias é um dos principais fatores para o sucesso da Web Semântica (Maedche, 2000) Algumas Áreas onde vêem sendo aplicadas: Inteligência Artificial, Web Semântica, Engenharia de Software, Arquitetura da Informação, entre outras Padrões de representação para Web Semântica: RDF, OWL 4

> Nível de precisão ontológica Jogo Exercício Jogo de Quadra Tênis Jogo ao ar Livre Tênis Jogo de Campo Futebol Futebol Jogo Jogo de Campo Taxonomia Jogo de Quadra Exercício Jogo ao ar Livre Catálogo Glossário jogo(x) atividade(x) exercício(x) jogo(x) jogo de quadra(x) exercício(x) ^ y.jogado_em(x,y) ^ quadra(y) tênis(x) jogo de quadra(x) falta dupla(x) falta(x) ^ y.parte_de(x,y) ^ tênis(y) Jogo NT Exercício NT Jogo de Quadra RT Quadra NT Tênis RT Falta dupla Dicionário E E Teorias Axiomáticas Precisão Ontológica 5

> Ontologia 6

> Ontologia 7

> Protégé Ambiente para construção de Sistemas baseados em conhecimento Desenvolvido na Universidade de Stanford Possibilita inserção de plug-ins Bastante utilizado no meio acadêmico 8

> Protégé Funções principais Modelar classes: possibilita a definição de classes, seus atributos e relacionamentos Instâncias: instanciação de entidades a partir das classes definidas Processamento: possibilita definir consultas e comportamentos através de definições lógicas (JESS) Formatos exportáveis: os modelos resultantes podem ser exportados em vários formatos (OWL e RDF) 9

> Protégé 10

> Plug-in OntoLT Definição Plug-in para construção de ontologias a partir de textos Considerações Input: textos anotados pela ferramenta Schug (XML) Seleção dos termos através de consultas definidas pelo usuário Metodologia Linguagem XPath: linguagem de consulta a documentos em formato XML, que possibilita selecionarmos atributos ou elementos específicos dentro de um arquivo XML. Linguagem de précondição: constituída por expressões escritas em XPath, entretanto, são escritas como funções, isto é, podendo ser reutilizadas posteriormente. Regras de Mapeamento: são regras constituídas de operadores e restrições. Essas restrições são formadas pela associação de funções definidas através da linguagem de précondição. 11

> Plug-in OntoLT Regras de Mapeamento Funções utilizadas pela linguagem de pré-condição Consultas XPath Estrutura para definir a seleção de termos 12

> Plug-in OntoLT Função Objeto direto Clausula XPath 13

> Plug-in OntoLT./arg[@type= DOBJ ]/@phrase 14

> Plug-in OntoLT Regra de mapeamento 15

> Plug-in OntoLT Termos candidatos 16

> Plug-in OntoLT Exemplo de conceito organizado hierarquicamente Hiperônimo Exemplo de conceito e suas propriedades Propriedade 17

Objetivo > OntoLP Estudo, aplicação e avaliação de métodos para construção de ontologias a partir de textos da língua portuguesa Integração ao Protégé (plug-in) 18

> OntoLP Metodologia Definição dos métodos estatísticos e lingüísticos, que serão utilizados para a identificação dos termos de um determinado domínio (revisão bibliográfica e experimentos) Testes específicos: será utilizado um corpus de domínio específico acompanhado de uma ontologia de referência para o domínio Avaliação global: será feita uma avaliação global do plug-in desenvolvido, levando em consideração níveis de acerto, consistência, desempenho, entre outros critérios 19

> OntoLP Extração de termos e identificação de uma taxonomia de classes utilizando um corpus de domínio específico Aplicação de métodos estatísticos Utilização de informações com base na análise lingüística de textos Textos anotados lingüisticamente (PALAVRAS [Bick, 2000]) Input: formato XML 20

> OntoLP (Métodos Estatísticos) Freqüência relativa TF-IDF Especificidade e Similaridade (Ruy and Choi, 2006) 21

> OntoLP (informações lingüísticas) Utilização das informações lingüísticas Padrões (ou templates) Informação sintática 22

> OntoLP (informações lingüísticas) Utilização de padrões (templates) Seleção de atributos Regras the * of the C [is was] (Almuhareb and Poesio, 2004) Exemplo atributo selecionado the price of the car is Seleção de valores de atributos Regras [a an the] * C [is was] (Almuhareb and Poesio, 2004) Exemplo de valor selecionado the brown dog is 23

> OntoLP (informações lingüísticas) Informações sintáticas Seleção de hipônimos Regras such NP as {NP,} * {(or and)} NP (Hearst, 1992) Exemplo de valor selecionado...works by such authors as Herrick, Goldsmith, and Shakespeare 24

> OntoLP (informações lingüísticas) Mapeamento de termos de determinada classe gramatical para conceitos ou propriedades Exemplo: Sujeito Classe (Domain) Verbo Relação ou propriedade Obj. direto Classe (Range) 25

> Anotação lingüística words.xml Texto Texto Texto Textos PALAVRAS VISL XTRACTOR chunks.xml POS.xml Etapas do processamento lingüístico 26

> Anotação lingüística Exemplo: Joaninhas foram as primeiras. O manejo integrado de pragas é um conceito que surgiu nos Estados Unidos... Arquivo de Words.XML Arquivo de PoS.XML 27

Exemplo: > Anotação lingüística Joaninhas foram as primeiras. O manejo integrado de pragas é um conceito que surgiu nos Estados Unidos... Arquivo de Chuncks.XML 28

> Experimentos preliminares Objetivo Avaliar métodos de seleção de termos candidatos a conceitos de uma ontologia Descrição do corpus Textos de História e Ciência (e sub-áreas) 50 textos por área, 10 por sub-área Documentos extraídos da Web Cálculos aplicados Freqüência relativa dos termos Freqüência relativa dos bigramas 29

> Experimentos preliminares 30

> Experimentos preliminares Feudalismo Seleção dos termos (bigramas) 10 termos mais relevantes igreja_católica relação_suserania feudalismo_idade economia_feudal história_feudalismo alto_clero sociedade_feudal senhor_feudal senhores_feudais idade_média Lista dos possíveis conceitos igreja_católica economia_feudal alto_clero sociedade_feudal senhor_feudal idade_média Feudalismo Seleção dos termos (tf-idf) 10 termos mais relevantes pedro celular servidão burgos mão-morta sites brasil feudalismo deus capitalismo Lista dos possíveis conceitos servidão burgos mão-morta feudalismo deus Capitalismo 31

> Experimentos preliminares Cromossomos Seleção dos termos (bigramas) Cromossomos Seleção dos termos (tf-idf) 10 termos mais relevantes Lista dos possíveis conceitos 10 termos mais relevantes Lista dos possíveis conceitos cópia_única trissomia_livre homem feminino pares_cromossomos cromossomo_extra lados genoma atraso_mental células_somáticas acidez sexo mosaicismo_cromossomo dois_cromossomos participação dna cromossomo_extra descreve Inversão cromossomos_cromossomo feminino células_somáticas genoma trissomia_livre sexo par_cromossomos dna dois_cromossomos Inversão 32

> Trabalhos futuros Estudar e implementar diferentes métodos estatísticos e lingüísticos para a seleção de termos Integrar o sistema ao software Protégé como um plug-in Possibilitar, ou não, que o usuário defina as regras de mapeamento para sua ontologia Avaliar a ferramenta utilizando um corpus e uma ontologia de nanotecnologia 33

> Referências bibliográficas Buitelaar, P., Olejnik, D., Sintek, M.: Ontolt: A protégé plug-in for ontology extraction from text. In: Proceedings of the Demo Session of the International Semantic Web Conference (ISWC), Sanibel Island, Florida, (2003) Buitelaar, P., Olejnik, D., Sintek, M.: A protégé plug-in for ontology extraction from text based on linguistic analysis. In: Proceedings of the 1st European Semantic Web Symposium (ESWS), Heraklion, Greece (2004) 31 44 Maedche, A., Staab, S.: Semi-automatic Engineering of Ontologies from Text. In: Proceedings of the 12th International Conference on Software Engineering and Knowledge Engineering. (2000) Fernandez, M., Gomez-Perez, A., Juristo, N.: Methontology: from ontological art towards ontological engineering. In: Proceedings of the AAAI97 Spring Symposium Series on Ontological Engineering, Stanford, USA (1997) 33 40 Faure, D., Nédellec, C., Rouveirol, C.: Acquisition of semantic knowledge using machine learning methods: The system asium (1998) Maedche, A., Staab, S.: Ontology learning for the semantic web. IEEE Intelligent Systems 16(2) (2001) 72 79 Navigli, R., Velardi, P., Gangemi, A.: Ontology learning and its application to automated terminology translation. IEEE Intelligent Systems 18(1) (2003) 22 31 Cimiano, P., Handschuh, S., Staab, S.: Towards the self-annotating web. In:WWW 04: Proceedings of the 13th international conference on World Wide Web, New York, NY, USA, ACM Press (2004) 462 471 Cimiano, P., Staab, S.: Learning by googling. SIGKDD Explorations 6(2) (2004) 24 34 34

> Referências bibliográficas Cimiano, P., Ladwig, G., Staab, S.: Gimme the context: Context-driven automatic semantic annotation with c-pankow. In Ellis, A., Hagino, T., eds.: Proceedings of the 14th World Wide Web Conference, Chiba, Japan, ACM Press (2005) 332 341 Hearst, M.A.: Automatic acquisition of hyponyms from large text corpora. In: Proceedings of the 14th conference on Computational linguistics, Morristown, NJ, USA, Association for Computational Linguistics (1992) 539 545 Morin, E., Jacquemin, C.: Automatic acquisition and expansion of hypernym links. Computers and the Humanities (CHUM), Kluwer 38(4) (2004) 363 396 Almuhareb, A., Poesio, M.: Attribute-based and value-based clustering: an evaluation (2004) Cimiano, P., Hotho, A., Staab, S.: Learning concept hierarchies from text corpora using formal concept anaylsis. Journal of Artificial Intelligence Research (JAIR) 24 (2005) 305 339 Ganter, B., Wille, R.: Formal Concept Analysis: Mathematical Foundations. Springer-Verlag New York, Inc., Secaucus, NJ, USA (1999) Baségio, T.L., de Lima, V.L.S.: Semi-automatically building ontological structures from portuguese written texts. In Vieira, R., Quaresma, P., Nunes, M.V., Mamede, N., Oliveira, C., Dias, M.C., eds.: 7th Workshop on Computational Processing of Written and Spoken Language (PROPOR 2006), Itatiaia, RJ, Springer (2006) 208 211 Perez, C., Gasperin, C., Vieira, R.: Extração semi-automática de conhecimento a partir de textos. Anais do XXIII Congresso da Sociedade Brasileira de Computação (2003) Vieira, R., Gasperin, C., Goulart, R.: From manual to automatic annotation of coreference. In: Proceedings International Symposium on Reference Resolution and its Application on Question Answering Systems, Veneza, Universita Ca Foscari (2003) 17 24 35

> Referências bibliográficas Coelho, J.C.B., Muller, V., Collovini, S., Vieira, R., Rino, L.: Resolving portuguese nominal anaphora. In Vieira, R., Quaresma, P., Nunes, M.V., Mamede, N., Oliveira, C., Dias, M.C., eds.: 7th Workshop on Computational Processing of Written and Spoken Language (PROPOR 2006), Itatiaia, RJ, Springer (2006) Battistella, E., Vieira, R., de Souza, J.G.C., dos Reis, A.N., da Silva, J.P.M., Barcellos, C.K., da Silva, N.M., Bedin, G.B., Mombach, J.C.M., Lemke, N.: Using protégé to build a molecular network ontology. 8th International Protégé Conference (2004) Moreira, A.F., Vieira, R., Bordini, R.H., H ubner, J.F.: Agent-oriented programming with underlying ontological reasoning. In: DALT. (2005) 155 170 Bick, E.: The Parsing System PALAVRAS: Automatic Grammatical Analysis of Portuguese in a Constraint Grammar Framework. PhD thesis, Arhus University (2000) Gennari, J.H., Musen, M.A., Fergerson, R.W., Grosso, W.E., Crubzy, M., Eriksson, H., Noy, N.F., Tu, S.W.: The evolution of protégé: an environment for knowledgebased systems development. Int. J. Hum.-Comput. Stud. 58(1) (2003) 89 123 Knublauch, H.: An ai tool for the real world: Knowledge modeling with protégé (2003) Junior, L.C.R.: Definição automática de perfis de usuários de sistemas de recomendação. Trabalho de conclusão de curso, ESIN/UCPEL, Pelotas/RS (2006) Perez, C., Vieira, R.: Mapas conceituais: geração e avaliação. TIL - Workshop de Tecnologias da Informação e Linguagem Humana. Anais do XXV Congresso da SBC (2005) 36

> Perguntas 37