Geração de ontologias para a Web Semântica a partir de textos da Língua Portuguesa Mestrando: Luiz Carlos Ribeiro Jr. Orientadora: Renata Vieira 1
Introdução Protégé OntoLT OntoLP Anotação lingüística Experimentos preliminares Trabalhos futuros Referências Perguntas > Sumário 2
> Introdução Web Semântica Reengenharia da Web Atual Baseada em HTML Páginas sem significado para máquinas Objetivo Criar ferramentas e padrões que permitam atribuir e manipular significados claros aos conteúdos das páginas web Projeto dirigido por Tim Berners-Lee Baseada em XML Para o funcionamento da web semântica, computadores devem ter acesso a coleções estruturadas de informação e conjuntos de regras que eles possam usar para conduzir raciocínio automático (Berners-Lee, 2001). 3
> Introdução Ontologia Uma ontologia define um domínio, ou, mais formalmente, especifica uma conceitualização acerca dele (Gruber, 95) A proliferação de ontologias é um dos principais fatores para o sucesso da Web Semântica (Maedche, 2000) Algumas Áreas onde vêem sendo aplicadas: Inteligência Artificial, Web Semântica, Engenharia de Software, Arquitetura da Informação, entre outras Padrões de representação para Web Semântica: RDF, OWL 4
> Nível de precisão ontológica Jogo Exercício Jogo de Quadra Tênis Jogo ao ar Livre Tênis Jogo de Campo Futebol Futebol Jogo Jogo de Campo Taxonomia Jogo de Quadra Exercício Jogo ao ar Livre Catálogo Glossário jogo(x) atividade(x) exercício(x) jogo(x) jogo de quadra(x) exercício(x) ^ y.jogado_em(x,y) ^ quadra(y) tênis(x) jogo de quadra(x) falta dupla(x) falta(x) ^ y.parte_de(x,y) ^ tênis(y) Jogo NT Exercício NT Jogo de Quadra RT Quadra NT Tênis RT Falta dupla Dicionário E E Teorias Axiomáticas Precisão Ontológica 5
> Ontologia 6
> Ontologia 7
> Protégé Ambiente para construção de Sistemas baseados em conhecimento Desenvolvido na Universidade de Stanford Possibilita inserção de plug-ins Bastante utilizado no meio acadêmico 8
> Protégé Funções principais Modelar classes: possibilita a definição de classes, seus atributos e relacionamentos Instâncias: instanciação de entidades a partir das classes definidas Processamento: possibilita definir consultas e comportamentos através de definições lógicas (JESS) Formatos exportáveis: os modelos resultantes podem ser exportados em vários formatos (OWL e RDF) 9
> Protégé 10
> Plug-in OntoLT Definição Plug-in para construção de ontologias a partir de textos Considerações Input: textos anotados pela ferramenta Schug (XML) Seleção dos termos através de consultas definidas pelo usuário Metodologia Linguagem XPath: linguagem de consulta a documentos em formato XML, que possibilita selecionarmos atributos ou elementos específicos dentro de um arquivo XML. Linguagem de précondição: constituída por expressões escritas em XPath, entretanto, são escritas como funções, isto é, podendo ser reutilizadas posteriormente. Regras de Mapeamento: são regras constituídas de operadores e restrições. Essas restrições são formadas pela associação de funções definidas através da linguagem de précondição. 11
> Plug-in OntoLT Regras de Mapeamento Funções utilizadas pela linguagem de pré-condição Consultas XPath Estrutura para definir a seleção de termos 12
> Plug-in OntoLT Função Objeto direto Clausula XPath 13
> Plug-in OntoLT./arg[@type= DOBJ ]/@phrase 14
> Plug-in OntoLT Regra de mapeamento 15
> Plug-in OntoLT Termos candidatos 16
> Plug-in OntoLT Exemplo de conceito organizado hierarquicamente Hiperônimo Exemplo de conceito e suas propriedades Propriedade 17
Objetivo > OntoLP Estudo, aplicação e avaliação de métodos para construção de ontologias a partir de textos da língua portuguesa Integração ao Protégé (plug-in) 18
> OntoLP Metodologia Definição dos métodos estatísticos e lingüísticos, que serão utilizados para a identificação dos termos de um determinado domínio (revisão bibliográfica e experimentos) Testes específicos: será utilizado um corpus de domínio específico acompanhado de uma ontologia de referência para o domínio Avaliação global: será feita uma avaliação global do plug-in desenvolvido, levando em consideração níveis de acerto, consistência, desempenho, entre outros critérios 19
> OntoLP Extração de termos e identificação de uma taxonomia de classes utilizando um corpus de domínio específico Aplicação de métodos estatísticos Utilização de informações com base na análise lingüística de textos Textos anotados lingüisticamente (PALAVRAS [Bick, 2000]) Input: formato XML 20
> OntoLP (Métodos Estatísticos) Freqüência relativa TF-IDF Especificidade e Similaridade (Ruy and Choi, 2006) 21
> OntoLP (informações lingüísticas) Utilização das informações lingüísticas Padrões (ou templates) Informação sintática 22
> OntoLP (informações lingüísticas) Utilização de padrões (templates) Seleção de atributos Regras the * of the C [is was] (Almuhareb and Poesio, 2004) Exemplo atributo selecionado the price of the car is Seleção de valores de atributos Regras [a an the] * C [is was] (Almuhareb and Poesio, 2004) Exemplo de valor selecionado the brown dog is 23
> OntoLP (informações lingüísticas) Informações sintáticas Seleção de hipônimos Regras such NP as {NP,} * {(or and)} NP (Hearst, 1992) Exemplo de valor selecionado...works by such authors as Herrick, Goldsmith, and Shakespeare 24
> OntoLP (informações lingüísticas) Mapeamento de termos de determinada classe gramatical para conceitos ou propriedades Exemplo: Sujeito Classe (Domain) Verbo Relação ou propriedade Obj. direto Classe (Range) 25
> Anotação lingüística words.xml Texto Texto Texto Textos PALAVRAS VISL XTRACTOR chunks.xml POS.xml Etapas do processamento lingüístico 26
> Anotação lingüística Exemplo: Joaninhas foram as primeiras. O manejo integrado de pragas é um conceito que surgiu nos Estados Unidos... Arquivo de Words.XML Arquivo de PoS.XML 27
Exemplo: > Anotação lingüística Joaninhas foram as primeiras. O manejo integrado de pragas é um conceito que surgiu nos Estados Unidos... Arquivo de Chuncks.XML 28
> Experimentos preliminares Objetivo Avaliar métodos de seleção de termos candidatos a conceitos de uma ontologia Descrição do corpus Textos de História e Ciência (e sub-áreas) 50 textos por área, 10 por sub-área Documentos extraídos da Web Cálculos aplicados Freqüência relativa dos termos Freqüência relativa dos bigramas 29
> Experimentos preliminares 30
> Experimentos preliminares Feudalismo Seleção dos termos (bigramas) 10 termos mais relevantes igreja_católica relação_suserania feudalismo_idade economia_feudal história_feudalismo alto_clero sociedade_feudal senhor_feudal senhores_feudais idade_média Lista dos possíveis conceitos igreja_católica economia_feudal alto_clero sociedade_feudal senhor_feudal idade_média Feudalismo Seleção dos termos (tf-idf) 10 termos mais relevantes pedro celular servidão burgos mão-morta sites brasil feudalismo deus capitalismo Lista dos possíveis conceitos servidão burgos mão-morta feudalismo deus Capitalismo 31
> Experimentos preliminares Cromossomos Seleção dos termos (bigramas) Cromossomos Seleção dos termos (tf-idf) 10 termos mais relevantes Lista dos possíveis conceitos 10 termos mais relevantes Lista dos possíveis conceitos cópia_única trissomia_livre homem feminino pares_cromossomos cromossomo_extra lados genoma atraso_mental células_somáticas acidez sexo mosaicismo_cromossomo dois_cromossomos participação dna cromossomo_extra descreve Inversão cromossomos_cromossomo feminino células_somáticas genoma trissomia_livre sexo par_cromossomos dna dois_cromossomos Inversão 32
> Trabalhos futuros Estudar e implementar diferentes métodos estatísticos e lingüísticos para a seleção de termos Integrar o sistema ao software Protégé como um plug-in Possibilitar, ou não, que o usuário defina as regras de mapeamento para sua ontologia Avaliar a ferramenta utilizando um corpus e uma ontologia de nanotecnologia 33
> Referências bibliográficas Buitelaar, P., Olejnik, D., Sintek, M.: Ontolt: A protégé plug-in for ontology extraction from text. In: Proceedings of the Demo Session of the International Semantic Web Conference (ISWC), Sanibel Island, Florida, (2003) Buitelaar, P., Olejnik, D., Sintek, M.: A protégé plug-in for ontology extraction from text based on linguistic analysis. In: Proceedings of the 1st European Semantic Web Symposium (ESWS), Heraklion, Greece (2004) 31 44 Maedche, A., Staab, S.: Semi-automatic Engineering of Ontologies from Text. In: Proceedings of the 12th International Conference on Software Engineering and Knowledge Engineering. (2000) Fernandez, M., Gomez-Perez, A., Juristo, N.: Methontology: from ontological art towards ontological engineering. In: Proceedings of the AAAI97 Spring Symposium Series on Ontological Engineering, Stanford, USA (1997) 33 40 Faure, D., Nédellec, C., Rouveirol, C.: Acquisition of semantic knowledge using machine learning methods: The system asium (1998) Maedche, A., Staab, S.: Ontology learning for the semantic web. IEEE Intelligent Systems 16(2) (2001) 72 79 Navigli, R., Velardi, P., Gangemi, A.: Ontology learning and its application to automated terminology translation. IEEE Intelligent Systems 18(1) (2003) 22 31 Cimiano, P., Handschuh, S., Staab, S.: Towards the self-annotating web. In:WWW 04: Proceedings of the 13th international conference on World Wide Web, New York, NY, USA, ACM Press (2004) 462 471 Cimiano, P., Staab, S.: Learning by googling. SIGKDD Explorations 6(2) (2004) 24 34 34
> Referências bibliográficas Cimiano, P., Ladwig, G., Staab, S.: Gimme the context: Context-driven automatic semantic annotation with c-pankow. In Ellis, A., Hagino, T., eds.: Proceedings of the 14th World Wide Web Conference, Chiba, Japan, ACM Press (2005) 332 341 Hearst, M.A.: Automatic acquisition of hyponyms from large text corpora. In: Proceedings of the 14th conference on Computational linguistics, Morristown, NJ, USA, Association for Computational Linguistics (1992) 539 545 Morin, E., Jacquemin, C.: Automatic acquisition and expansion of hypernym links. Computers and the Humanities (CHUM), Kluwer 38(4) (2004) 363 396 Almuhareb, A., Poesio, M.: Attribute-based and value-based clustering: an evaluation (2004) Cimiano, P., Hotho, A., Staab, S.: Learning concept hierarchies from text corpora using formal concept anaylsis. Journal of Artificial Intelligence Research (JAIR) 24 (2005) 305 339 Ganter, B., Wille, R.: Formal Concept Analysis: Mathematical Foundations. Springer-Verlag New York, Inc., Secaucus, NJ, USA (1999) Baségio, T.L., de Lima, V.L.S.: Semi-automatically building ontological structures from portuguese written texts. In Vieira, R., Quaresma, P., Nunes, M.V., Mamede, N., Oliveira, C., Dias, M.C., eds.: 7th Workshop on Computational Processing of Written and Spoken Language (PROPOR 2006), Itatiaia, RJ, Springer (2006) 208 211 Perez, C., Gasperin, C., Vieira, R.: Extração semi-automática de conhecimento a partir de textos. Anais do XXIII Congresso da Sociedade Brasileira de Computação (2003) Vieira, R., Gasperin, C., Goulart, R.: From manual to automatic annotation of coreference. In: Proceedings International Symposium on Reference Resolution and its Application on Question Answering Systems, Veneza, Universita Ca Foscari (2003) 17 24 35
> Referências bibliográficas Coelho, J.C.B., Muller, V., Collovini, S., Vieira, R., Rino, L.: Resolving portuguese nominal anaphora. In Vieira, R., Quaresma, P., Nunes, M.V., Mamede, N., Oliveira, C., Dias, M.C., eds.: 7th Workshop on Computational Processing of Written and Spoken Language (PROPOR 2006), Itatiaia, RJ, Springer (2006) Battistella, E., Vieira, R., de Souza, J.G.C., dos Reis, A.N., da Silva, J.P.M., Barcellos, C.K., da Silva, N.M., Bedin, G.B., Mombach, J.C.M., Lemke, N.: Using protégé to build a molecular network ontology. 8th International Protégé Conference (2004) Moreira, A.F., Vieira, R., Bordini, R.H., H ubner, J.F.: Agent-oriented programming with underlying ontological reasoning. In: DALT. (2005) 155 170 Bick, E.: The Parsing System PALAVRAS: Automatic Grammatical Analysis of Portuguese in a Constraint Grammar Framework. PhD thesis, Arhus University (2000) Gennari, J.H., Musen, M.A., Fergerson, R.W., Grosso, W.E., Crubzy, M., Eriksson, H., Noy, N.F., Tu, S.W.: The evolution of protégé: an environment for knowledgebased systems development. Int. J. Hum.-Comput. Stud. 58(1) (2003) 89 123 Knublauch, H.: An ai tool for the real world: Knowledge modeling with protégé (2003) Junior, L.C.R.: Definição automática de perfis de usuários de sistemas de recomendação. Trabalho de conclusão de curso, ESIN/UCPEL, Pelotas/RS (2006) Perez, C., Vieira, R.: Mapas conceituais: geração e avaliação. TIL - Workshop de Tecnologias da Informação e Linguagem Humana. Anais do XXV Congresso da SBC (2005) 36
> Perguntas 37