RELATÓRIO DE ESTÁGIO. realizado no âmbito do projecto. INQUER Interacção Pessoa-Máquina. em Linguagem Natural. CLG Grupo de Computação do



Documentos relacionados
Programa de Parcerias e Submissão de Propostas 2014/15

ESTATUTOS DO CENTRO DE FILOSOFIA DA UNIVERSIDADE DE LISBOA. Artigo 1.º (Natureza, Membros)

Regulamento do Centro de Ciências Matemáticas

REGULAMENTO DO CENTRO DE INVESTIGAÇÃO EM PSICOLOGIA (CIPsi)

7) Providenciar e estimular a publicação de estudos sobre o Direito de Macau;

CAPÍTULO VII (Disposições Finais e Transitórias)

REGULAMENTO DO CONSELHO CIENTÍFICO DO INSTITUTO DE INVESTIGAÇÃO CIENTIFICA TROPICAL. Artigo 1. Composição

O Ministério da Justiça da República Portuguesa e o Ministério da Justiça da República democrática de Timor - Leste:

Regulamento do Laboratório de Cálculo Automático

Regulamento Interno do Centro de Informática e Tecnologias da Informação da Universidade Nova de Lisboa PREÂMBULO

COMISSÃO EXECUTIVA. c) Um docente por cada Unidade Orgânica, nomeado pelo Presidente do IPC,

REGULAMENTO DO 2º CICLO DE ESTUDOS CONDUCENTES AO GRAU DE MESTRE EM RELAÇÕES INTERNACIONAIS

NCE/10/00116 Relatório final da CAE - Novo ciclo de estudos

Por despacho do Presidente da Assembleia da República de 26 de Julho de 2004, foi aprovado

Universidade Nova de Lisboa ESCOLA NACIONAL DE SAÚDE PÚBLICA

UNIVERSIDADE DE SANTA CRUZ DO SUL UNISC CURSO DE ENGENHARIA DE COMPUTAÇÃO REGULAMENTO DO TRABALHO DE CONCLUSÃO CAPÍTULO I DA NATUREZA

CETAC.MEDIA. Centro de Estudos. das Tecnologias e Ciências da Comunicação. Regulamento

Regulamento do Centro de Investigação em Educação e Psicologia da Universidade de Évora (CIEP-UE)

Começo por apresentar uma breve definição para projecto e para gestão de projectos respectivamente.

1 Introdução. 1.1 Apresentação do tema

REGULAMENTO GERAL DAS FACULDADES DA UNIVERSIDADE FERNANDO PESSOA

DESENVOLVER E GERIR COMPETÊNCIAS EM CONTEXTO DE MUDANÇA (Publicado na Revista Hotéis de Portugal Julho/Agosto 2004)

ÍNDICE ENQUADRAMENTO CARACTERIZAÇÃO DO AGRUPAMENTO... 4

Sinopse das Unidades Curriculares Mestrado em Marketing e Comunicação. 1.º Ano / 1.º Semestre

Base de Dados para Administrações de Condomínios

UNIVERSIDADE DA BEIRA INTERIOR Departamento de Gestão e Economia

REGULAMENTO DO NÚCLEO DE ESTUDOS E PESQUISAS EM CONTABILIDADE DA UNIVERSIDADE CATÓLICA DE BRASÍLIA (NEPEC/UCB)

REGULAMENTO DO CONTROLO DE QUALIDADE DA ORDEM DOS REVISORES OFICIAIS DE CONTAS. (Artigo 68.º do Decreto-Lei n.º 487/99, de 16 de Novembro)

INICIAÇÃO À INVESTIGAÇÃO CIENTÍFICA I E II

1 Escola Superior de Desporto de Rio Maior

Direcção Regional de Educação do Centro. Agrupamento de Escolas de Canas de Senhorim. Escola EB 2.3/S Eng. Dionísio Augusto Cunha.

Aprend.e Sistema integrado de formação e aprendizagem

Regulamento da Faculdade de Direito Universidade Católica Portuguesa

RESOLUÇÃO Nº. 199 DE 14 DE DEZEMBRO DE 2011.

ConselhoCientíficodoLNEGCo nselhocientíficodolnegconsel hocientíficodolnegconselho CientíficodoLNEGConselhoCie

UNIVERSIDADE DA BEIRA INTERIOR Departamento de Gestão e Economia

ISO 9000:2000 Sistemas de Gestão da Qualidade Fundamentos e Vocabulário. As Normas da família ISO As Normas da família ISO 9000

O Que São os Serviços de Psicologia e Orientação (SPO)?

UNIVERSIDADE DA BEIRA INTERIOR Departamento de Gestão e Economia

Conselho Geral e de Supervisão REGULAMENTO INTERNO COMISSÃO DE ESTRATÉGIA E PERFORMANCE

Índice. Como aceder ao serviço de Certificação PME? Como efectuar uma operação de renovação da certificação?

PROJECTO DE RESOLUÇÃO N.º 255/IX RECOMENDA AO GOVERNO A TOMADA DE MEDIDAS COM VISTA AO DESENVOLVIMENTO DO SOFTWARE LIVRE EM PORTUGAL

NÚCLEO DE MEDICINA INTERNA DOS HOSPITAIS DISTRITAIS ESTATUTOS CAPÍTULO I DENOMINAÇÃO, SEDE E OBJECTIVOS

AVALIAÇÃO DE PROGRAMAS E DE PROJECTOS PEDAGÓGICOS

Regulamento do Conselho de Administração da Assembleia da República

Caracterização dos cursos de licenciatura

UNIVERSIDADE DE SANTA CRUZ DO SUL UNISC REGULAMENTO DO TRABALHO DE CONCLUSÃO DO CURSO DE ENGENHARIA CIVIL

REGULAMENTO INTERNO CAP. I DISPOSIÇÕES GERAIS CAP. II ASSOCIADOS. Regulamento Interno. Artigo 1º Definições gerais.

FEDERAÇÃO PORTUGUESA DE AERONÁUTICA. Departamento de Relações Públicas e Comunicação

Regulamento Geral dos Grupos de Estudo, das Secções, das Sociedades Afiliadas e quadro de relacionamento com Sociedades

NCE/11/01396 Relatório preliminar da CAE - Novo ciclo de estudos

PLANIFICAÇÃO MODULAR ANO LECTIVO 2015 / 2016

Regulamento de Atribuição do Título de Especialista Escola Superior de Educação João de Deus. na ESE João de Deus

Programa Nacional de Mestrado Profissional em Ensino de Física (MNPEF)

Regulamento do Programa Inter-Universitário em Biologia de Plantas BioPlant

Regulamento do Conselho Municipal de Juventude. de S. João da Madeira. Artigo 1º. Definição. Artigo 2º. Objecto. Artigo 3º.

Educação Especial. 2. Procedimentos de Referenciação e Avaliação e Elaboração do Programa Educativo Individual

NCE/10/01121 Relatório preliminar da CAE - Novo ciclo de estudos

FACULDADE DE LETRAS DA UNIVERSIDADE DE COIMBRA REGULAMENTO DO SEGUNDO CICLO DE ESTUDOS CONDUCENTE AO GRAU DE MESTRE

REGULAMENTO DO CONSELHO MUNICIPAL DE EDUCAÇÃO NOTA JUSTIFICATIVA

REGULAMENTO DO CURSO DE ESPECIALIZAÇÃO ADMINISTRAÇÃO HOSPITALAR 2013 / 2015

CENTRO DE INVESTIGAÇÃO PAULA FRASSINETTI (CIPAF) REGULAMENTO

PROJETO DE REGULAMENTO DO CONSELHO MUNICIPAL DE EDUCAÇÃO NOTA JUSTIFICATIVA

Apresentação. Serviço de Apoio às Bibliotecas Escolares. Oliveira de Azeméis Novembro 2007

DESPACHO ISEP/P/51/2010. Regulamento do Departamento de Engenharia Electrotécnica

Center for Innovation, Technology and Policy Research Centro de Estudos em Inovação, Tecnologia e Políticas de Desenvolvimento

ESCOLA PROFISSIONAL DE FELGUEIRAS ESTATUTOS CAPÍTULO I DISPOSIÇÕES GERAIS

CEDOPE - CENTRO DE DOCUMENTAÇÃO E PESQUISA DE HIS- TÓRIA DOS DOMÍNIOS PORTUGUESES

Prof. Dr. Guanis de Barros Vilela Junior

REGULAMENTO DO XLV CURSO DE ESPECIALIZAÇÃO EM ADMINISTRAÇÃO HOSPITALAR

Avanços na transparência

formativa e das atividades de ensino e de aprendizagem nela desenvolvidas;

Certificação da Qualidade dos Serviços Sociais. Procedimentos

PEDIDO DE ACREDITAÇÃO PRÉVIA DE NOVO CICLO DE ESTUDOS (PAPNCE) (Ensino Universitário e Politécnico) Guião de apresentação

UNIVERSIDADE DA BEIRA INTERIOR Departamento de Gestão e Economia

Decreto-Lei n.º 228/2000 de 23 de Setembro

Regulamento Genérico dos Núcleos da Associação Académica do Instituto Politécnico de Setúbal

ESTATUTOS DO INSTITUTO DOS VALORES MOBILIÁRIOS

Ministério da Educação UNIVERSIDADE TECNOLÓGICA FEDERAL DO PARANÁ Campus Curitiba DEPARTAMENTO DE EDUCAÇÃO REGULAMENTO INTERNO CAPÍTULO I

Organização. Trabalho realizado por: André Palma nº Daniel Jesus nº Fábio Bota nº Stephane Fernandes nº 28591

NCE/11/01851 Relatório final da CAE - Novo ciclo de estudos

Proposta para a construção de um Projecto Curricular de Turma*

III PROGRAMA DE ESTÁGIOS DE VERÃO AEFFUL

THIS FORM IS ONLY FOR TESTING AND ONLY FOR INTERNAL EUROPEAN COMMISSION / NATIONAL AGENCIES USE. PLEASE DO NOT DISTRIBUTE!

REGULAMENTO DA COMISSÃO DE AUDITORIA DO CONSELHO DE ADMINISTRAÇÃO DA IMPRESA-SOCIEDADE GESTORA DE PARTICIPAÇÕES SOCIAIS, S.A.

Relatório sobre o funcionamento da Escola Básica Integrada da Charneca da Caparica

Ajuda ao SciEn-Produção O Artigo Científico da Pesquisa Experimental

REGULAMENTO ESPECIFICO DO CURSO DE MESTRADO EM DESPORTO 2009 REGULAMENTO

DEPARTAMENTO DE MATEMÁTICA E CIÊNCIAS EXPERIMENTAIS

REGULAMENTO DO PROGRAMA DE DOUTORAMENTO EM ENGENHARIA INFORMÁTICA, DA FACULDADE DE ENGENHARIA DA UNIVERSIDADE DO PORTO PREÂMBULO

REGULAMENTO DO SISTEMA INTEGRADO DE GESTÃO DA QUALIDADE DO INSTITUTO SUPERIOR TÉCNICO

Instituto de Educação

REGULAMENTO DO MESTRADO EM GESTÃO DE ENERGIA E EFICIÊNCIA ENERGÉTICA

Partido Popular. CDS-PP Grupo Parlamentar. Projecto de Lei nº 195/X. Inclusão dos Médicos Dentistas na carreira dos Técnicos Superiores de Saúde

METODOLOGIA DE DESENVOLVIMENTO DE SOFTWARE DO MUSEU PARAENSE EMÍLIO GOELDI

REGULAMENTO DO PROGRAMA ADMINISTRAÇÃO ELETRÓNICA E INTEROPERABILIDADE SEMÂNTICA

Transcrição:

DEPARTAMENTO DE INFORMÁTICA Faculdade de Ciências - Universidade de Lisboa Bloco C5 - Piso 1 - Campo Grande, 1700 Lisboa Tel & Fax: 351.1.7500084 RELATÓRIO DE ESTÁGIO realizado no âmbito do projecto INQUER Interacção Pessoa-Máquina em Linguagem Natural MÓDULO II Inferência e Extracção de Informação CLG Grupo de Computação do Conhecimento Léxico-Gramatical CENTRO DE LINGUÍSTICA DA UNIVERSIDADE DE LISBOA Ricardo Manuel de Oliveira Santos Lisboa, Março de 2003 Universidade de Lisboa Faculdade de Ciências

DEPARTAMENTO DE INFORMÁTICA Faculdade de Ciências - Universidade de Lisboa Bloco C5 - Piso 1 - Campo Grande, 1700 Lisboa Tel & Fax: 351.1.7500084 RELATÓRIO DE ESTÁGIO realizado no âmbito do projecto INQUER Interacção Pessoa-Máquina em Linguagem Natural MÓDULO II Inferência e Extracção de Informação CLG Grupo de Computação do Conhecimento Léxico-Gramatical CENTRO DE LINGUÍSTICA DA UNIVERSIDADE DE LISBOA Ricardo Manuel de Oliveira Santos Responsável pela FCUL: Prof. Doutor António Branco Responsável pelo CLUL: Profª. Doutora Palmira Marrafa

Estágio inscrito em: Departamento de Informática da Faculdade de Ciências de Lisboa Instituição de Acolhimento: Centro de Linguística da Universidade de Lisboa CLUL Grupo de Investigação: Grupo de Computação do Conhecimento Léxico-Gramatical - CLG Orientadora (CLUL): Profª. Doutora Palmira Marrafa Co-Orientador (DI-FCUL): Prof. Doutor António Branco Estagiário: Ricardo Manuel de Oliveira Santos Licenciatura: Engenharia da Linguagem e do Conhecimento Estágio: INQUER Interacção Pessoa-Máquina em Linguagem Natural (Módulo II)

Índice Í n d i c e 1. INTRODUÇÃO... 13 1.1. IDENTIFICAÇÃO E ENQUADRAMENTO DO PROJECTO...13 1.1.1. INQUER Interacção Pessoa-Máquina em Linguagem Natural... 13 1.1.2. Grupo de Computação do Conhecimento Léxico-Gramatical - CLG... 15 1.1.3. Centro de Linguística da Universidade de Lisboa - CLUL... 16 1.1.3.1. Apresentação...16 1.1.3.2. História...16 1.1.3.3. Grupos de Investigação e Projectos...17 1.1.3.4. Órgãos de Gestão...18 1.2. ESTRUTURA DO RELATÓRIO...21 2. OBJECTIVOS DO ESTÁGIO E CONTEXTO DO TRABALHO... 23 2.1. PLANO DETALHADO...23 2.1.1. Definição de Estratégias e Avaliação da Organização Interna da Base de Dados (WordNet.PT)... 23 2.1.2. Selecção do Método de Pesquisa e da Linguagem de Programação... 24 2.1.3. Construção de um Algoritmo de Pesquisa e de Extracção de Informação... 24 2.1.4. Selecção do Formato Lógico mais adequado para a Representação do Output do Programa... 24 2.1.5. Conversão do Output Directo na Forma Lógica... 25 2.1.6. Construção da Interface (Parte I)... 25 2.1.7. Integração do Módulo II no projecto INQUER e elaboração das respectivas adaptações. Construção da Interface (Parte II)... 25 2.1.8. Elaboração do Relatório Final... 26 2.2. CONTEXTO DO TRABALHO...26 3. METODOLOGIA E CALENDARIZAÇÃO DO TRABALHO... 27 3.1. METODOLOGIA E CALENDARIZAÇÃO...27 3.2. RECURSOS INFORMÁTICOS...28 4. WORDNET.PT... 31 4.1. INTRODUÇÃO...31 4.2. SINONÍMIA...33 4.3. HIPERONÍMIA / HIPONÍMIA...34 4.4. HOLONÍMIA / MERONÍMIA...35 4.4.1. Holo-Parte / Mero-Parte... 36 4.4.2. Holo-Membro / Mero-Membro... 37 4.4.3. Holo-Porção / Mero-Porção... 37 4.4.4. Holo-Matéria / Mero-Matéria... 37 4.4.5. Holo-Localização / Mero-Localização... 38 4.5. ROLE / INVOLVED...38 4.5.1. Agente / Envolve Agente... 39 4.5.2. Paciente (Objecto) / Envolve Paciente (Objecto)... 39 4.5.3. Resulta / Tem Resultado... 39 5. ESCOLHA DA LINGUAGEM DE PROGRAMAÇÃO... 41 CLG Grupo de Computação do Conhecimento Léxico-Gramatical 7

INQUER Interacção Pessoa-Máquina em Linguagem Natural 6. EXTRACÇÃO E TRATAMENTO DA BASE DE DADOS... 43 7. CORRESPONDÊNCIA ENTRE TERMOS EM LINGUAGEM NATURAL E RELAÇÕES DA WORDNET.PT... 47 8. ALGORITMOS DE CONSULTA E EXTRACÇÃO DE INFORMAÇÃO... 55 8.1. HIPONÍMIA / HIPERONÍMIA...55 8.2. SINONÍMIA...58 8.3. GLOSA...59 8.4. MERONÍMIA...59 8.5. ROLE (FUNÇÃO SEMÂNTICA)...61 8.5.1. ser feito de/com... 62 8.5.1.1. ser feito de...62 8.5.1.2. ser feito com...63 9. INFERÊNCIA E EXTRACÇÃO DE INFORMAÇÃO... 65 9.1. INTRODUÇÃO...65 9.2. PERGUNTAS POLARES...67 9.3. PERGUNTAS SOBRE ARGUMENTOS...73 9.4. INTEGRAÇÃO DOS MÓDULOS (PERGUNTAS POLARES E PERGUNTAS SOBRE ARGUMENTOS)...83 10. INTERFACE... 85 10.1. O FICHEIRO RESPONDE.PL...87 10.2. CONSTRUÇÃO DO CGI EXECUTÁVEL...89 10.3. FORM HTML...90 10.4. CONSTRUÇÃO DO SITE...91 10.5. PÁGINA DE RESPOSTA...94 11. CONCLUSÕES E TRABALHO FUTURO... 97 11.1. CONCLUSÕES...97 11.2. TRABALHO FUTURO...98 BIBLIOGRAFIA... 99 ANEXO 1 RESPONDE.PL... 105 ANEXO 2 INQUER_HTML.PL... 109 ANEXO 3 BASE DE DADOS... 115 ANEXO 4 HOME.HTM... 119 ANEXO 5 INFER.PL (PROGRAMA COMPLETO)... 121 8 CLG Grupo de Computação do Conhecimento Léxico-Gramatical

Índice Índice de Figuras e Tabelas FIG. 1 ARQUITECTURA GERAL DO PROJECTO INQUER...14 FIG. 2 ESQUEMA GENERALIZAÇÃO / ESPECIALIZAÇÃO...32 FIG. 3 POLARIS ÁRVORE DE HIPÓNIMOS DE ALIMENTO...43 FIG. 4 GERAR FICHEIRO PROLOG COM DETONADOR...44 FIG. 5 ARQUITECTURA DO PROCESSO DE EXTRACÇÃO E TRATAMENTO DA BASE DE DADOS INQUER...45 FIG. 6 - EXEMPLO DE SUB-ÁRVORE CONCEITOS COM A PROPRIEDADE P...78 FIG. 7 - EXEMPLO DE SUB-ÁRVORE CONCEITOS SEM A PROPRIEDADE P...79 FIG. 8 UMA ARQUITECTURA PARA LIGAÇÃO PROLOG - HTML...86 FIG. 9 ARQUITECTURA ADOPTADA DE LIGAÇÃO PROLOG - HTML...87 FIG. 10 PÁGINA HTML COM EXEMPLO DE UM FORM...91 FIG. 11 PÁGINA DE INÍCIO DO SITE...92 FIG. 12 O PROJECTO INQUER...93 FIG. 13 MANUAL DO UTILIZADOR...93 FIG. 14 FICHA TÉCNICA...94 FIG. 15 PÁGINA DE RESPOSTA...95 TABELA 1 REPRESENTAÇÃO SEMÂNTICA DE FRASES INTERROGATIVAS SOBRE PORÇÃO, DEFINIÇÃO E SIGNIFICADO...49 TABELA 2 REPRESENTAÇÃO SEMÂNTICA DE FRASES INTERROGATIVAS VERBO SER...50 TABELA 3 REPRESENTAÇÃO SEMÂNTICA DE FRASES INTERROGATIVAS VERBO TER...52 TABELA 4 CORRESPONDÊNCIA ENTRE RELAÇÕES DA WORDNET.PT E PREDICADOS PROLOG MERONÍMIA... 60 TABELA 5 CORRESPONDÊNCIA ENTRE RELAÇÕES DA WORDNET.PT E PREDICADOS PROLOG ROLE...61 TABELA 6 TRADUÇÃO DOS FACTOS DA BASE DE DADOS EM FÓRMULA LÓGICAS...65 TABELA 7 INTERFACE CONVERSÃO DA FORMA LÓGICA INQUER...89 CLG Grupo de Computação do Conhecimento Léxico-Gramatical 9

Resumo Resumo O projecto INQUER desenvolve um recurso linguístico de pergunta-resposta que permite o acesso, em linguagem natural, à base de dados WordNet.PT Rede Léxico-Conceptual do Português. O processo de construção desta ferramenta computacional divide-se em três Módulos que correspondem às diferentes fases de processamento deste sistema de busca e extracção de informação: Módulo I Análise Sintáctico-Semântica: a este módulo cabe o reconhecimento e a análise a nível sintáctico e semântico da frase introduzida pelo utilizador. Terá como resultado uma forma lógica passível de ser utilizada em fases posteriores do projecto; Módulo II Inferência e Extracção de Informação: este módulo desenvolve um motor de inferência que recebe uma forma lógica e extrai a informação requerida da Base de Conhecimento. O resultado deste módulo é a resposta à pergunta inicial. Módulo III Geração em Linguagem Natural: a função deste último módulo é construir uma frase de resposta, em linguagem natural, a partir da representação informacional da pergunta e do resultado da fase inferência. Este relatório respeita ao Módulo II (Inferência e Extracção de Informação) do projecto INQUER. É apresentada uma breve descrição da base de dados utilizada WordNet.PT, a forma como foram extraídos os dados e sua formatação. Segue-se a explicação dos algoritmos que implementam, com uso da linguagem Prolog, o motor de inferência e a explicitação das opções tomadas que encontram motivação em alguns princípios da Lógica de Primeira-Ordem. Por último, apresenta-se o processo de construção da interface do sistema, assim como as razões da escolha do método usado. Palavras Chave: Sistema Pergunta-Resposta, Processamento de Linguagem Natural, Programação em Lógica, Busca e Extracção de Informação, Inferência. CLG Grupo de Computação do Conhecimento Léxico-Gramatical 11

Introdução INQUER Interacção Pessoa- Máquina em Linguagem Natural 1. Introdução Este estágio surge após conclusão do curso de Licenciatura em Engenharia da Linguagem e do Conhecimento leccionado, em parceria, pelas Faculdades de Ciências (http://www.fc.ul.pt) e de Letras (http://www.fl.ul.pt) da Universidade de Lisboa. É assegurado pelo Centro de Linguística da Universidade de Lisboa (Instituição de Acolhimento) (http://www.clul.ul.pt/) e pelo Departamento de Informática (DI) da Faculdade de Ciências (http://www.di.fc.ul.pt/). A Orientadora do estágio (por parte da Instituição de Acolhimento) é a Profª. Doutora Palmira Marrafa 1, sendo o Co-Orientador (por parte do DI) o Prof. Doutor António Branco 2. A duração do estágio é de seis meses e decorreu entre Setembro de 2002 e Fevereiro de 2003. 1.1. Identificação e Enquadramento do Projecto O projecto INQUER surge como uma extensão da WordNet.PT uma vez que utiliza esta Rede Léxico- -Conceptual da Língua Portuguesa como suporte de Conhecimento Linguístico. Este último projecto, em desenvolvimento, é assegurado pelo CLG Grupo de Computação do Conhecimento Léxico-Gramatical do Centro de Linguística da Universidade de Lisboa (CLUL). O projecto INQUER é, naturalmente, acolhido pelo CLG. 1.1.1. INQUER Interacção Pessoa-Máquina em Linguagem Natural O projecto INQUER tem como objectivo construir uma aplicação que possibilite a interacção pessoamáquina, em linguagem natural, no formato pergunta-resposta. Para tal, é utilizada uma Base de 1 A Profª. Doutora Palmira Marrafa é coordenadora científica do CLG e Professora do Departamento de Linguística Geral e Românica, da Faculdade de Letras da Universidade de Lisboa, sendo também docente da Licenciatura em Engenharia da Linguagem e do Conhecimento. 2 O Prof. Doutor António Branco é Professor do Departamento de Informática, da Faculdade de Ciências da Universidade de Lisboa, sendo também docente da Licenciatura em Engenharia da Linguagem e do Conhecimento. CLG Grupo de Computação do Conhecimento Léxico-Gramatical 13

INQUER Interacção Pessoa-Máquina em Linguagem Natural Conhecimento Linguístico WordNet.PT (ver Cap. 4) cuja organização está estruturada de uma forma que facilita a busca e extracção de informação com base em perguntas em Português. Este projecto tem como principais preocupações responder à lacuna existente nas áreas do Ensino Assistido por Computador, nomeadamente no domínio do ensino/aprendizagem da língua, construção de dicionários-enciclopédicos electrónicos e de dicionários conceptuais multilingues. Um dos aspectos mais importantes do INQUER é o facto de a interacção ser feita em Linguagem Natural. Assim, é facilitada a sua utilização uma vez que não se requer conhecimento informático específico, bastando ser falante do Português para poder obter resultados. Cabe a uma equipa de investigadores, que acolheu o estagiário, o desenvolvimento do INQUER. Atendendo à dimensão do projecto, este foi dividido em três Módulos que se complementam, a saber: (i) Módulo I Análise Sintáctico-Semântica; (ii) Módulo II Inferência e Extracção de Informação; (iii) Módulo III Geração em Linguagem Natural. Apresenta-se, na figura seguinte, a arquitectura geral do projecto INQUER. Fig. 1 Arquitectura Geral do Projecto INQUER 14 CLG Grupo de Computação do Conhecimento Léxico-Gramatical

Introdução O Módulo I tem como principal tarefa a construção de uma gramática que reconheça e analise as frases introduzidas pelo utilizador. Após este processo, é devolvida uma forma semântica/lógica (baseada num formalismo lógico) que poderá entender-se como uma tradução da frase em linguagem natural para uma linguagem artificial com vista a facilitar a computabilidade. O resultado (output) do Módulo I serve de input ao Módulo II. Este último Módulo desenvolve os algoritmos de interacção propriamente dita com a Base de Dados de Conhecimento Linguístico. Estes algoritmos captam o tipo de informação que a frase interrogativa solicita e, por um processo de inferência, extraem a informação da Base de Conhecimento previamente formatada. O resultado do Módulo II é já a resposta à pergunta do utilizador, mas requer ainda tratamento, isto é, surge ainda ilegível por parte do utilizador comum. A tarefa do Módulo III é, precisamente, construir uma frase em linguagem natural que, a partir da representação informacional da pergunta (output do Módulo I) e da resposta (output do Módulo II), responda ao utilizador em Português. Embora os elementos da equipa interajam na coordenação de todo o projecto, cada um dos Módulos é desenvolvido independentemente. Este relatório respeita ao Módulo II da responsabilidade do estagiário. 1.1.2. Grupo de Computação do Conhecimento Léxico-Gramatical - CLG O CLG Grupo de Computação do Conhecimento Léxico-Gramatical (coordenado pela Profª Doutora Palmira Marrafa) tem como principais objectivos estudar e construir ferramentas computacionais no âmbito da Engenharia da Linguagem. O CLG desenvolve presentemente investigação em duas grandes linhas: (i) modelização computacional das línguas naturais; (ii) fundamentos conceptuais das teorias formais das línguas naturais. A primeira destas linhas ramifica-se em dois subdomínios: (i-a) semântica lexical do Português e (i-b) modelização das línguas naturais e sistemas de parsing. No âmbito da semântica lexical estão actualmente em curso três projectos, dos quais se destaca, pela sua dimensão e pelo seu impacto científico e tecnológico, o projecto WordNet.PT, que visa a construção e a implementação de uma rede léxico-conceptual (wordnet) para o Português, no quadro geral da EuroWordNet, uma base de dados multilingue que integra wordnets individuais (mas relacionadas entre si) de várias línguas europeias. Esta rede é susceptível de ser utilizada em várias aplicações no âmbito da Linguística Computacional e da Engenharia da Linguagem, tais como instrumentos de apoio ao ensino do Português, tradução automática, busca e extracção de informação com base em perguntas em Português, interfaces em Português, etc. No domínio da modelização das línguas naturais e dos sistemas de parsing, estão a ser desenvolvidas várias dissertações de Doutoramento e monografias, enquadradas no projecto PROGRAM-Laboratório de Processamento Gramatical, que envolve a modelização e a computação de diversos fenómenos CLG Grupo de Computação do Conhecimento Léxico-Gramatical 15

INQUER Interacção Pessoa-Máquina em Linguagem Natural gramaticais e a análise comparativa de algoritmos de parsing para diferentes quadros de representação gramatical. Da outra grande linha destaca-se o projecto TFNL-Teorias Formais das Línguas Naturais: Fundamentos Conceptuais, Arquitecturas e Computação, no âmbito do qual está a ser desenvolvida uma cartografia conceptual comparativa das ferramentas e dos temas mais importantes nas arquitecturas das teorias formais das línguas naturais. 1.1.3. Centro de Linguística da Universidade de Lisboa - CLUL 1.1.3.1. Apresentação O CLUL depende directamente da Reitoria da Universidade de Lisboa. Dedica-se à investigação, formação e divulgação científicas. Tem como principais objectivos realizar actividades de investigação e de desenvolvimento experimental na área da Linguística; promover e realizar investigação interdisciplinar, associando às áreas especificamente linguísticas áreas afins, tais como Filologia, Antropologia, Etnografia, Sociologia, Psicologia, Neurologia, Fisiologia e Engenharia da Linguagem e do Conhecimento. Contribui também para a formação de investigadores nestas áreas. Este Centro colabora com outras instituições nacionais e estrangeiras de investigação e ensino, especialmente com as da Universidade de Lisboa, contribuindo assim para o conhecimento e divulgação da língua portuguesa. 1.1.3.2. História O Centro de Linguística da Universidade de Lisboa, homologado oficialmente em Maio de 1976 como adstrito ao Instituto Nacional de Investigação Científica (INIC), continua o Centro de Estudos Filológicos (CEF), criado em 1932 na dependência do Instituto de Alta Cultura. Apesar do seu nome e da estreita relação que desde a sua criação mantém com a Universidade de Lisboa, nunca esteve, de facto, ligado a qualquer departamento dessa universidade, tendo desde sempre procurado preservar a sua identidade e a sua autonomia em matéria de planeamento e execução da actividade científica, como forma de garantir as condições e as estruturas básicas para uma actividade de investigação e desenvolvimento planeada a longo prazo e de carácter interdisciplinar. Aquando da extinção do INIC, a sua dimensão, o seu riquíssimo património e a especificidade dos trabalhos nele realizados justificaram a manutenção de um estatuto de autonomia relativa e a sua integração na Universidade de Lisboa como centro de investigação directamente dependente da Reitoria, estando ainda em curso as diligências necessárias para homologação de estatutos próprios, condizentes com esta nova situação. 16 CLG Grupo de Computação do Conhecimento Léxico-Gramatical

Introdução 1.1.3.3. Grupos de Investigação e Projectos Actualmente, o CLUL conta com cinco grupos de investigação, definidos pelo Conselho Científico, que constituem o princípio básico de estruturação das actividades científicas deste Centro. São eles: 1) Fala 2) Linguística de Corpus 3) Computação do Conhecimento Léxico-Gramatical (CLG) 4) Variação 5) Filologia Cada grupo desenvolve projectos cuja área científica em que se englobam é da especialidade desse grupo. Projectos do grupo de Fala: - Estudo sobre a Relação entre Factores Segmentais e Prosódicos em Português Europeu; - DIXI+: Um Sintetizador Texto-para-Fala em Português para Comunicação Alternativa e Aumentativa; - Alguns aspectos da Fonologia do Português no Quadro Auto-Segmental. Projectos do grupo de Linguística de Corpus: - Recursos Linguísticos Disponíveis (RLD): Corpora e Léxicos; - CRPC Corpus de Referência do Português Contemporâneo; - C-ORAL-ROM Integrated Reference Corpora for Spoken Romance Languages; - Recursos Linguísticos para o Português: um corpus e instrumentos para a sua consulta e análise; - Léxico Multifuncional Computorizado do Português Contemporâneo; - SIMPLE Semantic Information for Multifunctional Plurilingual Lexica; - Tábuas de concordâncias, uma ferramenta para o estudo da língua portuguesa; - Análise Sintáctica e Semântica dos Verbos Psicológicos do Português, Passagens Semânticas e Homonímia; - AUDIOLING-LP Língua Portuguesa: som e pronúncia; - Estudo do uso e do Significado da Preposição DE em Contextos Nominais SN DE SN; - Ensino de Aspectos de Morfologia e de Sintaxe do Português Língua Materna; - ENABLER: European National Activities for Basic Language Resources. Projectos do grupo de Computação do Conhecimento Léxico-Gramatical: - WordNet.PT Rede Léxico-Conceptual da Língua Portuguesa; - LexNet Especificação de Padrões de Lexicalização para uma Extensão da WordNet.PT; - PROGRAM Laboratório de Sistemas de Processamento Gramatical; CLG Grupo de Computação do Conhecimento Léxico-Gramatical 17

INQUER Interacção Pessoa-Máquina em Linguagem Natural - TFNL Teorias Formais das Línguas Naturais: Fundamentos Conceptuais, Arquitecturas e Computação; - INQUER Interacção Pessoa-Máquina em Linguagem Natural; - A Interface Léxico-Enciclopédia na Construção de Léxicos Computacionais. Projectos do grupo de Variação: - ALEPG Atlas Linguístico-Etnográfico de Portugal e da Galiza; - ALEAç Atlas Linguístico e Etnográfico dos Açores; - ALLP Atlas Linguístico do Litoral Português; - ALiR Atlas Linguistique Roman; - ALE Atlas Linguarum Europae; - Linguagens Fronteiriças: Mirandês; - Linguagens Fronteiriças: Barranquenho; - CORDIAL-SIN Corpus Dialectal com Anotação Sintáctica; - Estudo das Variantes Flexionais do Verbo em Português Continental Falado. Projectos do grupo de Filologia: - DRA: Dicionário de Regionalismos e Arcaísmos; - Estudos de Lírica Galego-Portuguesa; - Bibliografia da Prosa Medieval em Língua Portuguesa; - Filologia Medieval; - Filologia do Manuscrito Moderno; - Fontes para a História do Português Clássico; - Onomástico Português e Românico. 1.1.3.4. Órgãos de Gestão Assembleia Plenária A Assembleia Plenária é o órgão representativo máximo do CLUL. À Assembleia Plenária compete: aprovar e propor superiormente eventuais alterações estatutárias; eleger os vogais da Comissão Directiva e decidir da sua eventual substituição ou destituição; discutir quaisquer assuntos que lhe sejam submetidos pelo Conselho Científico, pela Comissão Directiva ou por iniciativa de um terço dos seus membros. 18 CLG Grupo de Computação do Conhecimento Léxico-Gramatical

Introdução Conselho Científico O Conselho Científico é o órgão responsável pela definição e pela condução da política científica do CLUL, compreendendo a planificação, a orientação e a coordenação, nas suas grandes linhas, das actividades sectoriais. Compete ao Conselho Científico: definir, criar ou reestruturar os sectores de investigação do CLUL; orientar e estimular a actividade do CLUL; discutir e aprovar os programas dos sectores, seus projectos de investigação e actividades complementares; apreciar e aprovar os planos e relatórios anuais e plurianuais de actividade científica; planificar as acções de formação do CLUL; emitir directrizes gerais relativas às actividades da biblioteca, do serviço de documentação, do serviço de edições e de quaisquer outros serviços que no CLUL venham a ser criados; aprovar os acordos e convénios de incidência científica e pedagógica entre o CLUL e quaisquer outras entidades; fazer propostas relativas à aquisição de equipamentos e de material bibliográfico e documental. Comissão Directiva A Comissão Directiva é o órgão de gestão administrativa e financeira do CLUL. É composta por quatro membros, um presidente e três vogais. Os vogais são eleitos pela Assembleia Plenária. As funções de Presidente da Comissão Directiva são desempenhadas, por inerência, pelo Coordenador Científico do CLUL. Compete à Comissão Directiva: velar pelo cumprimento da lei e dos estatutos e dirigir os serviços; executar, dentro das possibilidades orçamentais, as deliberações da Assembleia Plenária e do Conselho Científico e coordenar toda a actividade inerente à gestão administrativa e financeira ou relativa ao património do CLUL; assegurar a realização de todas as eleições previstas nos estatutos; CLG Grupo de Computação do Conhecimento Léxico-Gramatical 19

INQUER Interacção Pessoa-Máquina em Linguagem Natural elaborar e/ou aprovar os orçamentos e os relatórios de contas anuais ou plurianuais, de acordo com as prioridades definidas pelo Conselho Científico; executar as políticas definidas pelo Conselho Científico e elaborar os planos de desenvolvimento do CLUL; propor a abertura de concursos de admissão ou de promoção de pessoal não científico e propor as respectivas nomeações e contratações; deliberar sobre as aquisições necessárias ao bom funcionamento do CLUL e promovê-las; aceitar liberalidades feitas ao CLUL. Coordenador Científico O Coordenador Científico é, por inerência, Presidente da Comissão Directiva, sendo eleito pelo Conselho Científico. Compete ao Coordenador Científico: convocar o Conselho Científico e presidir às suas reuniões; dar publicidade às deliberações do Conselho Científico e promover a discussão das que não forem directamente cometidas a outros membros do Conselho; coordenar as actividades do CLUL e assegurar a elaboração dos planos, relatórios anuais e plurianuais de actividade científica; fomentar a discussão das grandes opções programáticas; supervisionar a negociação de acordos ou convénios entre CLUL e quaisquer outras entidades, cabendo-lhe propor ao Conselho Científico a sua aprovação; presidir aos júris de concursos de admissão ou promoção de pessoal científico do CLUL. 20 CLG Grupo de Computação do Conhecimento Léxico-Gramatical

Introdução 1.2. Estrutura do Relatório Neste relatório descreve-se, em pormenor, todo o trabalho realizado pelo estagiário ao longo do desenvolvimento do Módulo II do projecto INQUER Interacção Pessoa-Máquina em Linguagem Natural, que tem como tarefa fundamental a construção de mecanismos de inferência. No Capítulo 2 Objectivos do Estágio e Contexto do Trabalho além do Plano de Trabalho onde se planificam todas as fases do Módulo em questão, apresentam-se os Objectivos pré-estabelecidos para o Estágio, que, logicamente, estiveram sempre presentes ao longo da realização deste trabalho. A contextualização do trabalho é também feita neste capítulo. Além do enquadramento técnico, é também apresentada a perspectiva geral na qual este tema se engloba. No Capítulo Metodologia e Calendarização do Trabalho Capítulo 3 descreve-se a metodologia usada ao longo do desenvolvimento do trabalho realizado, referindo os recursos informáticos usados, bem como a calendarização, onde se apresentam os prazos inicialmente estabelecidos para cada fase do Plano de Trabalho. Tecem-se também alguns comentários acerca do cumprimento das tarefas e sobre as alterações face ao apresentado na fase inicial de programação de todo o projecto. Seguem-se os capítulos fundamentais do relatório onde se descreve todo o trabalho propriamente dito realizado pelo estagiário para desenvolvimento do projecto INQUER. O Capítulo 4 WordNet.PT apresenta um estudo da Base de Dados do Conhecimento Linguístico que serve de base de conhecimento a todo o sistema. O enquadramento do projecto WordNet.PT, a arquitectura interna desta rede e as relações semânticas com que conta são alguns dos aspectos focados neste capítulo. O Capítulo 5 corresponde à Escolha da Linguagem de Programação. Aqui justifica-se a escolha da linguagem de programação utilizada na construção de todos algoritmos necessários ao Módulo de Inferência e Extracção de Informação. Apresentam-se as vantagens da linguagem escolhida e as desvantagens de outras, tendo em conta os objectivos do trabalho. Segue-se o Capítulo 6 Extracção e Tratamento da Base de Dados. Neste capítulo explicam-se todas as técnicas usadas para extrair a informação da Base de Dados no seu formato original. São também referidos os métodos de tratamento e de formatação da informação extraída. O Capítulo 7, denominado Correspondências entre Termos em Linguagem Natural e Relações da WordNet.PT, relata o modo como se estabeleceram correspondências entre as relações semânticas intrínsecas à Base de Conhecimento e termos em linguagem natural, como por exemplo sinonímia ou hiponímia (subtipos). CLG Grupo de Computação do Conhecimento Léxico-Gramatical 21

INQUER Interacção Pessoa-Máquina em Linguagem Natural No Capítulo 8, a que se deu o nome de Algoritmos de Consulta e Extracção de Informação, apresentam-se todos os algoritmos de pesquisa e extracção de informação que se consideram fundamentais a um trabalho desta natureza. No Capítulo 9 Inferência e Extracção de Informação apresenta-se a implementação do algoritmo de segmentação da forma lógica (output do Módulo I e input do Módulo II), bem como a explicação do seu funcionamento, baseado em vários princípios da Lógica de Primeira Ordem. São também apresentadas as estratégias de inferência e extracção de informação, assim como os algoritmos utilizados directamente neste processo. No Capítulo 10, denominado simplesmente Interface, que finaliza a descrição de todo o trabalho realizado, explica-se todo o processo de construção da Interface. Inclui: estudo prévio dos tipos de interface que melhor se adaptam a este tipo de sistema e razões para a escolha do que foi considerado mais adequado; estudo da linguagem de programação a usar; processo de construção da interface propriamente dita, nomeadamente opções de implementação; questões de usabilidade, e também um pequeno manual do utilizador para facilitar o uso da aplicação. O Capítulo 11 apresenta as Conclusões. Além de um resumo em termos gerais do trabalho realizado, apresentam-se aqui algumas conclusões acerca do que foi feito. É também sugerido trabalho a fazer num pequeno subcapítulo de trabalho futuro. Bibliografia e Anexos constituem as secções finais do relatório. Na primeira apresentam-se as referências bibliográficas de trabalhos referidos no relatório. Na segunda apresenta-se a listagem do código de programação desenvolvido. 22 CLG Grupo de Computação do Conhecimento Léxico-Gramatical

Objectivos do Estágio e Contexto do Trabalho 2. Objectivos do Estágio e Contexto do Trabalho O projecto INQUER Interacção Pessoa-Máquina em Linguagem Natural tem como objectivo geral a construção de uma aplicação que permita a interacção em linguagem natural (no formato perguntaresposta) entre um utilizador e um computador, tendo como Base de Conhecimento a WordNet.PT. O Módulo II do projecto, a que respeita este relatório, tem como objectivo específico o desenvolvimento de um mecanismo de Inferência que permita a busca e a extracção de informação da Base de Dados que serve de suporte ao sistema INQUER. Apresenta-se, em seguida, o Plano Detalhado. Este plano é composto pelas fases do Módulo II, delineadas no início do projecto, com uma breve descrição de cada uma delas. 2.1. Plano Detalhado 2.1.1. Definição de Estratégias e Avaliação da Organização Interna da Base de Dados (WordNet.PT) Definição de Estratégias: Esta fase inicial de concepção do projecto envolve toda a planificação da arquitectura do INQUER de modo a que se obtenha uma aplicação robusta e coerente. Efectua-se a divisão do plano inicial em três Módulos autónomos e distribuem-se tarefas diferentes a cada elemento da equipa de investigação. Procede-se ao estudo de bibliografia mais relevante sobre a WordNet em geral e sobre a WordNet.PT em particular, a fim de estudar a sua filosofia e arquitectura. Avaliação da Organização Interna da WordNet.PT: Estudo aprofundado da arquitectura interna da Base de Dados (WordNet.PT) e da interface de construção utilizada (Polaris). Levantamento das Relações Semânticas disponíveis e resumo das suas especificidades. Selecção das Relações Semânticas a tratar no projecto INQUER numa fase inicial. CLG Grupo de Computação do Conhecimento Léxico-Gramatical 23

INQUER Interacção Pessoa-Máquina em Linguagem Natural 2.1.2. Selecção do Método de Pesquisa e da Linguagem de Programação Selecção do Método de Pesquisa: Após conhecer o Polaris (ferramenta de interacção com a WordNet.PT), extrai-se a informação dos vários domínios a implementar para um suporte de texto, por forma a obter uma base de dados num ficheiro.txt. Em seguida, definem-se as estratégias de pesquisa mais indicadas para extrair do ficheiro a informação desejada. Selecção da Linguagem de Programação: Avaliam-se e comparam-se as vantagens e desvantagens de várias linguagens de programação que possibilitam lidar com as especificidades inerentes a um projecto desta natureza. Selecciona-se uma, consoante os resultados do teste anterior. 2.1.3. Construção de um Algoritmo de Pesquisa e de Extracção de Informação Com base no método de pesquisa seleccionado, constroem-se algoritmos que extraiam a informação necessária da Base de Dados. Procede-se ao estudo e implementação do método de inferência do programa que, dada uma frase interrogativa em Forma Lógica, compreende o objectivo da pergunta e extrai a informação que integrará a resposta. 2.1.4. Selecção do Formato Lógico mais adequado para a Representação do Output do Programa Estudo de vários formatos lógicos possíveis para representação do output directo do programa. Selecciona-se o que melhor se adeque e facilite trabalho posterior. 24 CLG Grupo de Computação do Conhecimento Léxico-Gramatical