Buscador Online do CINTIL-Treebank Patricia Nunes Gonçalves, António Branco



Documentos relacionados
Buscador Online do CINTIL-Treebank. Patricia Nunes Gonçalves & António Branco Universidade de Lisboa

CGA Directa. Manual do Utilizador. Acesso, Adesão e Lista de Subscritores

SISTEMA DE INFORMAÇÃO DAS PARTICIPAÇÕES DO ESTADO

Guia de Consulta. Percorrer

MANUAL DO UTILIZADOR

Introdução aos critérios de consulta. Um critério é semelhante a uma fórmula é uma cadeia de caracteres que pode consistir em

Pesquisa e organização de informação

Ministério das Finanças Instituto de Informática. Departamento de Sistemas de Informação

Engenharia de Software e Sistemas Distribuídos. Enunciado Geral do Projecto

Manual do Ambiente Moodle para Professores

Procedimentos para a divulgação de eventos no site da ECUM

Técnicas de pesquisa avançada na Internet

GUIA PARA O PREENCHIMENTO DOS FORMULÁRIOS ENTIDADE GESTORA ERP PORTUGAL

Novo Formato de Logins Manual de Consulta

Auxiliar de pesquisa

MICROSOFT ACCESS MICROSOFT ACCESS. Professor Rafael Vieira Professor Rafael Vieira

Engenharia de Software III

T U T O R I A I S WEB OF SCIENCE TUTORIAL. Biblioteca da Escola de Engenharia da UFRGS. WEB OF SCIENCE - Tutorial

Portal Sindical. Manual Operacional Empresas/Escritórios

Satélite. Manual de instalação e configuração. CENPECT Informática cenpect@cenpect.com.br

Microsoft Office PowerPoint 2007

Ajuda: Pesquisa Web na base de dados Digitarq

Guia de Utilização. A consulta dos e-books não exige a instalação de nenhum programa específico.

Ajuda On-line - Sistema de Portaria. Versão 4.8.J

PARFOR 2014 CURSO INTENSIVO DE ATUALIZAÇÃO DE PROFESSORES DE PORTUGUÊS LÍNGUA MATERNA FLUP

DOCBASE. 1. Conceitos gerais. 2. Estrutura da pasta de associações. 3. A área de documentos reservados. 4. Associação de Imagens

Manual de Utilização. Site Manager. Tecnologia ao serviço do Mundo Rural

UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE ESCOLA AGRÍCOLA DE JUNDIAÍ EAJ - PRONATEC / REDE etec MÓDULO III DESENVOLVIMENTO PROFESSOR ADDSON COSTA

Novell. Novell Teaming 1.0. novdocx (pt-br) 6 April 2007 EXPLORAR O PORTLET BEM-VINDO DESCUBRA SEU CAMINHO USANDO O NOVELL TEAMING NAVIGATOR

Orientação a Objetos

Gescom isales. Aplicação Mobile Profissional para Vendedores

CADASTRO DE CLIENTES

INFORMAÇÃO PROVA DE EQUIVALÊNCIA À FREQUÊNCIA INGLÊS LE I (2 anos) 2015

TIC Unidade 2 Base de Dados. Informação é todo o conjunto de dados devidamente ordenados e organizados de forma a terem significado.

Índice 1 INTRODUÇÃO PESQUISA DE ENTIDADES CRIAÇÃO DE ENTIDADES DEPENDÊNCIAS BANCOS, SEGURADORAS E CONSERVATÓRIAS...

Manual do Usuário. Módulo Agentes Patrimoniais. Versão 1.0.0

Análise e Concepção de Sistemas de Informação

Guia de Estudo Folha de Cálculo Microsoft Excel

Controle do Arquivo Técnico

MATRÍCULA ELECTRÓNICA. Manual do Utilizador

A World Wide Web é um repositório gigantesco de informação gratuita em permanente crescimento e actualização

POLÍCIA DE SEGURANÇA PÚBLICA

Pesquisas Google - O Essencial

MANUAL DO USUÁRIO SORE Sistema Online de Reservas de Equipamento. Toledo PR. Versão Atualização 26/01/2009 Depto de TI - FASUL Página 1

Manual do GesFiliais

Utilizar o Microsoft Offi ce OneNote 2003: Iniciação rápida

OI CONTA EMPRESA MANUAL DO USUÁRIO (exceto Administradores de Conta)

JURINFOR JURIGEST Facturação e Mapas

Guia rápido do utilizador

PROJ. Nº LLP NL-ERASMUS-ECUE

Manual SAGe Versão 1.2 (a partir da versão )

A VISTA BACKSTAGE PRINCIPAIS OPÇÕES NO ECRÃ DE ACESSO

MANUAL DE INSTRUÇÕES

Aplicações de Escritório Electrónico

OCOMON PRIMEIROS PASSOS

POS-Tagging usando Pesquisa Local

Iniciação à Informática

MANUAL DE UTILIZAÇÃO DO SISTEMA GLPI

Serviço Público Federal Universidade Federal do Pará - UFPA Centro de Tecnologia da Informação e Comunicação - CTIC S I E

Guia Site Empresarial

Fluxo de trabalho do Capture Pro Software: Indexação de OCR e separação de documentos de código de correção

Fluxo de trabalho do Capture Pro Software: Indexação de código de barras e separação de documentos

Sistema de Informação de Licenciamento de Operações de Gestão de Resíduos

TRBOnet MDC Console. Manual de Operação

InterCall Online Início

EQUIPE: ANA IZABEL DAYSE FRANÇA JENNIFER MARTINS MARIA VÂNIA RENATA FREIRE SAMARA ARAÚJO

MANUAL SCCARD. Rev.00 Aprovação: 16/08/2010 Página 1 de 19

Barra de ferramentas padrão. Barra de formatação. Barra de desenho Painel de Tarefas

Manual do Visualizador NF e KEY BEST

Algumas vantagens da Teoria das Descrições Definidas (Russel 1905)

Manual de Cobrança. Código Nome De Até 1 Jose da Silva a Jz 2 Ana Maria k Pz 3 Marcelo q zz

Manual do sistema SMARsa Web

Manual de Utilizador Documentos de Transporte. TOConline. Suporte. Página - 1

Manual de utilização Totem de Autoatendimento

Guia do Candidato.

Despachante Express - Software para o despachante documentalista veicular DESPACHANTE EXPRESS MANUAL DO USUÁRIO VERSÃO 1.1

ANDRÉ APARECIDO DA SILVA APOSTILA BÁSICA SOBRE O POWERPOINT 2007

Banco de Dados BrOffice Base

AMBIENTE PARA AUXILIAR O DESENVOLVIMENTO DE PROGRAMAS MONOLÍTICOS

Círculo Fluminense de Estudos Filológicos e Linguísticos

Manual de Utilizador

2 Diagrama de Caso de Uso

PARSER: UM ANALISADOR SINTÁTICO E SEMÂNTICO PARA SENTENÇAS DO PORTUGUÊS

"Manual de Acesso ao Moodle - Discente" 2014

2º CONGRESSO INTERDISCIPLINAR EM SAÚDE E EDUCAÇÃO: MEIO AMBIENTE, CIÊNCIA E QUALIDADE DE VIDA

Restituição de cauções aos consumidores de electricidade e de gás natural Outubro de 2007

Universidade Federal do Espírito Santo. Atividades Complementares. Portal do Professor

Guia de Utilização. Acesso Universal

Integração ADMRH com AGROSYS

Asdasd asdasdasdas sadasdasdasd asdasdasdasd asdasdasdasd asdasdasdasd asdasdasdasd asdasdasdasd asdasdasdasdasdasd. 4. Componentes Multimédia

Rui Hilário SISTEMAS DE INFORMAÇÃO OBJECTIVOS GERAIS. Ensino Recorrente. Dismitificar. ESLC

Índice. Como aceder ao serviço de Certificação PME? Como efectuar uma operação de renovação da certificação?

Tarefa Orientada 18 Tabelas dinâmicas

Manual de Configuração

Prof.: Clayton Maciel Costa

Conteúdo. Disciplina: INF Engenharia de Software. Monalessa Perini Barcellos. Centro Tecnológico. Universidade Federal do Espírito Santo

Programa de Parcerias e Submissão de Propostas 2014/15

Manual de Operação do Sistema de Tickets Support Suite

Criação de Consultas e Relatórios no Access CRIAÇÃO DE CONSULTAS E RELATÓRIOS NO ACCESS

Transcrição:

Buscador Online do CINTIL-Treebank Patricia Nunes Gonçalves, António Branco Faculdade de Ciências da Universidade de Lisboa Abstract This paper describes the CINTIL-Treebank Online Searcher, a freely available online service to search and view the parse and dependency trees of the CINTIL- Treebank. Keywords/Palavras-chave: parse tree; dependency tree; annotated corpus treebank; treebank search; árvores sintácticas; árvores de dependência; corpus anotado; busca em corpora. 1. Introdução Recentemente vêm crescendo os estudos de pesquisa sobre corpora anotados. Em particular, tem crescido o interesse em corpora anotados com árvores que expressam relações de constituência e de dependência gramatical. Para optimizar esses estudos e para melhor tirar proveito desses recursos, tem sido disponibilizado, nas línguas mais utilizadas, ferramentas de buscas sobre corpora. Essas ferramentas permitem pesquisas de nível não trivial no sentido de encontrar no corpus anotado árvores que se conformam em um padrão de busca especificado por um utilizador. Esta tarefa seria de grande esforço caso fosse realizada manualmente sem a ajuda de uma ferramenta computacional. Este trabalho tem como finalidade apresentar o CINTIL-Treebank e uma ferramenta de consulta online a árvores sintácticas deste treebank. Esta ferramenta se apresenta em forma de serviço online e está disponível sem custo a qualquer utilizador. 2. CINTIL-Treebank O CINTIL-Treebank é um corpus anotado em que as frases estão associadas às suas árvores sintácticas e suas relações de constituência e dependência gramatical. O treebank é composto por um recorte do CINTIL-Corpus Internacional do Português (Barreto et al 2006), desenvolvido pela Universidade de Lisboa pelo Grupo REPORT do CLUL-Centro de Linguística 1 e pelo NLX-Natural Language and Speech 2 do Departamento de Informática. O Corpus CINTIL está anotado com categorias morfossintácticas, lemas, informação de flexão e indicação de entidades nomeadas. Para a construção do treebank, a anotação realizada no CINTIL foi herdada e algumas frases desse corpus foi 1 http://www.clul.ul.pt/index.php 2 http://nlx.di.fc.ul.pt

alargada com árvores sintácticas de constituência e dependência, além de etiquetas de papéis semânticos. 2.1. Processo de anotação O trabalho de anotação foi realizado por linguistas de acordo com o método de múltipla anotação independente seguida de adjudicação. A anotação foi realizada com o apoio da gramática computacional LXGram (Branco e Costa, 2008) que realiza processamento linguístico profundo de frases em Português. O processo de anotação funciona da seguinte forma: Para cada frase, a gramática é usada para gerar todas as análises possíveis. O facto de recorrer a uma gramática computacional garante que os diferentes níveis de anotação são consistentes entre si. Após este processamento automático, cada anotador humano tem que escolher a análise que considera correcta. Em caso de divergência entre anotadores na selecção manual, o adjudicador decidirá pela árvore correcta. Este processo de anotação garante grande confiabilidade nas informações geradas. Neste momento, o CINTIL-Treebank está disponível com 1.204 frases, contendo um total de 10.387 tokens. O processo de anotação continua a ser realizado e novas frases estão a ser anotadas para aumentar o tamanho do treebank. 2.2 Árvores de Constituência As árvores de constituência registam as habituais relações entre constituintes sintácticos segundo um esquema X-barra básico. No CINTIL-Treebank, as árvores de constituência encontram-se anotados com três conjuntos de etiquetas: (i) categorias lexicais e sintagmáticas, (ii) funções gramaticais e (iii) papéis semânticos. As etiquetas lexicais e sintagmáticas são acrónimos das designações em inglês das categorias. As etiquetas utilizadas para marcação de papéis semânticos foram inspiradas no trabalho de (Palmer et al 2005). A tabela 1 mostra o conjunto das etiquetas de categorias lexicais e sintagmáticas. Etiqueta Descrição Etiqueta Descrição A Adjectivo DEM Demonstrativo AP Sintagma Adjectival N Nome ADV Advérbio NP Sintagma Nominal ADVP Sintagma Adverbial P Preposição C Complementador PP CP Sintagma Complementador POSS Sintagma Preposicional Possessivo

CARD Cardinal QNT Quantificador CONJ Conjunção S Frase CONJP Sintagma Conjuncional V Verbo D Determinante VP Sintagma verbal Tabela 1: Etiquetas de categorias lexicais e sintagmáticas A tabela 2 mostra o conjunto das etiquetas de funções gramaticais usadas. Etiqueta Descrição C DO IO M N OBL PRD SJ SP Complemento Objecto Directo Objecto Indirecto Modificador Relação de palavras de nome próprio Complemento Oblíquo Predicador Sujeito Especificador Tabela 2: Etiquetas de funções gramaticais A tabela 3 mostra o conjunto das etiquetas de papel semântico utilizadas. Etiqueta Descrição Etiqueta Descrição ADV Adverbial M Modificador ARG1 Primeiro Argumento MNR Modo/Maneira ARG2 Segundo Argumento NULL Nulo ARGA Agente causativo de verbos com alternância causativa PNC Objectivo/Propósito CAU Causa POV Ponto de Vista DIR Direcção PRD Predicação secundária EXT Extensão TMP Tempo LOC Localização Tabela 3: Etiquetas de papel semântico

A figura 1 mostra um exemplo de árvore de constituência da frase A nova ponte já tem nome retirada no CINTIL-Treebank. Figura 1: Árvore de Constituência Em cada um dos nós da árvore de constituência, em muitos casos, a etiqueta é dividida em três partes, separadas por hífen -. A primeira parte indica a categoria sintagmática, a segunda parte indica a função gramatical e a terceira parte o papel semântico. Por exemplo, o nó marcado com NP-SJ-ARG1 está associado como sendo um sintagma nominal (NP) que é sujeito (SJ) com papel semântico de primeiro argumento de predicação verbal (ARG1). 2.3 Árvores de Dependência As árvores de dependência codificam as relações entre palavras de acordo com as funções gramaticais relevantes. Estas árvores são constituídas por arcos dirigidos que conectam palavras. Estes arcos estão decorados com funções gramaticais (Hellwig, 1986). A figura 2 mostra um exemplo de árvore de dependência para a frase A nova ponte já tem nome retirada do CINTIL-Treebank. Figura 2: Árvore de Dependência 3. Buscador Online do CINTIL-Treebank O Buscador Online do CINTIL-Treebank é um serviço online para a busca e visualização das árvores sintácticas e de dependência do CINTIL-Treebank.

Este serviço está a ser desenvolvido e mantido pelo NLX-Grupo de Fala e Linguagem Natural da Universidade de Lisboa e encontra-se disponível no endereço electrónico (http://cintiltreebank.di.fc.ul.pt/). Tem como objectivo servir de apoio para estudantes de computação e linguistas interessados em pesquisa baseada em corpus anotado ou de qualquer outra área que envolve o estudo gramatical da língua Portuguesa. 3.1. Consulta no Buscador Online CINTIL-Teebank Para realizar uma busca por árvores de constituência, o Buscador recebe como entrada a descrição da estrutura com base no padrão de consulta da Tregex (Levy e Andrew, 2006), um motor de busca para árvores sintácticas. A sintaxe de consulta apesar de ser bastante simples segue algumas condições de boa formação que devem ser respeitadas. Na tabela abaixo é apresentado a sintaxe e os símbolos usados para pesquisa nas árvores sintácticas. Esse tipo de sintaxe é usada combinando símbolos específicos usados na busca e as etiquetas descritas na secção 2.2. Símbolo Significado Exemplo A << B A domina B NP << N A >> B A é dominado por B V >> VP A < B A domina imediatamente B PP < P A > B A é imediatamente dominado por B CONJ > NP A $ B A é irmão de B NP $ CONJ A.. B A precede B P.. POSS-M A. B A precede imediatamente B CONJ. VP A,, B A segue B CARD,, VP A, B A segue imediatamente B D-SP, NP-C A >>, B A é o descendente mais à esquerda de B VP >>, P A >>- B A é o descendente mais à direita de B PP >>- N A >, B A é o primeiro filho de B PP >, P A >- B A é o último filho de B PP >- NP-C A >i B A é o i-ésimo filho de B ADV >1 ADVP A >: B A é o único filho de A N >: NP @A Etiquetas com a categoria sintagmática A @NP Tabela 4: Sintaxe e símbolos para pesquisa

Os símbolos podem ser combinados para aumentar a expressividade da consulta. Para ilustrar a sintaxe de consulta usando a combinação de símbolos, considere o exemplo: S<VP<<NP-DO-ARG2. Esta consulta realiza a busca por árvores sintácticas que contêm um nó (S) que domina imediatamente um sintagma preposicional (VP) e que também domina (não imediatamente) um sintagma nominal (NP) com função gramatical de objecto directo (NP-DO). Quando a consulta é realizada, as frases que correspondem o padrão solicitado são mostradas ao utilizador como resposta, como mostra a figura 3. Figura 3: Buscador Online CINTIL-Treebank O utilizador pode parametrizar o número de frases retornadas. No exemplo acima são mostradas apenas as 5 primeiras frases que respeitam esse padrão. Para este padrão foram encontradas um total de 455 frases em todo o corpus. As próximas frases podem ser pesquisadas com a ajuda dos botões com setas que encontram-se acima das frases. A árvores de constituência e de dependência podem ser visualizadas quando o utilizador escolhe a frase desejada. As imagens com as árvores aparecerão logo abaixo e a frase seleccionada fica indicada na tela. A figura 4 mostra as árvores de constituência e de dependência da primeira frase que foi seleccionada.

Figura 4: (i) Árvore de constituência (ii) Árvore de dependência 3.1.1 Consulta avançada O sistema permite a expansão da consulta, para isto, o utilizador pode fazer uso de expressões regulares, bastando para isso colocar a expressão a procurar entre barras. A pesquisa usando expressões regulares no Buscador Online do CINTIL-Treebank segue os símbolos usuais estabelecidos para este tipo de pesquisa: Alternância: as pesquisas alternativas são marcadas com uma barra vertical:. Por exemplo: /NP VP/ dá como resultado todas as árvores sintácticas com sintagmas verbais ou sintagmas nominais. Iteração: Para uma busca por iteração, os operadores.* (ponto e asterisco) faz com que o caracter ou expressão que o precede seja realizado zero ou mais vezes. Por exemplo: /NP.*/ dá como resultado todas as árvores sintácticas em que a etiqueta inicie por NP, por exemplo: NP, NP-C, NP-M e NP-SJ. Delimitadores: Para delimitar o início e o fim de alguma etiqueta podemos usar os caracteres especiais ^ e $. Esse tipo de pesquisa é útil quando se deseja procurar árvores sintácticas com uma composição de etiquetas gramaticais e papéis semânticos. Por exemplo: /^NP.*.ARG1$/ dá como resultado todas as árvores sintácticas em que a etiqueta se inicia por NP e que tenha qualquer outra etiqueta no meio mas obrigatoriamente termine com a etiqueta ARG1, indicando o papel semântico de primeiro argumento, por exemplo: NP-DO- ARG1 e NP-SJ-ARG1. 3.1.2 Outras formas de consulta Outras formas de consultas foram desenvolvidas com base na necessidade dos utilizadores. Uma delas é a consulta por palavras. As palavras encontram-se nas folhas das árvores sintácticas. Para realizar a pesquisa por palavras basta digitá-la na caixa de texto de pesquisa. Por exemplo:

A pesquisa por palavras está associada ao padrão em que ela se encontra no treebank, podendo estar escrita usando letra minúscula, maiúscula ou usando maiúscula e minúscula. Para cobrir tais casos na busca de resultados, a pesquisa deve explicitamente contemplar as diferentes formas de escrita usando o operador de alternância, como demonstra a imagem abaixo: Todas as frases do CINTIL-Treebank possuem um identificador único. O identificador é mostrado ao utilizador juntamente com as respostas, após a pesquisa. Esse identificador serve para uma procura rápida e posterior quando alguma frase anteriormente seleccionada na pesquisa venha a servir de exemplo. Para realizar a pesquisa pelo identificador da frase, é necessário que o número correspondente devolvido na resposta seja anotado. A pesquisa é então feita usando a palavra "ID:", como mostra o exemplo a seguir: A consulta no Buscador Online do CINTIL-Treebank disponibiliza uma opção para busca por árvores que não contenham determinado padrão, o que é chamado de pesquisa invertida. Para realizar a pesquisa invertida é necessário acrescentar a palavra "INV" seguida de dois pontos ":" e logo em seguida serão devolvidas frases onde o padrão solicitado não foi encontrado. Com o exemplo acima, todas as frases que não contenham um sintagma verbal serão seleccionadas e mostradas ao utilizador. Esse tipo de pesquisa é muito útil quando é necessário pesquisar algum fenómeno pouco frequente na língua.

3. Conclusão Neste artigo apresentamos o CINTIL-Treebank. Este treebank foi construído com o apoio de uma gramática computacional para o Português. Esta gramática é usada para gerar todas as análises possíveis de uma frase, cabendo então aos anotadores humanos seleccionar a análise correcta entre todas as que foram geradas. Actualmente o treebank contém 1204 frases, sendo que o processo de anotação continua a ser desenvolvido com o objectivo de se alargar o corpus anotado. Apresentamos também o Buscador Online do CINTIL-Treebank, um serviço online e disponível gratuitamente para pesquisa e estudo da língua portuguesa. A ferramenta de busca possui uma linguagem rica e poderosa que permite buscas de estruturas complexas no treebank. Como resultado é possível visualizar as árvores de constituência e de dependência deste treebank. Referências Barreto, Florbela; Branco, Antóinio; Ferreira, Eduardo; Mendes, Amália; Nascimento, Maria Fernanda; Nunes, Filipe e Silva, João (2006), Open Resources and Tools for the Shallow Processing of Portuguese: The TagShare Project, Proceedings of the 5th LREC, 2006. Genova, Italy. Branco, António e Costa, Francisco (2008). A Computational Grammar for Deep Linguistic Processing of Portuguese: LX-Gram, version A.4.1 Relatório Técnico. Universidade de Lisboa. Departamento de Informática Hellwig, Peter. (1986). Dependency Unification Grammar. In Proceedings of the 11th Conference on Computational Linguistics (Bonn, Germany, August 25-29, 1986). International Conference On Computational Linguistics. Association for Computational Linguistics, Morristown, NJ, 195-198. Levy, Roger e Andrew, Galen (2006). Tregex and Tsurgeon: tools for querying and manipulation tree data structures. In Proceedings of The International Conference on Language Resources and Evaluation -LREC 2006. Disponibilizado em http://nlp.stanford.edu/pubs/levy_andrew_lrec2006.pdf. Palmer, Martha; Gildea, Daniel e Kingsbury, Paul (2005). The Proposition Banks: An Annotated Corpus of Semantic Roles. Computational Linguistics vol. 31, No. 1, pp. 71-106.