O Sistema de Anotação Sintática em um Corpus. Eletrônico do Português: propostas e desafios. Silvia Regina de Oliveira CAVALCANTE.

Documentos relacionados
COMPUTAÇÃO E LINGUÍSTICA: UM APLICATIVO WEB PARA BUSCAS AUTOMÁTICAS NO CORPUS DIGITAL DOVIC

A ORDEM LINEAR DOS CONSTITUINTES VERBO- SUJEITO EM ORAÇÕES RAÍZES EM TEXTOS DO CORPUS TYCHO BRAHE

A REALIZAÇÃO DO SUJEITO PRONOMINAL DE REFERÊNCIA ARBITRÁRIA NA COMUNIDADE LINGUÍSTICA DE VITÓRIA DA CONQUISTA *

A ORDEM DE AQUISIÇÃO DOS PRONOMES SUJEITO E OBJETO: UM ESTUDO COMPARATIVO 10

Introdução a uma abordagem formal da sintaxe Teoria X-barra, II

ABORDAGENS QUANTITATIVAS E PERSPECTIVAS FORMAIS: REPERCUSSÕES SOBRE O ESTUDO DE MUDANÇAS GRAMATICAIS DO PORTUGUÊS 22

TÓPICO III: INTRODUÇÃO A UMA ABORDAGEM FORMAL DA GRAMÁTICA 1. Teoria X-barra (ou: dos Constituintes Sintáticos)

Diagramas em árvore. Luiz Arthur Pagani (UFPR)

Do português histórico ao kadiwéu: uma plataforma multilingue de corpora anotados

(2) SN N (SP)/(Adj) {gerando por exemplo: SN = N-livro SP-de chocolate; SN = N-rabo Adj-amarelo]

Uma proposta de arquitetura

PRONOMES E CATEGORIAS VAZIAS EM PORTUGUÊS E NAS LÍNGUAS ROMÂNICAS, UMA CONVERSA COM SONIA CYRINO

a) houve uma mudança na direção de cliticização do PB (NUNES, 1996); b) os pronomes retos estão sendo aceitos em função acusativa;

Análise Sintática de Frases utilizando Gramáticas Livres de Contexto Probabilísticas

Nona semana do curso de Linguística III Professor Alessandro Boechat de Medeiros Departamento de Linguística e Filologia. A Teoria da Ligação

A AQUISIÇÃO DE SUJEITO NULO NO PORTUGUÊS BRASILEIRO (PB): UM ESTUDO COMPARATIVO 1

Semântica no Reconhecedor Gramatical Linguístico

PLANO DE ENSINO SEMESTRE: 2016_1

Funções gramaticais: Objeto direto e indireto. Luiz Arthur Pagani (UFPR)

A FLEXÃO PORTUGUESA: ELEMENTOS QUE DESMISTIFICAM O CONCEITO DE QUE FLEXÃO E CONCORDÂNCIA SÃO CATEGORIAS SINTÁTICAS DEPENDENTES 27

A SELEÇÃO ARGUMENTAL NA AQUISIÇÃO DE PORTUGUÊS ESCRITO POR SURDOS

6 Atributos. A dívida da empresa subiu.

1. Teoria X-barra (ou: dos Constituintes Sintáticos)

A HIPOSSEGMENTAÇÃO E HIPERSEGMENTAÇÃO NOS DOCUMENTOS INÁBEIS PORTUGUESES E BRASILEIROS 30

Círculo Fluminense de Estudos Filológicos e Linguísticos

Ferramenta de apoio a identificação de eventos utilizando Linguagem Natural. Aluno: Ricardo Tomelin Orientador: Everaldo Artur Grahl

FFLCH/DLCV-USP- 2º SEMESTRE DE 2015 FILOLOGIA E LÍNGUA PORTUGUESA - FLC0284 TURMAS: / / PROFA. DRA. MÁRCIA S. D.

Avaliar o comportamento das crianças DEL no que concerne ao valor dado à informação de pessoa em Dmax e no afixo verbal;

Classes gramaticais: Verbo e nome. Luiz Arthur Pagani (UFPR)

A posição dos clíticos na escrita de Missivistas Cultos no século XIX: um caso de competição de gramáticas

OBJETO DIRETO E OBJETO INDIRETO EM UM LIVRO DIDÁTICO: GRAMÁTICA NORMATIVA VS. GRAMÁTICA EXPLICATIVA/GERATIVA

TIPOS DE SINTAGMAS E REPRESENTAÇÕES ARBÓREAS FUNDAMENTOS DE SINTAXE APOIO PEDAGÓGICO 23/05/2018 SAULO SANTOS

ARQUÍDIA. Um recurso em construção. Sandra Pereira

Aula10 OUTRAS ESTRUTURAS ORACIONAIS POR SUBORDINAÇÃO

7 Experimentos com Tarefas de PLN

28/04/2011 SINTAXE PARTE 1. SCC5908 Tópicos em Processamento de Língua Natural. Thiago A. S. Pardo SINTAXE E GRAMÁTICAS

A/ART casa/n caiu/v./. Figura 3.1: Frase com anotação morfossintática.

24/09/2010 SINTAXE PARTE 2. SCC5869 Tópicos em Processamento de Língua Natural. Thiago A. S. Pardo PARSING PROBABILÍSTICO

O sujeito pré-verbal focalizado informacionalmente em português: prosódia e posição sintática

O código do modelo de mapeamento sintático-conceitual do sistema ConPor

AQUISIÇÃO DE CLÍTICOS E ESCOLARIZAÇÃO

edictor 1.0 beta 010 M a n u a l F e v e r e i r o, Paixão de Sousa, Kepler & Faria 2010 Versão 2014 do Manual: Igor Leal

AQUISIÇÃO DAS RELATIVAS PADRÃO EM PB DURANTE A ESCOLARIZAÇÃO

IX SEMINÁRIO DE PESQUISA E ESTUDOS LINGUÍSTICOS 21 e 22 de setembro de 2017

Um dos principais filtros impostos pela estrutura de superfície é o filtro de Caso. O filtro de Caso pode ser expresso da seguinte maneira:

1 Introdução. 1 Neste estudo, será utilizando tanto o termo em inglês parsing, como o termo traduzido análise

Grupo de Estudos em Lingüística Formal, Lingüística Computacional e Lingüística Comparada GELFOCO

AGRUPAMENTO DE ESCOLAS DANIEL SAMPAIO. Departamento de 1º Ciclo. Ano letivo 2016/2017 PLANIFICAÇÃO A LONGO PRAZO. 4º ANO DISCIPLINA: Português

O OBJETO DIRETO ANAFÓRICO E SUAS MÚLTIPLAS REALIZAÇÕES NO PORTUGUÊS BRASILEIRO

COLÉGIO SANTA TERESINHA

Introdução: uma palavra inicial para confortar o coração...

Sumarizando: o que é uma língua. Métodos para seu estudo...44

PRÓCLISE AO AUXILIAR NAS LOCUÇÕES VERBAIS SOB QUE CONDIÇÕES? (PROCLISIS TO THE AUXILIARY IN VERBAL LOCUTIONS UNDER WHAT CONDITIONS?

Língua Portuguesa. Professoras: Fernanda e Danúzia

50 GEL GRUPO DE ESTUDOS LINGÜÍTICOS ESTUDOS LINGÜÍTICOS, vol 32, p

Fechando a estrutura formal da sentença

ESTARÁ O PORTUGUÊS BRASILEIRO DEIXANDO DE SER LÍNGUA DE SUJEITO-PREDICADO? *

Compiladores. Motivação. Tradutores. Motivação. Tipos de Tradutores. Tipos de Tradutores

Is he a book? Animacy restrictions of the overt pronoun in European Portuguese

(1) A análise dos resultados experimentais indicaram um efeito principal de número do núcleo interveniente no processamento da concordância.

Relatório. Ano lectivo

DOMÍNIOS DE Revista Eletrônica de Lingüística Ano 1, nº1 1º Semestre de 2007 ISSN

Apresentação Conceitos básicos Gramática, variação e normas Saberes gramaticais na escola... 31

Apresentação 11 Lista de abreviações 13. Parte I: NATUREZA, ESTRUTURA E FUNCIONAMENTO DA LINGUAGEM

Língua Barroca: Sintaxe e História do Português nos A p ê n d i c e. apêndice [ i ]

FLL5072 Semântica Intensional Aula 9(10)

Sexta semana do curso de Linguística III Professor Alessandro Boechat de Medeiros Departamento de Linguística e Filologia.

Aula- conferência ministrada por: Francisco João Lopes Doutorando DLCV- FFLCH- USP Sob orientação: Profª Drª Márcia Oliveira

O ESTATUTO INFORMACIONAL E A POSIÇÃO DO SUJEITO NAS PASSIVAS ANALÍTICAS E ADJETIVAS NA HISTÓRIA DO PORTUGUÊS

17/09/2010 SINTAXE PARTE 1. SCC5869 Tópicos em Processamento de Língua Natural. Thiago A. S. Pardo SINTAXE E GRAMÁTICAS

E-Dictor 1.0 beta. M a n u a l. F e v e r e i r o, Paixão de Sousa, Kepler & Faria 2010

Comentários a respeito do artigo Sobre a questão da influência ameríndia na formação do português do Brasil, de Lúcia Lobato*

A COLOCAÇÃO DE CLÍTICOS NAS ORAÇÕES COORDENADAS NO CORPUS HISTÓRICO DO PORTUGUÊS TYCHO BRAHE

Sintaxe dialectal: métodos de obtención de datos. Os horizontes do CORDIAL-SIN (Corpus Dialetal para o Estudo da Sintaxe)

10 Síntese e considerações finais

Morfologia, Sintaxe e Morfossintaxe substantivo, verbo, Morfologia. Morfologia classes gramaticais

Corretor Gramatical Para o Emacs

Português. Profa. Flávia Rita

PORTUGUÊS III Semestre

Sumário PARTE 1. Gramática

1 Introdução. (1) a. A placa dos automóveis está amassada. b. O álbum das fotos ficou rasgado.

Curso: Letras Português/Espanhol. Disciplina: Linguística. Docente: Profa. Me. Viviane G. de Deus

Funções gramaticais: Sujeito e predicado. Luiz Arthur Pagani (UFPR)

O ESTUDO DO VOCABULÁRIO

1 Introdução. atrasos e/ou desordens no processo de aquisição da gramática em ausência de qualquer comprometimento de outra natureza.

CP Compiladores I Prof. Msc.. Carlos de Salles

Recapitulando... Abordagens: PLN. Abordagens: PLN 29/03/2012. Introdução ao Processamento de Línguas Naturais. Distribuição de palavras

Vimos que os movimentos deixam vestígios. Mas o que são vestígios?

INTRODUÇÃO À MORFOLOGIA. Expor os princípios básicos da Morfologia, segundo a Gramática Descritiva.

O ESTUDO DAS PALAVRAS

ABORDAGENS COMPUTACIONAIS da teoria da gramática

Introdução à Psicolingüística. Disciplina: Teorias Lingüísticas II Professor: Márcio Leitão

1.1 Tema Aprendizado de Máquina (Mit97) é o campo da Inteligência Artificial responsável pelo desenvolvimento de modelos inferidos automaticamente a

A realização do sujeito Expletivo no Português: uma análise derivacional

CAPÍTULO 1 O ESTUDO DAS PALAVRAS

Processamento de Linguagem Natural

GRAMÁTICA MODERNA DA LÍNGUA PORTUGUESA

AGRUPAMENTO de ESCOLAS de SANTIAGO do CACÉM Ano Letivo 2016/2017 PLANIFICAÇÃO ANUAL

Transcrição:

O Sistema de Anotação Sintática em um Corpus Eletrônico do Português: propostas e desafios Silvia Regina de Oliveira CAVALCANTE silviare@gmail.com UFF / UNICAMP V Congresso Internacional da ABRALIN Fevereiro de 2007

1 Apresentação Este trabalho tem como objetivo apresentar o sistema de anotação sintática adotado para o Corpus Tycho Brahe, bem como discutir os desafios inerentes ao processo de anotação sintática, tanto do ponto de vista lingüístico quanto do ponto de vista tecnológico. O processo de anotação sintática consiste basicamente em duas fases (1) fase de anotação manual dos dados e (2) treinamento do analisador sintático, o parser. O parser é um algoritmo que atribui uma determinada estrutura sintática à seqüência de palavras de um texto etiquetado morfologicamente. A partir das etiquetas morfológicas, o parser constrói uma estrutura sintática, em forma de sintagmas e via de regra preserva as etiquetas morfológicas. Atualmente, o Corpus Tycho Brahe conta com um parser desenvolvido na Universidade da Pensilvânia por Daniel Bikel (cf. Bikel 2004) que é treinado com dados de várias línguas, pois pretende dar conta de um maior número de línguas possível. É esse o algoritmo utilizado na anotação sintática do Penn-Helsink Parsed Corpus of English, coordenado pelo Professor Antnhony Kroch, que colabora com o Projeto Temático Padrões Rítmicos Fixação de Parâmetros e Mudança Lingüística. Numa língua morfologicamente rica como o português, as etiquetas recebem sub-etiquetas que indicam aspectos da morfologia, tais como flexão de número (plural), gênero (feminino) e os tempos e modos verbais (presente do indicativo, futuro do subjuntivo, etc.), como vimos com o trabalho de Namiuti. No caso do Corpus Tycho Brahe, não são etiquetadas ainda marcas de pessoa e número verbais, mas isso não impede que se possa marcá-las: no Cordial- Sin, Corpus Dialetal do Português, da Universidade de Lisboa, essas marcas são etiquetadas. 1

Assim, uma palavra como viu recebe no Corpus Tycho Brahe a etiqueta VB-D, que indica verbo no pretérito perfeito, e no Cordial-Sin, recebe a etiqueta VB-D-3S, o que indica, além do tempo e modo verbais, a terceira pessoa do singular. Na primeira fase do Projeto, também se decidiu marcar as contrações por meio do sinal +, como por exemplo no caso de contração de preposição com determinante (P+D: no ), ou no caso de ênclises (VB-P+SE: vende-se ). Com base numa sentença etiquetada, como (1a), a anotação sintática será algo como (1b): (1) a. A/D-F menina/n-f viu/vb-d os/d-p meninos/d-p em/p casa/n b. (IP-MAT (NP-SBJ (DP (D-F A) (N-F menina))) (VB-D viu) (NP-ACC (DP (D-P os) (N-P meninos))) (PP (P em) (N casa))) Pode-se ver nessa configuração, que o sistema de anotação sintática que adotamos é uma árvore em parênteses etiquetados cujos rótulos dos sintagmas obedecem, via de regra, às etiquetas morfológicas. Uma sentença declarativa será um IP-MAT, um IP matriz, ao passo que uma subordinada será um CP, que seleciona um IP-SUB, um IP subordinado. Todos os sintagmas são diretamente ligados ao nó raiz: o sujeito (NP-SBJ), o verbo (VB-D), o objeto direto (NP-ACC) e o sintagma preposicional (PP). Um determinante seguido de um nome projeta um sintagma determinante (DP): Os/D-P meninos/n-p : (DP (D-P Os) (N-P meninos)); uma preposição seguida de um nome pro- 2

jeta um sintagma preposicional (PP): em/p casa/n : (PP (P em) (N casa)). Não se projeta, entretanto, um sintagma verbal, como VP. Daí decorre que se vale de uma estrutura plana ( flat ) adaptação da Teoria X-barra em que todos os nós estão ligados ao IP-MAT. As relações entre os nós são de dois tipos: dominância e precedência. Em (1b), o IP-MAT domina imediatamente os nós NP-SBJ, VB-D, NP-ACC e PP. O nó NP-SBJ precede imediatamente VB-D, e precede NP-ACC e PP. As buscas são feitas com base nessas relações. Para estudar a variação SV-VS em sentenças matrizes, com sujeito lexicais, por exemplo, devemos escrever um comando de busca do tipo: IP-MAT domina imediatamente NP-SBJ e VB-*. NP-SBJ domina imediatamente DP, e NP-SBJ precede VB-*, para termos as sentenças com ordem SV. Para capturarmos as sentenças VS, basta especificar que VB-* precede NP-SBJ. Essa ramificação tem como base a Teoria X-barra (cf. Haegeman 1994, Mioto et al. 1999), sem ter como requisito ramificações binárias, mas sim eneárias, como vimos em (1b). Isso facilita tanto o parser, pois a estrutura arbórea fica mais simples para o algoritmo, bem como as buscas que serão feitas no corpus anotado sintaticamente. Além disso, numa estrutura com ramificação binária típica da Teoria X-barra, como vemos em (2a) a seguir, são representados resultado de movimento, categorias vazias, que numa ramificação em que não projetamos o VP, tornam-se desnecessárias, como em (2b): (2) a. [ IP Pedro i [ I [ I ama v [ VP [ V [ V t v Maria ]]]]]] b. [ IP MAT [ NP SBJ Pedro] [ VB P ama] [ NP ACC Maria]] Como a estrutura se inspira na Teoria X-barra, alguns pressupostos são preservados, tais como toda sentença tem uma posição de sujeito. Daí, numa sentença com sujeito nulo, é 3

projetado um sintagma NP-SBJ, porém com uma categoria vazia do tipo pro: (3) (IP-MAT (NP-SBJ *pro*) (VB-D vimos) (NP-ACC (NPR Maria)) (ADVP (ADV ontem))) Daí se observa que a anotação sintática não deve, e nem pretende, seguir as tendências de análise mais recente propostas pela Teoria Gerativa. Por exemplo, algumas análises dentro das versões mais recentes do Programa Minimalista, como a de Kato 1999, propõem que se tire a categoria pro do sistema, por razões de economia. A desinência verbal e o pro seriam categorias redundantes, por isso a tendência a não considerar pro no sistema. A intenção em apresentar um corpus anotado sintaticamente é apresentar o maior número possível de dados a serem analisados, e não apresentar uma análise dos dados. Por isso, se fez necessário estabelecer critérios sistemáticos de anotação sintática. É com essa premissa que se propuseram algumas modificações no sistema de anotação sintática implementado num primeiro momento para o Corpus Tycho Brahe (cf. Britto 2001). Apresentarei agora algumas modificações do ponto de vista lingüístico que foram realizadas no sistema de anotação sintática para depois apresentarmos alguns desafios computacionais, ou operacionais, que aparecem ao longo do trabalho de anotação sintática. 4

2 Algumas Reformulações no Sistema de Anotação Sintática Nesta seção, vou discutir algumas modificações que se fazem necessárias implementar no sistema de anotação sintática do Corpus Tycho Brahe, para simplificar o sistema e apresentar maior uniformidade no tratamento de dados. A título de exemplificação, mostro como se decidiu marcar os clíticos, principalmente os enclíticos, e as contrações, a fim de que se obtivesse um certo paralelismo. 2.1 Colocação Pronominal As etiquetas morfológicas marcam além das classes gramaticais, marcas flexionais, e contrações. Um clítico proclítico, por exemplo, é marcado como uma palavra separada do verbo, ao passo que o clítico enclítico é marcado como um sufixo ao verbo. Compare-se (4a) com (4b) a seguir: (4) a. Jo~ao/NPR a/cl ama/vb-p b. Jo~ao/NPR ama-a/vb-p+cl O resultado desse tipo de etiquetagem é que, para preservar a morfologia, a anotação sintática teve que levar em conta categoria vazia gerada por movimento (representada por (CL *T*-1), o que faz com que a ênclise desapareça dentro da sentença, e também faz com que o paralelismo entre uma sentença com objeto lexical e com clítico se perca. Compare-se a sentença (5a) com (5b) a seguir: na primeira o clítico faz parte do sintagma do objeto, ao passo que no segundo, o objeto tem um vestígio de movimento. A configuração em (5c), em que há um objeto direto lexical não é paralela à sentença com clítico: 5

(5) a. (IP-MAT (NP-SBJ (NPR Jo~ao)) (NP-ACC (CL a)) (VB-P ama)) b. (IP-MAT (NP-SBJ (NPR Jo~ao)) (VB-P+CL-1 ama-a) (NP-ACC (CL *T*-1))) c. (IP-MAT (NP-SBJ (NPR Jo~ao)) (VB-P ama) (NP-ACC (NPR Maria))) Ao contrário, se estabelecermos um sistema de anotação sintática em que essas etiquetas morfológicas são separadas, a diferença entre próclise e ênclise, do ponto de vista da configuração, é a ordem dos elementos na sentença. Obviamente, que essa anotação sintática não pressupõe qualquer análise sobre colocação pronominal, mas possibilita um acesso mais direto à diferença na colocação pronominal e também uma certa homogeneidade que facilita o aprendizado do parser. A sugestão pode ser vista a seguir com as sentenças em (6a) e (6b) a seguir: (6) a. (IP-MAT (NP-SBJ (NPR Jo~ao)) (NP-ACC (CL a)) (VB-P ama)) b. (IP-MAT (NP-SBJ (NPR Jo~ao)) (VB-P ama) (NP-ACC (CL a))) No sistema de anotação sintática, temos que pensar também em como as buscas vão ser implementadas. As configurações em (6a) e (6b) diferem pela ordem dos clíticos em relação ao verbo. Além disso, como há um paralelismo de representação entre a sentença com objeto lexical (5c) e as com clítico (6), isso facilitaria uma pesquisa sobre a variação do objeto direto: lexical, clítico ou oracional, por exemplo. 6

Além das vantagens de ordem tecnológica, esse tipo de configuração pode ser condizente com a variação de ortografia no que tange à colocação pronominal que ocorreu em períodos anteriores do português: os pronomes tanto enclíticos quanto proclíticos poderiam aparecer junto ao verbo: medisse, disseme. 2.2 As contrações Dadas as características morfológicas do português, as contrações marcadas na etiquetagem morfossintática causaram um problema para a anotação sintática. Consideremos os exemplos a seguir: (7) mostra como fica a estrutura de um sintagma preposicional com contração da preposição com um determinante (P+D) e (8) mostra como fica o sintagma preposicional quando não há contração da preposição: (7) a. Jo~ao/NPR sentou/vb-d no/p+d ch~ao/n b. (IP-MAT (NP-SBJ (NPR Jo~ao)) (VB-D sentou) (PP (P+D no) (N ch~ao))) (8) a. Jo~ao/NPR ficou/vb-d em/pp casa/n b. (IP-MAT (NP-SBJ (NPR Jo~ao)) (VB-D ficou) (PP (P em) (N casa))) Ao tentar preservar as informações morfológicas (contração da preposição com o determinante) na anotação sintática, acaba-se gerando um braketing paradox : como que a preposição mais o determinante vão projetar um sintagma preposicional? E há outros tipos de contrações, como preposição mais clítico: pelos/p+cl fazer/vb; preposição mais pro- 7

nome: dele/p+pro; preposição mais quantificador: n algum/p+q, etc. Desse modo, quando se tratar de um sintagma preposicional, cujo núcleo esteja contraído com um elemento determinante, a projeção não vai corresponder ao núcleo. A sugestão que se dá é que se desfaçam todas as contrações na etiquetagem morfossintática no arquivo a ser submetido ao parser. Assim, nossa árvore ficará da seguinte forma: (9) a. Jo~ao/NPR sentou/vb-d em/pp o/d ch~ao/n b. (IP-MAT (NP-SBJ (NPR Jo~ao)) (VB-D sentou) (PP (P em) (DP (D o) (N ch~ao)))) Desse modo, ocorre um paralelismo em que todo PP será a projeção de um P. A configuração em (9a) pode facilitar buscas para a pesquisa da variação no uso do artigo diante de possessivo, por exemplo. Em sintagmas preposicionais, anotados sintaticamente como em (7), o artigo desaparece diante do possesssivo. Ao contrário, numa versão editada, as buscas são facilitadas. A análise que virá dos contextos em que há a contração ficará a cargo de pesquisas específicas, e não do sistema de anotação sintática. Uma questão que se pode levantar é que com esse tipo de edição muitas informações relevantes sobre a morfologia poderão se perder na estrutura anotada sintaticamente. Aí entra a integração entre os vários momentos de tratamento computacional de um mesmo texto. Como Paixão de Sousa expôs, as várias camadas de um mesmo texto estão ligadas por meio da codificação em XML. 8

Nesse formato, há várias edições: a edição original, a edição modernizada e o que chamaremos de edição técnica. Na edição original, o texto é apresentado com sua ortografia original, além de se preservar as contrações, abreviaturas, etc., o que viabiliza estudos históricos. Na edição modernizada, ocorre a modernização da ortografia, as abreviaturas são abertas, mas se preservam ainda algumas contrações, como as que ainda vigoram hoje: do, naquele, pelo, fazê-los, etc., o que facilita a leitura dos textos por pessoas que não estão necessariamente interessadas nos aspectos históricos. A edição técnica apresentará além da grafia modernizada, algumas modificações que viabilizem a anotação sintática. Além de desfazer as contrações de preposição com um outro elemento (pelo/p+d : por/p o/d; polos/p+cl fazer/vb : por/p os/cl fazer/vb), também vamos editar pronomes enclíticos, como mencionei na seção 2.1 (lavou-se/vb-d+se : lavou/vb-d se/se). Isso não significará de forma alguma perda nas informações dos textos, mas apenas preparação para submetê-los a ferramentas computacionais. Como os textos são tratados com a linguagem XML, como explica Paixão de Sousa (2004b, 2005), cada texto é apresentado em várias versões e cada sentença é identificada, de modo que se pode ter acesso a todas as camadas de cada texto. Assim, para fins de implementação das ferramentas computacionais, como o etiquetador morfológico e o analisador sintático, são operadas determinadas transformações que só modificam esses textos e que viabilizam uma pesquisa sobre um tema específico do ponto 9

de vista lingüístico, como ordenamento de constituintes na sentença, colocação pronominal, uso de determinadas preposições, etc.. O original está preservado para qualquer outro tipo consulta, lingüística ou histórica. 3 Desafios Nesta seção, apresento dois desafios à anotação sintática que apareceram principalmente ao iniciar dos trabalhos com a anotação sintática das Memórias do Marquês da Fronteira e d Alorna (1802), em desenvolvimento. Discutirei aqui dois pontos importantes: a questão da precisão do parser (sua performance) e a questão das ferramentas computacionais utilizadas na anotação sintática. Conforme já foi mencionado, o parser utilizado para os textos do Corpus Tycho Brahe está na Universidade da Pensilvânia e foi desenvolvido, não para o português, mas para um grande número de línguas. Advoga-se, inclusive, o objetivo do autor em desenvolver um parser universal. Desse modo, como os dados do português ainda não são tão numerosos até agora só foram utilizadas 100.000 palavras para treinar o parser, ainda estamos distantes de uma precisão como o etiquetador desenvolvido especialmente para o Corpus Tycho Brahe, o tagger de Finger, apresenta. Atualmente, o tagger apresenta em torno de 96% de acerto na sua etiquetagem, e o parser não chega aos 20%. Um parser universal vai identificar padrões comuns entre várias línguas, entre elas o Inglês e o Português, por exemplo. Isso pode diminuir o avanço da precisão para o português. Um exemplo desse problema é que o parser utilizado se baseia principalmente na ordem dos 10

constituintes da sentença para fazer suas previsões sobre as categorias sintáticas a serem anotadas num texto. Uma língua como o português, principalmente o Português Clássico e Português Europeu apresenta a maioria dos seus sujeitos como uma categoria vazia (cf. Duarte (1995, 2000) e Paixão de Sousa (2004a)), contrariamente ao que ocorre com o Inglês (de diferentes fases). Assim, os resultados das anotações sintáticas do parser estão, por enquanto, muito precários, pois na maioria das sentenças dos textos em português não ocorre um Sintagma Nominal precedendo o sujeito, o que poderia ser o fator desencadeador da marcação do sujeito na sentença. Nos exemplos em (10) a seguir, retirados das Memórias do Marquês da Fronteira e d Alorna, verificamos três exemplos de como Sintagma Nominal sujeito pode aparecer em português: em (10a), temos um sujeito nulo; em (10b) o sujeito aparece na posição pré-verbal e em (10c) o sujeito é pós-verbal: (10) pro Darei princípio a estas minhas memórias pela minha genealogia. a. ( (IP (CODE <comment>[a_003_s_1]</comment>) (NP-SBJ *pro* ) (VB-R Darei) (NP (N princípio)) (PP (P a) (NP (D-F-P estas) (PRO$-F-P minhas) (N-P memórias))) (PP (P por) (NP (D-F a) (PRO$-F minha) (N genealogia))) (..))) Ele e nós vestíamos de seda de França com ramos de matiz e grandes rendas na camisa e punhos. 11

b. ( (IP (CODE <comment>[a_003_s_1067]</comment>) (NP-SBJ (NP (PRO Ele) (CONJP (CONJ e) (NP (PRO nós))))) (VB-D vestíamos) (PP (P de) (NP (N seda) (PP (P de) (NP (NPR França))))) (PP (P com) (NP (N-P ramos) (PP (P de) (NP (N matiz))))) (CONJP (CONJ e) (NP (ADJP (ADJ-G-P grandes)) (N-P rendas) (PP (P em) (NP (D-F a) (N camisa)) (CONJP (CONJ e) (N-P punhos))))) (..)) Principiavam os nossos trabalhos, quase ao nascer do dia, por uma espécie de coro na capela, capitulando o bom do padre. c. ( (IP (CODE <comment>[a_003_s_1127]</comment>) (VB-D Principiavam) (NP-SBJ (NP (D-P os) (PRO$-P nossos) (N-P trabalhos))) (,,)))... Nesses três casos, e também nas demais sentenças do texto, o parser não identificou o Sintagma Nominal sujeito das sentenças. O nosso desafio, no momento, é produzir um número suficiente de dados anotados para que o parser possa aprender que as sentenças do português sempre terão um NP sujeito, independemente de haver um Sintagma Nominal precedendo o verbo. Nessa fase de anotação, portanto, todas as sentenças são revisadas e 12

reanotadas para ser inserida a categoria NP-SBJ, além de outras. Depois da fase de correção, o texto será submetido novamente ao parser, para treinamento. E a partir daí um outro texto é etiquetado. Depois da fase da correção da anotação sintática, o texto está pronto para ser utilizado como fonte de pesquisas lingüísticas. Para obter os dados de um texto anotado sintaticamente, deve-se obedecer às relações que são estabelecidas entre os constituintes da árvore. Atualmente, o sistema de buscas conta com uma ferramenta desenvolvida especificamente para a configuração árborea apresentada neste trabalho: o CorpusSearch (Randall 2000) está na sua segunda versão e foi desenvolvido para atender, primeiramente, às necessidades de busca dos textos anotados de dois corpora: o Penn-Helsinki Parsed Corpus of Middle English (Kroch e Taylor 2000) e o Penn-Helsinki Parsed Corpus of Early Modern English (Kroch e Santorini in preparation), supervisionados por Kroch. O CorpusSearch permite que se escrevam expressões regulares de busca específicas para a configuração arbórea das sentenças. O arquivo de entrada pode ser o corpus inteiro, e não um arquivo de cada vez, ou então os arquivos de saída de buscas anteriores. Um outro recurso dessa ferramenta o é que ela ainda pode codificar as sentenças por meio de uma seqüência de códigos que poderá ser utilizada como input para programas probabilísticos, como o VARBRUL (cf. Pintzuk 1988). Isso nos leva a um segundo desafio que se mostra na atual fase de anotação sintática: as dificuldades computacionais ou operacionais. Esse processo de anotação sintática descrito aqui enfrenta algumas dificuldades operacionais principalmente no que tange ao alcance das 13

ferramentas computacionais: para corrigir um texto anotado sintaticamente, é necessária uma configuração específica nas máquinas para que essas ferramentas possam funcionar. Além disso, essas ferramentas (tanto as ferramentas de correção da anotação quanto de buscam) foram desenvolvidas exclusivamente para esse tipo de arquivo e de configuração sintática. Atualmente, discute-se muito sobre o limite de alcance de determinadas técnicas que são adotadas para processamento de textos. Com o trabalho de Paixão de Sousa, vemos que se pode utilizar uma linguagem universal, que obedece a padrões internacionais, acessível a um maior número de máquinas de configurações computacionais: estou me referindo à linguagem XML EXtensible Markup Language, que tem um alcance maior e um sistema de buscas universal. Como o Corpus Tycho Brahe está sendo modificado e reconfigurado em XML, o objetivo é construirmos uma gramática baseada em XML para poder fazer as anotações sintáticas. Dois estudos pilotos já foram desenvolvidos: Paixão de Sousa, no primeiro semestre de 2006, desenvolveu uma anotação sintática em XML da HIstória da Província de Santa Cruz, de Pêro Magalhães de Gândavo (século XVI, 15??) e Cavalcante, no segundo semestre de 2006, desenvolveu uma anotação-piloto para um corpus de crônicas de Luís Fernando Veríssimo (século XX), como atividades docentes. Nesses dois casos, os resultados foram satisfatórios, uma vez que a codificação em XML poderia ser feita utilizando-se qualquer máquina com qualquer configuração, sem necessidade de programas específicos, produzidos especialmente para aquela anotação sintática. Partindo do princípio de que a marcação em XML, como vimos com o trabalho de Paixão 14

de Sousa, permite que se crie uma gramática do texto, definindo-se as categorias a serem utilizadas, pode-se criar a gramática com base em categorias gramaticais estritas, como Sintagma Nominal Sujeito, Verbo, Sintagma Nominal Objeto Direto, etc. Com base nas categorias gramaticais que temos do processo de etiquetagem morfológica, podemos realizar uma anotação sintática utilizando-se uma codificação em XML. A título de exemplificação, vejamos uma sentença já apresentada, retirada das Memórias do Marquês da Fronteira e d Alorna, anotada em XML. (11) pro Darei princípio a estas minhas memórias pela minha genealogia. <IP-MAT> <comment>[a_003_s_1]</comment> <NP-SBJ> *pro* </NP-SBJ> <VB-R> Darei</VB-R> <NP> <N> princípio</n></np> <PP> <P> a </P> <NP> <D-F-P> estas</n-f-p> <PRO$-F-P> minhas</pro$-f-p> <N-P> memórias </N-P> </NP> </PP> <PP> <P> por</p> <NP> <D-F> a</d-f> <PRO$-F>minha</PRO$-F> <N>genealogia</N> </NP> </PP> </IP-MAT> Observa-se que foram preservadas as categorias que apareciam no primeiro tipo de anotação sintática, como IP-MAT, NP-SBJ, PP, entre outras. A diferença entre uma anotação e outra está relacionada à maneira de fechar os sintagmas (com parênteses na primeira, e com colchetes etiquetados na segunda), obtendo-se uma mesma hierarquia, e, principalmente, às configurações necessárias para realizar uma e outra. O próximo passo na consolidação do sis- 15

tema de anotação do Corpus Tycho Brahe está relacionado na transposição de uma anotação em XML para uma anotação em parênteses etiquetados, que será submetida ao parser para treinamento. Finalmente, com relação ao sistema de buscas, pode-se utilizar as ferramentas que já são disponíveis no mercado para executar buscas em XML, como X-query. 16

Referências Bikel, Daniel M. 2004. On the Parameter Space of Generative Lexicalized Statistical Parsing Models. Tese de Doutorado, Computer and Information Science, University of Pennsylvania, Philadelphia, PA. Britto, Helena de Souza. 2001. Syntactic Annotation System: Basis for an automated parsed for written and spoken Portuguese data. Relatório técnico, FAPESP/UNICAMP, Campinas, SP. Duarte, Maria Eugênia Lamoglia. 1995. A Perda do Princípio Evite Pronome no Português Brasileiro. Tese de Doutorado, Universidade Estadual de Campinas, Campinas, SP. Duarte, Maria Eugênia Lamoglia. 2000. The loss of the Avoid Pronoun Principle in Brazilian Portuguese. Em Brazilian Portuguese and the Null Subject Parameter, ed. Mary A. Kato e Esmeralda V. Negrão, volume 4 de Lingüística, 17 36. Frankfurt: Vervuert- Iberoamericana. Haegeman, Liliane. 1994. Introduction to Government and Binding Theory. Cambridge, Mass.: Blackwell, 2 edição. Kato, Mary. 1999. Strong and weak pronominals in the Null Subject Parameter. PROBUS 11:1 37. Kroch, Anthony, e Beatrice Santorini. in preparation. Penn-Helsinki Parsed Corpus of Early Modern English. University of Pennsylvania. Kroch, Anthony, e Ann Taylor. 2000. University of Pennsylvania. Penn-Helsinki Parsed Corpus of Middle English. Mioto, Carlos, Maria Cristina Figueiredo Silva, e Ruth Elisabeth Vasconcellos Lopes. 1999. Manual de sintaxe. Florianópolis, SC: Insular. Paixão de Sousa, Maria Clara. 2004a. Língua Barroca: Sintaxe e História do Português nos 1600. Tese de Doutorado, Instituto de Estudos da Linguagem, UNICAMP, Campinas, SP. Paixão de Sousa, Maria Clara. 2004b. Memórias do texto: aspectos tecnológicos na construção de um corpus histórico do português. Projeto de Pós-Doutorado, FAPESP, Processo no. 04/03462-4. Instituto de Estudos da Linguagem / UNICAMP. Paixão de Sousa, Maria Clara. 2005. Memórias do Texto: aspectos tecnológicos na construção de um corpus histórico do português. Relatório Técnico 1, FAPESP, Instituto de Estudos da Linguagem / UNICAMP, Campinas, SP. Relatório de Pós-Doutorado (Processo no. 04/03462-4). Pintzuk, Susan. 1988. VARBRUL Program. University of Pennsylvania, Philadelphia, PA. 17

Randall, Beth. 2000. CorpusSearch User s Manual. Departament of Linguistics, University of Pennsylvania, Philadelphia, PA. http://www.ling.upenn.edu/ dringe/corpstuff/manual/contents.html (acesso em 25 de setembro de 2002). 18