DE VOLTA AO CRÁTILO: Geração Automática de Documentos em Português a partir de UNL

DE VOLTA AO CRÁTILO: Geração Automática de Documentos em Português a partir de UNL Ronaldo Teixeira Martins Faculdade de Filosofia, Letras e Educação Universidade Presbiteriana Mackenzie Rua da Consolação, 930 01302-907 São Paulo SP Brazil ronaldomartins@mackenzie.com.br Abstract. This project aims at developing the computational linguistic resources (dictionary and grammar) needed for the automatic generation, from UNL (Universal Networking Language) onto Brazilian Portuguese, of an English version of Cratylus, by Plato. The project is divided into two different steps: (1) human encoding, from English into UNL, of the English version of Cratylus, by Plato, translated by Benjamin Jovett; and (2) the automatic decoding, from UNL onto Brazilian Portuguese, of the UNL version derived from (1). In the former step, the integral text of Cratylus will be manually analyzed and represented, in UNL, as a hypergraph where nodes (the so-called Universal Words) will stand for concepts conveyed by English lexical items, and the semantic relations holding between English words will be represented as labeled arcs, following the 2005 version of the UNL Specifications. Additionally, nodes will be annotated by attributes conveying contextual information. The latter step will require the specification and the implementation of both a UNL-Portuguese dictionary and a generation grammar, according to the criteria suggested by the UNDL Foundation. Resumo. O projeto visa ao desenvolvimento dos recursos lingüísticocomputacionais (dicionário e gramática) necessários para a geração automática, em língua portuguesa, de uma versão do Crátilo, de Platão, produzida em Universal Networking Language (UNL). O projeto está subdividido em duas diferentes etapas: (1) a codificação humana, de inglês para UNL, da versão do diálogo platônico traduzida diretamente do grego por Benjamin Jovett; e (2) a decodificação automática, de UNL para português, da versão derivada de (1). Para o primeiro movimento, todo o texto do Crátilo será representado, manualmente, em UNL, de tal forma que venha a constituir um hipergrafo, em que os itens lexicais da língua inglesa corresponderão a nodos (Universal Words), e as relações de dependência entre os nodos serão expressas por meio de relações binárias orientadas retiradas do repertório dos casos semânticos previstos na versão 2005 da especificação UNL. Adicionalmente, os nodos serão anotados por atributos específicos, responsáveis pela veiculação de informações de natureza dêitica. O segundo

movimento envolverá a especificação e a implementação do dicionário e da gramática de geração UNL-português, que servirão de parâmetros para o processo de decodificação automática, de UNL para o português, segundo os protocolos de desenvolvimento de recursos lingüístico-computacionais sugeridos pela UNDL Foundation. 1. Antecedentes A Universal Networking Language (ou simplesmente UNL), proposta por Uchida, Zhu e Della Senta (1996, 1999), e cuja última versão (2005) data de julho de 2005, é uma linguagem de representação do conhecimento de que se espera que possa figurar tanto como uma língua-pivô em sistemas de tradução automática multilíngües quanto como um esquema de representação de conteúdo em aplicativos de recuperação de informação. O projeto teve início em 1996, por iniciativa do Instituto de Estudos Avançados da Universidade das Nações Unidas (http://www.ias.unu.edu), em Tóquio, e vem sendo coordenado, desde 2000, pela Fundação UNDL (http://www.undl.org), sediada em Genebra, na Suíça, constituída especificamente para este fim. Ao longo de seus já oito anos de existência, o Projeto contou com várias equipes de pesquisadores e desenvolvedores, que representam inúmeros grupos lingüísticos: o indo-europeu (português, espanhol, francês, italiano, inglês, alemão, russo, letão, hindi e armênio), o semítico (árabe), o sino-tibetano (chinês), o uralo-altaico (mongol), o malaio-polinésio (indonésio) e o japonês. O português do Brasil integra o Projeto desde 1997, através do NILC 1, sediado em São Carlos, em São Paulo, e, mais recentemente, do Instituto UNDL 2, sediado em Florianópolis, Santa Catarina. O autor deste projeto é colaborador assíduo de ambos os grupos, integra o UNL Center, e vem trabalhando com a UNL desde a primeira hora, tendo sobre ela produzido uma tese de doutorado (Martins, 2004) e vários artigos científicos, listados no fim desta proposta. 1 O NILC - Núcleo Interinstitucional de Lingüística Computacional (http://www.nilc.icmc.usp.br) -, fundado em 1993 e sediado no Instituto de Ciências Matemáticas e da Computação, na Universidade de São Paulo, em São Carlos, reúne pesquisadores ligados a várias instituições, entre as quais a Universidade Estadual Paulista, de Araraquara, e a Universidade Federal de São Carlos. 2 O Instituto UNDL Brasil (http://www.undl.org.br), criado em 2002, em Florianópolis, vem sendo o responsável pelo desenvolvimento e pela manutenção do servidor lingüístico do português no âmbito do Projeto UNL.

O principal objetivo do Projeto UNL é o desenvolvimento de um protocolo de representação de conteúdo que, à maneira das linguagens de marcação (como o HTML), possa ser uniformizado e utilizado para diferentes línguas. Essa linguagem, que recebe o nome Universal Networking Language em virtude de seu caráter simultaneamente universal e distribuído, define-se como uma rede semântica, cujas declarações compartilhariam três propriedades fundamentais: 1) seriam logicamente precisas, para que pudessem instrumentalizar o cálculo semântico e proposicional; 2) constituiriam representações de alto nível, para que pudessem ser legíveis e inteligíveis pelos humanos; e 3) formariam enunciados formalmente interpretáveis e compiláveis, para que pudessem ser tratadas pelo computador. Na abordagem UNL, a informação veiculada pelos enunciados em língua natural é representada, sentença por sentença, como um hipergrafo formado por conjuntos de relações binárias orientadas e etiquetadas entre nodos ou hipernodos (as chamadas Universal Words, ou simplesmente UWs), que corresponderiam a conceitos. As UWs também podem ser anotadas por atributos representando informação de natureza subjetiva, principalmente dêitica. A título de exemplo, a sentença do português O céu era azul?! seria representada em UNL como (1) abaixo: (1) aoj(blue(icl>color).@entry.@past.@interrogative.@exclamative,sky(icl>natural world)) 3 Diferentemente de outros formalismos de rede semântica - como os grafos conceituais de Sowa (1984, 2000) e o Resource Description Framework, ou RDF (Lassila e Swick, 1999), da Web Semântica - as relações e atributos de UNL são definidos no próprio formalismo. As relações constituem um conjunto fixo de 45 elementos que veiculam informação relativa à estrutura ontológica das UWs (às relações de hiponímia e sinonímia entre UWs, por exemplo), à estrutura lógica da sentença (por meio de operadores de conjunção e de disjunção, entre outros) e à estrutura cognitiva do evento (por meio de variados casos semânticos, como os de agente, objeto, instrumento, etc., em 3 Em (1), aoj é uma relação binária etiquetada (que descreve a relação entre um atributo e um objeto); blue(icl>color) e sky(icl>natural world) são UWs; e @entry, @past, @interrogative e @exclamative são atributos.

um modelo se muito se aproxima da Teoria da Dependência Conceitual, de Schank 1972). O conjunto de atributos, que pode ser aumentado, consiste atualmente de 72 elementos, e corresponde a informação relativa ao foco (ênfase, tópico, etc.), às atitudes do falante (interrogativa, imperativa, polida, etc.), aos modalizadores do evento (desejo, expectativa, etc.) e a outras informações de natureza contextual. Por este motivo, a UNL pretende constituir-se como um protocolo de representação, não apenas do sentido denotativo, mas também do sentido conotativo, não-literal, das sentenças das línguas naturais. Por fim, o sistema prevê o recurso a bases de conhecimento (como a UNL Knowledge-Base, ou simplesmente UNL-KB, e a UNL Encyclopaedia), definindo-se, portanto, não apenas como um formalismo de representação, mas como o próprio conteúdo a ser representado. A parte técnica do projeto é coordenada pelo UNL Center, que revê periodicamente a especificação da linguagem, à luz das contribuições e dos problemas verificados em cada uma das equipes. Além da construção de uma especificação semântica comum, o Projeto envolve, em cada grupo, a produção de ferramentas de codificação para a UNL (tecnicamente referida como enconverting ) e decodificação a partir da UNL (chamada deconverting ). A partir de um algoritmo comum, modelado pelo UNL Center, todos os grupos devem desenvolver: a) um dicionário língua natural- UNL, b) uma gramática bidirecional língua natural-unl, e c) uma matriz de probabilidades de aplicação das regras gramaticais. Como todos os grupos operam sobre o mesmo algoritmo, a sintaxe das regras e a forma do dicionário são idênticas entre os diferentes grupos, pouco importando a filiação lingüística. O desenvolvimento das ferramentas de codificação e decodificação, e os problemas dele derivados, orientam o processo de revisão da especificação UNL, e conformam a razão mesma das alterações. Ao longo de sua primeira fase, o Projeto UNL não se define, necessariamente, como um projeto de tradução automática, mas principalmente como iniciativa de desenvolvimento de sistemas de geração multilíngüe de documentos codificados manualmente em UNL. Para evitar os problemas relativos à análise e ao entendimento da

língua humana, que envolvem tecnologia e recursos ainda indisponíveis, mesmo para línguas que têm sido alvo de intensivo esforço de dicionarização e gramatização, como é o caso do inglês, o Projeto abriu mão, neste primeiro momento, do desenvolvimento de sistemas automáticos de análise de língua natural, e vem sendo utilizada, principalmente, uma análise assistida por humanos, cujo grau de automação é bastante incipiente. Os esforços têm sido concentrados, de forma mais consistente, na tarefa de geração, a partir de UNL, dos enunciados em línguas naturais, embora, também neste lado, venham sendo enfrentados problemas, principalmente relacionados à dialetação da representação comum, derivada dos problemas inevitáveis de interpretação da especificação em um projeto não apenas multilíngüe mas também multicultural. A despeito disso, a UNL vem sendo adotada, em várias instâncias, como tecnologia básica, da qual muitos projetos constituem instâncias de aplicação e de validação. No momento, e apenas no Brasil, existem, em andamento, pelo menos 4 projetos que utilizam a UNL como tecnologia básica: o projeto EPT-WEB, que vem sendo desenvolvido pelo NILC, com apoio do CNPq (Proc. 551485/2001-9), e que visa ao desenvolvimento de uma ferramenta de tradução automática, do inglês para português, de manchetes e lides do diário americano The New York Times; o projeto Dicionário de E-Commerce, que visa à construção de um dicionário português-unl para termos de comércio eletrônico, e que vem sendo desenvolvido pelo Instituto UNDL Brasil, com o apoio da FUNCITEC; o projeto Vitrine Exportação, também apoiado pela FUNCITEC, para o desenvolvimento de uma plataforma de exibição de documentos em UNL; e, por fim, o projeto Diretório de Pesquisadores, voltado para a criação de um gerador automático de résumés, em UNL, para assegurar multilingüismo à base de consultores da FUNCITEC, que também apóia o projeto. No entanto, e em que pesem os recursos já desenvolvidos para o português - o dicionário português-unl soma mais de 60.000 entradas e a gramática de geração UNLportuguês constitui já um conjunto de pouco mais de 5.000 regras - percebem-se várias limitações no escopo da representação empreendida no âmbito do Projeto, principalmente relacionadas à monossentencialidade, à dialetação e à estrutura interna da representação.

No primeiro caso, observa-se um viés marcadamente sintático no projeto UNL: a unidade de representação é a sentença, o que vem restringindo o projeto a uma monossentencialidade que o impede de retratar e analisar as relações de dependência transfrasal que se observam no âmbito do texto. No plano desta proposta, pretende-se explorar a utilização de UNL em um contexto expressivamente mais amplo, ao se representar todo o texto como um só hipergrafo, em lugar de um conjunto de hipergrafos justapostos e não relacionados. Adicionalmente, esta iniciativa procurará rever o conjunto de relações, atributos e palavras universais que definem a UNL, de forma não apenas a incorporar operadores transfrasais, mas a definir também, de forma mais clara, os contextos de uso e as regras de combinação de cada uma das relações e atributos que caracterizam sua especificação, evitando, assim, a vagueza teórica que tem provocado, freqüentemente, a dialetação da UNL entre os vários grupos participantes do Projeto. Por fim, o projeto pretende propor um esquema XML para a formatação de documentos UNL, para que possam ser apropriadas as muitas funcionalidades já disponíveis no âmbito do XML, e também para promover uma infra-estrutura de representação dos documentos em que o texto, e não a sentença, seja utilizado como unidade básica. A partir dessa (re)especificação, acredita-se que se possa promover a análise e a geração automática de enunciados de língua natural de forma mais eficaz e integrada do que a que vem sendo realizada no âmbito do Projeto UNL, e que se possa instrumentalizar o desenvolvimento de sistemas de processamento automático da língua portuguesa de base semântico-discursiva. 2. Objetivos e metas O objetivo imediato deste projeto está relacionado ao desenvolvimento dos recursos lingüístico-computacionais - especificação, dicionário e gramática, nomeadamente - necessários para a geração automática, para a língua portuguesa, de um texto codificado em UNL. Espera-se, principalmente, que se possa fazer avançar a tecnologia já existente,

boa parte dela construída pelo próprio autor deste projeto nas iniciativas anteriores implementadas no âmbito do NILC, de tal forma que a passagem de uma estrutura de dados de natureza reticulada, caso do hipergrafo UNL, possa ser transduzida em outra, de natureza linear, caso da sentença em língua portuguesa, sem os problemas que vêm sendo observados, principalmente no que concerne à realização morfossintática e distribucional dos enunciados do português. Este objetivo imediato esconde, na verdade, uma vasta gama de outros objetivos de pesquisa e desenvolvimento, associados, em primeiro lugar, à construção de recursos para a investigação sistemática do processo, seja de análise de uma língua natural (no caso, o inglês) para UNL, seja de geração de UNL para uma língua natural, que se traduzem nos vários produtos referidos na seção 5 desta proposta. 3. Metodologia Para a consecução dos objetivos propostos, prevê-se o desenvolvimento das seguintes etapas: 1 Codificação, manual, de acordo com a versão 2005 da especificação UNL, da versão em língua inglesa do Crátilo, de Platão, traduzida diretamente do grego por Benjamin Jovett. A escolha do texto é principalmente arbitrária, mas foi motivada por alguns fatores: a) publicado em 420 a.c., trata-se de um dos textos fundamentais e fundacionais da historiografia dos estudos da linguagem; b) embora a versão a ser considerada seja já uma tradução para o inglês, o texto corresponde a uma fonte primária, de complexidade considerável, não préeditada, não facilitada e não higienizada, retratando, pois, um estado de uso efetivo da língua; c) trata-se de um texto relativamente curto, com apenas 1.853 sentenças, ou 12.498 palavras, permitindo que se possam estudar estratégias de inter-relacionamento que autorizem a representação de todo o texto como um só hipergrafo. 2 Modelação e construção do dicionário UNL-português para o conjunto das UWs formadas a partir da codificação, em UNL, do Crátilo. Trata-se, na verdade, de uma revisão e extensão do dicionário já existente, onde se espera que estejam já cadastradas boa parte das entradas necessárias à geração automática, para o português, do documento UNL. 3 Modelação e construção da base de conhecimento UNL (UNL Knowledge Base, ou UNL KB) para o conjunto das UWs formadas a partir da codificação do Crátilo. Nesta etapa, em consonância com a especificação UNL, seriam criadas as Master Definitions correspondentes a cada UW, para que se possa

instrumentalizar, futuramente, estratégias de análise automática baseadas em conhecimento. 4 Modelação e construção da gramática de geração UNL-português, de acordo com a meta-sintaxe proposta pelo UNL Center, de tal forma que a gramática assim produzida possa ser utilizada como parâmetro do DeCo, ferramenta de geração automática disponibilizada pela Fundação UNDL. Mais uma vez, trata-se, principalmente, da extensão e da revisão da gramática já existente, construída pelo próprio autor deste Projeto, quando colaborador do NILC. 5 Especificação do esquema UNL-XML, que deveria corresponder ao conjunto de marcas a serem atualizadas pelo documento UNL, permitindo que sejam utilizadas estratégias de verificação e validação já disponíveis no âmbito de XML. 6 Definição de um conjunto de relações de âmbito intersentencial e transfrasal, para que se possam inter-relacionar e reintegrar os enunciados UNL artificialmente isolados pela natureza monossentencial da atual versão da especificação. 7 XMLização do documento UNL, para que se possa representar todo o Crátilo, não apenas como um conjunto de muitos hipergrafos justapostos, mas como um só hipergrafo, cujos vários hipernodos estariam vinculados por meio de relações que capturariam a conformação pragmático-discursiva do texto. 8 Modelação e construção da gramática de geração UNL-português para as relações de natureza intersentencial referidas anteriormente, para que se possa viabilizar a geração automática do texto como unidade de processamento. 9 Comparação dos resultados obtidos nas duas versões de geração do Crátilo - como seqüência de hipergrafos e como um só hipergrafo -, e análise da relação entre custo e benefício das extensões empreendidas no âmbito da especificação UNL. 4. Cronograma O fluxo provável de desenvolvimento das atividades é apresentado na Figura 1 abaixo, que ilustra o cronograma de execução das etapas definidas na seção anterior: ETAPAS 01 02 03 04 05 MESES 01 02 03 04 05 06 07 08 09 10 11 12

06 07 08 09 5. Resultados Esperados Figura 1. Cronograma previsto de desenvolvimento das atividades Espera-se que, como subproduto da iniciativa, possam estar disponíveis: um corpus paralelo inglês-unl, com uma tábua de correspondências que permitiria, em alguma escala, alguma automatização do processo de análise; a criação de um protocolo próprio de codificação do documento UNL que possa ser expresso como uma esquema XML, a ser incorporado em edições futuras de análise; a criação do dicionário de UWs (palavras de UNL) que abranja todos os conceitos mobilizados pela versão, em língua inglesa, do Crátilo, de Platão; a criação da base de conhecimentos UNL (UNL KB), em que estejam presentes todas as definições necessárias para a manipulação das UWs criadas; a criação do dicionário UNL-português para o repertório de UWs definido por ocasião do projeto; a criação da gramática UNL-português, para geração automática, a partir de UNL, de textos em língua portuguesa; e a criação de um novo conjunto de relações e atributos, e suas correspondentes regras de combinação de uso, para a representação do conhecimento veiculado em nível intersentencial. 6. Referências LASSILA, O.; SWICK, R. R. (eds.). Resource Description Framework (RDF): model and syntax specification. W3C Recommendation 22 February 1999. MARTINS, Ronaldo Teixeira. A nova língua do imperador. 2004. Tese de doutoramento (Doutorado em Lingüística) - Instituto de Estudos da Linguagem (IEL)/Universidade Estadual de Campinas (UNICAMP). Orientador: Rodolfo Ilari. MARTINS, Ronaldo Teixeira; FOSSEY, Marcela Franco; PEDROLONGO, Tatiana. Policarpo: um tradutor automático para páginas do NYT. In: 51º SEMINÁRIO DO GEL, 2003, Taubaté. ESTUDOS LINGÜÍSTICOS XXXIII. 2004. v. XXXIII. MARTINS, Ronaldo Teixeira; HASEGAWA, Ricardo; NUNES, Maria das Graças Volpe. HERMETO: A Natural Language Analysis Environment. In: TIL- WORKSHOP EM TECNOLOGIA DA INFORMAÇÃO E DA LINGUAGEM HUMANA, 2004, Salvador. Anais do SBC 2004. 2004. v. 1, p. 1-10. MARTINS, Ronaldo Teixeira; HASEGAWA, Ricardo; NUNES, Maria das Graças Volpe. Hermeto: A NL- UNL Enconverting Environment. In: CONVERGENCE 03 - INTERNATIONAL CONFERENCE ON THE CONVERGENCE OF KNOWLEDGE, CULTURE, LANGUAGE AND INFORMATION

TECHNOLOGIES, 2003, Alexandria, Egito. Proceedings of Convergence 03 - International Conference on the Convergence of Knowledge, Culture, Language and Information Technologies. 2003. v. 1. MARTINS, Ronaldo Teixeira; NUNES, Maria das Graças Volpe. On the aboutness of UNL. Research In Computing Science, Mexico, v. 12, p. 51-63, 2005. MARTINS, Ronaldo Teixeira; PELLIZONI, Jorge Marques; HASEGAWA, Ricardo; NUNES, Maria das Graças Volpe. Da tradução automática para a língua portuguesa: apontamentos de três experiências baseadas em interlíngua. Palavra, Rio de Janeiro, v. 12, p. 1-24, 2004. MARTINS, Ronaldo Teixeira; RINO, Lúcia Helena Machado; NUNES, Maria das Graças Volpe; OLIVEIRA JR, Osvaldo Novais de. The UNL distinctive features: evidences through a NL-UNL encoding task. In: THE FIRST INTERNATIONAL WORKSHOP ON UNL, OTHER INTERLINGUAS AND THEIR APPLICATIONS, 2002, Las Palmas. Proceedings of The First International Workshop on UNL, other Interlinguas and their Applications. 2002. p. 08-13. MONTILHA, Gisele; OLIVEIRA JR, Osvaldo Novais de. An interlingua aiming at communication on the web: how language-independent can it be?. In: WORKSHOP ON APPLIED INTERLINGUAS: PRACTICAL APPLICATIONS OF INTERLINGUAL APPROACHES, 2000, Seattle. Proceedings of the Workshop on Applied Interlinguas: Practical Applications of Interlingual Approaches. 2000. p. 24-33. NUNES, Maria das Graças Volpe; MARTINS, Ronaldo Teixeira; RINO, Lúcia Helena Machado; OLIVEIRA JR, Osvaldo Novais de. The use of the Universal Networking Language for devising an automatic sentence generator for Brazilian Portuguese. Cadernos de Computação, São Carlos - SP, v. 02, n. 02, p. 57-80, 2001. NUNES, Maria das Graças Volpe; RINO, Lúcia Helena Machado; MARTINS, Ronaldo Teixeira; OLIVEIRA JR, Osvaldo Novais. O uso de interlíngua para comunicação via internet: a decodificação UNL-Português. Revista tecnologia da informação, Brasília, v. 3, n. 1, p. 49-56, 2003. SHANK, R. Conceptual Dependency: A Theory of Natural Language Understanding, Cognitive Psychology, (3)4, 532-631, 1972. SOWA, J. F. Knowledge Representation: Logical, Philosophical, and Computational Foundations, Brooks Cole Publishing Co., Pacific Grove, CA, 2000. SOWA, J. F. Conceptual Structures: Information Processing in Mind and Machine, Addison-Wesley, Reading, MA, 1984. UCHIDA, H.; ZHU, M.; DELLA SENTA, T. The UNL, a Gift for a Millennium. UNU/IAS, 237, November, 1999. Uchida. H., Zhu, M.; Della Senta, T. UNL: Universal Networking Language - An Electronic Language for Communication, Understanding and Collaboration. UNU/IAS/UNL Center. Tokyo, Japan, 1996. The Universal Networking Language (UNL) Specifications, version 3.3. Geneva: UNDL Foundation, 2004.