DE VOLTA AO CRÁTILO: Geração Automática de Documentos em Português a partir de UNL



Documentos relacionados
PROJETO DE REDES

1 Introdução. 1.1 Apresentação do tema

Tradução Automática: Superando as Barreiras entre Línguas Européias e Chinesas

DESENVOLVIMENTO WEB DENTRO DOS PARADIGMAS DO HTML5 E CSS3

UFG - Instituto de Informática

UNIVERSIDADE DE SANTA CRUZ DO SUL UNISC REGULAMENTO DAS ATIVIDADES DOS GRUPOS DE PESQUISA DA UNISC CADASTRADOS JUNTO AO CNPq

INTEGRAÇÃO DE APLICAÇÕES UTILIZANDO WEB SERVICE 1. Kellen Kristine Perazzoli 2 ; Manassés Ribeiro 3

Critérios para certificação de Sites SciELO: critérios, política e procedimentos para a classificação e certificação dos sites da Rede SciELO

Banco de Dados Aula 1 Introdução a Banco de Dados Introdução Sistema Gerenciador de Banco de Dados

Desenvolvendo uma Arquitetura de Componentes Orientada a Serviço SCA

FAP - Faculdade de Apucarana Curso de Sistemas de Informação RESUMO EXPANDIDO DE TRABALHO DE CONCLUSÃO DE CURSO -

)HUUDPHQWDV &RPSXWDFLRQDLV SDUD 6LPXODomR

W Projeto. Gerenciamento. Construindo a WBS e gerando o Cronograma. Autor: Antonio Augusto Camargos, PMP 1/12

COLIVRE Cooperativa de Tecnologias Livres Telefone: (71) CNPJ:

Banco de Dados Profa. Dra. Cristina Dutra de Aguiar Ciferri. Banco de Dados Processamento e Otimização de Consultas

DESENVOLVIMENTO DE INTERFACE WEB MULTIUSUÁRIO PARA SISTEMA DE GERAÇÃO AUTOMÁTICA DE QUADROS DE HORÁRIOS ESCOLARES. Trabalho de Graduação

SISTEMA DE INFORMAÇÃO. COORDENADORA Iris Fabiana de Barcelos Tronto

Web Services. Autor: Rômulo Rosa Furtado

Agregadores de Conteúdo

1.1. Organização de um Sistema Computacional

Glossário Apresenta a definição dos termos, siglas e abreviações utilizadas no contexto do projeto Citsmart.

Bancos de Dados. Conceitos F undamentais em S is temas de B ancos de Dados e s uas Aplicações

SUGESTÕES PARA ARTICULAÇÃO ENTRE O MESTRADO EM DIREITO E A GRADUAÇÃO

FACULDADE INTEGRADAS DE PARANAÍBA ADMINISTRAÇÃO DE EMPRESAS. Bancos de Dados Conceitos Fundamentais

Faculdade Lourenço Filho - ENADE

PORTARIA N Nº Rio de Janeiro, 24 de Outubro de 2013.

Mesa Redonda Novas agendas de atuação e os perfis profissionais em bibliotecas universitárias

Wilson Moraes Góes. Novatec

Criação e publicação de um dataset de dados interligados das edições passadas do Simpósio Brasileiro de Banco de Dados

A importância do PDTI na implantação da Governança de TI nas Prefeituras Brasileiras

7.Conclusão e Trabalhos Futuros

Feature-Driven Development

A Linguagem Pascal e o Ambiente de Programação Dev-Pascal. Introdução à Ciência da Computação I

Orientação a Objetos

Dado: Fatos conhecidos que podem ser registrados e têm um significado implícito. Banco de Dados:

PROCESSO DE DESENVOLVIMENTO DE SOFTWARE. Modelos de Processo de Desenvolvimento de Software

Uma ontologia para a representação do domínio de agricultura familiar na arquitetura AgroMobile. Roger Alves Prof. Me.

UNIVERSIDADE FEDERAL DO CEARÁ PRÓ-REITORIA DE GRADUAÇÃO CAMPUS DE SOBRAL

MÓDULO 14 Sistema de Gestão da Qualidade (ISO 9000)

Ferramenta de apoio a gerência de configuração de software. Aluno: Rodrigo Furlaneto Orientador: Everaldo Artur Grahl

Plano de Trabalho Docente Ensino Técnico

Um mundo de formas do concreto ao abstrato

Perfil de Produção Bibliográfica dos Programas Brasileiros de Pós-Graduação em Ciência da Computação

GESTÃO DAS INFORMAÇÕES DAS ORGANIZAÇÕES MÓDULO 11

Gerenciamento de Projetos no Marketing Desenvolvimento de Novos Produtos

Introdução à Computação

Guia de Especificação de Caso de Uso Metodologia CELEPAR

Engenharia de Software Sistemas Distribuídos

IMPLEMENTAÇÃO DAS CAMADAS Inference Machine e Message Service Element PARA UM SERVIDOR DE SISTEMA DE GERENCIAMENTO DE Workflow HOSPITALAR

Soluções em TI para Web

15/03/2010. Análise por pontos de função. Análise por Pontos de Função. Componentes dos Pontos de Função. Componentes dos Pontos de Função

Administração Central Unidade de Ensino Médio e Técnico - CETEC. Ensino Técnico. Qualificação: Auxiliar de Informática. Professora: Fabiana Marcasso

EMENTAS DAS DISCIPLINAS

ENSINO DA TERMINOLOGIA DO TURISMO: BUSCA DOS TERMOS EM INGLÊS RELATIVOS A EQUIPAMENTOS USADOS EM TÉCNICAS VERTICAIS PARA ELABORAÇÃO DE GLOSSÁRIO

Sistema SeRELeP para o reconhecimento de relações

Semântica para Sharepoint. Busca semântica utilizando ontologias

Desenvolvimento de Sistemas Orientados a Objetos com UML UP/RUP: Projeto

3 Um Framework Orientado a Aspectos para Monitoramento e Análise de Processos de Negócio

ü Curso - Bacharelado em Sistemas de Informação

EMENTAS DAS DISCIPLINAS

XIII Encontro de Iniciação Científica IX Mostra de Pós-graduação 06 a 11 de outubro de 2008 BIODIVERSIDADE TECNOLOGIA DESENVOLVIMENTO

Anexo I Formulário para Proposta

EXPLORANDO ALGUMAS IDEIAS CENTRAIS DO PARÂMETROS CURRICULARES NACIONAIS ENSINO MÉDIO. Giovani Cammarota

Suporte a redes CAN para Aplicações Embarcadas

PPS - Processo de Proposta de Solução Versão 1.3.1

LINGUAGEM, LÍNGUA, LINGÜÍSTICA MARGARIDA PETTER

Modelos. Comunicação com clientes

EDITAL COMPLEMENTAR DE SELEÇÃO DISCENTE ESTUDANTES VOLUNTÁRIOS DE INICIAÇÃO CIENTÍFICA PARA GRUPOS DE PESQUISA (GPs) COM PROJETOS EM ANDAMENTO

Uma Ontologia para Gestão de Segurança da Informação

II. Atividades de Extensão

Manual de Integração E-Commerce CiaShop x SIGALOJA

Fundação Carmelitana Mário Palmério FACIHUS Faculdade de Ciências Humanas e Sociais

1. NÍVEL CONVENCIONAL DE MÁQUINA

Manual Geral do OASIS

Prof. Marcelo Machado Cunha

Guia Básico de Utilização da Biblioteca Virtual da FAPESP. Thais Fernandes de Morais Fabiana Andrade Pereira

GereComSaber. Disciplina de Desenvolvimento de Sistemas de Software. Sistema de Gestão de Serviços em Condomínios

ENGENHARIA DE SOFTWARE

PUBLICAÇÃO CIENTÍFICA RESULTANTE DAS DISSERTAÇÕES E TESES EM EDUCAÇÃO FÍSICA NO BRASIL

APLICATIVO PARA GERENCIAMENTO DE FORÇA DE TRABALHO EM EMPRESAS DE TELEFONIA MÓVEL

Web Semântica e Matching de Ontologias: Uma Visão Geral

AFIRMAÇÃO CULTURAL E DE SOBERANIA:

Redução de impacto ambiental no consumo diário de líquidos. TERMO DE ABERTURA

M ERCADO DE C A R. de captação de investimentos para os países em desenvolvimento.

Rede Brasileira de História da Geografia e Geografia Histórica

build UNIP Sistemas de Informação Análise Essencial de Sistemas 3 Prof.Marcelo Nogueira A produção de Software é uma atividade build and fix.

12 EXCEL MACROS E APLICAÇÕES

Organização e Arquitetura de Computadores I. de Computadores

Curso Técnico em Redes

PRODUTO 1 (CONSTRUÇÃO DE PORTAL WEB)

JOSÉ AUGUSTO FABRI. Uma Proposta de Modelo para a Criação e a Organização de Processos de Produção em um Contexto de Fábrica de Software

INTRODUÇÃO ÀS LINGUAGENS DE PROGRAMAÇÃO

Algumas Instituições. World Bank. Gartner Group. Knowledge Transfer International APQC OCDE IPEA

Linguagens Formais e Autômatos

Projeto BVS-SP-4 Fontes de informação de apoio a tomadores de decisão em saúde pública (15 de outubro de 1999)

O que é a ciência de dados (data science). Discussão do conceito. Luís Borges Gouveia Universidade Fernando Pessoa Versão 1.

Transcrição:

DE VOLTA AO CRÁTILO: Geração Automática de Documentos em Português a partir de UNL Ronaldo Teixeira Martins Faculdade de Filosofia, Letras e Educação Universidade Presbiteriana Mackenzie Rua da Consolação, 930 01302-907 São Paulo SP Brazil ronaldomartins@mackenzie.com.br Abstract. This project aims at developing the computational linguistic resources (dictionary and grammar) needed for the automatic generation, from UNL (Universal Networking Language) onto Brazilian Portuguese, of an English version of Cratylus, by Plato. The project is divided into two different steps: (1) human encoding, from English into UNL, of the English version of Cratylus, by Plato, translated by Benjamin Jovett; and (2) the automatic decoding, from UNL onto Brazilian Portuguese, of the UNL version derived from (1). In the former step, the integral text of Cratylus will be manually analyzed and represented, in UNL, as a hypergraph where nodes (the so-called Universal Words) will stand for concepts conveyed by English lexical items, and the semantic relations holding between English words will be represented as labeled arcs, following the 2005 version of the UNL Specifications. Additionally, nodes will be annotated by attributes conveying contextual information. The latter step will require the specification and the implementation of both a UNL-Portuguese dictionary and a generation grammar, according to the criteria suggested by the UNDL Foundation. Resumo. O projeto visa ao desenvolvimento dos recursos lingüísticocomputacionais (dicionário e gramática) necessários para a geração automática, em língua portuguesa, de uma versão do Crátilo, de Platão, produzida em Universal Networking Language (UNL). O projeto está subdividido em duas diferentes etapas: (1) a codificação humana, de inglês para UNL, da versão do diálogo platônico traduzida diretamente do grego por Benjamin Jovett; e (2) a decodificação automática, de UNL para português, da versão derivada de (1). Para o primeiro movimento, todo o texto do Crátilo será representado, manualmente, em UNL, de tal forma que venha a constituir um hipergrafo, em que os itens lexicais da língua inglesa corresponderão a nodos (Universal Words), e as relações de dependência entre os nodos serão expressas por meio de relações binárias orientadas retiradas do repertório dos casos semânticos previstos na versão 2005 da especificação UNL. Adicionalmente, os nodos serão anotados por atributos específicos, responsáveis pela veiculação de informações de natureza dêitica. O segundo

movimento envolverá a especificação e a implementação do dicionário e da gramática de geração UNL-português, que servirão de parâmetros para o processo de decodificação automática, de UNL para o português, segundo os protocolos de desenvolvimento de recursos lingüístico-computacionais sugeridos pela UNDL Foundation. 1. Antecedentes A Universal Networking Language (ou simplesmente UNL), proposta por Uchida, Zhu e Della Senta (1996, 1999), e cuja última versão (2005) data de julho de 2005, é uma linguagem de representação do conhecimento de que se espera que possa figurar tanto como uma língua-pivô em sistemas de tradução automática multilíngües quanto como um esquema de representação de conteúdo em aplicativos de recuperação de informação. O projeto teve início em 1996, por iniciativa do Instituto de Estudos Avançados da Universidade das Nações Unidas (http://www.ias.unu.edu), em Tóquio, e vem sendo coordenado, desde 2000, pela Fundação UNDL (http://www.undl.org), sediada em Genebra, na Suíça, constituída especificamente para este fim. Ao longo de seus já oito anos de existência, o Projeto contou com várias equipes de pesquisadores e desenvolvedores, que representam inúmeros grupos lingüísticos: o indo-europeu (português, espanhol, francês, italiano, inglês, alemão, russo, letão, hindi e armênio), o semítico (árabe), o sino-tibetano (chinês), o uralo-altaico (mongol), o malaio-polinésio (indonésio) e o japonês. O português do Brasil integra o Projeto desde 1997, através do NILC 1, sediado em São Carlos, em São Paulo, e, mais recentemente, do Instituto UNDL 2, sediado em Florianópolis, Santa Catarina. O autor deste projeto é colaborador assíduo de ambos os grupos, integra o UNL Center, e vem trabalhando com a UNL desde a primeira hora, tendo sobre ela produzido uma tese de doutorado (Martins, 2004) e vários artigos científicos, listados no fim desta proposta. 1 O NILC - Núcleo Interinstitucional de Lingüística Computacional (http://www.nilc.icmc.usp.br) -, fundado em 1993 e sediado no Instituto de Ciências Matemáticas e da Computação, na Universidade de São Paulo, em São Carlos, reúne pesquisadores ligados a várias instituições, entre as quais a Universidade Estadual Paulista, de Araraquara, e a Universidade Federal de São Carlos. 2 O Instituto UNDL Brasil (http://www.undl.org.br), criado em 2002, em Florianópolis, vem sendo o responsável pelo desenvolvimento e pela manutenção do servidor lingüístico do português no âmbito do Projeto UNL.

O principal objetivo do Projeto UNL é o desenvolvimento de um protocolo de representação de conteúdo que, à maneira das linguagens de marcação (como o HTML), possa ser uniformizado e utilizado para diferentes línguas. Essa linguagem, que recebe o nome Universal Networking Language em virtude de seu caráter simultaneamente universal e distribuído, define-se como uma rede semântica, cujas declarações compartilhariam três propriedades fundamentais: 1) seriam logicamente precisas, para que pudessem instrumentalizar o cálculo semântico e proposicional; 2) constituiriam representações de alto nível, para que pudessem ser legíveis e inteligíveis pelos humanos; e 3) formariam enunciados formalmente interpretáveis e compiláveis, para que pudessem ser tratadas pelo computador. Na abordagem UNL, a informação veiculada pelos enunciados em língua natural é representada, sentença por sentença, como um hipergrafo formado por conjuntos de relações binárias orientadas e etiquetadas entre nodos ou hipernodos (as chamadas Universal Words, ou simplesmente UWs), que corresponderiam a conceitos. As UWs também podem ser anotadas por atributos representando informação de natureza subjetiva, principalmente dêitica. A título de exemplo, a sentença do português O céu era azul?! seria representada em UNL como (1) abaixo: (1) aoj(blue(icl>color).@entry.@past.@interrogative.@exclamative,sky(icl>natural world)) 3 Diferentemente de outros formalismos de rede semântica - como os grafos conceituais de Sowa (1984, 2000) e o Resource Description Framework, ou RDF (Lassila e Swick, 1999), da Web Semântica - as relações e atributos de UNL são definidos no próprio formalismo. As relações constituem um conjunto fixo de 45 elementos que veiculam informação relativa à estrutura ontológica das UWs (às relações de hiponímia e sinonímia entre UWs, por exemplo), à estrutura lógica da sentença (por meio de operadores de conjunção e de disjunção, entre outros) e à estrutura cognitiva do evento (por meio de variados casos semânticos, como os de agente, objeto, instrumento, etc., em 3 Em (1), aoj é uma relação binária etiquetada (que descreve a relação entre um atributo e um objeto); blue(icl>color) e sky(icl>natural world) são UWs; e @entry, @past, @interrogative e @exclamative são atributos.

um modelo se muito se aproxima da Teoria da Dependência Conceitual, de Schank 1972). O conjunto de atributos, que pode ser aumentado, consiste atualmente de 72 elementos, e corresponde a informação relativa ao foco (ênfase, tópico, etc.), às atitudes do falante (interrogativa, imperativa, polida, etc.), aos modalizadores do evento (desejo, expectativa, etc.) e a outras informações de natureza contextual. Por este motivo, a UNL pretende constituir-se como um protocolo de representação, não apenas do sentido denotativo, mas também do sentido conotativo, não-literal, das sentenças das línguas naturais. Por fim, o sistema prevê o recurso a bases de conhecimento (como a UNL Knowledge-Base, ou simplesmente UNL-KB, e a UNL Encyclopaedia), definindo-se, portanto, não apenas como um formalismo de representação, mas como o próprio conteúdo a ser representado. A parte técnica do projeto é coordenada pelo UNL Center, que revê periodicamente a especificação da linguagem, à luz das contribuições e dos problemas verificados em cada uma das equipes. Além da construção de uma especificação semântica comum, o Projeto envolve, em cada grupo, a produção de ferramentas de codificação para a UNL (tecnicamente referida como enconverting ) e decodificação a partir da UNL (chamada deconverting ). A partir de um algoritmo comum, modelado pelo UNL Center, todos os grupos devem desenvolver: a) um dicionário língua natural- UNL, b) uma gramática bidirecional língua natural-unl, e c) uma matriz de probabilidades de aplicação das regras gramaticais. Como todos os grupos operam sobre o mesmo algoritmo, a sintaxe das regras e a forma do dicionário são idênticas entre os diferentes grupos, pouco importando a filiação lingüística. O desenvolvimento das ferramentas de codificação e decodificação, e os problemas dele derivados, orientam o processo de revisão da especificação UNL, e conformam a razão mesma das alterações. Ao longo de sua primeira fase, o Projeto UNL não se define, necessariamente, como um projeto de tradução automática, mas principalmente como iniciativa de desenvolvimento de sistemas de geração multilíngüe de documentos codificados manualmente em UNL. Para evitar os problemas relativos à análise e ao entendimento da

língua humana, que envolvem tecnologia e recursos ainda indisponíveis, mesmo para línguas que têm sido alvo de intensivo esforço de dicionarização e gramatização, como é o caso do inglês, o Projeto abriu mão, neste primeiro momento, do desenvolvimento de sistemas automáticos de análise de língua natural, e vem sendo utilizada, principalmente, uma análise assistida por humanos, cujo grau de automação é bastante incipiente. Os esforços têm sido concentrados, de forma mais consistente, na tarefa de geração, a partir de UNL, dos enunciados em línguas naturais, embora, também neste lado, venham sendo enfrentados problemas, principalmente relacionados à dialetação da representação comum, derivada dos problemas inevitáveis de interpretação da especificação em um projeto não apenas multilíngüe mas também multicultural. A despeito disso, a UNL vem sendo adotada, em várias instâncias, como tecnologia básica, da qual muitos projetos constituem instâncias de aplicação e de validação. No momento, e apenas no Brasil, existem, em andamento, pelo menos 4 projetos que utilizam a UNL como tecnologia básica: o projeto EPT-WEB, que vem sendo desenvolvido pelo NILC, com apoio do CNPq (Proc. 551485/2001-9), e que visa ao desenvolvimento de uma ferramenta de tradução automática, do inglês para português, de manchetes e lides do diário americano The New York Times; o projeto Dicionário de E-Commerce, que visa à construção de um dicionário português-unl para termos de comércio eletrônico, e que vem sendo desenvolvido pelo Instituto UNDL Brasil, com o apoio da FUNCITEC; o projeto Vitrine Exportação, também apoiado pela FUNCITEC, para o desenvolvimento de uma plataforma de exibição de documentos em UNL; e, por fim, o projeto Diretório de Pesquisadores, voltado para a criação de um gerador automático de résumés, em UNL, para assegurar multilingüismo à base de consultores da FUNCITEC, que também apóia o projeto. No entanto, e em que pesem os recursos já desenvolvidos para o português - o dicionário português-unl soma mais de 60.000 entradas e a gramática de geração UNLportuguês constitui já um conjunto de pouco mais de 5.000 regras - percebem-se várias limitações no escopo da representação empreendida no âmbito do Projeto, principalmente relacionadas à monossentencialidade, à dialetação e à estrutura interna da representação.

No primeiro caso, observa-se um viés marcadamente sintático no projeto UNL: a unidade de representação é a sentença, o que vem restringindo o projeto a uma monossentencialidade que o impede de retratar e analisar as relações de dependência transfrasal que se observam no âmbito do texto. No plano desta proposta, pretende-se explorar a utilização de UNL em um contexto expressivamente mais amplo, ao se representar todo o texto como um só hipergrafo, em lugar de um conjunto de hipergrafos justapostos e não relacionados. Adicionalmente, esta iniciativa procurará rever o conjunto de relações, atributos e palavras universais que definem a UNL, de forma não apenas a incorporar operadores transfrasais, mas a definir também, de forma mais clara, os contextos de uso e as regras de combinação de cada uma das relações e atributos que caracterizam sua especificação, evitando, assim, a vagueza teórica que tem provocado, freqüentemente, a dialetação da UNL entre os vários grupos participantes do Projeto. Por fim, o projeto pretende propor um esquema XML para a formatação de documentos UNL, para que possam ser apropriadas as muitas funcionalidades já disponíveis no âmbito do XML, e também para promover uma infra-estrutura de representação dos documentos em que o texto, e não a sentença, seja utilizado como unidade básica. A partir dessa (re)especificação, acredita-se que se possa promover a análise e a geração automática de enunciados de língua natural de forma mais eficaz e integrada do que a que vem sendo realizada no âmbito do Projeto UNL, e que se possa instrumentalizar o desenvolvimento de sistemas de processamento automático da língua portuguesa de base semântico-discursiva. 2. Objetivos e metas O objetivo imediato deste projeto está relacionado ao desenvolvimento dos recursos lingüístico-computacionais - especificação, dicionário e gramática, nomeadamente - necessários para a geração automática, para a língua portuguesa, de um texto codificado em UNL. Espera-se, principalmente, que se possa fazer avançar a tecnologia já existente,

boa parte dela construída pelo próprio autor deste projeto nas iniciativas anteriores implementadas no âmbito do NILC, de tal forma que a passagem de uma estrutura de dados de natureza reticulada, caso do hipergrafo UNL, possa ser transduzida em outra, de natureza linear, caso da sentença em língua portuguesa, sem os problemas que vêm sendo observados, principalmente no que concerne à realização morfossintática e distribucional dos enunciados do português. Este objetivo imediato esconde, na verdade, uma vasta gama de outros objetivos de pesquisa e desenvolvimento, associados, em primeiro lugar, à construção de recursos para a investigação sistemática do processo, seja de análise de uma língua natural (no caso, o inglês) para UNL, seja de geração de UNL para uma língua natural, que se traduzem nos vários produtos referidos na seção 5 desta proposta. 3. Metodologia Para a consecução dos objetivos propostos, prevê-se o desenvolvimento das seguintes etapas: 1 Codificação, manual, de acordo com a versão 2005 da especificação UNL, da versão em língua inglesa do Crátilo, de Platão, traduzida diretamente do grego por Benjamin Jovett. A escolha do texto é principalmente arbitrária, mas foi motivada por alguns fatores: a) publicado em 420 a.c., trata-se de um dos textos fundamentais e fundacionais da historiografia dos estudos da linguagem; b) embora a versão a ser considerada seja já uma tradução para o inglês, o texto corresponde a uma fonte primária, de complexidade considerável, não préeditada, não facilitada e não higienizada, retratando, pois, um estado de uso efetivo da língua; c) trata-se de um texto relativamente curto, com apenas 1.853 sentenças, ou 12.498 palavras, permitindo que se possam estudar estratégias de inter-relacionamento que autorizem a representação de todo o texto como um só hipergrafo. 2 Modelação e construção do dicionário UNL-português para o conjunto das UWs formadas a partir da codificação, em UNL, do Crátilo. Trata-se, na verdade, de uma revisão e extensão do dicionário já existente, onde se espera que estejam já cadastradas boa parte das entradas necessárias à geração automática, para o português, do documento UNL. 3 Modelação e construção da base de conhecimento UNL (UNL Knowledge Base, ou UNL KB) para o conjunto das UWs formadas a partir da codificação do Crátilo. Nesta etapa, em consonância com a especificação UNL, seriam criadas as Master Definitions correspondentes a cada UW, para que se possa

instrumentalizar, futuramente, estratégias de análise automática baseadas em conhecimento. 4 Modelação e construção da gramática de geração UNL-português, de acordo com a meta-sintaxe proposta pelo UNL Center, de tal forma que a gramática assim produzida possa ser utilizada como parâmetro do DeCo, ferramenta de geração automática disponibilizada pela Fundação UNDL. Mais uma vez, trata-se, principalmente, da extensão e da revisão da gramática já existente, construída pelo próprio autor deste Projeto, quando colaborador do NILC. 5 Especificação do esquema UNL-XML, que deveria corresponder ao conjunto de marcas a serem atualizadas pelo documento UNL, permitindo que sejam utilizadas estratégias de verificação e validação já disponíveis no âmbito de XML. 6 Definição de um conjunto de relações de âmbito intersentencial e transfrasal, para que se possam inter-relacionar e reintegrar os enunciados UNL artificialmente isolados pela natureza monossentencial da atual versão da especificação. 7 XMLização do documento UNL, para que se possa representar todo o Crátilo, não apenas como um conjunto de muitos hipergrafos justapostos, mas como um só hipergrafo, cujos vários hipernodos estariam vinculados por meio de relações que capturariam a conformação pragmático-discursiva do texto. 8 Modelação e construção da gramática de geração UNL-português para as relações de natureza intersentencial referidas anteriormente, para que se possa viabilizar a geração automática do texto como unidade de processamento. 9 Comparação dos resultados obtidos nas duas versões de geração do Crátilo - como seqüência de hipergrafos e como um só hipergrafo -, e análise da relação entre custo e benefício das extensões empreendidas no âmbito da especificação UNL. 4. Cronograma O fluxo provável de desenvolvimento das atividades é apresentado na Figura 1 abaixo, que ilustra o cronograma de execução das etapas definidas na seção anterior: ETAPAS 01 02 03 04 05 MESES 01 02 03 04 05 06 07 08 09 10 11 12

06 07 08 09 5. Resultados Esperados Figura 1. Cronograma previsto de desenvolvimento das atividades Espera-se que, como subproduto da iniciativa, possam estar disponíveis: um corpus paralelo inglês-unl, com uma tábua de correspondências que permitiria, em alguma escala, alguma automatização do processo de análise; a criação de um protocolo próprio de codificação do documento UNL que possa ser expresso como uma esquema XML, a ser incorporado em edições futuras de análise; a criação do dicionário de UWs (palavras de UNL) que abranja todos os conceitos mobilizados pela versão, em língua inglesa, do Crátilo, de Platão; a criação da base de conhecimentos UNL (UNL KB), em que estejam presentes todas as definições necessárias para a manipulação das UWs criadas; a criação do dicionário UNL-português para o repertório de UWs definido por ocasião do projeto; a criação da gramática UNL-português, para geração automática, a partir de UNL, de textos em língua portuguesa; e a criação de um novo conjunto de relações e atributos, e suas correspondentes regras de combinação de uso, para a representação do conhecimento veiculado em nível intersentencial. 6. Referências LASSILA, O.; SWICK, R. R. (eds.). Resource Description Framework (RDF): model and syntax specification. W3C Recommendation 22 February 1999. MARTINS, Ronaldo Teixeira. A nova língua do imperador. 2004. Tese de doutoramento (Doutorado em Lingüística) - Instituto de Estudos da Linguagem (IEL)/Universidade Estadual de Campinas (UNICAMP). Orientador: Rodolfo Ilari. MARTINS, Ronaldo Teixeira; FOSSEY, Marcela Franco; PEDROLONGO, Tatiana. Policarpo: um tradutor automático para páginas do NYT. In: 51º SEMINÁRIO DO GEL, 2003, Taubaté. ESTUDOS LINGÜÍSTICOS XXXIII. 2004. v. XXXIII. MARTINS, Ronaldo Teixeira; HASEGAWA, Ricardo; NUNES, Maria das Graças Volpe. HERMETO: A Natural Language Analysis Environment. In: TIL- WORKSHOP EM TECNOLOGIA DA INFORMAÇÃO E DA LINGUAGEM HUMANA, 2004, Salvador. Anais do SBC 2004. 2004. v. 1, p. 1-10. MARTINS, Ronaldo Teixeira; HASEGAWA, Ricardo; NUNES, Maria das Graças Volpe. Hermeto: A NL- UNL Enconverting Environment. In: CONVERGENCE 03 - INTERNATIONAL CONFERENCE ON THE CONVERGENCE OF KNOWLEDGE, CULTURE, LANGUAGE AND INFORMATION

TECHNOLOGIES, 2003, Alexandria, Egito. Proceedings of Convergence 03 - International Conference on the Convergence of Knowledge, Culture, Language and Information Technologies. 2003. v. 1. MARTINS, Ronaldo Teixeira; NUNES, Maria das Graças Volpe. On the aboutness of UNL. Research In Computing Science, Mexico, v. 12, p. 51-63, 2005. MARTINS, Ronaldo Teixeira; PELLIZONI, Jorge Marques; HASEGAWA, Ricardo; NUNES, Maria das Graças Volpe. Da tradução automática para a língua portuguesa: apontamentos de três experiências baseadas em interlíngua. Palavra, Rio de Janeiro, v. 12, p. 1-24, 2004. MARTINS, Ronaldo Teixeira; RINO, Lúcia Helena Machado; NUNES, Maria das Graças Volpe; OLIVEIRA JR, Osvaldo Novais de. The UNL distinctive features: evidences through a NL-UNL encoding task. In: THE FIRST INTERNATIONAL WORKSHOP ON UNL, OTHER INTERLINGUAS AND THEIR APPLICATIONS, 2002, Las Palmas. Proceedings of The First International Workshop on UNL, other Interlinguas and their Applications. 2002. p. 08-13. MONTILHA, Gisele; OLIVEIRA JR, Osvaldo Novais de. An interlingua aiming at communication on the web: how language-independent can it be?. In: WORKSHOP ON APPLIED INTERLINGUAS: PRACTICAL APPLICATIONS OF INTERLINGUAL APPROACHES, 2000, Seattle. Proceedings of the Workshop on Applied Interlinguas: Practical Applications of Interlingual Approaches. 2000. p. 24-33. NUNES, Maria das Graças Volpe; MARTINS, Ronaldo Teixeira; RINO, Lúcia Helena Machado; OLIVEIRA JR, Osvaldo Novais de. The use of the Universal Networking Language for devising an automatic sentence generator for Brazilian Portuguese. Cadernos de Computação, São Carlos - SP, v. 02, n. 02, p. 57-80, 2001. NUNES, Maria das Graças Volpe; RINO, Lúcia Helena Machado; MARTINS, Ronaldo Teixeira; OLIVEIRA JR, Osvaldo Novais. O uso de interlíngua para comunicação via internet: a decodificação UNL-Português. Revista tecnologia da informação, Brasília, v. 3, n. 1, p. 49-56, 2003. SHANK, R. Conceptual Dependency: A Theory of Natural Language Understanding, Cognitive Psychology, (3)4, 532-631, 1972. SOWA, J. F. Knowledge Representation: Logical, Philosophical, and Computational Foundations, Brooks Cole Publishing Co., Pacific Grove, CA, 2000. SOWA, J. F. Conceptual Structures: Information Processing in Mind and Machine, Addison-Wesley, Reading, MA, 1984. UCHIDA, H.; ZHU, M.; DELLA SENTA, T. The UNL, a Gift for a Millennium. UNU/IAS, 237, November, 1999. Uchida. H., Zhu, M.; Della Senta, T. UNL: Universal Networking Language - An Electronic Language for Communication, Understanding and Collaboration. UNU/IAS/UNL Center. Tokyo, Japan, 1996. The Universal Networking Language (UNL) Specifications, version 3.3. Geneva: UNDL Foundation, 2004.