Estudos Lingüísticos XXXIII, p , [ 1127 / 1132 ]

Documentos relacionados
Objectivos / Competências Conteúdos Descrição dos Domínios de referência: Unidades temáticas

6 Atributos. A dívida da empresa subiu.

Ferramenta de apoio a identificação de eventos utilizando Linguagem Natural. Aluno: Ricardo Tomelin Orientador: Everaldo Artur Grahl

Inglês IV. plano de ensino. Ementa. Objetivos Gerais. UA 01 Company facts. UA 02 Telephoning in English

Prova 16 Francês - Prova de Equivalência à frequência 3º ciclo- ensino básico

CULTURA, LÉXICO E REGULARIDADES ESTRUTURAIS EM TEXTOS ESPECIALIZADOS DE MEDICINA E DE DIREITO AMBIENTAL: UM CONTRASTE EXPLORATÓRIO

ESTUDOS DA TRADUÇÃO II. Prof. Carlos Rodrigues 11 de abril de 2015

Objectivos / Competências Conteúdos Descrição dos itens

O código do modelo de mapeamento sintático-conceitual do sistema ConPor

AGRUPAMENTO DE ESCOLAS SEBASTIÃO DA GAMA

Objectivos / Competências Conteúdos Descrição dos itens

AULA 1: A DICOTOMIA LÍNGUA FALADA / LÍNGUA ESCRITA

Aula 11 Desenvolvimento da linguagem: emergência da sintaxe (parte 2)

ÍNDICE. AGRADECIMENTOS... v. TÍTULO E RESUMO... ix. TITLE AND ABSTRACT... xi. TITRE ET RÉSUMÉ... xiii. TÍTULO Y RESUMEN... xv

MATRIZ DE REFERÊNCIA LÍNGUA PORTUGUESA SADEAM 3º ANO DO ENSINO FUNDAMENTAL

A/ART casa/n caiu/v./. Figura 3.1: Frase com anotação morfossintática.

Informação Prova de Equivalência à Frequência. (Inglês)

manifestações científicas, gêneros literários (provérbio, poesia, romance) etc. AULA GÊNEROS DISCURSIVOS: NOÇÕES - CONTINUAÇÃO -

Castro (2008, p.7) define a palavra ontologia de forma mais simplificada:

Módulo 01: As distintas abordagens sobre a linguagem: Estruturalismo, Gerativismo, Funcionalismo, Cognitivismo

Carga Horária: 67h-80 h. a Docente Responsável: CARLOS ANDRÉ EMENTA USO DO VOCABULÁRIO EM CONTEXTOS E SITUAÇÕES DIVERSAS QUE AUXILIEM NA

Escola Básica e Secundária de Santa Maria. Ano Letivo 2017/2018. Informação Prova Especial de Avaliação. PROFIJ II Tipo 2 1º ano

Fonseca, L. C. Inglês Jurídico Tradução e Terminologia. São Paulo: Lexema, p.

Gêneros do discurso: contribuições do Círculo de Bakhtin. Profa. Sheila Vieira de Camargo Grillo

inglês Material de divulgação Comparativos Curriculares SM língua estrangeira moderna ensino médio

ESCOLA BÁSICA DE MAFRA

DADOS DO COMPONENTE CURRICULAR

INFORMAÇÃO-PROVA DE EQUIVALÊNCIA À FREQUÊNCIA

Informação PROVA ESCRITA 1 - INTRODUÇÃO

Inteligência Artificial. Prof. Esp. Pedro Luís Antonelli Anhanguera Educacional

O QUE É A LINGÜÍSTICA TEXTUAL

INGLÊS INFORMAÇÃO PROVA DE EQUIVALÊNCIA À FREQUÊNCIA. Prova º Ciclo do Ensino Básico AGRUPAMENTO DE ESCOLAS VERGÍLIO FERREIRA.

Visualização de Texto e Documento

DGEstE - Direção de Serviços da Região Norte AGRUPAMENTO DE ESCOLAS N.º 1 DE MARCO DE CANAVESES (150745) NIPC

Dimensão sociocultural Concretizada nos domínios de referência específicos de cada módulo (em anexo).

INFORMAÇÃO - PROVA DE EQUIVALÊNCIA À FREQUÊNCIA INGLÊS (LE I) COMPONENTES ESCRITA E ORAL

Recapitulando... Abordagens: PLN. Abordagens: PLN 29/03/2012. Introdução ao Processamento de Línguas Naturais. Distribuição de palavras

DCC011 Introdução a Banco de Dados. Construindo o Esquema. 1. Propriedades de Modelos ER. Construindo Esquema Conceitual

AGRUPAMENTO DE ESCOLAS DE GOLEGÃ, AZINHAGA E POMBALINHO. Informação - Prova de Equivalência à Frequência à disciplina de Português

ABORDAGENS COMPUTACIONAIS da teoria da gramática

ANEXO 1 A Ementário e Quadro de disciplinas por Departamentos/Setores

Descrição da Escala Língua Portuguesa - 7 o ano EF

Sumário PARTE 1. Gramática

Introdução a uma abordagem formal da sintaxe Teoria X-barra, II

O ENSINO DE LÍNGUA INGLESA EM TURMAS DA EJA: A UTILIZAÇÃO DE CHARGES COMO RECURSO DIDÁTICO NO ENSINO DE INGLÊS COMO UMA LÍNGUA ESTRANGEIRA

AGRUPAMENTO DE ESCOLAS DE REDONDO ESCOLA BÁSICA E SECUNDÁRIA DR. HERNÂNI CIDADE INFORMAÇÃO - PROVA DE EQUIVALÊNCIA À FREQUÊNCIA (ESCRITA E ORAL)

Introdução ao Processamento de Línguas Naturais. Thiago A. S. Pardo

INFORMAÇÃO PROVA DE EQUIVALÊNCIA À FREQUÊNCIA Inglês

CRITÉRIOS DE AVALIAÇÃO

Oral e Escrita de Equivalência à Frequência de Inglês 2018

ESTUDOS LINGÜÍSTICOS DOSSIÊ GRAMÁTICAS CATEGORIAIS

Informação Prova de Equivalência à Frequência Espanhol

AGRUPAMENTO DE ESCOLAS SEBASTIÃO DA GAMA

INGLÊS AGRUPAMENTO DE ESCOLAS DA CAPARICA. 1. Objeto de avaliação. 2. Características e estrutura. Prova º Ciclo do Ensino Básico

Data: Para: Inspeção-Geral de Educação. Direções Regionais de Educação. Escolas com ensino secundário CIREP FERLAP CONFAP

Terceiro Trabalho de Inteligência Artificial / Sistemas Inteligentes. Entrega: 29/04/2016

Listas de frequência de palavras como marcadores de estilo no reconhecimento de autoria. Rui Sousa Silva

(2) A rápida publicação deste livro pela editora foi um bom negócio.

Sumarizando: o que é uma língua. Métodos para seu estudo...44

Pensamento e linguagem

Avaliar o comportamento das crianças DEL no que concerne ao valor dado à informação de pessoa em Dmax e no afixo verbal;

Dimensão sociocultural Concretizada nos domínios de referência específicos de cada módulo (em anexo).

Objeto de avaliação. Caracterização da prova. 1.º Ciclo do Ensino Básico (Decreto-Lei n.º 17/2016, de 4 de abril) Prova

Informação Prova de Equivalência à Frequência de Português

Função social: apresenta como objetivo básico instruir, ensinar, ou seja, levar o leitor a assimilar conhecimentos e valores instituídos.

Tratamento dos Erros de Sintaxe. Adriano Maranhão

2. Objeto de avaliação

Relatório. Ano lectivo

Data: Para: Inspeção-Geral de Educação. Direções Regionais de Educação. Escolas com ensino secundário CIREP FERLAP CONFAP

A ELABORAÇÃO DE UM CATÁLOGO: CONSTRUÇÕES RECORRENTES EM TEXTOS DE PEDIATRIA PARA APRENDIZES DE TRADUÇÃO

INFORMAÇÃO-PROVA DE EQUIVALÊNCIA À FREQUÊNCIA

INGLÊS Cont. Ano Letivo 2016/2017 INFORMAÇÃO PROVA DE EQUIVALÊNCIA À FREQUÊNCIA. 11º Ano de Escolaridade

As informações apresentadas neste documento não dispensam a consulta da legislação em vigor e o Programa da disciplina.

INFORMAÇÃO PROVA DE EQUIVALÊNCIA À FREQUÊNCIA /2013

Colégio Internato dos Carvalhos

Informação - Prova de Equivalência à Frequência ESPANHOL Código da Prova: º Ano de Escolaridade

REGIÃO AUTÓNOMA DA MADEIRA GOVERNO REGIONAL

Indexação automática. CBD/ECA Indexação: teoria e prática

TeMário 2006: Estendendo o Córpus TeMário

AGRUPAMENTO DE ESCOLAS SEBASTIÃO DA GAMA

Introdução. 3 º Ciclo do Ensino Básico (Decreto-Lei n.º 3/2008, de 7 de janeiro)

Data: Para: Inspeção-Geral de Educação. Direções Regionais de Educação. Escolas com ensino secundário CIREP FERLAP CONFAP

A COMPILAÇÃO DE CORPORA PARALELOS E COMPARÁVEIS E O USO DE FERRAMENTAS COMPUTACIONAIS COM FINS PEDAGÓGICOS

Escola Básica e Secundária de Santa Maria. Ano Letivo 2017/2018. Informação Prova Especial de Avaliação. PROFIJ IV Tipo 4 1º ano

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU

AGRUPAMENTO DE ESCOLAS DE FRAGOSO 90 MINUTOS

Terceiro Trabalho de Sistemas Inteligentes. Entrega: 25/04/2014

Prova INGLÊS 2019

INFORMAÇÃO DE PROVA EQUIVALENTE A EXAME NACIONAL

Por que o dicionário é importante na escola?

COLÉGIO SANTA TERESINHA

Novas Ferramentas e Recursos Linguísticos para a Tradução Automática

Semântica no Reconhecedor Gramatical Linguístico

Caracterização da prova A prova deve ser cotada para 100 pontos, sugerindo-se uma organização em quatro grupos.

Agrupamento de Escolas Nº 1 de Abrantes DISCIPLINA: PORTUGUÊS ANO: 8º ANO LETIVO 2013/2014

Introdução à perspectiva cognitivista da linguagem: visão geral. Sintaxe do Português II Prof. Dr. Paulo Roberto Gonçalves Segundo FFLCH-USP DLCV FLP

Escola Secundária com 3º Ciclo do Ensino Básico de Amora

Português - alfabeto; - sequência alfabética; - formação de palavras; - leitura e interpretação (imagem, palavra, frase e texto).

Agrupamento de Escolas Cego do Maio Póvoa de Varzim (Cód ) Português MAIO DE Prova de º Ano 3.º Ciclo do Ensino Básico

ESPANHOL INFORMAÇÃO PROVA DE EQUIVALÊNCIA À FREQUÊNCIA. Prova º Ciclo do Ensino Básico AGRUPAMENTO DE ESCOLAS VERGÍLIO FERREIRA

Transcrição:

POLICARPO: UM TRADUTOR AUTOMÁTICO PARA PÁGINAS DO NYT (POLICARPO: A MACHINE TRANSLATOR FOR NYT WEB PAGES) Ronaldo MARTINS (Universidade de São Paulo/NILC/São Carlos) Marcela Franco FOSSEY (Universidade de São Paulo/NILC/São Carlos) Tatiana PEDROLONGO (Universidade de São Paulo/NILC/São Carlos) ABSTRACT: The paper presents a description of the recurring semantic structure found at the New York Times headlines. It is claimed that such regularity can be useful for machine translation purposes and should be considered as a method for defining headlines as a discourse genre. KEYWORDS: machine translation; natural language processing; discourse genre. 0. Introdução Este artigo tem por objetivo reportar algumas das conclusões parciais retiradas do projeto de desenvolvimento de um tradutor automático bilíngüe e unidirecional do inglês para português especializado nos textos da primeira página da versão digital do diário norteamericano The New York Times (NYT). O tradutor POLICARPO é baseado em interlíngua, a UNL (Universal Networking Language), e opera a partir da conjugação de cinco módulos que atuam desde extração da página original até geração e rediagramação da página traduzida. Para análise sintático-semântica do inglês e para geração sintática do português, desenvolveram-se dois dicionários (inglês-unl e UNL-português) e duas gramáticas (de análise e de geração), com módulos (satélites) especializados nas estruturas recorrentes em cada tipo de texto identificado. Os resultados preliminares da implementação do sistema confirmam, em geral, as expectativas de que o processamento de manchetes é mais eficiente do que o dos demais tipos de textos, em função, principalmente, daquilo que referiremos como "estabilidade semântica" dos textos das manchetes do NYT, que será o principal foco de atenção deste trabalho. O texto está dividido em quatro seções: 1) em que se procura ampliar o escopo da relativa estabilidade que, segundo Bakhtin, caracterizaria os gêneros do discurso; 2) em que se apresenta, como procedimento descritivo, a UNL, metalinguagem utilizada para representar o conteúdo ideacional dos enunciados analisados; 3) em que se reportam os resultados da aplicação da UNL para um subconjunto do corpus delimitado; e 4) em que se extraem algumas conclusões gerais sobre as formas e usos das manchetes [do NYT]. 1. A manchete como gênero do discurso Estudos Lingüísticos XXXIII, p. 1127-1132, 2004. [ 1127 / 1132 ]

O conceito de "gênero do discurso" está associado à idéia de que os enunciados lingüísticos, em que pese sua variabilidade e sua heterogeneidade aparentes, incorreriam na repetição de formas e conteúdos que seria definida nas várias esferas de utilização da língua. Embora essas esferas sejam também heterogêneas e muito variadas, diferenciando-se e ampliando-se à medida que se desenvolvem, comportariam, cada uma delas, um repertório que, em última instância, conformaria o que existiria de "repetível" por sob as manifestações da linguagem, identificando os enunciados lingüísticos como ocorrências de um determinado tipo, e prescrevendo, em cada caso, estratégias relativamente convencionalizadas de interpretação. Para Bakthin (2000[1953]), os elementos dessa repetição, reflexo das condições específicas e finalidades de cada esfera de utilização da língua, seriam três: o conteúdo (temático), o estilo verbal (os recursos lexicais, fraseológicos e gramaticais) e a construção composicional. Para o autor, todos esses elementos são marcados pela especificidade da esfera de comunicação. Considera que qualquer enunciado considerado isoladamente é, claro, individual, mas cada esfera de utilização da língua elabora seus tipos relativamente estáveis de enunciados, sendo isso que denominados gêneros do discurso" (id ibidem, p. 279, grifos do autor). Aceita esta definição, não é difícil perceber que as manchetes de jornais poderiam integrar, como espécie, a riqueza e variedade infinita de gêneros do discurso. Manchetes enfeixam, na língua inglesa como na língua portuguesa, uma relativa estabilidade, que se espalha pelo conteúdo temático (associado sempre ao repertório das atualidades, principalmente políticas e econômicas), pelo estilo verbal (na medida em que há regras bem definidas de seleção léxicogramatical) e pela construção composicional (regulada por protocolos de escrita razoavelmente convencionais). Definida como o título principal, em destaque na matéria de jornal ou revista, alusivo ao tema mais importante dentre as notícias contidas na matéria, a manchete de textos jornalísticos possui uma estrutura típica cujo estilo seria bem específico. Como características sintáticas das manchetes na língua inglesa, destacam-se 1 : a) são caracterizadas pela sintaxe simples e frases curtas; b) nem sempre são sentenças completas, sendo muitas delas formadas por frases nominais; c) costumam apresentar cadeias de três, quatro ou mais substantivos, em que o primeiro modifica os seguintes ; d) normalmente não incluem artigos nem o verbo to be ; e) tempos verbais simples, como presente, passado e futuro, são preferidos às formas perifrásticas, progressivas ou perfeitas, e o presente simples é freqüentemente utilizado para eventos passados; f) o presente progressivo é usado especialmente para falar sobre mudanças; g) o infinitivo é freqüentemente usado para reportar acontecimentos futuro; h) verbos auxiliares não são incluídos em estruturas passivas; i) dois pontos são usados para separar o assunto daquilo que é dito sobre ele; entre outros. Inspirados por essa regularidade, e apesar do receio dos problemas de interpretação derivados do seu estilo muitas vezes telegráfico, definimos a manchete como principal foco de investigação tipológica para a prototipagem de uma ferramenta de tradução automática, cujo escopo deveria estar necessariamente restrito a um gênero do discurso o mais delimitado possível. Nosso objetivo era verificar a viabilidade e a robustez de uma ferramenta de tradução automática que estivesse menos restrita ao repertório lexical do que às possibilidades de estruturação sintática. Embora a construção de dicionários seja dispendiosa e sujeita a toda sorte de ambigüidade, esta opção pareceu-nos mais interessante do que a inversa, visto que a restrição do conjunto de possibilidades combinatórias e do número de palavras co-ocorrentes em um mesmo enunciado oferecia um mecanismo de controle razoavelmente eficiente para efetuar os processos 1 cf. QUIRK, Randolph, 1985 e SWAN, Michael, 1995. Estudos Lingüísticos XXXIII, p. 1127-1132, 2004. [ 1128 / 1132 ]

de desambigüização lexical que seriam i mprescindíveis em u m ambiente computacional, como o requerido, de mínima interação com o usuário. As oportunidades de generalização dos procedimentos - a partir da definição de uma "core grammar" e de tantas gramáticas satélites quantos fossem os gêneros indicados - eram mais auspiciosas do que a fragmentação excessiva em diferentes dicionários, cada um dos quais especializado em um domínio do discurso específico, e mobilizados, todos, por uma mes ma gramática. Com efeito, a análise de um frag mento do corpus delimitado provou que a manchete, como gênero do discurso, a par da recorrência do conteúdo (temático), do estilo e da construção composicional, acima salientada, pode oferecer um outro tipo de relativa estabilidade, não explicitada por Bakhtin: trata-se da recorrência de um mes mo tipo de estruturação semântica, pelo menos da perspectiva do aparelho descritivo por nós utilizado, ou seja, a linguagem de representação do conhecimento conhecida como UNL. 2. Universal Networking Language O Projeto Universal Networking Language, ou simplesmente UNL, tem por objetivo, principalmente, o desenvolvimento de um for malismo lógico-computacional capaz de representar, para a máquina, o conteúdo ideacional veiculado pelas sentenças das línguas naturais. Essa representação, que recebe o nome Universal Networking Language em virtude de seu caráter desejavelmente universal e reticulado, compreende, em sua formulação atual (versão 3.0), três níveis de representação do conteúdo semântico da sentença: o nível lexical, o nível interlexical e o nível sentencial. O nível lexical compreende um repertório de conteúdos semânticos atômicos supostamente universais, convencionalizados pelo UNL-Center, e etiquetados a partir do vocabulário dos itens lexicais da língua inglesa. A associação desses conteúdos lexicais ao vocabulário do inglês fragiliza evidentemente a universalidade da proposta, mas a correspondência semântico(universal)-ortográfica(inglês) é tomada, principalmente, como incidental, e configura apenas o ponto de partida. O nível interlexical corresponde, de forma aproximada, àquilo que se convencionou chamar, a partir de Fillmore (1968), "caso semântico". Trata-se de um inventário de 38 casos, que esgotariam as possibilidades de inter-relacionamento semântico dos conteúdos lexicais dentro de uma sentença. Por fim, resta o nível sentencial, que inclui informações de natureza estilística da sentença, representando informações sobre foco, tipologia (interrogativa, declarativa, etc.) e outros. O repertório desses marcadores semânticos, nos três níveis, é definido e controlado pelo UNL-Center, que revê periodicamente a especificação da linguagem, à luz das contribuições e dos problemas verificados em cada um dos muitos grupos lingüísticos associados. Esses três níveis de descrição semântica estão articulados, na representação UNL, por uma sintaxe específica, a partir da qual os enunciados lingüísticos são representados como (hiper)grafos, cujos (hiper)nós (expoentes do nível lexical) podem ser anotados por um repertório de atributos específicos (conformando a informação sentencial) e estão ligados, uns aos outros, por arcos semânticos que constituem relações binárias orientadas (informação interlexical). 2 2 Para maiores informações sobre a abordagem UNL, aqui excessivamente simplificada pelas restrições de espaço, o leitor fica remetido para o texto da proposta, Uchida et al. 1999. Estudos Lingüísticos XXXIII, p. 1127-1132, 2004. [ 1129 / 1132 ]

3. Análise do Corpus Para a prototipagem da ferramenta de tradução automática, compilou-se um conjunto de textos extraídos do NYT. Os textos constituíam as páginas de abertura da versão eletrônica do jornal e foram capturados durante quase um mês (de 3 de abril a 8 de maio de 2002). Somam no total 1.462 páginas, que foram divididas em dois subconjuntos: o corpus de trabalho, contendo 150 páginas, utilizado para a construção dos dicionários e das gramáticas de análise e geração; e o corpus de teste, contendo o restante das páginas, e que será usado na validação do protótipo. Para análise das manchetes, utilizamos uma fração do corpus de trabalho: 17 páginas coletadas, com u m intervalo de meia hora, dias 3 e 4 de abril de 2002. As sentenças das páginas foram reunidas automaticamente em cinco grupos (manchete, menu, lead, propaganda, outros), a partir de critérios distribucionais, que correspondiam à diagramação do texto. Nas 17 páginas analisadas, foram encontradas 196 manchetes, perfazendo um total de 1.272 palavras (765 distintas). Cada manchete trazia número médio de 37,5 caracteres (incluídos os espaços em branco) e 6,48 palavras (valor bem próximo ao da mediana, igual a 6,0). O desvio padrão foi de 2,26, indicando alguma dispersão dos dados (o coeficiente de dispersão foi igual a 34,87%). O tamanho das manchetes analisadas foi, portanto, muito variado, oscilando entre 4,22 e 8,74 palavras por sentença. As sentenças foram anotadas automaticamente em relação às partes do discurso pelo tagger MXPOST para a língua inglesa (Ratnaparkhi, 1996). Obsevou-se um número elevado de ocorrências de substantivos (68% de todas as palavras utilizadas), seguido, à distância, pelas preposições (13% do total) e pelos verbos (8%). As demais classes gramaticais tiveram presença irrelevante (inferior a 3%). Cada sentença foi mapeada para a representação UNL por dois membros do projeto, treinados para este fim. Os resultados da representação estão ilustrados nos gráficos abaixo: 40 39 35 33 30 25 26 20 15 10 11 8 9 12 8 17 5 0 def future indef may pas t progress single_quote topic out ros Gráfico 1. Freqüência de ocorrência de atributos no corpus de análise. Estudos Lingüísticos XXXIII, p. 1127-1132, 2004. [ 1130 / 1132 ]

250 249 200 182 150 100 124 93 50 28 36 19 34 0 agt and aoj cnt mod obj plc outros Gráfico 2. Freqüência de ocorrência de relações no corpus de análise. Os gráficos evidenciam a concentração, nas manchetes analisadas, de um mesmo conjunto de relações e atributos, indicando que a estabilidade observada não estaria restrita ao repertório lexical ou à dimensão sintática previstas, por exemplo, pelo estilo e pela construção composicional do gênero. Em relação ao conjunto de relações semânticas (3,9, em média, por manchete), 33% do total de ocorrências correspondeu ao caso semântico de modificação (de natureza atributiva) entre dois núcleos nominais; 24% corresponderam à relação de objeto (aquele sobre o qual incide um determinado evento verbal); 16% à relação de agente (ou aquele que inicia, voluntariamente ou não, um determinado evento verbal); e as demais 35 relações (de lugar, de tempo, de instrumento, de modo, etc.) alcançaram apenas 27% do total. A mesma distribuição bastante desigual foi observada em relação ao uso dos atributos. Dos mais de 60 atributos previstos pela especificação, apenas 16 foram encontrados no corpus analisado. Isoladas as ocorrências previsíveis dos atributos @entry (utilizado para marcar o nó raiz do grafo, e obrigatório em todas as sentenças e escopos internos) e @pl (marca de plural), destaca-se a recorrência da utilização a) dos atributos de referência, como @def e @indef, que determinam a oposição entre informação nova e informação velha (27% do total), b) das marcas de topicalização (@topic), que indicam, por exemplo, a presença da passiva (24% do total), e c) dos atributos temporais (principalmente @past, 16% do total). As outras relações totalizaram apenas 33% do total (não chegando a 7% cada). 4. Conclusão Os dados apresentados permitem concluir que a relativa estabilidade dos enunciados lingüísticos analisados não se resumiu ao conteúdo (temático), ao estilo e à construção composicional, mas avançou também sobre o conjunto de diáteses verbais e nominais observado entre os conceitos mobilizados. Embora esses resultados digam respeito a uma amostra bastante limitada do corpus, utilizada apenas para efeito de prototipagem do sistema, e embora a validade dessa observação esteja evidentemente condicionada a) à estrutura do formalismo de Estudos Lingüísticos XXXIII, p. 1127-1132, 2004. [ 1131 / 1132 ]

representação utilizado e b) à aplicação do formalismo para o conjunto de dados observados, parece promissora a hipótese de perceber que as esferas de utilização da língua determinam (ou condicionam) não apenas escolhas lexicais e sintáticas, ou aquelas relativas à macroestrutura textual, mas igualmente restringem o conjunto de estruturas semânticas atualizáveis pelos enunciados lingüísticos, seja sob a forma de predicados unitários, seja sob a forma de relações binárias entre itens lexicais. Esta observação se torna tanto mais válida quanto se percebe que a tecnologia para o desenvolvimento de sistemas inteligentes de tradução automática que produzam resultados minimamente aceitáveis parece estar refém de u ma série de escolhas metodológicas que procure reduzir, ao mínimo, a variabilidade e a heterogeneidade naturais da língua, sem produzir, contudo, uma indesejável e excessiva artificialização dos enunciados lingüísticos. RESUMO: O artigo apresenta a descrição da estrutura semântica recorrente encontrada nas manchetes do New York Times digital. É alegado que esta regularidade pode ser útil para os propósitos da tradução automática e deve ser considerada como método para definir manchetes e gêneros do discurso. PALAVRAS-CHAVE: tradução automática; processamento de linguagem natural; gêneros do discurso. REFERÊNCIAS BIBLIOGRÁFICAS BAKHTIN, Mikhail. Os gêneros do discurso. In: Estética da criação verbal. 3ª. ed. São Paulo: Martins Fontes, 2000. QUIRK, Randolph, et al. A comprehensive grammar of the English language. New York: Longman Group Limited, 1985. RATNAPARKHI, Adwait. A maxi mu m entropy part-of-speech tagger. Proceedings of the Conference on Empirical Methods in Natural Language Processsing. University of Pennsylvania, 1996. SWAN, Michael. Practical English Usage. 2ª. ed. Oxford: Oxford University Press, 1995. UCHIDA. Hiroshi, ZHU. Meiy ing, DELLA SENTA. Tarcisio. A gift for a millennium. Toky o: UNU/IAS, 1999. Estudos Lingüísticos XXXIII, p. 1127-1132, 2004. [ 1132 / 1132 ]