TERMINOLOGIA DO COMÉRCIO INTERNACIONAL NO MERCOSUL: COMPILAÇÃO E ANÁLISE DE UM CORPUS BILÍNGUE

TERMINOLOGIA DO COMÉRCIO INTERNACIONAL NO MERCOSUL: COMPILAÇÃO E ANÁLISE DE UM CORPUS BILÍNGUE Mariana Francis (UNIOESTE / PG-UFSC) Introdução O presente trabalho é decorrente de uma pesquisa, breve e experimental, realizada como atividade avaliativa para a disciplina Estudos de Corpora e Tradução, do Programa de Pós-graduação em Estudos da Tradução da UFSC, em nível de doutorado. Nesse caso em particular, trata-se de uma primeira aproximação às teorias da Linguística de Corpus e à prática da compilação e análise de textos eletrônicos bilíngues. Para o desenvolvimento dessa atividade foram considerados, além dos conteúdos teóricos, as orientações recebidas no que concerne: à prática laboratorial durante as aulas presencias; e aos parâmetros estabelecidos como condicionantes para o estudo. Nesse último quesito estabeleceu-se: a coleta ou acesso a um corpus bilíngue de 200.000 ocorrências; a análise de algum elemento linguístico representativo desse corpus (acima de 100 ocorrências). Houve liberdade de escolha quanto ao tema e aos textos a serem utilizados na pesquisa e, na medida em que surgiam dificuldades decorrentes da inexperiência ou inabilidade no tratamento das informações, as mesmas eram discutidas durante as aulas presenciais à procura de soluções. Antes de adentrar na descrição do experimento e seus resultados, elementos centrais desse artigo, é necessária a explicitação de algumas considerações inicias, a modo de esclarecimento. Algumas considerações iniciais

Nesse trabalho, a noção de corpus adotada, em consonância com os objetivos do estudo, se aproxima da definição expressa por Estela Maria Faustino Carvalho, ou seja, a de uma amostra dos discursos especializados que se deseja analisar para extrair materiais terminológicos (CARVALHO, 2007, p. 16). Por se tratar de um corpus bilíngue, o intuito da pesquisa é, também, o de levantar a possibilidade de construir uma ferramenta que ofereça auxílio aos tradutores, no eixo português-espanhol, ao se depararem com textos especializados, especificamente, na área do Comércio Internacional. A esse respeito, é relevante destacar o posicionamento de Tagnin (2002) quanto à possibilidade do tradutor desconhecer o uso de algumas colocações e fórmulas das línguas (dentre as quais, também as línguas de especialidade), o que ela chama de ingenuidade do tradutor. Nas palavras dessa autora, a ingenuidade do tradutor se configura numa compreensão composicional do significado e numa falta de consciência do quanto uma língua é constituída dessas partes pré-fabricadas (TAGNIN, 2002, p. 193). Assumindo esses conceitos, o foco do presente estudo é a análise de coocorrências em termos do Comercio Internacional (no Mercosul), em português, e de suas traduções ao espanhol, a partir da coleta de textos e do processamento das informações no programa AntConc. Contexto Segundo Maluf (2000, p. 23), o Comercio Internacional pode ser definido como a troca de bens e serviços entre nações. Na região do Mercosul, essa é uma das principais atividades, alavancada desde a criação do bloco e proposta como um dos princípios 1 que sustentam o acordo internacional. A integração regional que deu origem ao Mercosul, teve seus primórdios no ano de 1991, obtendo visibilidade em diversos meios de divulgação, dentre eles, a Revista do Mercosul. 1 A lista dos princípios que norteiam as ações do Mercosul pode ser consultada no site: < http://www.mercosul.gov.br/dados-gerais>

Descrição da fonte e seleção e preparação do corpus A Revista do Mercosul consiste numa publicação mensal, bilíngue, direcionada ao público empresarial, editada entre os anos de 1992 e 2004. A coleção completa, impressa, consta nos arquivos da Biblioteca do Congresso Nacional 2 e algumas edições estão disponibilizadas, em formato digital, na internet 3. Apesar de se tratar de uma edição brasileira, alavancada pelos serviços informativos de agências de notícias regionais, e haverem diversos indícios de ser o português a língua originaria dos textos de notícias (alguns artigos assinados pelos seus autores; presença de pequenos erros na tradução ao espanhol; ausência da tradução ao espanhol de trechos em algumas matérias), não é possível afirmar que todos os artigos têm, como língua de origem, o português. Por um lado, embora exista essa incerteza, a escolha dessa fonte se justifica por constituir uma considerável quantidade de informação (digitalizada e disponível) dentro do âmbito em estudo. E, por outro lado, considerou-se que, para os objetivos do trabalho, era pouco relevante distinguir o texto de origem do texto traduzido. Dessa forma, assumindo uma postura de percas e ganhos para a qual são maiores os ganhos, foi realizada a coleta dos textos extraídos das edições publicadas nos anos de 2000 e 2001. Foram compilados 206 textos em cada uma das línguas (412 no total), extraídos de 21 edições (da nº. 57 à nº. 77), salvos em 2 arquivos (um com os textos em português e o outro com os textos em espanhol) em formato.txt. A coleta demandou de bastante atenção, por se tratarem de línguas próximas e pela grande quantidade de textos, e foram aproveitados apenas os arquivo nos quais era possível acessar as versões nas duas línguas. Nesse processo, e devido a falhas no carregamento correto dos textos correspondentes a cada link, foram descartados oito textos: sete em português e um em espanhol. 2 A Rede Virtual de Bibliotecas Congresso Nacional pode ser consultada no site: <http://biblioteca2.senado.gov.br:8991/f/?func=itemglobal&doc_library=sen01&doc_number=000466874> 3 Site: <http://www2.uol.com.br/revistadomercosul/mercosul/mercosul-main_b.htm>.

O levantamento dos dados do corpus Para obter os dados iniciais (número de palavras types- e de ocorrências tokens- de cada texto) foi utilizada a ferramenta Word List do programa AntConc, versão 3.2.4w. Esse programa, de acesso gratuito 4, foi desenvolvido por Laurence Anthony, e disponibiliza diversas ferramentas, das quais, utilizaram-se nesse estudo, além da Word List: Collocates; Concordance; e File View. Como resultado da aplicação da Word List, com os textos em separado, obtiveram-se os seguintes dados: Textos em Português Textos em espanhol Types 13.368 13.611 Tokens 106.391 107.617 Tabela 1. Número de types e tokens em cada arquivo corpus. Após, foi aplicada a Word List para ambos os textos, dessa vez no mesmo A seleção dos termos para análise Em vista dos objetivos do trabalho, explicitados anteriormente, a escolha dos termos a serem analisados obedeceu aos critérios estabelecidos para a proposta, ou seja, o estudo de um caso que possua acima de 100 ocorrências. Ao consultar a Word List, verificou-se que os termos serviços e servicios, além de conformar elementos chaves dentro do Comercio Internacional, vista sua definição ( troca de bens e serviços entre nações ), eram os primeiros a se enquadrarem, minimamente e em ambas as línguas, nos critérios exigidos. Para maior clareza, apresentam-se esses dados na imagem da Ilustração 1. 4 Disponível em: <http://www.antlab.sci.waseda.ac.jp/software.html>

Ilustração 1. Termos selecionados da Word List Além desses critérios, foi levada em consideração a brevidade e agilidade que demandou a pesquisa, motivos que reafirmaram a escolha dos termos para as análises. Apesar dos dados lançados pela Word List, observou-se, na triagem completa da lista, que os casos em que Serviços e Servicios estavam grafados com a inicial em caixa alta, não haviam sido contabilizados junto com as ocorrências expostas acima. Sendo assim, foram incluídos nas análises, como poderá ser observado nos passos seguintes. O alinhamento sentencial Uma das grandes dificuldades para realizar o alinhamento sentencial foi encontrar ferramentas eletrônicas disponíveis, e gratuitas, que dessem conta da extensão do corpus ou, ainda, que possibilitassem extrair os dados num documento com extensão.txt. Foram feitas várias tentativas com o programa AntPConc sem resultados e, ao solicitar auxílio nas aulas presencias, na impossibilidade da instituição disponibilizar

programas pagos, foi sugerida uma solução alternativa, porém viável: o alinhamento manual das sentenças relativas aos termos selecionados para as análises. Para o desenvolvimento dessa tarefa, foram utilizadas duas janelas do programa AntConc, abertas de forma a serem consultadas simultaneamente, nas quais foi acionada a ferramenta Concordance e, por vezes, a File View, para extrair as sentenças em português e em espanhol alinhando-as. Veja-se a ilustração abaixo para maior clareza. Ilustração 2. Alinhamento manual com o AntConc em duas janelas simultâneas Como resultado obtiveram-se 120 pares de sentenças, alinhadas segundo a ordem em que apareciam na lista da Concordance em português, e salvas num único arquivo com extensão.txt. Concluída essa fase do processamento dos dados, o arquivo resultante foi aberto no programa AntConc à procura das colocações mais frequentes. A lista de colocações e a análise colocacional O procedimento de aplicação da ferramenta Collocates apontou 96 diferentes colocações que aparecem junto ao termo em português serviços, sendo que, a mais frequente é a preposição de, com 48 ocorrências. Desse total, de aparece anteposta ao termo 30 vezes, e posposta 18, segundo pode ser conferido na Ilustração 3.

Ilustração 3. Colocações para o termo serviços Para esse estudo, a modo de breve amostra, delimitou-se a análise do termo serviços, e seu correspondente servicios, apenas nas ocorrências em que a preposição de aparecesse posposta (17 casos), opção que facilita a organização numa lista alfabética. Utilizando as ferramentas Concordance (para serviços de ) e File View, foram observadas as ocorrências uma a uma e percebeu-se que, com base na afirmação de Tagnin (ibid), as partes pré-fabricadas dessa língua de especialidade foram se manifestando além dos limites do termo, aparentemente isolado. Percebeu-se, dessa forma, a relação de equivalência de casos como serviços de agenciamento marítimo e portuário e servicios de dirección marítima y portuaria atuando em contextos de uso reais, como no exemplificado na Ilustração 4. Ilustração 4. Fragmento de textos alinhados.

Como passo final, foi elaborada uma lista das partes pré-fabricadas, as quais denominaremos aqui de unidades terminológicas, encontradas em textos do Comércio Internacional em português, e suas equivalências em espanhol. Essa lista, em anexo ao presente estudo, objetiva atiçar a curiosidade para um aprofundamento dos estudos com base em corpus, para desvendar aspectos opacos das línguas de especialidade e de sua tradução. Algumas considerações finais Após a realização do estudo é possível tecer alguns breves comentários quanto às percepções e achados decorrentes da experiência realizada. Percebe-se a importância de uma escolha criteriosa do corpus nas pesquisas dessa natureza, assim como, também, procurar indícios certeiros que apontem o texto original e o traduzido; infelizmente isso não foi possível nesse estudo, motivo pelo qual não se falou em textos paralelos, mas, apenas, bilíngues. Por outro lado, o grande achado decorrente da pesquisa é a confirmação, na prática, da possibilidade de unidades terminológicas que ultrapassam os limites das convencionadas em glossários e dicionários, e que também são, sem dúvidas, de grande ajuda na solução de problemas de tradução em áreas especializadas. Há 12 anos, Berber Sardinha (2002) alertava sobre a complexidade que pressupõe realizar tarefas em base a corpora, ao constatar que: O pesquisador ou tradutor que deseje fazer incursões na exploração de corpora para a investigação da tradução enfrentará o problema da maior escassez de recursos para sua área, da necessidade de aprender a utilizar software especializados, além de necessitar executar tarefas comuns da Linguística de Corpus, como a organização, formatação e exploração de corpus (BERBER SARDINHA, 2002, p. 21). Tarefa que foi enfrentada como um desafio, com suas vitórias e derrotas (provavelmente temporárias), nessa proposta. Porém, o que caracteriza a evolução da humanidade é, justamente, vencer desafios.

Referências BERBER SARDINHA, Tony. Corpora eletrônicos na pesquisa em tradução. Cadernos de tradução. Florianópolis, n. 9, vol. 1, 2002. p. 15-59. CARVALHO, Estela Maria Faustino. Metodologia de construção de um glossário bilíngue com base em um corpus de domínio técnico. 2007. 80f. Dissertação (Mestrado em Estudos da Tradução). Centro de Comunicação e Expressão. UFSC, Florianópolis, 2007. Disponível em: https://repositorio.ufsc.br/bitstream/handle/123456789/90029/241755.pdf?sequence=1. Acesso em: jul. 2014. MALUF, Sâmia Nagib Maluf. Administrando o comércio exterior do Brasil. São Paulo: Aduaneiras, 2000. TAGNIN, Stella E. O. Os corpora: instrumentos de auto-ajuda para tradutores. Cadernos de tradução. Florianópolis, n. 9, vol. 1, 2002. p. 191-219. Anexo Lista bilíngue de unidades terminológicas 1. serviços de agenciamento marítimo e portuário: servicios de dirección marítima y portuaria 2. serviços de alta tecnologia: servicios de alta tecnología 3. serviços de call center: servicios de call center 4. serviços de carga aérea: servicios de carga aérea 5. serviços de comunicação corporativa: servicios de comunicación corporativa 6. serviços de comércio internacional: servicios de comercio internacional 7. serviços de desembaraço aduaneiro: servicios de liberación aduanera 8. serviços de envio de carta: servicios de envío de carta

9. serviços de inspeção: servicios de inspección 10. serviços de madrugada: servicios por la madrugada 11. serviços de mais elevado conteúdo tecnológico: servicios de mayor contenido tecnológico 12. serviços de malote: servicios de equipaje