IDENTIFICAÇÃO DE UMA TERMINOLOGIA: A METODOLOGIA UTILIZADA NA COLETA DA N&N EM PB-PE Manoel M. A. da SILVA 1 Yara M. DIAS 2 Introdução Este artigo objetiva apresentar a metodologia utilizada na coleta da terminologia em córpus comparáveis entre o Português Brasileiro (PB) e o Português Europeu (PE), possibilitada pelo Projeto de Pesquisa Terminologia da nanociência e da nanotecnologia: proposta de integração intralinguística PB-PE, institucionalizado na Universidade Estadual de Maringá (UEM) e financiado pela Fundação Araucária (FA), do governo paranaense, que vem sendo desenvolvido desde julho de 2012 com término previsto para julho de 2014. Esta metodologia é a mesma utilizada pelo Grupo de Pesquisa Projeto Observatório de Neologismos do Português Brasileiro Contemporâneo (TermNeo), cuja página no CNPq é http://dgp.cnpq.br/buscaoperacional/detalhegrupo.jsp?grupo=0067802cjcmwcs, e pelo Grupo de Pesquisa Núcleo de pesquisa em léxico geral e especializado do português contemporâneo (Nuterm), cuja página no CNPq é http://dgp.cnpq.br/buscaoperacional/detalhegrupo.jsp?grupo=0329802nao7f9a. Recentemente, foi proposto também a criação do Observatório de neologismos e neônimos do Português do Brasil Região Sul (ONPB). Basicamente, o procedimento pode ser descrito em cinco passos, a saber: i. montagem do córpus, ii. manipulação textual; iii. seleção de candidatos e de contextos eficazes; iv. preenchimento das fichas terminológicas; v. apresentação dos verbetes (SILVA, 2012). 1 Professor Doutor do Departamento de Língua Portuguesa da Universidade Estadual de Maringá (UEM). 2 Graduanda do curso de Letras / Português da Universidade Estadual de Maringá (UEM).
Esta proposta de apresentação de metodologias vai ao encontro do desejado pela comunidade científica, pois o fenômeno da sistematização de terminologias de diferentes países começou a receber a devida atenção principalmente a partir dos anos de 1980, quando houve as reavaliações da Teoria Geral da Terminologia (TGT), em que a Unidade de Conhecimento Especializado (UCE) passa a ser considerada uma realização da língua natural e, como tal, possuidora de todas as suas peculiaridades. Esta visão, no entanto, vem causando uma série de indagações porque, embora para o linguista seja importante observar e descrever a terminologia em uso, para o especialista da área há algumas restrições já que, em sua comunicação entre especialistas de diferentes países, a tendência é que haja propostas de harmonização, uma vez que, se uma área existe por si só, é porque existe um conjunto determinado de tarefas que a estrutura, sendo necessária a sistematização do conjunto dos conceitos pertinentes dela, das relações que permitem uma ligação de conceitos gerais a conceitos mais específicos, principalmente em relação a variantes intralinguísticas, para possibilitar uma integração desejada entre dois usos de uma mesma linguagem de especialidade. A questão da integração intralinguística vai se dar a partir da constituição do córpus em ambas as variantes para se propor, como uma espécie de missão do terminólogo, as possibilidades mais indicadas para a integração, com base em critérios pré-selecionados e de comum acordo com os especialistas. Neste aspecto, a pesquisa optou por alguns princípios metodológicos em Terminologia que têm facilitado o trabalho de propostas de harmonização em PB e PE, como a consulta a especialistas daqui e d além mar para a devida sistematização. O projeto de pesquisa em tela visa à publicação de um Dicionário terminológico da nanociência e nanotecnologia, visto que essas duas áreas que englobam a comunidade científica, como Biologia, Medicina, Física, Química, Informática e Engenharia estão em ascensão e têm a necessidade de dicionarizar suas novas terminologias, em comum acordo entre os países falantes da Língua Portuguesa, para facilitar e aprimorar os trabalhos realizados nas devidas subáreas. Para se ter uma ideia da complexidade do objeto de estudo, é apresentada abaixo uma figura que o representa:
Figura 1 Representação da área Nano. A precisão de um acordo na elaboração de conceitos é relevante para a tecnologia na utilização das UCEs, que estão intrinsecamente ligadas no cotidiano profissional dos especialistas da área. A realização de um projeto que busca ir ao encontro da necessidade da comunidade científica e facilitar o avanço tecnológico é de grande importância para os estudos em Nanociência e Nanotecnologia (N & N), uma vez que o Brasil também desenvolve pesquisas nessa área, e um dicionário com essas terminologias será de extrema valia. 1. Desenvolvimento Diversas ferramentas para a busca semiautomática de candidatos a UCEs são encontradas disponíveis na internet. Pode-se citar, por exemplo, a Plataforma E-termos, da Universidade Federal de São Carlos (UFSCAr), ou mesmo a Plataforma Terminus, um sistema integral que inclui a cadeia completa do trabalho terminológico, como a busca, constituição e exploração de córpus textuais, gestão de vocabulários e projetos, criação e manutenção de banco de dados, edição de dicionários em diversos formatos de impressão ou eletrônicos. Apesar de ser uma estação de trabalho terminológico, seu funcionamento se dá a partir de licenças individuais e institucionais. Por outro lado, não
deixa de ser uma contribuição valiosa do Grupo Iulaterm do Instituto Universitário de Linguística Aplicada da Universidade Pompeu Fabra. Essas limitações econômicas fizeram com que a opção fosse pela montagem dos córpus a partir de pesquisas realizadas em buscadores disponíveis gratuitamente na internet. Principalmente a partir da coleta de teses e dissertações, foi possível avançar na montagem de bancos de dados apenas com textos especializados das diversas áreas e/ou subáreas eleitas para o desenvolvimento dessas sistematizações terminológicas. A fase seguinte, a da manipulação do córpus, foi realizada com a ferramenta Unitex. Para o funcionamento perfeito do Unitex, é necessária a instalação da versão Java JRE 1.4 na máquina de trabalho. Após a instalação do Java, pode-se baixar o Unitex e descompactar os arquivos, originando, assim, uma nova pasta. Na nova pasta, é preciso localizar o arquivo APP-Unitex (executável/jar.). Dessa forma, conclui-se o processo de instalação, sendo possível a utilização do programa pela primeira vez. Ao abrir a ferramenta, o Unitex cria cópias das pastas e dos arquivos necessários em um diretório pessoal. Em seguida, é necessário realizar a seleção do idioma desejado, permitindo que o programa reconheça o local de alguns dados. Para abrir um texto, deve-se clicar na opção Open no menu Text, selecionando a busca de arquivos em formato unitex text. Em seguida, deve-se selecionar a pasta e/ou arquivo desejado, alterando o formato da seleção de busca para Raw Unicode Texts. Devem-se sempre selecionar arquivos em txt, arquivos de texto bruto. Após selecionar o texto, o Unitex vai processá-lo de forma com que ocorram operações de normalização de separadores, segmentação em unidades lexicais, normalização das formas não ambíguas, segmentação em frases e aplicação de dicionários. Este procedimento é necessário para o bom funcionamento da ferramenta Unitex. Após as operações de tratamento, é possível visualizar o texto na tela do programa. Do processamento, são geradas listas de frequência e listas de concordância para análise de possíveis candidatos a UCEs que podem vir a configurar um neônimo. A busca por fraseologias e/ou sintagmas nominais pode ser feita a partir da lista de frequência, ou seja, são selecionados os itens mais frequentes e, a partir deles, organizam-se as expressões de buscas inseridas no Locate Pattern no menu Text para que os concordanceadores possam trazer os contextos em que a possível UCE aparece
no texto. Clicando sobre a UCE destacada, pode-se encontrar o contexto exato dela, ou seja, o lugar do texto em que ela se encontra. Por fim, o processo de seleção de candidatos a neônimos realiza a busca de todas as palavras do córpus em dicionários de exclusão. Se uma UCE não ocorre em nenhum dicionário consultado, ela é considerada candidata a neônimo. Como resultado desse processo, produz-se como saída um arquivo contendo os candidatos a neônimos, todos os contextos em que ocorrem e uma indicação se os candidatos são nomes próprios ou não, a qual é feita em função da capitalização da primeira letra dos candidatos: se maiúscula, então o candidato em questão pode ser um nome próprio e configurar ou não um epônimo. A exibição de todas as sentenças em que um candidato a neônimo ocorre permite que o especialista humano faça uma análise completa dos sentidos do candidato no córpus. Em relação ao PB-PE foram identificadas algumas variações, como as apresentadas na Figura 2 abaixo. Figura 2 Tabela com variantes PB-PE Diante dessas variantes, que precisavam estar em acordo mútuo entre os especialistas dos países falantes da Língua Portuguesa, o programa de computador
Unitex foi utilizado também, para assim localizar os candidatos a UCEs em contextos reais, bem como para verificar os concordancedores e a frequência com o qual apareciam no córpus. Dessa forma, seria viável e prático o trabalho realizado para dicionarização, uma vez que as palavras-ocorrências indicariam o surgimento de um possível neônimo para a N&N, como se observa na Figura 3 abaixo. Figura 3 Modelo de lista de frequência gerada pelo Unitex. Após a localização das novas UCEs para compor o dicionário, era preciso colocá-las em fichas para cumprir com as devidas finalidades esperadas para o dicionário. A ficha de pesquisa terminológica escolhida apresenta dezoito campos, e seguem sugestão da Profa. Dra. Ieda Maria Alves (1998), como também foram informatizadas pelo gerenciador de banco de dados MS-Access. Abaixo, a Figura 4 ilustra o modelo adotado.
Figura 4 Modelo de Ficha Terminológica adotado. A seguir, uma explicação de cada campo: Campo 1. CÓDIGO: a ficha apresenta um número de identificação automático do candidato a neônimo fornecido pelo gerenciador de banco de dados MS-Access; Campo 2. UCE: ela é apresentada sob forma lematizada (forma nominal no masculino singular e verbo no infinitivo). As exceções implicam que a mesma é sempre utilizada no plural ou que seu conceito comporta vários elementos constituintes; Campo 2.1. SIGLA: forma abreviada como a UCE também é conhecida; Campo 2.2. VARIANTE: outra forma utilizada sem critérios, ou seja, discrepâncias ortográficas e/ou morfossintáticas. Prioriza-se a abertura de uma ficha para a UCE mais utilizada e é incluído um contexto, na mesma ficha, com a outra menos conhecida; Campo 3. REFERÊNCIAS GRAMATICAIS: indicações morfológicas mínimas necessárias para a adequada utilização da UCE em um contexto; Campo 4. CONTEXTO: transcrição do contexto, de caráter definitório, preferencialmente, em que a UCE ocorreu na fonte, que visa a apresentá-la, colocada entre < >, no âmbito de seu funcionamento conceitual e morfossintático.
É apresentado mais de um contexto apenas nos casos em que há variante, como explicitado acima, ou quando há decisão deliberada do pesquisador; Campo 5. REFERÊNCIAS DO CONTEXTO: indicações do autor (nome) e da fonte (do ano de publicação e da página), que remetem ao córpus da pesquisa; Campo 6. OBSERVAÇÕES LINGUÍSTICAS: indicações de particularidades gramaticais e linguísticas da UCE, com a utilização da seguinte acrossemia: s (substantivo), adj (adjetivo), ar (artigo), v (verbo), p (preposição), cp (contração prepositiva), c (conjunção), n (numeral), pref (prefixo), suf (sufixo), pr (pronome) e adv (advérbio) e de um código dado para efeito de referência em relação à sua formação, além de outras informações pertinentes à exata compreensão da UCE em questão; Campo 7. OBSERVAÇÕES ENCICLOPÉDICAS: indicações de um número dado para efeito de referência relacionado à parte que constará como verbete no dicionário. Campo 8. DEFINIÇÃO: indicações dos traços necessários à identificação do conceito, ou seja, um elemento genérico e suas características específicas que individualizam a UCE definida. É redigida de forma intencionalmente curta e com o objetivo de ser compreendida pelos leitores, observando-se a mesma estrutura sintática na redação das UCEs relacionadas; Campo 9. ÁREA: refere-se a uma área do conhecimento humano acumulado, se pertinente; Campo 10. SUBÁREAS: referem-se àquelas que caracterizam especificidades da área em questão; Campo 11. DADOS FRASEOLÓGICOS: eventuais UCEs que se juntam a uma outra não sintagmática; Campo 12. UCEs RELACIONADAS: denominadas de unitermos, são aquelas que estejam citadas na ficha terminológica da UCE, até um número máximo de três, tanto na definição quanto nas observações enciclopédicas, assim como aquelas que pertençam a uma classificação, sempre em ordem alfabética, e que façam parte do repertório;
Campo 13. SINÔNIMOS: indicações dos diferentes significantes da UCE, que possuem o mesmo significado, utilizados em contextos e fichas terminológicas próprias, com a mesma definição; Campo 14. AUTOR DA FICHA: nome do pesquisador que preencheu a ficha; Campo 15. REVISOR: nome do pesquisador que revisou a ficha após a colaboração de especialista da área, se pertinente; Campo 16. DATA DO REGISTRO: data em que a ficha foi preenchida pela primeira vez, sem mencionar as revisões e reelaborações. Os campos da ficha não são, muitas vezes, preenchidos em sua totalidade, porém isso não impede sua dicionarização, uma vez que nem sempre há sinônimos, variantes ou dados fraseológicos de suma relevância. As Figuras 5 e 6 abaixo apresentam exemplos de fichas terminológicas preenchidas e pode-se observar que nem todos os campos foram importantes para o completo dossiê da UCE, haja vista que nem sempre todas as informações estão disponíveis. Figura 5 - Ficha Terminológica preenchida.
Figura 6 - Ficha Terminológica preenchida. Com base nesta ficha de pesquisa terminológica, está sendo elaborado o Dicionário terminológico da nanociência & nanotecnologia. Para isso, é necessário que cada verbete contenha informações sistemáticas (obrigatórias em todos) e não sistemáticas (informações não recorrentes). As informações sistemáticas comporão a seguinte microestrutura: UCE, referências gramaticais, definição, contexto, referências do contexto e remissivas. As não sistemáticas comporão a seguinte microestrutura: sigla, variante, dados fraseológicos, observações linguísticas e enciclopédicas, que virão sob forma de nota, e sinônimos. Considerações finais Pode-se observar que a partir do desenvolvimento tecnológico cada vez mais célere, faz-se necessário aos especialistas da área científica Biologia, Medicina, Física, Química, Informática e Engenharia um dicionário que aborde as terminologias da área e que esteja em harmonia entre PB e o PE, visto que contribuirá para uma maior interação e cooperação entre as nações de fala portuguesa e ainda que essa área permaneça seu desenvolvimento veloz e qualificado.
Referências IV CONALI - Congresso Nacional de Linguagens em Interação ALMEIDA, Gladis Maria de Barcellos. Teoria comunicativa da terminologia (TCT): uma aplicação. 2000. 2 v. 290 f. Tese (Doutorado em Lingüística e Língua Portuguesa) Faculdade de Ciências e Letras de Araraquara, Universidade Estadual Paulista Júlio de Mesquita Filho, Araraquara, 2000. ALVES, I. M. et al., Proceedings of the International Joint Conference IBERAMIA/SBIA/SBRN 2006 In 4th Workshop in Information and Human Language Technology (TIL 2006) - Poster Section, Ribeirão Preto, Brazil, October 23 28, 2006. CD-ROM. ISBN 85-87837-11-7 ALVES, Ieda Maria (coord.) Glossário dos termos neológicos da economia. São Paulo: Humanitas: FFLCH (USP), 1998. CABRÉ, M. Teresa. La Terminología hoy: replanteamiento o diversificación. In.: Revista Organon 26 Terminologia e Integração Revista do Instituto de Letras da Universidade Federal do Rio Grande do Sul. 1998. FAULSTICH, E. Entre a sincronia e a diacronia: variação terminológica no código e na língua. In: CORREIA, M. (Org.). Terminologia, desenvolvimento e identidade nacional. Lisboa: Colibri/ILTEC, 2002. p. 61-74. SILVA, Manoel M. A. da; LINO, Maria T. R. da F. La variation intralinguistique dans des corpus comparables em portugais brésilien et européen dans la terminologie de la nanoscience/nanotechnogie. Acta Scientiarum. Language and Culture. Vol 33, n. 2, Jul.-Dez. 2011, p. 173-187. SILVA, M. M. A. da. Observatório de neologismos e neônimos da Português do Brasil Região Sul, léxico especializado. In: ENCONTRO DO CÍRCULO DE ESTUDOS LINGUÍSTICOS DO SUL, 10, 2012, Cascavel, PR. CORBARI, Alcione Tereza (org.) Anais... Cascavel, [s.n.], 2012. p. 1-11. Disponível em: HTTP://www.celsul.org.br/Encontros/10/artigos/ManoelMAdaSilva.htm. Acesso em 8 jul. 2013.