EXTRADEV: UM SISTEMA DE EXTRAÇÃO SEMIAUTOMÁTICO DE DEVERBAIS EM CORPUS DO PORTUGUÊS HISTÓRICO E CONTEMPORÂNEO



Documentos relacionados
1 Introdução. 1.1 Apresentação do tema

Nanociência/Nanotecnologia e Biocombustíveis vistos pelo Modelo SILEX: análise morfolexical de terminologias

UNIVERSIDADE FEDERAL DE SANTA CATARINA GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA DATA MINING EM VÍDEOS

2 Diagrama de Caso de Uso

OS CONHECIMENTOS DE ACADÊMICOS DE EDUCAÇÃO FÍSICA E SUA IMPLICAÇÃO PARA A PRÁTICA DOCENTE

Tabela de Símbolos. Análise Semântica A Tabela de Símbolos. Principais Operações. Estrutura da Tabela de Símbolos. Declarações 11/6/2008

04/08/2012 MODELAGEM DE DADOS. PROF. RAFAEL DIAS RIBEIRO, MODELAGEM DE DADOS. Aula 1. Prof. Rafael Dias Ribeiro. M.Sc.

CAPÍTULO 3 - TIPOS DE DADOS E IDENTIFICADORES

Banco de Dados I. Apresentação (mini-currículo) Conceitos. Disciplina Banco de Dados. Cont... Cont... Edson Thizon

Data Warehouse. Debora Marrach Renata Miwa Tsuruda

Organização e Arquitetura de Computadores I. de Computadores

Desenvolvendo uma Arquitetura de Componentes Orientada a Serviço SCA

1.1. Aplicações de TVD dinâmicas

Um compilador é um programa que lê um programa escrito numa dada linguagem, a linguagem objecto (fonte), e a traduz num programa equivalente

QFD: Quality Function Deployment QFD: CASA DA QUALIDADE - PASSO A PASSO

Diagrama de Classes. Um diagrama de classes descreve a visão estática do sistema em termos de classes e relacionamentos entre as classes.

Ajuda ao SciEn-Produção O Artigo Científico da Pesquisa Experimental

Análise de Sistemas. Visão Geral: Orientação a Objetos. Prof. José Honorato Ferreira Nunes honorato.nunes@bonfim.ifbaiano.edu.br

INFORMAÇÃO PROVA DE EQUIVALÊNCIA À FREQUÊNCIA INGLÊS LE I (2 anos) 2015

Orientação a Objetos

AMBIENTE PARA AUXILIAR O DESENVOLVIMENTO DE PROGRAMAS MONOLÍTICOS

GUIA DE INTERPRETAÇÃO DO CELLA DA FLÓRIDA

4 Segmentação Algoritmo proposto

FACULDADE DE ENGENHARIA DE COMPUTAÇÃO. PROJETO FINAL I e II PLANO DE TRABALHO <NOME DO TRABALHO> <Nome do Aluno> <Nome do Orientador>

SUGESTÕES PARA ARTICULAÇÃO ENTRE O MESTRADO EM DIREITO E A GRADUAÇÃO

Professora: Lícia Souza

Persistência e Banco de Dados em Jogos Digitais

OLIVEIRA, Luciano Amaral. Coisas que todo professor de português precisa saber: a teoria na prática. São Paulo: 184 Parábola Editorial, 2010.

O E-TEXTO E A CRIAÇÃO DE NOVAS MODALIDADES EXPRESSIVAS. Palavras-chave: texto, , linguagem, oralidade, escrita.

ROTEIRO PARA A ELABORAÇÃO DE PROJETOS DE PESQUISA - CEUA

UMA ABORDAGEM QUANTITATIVA DE VARIÁVEIS RELACIONADAS A CURSOS DE MATEMÁTICA NO ESTADO DE SÃO PAULO

COMPILADORES E INTERPRETADORES

SISTEMAS DE INFORMAÇÃO PARA GESTÃO

3 Classificação Resumo do algoritmo proposto

APLICACAÇÃO DE METRICAS E INDICADORES NO MODELO DE REFERENCIA CMMI-Dev NIVEL 2

Universidade Federal de Santa Maria Curso de Arquivologia. Disciplina de Banco de Dados Aplicados à Arquivística. Versao 1.

Exercícios de Circuitos Combinacionais

ORGANIZAÇÃO DE COMPUTADORES MÓDULO 1

1. Conceitos de sistemas. Conceitos da Teoria de Sistemas. Conceitos de sistemas extraídos do dicionário Aurélio:

Programa de Parcerias e Submissão de Propostas 2014/15

Feature-Driven Development

Unidade: Os Níveis de Análise Linguística I. Unidade I:

Treinamento GVcollege Módulo Acadêmico - Pedagógico

5 Mecanismo de seleção de componentes

Análise e Desenvolvimento de Sistemas ADS Programação Orientada a Obejeto POO 3º Semestre AULA 03 - INTRODUÇÃO À PROGRAMAÇÃO ORIENTADA A OBJETO (POO)

PONTIFÍCIA UNIVERSIDADE CATÓLICA DE GOIÁS Curso Superior de Tecnologia em Análise e Desenvolvimento de Sistemas

)HUUDPHQWDV &RPSXWDFLRQDLV SDUD 6LPXODomR

Função Mudar de unidade estatística

UNIVERSIDADE PAULISTA UNIP INSTITUTO DE CIÊNCIAS SOCIAIS E COMUNICAÇÃO CURSOS: ADMINISTRAÇÃO E CIÊNCIAS CONTÁBEIS. MANUAL do ALUNO

Sistema para Visualização dos Resultados de Pesquisas de Clima Organizacional. PERSPECTIVA Consultores Associados Ltda.

O Acordo de Haia Relativo ao Registro. Internacional de Desenhos Industriais: Principais características e vantagens

MRP II. Planejamento e Controle da Produção 3 professor Muris Lage Junior

EDITAL SENAI SESI DE INOVAÇÃO. Caráter inovador projeto cujo escopo ainda não possui. Complexidade das tecnologias critério de avaliação que

DATA WAREHOUSE. Introdução

Manual Operacional SIGA

NÚCLEO DE EDUCAÇÃO MATEMÁTICA E ENSINO DE FÍSICA E AS NOVAS TECNOLOGIAS NA FORMAÇÃO DE PROFESSORES

EXTENSÃO UNIVERSITÁRIA E POLÍTICAS PÚBLICAS SOCIAIS

CorelDRAW UM PROGRAMA DE DESIGN

Modelo de Planejamento de Projeto orientado pelo Escopo

Estratégia de TI. Posicionamento Estratégico da TI: como atingir o alinhamento com o negócio. Conhecimento em Tecnologia da Informação

O propósito deste trabalho foi o de apresentar os programas de. catalogação cooperativa, centralizada e catalogação-na-publicação, os quais,

Neologismos no Facebook: o ensino do léxico a partir das redes sociais

Em busca de um método de investigação para os fenômenos diacrônicos

Casos de teste semânticos. Casos de teste valorados. Determinar resultados esperados. Gerar script de teste automatizado.

Aula 4 Pseudocódigo Tipos de Dados, Expressões e Variáveis

Modelo Cascata ou Clássico

Desenvolvimento de um sistema de pergunta e resposta baseado em corpus

Conceito. As empresas como ecossistemas de relações dinâmicas

:: Cuidados na Elaboração de uma Redação Científica

SOCIEDADE E TEORIA DA AÇÃO SOCIAL

III SEMINÁRIO EM PROL DA EDUCAÇÃO INCLUSIVA Desafios Educacionais

Como Elaborar Um Projeto de Pesquisa

ALGORITMOS PARTE 01. Fabricio de Sousa Pinto

15 Computador, projeto e manufatura

Círculo Fluminense de Estudos Filológicos e Linguísticos

PARFOR 2014 CURSO INTENSIVO DE ATUALIZAÇÃO DE PROFESSORES DE PORTUGUÊS LÍNGUA MATERNA FLUP

TCEnet e TCELogin Manual Técnico

ISO/IEC 12207: Gerência de Configuração

UNIVERSIDADE DE SÃO PAULO E S C O L A D E A R T E S, C I Ê N C I A S E H U M A N I D A D E

MÓDULO 6 INTRODUÇÃO À PROBABILIDADE

Organizaçãoe Recuperação de Informação GSI521. Prof. Rodrigo Sanches Miani FACOM/UFU

Seção 2/E Monitoramento, Avaliação e Aprendizagem

Análise de Ponto de Função

Tecnologia e Sistemas de Informações Tipos de SI

RELAÇÃO ENTRE FONÉTICA E FONOLOGIA. Miguél Eugenio Almeida UEMS Unidade Universitária de Jardim. 0. Considerações iniciais

INSTITUTO DE LETRAS DEPARTAMENTO DE LETRA VERNÁCULAS

Memória Cache. Prof. Leonardo Barreto Campos 1

ROTEIRO PARA TREINAMENTO DO SAGRES DIÁRIO Guia do Docente

Bem- Vindo ao manual de instruções do ECO Editor de COnteúdo.

MODELAGEM DE DADOS MODELAGEM DE DADOS. rafaeldiasribeiro.com.br 04/08/2012. Aula 7. Prof. Rafael Dias Ribeiro.

Banco de Dados Aula 1 Introdução a Banco de Dados Introdução Sistema Gerenciador de Banco de Dados

PERGUNTAS MAIS FREQÜENTES SOBRE VALOR PRESENTE LÍQUIDO (VPL)

Extração de Requisitos

Algumas vantagens da Teoria das Descrições Definidas (Russel 1905)

Novell. Novell Teaming 1.0. novdocx (pt-br) 6 April 2007 EXPLORAR O PORTLET BEM-VINDO DESCUBRA SEU CAMINHO USANDO O NOVELL TEAMING NAVIGATOR

DESENVOLVIMENTO DE INTERFACE WEB MULTIUSUÁRIO PARA SISTEMA DE GERAÇÃO AUTOMÁTICA DE QUADROS DE HORÁRIOS ESCOLARES. Trabalho de Graduação

Transcrição:

EXTRADEV: UM SISTEMA DE EXTRAÇÃO SEMIAUTOMÁTICO DE DEVERBAIS EM CORPUS DO PORTUGUÊS HISTÓRICO E CONTEMPORÂNEO Livia Aluisi CUCATTO 1 RESUMO: A utilização de ferramentas computacionais em tarefas linguísticas vem crescendo de maneira representativa. O principal motivo é a construção de corpora para a língua portuguesa (PB). Os deverbais de ação são categorias de alta produtividade em discursos orais e escritos em PB, no entanto, faltam estudos que descrevam seus mecanismos de construção e ferramentas que auxiliem a busca por essa categoria. Propomos, então, a construção de uma ferramenta de extração semiautomática de deverbais para corpus histórico e contemporâneo através da descrição linguística da categoria. Pretendemos contribuir para um melhor conhecimento da variação diacrônica na construção de deverbais e motivar a aliança entre Linguística e a Ciência da Computação. PALAVRAS-CHAVE: Morfologia Construcional; Linguística de Corpus; Recuperação de informação. ABSTRACT: The use of computational tools to dynamization of linguistics issues have been relevantly growing. The main reason is the building of corpora for Portuguese Language (PB). Deverbal nouns specifically of action are categories that show high productivity in Brazilian Portuguese oral and writing discourses. However, there aren't studies showing the variations of these mechanisms and tools that assist in the research for this category in PB. We proposed the building of a semi-automatic deverbal noun extraction tool to historical and contemporary corpus by the linguistic description and formalization about this category. With this study, we aim to increase the knowledge of the diachronic variations of deverbal nouns and moti. PALAVRAS-CHAVE: Constructional Morfology; Corpus Linguistics; Data Recovering. 1 Introdução A criação de recursos computacionais para auxiliar a pesquisa linguística vem crescendo exponencialmente nos últimos anos. Uma das razões que contribuem para esse desenvolvimento, além da necessidade de automatizar tarefas manuais, é a construção e disponibilização de grandes corpora em língua portuguesa. No Brasil, destaca-se a construção de corpora contemporâneos, já a construção de corpora históricos é menos representativa. Podemos citar o corpus Para uma História do Português Brasileiro (PHPB, 1998); corpus histórico do PE Tycho Brahe (PAIXÃO and TRIPPEL, 2006) (Fase I, 1998-2003, Fase II, 2008-2009); e o corpus BIT-PROHPOR (Programa para a História da Língua Portuguesa). Sobre ferramentas de PLN geradas a partir desses corpora, são conhecidas o analisador morfossintático desenvolvido para o corpus Tycho Brahe (FINGER, 1998; FINGER, 2000) e, também, o parser estatístico inspirado no sistema do Penn-Helsinki Parsed Corpus of Middle English (PPCME) (FINGER, BRITTO and GALVES, 2000). A inexistência de ferramentas para corpora históricos pode ser atribuída à pequena quantidade de corpora e pela complexidade do tratamento computacional. Nesse cenário, surgiu o projeto 1 Doutoranda, Universidade Estadual de Campinas, liviacucatto@gmail.com 1

Dicionário Histórico do Português Brasileiro (DHPB), preconizado por Maria Tereza Biderman (UNESP) e financiado pelo CNPq no âmbito dos Institutos do Milênio. O corpus compilado para este projeto contempla o português do Brasil dos séculos XVI, XVII, XVIII e parte do XIX. A construção do corpus DHPB foi a principal motivação para o desenvolvimento do sistema ExtraDev e para a investigação do objeto desta pesquisa os deverbais de ação. Nos últimos anos, tem-se desenvolvido trabalhos em morfologia construcional que visam à descrição dos mecanismos de construção de deverbais, isto é, nomes derivados de verbos, numa perspectiva sincrônica, sobretudo em Portugal. As razões para esse interesse podem encontrar-se na produtividade dos mecanismos de construção deste tipo de nomes, cujo impacto no uso do português, sobretudo em contextos formais de uso, não é irrelevante. Faltam, portanto, estudos que nos permitam conhecer, por um lado, o PB em nível destes mecanismos e, por outro, ter uma perspectiva diacrônica deles. Então, propomos a construção de uma ferramenta semiautomática que seja capaz de recuperar as diversas formas dos deverbais de ação no PB, principalmente, no PB histórico. Através da investigação e da descrição linguística dos deverbais de ação, do conhecimento da linguagem python, do uso dos recursos: Dicionário Unitex-PB (Muniz, 2004; Muniz et al, 2005) e o SIACONF (Giusti et al., 2007) construímos o sistema ExtraDev. Na Seção 2 apresentamos os deverbais, em seguida a revisão da literatura (Seção 3 e 4); na Seção 5 o modelo linguístico adotado para este trabalho; na Seção 6 o projeto ExtraDev, seguido de sua avaliação (Seção 7) e por último, a Seção 8 com as considerações finais. 2 Deverbais de Ação Os deverbais de ação são formas substantivais, normalmente designados nomes de ação ou nomina action exprimem basicamente a ação de Vb (verbo base), e são definidos lexicograficamente através de perífrases do tipo: acção de Vb, acto ou efeito de Vb. Muitos dos substantivos deverbais podem adquirir outros significados, parafraseáveis por efeito de Vb, produto da acção de Vb, agente da (acção) de Vb, objecto da (acção) de Vb, instrumento da acção de Vb, local de acção de Vb (CORREIA, 2004 p. 196). Em relação à estrutura, os deverbais são palavras construídas (ou derivadas segundo a Gramática Tradicional), ou seja, unidades lexicais de estrutura complexa, cujos constituintes devem ser interpretáveis e reproduzíveis em português. Os deverbais de ação podem ser construídos por três tipos de processos: a) sufixação: ao tema verbal se adjunge um sufixo (Ex.: motivar [Vb] motiva- [tema] + -ção [sufix] = motivação [deverbal de ação] ); b) conversão: ao radical verbal se liga uma desinência de gênero (Ex.: pesquisar [Vb] pesquis- [radical] + -a [desinência de gênero] = pesquisa [deverbal de ação]). Nesses exemplos as bases (tema/radical) são interpretáveis (é possível identificar que a base provém de um verbo utilizado em português ao qual podemos atribuir um significado) e reproduzíveis em português (a capacidade da mesma base poder ser utilizada na construção de outras palavras - motivador). Além dos dois mecanismos citados, há um terceiro processo chamado desflexionação no qual a forma verbal (no infinitivo ou particípio) desflexiona, resultando em uma forma nominal (Ex.: saber - infinitivo desflexionado: O saber move montanhas ; batida particípio desflexionado: Eu não cheguei a ver a batida, só escutei o estrondo ). O quarto e último formato possível de deverbais de ação é mais difícil de ser identificado, pois requer um dicionário etimológico palavras não construídas, as quais tem estrutura idêntica às estruturas construídas em PB, contudo, não foram construídas em português, e sim importadas já construídas, de outras línguas, geralmente são importadas do latim (geração, s. Do lat. 2

generatione, Séc. XIII; assadura: do lat. assat ra). Do ponto de vista computacional, por apresentarem estrutura idêntica às palavras construídas, não há alteração nas regras de recuperação. Segundo o modelo adotado para este trabalho SILEX (Syntaxe, Intreprétation, et Lexique) os deverbais são unidades lexicais portadoras de um significado previsível, linguístico, que é dado pela própria estrutura. Isso quer dizer que é possível prever o significado de uma dada palavra por ela mesma, independente do contexto no qual ela é empregada: [...] no âmbito do modelo de análise escolhido, se concebe que as unidades lexicais possuem propriedades semânticas que lhe são inerentes e que são descortináveis independentemente dos contextos em que essas unidades possam ocorrer (CORREIA, 2004, p. 36/37). Essa característica lexical contribui significativamente para a precisão e simplicidade do algoritmo construído para o sistema (desenvolvimento = ato ou efeito de desenvolver, ação de desenvolver a base verbal carrega a ação do verbo que adjunta ao sufixo formador de nomes de ação constrói o sentido predizível e inerente à palavra). 3 Gramáticas e Dicionários Os dicionários e gramáticas, além de apresentarem um enfoque parcial, ora estrutural, ora semântico (quando deveriam abarcar todos os níveis linguísticos que uma unidade lexical contém), apresentam também inconsistências em relação aos processos de formação, e entre os sufixos formadores de deverbais. Na Tabela 1, mostramos os sufixos encontrados: Cunha & Cyntra Tabela 1: Sufixos de deverbais de ação encontrados nas principais gramáticas. -ção -são -mento -(d)ura -(t)ura -(s)ura -ança -ância -ença -ência -tório -douro Bechara - ame -ção -são -mento -ura -dura -tura -ança -ancia -ata -ada -ida -agem -ário Rocha Lima -mento -tura -sura -dura -tório -douro 4 Trabalhos Acadêmicos Não foram encontrados trabalhos sobre deverbais com aplicações computacionais para o PB. Nesse cenário, reportamos apenas os trabalhos que estão mais relacionados a este. 4.1 Formação de palavras no português brasileiro (SANDMANN, 1989) O autor descreve os modelos de formação de palavra produtivos no PB no ano de 1984, e aponta os deverbais mais produtivos. Os dados foram extraídos de um corpus jornalístico composto por 42 edições. Mediu-se a produtividade a partir das palavras encontradas no corpus que não estavam no Novo Dicionário Aurélio. Entre elas estão: 3

deverbais de ação e de agente terminados em: -ada, -ção, -dura, -mento, -dor e -deira, o que mostra uma redução no conjunto de sufixos de deverbais se comparado às Gramáticas estudadas. 4.2 Polissemia sistemática em substantivos deverbais (BASÍLIO, 2004) O enfoque deste trabalho é o aspecto sincrônico da polissemia na construção lexical. Segundo a autora os processos de formação de palavras apresentam duas funções principais: gramatical e denotativa. A primeira corresponde à necessidade de utilizar palavras de uma classe gramatical em contextos linguísticos que exigem uma palavra de outra classe, porém sem perder o sentido. A segunda corresponde à necessidade de aproveitamento do material simbólico já existente numa palavra para formar outra palavra, que designe algo diferente, mas relacionado à palavra primitiva (p.53). Segundo a autora, cada deverbal tem diversas interpretações previamente sabidas de acordo com a representação conceitual e estrutura sintática requerida. Alguns deverbais apresentam interpretações mais específicas que não podem ser preditas, entretanto, o aspecto verbal daquilo que está sendo nominalizado permanece. Desse modo, esse elemento também apresenta polissemia sistemática, embora o elemento semanticamente pré-determinado seja apenas parcial. 4.3 Os sufixos -ção e -mento na construção de nomes de ação e de processo: contribuições às práticas lexicográficas (SANTOS, 2006) Esse trabalho consiste na melhoria das práticas lexicográficas dos verbetes afixais -ção e -mento no português, que embora aparentemente concorrentes, assumem diferentes papéis na língua devido às restrições de cunho morfológico-fonético. A descrição linguística é feita por meio do modelo SILEX (CORBIN, 1987); a investigação dos dados é realizada a partir de um corpus de 1.225 palavras recolhidas no Novo Dicionário Aurélio (2004) e no Dicionário Eletrônico Houaiss da Língua Portuguesa (2004). Como resultado, constata que a escolha de um ao invés do outro sufixo não é aleatória como dizem os gramáticos. A partir disso, sugere formas de redigir verbetes para -ção e -mento respeitando suas especificidades. 5 O modelo SILEX O SILEX foi escolhido por três razões principais: por ser estratificado, por ser associativo e hipergerativo. Ser estratificado significa que há uma hierarquia em relação aos componentes que participam do processo construcional da palavra, ou seja, há uma organização em nível de constituintes e em nível de combinação dos mesmos. Além disso, o caráter estratificado do Modelo SILEX ajuda na implementação computacional, pois representa uma arquitetura reproduzível no computador. Observemos a Figura 1: 4

Componente da Base Entradas lexicais de base (afixos e categorias maiores) Componente Derivacional RCP :com inserção de afixos e categorias maiores Palavras construídas possíveis: ( ) regular, predizível e de número infinito Arrumação, arrumamento, arrumadela Figura 1: Arquitetura do modelo SILEX. No Componente de Base estão alocadas as estruturas lexicais disponíveis na língua: afixos e palavras simples. A saída do componente de base constitui o léxico não construído (CORBIN, 1991, p.20). No Componente Derivacional que é o componente gerativo por excelência estão presentes as RCPs (Regras de Construção de Palavra), as quais são responsáveis por selecionar as bases e os sufixos, que combinados, darão origem as palavras construídas. Dado que a uma RCP podem ser associados muitos processos morfológicos de natureza diferente (sufixação, prefixação, conversão, etc.), uma mesma RCP é capaz de construir várias estruturas. A saída do Componente Derivacional contém todas as palavras possíveis de serem construídas, isto é, palavras interpretáveis e passíveis de serem reproduzidas pelos falantes, mesmo que estas não estejam atestadas em dicionários. É justamente esse caráter hipergerativo do Modelo que garante a recuperação de formas desconhecidas ao falante de hoje. A inconsistência detectada em relação aos sufixos formadores de deverbais pelos gramáticos pode ser um apontamento de que sufixos pouco frequentes, ou quase em desuso na atualidade foram usados em algum momento da história do PB. Nesse sentido, todos os sufixos citados foram inseridos no ExtraDev. 5.1 RCP de deverbais de ação O que determina os mecanismos de construção de deverbais são as chamadas RCP, as quais designam os paradigmas de construção de palavras existentes em determinada língua, mostrando o caráter sistemático do léxico [...] o léxico apresenta também um alto teor de regularidade em seus processos de expansão, que constituem uma parte fundamental da organização lingüística (BASÍLIO, 2004, p.53). Vejamos, em seguida, a Regra de Construção de Palavra para os deverbais de ação: 1- Sufixação = tema verbal + conjunto de sufixos = deverbal de ação Ex.: lava- -gem/-nsia/-ção/-mento/-dela/-deira lavagem/lavansia/lavação/ -ncia/anç(o/a)/-ata/-(a/u)me/-(t/d)ura lavamento/lavadela/lavadeira/ lavancia/lavanç(o/a)/lavata/ lav(u/a)me/lava(t/d)ura. 5

2- Conversão = Radical verbal + desinência de gênero = deverbal de ação Ex.: busc- -a/-o/-e busca/busco/busce* 3- Desflexionação = verbo -- > nome = deverbal de ação Ex.: romper romper romper rompido rompid(o/a) rompido 6 ExtraDev: Um sistema de extração semiautomático de deverbais em corpus do português histórico e contemporâneo O ExtraDev é um sistema de detecção e extração de deverbais de ação de maneira semiautomática. O sistema se beneficia de duas bases externas de conhecimento: o dicionário Unitex-PB (MUNIZ, 2004; MUNIZ et al, 2005) no formato DELAF e a lista de variação de grafia gerada pelo SIACONF (GIUSTI et al., 2007). A partir do dicionário, extraímos a lista de bases verbais (+- 14.000) para composição das regras no módulo 1; já a lista de variações de grafia do SIACONF foi usada no módulo 2 para extrair as possíveis variantes de deverbais. O ExtraDev diferencia-se de outros buscadores por considerar na busca todos os constituintes que participam da construção de uma unidade lexical complexa e por realizar essa busca a partir de uma base de +- 14000 verbos de uma só vez. Por exemplo, o buscador do editor de texto Word realiza buscas parciais: ora o usuário escolhe a opção sufixo, ora prefixo. Um desses dados apenas não garante precisão na busca, devido a dois fatores: sufixos participam de mais de uma RCP, ou seja, os mesmo sufixos podem originar nomes de ação e nomes de qualidade; a forma sufixal pode ser ambígua, sendo apenas uma terminação lexical (cimento). Outra possibilidade oferecida pelo Word é o uso de expressões regulares, que podem recuperar várias formas de uma só vez. Contudo, as buscas por expressões regulares também têm suas limitações: requerem o conhecimento da linguagem por parte do usuário e as buscas são bastante pontuais, não permitindo que se busque um conjunto grande de palavras. E, além disso, nenhum dos tipos de busca permitidos pelo Word nos dá frequência de palavras, nem gera listas com as saídas encontradas. Apresentamos, em seguida, a arquitetura do ExtraDev (Figura 2) em alto nível, compreendendo os módulos de geração de deverbais históricos com e sem variação de grafia, mais os conhecimentos utilizados e arquivos de entrada e saída. 6

Corpus histórico UNITEX PB Módulo 1 Módulo 2 Regras linguísticas Módulo de Geração de Deverbais de ação sem variação de grafia SIACONF Módulo de Geração de Deverbais de ação com variação de grafia Figure 2. Arquitetura do sistema ExtraDev Sistema EXTRADEV Documentos (lista) Processos Documento (corpus) Regras manuais Recurso externo Lista de deverbais históricos Figura 2: Arquitetura do sistema ExtraDev. A entrada do sistema é o corpus histórico DHPB, porém, o usuário pode utilizar a versão contemporânea se quiser, ou seja, apenas o módulo 1. Basta submeter o corpus de seu interesse (não histórico) e a saída do módulo 1 (lista) conterá todos os deverbais encontrados. Outra funcionalidade do ExtraDev que está em desenvolvimento é a possibilidade de recuperação de estruturas deverbais que não denotam ação, mas sim qualidade, agentividade, etc.. Nesse sentido, além da liberdade de submissão de corpora, o usuário também poderá eleger o grupo sufixal desejado. 7 Avaliações do ExtraDev Na primeira versão do ExtraDev as regras eram no formato de expressões regulares e o sistema demorava horas para rodar. Porém, devido à morosidade do processo e o intuito do uso do sistema em tempo real, mudou-se o programa para busca binária que é capaz de procurar mais de 294.000 formas distintas, gerando listas de deverbais de acordo com cada processo, em um tempo de, no máximo, dois minutos. Com intuito de medir o desempenho do ExtraDev, realizamos um comparativo com o Word e obtivemos os resultados mostrados na Tabela 2: 7

Sufixos Tabela 2: Comparação de precisão entre o buscador do Word e o ExtraDev. Buscador Word com caracteres especiais EXTRADEV total de ocorrências EXTRADEV deverbais distintos Ganho por utilização do Extradev em relação ao total de ocorrências -mento 21.423 4.568 185 ~ 4 vezes mais preciso -ção 41.857 17.638 569 ~ 2,4 vezes mais preciso -gem 7.646 1.367 51 ~ 5,5 vezes mais preciso -tura 6.158 220 13 ~ 28 vezes mais preciso -ria 29.014 3.389 412 ~ 8,5 vezes mais preciso -dura 1.245 236 46 ~ 5,3 vezes mais preciso -dela 1.133 3 3 ~ 377 vezes mais preciso -me 33.436 194 56 ~ 187 vezes mais preciso -nça 11.240 2.144 50 ~ 5,3 vezes mais preciso -nço 1.361 28 8 ~ 48,6 vezes mais preciso -nsia 96 8 5 12 vezes mais preciso -ta 120.002 795 56 ~ 151 vezes mais preciso Utilizamos o mesmo corpus (DHPB) para ambos buscadores e, no Word, acionamos o critério sufix que foca apenas a terminação da palavra e obtivemos um grande número de palavras que não são deverbais de ação como podemos observar na coluna 1 (Word) comparada a 2 (ExtraDev). O ExtraDev é no mínimo duas vezes mais preciso que o Word. 8 Considerações Finais Com este trabalho, constatamos que devido ao léxico apresentar regularidades em seus processos de formação no que se refere às palavras construídas, torna-se possível a implementação computacional, sobretudo de maneira muito mais precisa e dinâmica do que as disponíveis em editores de texto. Referências ALUISIO, S.; PINHEIRO, G.M.; MANFRIM, A.M.P.; OLIVEIRA, L. H. M. de; L. C. GENOVES Jr.; TAGNIN, S. E. O. The Lácio-Web: Corpora and Tools to advance Brazilian Portuguese Language Investigations and Computational Linguistic Tools. LREC 2004. Proceedings... 2004, Lisboa, Portugal, p.1779-1782. BASILIO, M. M. P. Estruturas lexicais do português: uma abordagem gerativa. Petrópolis: Vozes, 1980. p.128. 8

BASILIO, M. M. P. Polissemia Sistemática em Substantivos Deverbais. In: PIRES DE OLIVEIRA, R.; NICOLACÓPULOS, A. T. (Org.). Semantics: Lexicon, Grammar and Use. Florianópolis: Editora da UFSC, 2004, v.47, p 49-71. BASILIO, M. M. P. Formação e classes de palavras no português do Brasil. 2.ed., 1.reimpr. São Paulo: Contexto, 2006. BECHARA, E. Moderna Gramática Portuguesa. 37.ed. Rio de Janeiro: Lucerna, 1992. CÂMARA Jr., J. M. Dicionário de Filologia e Gramática referente à Língua Portuguesa. 4. ed. Rio de Janeiro: J.Ozon, 1970. CÂMARA Jr., J. M. História e Estrutura da Língua Portuguesa. 2.ed. Rio de Janeiro: Ed. Padrão, 1976. CORBIN, D. Morphologie dérivationnelle et structuration du lexique. 2 vol. Tubinga: Max Niemeyer Verlag, 1987. CORBIN, D. Introduction - La formation des mots: structures et interprétations. Lexique, 10, Villeneuve d Ascq: Presses Universitaires de Lille, p.7-30, 1991. CORBIN, D. La réprésentation d une famille de mots dans le Dictionnaire dérivationnel du français et ses corrélats théoriques, méthodologiques et descriptifs. Recherches linguistiques de Vincennes, p.5-37, 1997, + errata. CORREIA, M., L. L. S. P. Inovacao Lexical em Portugues. Lisboa: Edições Colibri, 2005. CORREIA, M. A denominação das qualidades em português contributos para a compreensão da estrutura do léxico português. 1999. Dissertação (Doutoramento) Universidade de Lisboa, Lisboa. CORREIA, M. Homonímia e polissemia contributos para a delimitação dos conceitos. Palavras, Lisboa, v. 19, p. 57-75, 2001. CORREIA, M. Denominação e construção de palavras. Lisboa: Colibri, 2004. v.1. CUNHA, Antonio Geraldo da. Dicionário Etimológico Nova Fronteira da Língua Portuguesa. Rio de Janeiro: Nova Fronteira, 1982. CUNHA, C.; CINTRA. C. Nova Gramática do Português Contemporâneo. 5.ed. Lisboa: Edições João As da Costa, 1989. DUBOIS, et. al.. Dicionário de Linguistica. 6.7.8.9.10.ed. São Paulo: Cultrix,1997-98. FINGER, M.; BRITTO, H.; GALVES, C. Computational and linguistic aspects of the construction of the tycho brahe parsed corpus of historical portuguese. 1ST FREIBURG WORKSHOP ON ROMANCE CORPUS LINGUISTICS, 2000, Freiburg, Germany. Proceedings, 2000. GALVES, C.; BRITTO, H. A construção do corpus anotado do português histórico tycho brahe. IV ENCONTRO PARA O PROCESSAMENTO COMPUTACIONAL DA LÍNGUA PORTUGUESA ESCRITA E FALADA (PROPOR) Universidade de Évora, Évora, Portugal, 1999. Anais... p.81-92. GIUSTI, R., C. Jr; MUNIZ, M.; CUCATTO, L. A.; ALUÍSIO, S. Automatic detection of spelling variation in historical corpus: An application to build a Brazilian Portuguese spelling variants dictionary. Proceedings of the Corpus Linguistics, 2007 (to appear). HIROHASHI, A. S. Aprendizado de regras de substituição para normatização de textos históricos. 2004. Dissertação (Mestrado) Instituto de Matemática e Estatística, USP, São Paulo. HOUAISS, A. Dicionário da Língua Portuguesa. Rio de Janeiro: Editora Objetiva, 2001. LIMA, R. Gramática Normativa da Língua Portuguesa. Rio de Janeiro: Vis mea in labore, 1957. MATEUS, M. H. M. Gramática da Língua Portuguesa. Lisboa, 1983. 9

MUNIZ, M. C. M. A construção de recursos lingüístico-computacionais para o português do Brasil: o projeto de Unitex-PB. 2004. Dissertação (Mestrado) Instituto de Ciências Matemáticas de São Carlos, USP, 2004. PAIXÃO, M. C. S.. and T. TRIPPEL. Building a historical corpus for Classical Portuguese: some technological aspects. In BARONI, P. et al. (Eds.). V INTERNATIONAL CONFERENCE ON LANGUAGE RESOURCES AND EVALUATION (LREC 2006), Proceedings Genova: ELRA, 2006, p.1831-1836. RIO-TORTO, G. M. (Org.). Verbos e nomes em português. Coimbra: Almedina, 2004. SAID ALI, M. Gramática Histórica da Língua Portuguesa. 3. ed. melhorada e aumentada de Lexicologia e Formação de Palavras e Sintaxe do Português Histórico São Paulo: Melhoramentos, 1964. SANTOS, C. M. B. Os sufixos -ção e -mento na construção de nomes de ação e de processo: contribuições à prática lexicográfica. 2006. Dissertação (Mestrado em Letras) Umiversidade Federal do Rio Grande do Sul. SANDMANN, A. J. Formação de palavras no Português Brasileiro Contemporâneo. Curitiba: Scientia et Labor-Ícone, 1989. SANDMANN, A. J. Competência Lexical: Produtividade, Restrições e Bloqueio. Curitiba: Editora da UFPR, 1991. UNIVERSIDADE FEDERAL DO RIO DE JANEIRO. PHPB - Para uma História do Português do Brasil. Disponível em: <http://www.letras.ufrj.br/phpb-rj/>. Acesso em: 29 set. 2006. 10