5 Discussão, aplicação e trabalhos futuros

Documentos relacionados
O CÓRPUS NÃO MENTE JAMAIS: SOBRE A IDENTIFICAÇÃO E USO DE COMBINAÇÕES MULTIVOCABULARES DO TIPO VERBO MAIS SINTAGMA NOMINAL

4 Composicionalidade com base em córpus

A IMPORTÂNCIA DO ENSINO DE COLOCAÇÕES ESPECIALIZADAS E COLOCAÇÕES ESPECIALIZADAS ESTENDIDAS PARA A FORMAÇÃO DO TRADUTOR

(2) A rápida publicação deste livro pela editora foi um bom negócio.

ESTUDO LEXICOGRÁFICO A LUZ DA LINGUÍSTICA DE CORPUS: FRASEOLOGISMOS ZOÔNIMOS.

A elaboração de informações documentárias. Nair Yumiko Kobashi (partes da tese de doutorado, 1994)

Linguagens Documentárias. Profa. Lillian Alvares Faculdade de Ciência da Informação, Universidade de Brasília

ELABORAÇÃO DE DICIONÁRIO ELETRÔNICO Mauro Rebello 1, Violeta de San Tiago Dantas Barbosa Quental 2.

Uma nota prévia sobre a ciência e o que é conhecimento científico

Expectativas de Aprendizagem dos Cursos oferecidos pelo INCO

11 Considerações Finais

Verificação e Validação. Ian Sommerville 2006 Engenharia de Software, 8ª. edição. Capítulo 22 Slide 1

ORDENAÇÃO DOS ADVÉRBIOS MODALIZADORES EM ENTREVISTAS VEICULADAS PELA REVISTA VEJA

Inteligência Artificial. Prof. Esp. Pedro Luís Antonelli Anhanguera Educacional

1 Introdução. 1 CÂMARA JR., J.M, Estrutura da língua portuguesa, p Ibid. p. 88.

Indexação automática. CBD/ECA Indexação: teoria e prática

Avaliar o comportamento das crianças DEL no que concerne ao valor dado à informação de pessoa em Dmax e no afixo verbal;

1 Introdução. Federico García Lorca

DEPARTAMENTO DE LÍNGUAS - Grupo de Português Planificação Anual /Critérios de avaliação

A ESTRUTURA COMPOSICIONAL DA SENTENÇA JUDICIAL CONDENATÓRIA: PLANOS DE TEXTOS E AS SEQUÊNCIAS TEXTUAIS

Os desafios da anotação de um corpus da linguagem do futebol com frames semânticos

6 Atributos. A dívida da empresa subiu.

PLANIFICAÇÃO - CURSO PROFISSIONAL DE NÍVEL SECUNDÁRIO

Recapitulando... Abordagens: PLN. Abordagens: PLN 29/03/2012. Introdução ao Processamento de Línguas Naturais. Distribuição de palavras

Novas Ferramentas e Recursos Linguísticos para a Tradução Automática

1. A hipótese da relatividade linguística de Sapir-Whorf:

1 Introdução. 1 Nesta dissertação, as siglas PL2E, PL2 e PLE estão sendo utilizadas, indistintamente, para se

Um estudo do córpus COMPARA: a semântica dos compostos nominais

Revisão Bibliográfica por Métodos Bibliométricos

CONCURSO PÚBLICO PREFEITURA MUNICIPAL DE MARACÁS - BA EDITAL 001/2012 RESULTADO DOS RECURSOS IMPETRADOS CONTRA A PROVA OBJETIVA DE MÚLTIPLA ESCOLHA

MCZA Processamento de Linguagem Natural Introdução

CIÊNCIA, TECNOLOGIA E SOCIEDADE. O que é Ciência?

SUMÁRIO APRESENTAÇÃO...9. O ESTUDO DO SIGNIFICADO NO NÍVEL DA SENTENÇA...13 Objetivos gerais do capítulo...13 Objetivos de cada seção...

Métodos e Técnicas de Pesquisas ARTIGO CIENTÍFICO. Professor Adm. Walter Martins Júnior CRA-PR

Lingüística de córpus: o lugar da fusão entre semântica e pragmática Corpus linguistics: where semantics and pragmatics are blended together

ESCOLA BÁSICA E SECUNDÁRIA DE VELAS PLANIFICAÇÃO ANUAL DE PORTUGUÊS 10º ANO

ESTUDOS DA TRADUÇÃO II. Prof. Carlos Rodrigues 21 de março de 2015

Descartes filósofo e matemático francês Representante do racionalismo moderno. Profs: Ana Vigário e Ângela Leite

COESÃO REFERENCIAL E SEQUENCIAL LEITURA E ARGUMENTAÇÃO TEXTO ARGUMENTATIVO

hábito (a) [Metoprene, substância análoga a o hormônio juvenil de os insetos,] que atua em as formas imaturas ( larvas e pupas ), impedindo...

As tendências contemporâneas no ensino de Matemática e na pesquisa em Educação Matemática: questões para o debate i

Representação do Conhecimento

8 Conclusões e considerações finais

SEMÂNTICA PARTE 3 ANÁLISE SEMÂNTICA 14/06/2012. SCC5908 Tópicos em Processamento de Língua Natural. Até agora, significado da sentença

Relatório Março-Abril 2008

Apresentação Conceitos básicos Gramática, variação e normas Saberes gramaticais na escola... 31

RELATÓRIO DE PONTUAÇÃO AMOSTRA

Pedro Oliveira

A COMPILAÇÃO DE CORPORA PARALELOS E COMPARÁVEIS E O USO DE FERRAMENTAS COMPUTACIONAIS COM FINS PEDAGÓGICOS

CONCURSO PÚBLICO / Professor Efetivo - Campus São João del-rei - IF SUDESTE MG

Projeto COMET avanços e carências

Inteligência Artificial

Experiências práticas na UFU com a LC

METÁFORAS COM VERBOS PONTUAIS DO PB E DO INGLÊS: UMA ANÁLISE DESCRITIVA E COMPARATIVA.

DESCARTES E A FILOSOFIA DO. Programa de Pós-graduação em Educação UEPG Professora Gisele Masson

METODOLOGIA CIENTÍFICA

ESTUDOS LINGÜÍSTICOS DOSSIÊ GRAMÁTICAS CATEGORIAIS

A CONSTRUÇÃO DO SISTEMA DA ESCRITA COMO PROCESSO COGNITIVO

A diculdade da denição de palavra. Luiz Arthur Pagani (UFPR)

ESTRATÉGIAS DE INFERÊNCIA LEXICAL EM L2 ESTUDO DA ANÉLISE GRAMATICAL 1. INTRODUÇÃO

ESCT Português 10º Ano Cursos Profissionais

Dicionario Coreano Portugues

Introdução ao Processamento de Línguas Naturais. SCC5908 Introdução ao Processamento de Língua Natural. Thiago A. S. Pardo

Castro (2008, p.7) define a palavra ontologia de forma mais simplificada:

Análise de Texto e Fenômenos Linguísticos - Ambiguidade, Polissemia, Tipos de Discurso e Intertextualidade.

PoloCLUP Linguateca Belinda Maia

Análise Multivariada

Simbolismo e Realidade (1925) Fundamentos da Teoria do Signo (1938) Signos Linguagem e Comportamento (1946)

Conclusão. 8 Conclusão

Leitura de Documentos. Priscila Engiel

5 O substantivo-suporte no corpus

Construção de Compiladores. Capítulo 1. Introdução. José Romildo Malaquias. Departamento de Computação Universidade Federal de Ouro Preto 2014.

KEYWORDS: contexts, definitory contexts, extraction, recurrent patterns, corpus

COMPONENTES CURRICULARES COMPLEMENTARES: CH Teórica 60. CH Prática

A CONCORDÂNCIA VERBAL DE TERCEIRA PESSOA DO PLURAL NO PORTUGUÊS POPULAR DA COMUNIDADE RURAL DE RIO DAS RÃS - BA

O teor convencional do fenômeno lingüístico: quando o corpus fala mais alto

Agrupamento de Escolas João da Silva Correia

AGRUPAMENTO DE ESCOLAS N.º1 DE LOURES

Ciência da Computação. Análise e Projeto Orientado a Objetos UML. Anderson Belgamo

definitions in natural language (say, English) and, if possible, using formal relations and

Considerações finais

01- Esse texto pode ser classificado como anúncio publicitário ou campanha comunitária? Justifique. R.: a) anunciante: b) público-alvo: c) objetivo:

Cadernos do CNLF, Vol. XIII, Nº 04

Lógica Fuzzy. Conectivos e Inferência. Professor: Mário Benevides. Monitores: Bianca Munaro Diogo Borges Jonas Arêas Renan Iglesias Vanius Farias

Trabalhode Conclusão de Curso 1 GSI535. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU

Sobre Metodologia Científica

PROGRAMA DE PÓS-GRADUAÇÃO STRICTO SENSU EM ESTUDOS DE LINGUAGENS ARTIGO ACADÊMICO 1

MATRIZ CURRICULAR LETRAS PORTUGUÊS/INGLÊS E RESPECTIVAS LITERATURAS

MONTAGEM DE HIPÓTESES

CONTRIBUIÇÕES DA LINGUÍSTICA PARA O ENSINO DA TRADUÇÃO

GRUPO 1 GRUPO 2 GRUPOS 3e4

INFORMAÇÃO - PROVA DE EQUIVALÊNCIA À FREQUÊNCIA INGLÊS (LE I) COMPONENTES ESCRITA E ORAL

Relatório. Ano lectivo Dados extraídos da Plataforma Moodle da DGIDC.

EXAME DE PROFICIÊNCIA EM LÍNGUA ESTRANGEIRA ESTUDOS PÓS-GRADUADOS DA PUC-SP

1.1 Os temas e as questões de pesquisa. Introdução

UNIVERSIDADE FEDERAL DE GOIÁS PRÓ-REITORIA DE GRADUAÇÃO CENTRO DE SELEÇÃO PROCESSO SELETIVO PARA O PREENCHIMENTO DE VAGAS DISPONÍVEIS/2015

TCC. Evandro Deliberal

1.1. Formulação do Problema

Transcrição:

5 Discussão, aplicação e trabalhos futuros Este estudo foi desenvolvido, essencialmente, em razão de mais de sete anos de investigação do comportamento de CMs verbais. Os recortes teóricos anteriormente escolhidos (Garrão, 2001; Garrão & Dias, 2001/2; Basílio, Oliveira & Garrão, 2003) serviram de base para os questionamentos aqui feitos. Dentre esses podemos destacar: i) que o critério dedutivo se revelou pouco produtivo para dar conta de CMs verbais, através de considerações controversas de aceitabilidade. Este critério se mostra particularmente improdutivo para a caracterização de CMs mais freqüentes da língua, cuja detecção depende diretamente de uma abordagem empírica; ii) que uma visão de composicionalidade forte ou representacionista (cf. Neves, 1999; Tagnin, 1999 e Vale, 2002) para a identificação de CMs tem sérias implicações, uma vez que propõe como medida de avaliação do fenômeno, a semântica do cálculo ou um ideal de falante baseado na inocência (cf. Fillmore, 1979), embora os calculadores e os falantes reais não o sejam; iii) que uma visão de composicionalidade fraca ou neo-representacionista (cf. Lakoff, 1993; Gibbs, 1994) para lidar com as CMs também não está livre de problemas, uma vez que parte de uma visão de significado muito inclusiva. Embora seja elucidativa em muitos aspectos semânticos, tal perspectiva, por não ter uma ambição explicativa, não determina formalmente os limites de cada faceta da construção do significado. iv) que a alegada possibilidade de separação entre semântica e pragmática, ou entre conhecimento lingüístico e enciclopédico é improvável. Compartilhamos com Wittgenstein (1979) e Harris (1996) uma visão pragmática radical, em que o uso lingüístico não é um dos componentes da linguagem, mas a única forma produtiva de se pensar os fenômenos lingüísticos, assim como também

117 concordamos com Kilgarriff (2000) que os significados só existem dependentes de propostas ou tarefas. Em relação aos dados obtidos podemos afirmar com alguma segurança que: i) uma abordagem não-representacionista com base em córpus é objetiva e pragmática, uma vez que utiliza como fonte de seus dados, o discurso do falante desavisado, porém nada inocente. Discurso este sem pretensões descritivas nem comprometimentos teóricos. ii) a língua pode ser descrita como um fenômeno probabilístico, uma vez que há nitidamente padrões de combinações vocabulares recorrentes. De certa forma, esta perspectiva atenua a visão chomskiana da linguagem, focada na semântica do cálculo, e prioriza uma visão de língua inseparável da pragmática; isto é, enfatiza o teor eventivo do fenômeno lingüístico. iii) os chamados verbos leves estão, de fato, entre os mais produtivos no domínio da combinação multivocabular, como argumenta Vale (2002); por outro lado, nosso método foi capaz de identificar outros verbos que superam suas ocorrências para o padrão procurado. Por exemplo, perder (6 ) usar (7 ) deixar (9 ), ganhar (11 ), criar (13 ), dentre outros, superam a freqüência de verbos tradicionalmente rotulados por leves ou suporte, como levar e tirar, por exemplo, que estão em 17 e 27, respectivamente. iv) o método de Logaritmo de Verossimilhança (Banerjee & Pedersen,2003) se mostrou bastante adequado para a tarefa proposta, com precisão de 87, 2%. Isto é, gerou apenas 12.8% de pseudo-cms. Some-se a isso, a rapidez da obtenção dos resultados o que minimiza o trabalho do pesquisador e a confiabilidade dos tipos de CMs obtidas o que descarta qualquer critério dedutivo e moroso em relação à aceitabilidade e possibilidade de ocorrências. v) o determinante/quantificador comumente presente na CM de padrão procurado (formando estruturas do tipo fazer uma declaração, ganhar mais tempo) também foi adequadamente captado pelo método de Logaritmo de Verossimilhança.

118 vi) o Modelo de Espaço Vetorial (Baeza-Yates & Ribeiro-Neto, 1999) também se revela bastante promissor para aferição do grau de composicionalidade proposta. Além de prescindir da semântica do cálculo, ele também demonstra, de uma forma geral, uma vocação para detectar o grau de polissemia dos SNs que eventualmente podem figurar numa CM. vii) o córpus, além de servir como base de dados para detecção de CMs, também tem um papel preditivo ao fornecer os ambientes lingüísticos tipicamente relacionados às CMs. Sobre as implicações do córpus utilizado, podemos apontar: i) o fato de o córpus ter sido compilado há mais de dez anos (em 1994). Se considerarmos a relação que Wittgenstein estabelece entre a língua e uma cidade, podemos dizer que encontramos algumas poucas casas derrubadas, ou seja, algumas CMs não mais amplamente utilizadas (como, por exemplo, criar a URV, usar AZT); ii) o teor informativo do córpus escolhido, o que, por um lado, pode ser considerado relativamente desejável do ponto de vista do uso da língua (para ensinamento de segunda língua e aplicações de PLN). Mas por outro lado, pode ter enfatizado de modo exagerado domínios como a política, economia e esportes em detrimento de outros assuntos. Sobre as possíveis aplicações lexicográficas dos resultados obtidos pelo método de Logaritmo de Verossimilhança, podemos apontar: a) construção de um dicionário das CMs mais utilizadas no PB, com exemplos de usos retirados do próprio córpus CETENFolha; b) construção de um dicionário bilíngüe dessas CMs e seus prováveis pares em outras línguas, como, por exemplo, o inglês (relevante para aprendizes de português como segunda língua). Sobre as possíveis aplicações do Modelo de Espaço Vetorial aplicado nesta pesquisa, podemos apontar: a) um critério de aferição de transparência/opacidade semântica livre de deduções e intuições do pesquisador.

119 b) um critério de aferição de polissemia e ambigüidade com base em córpus em detrimento de uma avaliação intuitiva. Sobre as possíveis aplicações dos resultados obtidos pelo método de Logaritmo de Verossimilhança em PLN, podemos apontar: a) a construção de um dicionário eletrônico das CMs mais utilizadas no PB, com exemplos de usos retirados do próprio córpus CETENFolha; b) otimização da etiquetagem de córpus computadorizados, incluindo o próprio córpus CETENFolha. Isto é, se possível, indexar as CMs como uma coocorrência lingüística motivada. c) incremento de softwares de Tradução Automática como o Delta Translator e o Globalink Power Translator Pro para evitar erros de traduções. d) incremento de dicionários bilíngües disponíveis na Internet, como o Babylon e o Google, que são amplamente utilizados para traduzir periódicos de uma língua para outra. Sobre as possíveis aplicações do Modelo de Espaço Vetorial utilizado nesta pesquisa, para fins de PLN, podemos apontar: a) exclusão de CMs opacas como possíveis candidatas à busca do usuário. Ou seja, CMs menos composicionais ou mais opacas não estão relacionadas diretamente com os SNs que as compõem (como bandeira em dar bandeira, partido em tomar partido e frutos em dar frutos). Desta forma, se o usuário estiver fazendo uma busca sobre bandeira da Dinamarca ou partido comunista e frutos silvestres, o sistema de busca poderia excluir os documentos que contivessem CMs como essas do total dos documentos relevantes ao usuário para aumentar a precisão da busca. b) detecção de termos relevantes e irrelevantes (pseudo-termos) para Recuperação de Informação. Em outras palavras, SNs com um baixo índice de polissemia, como camisinha, por exemplo, podem ser consideradas como termos de busca. Outras, como decisão e idéia, podem ser consideradas pseudo-termos, uma vez que são encontradas em documentos com assuntos difusos e não-relacionados.

120 Por mais motivador e promissor que esse caminho não-representacionista tenha se revelado, temos consciência de que há alguns ajustes a serem feitos. Os resultados poderiam ser ainda mais confiáveis se nós dispuséssemos de um córpus anotado mais robusto de textos no PB. Poderíamos também tornar os resultados mais precisos se considerássemos não somente um parágrafo, mas um escopo lingüístico maior para o propósito da medida de composicionalidade. Isto aumentaria ainda mais a credibilidade da nossa metodologia. Por outro lado, podemos dizer que este método não somente nos alforria daquele com base na semântica da inocência, como também se revela altamente profícuo para a lexicografia e para PLN, uma vez que fornece os ambientes lingüísticos em que foram detectadas as CMs. De uma forma ampla, concluímos que o objetivo primeiro deste estudo foi alcançado. Pretendíamos contribuir para uma apreciação da língua com o mínimo de comprometimento representacionista. Quisemos demonstrar que a língua talvez possa prescindir de tantos modelos teóricos e rótulos. Como Wittgenstein define em Da certeza ( 559), o jogo de linguagem é, por assim dizer, imprevisível. Quero dizer: não está fundamentado. Não é racional (ou irracional). Está aí - como a nossa vida. Portanto, como jogadores, talvez a atitude mais prudente seja a constatação e descrição de partes dos jogos, sem tentar alçar vôos teóricos mais ambiciosos. Por ora, tarefa cumprida.