TATIANA DE OLIVEIRA PETRY

Tamanho: px
Começar a partir da página:

Download "TATIANA DE OLIVEIRA PETRY"

Transcrição

1 TATIANA DE OLIVEIRA PETRY USO DA TEORIA DE CENTERING NO TRATAMENTO COMPUTACIONAL DE REFERÊNCIAS ANAFÓRICAS PRONOMINAIS NO PORTUGUÊS ESCRITO: UMA EXPERIMENTAÇÃO COM PRONOMES PESSOAIS Dissertação apresentada como requisito parcial à obtenção do grau de mestre. Programa de Pós-Graduação em Ciência da Computação, Faculdade de Informática, Pontifícia Universidade Católica do Rio Grande do Sul. Orientadora: Profa. Dra. Vera Lúcia Strube de Lima. PORTO ALEGRE 2000

2 AGRADECIMENTOS e compreensão. À minha família, especialmente aos meus pais, pelo amor, carinho, apoio À Profa. Vera Lúcia Strube de Lima pela orientação, amizade e dedicação durante o desenvolvimento deste trabalho. trabalhos individuais. Ao Prof. Flávio Moreira de Oliveira pelo apoio e orientação nos Ao Stewart pelo auxílio no desenvolvimento do protótipo. Ao CNPq pelo apoio financeiro.

3 i SUMÁRIO SUMÁRIO... I LISTA DE FIGURAS... IV LISTA DE TABELAS... IV LISTA DE ABREVIATURAS...V RESUMO... VI ABSTRACT...VII 1 INTRODUÇÃO MOTIVAÇÃO ORGANIZAÇÃO DO TEXTO EXPOSIÇÃO DO PROBLEMA REFERÊNCIA Tipos de referência Co-referência Funções referenciais de pronomes Relações anafóricas UMA ESTRUTURA PARA RESOLUÇÃO DE REFERÊNCIAS CONSIDERAÇÕES ABORDAGENS COMPUTACIONAIS PARA RESOLUÇÃO DE ANÁFORAS PRONOMINAIS A ABORDAGEM DE TETSUYA NASUKAWA PARA RESOLUÇÃO DE PRONOMES Critérios propostos Descrição do experimento Resultados do experimento A ABORDAGEM DE MITKOV PARA RESOLUÇÃO DE PRONOMES Características dos experimentos Critérios estabelecidos Exemplo de aplicação dos critérios A ABORDAGEM DE BRECK BALDWIN Regras estabelecidas para identificação de antecedentes de pronomes O ALGORITMO DE LAPPIN E LEASS Características do algoritmo Características do experimento Módulos componentes Resultados do experimento CONSIDERAÇÕES RESOLUÇÃO DE ANÁFORAS E ESTRUTURA DO DISCURSO CONCEITOS BÁSICOS Discurso Enunciado Segmento SOBRE A NECESSIDADE DE UMA DESCRIÇÃO DA ESTRUTURA DO DISCURSO Considerações de Passonneau e Litman sobre segmentação de discurso ESTRUTURAÇÃO DO DISCURSO: PROPOSTAS E PERSPECTIVAS A proposta de Grosz e Sidner...28

4 ii A proposta de Walker CONSIDERAÇÕES CENTERING: ESPECIFICAÇÃO DO MODELO E DIREÇÕES DE PESQUISA A TEORIA DE CENTERING Objetivo Modelo proposto pela teoria EXTENSÕES PROPOSTAS E PESQUISAS RELACIONADAS À CENTERING O algoritmo de Brennan, Friedman e Pollard Uma revisão da proposta de Kameyama para Centering intra-sentencial Observações de Sharon Cote Considerações de Craig Roberts sobre o lugar de Centering em uma teoria geral de resolução de anáforas CONSIDERAÇÕES APROPRIAÇÃO DOS FUNDAMENTOS TEÓRICOS PARA USO DE CENTERING NA RESOLUÇÃO DE PRONOMES APLICAÇÃO DE CENTERING BASEADA EM CORPORA CONSIDERAÇÕES SOBRE UM MODELO COMPUTACIONAL IMPLEMENTANDO CENTERING Aspectos Gerais Componentes do Modelo CONSIDERAÇÕES EXPERIMENTO ESCOLHAS REALIZADAS Escolha do conjunto de pronomes a tratar Escolha do corpus para estudo REVISÕES Pronomes pessoais na língua portuguesa Conhecimentos úteis na resolução de pronomes pessoais DECISÕES DE PROJETO Marcação para sujeitos recuperáveis pela desinência verbal Importância da noção de estrutura de discurso coerente Constituição do conjunto de candidatos a antecedente Filtro de candidatos inapropriados Pronomes avaliados Pré-processamento Marcação de um sintagma nominal como sujeito Processamento das sentenças O PROTÓTIPO DESENVOLVIDO RESULTADOS OBTIDOS Análise Análise CONSIDERAÇÕES CONCLUSÃO O TRABALHO NO CONTEXTO DO GRUPO DE PLN DA PUCRS CONSIDERAÇÕES SOBRE ESTE TRABALHO SOBRE OS RESULTADOS DO TRABALHO TRABALHOS FUTUROS REFERÊNCIAS BIBLIOGRÁFICAS FONTE DO CORPUS...84 ANEXO A...85

5 iii ANEXO B...86 ANEXO C...94

6 iv LISTA DE FIGURAS FIGURA 1: ESTRUTURA GERAL DE UM SISTEMA DE RESOLUÇÃO DE REFERÊNCIA [POPESCU-BELIS 97]...11 FIGURA 2: ESTRUTURA DE FOCALIZAÇÃO [GROSZ 86]...30 FIGURA 3: COMPONENTES DO MODELO...54 FIGURA 4 - MENU DO APLICATIVO...67 FIGURA 5: INTERFACE DO PROTÓTIPO IMPLEMENTADO...68 FIGURA 6: INTERFACE DO DICIONÁRIO...70 LISTA DE TABELAS TABELA 1: CLASSIFICAÇÃO DE REFERÊNCIAS (EXEMPLOS TRANSCRITOS DE [KOCH 89])...6 TABELA 2: CORRELAÇÃO ENTRE SELEÇÃO CORRETA E SELEÇÃO DE ACORDO COM CADA TIPO DE PREFERÊNCIA [NASUKAWA 94]...15 TABELA 3: PONTUAÇÃO PARA THE DRAWER [MITKOV 98]...19 TABELA 4: PONTUAÇÃO PARA THE LIT PAPER PORT LED [MITKOV 98]...19 TABELA 5: ILUSTRAÇÃO DOS MOVIMENTOS POSSÍVEIS PARA O "CENTRO" DOS ENUNCIADOS...38 TABELA 6: EXTENSÃO DE BRENNAN, FRIEDMAN E POLLARD...40 TABELA 7: TRANSIÇÕES DE CENTERING [WALKER 98]...46 TABELA 8: DISTRIBUIÇÃO PRONOMINAL NOS TEXTOS DESCRITIVOS...58 TABELA 9: DISTRIBUIÇÃO PRONOMINAL NOS TEXTOS NARRATIVOS...58 TABELA 10: PRONOMES PESSOAIS DA LÍNGUA PORTUGUESA...59 TABELA 11: EXEMPLOS DE DI EUGENIO COMPARANDO USO DE PRONOMES CLAROS E NULOS NA POSIÇÃO DE SUJEITO...63

7 v LISTA DE ABREVIATURAS PLN Processamento de Linguagem Natural SN Sintagma Nominal SV Sintagma Verbal Cb Backward-Looking Center Cf Forward-Looking Centers Cp Próximo centro preferencial

8 vi RESUMO Esta dissertação pretende ser uma contribuição em direção à compreensão de linguagem natural por sistemas computacionais, tendo como foco a resolução de referências pronominais pessoais anafóricas de terceira pessoa na língua portuguesa brasileira. Inicialmente, caracteriza-se o fenômeno lingüístico da anáfora em discursos. A seguir apresentam-se estratégias encontradas na literatura para resolução deste tipo de referência, o escopo trabalhado nestas estratégias e seus resultados. Após, procede-se um estudo mais detalhado sobre a teoria de Centering, que é uma teoria atual endereçando a questão da resolução de anáforas. Considerando a relevância que esta teoria tem adquirido na atualidade (veja-se o número de trabalhos publicados envolvendo a teoria em conferências e revistas especializadas), busca-se evidenciar sua aplicação à língua portuguesa, incluindo, em modelo implementado, idéias oriundas da teoria e tecendo considerações sobre sua utilidade na resolução de pronomes. Por fim, descreve-se um experimento realizado com um corpus composto por textos narrativos de histórias infantis, com o objetivo de explicitar conhecimentos úteis no processo de resolução de referências anafóricas pronominais pessoais e validar a participação destes conhecimentos em uma modelagem computacional.

9 vii ABSTRACT This dissertation aims to be a contribution towards natural language understanding by computational systems, focusing on the resolution of anaphoric personal pronominal references of the third persons in Brazilian Portuguese language. Initially, we will characterize the linguistic phenomenon of anaphora in discourse. Next, we will present strategies found in literature for the resolution of this kind of reference, the scope investigated on these strategies and their results. Afterwards, a more detailed study about the Centering theory will be discussed, that is a current theory addressing anaphora resolution. Considering the importance that this theory has achieved at the present time (judging from the number of publications involving the theory at specialized conferences and journals), we try to make its application to Portuguese language clear including in an implemented model, ideas derived from the theory and commenting on its utility on pronoun-problem resolution. Finally, we will describe an experiment made with a corpus composed by narrative texts of children stories, with purpose to recognize useful knowledge in the process of resolution of anaphoric personal pronominal references in Brazilian Portuguese language, and to validate the role of this knowledge in a computational modeling of reference resolution.

10 1 INTRODUÇÃO 1.1 Motivação A linguagem humana é tema de investigação de diferentes áreas, tais como lingüística, ciências cognitivas e computação, na linha de pesquisas em Processamento da Linguagem Natural (PLN). Como cientistas da computação, nosso interesse fundamental centra-se em algoritmos, estruturas de dados e modelos formais de representação e raciocínio que permitam, ao menos em parte, simular a capacidade humana de uso da linguagem. Como capacidade humana de uso da linguagem podem-se distinguir pelo menos dois processos: geração e compreensão de linguagem. O processo de geração engloba a produção de discurso (escrito ou falado, texto ou enunciados em um diálogo) por seus participantes nos papéis de escritor ou falante. O processo de compreensão da linguagem envolve a interpretação do discurso identificação das entidades mencionadas no discurso, estabelecimento de relações, reconhecimento de intenções e inferências necessárias, uso de conhecimento contextual e de mundo pelos leitores ou ouvintes. Do ponto de vista da computação, estudos contemplando tanto compreensão quanto geração de linguagem por sistemas computacionais têm sido desenvolvidos, e sua utilidade pode ser evidenciada para diferentes aplicações. Com objetivos e métodos distintos, aplicações que se podem beneficiar do uso de alguma técnica de processamento da linguagem incluem interfaces que permitam a interação do usuário com o computador utilizando linguagem natural, information retrieval, sumarização de textos e tradução automática. Independente da diversidade de aplicações, contudo, o princípio geral permanece o mesmo: construir uma representação interna do texto (ou do diálogo),

11 2 apoiando-se ao mesmo tempo em regras lingüísticas e em conhecimentos extralingüísticos inseridos no sistema [Fuchs 93]. Greene, em [Greene 95], coloca que, para a psicologia cognitiva, várias questões associadas ao uso da linguagem podem ser traduzidas em como o conhecimento é representado na memória. Para reduzir o problema, então, a proporções gerenciáveis, usualmente tem-se desdobrado o conhecimento lingüístico necessário ao uso da linguagem em vários tópicos, que têm sido estudados em isolado em relação aos outros. Esta atitude também é assumida por cientistas da computação, que procuram isolar classes de problemas distintos e endereçá-los separadamente. Allen, em [Allen 94], por exemplo, organizou seu livro sobre sistemas de compreensão da linguagem em torno de três níveis de representação, a saber: a estrutura sintática, a forma lógica e a representação final do significado. Isto tem a virtude, segundo ele, de permitir que se estude cada problema em profundidade sem preocupação com outras complicações. Neste trabalho, assume-se a visão de que a resolução de anáforas seja, também, somente uma parte do problema da compreensão de discursos por sistemas computacionais, sendo, entretanto, uma etapa importante e necessária. Resolver uma anáfora é, em essência, determinar o antecedente de um termo ou expressão anafórica. Computacionalmente, contudo, é uma tarefa complexa exigindo conhecimento de natureza diversa pois, em geral, há uma multiplicidade de antecedentes possíveis, tornando necessário aplicar um algoritmo para filtrar candidatos inválidos, e classificar os candidatos válidos segundo critérios de saliência. Buscando, ao mesmo tempo, estabelecer um ranking de saliência para as entidades mencionadas no discurso, e fornecer uma descrição da coerência exibida por um segmento de discurso, a teoria de Centering [Grosz 95, Brennan 87, Di Eugenio 90,

12 3 Di Eugenio 96, Di Eugenio 98, Kameyama 98, Strube 99] tem sido alvo de consideráveis investigações. Segundo Kameyama, em [Kameyama 98], a especificação da dinâmica da saliência é um passo crucial em direção a uma teoria formal da pragmática do discurso, e Centering focaliza as inter-relações entre a dinâmica do centro e a forma do enunciado. Este trabalho tem como foco a resolução de referências anafóricas pronominais pessoais de terceira pessoa na língua portuguesa e o uso de Centering no processo de resolução. A opção por tratar esta classe de expressões de referência foi motivada pela constatação de que os artigos relacionados à teoria de Centering (publicações entre os anos de 1995 e 1999) contemplavam mais freqüentemente esta categoria, sendo por isto, a que permitiria comparação com a língua portuguesa. 1 Tendo se definido o objetivo de tratar pronomes pessoais de terceira pessoa na língua portuguesa, procedeu-se uma avaliação de textos para adotar um corpus de trabalho. Avaliaram-se textos narrativos de histórias infantis e textos descritivos provenientes da revista Ciência Hoje. Optou-se por trabalhar com o conjunto de textos narrativos, por este tipo de texto apresentar maior proporção de pronomes pessoais em relação aos descritivos, vocabulário mais homogêneo e estrutura de sentença um pouco menos complexa. Cabe comentar que a fundamentação teórica de Centering teve suporte, inicialmente, em exemplos construídos, cujo objetivo era ressaltar determinadas propriedades relativas à estruturação de enunciados. Tendo em vista que textos reais oferecem uma variedade maior de situações, seria interessante testar se Centering oferece uma análise adequada para a resolução de referências para a língua portuguesa em particular, em textos reais. japonesa). 1 (encontrou-se publicações relativas à aplicação da teoria para as línguas inglesa, italiana, alemã e

13 4 Outros conhecimentos passíveis de uso na resolução de referências anafóricas pronominais pessoais também foram investigados e são comentados no decorrer do texto da dissertação. Particularmente, citam-se trabalhos que mostram resultados obtidos com a aplicação de um conjunto específico de regras ou conhecimentos sobre corpora. 1.2 Organização do texto No capítulo 2, realiza-se uma revisão bibliográfica sobre o fenômeno lingüístico da referência. No capítulo 3, apresentam-se algumas propostas encontradas na literatura para resolução de anáforas pronominais. No capítulo 4, inclui-se uma revisão sobre estrutura do discurso e tecem-se considerações sobre a importância de um modelo computacional adequado a esta estrutura, para resolução de anáforas. No capítulo 5 procede-se uma revisão da teoria de Centering, sua motivação original, extensões propostas e observações feitas por diferentes pesquisadores. No capítulo 6, apresentam-se considerações gerais sobre o uso de Centering baseado em corpora. No capítulo 7, apresenta-se o experimento realizado e seus resultados. No capítulo 8 tecemse conclusões ao presente trabalho. Finalmente, apresentam-se as referências bibliográficas (capítulo 9) e anexos.

14 2 EXPOSIÇÃO DO PROBLEMA No presente capítulo, conceituam-se os fenômenos da referência, coreferência e relações anafóricas do ponto de vista lingüístico. Apresenta-se a motivação para tratamento computacional dos mesmos e delimita-se o escopo trabalhado nesta dissertação, qual seja, referências anafóricas pronominais pessoais. Procede-se também uma revisão de tipos de conhecimentos que podem estar associados à resolução destas referências, do ponto de vista lingüístico e cognitivo e, para finalizar, discute-se uma arquitetura genérica proposta por Popescu-Belis e Robba, em [Popescu-Belis 97], para tratamento computacional unificado de referências em geral e pronomes. 2.1 Referência Uma das funções da linguagem é estabelecer referência. Yule, em [Yule 96], define referência como um ato pelo qual um falante (ou escritor) usa a linguagem para capacitar um ouvinte (ou leitor) a identificar alguma coisa. Complementarmente, Larson [Larson 95], do ponto de vista semântico, define referência como uma relação entre expressões e objetos extra-lingüísticos, tais como pessoas e países. Em outras palavras, isto significa que por meio da linguagem (por exemplo, emprego de sintagmas nominais que descrevem entidades do mundo real), um falante ou escritor introduz pessoas, fatos, eventos ou ações no universo de discurso tencionando que seus ouvintes ou leitores sejam capazes de identificá-los. A partir da introdução de uma entidade (pessoa, fato, evento, ação) no universo do discurso, sua retomada pode ocorrer com o emprego de elementos de referência 2, tais como pronomes. Estes são, ao mesmo tempo um recurso estilístico, 2 Koch, em [Koch 89], define estes elementos como os itens da língua que não podem ser interpretados semanticamente por si mesmos, mas remetem a outros itens do discurso necessários a sua interpretação.

15 6 evitando a repetição de uma expressão já mencionada e um recurso de coesão textual, cuja função é estabelecer relações textuais Tipos de referência A referência pode ser classificada, segundo Halliday & Hasan (apud [Koch 89]), como: situacional ou exofórica: quando a remissão é feita a algum elemento da situação comunicativa; e textual ou endofórica: quando o referente 3 se acha expresso no próprio texto. Em se tratando de uma referência endofórica ou textual, ela ainda pode ser classificada como: anáfora: quando o referente aparece no texto antes do elemento de referência; ou catáfora: quando o referente vem após o elemento de referência. A tabela 1 ilustra a classificação citada. TIPO DE REFERÊNCIA REFERÊNCIA SITUACIONAL OU EXOFÓRICA REFERÊNCIA TEXTUAL ANAFÓRICA REFERÊNCIA TEXTUAL CATAFÓRICA EXEMPLO 9RFrQmRVHDUUHSHQGHUiGHWHUOLGRHVWHDQ~QFLR 3DXOR H -RVp VmR H[FHOHQWHV DGYRJDGRV (OHV VH IRUPDUDPQD$FDGHPLDGR/DUJRGH6mR)UDQFLVFR 5HDOL]DUD WRGRV RV VHXV VRQKRV PHQRV HVWH R GH HQWUDUSDUDD$FDGHPLD Tabela 1: Classificação de Referências (exemplos transcritos de [Koch 89]) elemento de referência 3 como referente entenda-se a entidade (pessoa, objeto, coisa) a que se remete por meio de um

16 Co-referência Greimas, em [Greimas 89], define co-referência como a relação que dois signos lingüísticos (idênticos ou diferentes) mantêm entre si, quando situados em dois lugares (contíguos ou distanciados) da cadeia falada, remetem a um mesmo objeto extra-lingüístico. [Perini 95]): Para ilustração considere as seguintes sentenças (ambas são citadas em (1) 5LFDUGRGLVVHTXH3HGURREHOLVFRX (2) 5LFDUGRGLVVHTXH3HGURVHSHQWHLDFRPPDQWHLJD Em (1), o pronome o pode ser entendido como referindo-se a Ricardo. Do mesmo modo em (2), se pode ser entendido como referindo-se a Pedro. Portanto, existe co-referência entre Ricardo e o em (1), e Pedro e se, em (2). Segundo Perini em [Perini 95], as condições que governam a coreferência de pronomes com os demais sintagmas nominais da oração são surpreendentemente complexas, e a tentativa de explicitá-las tem sido um dos grandes temas de pesquisa em sintaxe e semântica nos últimos anos Funções referenciais de pronomes Quanto as funções referenciais de pronomes faz-se aqui uma distinção importante. Pronomes referenciais podem exercer uma função dêitica ou uma função anafórica. Corrêa, em [Corrêa 99], conceitua estas funções como segue: função dêitica: quando o referente não foi previamente introduzido no discurso ou quando não é possível identificá-lo sem recorrer a informação contextual, não lingüística; e

17 8 função anafórica: é desdobrada nas funções de manter e de alterar referência previamente introduzida no discurso. Para ilustrar esta diferença, considere os seguintes exemplos: (3) 0iULRIRLjSDGDULD(OHYROWDGHQWURGHTXLQ]HPLQXWRV (4) (XIXLDRSDUTXHRQWHP No exemplo (3) o pronome ele tem função anafórica, rementendo a entidade Mário previamente introduzida. No exemplo (4), a identificação do referente do pronome eu depende da identificação do contexto da enunciação, com identificação do falante ou escritor Relações anafóricas Conforme já mencionado uma anáfora é uma relação discursiva que ocorre quando um referente é introduzido e, subseqüentemente, é retomado por meio de algum elemento de referência, tal como um pronome. Hirst, em [Hirst 81], apresenta uma extensa classificação para relações e termos anafóricos. Note-se, entretanto, que alguns autores, como Renkema, em [Renkema 93], limitam a retomada anafórica ao emprego de pronomes. Contudo, na área de PLN, o termo é geralmente empregado em sentido mais amplo, englobando outras espécies de relações anafóricas (por exemplo, a retomada por expressão sinônima, como em A filha de Maria está doente, por isso a garota não veio à escola hoje ) sendo usual o emprego da expressão anáfora pronominal para distinguir a esta de outras espécies de anáforas Anáfora: ponto de vista técnico Do ponto de vista técnico uma anáfora é composta por um antecedente e um termo anafórico. Termo anafórico e antecedente são co-referentes. Em (5) temos o pronome ele desempenhando o papel de termo anafórico e João como seu antecedente.

18 9 (5) -RmRQmRIRLjHVFROD(OHHVWDYDGRHQWH denominado resolução. O processo de determinação do antecedente de um termo anafórico é Resolução de anáforas Do ponto de vista computacional, a problemática associada com a resolução de anáforas faz-se perceber quando o conjunto de candidatos a antecedente é grande, e um processo de decisão precisa ser aplicado para escolher um, dentre os candidatos possíveis, como o antecedente. Os conhecimentos relevantes para determinação de antecedentes tem sido tema de investigação sob diferentes enfoques e com diferentes objetivos, em áreas como lingüística, ciências cognitivas e PLN. Para uma introdução geral, considere o seguinte exemplo, extraído de [Coulson 95], p. 94. D $QDYLDMRXQDVIpULDVFRP0DUFRH6LPRQ E (ODIRLSDUDDSUDLDSDUDGHVFDQVDUSRUGXDVVHPDQDV F 0DUFR WLQKD HQFDUUHJDGRVH GH WRGRV RV SUHSDUDWLYRV HOH WLQKD UHVHUYDGR SDUD HOHV XPY{RTXHSDUWLDjVTXDWURGDWDUGH G 4XDQGRHOHVFKHJDUDPDRDHURSRUWRXPDDHURPRoDGLVVHDHOHVTXH RQHYRHLURHVWDYD DWUDVDQGRDSDUWLGDGHVHXDYLmR H 'HSRLVGHXPDORQJDHVSHUDHOHVILQDOPHQWHHPEDUFDUDPQRDYLmR I $QDGHXRVSULPHLURVSDVVRVRQGHRSLORWRHVWDYDHVSHUDQGRSDUDHQFRQWUiORV J 2Oi HODGLVVH (XHVSHURTXHQyVSRVVDPRVSDUWLUQHVVHQHYRHLUR K (XJDUDQWRTXHQmRKDYHUiSUREOHPDV YHLRDUHVSRVWD Analisando o exemplo, sem intenção exaustiva, para resolver o pronome ela, em (b), pode-se fazer uso de diferentes informações. Considerando-se todos os SNs em (a), a saber Ana, férias, Marco e Simon, conhecimento de gênero nos seria útil, permitindo a eliminação de Marco e Simon da lista de possíveis

19 10 antecedentes e, da mesma forma, conhecimento de número permitiria a eliminação de férias. Adicionalmente, pode-se utilizar informação de saliência de entidades: Ana ocupa a posição de sujeito da sentença, o que a torna mais saliente que os demais SNs. Para interpretar adequadamente, o pronome eles em (c), por outro lado, é necessário identificar o conjunto Ana + Marco + Simon. Coulson, em [Greene 95], distingue as fontes de informação para resolução de anáforas como lingüísticas e não-lingüísticas. Como informações lingüísticas cita gênero, número, sintaxe e informação lexical. Entre as não lingüísticas foco, scripts e conhecimento de mundo. 2.2 Uma estrutura para resolução de referências Nesta seção, apresenta-se uma arquitetura proposta por Popescu-Belis e Robba, em [Popescu-Belis 97], que ilustra vários elementos que podem fazer parte de um sistema computacional cuja finalidade é processar referências. O objetivo é comentar e deixar claras para o leitor várias etapas de análise que podem estar envolvidas no processamento computacional de referências. A arquitetura formulada por estes autores é apresentada na figura 1. Serve tanto para resolução de pronomes como referências em geral. Na concepção de anáfora, uma relação textual, existe um antecedente e um termo anafórico, que depende da descrição textual do antecedente para ser resolvido. O antecedente, por sua vez, pode fazer referência a um objeto extra-textual. Tendo por base trabalhos recentes que buscam unificar estas duas situações (oferecendo uma taxonomia de classes de expressões de referência), os autores desenvolveram uma arquitetura genérica contemplando ambas as situações. A arquitetura será descrita e comentada, a seguir.

20 11 Mundo Real TEXTO ---ER ER 2 ---ER ER ER Controlador (M2) Módulo de Resolução (M1) CONJUNTO DE ENTIDADES Ativação OUTRA MODALIDADE per per per per Outros Módulos (Mx) Representação do mundo real COMPUTADOR Conhecimento Figura 1: Estrutura geral de um sistema de resolução de referência [Popescu-Belis 97] Pode-se observar, na figura 1, que Popescu-Belis e Robba procuraram deixar claros vários aspectos importantes a serem considerados no tratamento de expressões de referência por sistemas computacionais. A primeira consideração a ser feita é que eles buscaram definir uma arquitetura aberta, onde as entidades candidatas a referência podem provir de diferentes entradas no sistema, como uma entrada textual, onde o texto conteria as entidades e expressões de referência a serem resolvidas, ou algum outro tipo de entrada, como um click de mouse sobre um objeto num cenário. Na estrutura de Popescu-Belis e Robba: ER i : indica uma expressão de referência localizada no texto. per i : é uma pseudo-expressão de referência (no caso de a entrada de dados ser multi-modal; a referência poderia ocorrer, por exemplo, a partir de um click de mouse sobre um objeto na tela).

21 12 M1: módulo que seleciona expressões de referência do texto, associando cada expressão à estrutura da entidade própria no conjunto de entidades. Pode associar uma ER a uma entidade existente ou criar uma nova entidade. M2: módulo que controla o conjunto das entidades, atualizando sua ativação ou saliência. Note-se que os módulos M1 e M2 são os responsáveis pela resolução de referências. O módulo M1 faz a associação de uma ER com a estrutura da entidade com a qual se encontra relacionada. O módulo M2 é responsável pela manutenção da saliência das entidades, podendo avaliar esta saliência utilizando diferentes abordagens (nos capítulos 3, 4 e 5 são apresentados meios pelos quais a saliência pode ser medida). 2.3 Considerações Neste capítulo, conceituou-se referência e co-referência, descreveram-se funções referenciais que podem ser assumidas por pronomes, detalharam-se relações anafóricas, e procedeu-se uma análise preliminar de diferentes conhecimentos que podem ser empregados para a resolução de referências pronominais anafóricas pessoais, introduzindo-se o leitor na questão da resolução de referências. No capítulo a seguir, serão descritas estratégias computacionais para resolução de anáforas encontradas na literatura de Processamento de Linguagem Natural. Essas abordagens foram testadas com textos na língua inglesa e, para as mesmas, são mencionados os resultados relatados.

22 3 ABORDAGENS COMPUTACIONAIS PARA RESOLUÇÃO DE ANÁFORAS PRONOMINAIS O objetivo deste capítulo é apresentar e explorar diferentes enfoques e idéias identificadas na literatura, com respeito a resolução de pronomes. 3.1 A abordagem de Tetsuya Nasukawa para Resolução de Pronomes Nasukawa, em [Nasukawa 94], apresenta uma abordagem que procura explorar conhecimentos que possam ser obtidos a partir do texto que será analisado. Afirma que é possível extrair informações de textos coerentes que auxiliem na resolução de referências pronominais. Tendo em vista que a aquisição de conhecimento é uma característica que limita um sistema, Nasukawa sugere que, ao invés de utilizar conhecimento externo, aplique-se um algoritmo que extraia informações do próprio texto, as quais possam colaborar na tarefa de identificação de antecedentes de pronomes e, desta forma, contribuam para melhorar o desempenho do sistema nesta tarefa. Nasukawa identificou três fatores para medir a saliência 4 relativa de sintagmas nominais introduzidos no discurso, e conduziu um experimento descrevendo os resultados obtidos com a aplicação dos mesmos. A seguir apresentam-se os critérios propostos pelo autor para medir a saliência de diferentes sintagmas nominais introduzidos no discurso e os resultados daquele experimento. 4 a saliência de um sintagma nominal representa o quanto ele é o centro de atenção para um ouvinte ou leitor, conferindo maior ou menor probabilidade de referenciação posterior mediante emprego de pronomes

23 Critérios propostos a) Collocation Patterns (padrões de colocação) Segundo Nasukawa, uma palavra tem, geralmente, um sentido unificado dentro de um texto. Partindo desta idéia, ele defende que padrões de colocação dentro de um texto fonte podem fornecer dados valiosos na identificação de referentes de pronomes. Para ilustrar a aplicabilidade de tal fator, ele supõe que, em um texto, seja encontrada a sentença He moved his residence. Esta ocorrência permitirá inferir que a palavra residence pode ser objeto do verbo move. Assim, no momento de avaliar referências no texto, se uma outra sentença como The castle in Camelot remained the residence of the king until 536 when he moved it to London fosse encontrada, este critério permitiria atribuir uma preferência ao candidato residence. b) Freqüência de repetição em sentenças precedentes Nasukawa utilizou, como fundamento para este critério, a idéia apresentada na abordagem de Centering para resolução de pronomes de Brennan et al., em [Brennan 87] 5, segundo a qual um objeto em foco é um candidato mais provável a pronominalização. Estendeu esta idéia, supondo que um sintagma nominal em foco possa ser referido por uma descrição definida antes de ser pronominalizado. Para uso de tal critério, o autor faz uma busca por palavras com o mesmo lema, nas sentenças precedentes à ocorrência da pronominalização. c) Posição sintática Segundo Hobbs (apud [Nasukawa 94]), uma regra heurística favorecendo sujeitos sobre objetos é bastante útil para o inglês. Visando atribuir uma preferência por posição sintática sem necessidade de recorrer a um processamento sintático mais complexo, Nasukawa atribui preferência a um candidato na sentença mais próxima, ou ao candidato mais próximo do início da mesma sentença. 5 Esse trabalho é apresentado e discutido no capítulo referente à teoria de Centering

24 Descrição do experimento Nasukawa realizou um experimento com as seguintes características: 1. Corpus de teste: manuais técnicos de computadores (normalmente antecedentes explícitos); 2. Pronomes considerados: pronomes de terceira pessoa; 3. Número de pronomes no corpus: 112; 4. Algoritmo básico: 1º passo: selecionar os sintagmas nominais candidatos a antecedente de um termo anafórico; 2º passo: verificar concordância de gênero e número filtrando candidatos impróprios; 3º passo: aplicar os critérios propostos no estabelecimento de preferências na determinação do antecedente Resultados do experimento O experimento apresentou bons resultados: uma taxa de acerto do antecedente de 93,8% (105 das 112) ocorrências. Os critérios selecionais propostos pelo autor foram aplicados em 84 casos e a tabela 2 resume a participação de cada critério na seleção do antecedente para um pronome. Note-se que, quando aplicável, a existência de colocação similar sempre atribuiu preferência selecional ao antecedente correto. Número de casos em que o antecedente correto foi selecionado Posição Sintática 69 (82,1%) Freqüência de Repetição 51 Existência de colocação similar (60,7%) 22 (26,2%) Número de casos em que o antecedente errado foi selecionado 15 (17, 9%) 22 (26,2%) 0 (0%) Número de casos sem qualquer informação válida 0 11 (13,1%) 62 (73,8%) Tabela 2: Correlação entre seleção correta e seleção de acordo com cada tipo de preferência [Nasukawa 94]

25 A Abordagem de Mitkov para Resolução de Pronomes Mitkov, em [Mitkov 97; Mitkov 98], apresenta um conjunto de heurísticas para identificar antecedentes de pronomes, estabelecidas com base em investigações em corpus. A seguir serão apresentadas as características dos experimentos por ele realizados e os resultados obtidos Características dos experimentos Os experimentos apresentados em [Mitkov 97] e [Mitkov 98] usam a mesma estratégia para resolução de pronomes, diferindo apenas o conjunto de heurísticas utilizadas para avaliação dos candidatos a antecedente. Os experimentos descritos nesses artigos têm as seguintes características: O pré-processamento do texto é limitado ao uso de um rotulador de categorias gramaticais 6 de palavras e à aplicação de regras simples para a identificação de sintagmas nominais 7. Para seleção dos candidatos a antecedente é considerado o limite de duas sentenças anteriores ao termo anafórico, com filtragem daqueles que discordam em gênero ou número deste último. Cada candidato remanescente é avaliado segundo diversos critérios (heurísticas) estabelecidos, com atribuição de pontuação, de acordo com a satisfação do critério pelo candidato. O candidato proposto como antecedente é aquele que atinge maior pontuação total na soma das pontuações dos critérios. Os critérios que selecionam o antecedente foram identificados empiricamente a partir da análise de corpus efetuada pelo autor. 6 Substantivo, adjetivo, verbo, pronome,... 7 São exemplos de sintagmas nominais: João, ele, o cachorro de João.

26 Critérios estabelecidos a) Preferência por sintagmas nominais definidos sobre sintagmas nominais indefinidos Mitkov considera como sintagmas nominais definidos aqueles precedidos por artigo definido, por pronomes possessivos ou por demonstrativos. b) Preferência por sintagmas nominais representando o tema Sintagmas nominais em sentenças prévias que representam o tema, são melhores candidatos a antecedentes. c) Preferência por termos específicos da área do corpus Sintagmas nominais representando termos na área do corpus são mais prováveis de serem antecedentes do que sintagmas nominais que não são específicos da área. d) Verbos de indicação Se o verbo é membro do conjunto {discuss, present, illustrate, identify, summarise, examine, describe, define, show, check, develop, review, report, outline, consider, investigate, explore, assess, analyse, synthesise, study, survey, deal, cover}, então considerar o primeiro sintagma nominal que o segue como o antecedente preferido. e) Sintagmas nominais de indicação Se o substantivo principal do sintagma nominal precedendo o verbo é chapter, section ou table, então considerar o sintagma nominal seguindo o verbo como o antecedente preferido. f) Reiteração lexical Itens lexicalmente reiterados são candidatos prováveis a antecedente. Estes itens incluem sintagmas nominais sinônimos que podem ser precedidos por artigos definidos ou demonstrativos e também uma seqüência de sintagmas nominais

27 18 com o mesmo substantivo principal (por exemplo, toner bottle, bottle of toner, the bottle). g) Preferência por padrões de colocação É dada preferência a candidatos que têm padrão de colocação idêntico a um pronome. Mitkov utiliza esta preferência restrita aos modelos substantivo/pronome, verbo ou verbo, substantivo/pronome. h) Distância referencial Em sentenças complexas, sintagmas nominais na cláusula prévia (atualmente, o autor usa heurísticas simples para identificar cláusulas em uma sentença complexa, mas não as especifica nos artigos) são melhores candidatos a antecedente de uma anáfora na cláusula subseqüente. Depois aparecem os sintagmas nominais situados 2 sentenças atrás, e por último, sintagmas nominais situados 3 sentenças atrás. i) Preferência por sintagmas nominais não preposicionais A um sintagma nominal não preposicional é dada uma preferência mais alta que a um sintagma nominal que é parte de uma locução preposicional. j) Referência imediata Em manuais técnicos, o vestígio de referência imediata pode ser útil na identificação do antecedente. A heurística usada é a seguinte: em construções da forma... (You) V 1 NP... con (you) V 2 it (con (you) V 3 it), onde con {and/ or/ before/ after}, o sintagma nominal antes de V 1 é o mais provável candidato a antecedente do pronome it imediatamente seguindo V 2 e lhe é, por isso, dada preferência Exemplo de aplicação dos critérios Supondo a sentença Identify the drawer i by the lit paper port LED and add paper to it i, extraída de [Mitkov 98], a pontuação para the drawer fica como mostrado na tabela 3.

28 19 Critério Pontuação Preferência por sintagmas nominais definidos 1 Preferência a sintagmas nominais representado o tema 0 Preferência por Termos específicos da área do corpus 1 Verbos de indicação 1 Reiteração lexical 0 Colocação 0 Distância referencial 2 Sintagma nominal não preposicional 0 Referência imediata 2 TOTAL 7 mostrado na tabela 4: Tabela 3: Pontuação para the drawer [Mitkov 98] Enquanto isso, a pontuação de the lit paper port LED fica como Critério Pontuação Preferência por sintagmas nominais definidos 1 Preferência a sintagmas nominais representado o tema 0 Preferência por termos específicos da área do corpus 1 Verbos de indicação 0 Reiteração lexical 0 Colocação 0 Distância referencial 2 Sintagma nominal não preposicional 0 Referência imediata 0 TOTAL 4 Tabela 4: Pontuação para the lit paper port LED [Mitkov 98] 3.3 A abordagem de Breck Baldwin O sistema CogNIAC, descrito em [Baldwin 95], utiliza oito regras para identificar antecedentes de pronomes. Estas regras são aplicadas em ordem, até que um antecedente para o pronome tenha sido selecionado.

29 Regras estabelecidas para identificação de antecedentes de pronomes a) Existência de um único antecedente possível na porção de discurso lida A regra é aplicada se há um único antecedente possível X (que satisfaça restrições de gênero e número) na porção lida do discurso. Neste caso, selecioná-lo como o antecedente. b) Reflexivo Se o termo anafórico é um pronome reflexivo, escolher o antecedente mais próximo na porção lida da sentença atual. c) Existência de um único antecedente possível considerando a sentença anterior e a sentença atual Se há um único antecedente possível X na sentença anterior e na parte analisada da sentença corrente, então escolher X como o antecedente correto. d) Pronomes possessivos Se o termo anafórico é um pronome possessivo e há uma única cadeia de caracteres igual antecedendo-o na sentença anterior, escolhê-la como antecedente. e) Existência de um único candidato possível na sentença atual Se há um único antecedente possível na porção lida da sentença corrente, escolhê-lo como antecedente. f) Sujeito único/ Pronome sujeito Se o sujeito da sentença anterior contém um único antecedente possível X, e o termo anafórico é o sujeito desta sentença, então escolher X como o antecedente. g) Escolher o Cb Se há um Cb X na cláusula finita corrente que é também um candidato a antecedente, então escolher X como o antecedente.

30 21 h) Escolher o antecedente mais recente Escolher o antecedente potencial mais recente no texto (isto é, aquele mais próximo do termo anafórico, satisfazendo restrições de gênero e número). 3.4 O algoritmo de Lappin e Leass Lappin e Leass, em [Lappin 94], apresentam um algoritmo para resolução de anáforas pronominais que considera a estrutura sintática da sentença e propõe medidas de saliência para entidades baseada na função desempenhada pela mesmas Características do algoritmo 1. Baseia-se em medidas de saliência derivadas da estrutura sintática associada a um modelo dinâmico simples do estado atencional O algoritmo identifica tanto antecedentes intra-sentenciais, quanto intersentenciais. 3. Não emprega condições semânticas, além daquelas implícitas na concordância de gênero e número, nem emprega conhecimento de mundo, na avaliação dos candidatos a antecedente. Não modela a estrutura intencional ou estrutura global do discurso Características do experimento 1. Corpus de teste: manuais de computador; 2. Pronomes considerados: pronomes de terceira pessoa; 3. Número de pronomes no corpus: 360; 8 Na seção 4.3 (capítulo a seguir), são apresentadas as conceituações de estado atencional, estrutura lingüística e estrutura intencional (modelo de estruturação de discurso proposto por Grosz e Sidner)

31 Módulos componentes 1. Um filtro baseado em sintaxe para eliminar possíveis ligações anafóricas entre pronomes e SNs. 2. Um filtro para eliminar antecedentes pela verificação da concordância de gênero, número ou pessoa entre pronome e SN. 3. Um módulo para identificar pronomes pleonásticos. 4. Um algoritmo para vincular antecedentes a pronomes recíprocos ou reflexivos dentro da mesma sentença. 5. Um módulo que atribui valores a vários parâmetros de saliência relacionados a um SN (quais sejam: função gramatical, paralelismo de funções gramaticais, freqüência de menção, proximidade e recentidade da sentença). A hierarquia de função gramatical atribui valores de saliência conforme as seguintes regras de avaliação: - sujeitos têm peso maior que não sujeitos; - objetos diretos têm peso maior que outros complementos; - argumentos de um verbo têm peso maior que adjuntos; - substantivos núcleo têm peso maior que complementos de substantivos núcleo. 6. Um procedimento de decisão para selecionar o elemento preferido de uma lista de candidatos a antecedente para um pronome Resultados do experimento 1. O algoritmo atingiu uma taxa de acerto do antecedente de 86%. 2. Com melhorias no algoritmo, correspondentes à modelagem estatística de informações semânticas e relações do mundo real, o aumento da taxa de acerto do antecedente foi de somente 2%.

32 Considerações Neste capítulo foram descritas diferentes propostas encontradas na literatura para resolução de pronomes, com objetivo de identificar conhecimentos úteis e modelos de processamento. Como características similares, estas estratégias apresentam: - filtro por gênero/número de candidatos a antecedente; - consideração de recentidade; - emprego de alguma medida de saliência para classificar as entidades candidatas a antecedente de um termo anafórico; - pouco ou nenhum emprego de conhecimento semântico mais elaborado. No capítulo seguinte, procede-se uma introdução à questão da estrutura do discurso, com revisão de trabalhos que abordam a relevância da identificação das sentenças prévias significativas para processamento de discurso subseqüente. Como o processamento computacional de anáforas inclui a adoção de uma representação do contexto anterior, no qual encontram-se as entidades candidatas a antecedente de um termo anafórico, e a identificação da saliência destas entidades, são revisadas propostas que contemplam estas questões.

33 4 RESOLUÇÃO DE ANÁFORAS E ESTRUTURA DO DISCURSO Diversos autores têm apontado que uma descrição apropriada da estrutura do discurso é importante para determinar as sentenças relevantes no processamento de um determinado ponto do discurso ([Allen 94], [Grosz 86], [Walker 98]). Como processar um discurso inclui também resolver referências anafóricas que surjam, por conseqüência, é importante, no processo de resolução de referências, o conhecimento da estrutura do discurso. Russel, em [Russel 95], afirma que, para se chegar a uma compreensão do discurso, ao menos seis tipos de conhecimento são relevantes, a saber: - conhecimento geral sobre o mundo; - conhecimento geral sobre estrutura de discurso coerente; - conhecimento geral sobre sintaxe e semântica; - conhecimento específico sobre a situação sendo discutida; - conhecimento específico sobre crenças dos personagens; - conhecimento específico sobre as crenças dos falantes. Neste capítulo explorar-se-á a questão da estrutura de discurso. Com intuito de realizar uma introdução a diferentes questões relativas ao processamento de discurso presentes na literatura, neste capítulo comentam-se a proposta de estrutura de discurso de Grosz e Sidner [Grosz 86] e uma reestruturação desta proposta, conduzida por Walker [Walker 98]. Em detalhe maior, apresentam-se aspectos relacionados a importância de uma descrição adequada da estrutura do discurso para a interpretação de referências anafóricas.

34 Conceitos básicos Discurso Em linhas gerais, discursos podem ser compreendidos como o resultado da produção lingüística de enunciados por escritores ou falantes, com a respectiva formação de textos escritos ou discursos falados. Entretanto, esta caracterização simples não fornece o detalhe suficiente sobre como discursos são estruturados. Na verdade, o que realmente parece necessário, é uma descrição de como um texto ou diálogo se estrutura e como determinados fenômenos discursivos poderiam ser analisados ou modelados. Grosz, em [Grosz 86], conceitua um discurso como um agrupamento de segmentos coerentes, onde cada segmento colabora para atingir o propósito global do discurso Enunciado Lyons, em [Lyons 81], página 157, afirma que aqueles que distinguem sentenças e enunciados concordam de um modo geral que as primeiras, diferentemente dos últimos, são entidades abstratas independentes de contexto, no sentido de não estarem vinculadas a nenhum espaço ou tempo particular: elas são unidades do sistema lingüístico a que pertencem Segmento Um segmento é um agrupamento de enunciados. Em [Allen 94] encontrou-se as seguintes definições para segmento : - é um trecho de um discurso no qual as sentenças estão falando do mesmo tópico; ser encontrada em [Lyons 81] 9 Uma discussão mais detalhada sobre significado de sentença e significado de enunciado pode

35 26 - é uma seqüência de sentenças, possivelmente interrompidas por subsegmentos, cujo aspecto mais importante é exibir uma estrutura hierárquica. 4.2 Sobre a necessidade de uma descrição da estrutura do discurso Segundo Allen, em [Allen 94], o estudo e descrição da estrutura do discurso pode oferecer diversas informações úteis no processamento de linguagem natural. O conhecimento desta estrutura e a identificação de mecanismos computacionais que possam ser usados para o seu reconhecimento e manipulação, pode ser importante na tarefa de segmentação do discurso, na identificação das intenções expressas em cada segmento do discurso e das relações intencionais entre estes segmentos, na interpretação de pronomes e elipses e no reconhecimento de aspectos temporais do discurso. Segundo Passonneau e Litman, em [Passonneau 97], A necessidade de modelar a relação entre estrutura do discurso e as características lingüísticas dos enunciados é quase universalmente reconhecida na literatura sobre discurso. Contudo, há fraco consenso sobre o que as unidades da estrutura do discurso são, ou critérios para reconhecê-las e gerá-las Considerações de Passonneau e Litman sobre segmentação de discurso Uma observação de diferentes pesquisadores é que discursos são compostos por segmentos. Em teorias sobre estruturação de discurso, como a de Grosz e Sidner e a de Walker, revisadas a seguir na seção 4.3, a questão da segmentação é tida como relevante, e uma segmentação adequada, pode auxiliar na correta interpretação de expressões anafóricas. Na teoria de Grosz e Sidner, por exemplo, as autoras argumentam que diferentes tipos de expressões anafóricas têm princípios de localidade

36 27 diferentes e, usualmente, o termo antecedente de pronomes ocorre dentro do mesmo segmento. Tendo Passonneau e Litman, em [Passonneau 97], procedido uma revisão da literatura de lingüística computacional relativa à questão da segmentação de discursos, verificaram que muitas propostas ainda são baseadas em estudos bastante informais, sendo recentes as tentativas de avaliação quantitativa de como características de enunciados correlacionam-se com segmentação de discurso. Partindo da hipótese que tecnologias de linguagem natural podem interpretar discurso mais sensivelmente, e podem gerar um discurso mais compreensível se obtiverem vantagem dessa ação combinada entre segmentação e dispositivos lingüísticos, as autoras conduziram um experimento sobre segmentação de discurso, com a finalidade de gerar uma proposta mais formal de como diferentes fenômenos, tais como Cue phrases, prosódia e referência nominal, restringem ou são restritos pela estrutura do discurso. Primeiramente, realizaram um experimento com sujeitos humanos, no qual solicitaram que estes identificassem limites de segmentos. Avaliando os resultados verificaram um modelo extremamente significativo de concordância sobre limites de segmentos e concluíram ser possível executar segmentação do discurso confiável, usando a intenção do falante como critério. Partindo de hipóteses pré-existentes na literatura, avaliaram diferentes dispositivos lingüísticos e verificaram que, com o uso de múltiplas fontes de conhecimento (sintagmas nominais referenciais, cue words e pausas), era possível chegar a uma performance semelhante à humana. Para realização do experimento desenvolveram algoritmos usando cada tipo de dispositivo lingüístico em isolado, propondo e avaliando métodos para combinálos.

37 28 O que define segmentos de discurso e que espécies de relações assinalar entre segmentos não são, contudo, questões fechadas. A natureza de qualquer interação entre a estrutura do discurso e dispositivos lingüísticos depende, segundo as autoras, do modelo de discurso que é adotado e dos tipos de dispositivos lingüísticos que são investigados. No experimento realizado, as autoras não solicitaram a identificação de relações hierárquicas, tendo em vista ainda ser questionável a hipótese de que o discurso possui uma estrutura de árvore. 4.3 Estruturação do discurso: propostas e perspectivas A proposta de Grosz e Sidner Grosz e Sidner em [Grosz 86] propuseram uma teoria computacional que apresenta um conjunto de premissas para o processamento dos enunciados em um discurso. Nessa teoria, três estruturas distintas presentes em um discurso são descritas: a estrutura lingüística, o estado atencional e a estrutura intencional. Embora distintas, estas estruturas são inter-relacionadas e servem para coordenar o processamento do discurso. As autoras argumentam que um bom modelo da estrutura do discurso deve dar conta de descrever diferentes fenômenos que ocorrem em discursos reais, como interrupções, explicação do uso de certos tipos de expressões de referência e de expressões que afetam a segmentação do discurso e estrutura. De forma geral, os elementos básicos de cada uma dessas estruturas são: Estrutura lingüística: compõe-se de enunciados. Enunciados se agregam naturalmente e formam segmentos.

38 29 Estrutura intencional: inclui os propósitos relevantes do discurso expressos em cada um de seus segmentos lingüísticos, bem como a relação entre esses propósitos. Estado atencional: contempla os objetos, propriedades e relações que são salientes em cada ponto do discurso. Registra, de forma abstrata, o foco de atenção dos participantes do discurso. Particularmente importante para nós é a especificação do estado atencional, modelado nessa teoria como uma pilha, que determina a saliência das entidades num determinado ponto do discurso, afetando a interpretação de pronomes e outros termos referenciais Pespectivas computacionais Nesta proposta, o estado atencional fornece os elementos necessários para usar as informações disponíveis nas outras estruturas na geração e interpretação de enunciados, armazenando informação de enunciados prévios, essencial para o processamento de enunciados subseqüentes. A estrutura lingüística pode oferecer: (1) informações sobre a estrutura do discurso pelo emprego de expressões lingüísticas, (2) indicações (talvez parciais) dos limites dos segmentos, pelo uso explícito de certas palavras ou expressões ou, implicitamente, por meio de pistas mais sutis como entonação (em discursos falados) ou mudança de tempo e modo, e (3) por meio de marcadores lingüísticos, indícios de alterações no estado atencional ou na estrutura intencional. Intenções estabelecem entre si certas relações estruturais que dão origem a uma representação interna da estrutura do discurso. Duas relações particularmente importantes, são: dominância e precedência de satisfação. Essas relações são assim conceituadas:

39 30 Relação de dominância: quando um propósito PSD1 de um segmento SD1 contribui para PSD2 de um segmento SD2 há uma relação de dominância entre intenções: PSD2 DOM PSD1 (PSD2 domina PSD1). Relação de precedência de satisfação: quando precisamos ter PSD1 satisfeito antes de PSD2 temos uma relação de precedência de satisfação: PSD1 PreSat PSD2. Esta segunda relação é particularmente importante para alguns tipos de discurso, como diálogos orientados a tarefa, onde a ordem em que um PSD é satisfeito pode ser relevante). Na pilha que modela o estado atencional, espaços de foco são associados a cada segmento de discurso (SD). A figura 2, extraída de [Grosz 86], representa, de forma abstrata, a relação entre essas diferentes estruturas. Segmentos de discurso Pilha dos espaços de foco Hierarquia de dominância SD1 SD2 SD3 Propriedades Objetos Relações PSD3 EF3 Propriedades Objetos Relações PSD1 EF1 PSD1 DOM PSD3 PSD1 DOM PSD2 Figura 2: Estrutura de Focalização [Grosz 86] O exemplo ilustra a pilha de espaços de foco quando o segmento de discurso SD3 está sendo processado. SD3 gera o espaço de foco EF3 que, além dos objetos, propriedades e relações que são salientes naquele segmento, contém também o

40 31 PSD3. Devido à hierarquia de dominância entre propósitos de segmentos de discurso, o espaço de foco EF1 permanece na pilha, pois PSD1 domina PSD3. O espaço de foco gerado por SD2 foi retirado da pilha, dado que seu propósito PSD2 não domina PSD3. Espaços de foco são colocados ou retirados da pilha atencional conforme informações disponíveis na estrutura lingüística ou na estrutura intencional. O empilhamento dos espaços de foco reflete a saliência relativa das entidades dado um particular estado atencional. Em vista da estrutura segmental proposta para discursos, Centering foi formulado como um modelo para ser aplicado em nível local, ou seja, dentro de segmentos. Sintagmas nominais completos e pronomes, segundo esta teoria, têm princípios de localidade diferentes. Uma das funções da estrutura de focalização é restringir a busca a possíveis referentes de sintagmas nominais completos e pronomes A proposta de Walker Walker, em [Walker 98], propõe a substituição da estrutura de pilha do estado atencional por um modelo de cache 10. Este modelo descreveria, por diferenças na coerência, e na carga de inferência exigida de um leitor ou ouvinte em determinadas situações (quando um enunciado é hierarquicamente recente a outro, mas não linearmente recente), que não são capturadas pelo modelo de pilha do estado atencional. Além disso, Walker propõe que a restrição de aplicar Centering somente dentro de segmentos deveria ser abandonada porque: (1) centros freqüentemente continuam além do limite de segmentos, (2) ouvintes percebem limites de segmentos em diferentes níveis de granularidade e (3) há fortes contrastes entre enunciados cujo 10 Uma cache é uma memória temporária usada para armazenar informação que está sendo usada correntemente por um processo computacional (apud [Walker 98])

41 32 enunciado prévio é linearmente recente e aqueles cujo enunciado prévio é hierarquicamente recente. Walker afirma que, da forma como a recentidade hierárquica é operacionalizada pelo modelo de pilha, não prediz quanto centros prévios são acessíveis e argumenta que integrando Centering com um modelo de estrutura global do discurso, simultaneamente soluciona estes problemas pela substituição do modelo de pilha pelo modelo de cache. Walker aponta que, no modelo integrado resultante: Centros são elementos da cache e o modelo de cache media a acessibilidade aos centros; Centros estão disponíveis além do limite de segmentos por default; Dificuldades no processamento são previstas para a interpretação dos centros cujos co-especificadores não são linearmente recentes; A granularidade da segmentação do discurso não tem efeito sobre o modelo. No modelo proposto há dois tipos de memória: a memória principal, que representa a memória de longo prazo, e a cache que representa a memória de trabalho. A memória principal é maior que a cache, mas é de acesso mais lento. A cache tem uma capacidade limitada, quase instantaneamente acessível. Walker assume as seguintes hipóteses para o modelo: tamanho da cache é limitado a duas ou três sentenças, ou aproximadamente sete proposições (segundo Walker, esta hipótese é baseada em descoberta de trabalhos prévios). A aplicação desta hipótese tem como resultado que um enunciado E i é linearmente recente para um enunciado E j quando ele ocorreu dentro dos últimos três enunciados.

42 33 Itens da cache podem ser retidos ou fornecidos para a memória principal. Itens na memória principal também podem retornar para a cache. Quando a cache recebe itens da memória principal ou novos itens, outros são deslocados para a memória principal, dado que a cache tem capacidade limitada. A determinação de quais itens deslocar é dada por uma política de substituição na cache. Walker observa que da forma como a recentidade hierárquica é operacionalizada pelo modelo de pilha, não prediz quanto centros prévios são acessíveis. Mostra este fato pelo contraste entre os exemplos detalhados a seguir: ([HPSOR (1) C:2N+DUU\(XWHQKRXPSUREOHPDTXHXKPLQKD²FRPDHFRQRPLDGHKRMHPLQKD ILOKDHVWiWUDEDOKDQGR (2) H: (XQmRFRQVHJXLRXYLUVHXQRPH (3) C: +DQN (4) H: 3URVVLJD+DQN (5) (a) C: EHPFRPRVHXXKPDULGR (b) (OHVWHPXPDFULDQoD (c) HHOHVWUD]HPDFULDQoDSDUDQyVWRGRGLDSDUDTXHFXLGHPRVGHOD ([HPSOR (1) C: 2N+DUU\(XWHQKRXPSUREOHPDTXHXKPLQKD²FRPDHFRQRPLDGHKRMHPLQKD ILOKDHVWiWUDEDOKDQGR (2) H: (XQmRFRQVHJXLRXYLUVHXQRPH

43 34 (3) C: +DQN H: 0HGHVFXOSHHXQmRSXGHRXYLUYRFr C: +DQN H: e+$1." C: 6LP. (4) H: 3URVVLJD+DQN (5) (a) C: EHPFRPRVHXXKPDULGR (b) (OHVWHPXPDFULDQoD (c) HHOHVWUD]HPDFULDQoDSDUDQyVWRGRGLDSDUDTXHFXLGHPRVGHOD interpretar que em 2. No exemplo 1, a expressão anafórica seu marido, é mais difícil de 4.4 Considerações Neste capítulo revisaram-se duas propostas de modelagem de discurso: uma de Grosz e Sidner, e outra de Walker. Em comum, as duas propostas têm o fato de contemplarem a questão da atualização de centros em discursos. No modelo de Grosz e Sidner, deve-se reconhecer interrupções e subsegmentos e gerenciar a acessibilidade das entidades mediante emprego de um mecanismo de pilha para o estado atencional. Mas, Walker argumenta que essa abordagem deveria ser abandonada, pois, quando ocorrem interrupções ou subsegmentos embutidos, a interpretação de expressões referenciais torna-se mais difícil, mesmo para seres humanos e, um modelo mais apropriado, em termos de coerência, seria o modelo de cache. Controvérsias a parte, o que qualquer um dos modelos busca e que é relevante para o tratamento de pronomes, é saber quais entidades são salientes em diferentes pontos em um discurso. O modelo de Grosz e Sidner parece mais sofisticado, exigindo reconhecimento de intenções, relações e segmentos e estas são, ainda, questões

44 35 que não têm um tratamento completo (ou talvez, adequado) do ponto de vista computacional. Passonneau e Litman ressaltam muito bem o quão incipientes são os dados e conclusões sobre como segmentar discursos e quais elementos avaliar para proceder essa segmentação. No capítulo a seguir, é apresentada a teoria de Centering, cuja preocupação é, justamente, a dinâmica da saliência das entidades, quais recursos dos quais se servir para identificar essa saliência, e qual a maneira mais coerente de interpretar expressões anafóricas.

45 5 CENTERING: ESPECIFICAÇÃO DO MODELO E DIREÇÕES DE PESQUISA A revisão apresentada aqui tem por base a publicação da revista Computational Linguistics de 1995 [Grosz 95], entretanto existem duas versões anteriores não publicadas que circularam entre pesquisadores (uma de 1983 e uma de 1986) e que suscitaram o desenvolvimento de pesquisas relacionadas. O capítulo inicia evidenciando as questões básicas vinculadas a Centering para, mais adiante, apresentar estudos relacionados à teoria relatados em textos científicos. 5.1 A Teoria de Centering Objetivo Centering foi proposta como uma teoria para modelar a coerência local de um discurso. Seus mentores argumentam que diferenças na coerência, correspondem em parte a demandas de inferência feitas por diferentes tipos de expressões de referência, dado um particular estado atencional. Em outras palavras, há uma relação entre (1) centro de atenção no discurso, (2) tipos de expressões de referência empregadas para retomar entidades mais centrais/menos centrais e (3) coerência percebida no discurso Modelo proposto pela teoria Do ponto de vista estrutural, um segmento de discurso é composto por enunciados. Enunciados possuem centros, que são entidades que ligam um enunciado a outros enunciados no segmento que o contém. Os centros de um enunciado podem ser classificados em: (1) Backward-Looking Center e (2) Forward-Looking Centers (Cf). O Backward-Looking Center (Cb) é uma entidade que estabelece uma ligação coerente com o enunciado prévio, sendo única para todo o enunciado que não

46 37 seja o primeiro de um segmento. Ao primeiro enunciado de um segmento, supõe-se não existir esta espécie de centro, dado que tal enunciado não estabelece um vínculo com um possível enunciado anterior, já que pertence a um segmento diferente. Os Forward-Looking Centers (Cf) se apresentam na forma de um conjunto. Constituem um conjunto de entidades, ordenadas segundo algum critério de saliência, que fornecem possíveis ligações para o próximo enunciado. A entidade mais altamente classificada entre os Forward-Looking Centers, é o próximo centro preferencial (Cp). Um critério usual para ordenação deste conjunto de entidades é a função gramatical: sujeito>objeto>outras. Considerando os centros assim conceituados, três diferentes tipos de relações são definidas para valer entre enunciados. Essas relações são expressas pelas transições center continuation, center retaining e center shifting, caracterizadas como: Center Continuation: o Cb de um enunciado E n+1 é o mesmo que o Cb de E n, e essa entidade é o elemento mais altamente classificado no Cf do enunciado E n+1 ; Center Retaining: o Cb do enunciado E n+1 é o mesmo que o Cb de E n, mas essa entidade não é o elemento mais altamente classificado no Cf de E n+1 ; e Center Shifting: o Cb de E n+1 é diferente do Cb de E n. duas regras: Além dos movimentos possíveis para centros, a teoria propõe também Regra 1: Se qualquer elemento de Cf(E n ) é realizado por um pronome em E n+1, então o Cb(E n+1 ) precisa ser realizado por um pronome também. Regra 2: Seqüências de CONTINUE são preferidas sobre seqüências de RETAIN, que são preferidas sobre seqüências de SHIFT.

47 38 seguir. Para ilustração dos movimentos de centro, considere o segmento 1, a Segmento de discurso 1 11 : -RDTXLP na tabela 5. E 1 : -RmRWHYHXPDSRUomRGHDERUUHFLPHQWRVSDUDRUJDQL]DUVXDVIpULDV E 2 : (OHQmRHQFRQWURXDOJXpPSDUDDVVXPLUVXDVUHVSRQVDELOLGDGHV(OH -RmR E 3 : (OHVROLFLWRXRQWHPD-RDTXLPTXHUHDOL]DVVHXPSURMHWR(OH -RmR E 4 : -RDTXLPRSHUWXUERXEDVWDQWHUHFHQWHPHQWHR -RmR E 5 : (OHWHOHIRQRXSDUD-RmRjVGDPDQKmQDVH[WDIHLUDGDVHPDQDSDVVDGD(OH No que se refere a este segmento, Cb, Cf e transições são representados E 1 : E 2 : E 3 : E 4 : E 5 : Cb = [?]; Cf = [João, uma porção de aborrecimentos, suas férias]; Transição = inexistente Cb= [João]; Cf =[João, alguém, suas responsabilidades]; Transição = CONTINUE Cb = [João]; Cf =[João, Joaquim, um projeto]; Transição = CONTINUE Cb = [João]; Cf =[Joaquim, João]; Transição = RETAIN Cb = [Joaquim]; Cf =[Joaquim, João, 5 da manhã, sexta-feira da semana passada]; Transição = SHIFT Tabela 5: Ilustração dos movimentos possíveis para o "centro" dos enunciados O segmento ilustra as transições CONTINUE, RETAIN e SHIFT. Observe que os enunciados E 1, E 2 e E 3 referem-se a João e João é a entidade mais altamente classificada no conjunto Cf. Em E 4 o centro Cb continua sendo João, mas João já não é a entidade mais altamente classificada no conjunto Cf, explicitando uma intenção de mudar o centro. Em E 5, a intenção de mudar o centro é efetivamente realizada e o Cb passa a ser Joaquim. 11 O exemplo original em inglês está no Anexo A. Embora, no exemplo original, a transição entre E1 e E2 não tenha sido nomeada como CONTINUE, aqui, tomando por base a extensão de Walker (vide capítulo 6, tabela 7) incluímos esta análise.

48 Extensões propostas e pesquisas relacionadas à Centering O algoritmo de Brennan, Friedman e Pollard Brennan, Friedman e Pollard, utilizando o formalismo de Centering e interpretando-o para resolução de pronomes, propuseram um algoritmo e um refinamento para as transições classificando SHIFTs em dois tipos. Argumentam que, não necessariamente, um falante produz discurso respeitando ao máximo essa estrutura, mas que um algoritmo que espera por esta espécie de comportamento tem mais sucesso que aqueles que dependem unicamente de recentidade ou paralelismo de função gramatical. O algoritmo foi implementado para um sistema que serve de interface para uma aplicação de consulta a uma base de dados utilizando linguagem natural. utilizado pelos autores: São pressuposições da aplicação do algoritmo de Centering no sistema faz parte do processador pragmático; o processador pragmático interage com o processador semântico que, entre outras coisas, computa representações de relações anafóricas intra-sentenciais; o processador semântico tem acesso a informações, dentre as quais, a estrutura sintática superficial dos enunciados. O refinamento proposto refere-se à transição SHIFT que passa a considerar também o fato do Cb(E n ) e Cp(E n ) serem iguais ou não. Com a inclusão dessa especificação, o ranking preferencial fica continuing > retaining > shifting > shifting-1. Na tabela 6 constam as transições segundo esta proposta.

49 40 Cb(E n ) = Cb(E n-1 ) Cb(E n ) Cb(E n-1 ) Cb(E n ) = Cp(E n ) Continuing Shifting Cb(E n ) Cp(E n ) Retaining Shifting-1 Tabela 6: Extensão de Brennan, Friedman e Pollard O algoritmo é composto de três fases: propor âncoras; filtrá-las; classificá-las e ranqueá-las Uma revisão da proposta de Kameyama para Centering intra-sentencial Kameyama, em [Kameyama 98], apresenta uma extensão ao modelo de Centering para tratar pronomes com antecedentes intra-sentenciais. Baseando-se em estudos de caso, propõe atualizações de centro seqüenciais e hierárquicas, dependendo da situação. Kameyama considera que essa é uma das extensões necessárias porque: modelos de Centering existentes lidam somente com discursos consistindo de sentenças simples; e não deixam claro como delimitar unidades de enunciado de atualização de centro e como processar enunciados complexos consistindo de múltiplas cláusulas. No artigo, Kameyama também sugere que duas hierarquias são importantes na dinâmica do centro - a ordenação por função gramatical sujeito>objeto>objeto2>outras e a ordenação por tipo de expressão nominal empregada - pronominal zero > pronome > sn definido > sn indefinido.

50 Observações de Sharon Cote Sharon Cote, em [Cote 98], afirma que, para a teoria de Centering efetivamente dar conta da modelagem da coerência local para uma dada linguagem, a seleção das características apropriadas para a Cf-template naquela linguagem é necessária. O termo Cf-template é introduzido por Cote para designar o conjunto ordenado das características, para uma dada linguagem, que determinam o ranking das entidades em Cf. Se lembrarmos a conceituação dada para Cf (seção 5.1.2), um conjunto de entidades, ordenadas segundo algum critério de saliência, o que Cote está afirmando é que há um conjunto de características para medir a saliência das entidades, e que estas características podem divergir, dependendo da língua analisada. Para a língua inglesa, um critério usual é a classificação por função gramatical (sujeito>objeto>outros). Segundo Cote, há limitações significativas com esta abordagem, e este não deveria ser o único critério avaliado e, talvez, nem o mais importante. Para Cote, algo como uma estrutura conceitual lexical poderia ser mais poderosa como bloco de construção de coerência local e, por isso, primitivas conceituais lexicais deveriam fazer parte da Cf-template para o inglês. Mais formalmente, Cote descreve a Cf-template como: Cf template(l) = (f 1,,f i ), onde l é a língua, e f 1,,f i, são as características relevantes para o ranking das entidades na língua l. Avaliar as características mais apropriadas para a ordenação do conjunto Cf, auxilia na determinação do tipo de transição que ocorreu entre dois enunciados.

51 42 Segundo Cote a teoria de Centering trabalhará como um modelo de coerência local para uma linguagem particular somente se nós selecionarmos as características apropriadas naquela linguagem para a Cf-template. Para Cote, Talvez, o elemento singular mais importante da teoria seja a idéia que entidades realizadas em um enunciado podem ser classificadas de acordo com sua probabilidade de ser o CENTRO do enunciado seguinte. A intuição é que certas características de um enunciado servem como guia para a estrutura atencional do segmento do discurso, do qual o enunciado é uma parte. Em particular, um falante projetará seu enunciado (E n ) não somente para incluir um ponto de continuidade com o enunciado prévio (E n-1 ) mas também para indicar quanto provável é que cada entidade representada em E será a fonte principal de continuidade (isto é, o backward-looking center- Cb) no próximo enunciado (E n+1 ). Partindo das suas observações, Cote estabelece que um modelo de funcionamento de Centering deve ter um conjunto ordenado das características f 1,, f i para uma linguagem particular l, avaliando as entidades em um enunciado particular E i, segundo essas características e determinando, assim, o conjunto Cf para o enunciado. Cote descreve o processo de criação de Cfs pela seguinte regra: Cf list (E i l ) = (e 1,,e i ) i tal que e((ex>ey) (f l (e x ) f l (e y ))). A regra estabelece, simplesmente, que as entidades realizadas em um enunciado são classificadas de acordo com um conjunto ordenado das características para aquela linguagem. Em outras palavras, pode-se dizer que, para um enunciado E, temos um conjunto de entidades que, após classificação com a Cf template relacionada com a linguagem, constituirá o conjunto Cf do enunciado.

52 Considerações de Craig Roberts sobre o lugar de Centering em uma teoria geral de resolução de anáforas A questão da resolução de anáforas vêm sendo trabalhada sob diferentes enfoques. Analisando Centering, Roberts, em [Roberts 98] ressalta que: Centering pressupõe algum tipo de localidade entre enunciados; oferece princípios para caracterização dos modelos preferidos de uso de pronomes; a localidade pressuposta, normalmente, vem sendo trabalhada focalizando sobre enunciados adjacentes. Todavia, segundo Roberts: apesar de Centering considerar adjacência entre enunciados, ela não é sempre necessária em relações anafóricas; já que a aplicabilidade dos princípios de Centering pressupõe localidade, a produção de hipóteses testáveis exige a caracterização da natureza e dimensões dessa localidade explicitamente; na teoria da estrutura do discurso de Grosz e Sidner (Seção 4.3.1), a localidade de enunciados é definida em termos de limites de segmentos de discurso; Para Roberts, contudo, há restrições lógicas, que não são trabalhadas na teoria de Centering ou na teoria de discurso de Grosz e Sidner, e que são necessárias para caracterizar quando a anáfora é possível. Cita que tais restrições ocorrem sendo importantes na formulação de uma teoria geral para resolução de anáforas.

53 Considerações Neste capítulo apresentou-se a teoria de Centering e investigações conduzidas por diferentes pesquisadores com respeito à mesma. Resumidamente, Centering estabelece para enunciados a existência de um Cb (Backward-Looking Center), um Cp (Próximo centro preferencial) e um conjunto Cf (Forward-Looking Centers). Estabelece também um conjunto de transições possíveis entre enunciados, com uma ordem de preferência entre elas. O conjunto Cf, deve ter suas entidades ordenadas segundo critérios de saliência. Para a língua inglesa, o critério mais usado têm sido o da função gramatical. Cote, contudo, defende que este é um fator que pode variar, dependendo da língua trabalhada e, mesmo para o inglês ele argumenta que uma estrutura conceitual lexical poderia oferecer melhores resultados. É possível, todavia, haver combinação de fatores na avaliação da saliência das entidades em um enunciado. Como argumento para o uso da função gramatical, o que têm sido alegado é que colocar alguma entidade na posição de sujeito, equivale a dar mais saliência a esta entidade no estado atencional. Ainda, Kameyama, tendo conduzido estudos de caso, afirma a necessidade de estender o modelo para tratamento de casos intra-sentenciais e de sentenças complexas. No capítulo a seguir, discute-se mais detalhadamente (mesmo que com a retomada de alguns conceitos já introduzidos) a apropriação dos fundamentos teóricos de Centering para uso na resolução de pronomes, com ênfase particular à questão da orientação a corpus.

54 6 APROPRIAÇÃO DOS FUNDAMENTOS TEÓRICOS PARA USO DE CENTERING NA RESOLUÇÃO DE PRONOMES Diferentes pesquisadores, como por exemplo Sidner, em [Sidner 83], Brennan et al., em [Brennan 87] e Grosz et al., em [Grosz 95], vêm apontando o fato de segmentos de discurso exibirem coerência local, e que o grau de coerência entre os enunciados de um segmento pode variar. A teoria de Centering [Grosz 95] busca descrever tal fenômeno e, para isto, propõe uma estrutura que relaciona três elementos básicos: discurso; e - o foco de atenção; - a escolha de expressões de referenciação por participantes de um - a coerência exibida por um segmento de discurso. Do ponto de vista estrutural, um segmento de discurso é composto por enunciados, que são as unidades sobre as quais a teoria trabalha. Para estas unidades, a teoria introduz o conceito de centros. Do ponto de vista técnico, os centros de um enunciado podem ser de dois tipos (ver seção 5.1.2): Backward-Looking Center (Cb) e Forward-Looking Centers (Cf). Três diferentes tipos de relações podem existir entre enunciados: center continuation, center retaining e center shifting, com a prioridade entre transições definida como: Continuing>Retaining>Shifting. A prioridade descreve a preferência de movimentos de centros em termos de coerência. Brennan et al., em [Brennan 87], propõem um refinamento para a transição center shifting, levando em conta as possibilidades de o Cb e o Cp de um enunciado E serem iguais ou não. Walker et al., em [Walker 98], acrescentam a notação Cb(E i-1 ) = [?] para os casos onde não existe Cb(E i-1 ) e sumarizam as transições

55 46 propostas em [Brennan 87] conforme a tabela 7. Esta sumarização leva a quatro transições (a saber, CONTINUE, RETAIN, SMOOTH-SHIFT e ROUGH-SHIFT), que nos fornecem a mobilidade da idéia de centro. Cb(E i ) = Cb(E i-1 ) Cb(E i ) Cb(E i-1 ) ou Cb(E i-1 )=[?] Cb(E i ) = Cp(E i ) CONTINUE SMOOTH-SHIFT Cb(E i ) Cp(E i ) RETAIN ROUGH-SHIFT Tabela 7: Transições de Centering [Walker 98] O segmento 1 a seguir, ilustra as transições de centro, de acordo com a sumarização da tabela 7, que inclui o refinamento da transição SHIFT. Segmento de discurso 1 (obtido em [Brennan 87]) 12 : E 1 : %UHQQDPGLULJHXP$OID5RPHR E 2 : (ODGLULJHPXLWRUiSLGR(OD %UHQQDQ E 3 : )ULHGPDQFRPSHWHFRPHODQRVILQVGHVHPDQDHOD %UHQQDQ E 4 : (ODIUHT HQWHPHQWHDGHUURWD(OD )ULHGPDQD %UHQQDQ Análise do Segmento: Trata-se de um exemplo construído, que ilustra as transições CONTINUE, RETAIN e SMOOTH-SHIFT. Brennan et al., utilizam este exemplo para justificar a inclusão do refinamento da transição SHIFT. Ressaltam que ela é importante para dar conta da vinculação de pronomes, em enunciados como E 4. seguir. No que se refere a este segmento, Cb, Cf e transições são ilustradas a E 1 : E 2 : E 3 : E 4 : Cb = [?]; Cf = [Brennan, Alfa-Romeo]; Transição = inexistente Cb= [Brennan]; Cf =[Brennan]; Transição = CONTINUE Cb = [Brennan]; Cf =[Friedman, Brennan, fins-de-semana]; Transição = RETAIN Cb = [Friedman]; Cf =[Friedman, Brennan]; Transição = SMOOTH-SHIFT 12 Exemplo original (na língua inglesa) apresentado no Anexo A

56 47 descritivo avaliado): Segmento de discurso 2 (extraído de um texto de um corpus E 1 : 2VEUDQFRVVmRPXLWRPDXV E 2 : (OHVPDWDUDPPXLWRVGRVQRVVRVFRPHVSLQJDUGDV(OHV RVEUDQFRV E 3 : 6H YLHUHPjDOGHLD RVEUDQFRV E 4 PDWHRVFRPDERUGXQDRV RVEUDQFRV E 5 : HOHVVmRPXLWRSHULJRVRVHOHV RVEUDQFRV Análise do segmento: trata-se aqui de um segmento onde se destacam várias transições CONTINUE. Observe que o centro de cada enunciado Cb (a entidade os brancos ), permanece constante. E 1 : E 2 : E 3 : E 4 : E 5 : Cb = [?]; Cf = [os brancos]; Transição = inexistente Cb= [os brancos]; Cf=[os brancos, muitos dos nossos, espingardas] 13 ; Transição = CONTINUE Cb = [os brancos]; Cf =[os brancos, a aldeia]; Transição = CONTINUE Cb = [os brancos]; Cf =[os brancos, a borduna]; Transição = CONTINUE Cb = [os brancos]; Cf =[os brancos]; Transição = CONTINUE No segmento 2, o reconhecimento do centro Cb de um enunciado é bastante elucidativo. Critérios da teoria de Centering podem ser aplicados durante o processamento deste segmento de discurso. Primeiro, a entidade os brancos é introduzida no enunciado E 1 na posição de sujeito sendo, pela ordem de classificação sugerida para o conjunto Cf (sujeito>objeto), um forte candidato a pronominalização no enunciado seguinte. É o que ocorre no enunciado E 2, onde a entidade os brancos é retomada por meio da forma pronominal eles. Eles está na posição de sujeito, o que é uma indicação de que esta entidade continuará em foco. É o que de fato ocorre no próximo enunciado, onde a entidade os brancos é retomada sendo recuperável pela 13 O centro preferencial (Cp) é o elemento mais altamente classificado do conjunto Cf. Na representação que adotamos, o Cp é o elemento listado primeiro, no conjunto ordenado Cf. Para a classificação das entidades no Cf adotamos o critério: sujeito>objeto>outros, sendo que, para os sintagmas nominais classificados como outros, adotamos a ordem seqüencial em que aparecem no enunciado.

57 48 desinência do verbo 14, também na posição de sujeito indicando uma intenção de continuidade. No enunciado E 4, existe apenas um pronome que pode estabelecer uma ligação com o enunciado anterior (o pronome os em mate-os ) que retoma os brancos. No enunciado E 5, ele é o único pronome, e se refere ao Cb do enunciado anterior, ou seja, retoma novamente os brancos. Uma análise preliminar já nos indica que a idéia de centro, para a língua portuguesa, também é interessante na resolução de sujeitos recuperáveis pela desinência do verbo como em E 3, no segmento Aplicação de Centering baseada em corpora A aplicação da teoria de Centering na resolução de anáforas tem sido sugerida como uma forma de limitar a inferência necessária para identificação do antecedente correto de um termo anafórico. Um algoritmo baseado nesta teoria daria como resultado o antecedente preferencial, do ponto de vista pragmático, para um pronome ou algum outro tipo de anáfora usada no contexto local (isto é, referenciando uma entidade dentro de um segmento de discurso). Um exemplo como o segmento 2 da seção precedente (extraído de um corpus real) auxilia na fundamentação da teoria e coloca alguma luz sobre as questões que devem ser tratadas para a língua portuguesa. Uma conclusão óbvia no momento é a necessidade de um mecanismo para reconhecer quando existem sujeitos recuperáveis pela desinência verbal e, dessa forma, colaborar na correta identificação dos centros. Já o segmento 1, um exemplo construído, tem grande importância para a explicação da teoria e seus fundamentos. Entretanto, exemplos com sentenças relativamente simples como estes não são o padrão em textos reais (o primeiro é um exemplo construído com a finalidade de fundamentar a teoria e o segundo foi selecionado de um corpus por exibir comportamentos que se desejava comentar) e algumas dificuldades ao aplicar 14 No enunciado E 3 Se vierem à aldeia, o símbolo está indicando a existência de um sujeito lexicalmente não explícito para o verbo vierem

58 49 a teoria para estes ficam subjacentes. Em ambos os exemplos, a estrutura das sentenças apresentadas, é bastante simples (sujeito + verbo + objeto) e a segmentação em termos de enunciados não é um problema, bem diferente do que ocorre para textos reais. Para a aplicação da teoria em textos reais, conforme pôde-se constatar, dois conceitos desempenham papel preponderante e determinam boa parte do sucesso do experimento. Tratam-se dos conceitos de segmento de discurso e de enunciado. Para conceituar segmento James Allen, em [Allen 94], oferece as seguintes contribuições: - um segmento é um trecho de um discurso no qual as sentenças estão falando do mesmo tópico; e - um segmento é uma seqüência de sentenças, possivelmente interrompidas por subsegmentos, cujo aspecto mais importante é exibir uma estrutura hierárquica. Estas conceituações, na prática, são complementares. Segmentos podem ter subsegmentos embutidos, o que mostra que, não necessariamente, as sentenças que compõem um segmento são linearmente adjacentes. Mas a segmentação continua sendo uma tarefa de decisão complexa, ao mesmo tempo que é fator determinante no êxito do uso de Centering. Referente a enunciado, a conceituação mais precisa parece ser a dada por Strube, em [Strube 96]: um enunciado E é uma sentença simples, uma sentença complexa ou cada cláusula de uma sentença composta. Walker et al., em [Walker 98], já mencionam que várias questões relacionadas à aplicação da teoria surgem, quando a pesquisa é orientada a corpus. Uma delas é justamente a segmentação do discurso em enunciados. Os resultados de nossa investigação conferem com esta afirmação: necessidade de definir o modo como delimitar os enunciados em um segmento de texto para aplicação de Centering ou, dito de outra forma, descobrir qual o melhor critério para segmentação de enunciados. Isto

59 50 inclui decisões de como tratar orações coordenadas (como um único enunciado ou como dois enunciados separados) ou de como entidades em orações subordinadas afetam a ordem do Cf. O conceito preciso de enunciado é importante pois, deste conceito, depende a composição do conjunto de entidades que estão presentes no Cf, e que são as candidatas potenciais a pronominalização no enunciado seguinte. De forma diferente, mas enfocando o mesmo problema, qual seja, quais as entidades que compõem o Cf, algumas questões levantadas na literatura dizem respeito ao tratamento de sentenças complexas: Di Eugenio, por exemplo, em [Di Eugenio 96], coloca o problema de definir como subordinadas afetam a ordenação do Cf, e discute se deveria haver um único conjunto Cf para a cláusula principal e para a cláusula subordinada, ou dois conjuntos de entidades distintos. Outra questão interessante, levantada por Di Eugenio ainda em [Di Eugenio 96], é a questão dos dêiticos (por exemplo, os pronomes eu e você): deveriam estes ser incluídos no conjunto Cf? Estas questões são de extrema relevância quando vamos tratar segmentos de textos reais (não construídos para demonstrar uma determinada propriedade). Por isso, na definição de um algoritmo baseado em Centering, é necessário levar as questões acima discutidas em consideração. corpus de estudo: A título ilustrativo, considere o exemplo a seguir extraído do nosso Segmento de discurso 3: E1: 'HFLGLUiSLGR E2: YRXSDUDDÉIULFDEXVFDUXPDPDFDFDVySDUDPLPGDTXHODV TXHLPLWDPWXGR E3: 9RXHQVLQiODDVHUXPDPDFDFDEUX[DOD DPDFDFD E4: HHODYDLPHDMXGDUDID]HUPiJLFDVHIHLWLoRVHOD DPDFDFD

60 51 Uma análise possível: E 1 : Cb = [?]; Cf = []; Transição = inexistente E 2 : Cb= [?]; Cf=[a África, uma macaca, daquelas macacas]; Transição =? E 3 : Cb = [a macaca]; Cf =[a macaca, uma macaca-bruxa]; Transição = CONTINUE E 4 : Cb = [a macaca]; Cf =[a macaca, mágicas, feitiços]; Transição = CONTINUE Várias questões podem ser levantadas com respeito a esse segmento: 1) O pronome eu, não explícito (mas recuperável pela desinência dos verbos decidi e vou ), nos enunciados do segmento 3, deveria fazer parte do conjunto Cf de entidades? 2) O fato de o sujeito ser o pronome eu altera a ordenação das entidades que compõem o conjunto Cf? 3) Vou ensiná-la a ser uma macaca-bruxa e ela vai me ajudar a fazer mágicas e feitiços. deveria ser considerado como um único enunciado ou como composto por dois enunciados? 4) Qual a transição existente entre E 1 e E 2 dado que não existe Cb e Cp em nenhum dos dois enunciados? 5) Como classificar as entidades que compõem o Cf no enunciado E 2? (respectivamente): Pode-se tecer algumas considerações relativas a estas questões 1) Quanto ao pronome eu, considera-se que o mesmo não faça parte do conjunto Cf, tendo em vista que o corpus de trabalho é constituído de histórias narradas em primeira pessoa, onde o eu é sempre o narrador. Além disso, como se está trabalhando com a resolução de pronomes de terceira pessoa, o eu não é um candidato válido a

61 52 antecedente. Entretanto, pronomes de primeira e segunda pessoa (por exemplo, eu e você) fazerem parte da lista Cf é ainda uma questão em aberto. Byron e Stent, em [Byron 98], sugerem que o tratamento de pronomes de primeira e segunda pessoa ainda é uma questão complexa para Centering, exigindo uma investigação maior quanto a sua pertinência ou não ao contexto local trabalhado. 2) Já que estamos considerando que o pronome eu não faz parte da lista Cf, quando o sujeito se trata da entidade eu, o candidato mais altamente classificado passa a ser aquele que ocupa a posição de objeto. 3) A segmentação em enunciados, como já discutiu-se anteriormente, é uma questão complexa, e não fechada em estudos de Centering. Kameyama, em [Kameyama 98], sugere, que a atualização de centros pode ser seqüencial ou hierárquica, e que a dependência entre unidades de atualização de centro pode depender, por exemplo, do tipo de conetivos que vinculam as orações. Neste exemplo específico pode-se observar que o pronome la retoma a macaca, definindo esta entidade como um centro e ela retoma a mesma entidade. Tratando-se de uma sentença complexa, ligada por coordenação, a melhor alternativa parece ser considerar a existência de duas unidades de atualização de centro. 4) Talvez, se considerarmos que os dois enunciados estão na primeira pessoa, possamos julgar que a transição observada seja um CONTINUE. Entretanto, esta alternativa ainda precisa ser melhor ponderada. 5) O enunciado E 2 se refere a uma sentença complexa, e requer o estabelecimento de critérios para classificação das entidades que compõem o Cf. É um caso mais complexo, dado que, tanto África,

62 53 quanto macaca são complementos verbais. Outros fatores, teriam de ser levados em conta. 6.2 Considerações sobre um modelo computacional implementando Centering Aspectos Gerais Apresentam-se a seguir considerações voltadas à especificação de um modelo que permita a utilização de Centering na resolução de pronomes pessoais de terceira pessoa na língua portuguesa. Aponta-se, preliminarmente, elementos que deveriam compor o modelo. A partir do estudo teórico de Centering e avaliação preliminar do corpus, algumas estruturas identificadas que deveriam ser representadas no modelo computacional seriam: segmentos, enunciados, entidades, Cp, Cb, Cf e histórico das coreferências já identificadas. Conforme discutiu-se na seção 6.1, algumas dificuldades podem surgir para a aplicação de Centering quando a pesquisa é orientada a corpus. Estas dificuldades estão relacionadas com a riqueza estrutural da língua. O modelo original de Centering (revisado no capítulo 5, seção 5.1.2), introduziu os conceitos de Cb, Cp e Cf para enunciados e especificou transições (onde a prioridade entre transições descreve o modelo preferido para a interpretação de pronomes em enunciados). Entretanto, nem sempre a identificação do Cb e do Cp, ordenação de Cf e identificação de transições são tarefas triviais (vide comentários na seção 6.1).

63 Componentes do Modelo Na Figura 3, apresentam-se componentes considerados necessários a um modelo que utilize Centering na resolução de pronomes, comentando-se, a seguir, a função de cada componente no modelo. O modelo foi esboçado a partir das leituras sobre Centering e da análise do corpus de trabalho. Segmento de Texto Segmentador de enunciados para Centering Identificador de entidades nos enunciados Tabela de coreferências já identificadas Classificador de transições Classificador de entidades na lista Cf Figura 3: Componentes do Modelo No modelo original, Centering pode ser aplicado dentro de um segmento de discurso. Um segmento de texto, então, corresponde à unidade a ser avaliada. Esta unidade contém os pronomes a serem resolvidos e as entidades candidatas a antecedente. Conforme é possível constatar com o que foi apresentado até este ponto, o segmento de texto deve ser processado e suas unidades de enunciado devem ser reconhecidas. Este é o objetivo do módulo que identifica unidades de atualização de centro (Segmentador de enunciados para Centering). O identificador de entidades, por sua vez, deve selecionar o conjunto de sintagmas nominais presentes em um enunciado (substantivos, pronomes e sujeitos

64 55 recuperáveis pela desinência verbal) enquanto o classificador de entidades deve reconhecer a função gramatical desempenhada pela entidade, devendo especialmente identificar sujeitos. Note-se, aqui, que o classificador de entidades, poderia utilizar outros critérios (vide seção 5.2.3). Após as entidades terem sido classificadas, o classificador de transições busca identificar as transições possíveis para um enunciado no segmento. Note-se que isto pode não ser uma tarefa trivial quando as sentenças são complexas, pois pode ser difícil reconhecer a transição que ocorreu. Note-se, também, que a interpretação do pronome não é necessariamente intersentencial, sendo pertinentes as colocações de Kameyama (seção 5.2.2). A tabela de co-referências é importante para a manutenção das relações antecedente - termo anafórico já identificadas. Mais especificamente, no modelo computacional: 1) Segmentos: correspondem a trechos de texto. Para o caso específico de resolução de pronomes pessoais de terceira pessoa, são trechos de texto que contêm pronomes pessoais e todo o contexto anterior necessário para interpretá-los; 2) Enunciados: podem corresponder a uma sentença simples ou uma sentença complexa mas, em se tratando de uma sentença complexa, pode haver mais de uma unidade de atualização de centro; 3) Entidades: todos os sintagmas nominais explícitos no segmento e também aqueles recuperáveis pela desinência verbal. 4) Cf de um enunciado: composto de todos os sintagmas nominais que aparecem em um enunciado. 5) Histórico das co-referências já identificadas: é mantido em memória, pois é relevante, quando ocorre por sentenças consecutivas a retomada de uma mesma entidade por formas pronominais.

65 Considerações Neste capítulo apresentaram-se, com base em exemplos retirados de um corpus de trabalho, algumas questões que precisam ser endereçadas com respeito ao uso de Centering para resolução de pronomes em textos reais. Estas questões, resumidamente, dizem respeito a: pertinência ou não de pronomes de primeira e segunda pessoa ao conjunto Cf; como identificar segmentos e unidades de atualização de centro; como proceder a classificação de entidades em enunciados mais complexos. Após, esboçou-se um modelo, descrevendo-se componentes necessários na implementação de Centering visando seu uso na resolução de pronomes, e teceramse considerações sobre pesquisas adicionais necessárias para o aperfeiçoamento do modelo e uso de Centering em maior escala para análise de textos reais. No capítulo a seguir, descrevem-se o experimento realizado e resultados obtidos, aplicando-se pressupostos da teoria de Centering na resolução de pronomes. O experimento não se limita, contudo, à exploração da teoria de Centering, tendo em vista que, para a resolução de pronomes, alguns conhecimentos como restrição de gênero e número são facilmente aplicáveis na restrição ou escolha dos candidatos a antecedente. Além disso, como já foi mencionado no decorrer do capítulo, para aplicar Centering integralmente, em textos reais, um refinamento adicional da teoria, parece ser necessário. Também, a necessidade de uso de múltiplas fontes de conhecimento para resolução de anáforas, conforme delineado desde os capítulos introdutórios desta dissertação, tem sido consenso por parte de pesquisadores, seja na área de lingüística, ciências cognitivas ou PLN.

66 57 7 EXPERIMENTO Neste capítulo descreve-se o experimento realizado, com respeito a resolução de pronomes pessoais de terceira pessoa na língua portuguesa. Embora ênfase seja dada a teoria de Centering, para o experimento obter melhores resultados na seleção do antecedente, utilizaram-se também informações relativas a gênero, número e recentidade das entidades. 7.1 Escolhas realizadas Escolha do conjunto de pronomes a tratar Optou-se por tratar pronomes pessoais, por terem sido aqueles para os quais encontrou-se maior número de investigações relacionadas à teoria de Centering e, por, em conseqüência, permitirem um número maior de comparações entre o português e outras línguas. Além disso, o estudo relativo à teoria de Centering já corresponderia a um trabalho relativamente complexo, então o mais apropriado seria investigar os tipos de pronomes que já contavam com mais estudos relacionados Escolha do corpus para estudo Dois tipos de textos foram avaliados: narrativos (de histórias infantis) e descritivos (provenientes da revista científica Ciência Hoje, publicada pela Sociedade Brasileira para o Progresso da Ciência). Optou-se pelos textos narrativos para constituir o corpus de trabalho, por contarem com sentenças de estrutura um pouco mais simples, vocabulário mais homogêneo e pela maior ocorrência de pronomes pessoais em relação aos textos descritivos. Este último aspecto fica visível através da análise das tabelas 7 e 8.

67 58 Nos textos descritivos avaliados, os pronomes pessoais constituíram 25% dos pronomes encontrados. Já nos textos narrativos avaliados, 62% dos pronomes encontrados foram pronomes pessoais. Categoria dos Pronomes Porcentagem sobre o total de pronomes no corpus Pronomes demonstrativos 65% Pronomes pessoais do caso reto 20% Pronomes pessoais do caso oblíquo 5% excluído o "se" Pronomes possessivos 10% 100% Tabela 8: Distribuição pronominal nos textos descritivos Categoria dos pronomes Porcentagem sobre o total de pronomes no corpus Pronomes demonstrativos 30% Pronomes pessoais do caso reto 43% Pronomes pessoais do caso obliquo 19% excluído o "se" Pronomes possessivos 8% 100% Tabela 9: Distribuição pronominal nos textos narrativos 7.2 Revisões Pronomes pessoais na língua portuguesa Nesta seção efetua-se uma revisão dos pronomes pessoais na língua portuguesa, de suas formas léxicas e das funções que desempenham. Os pronomes pessoais representam as pessoas do discurso e classificamse em retos, oblíquos e de tratamento. Na tabela 9, apresentam-se os pronomes retos e oblíquos (que correspondem ao subconjunto em foco nesta dissertação) e, após, tecemse considerações sobre a função que tais pronomes desempenham nas orações, considerações estas importantes para compreensão do experimento realizado.

68 59 Pessoa Gramatical Retos Oblíquos 1ª eu me, mim, comigo Singular 2ª tu te, ti, contigo 3ª ele, ela O, a, lhe, se, si, consigo 1ª nós nos, conosco Plural 2ª vós vos, convosco 3ª eles, elas Os, as, lhes, se, si, consigo Tabela 10: Pronomes pessoais da língua portuguesa As formas retas usualmente desempenham o papel de sujeito do verbo e as formas oblíquas de complemento do verbo (objeto direto ou indireto). As formas nós, vós e ele (ela, eles, elas) são oblíquas quando regidas por preposição, como na sentença Comprei um disco para ela. As formas oblíquas podem ser reflexivas ou não reflexivas. São reflexivas quando referem-se ao sujeito da oração (como em Ele se feriu. ) e não reflexivas quando não podem referenciar o sujeito da oração (como em Ela entregoulhe o livro. ). O pronome oblíquo o (a, os, as) adquire a forma lo (la, los, las) quando posposto a formas verbais terminadas em r, s ou z (por exemplo, comprar + o = comprá-lo) e a forma no (na, nos, nas) se a forma verbal termina em som nasal (por exemplo, põe-nas) Conhecimentos úteis na resolução de pronomes pessoais A partir dos trabalhos selecionados e descritos nos capítulos anteriores, fica claro que as pesquisas sobre resolução de anáforas vêm considerando, analisando e validando a utilidade de diferentes conhecimentos na execução desta tarefa. Sintetizamse, a seguir, conhecimentos e questões colocados na literatura, que trazem contribuição ao presente trabalho:

69 60 conhecimentos de gênero e número: podem filtrar candidatos inadequados; situações de não co-referência: admitem descrever situações como a da sentença João o viu no parque, onde a co-referência entre João e o pronome o não é permitida; tipo de expressão referencial empregada: dependendo do tipo de expressão, alguns autores têm colocado que os princípios de localidade são diferentes; assim, a recentidade da ocorrência de um sintagma nominal é uma característica muito importante para resolução de pronomes pessoais; sobre descrições definidas, diz-se que são usadas quando precisa-se de maior informação semântica sobre a entidade evocada, seja por ela não estar na memória de trabalho do ouvinte ou leitor, ou seja por ela não ser uma entidade em foco, dessa forma sendo necessário o emprego de uma expressão mais informativa; recentidade da ocorrência do sintagma nominal: dizendo respeito a esta ocorrência na mesma sentença do pronome, na sentença anterior, duas sentenças anteriores, e assim por diante; conhecimento sobre centros de discurso: a seleção de centros para discursos pode depender de diferentes informações, conforme discutidos no capítulos 5 e 6; conhecimento de estrutura de discurso coerente. 7.3 Decisões de Projeto decisões de projeto: A seguir tecem-se considerações relevantes para justificar algumas

70 Marcação para sujeitos recuperáveis pela desinência verbal Conforme já comentou-se em capítulos anteriores, centros de discurso podem ser retomados mediante sujeitos recuperáveis pela desinência do verbo. Por este motivo, introduziu-se uma marcação para os casos em que o sujeito é recuperável pela desinência do verbo, conforme descrição a seguir: 1S desinência do verbo designa primeira pessoa, singular; 1P desinência do verbo designa primeira pessoa, plural; 3S desinência do verbo designa terceira pessoa, singular; 3P desinência do verbo designa terceira pessoa, plural. Esta marcação é importante porque: a implementação de um procedimento automático para reconhecimento da pessoa introduzida pelo verbo está fora do escopo desta dissertação e não seria algo trivial pois, embora dispondo de um dicionário com as formas verbais, existem casos de identidade lexical na conjugação dos verbos na primeira e terceira pessoas (por exemplo, Estava comprando um jornal, quando, poderia ser empregado para identificar uma ação praticada pelo falante Eu estava comprando um jornal, quando ou por uma pessoa de quem se esteja falando Ela estava comprando um jornal, quando ; e uma das formas de retomar/manter o centro de atenção no discurso, inclui a retomada de termos por meio de sujeitos implícitos recuperáveis pela desinência verbal e, se não houvesse a identificação desta retomada, a entidade poderia não ser considerada recente. Além disso, para o caso de compreensão de discursos, sem este reconhecimento o agente de algumas ações poderia não ser

71 62 identificado. Este aspecto fica visível no exemplo a seguir, extraído do nosso corpus de trabalho (onde 3P retoma os macacos ). Exemplo ilustrativo da marcação adotada e da importância de reconhecer sujeitos recuperáveis pela desinência verbal: &RPRRVPDFDFRVLPLWDPWXGRRTXHDJHQWHID] 6SHQVHL (OHVYmRDFDEDUVHDPDUUDQGRXQVFRPRVRXWURVQDViUYRUHVH 6YRXSHJDUDPDFDFD TXHHXEHPTXLVHU 3DUD GLVIDUoDU 6 HQFRVWHLPH QXPD iuyruh H 6 ILQJL TXH 6 HVWDYD OHQGR XP MRUQDO &RP R FDQWR GRV ROKRV 6 REVHUYHL TXH HOHV GHVFHUDP GDV iuyruhv 3 SHJDUDP D FRUGDH (XSHQVDYD$JRUD 3YmRVHDPDUUDU 0DVDRLQYpVGH 3VHDPDUUDUHPTXHp RTXH 3GHYHULDP WHU IHLWR 3 SXODUDPGHUHSHQWHHPFLPDGHPLPH]i] 3PHSUHQGHUDPQDiUYRUH Importância da noção de estrutura de discurso coerente Quando o sujeito é recuperável somente pela desinência verbal, o filtro de gênero não é aplicável, sendo por isso importante a noção de estrutura de discurso coerente, para reconhecer o sujeito do verbo. Isto torna-se claro a partir do exemplo a seguir. Exemplo de situação em que filtro de gênero não é aplicável: 0DULDIDORXSDUD3DXORTXH 6 TXHUMDQWDUQR5LYHUVLGH VGR,JXDWHPL 6 0DULD 3DXORIDORXSDUD0DULDTXH 6 TXHUMDQWDUQR5LYHUVLGH VGH,JXDWHPL 6 3DXOR

72 63 oração. Note-se que nestes exemplos prefere-se interpretar 3S como o sujeito da Complementarmente, Di Eugenio, em [Di Eugenio 90], teceu considerações para a língua italiana, que parecem também ser relevantes para a língua portuguesa. Ela discutiu diferenças no uso de pronomes claros e pronomes nulos, a partir de exemplos. Na tabela 11 apresenta-se um exemplo por ela investigado, com a respectiva comparação com a língua portuguesa. Uma questão que fica evidente é que o uso de pronomes claros ou nulos pode afetar a interpretação de uma sentença. Exemplos na língua italiana D 4XDQGR&DUORKDLQFRQWUDWR0DULR QRQJOLKDQHPPHQRGHWWR FLDRµ E 4XDQGR&DUORKDLQFRQWUDWR0DULR OXLQRQJOLKDQHPPHQRGHWWR FLDRµ Tradução para o português 4XDQGR&DUORHQFRQWURX0DULR QHPDRPHQRVOKHGLVVH RLµ 4XDQGR&DUORHQFRQWURX0DULR HOHQHPDRPHQRVOKHGLVVH RLµ Tabela 11: Exemplos de Di Eugenio comparando uso de pronomes claros e nulos na posição de sujeito Di Eugenio tece os seguintes comentários sobre estes exemplos: em a) o sujeito nulo na posição de sujeito refere-se a Carlo, forçando gli a referir-se a Mario. Na sentença b), o pronome claro lui na posição de sujeito requer que seu referente seja Mario, e por isso, gli tem de referir-se a Carlo. O mesmo ocorre com o português, na primeira situação interpreta-se = Carlo e lhe = Mario. Na segunda situação, ele = Mario e lhe = Carlo.

73 Constituição do conjunto de candidatos a antecedente São antecedentes válidos todos os sintagmas nominais explícitos no discurso ou recuperáveis pela desinência do verbo. Aqui cabem alguns comentários. Segmento 1: 3RXSDQoDPDVORJR 6GHVLVWL Sentença 1: 8PGLDYDUUHQGRDFDVDSUDFiHSUDOi 6DFKHLXPDPRHGDGHRXUR Sentença 2: 3ULPHLUR 6SHQVHLHPYHQGrODHGHSRVLWDURGLQKHLURQD&DGHUQHWDGH No Segmento 1, anotam-se, como candidatos introduzidos na primeira sentença dia, casa, moeda e ouro. Não considerou-se a possibilidade de descartar o sintagma nominal ouro, pois exigiria análise semântica para considerar moeda de ouro como um candidato único. Além disso, não haveria nada de errado se, no segmento, um pronome o referenciasse, como no segmento 2 (embora isso talvez seja menos provável). Segmento 2: Sentença 1: 8PGLDYDUUHQGRDFDVDSUDFiHSUDOi 6DFKHLXPDPRHGDGHRXUR Sentença 2: (OHpXPPHWDOPXLWRYDOLRVR Filtro de candidatos inapropriados Para os pronomes ele, ela, eles, elas, o, a, os, as pode-se aplicar filtro de gênero e número. Para os pronomes lhe, lhes somente é útil informação de número.

74 Pronomes avaliados Pronomes pessoais do caso reto e oblíquo de terceira pessoa, excluído o se reflexivo. Estes pronomes são tratados em todas as formas léxicas em que ocorrem, quais sejam: ele, ela, eles, elas, o, a, os, as, dele, dela, deles, delas, nele, nela, neles, nelas, -na, -nas, -nos, -no, -la, -las, -lo, -los. Optou-se pelo não tratamento do se, pela grande ambigüidade desta partícula quanto a sua classe gramatical. Além de poder ser conjunção, com freqüência pode ser utilizada como partícula expletiva, apenas indicando indeterminação de sujeito. No caso de ser pronome, seu antecedente deve ser o sujeito do verbo ao qual encontra-se ligado Pré-processamento Os pronomes o, a, os, as, são a princípio ambíguos quanto à classe a que pertencem, pois os artigos definidos no português têm a mesma forma lexical. Para identificar como artigo ou pronome, considerou-se a classe das palavras que antecedem ou seguem a ocorrência de um destes itens lexicais Marcação de um sintagma nominal como sujeito O programa seleciona como sujeito o SN mais próximo ao verbo que o antecede e concorda com ele em número e pessoa. Como base para adoção desta regra considerou-se a definição de sujeito dada por Perini: é o termo da oração que está em relação de concordância com o núcleo do predicado. Fica claro, aqui, que, pela estratégia adotada para classificação de SNs como sujeitos, que alguns SNs que são, em última análise, sujeitos, não são selecionados pelo programa como tal. É o caso, por exemplo, de sujeitos pospostos. Entretanto, a regra implementada descreve a situação mais usual. Além disso, segundo Perini, os fatores que governam a posposição de sujeito ainda não são totalmente claros, já tendo sido propostos fatores sintáticos,

75 66 léxicos, semânticos e discursivos, mas sem solução conclusiva. Analisar e propor uma solução computacional para reconhecer todas as situações em que um sujeito ocorre vai além do escopo deste trabalho Processamento das sentenças Uma primeira observação com respeito à aplicação da teoria de Centering quando as sentenças são complexas é que estas podem apresentar mais de um sujeito. Daí surgiu a idéia de utilizar, como critério para desdobramento de sentenças complexas em unidades menores de processamento, a ocorrência de um novo sujeito dentro de uma mesma sentença. Além disso, Kameyama, em [Kameyama 98], argumenta que sentenças complexas deveriam ser desdobradas em unidades de atualização de centro. Entretanto, ela procede uma análise mais complexa, propondo que os centros poderiam ser atualizados de maneira hierárquica ou seqüencial, conforme estudos de caso apresentados. 7.4 O protótipo desenvolvido Nesta seção descreve-se sucintamente o protótipo desenvolvido para auxiliar na identificação de conhecimentos necessários para resolução de pronomes pessoais de terceira pessoa na língua portuguesa. A seguir, apresenta-se a interface do sistema (Figura 4), para, após, comentá-la.

76 67 Figura 4 - Menu do aplicativo Salvar, Salvar como e Sair. No menu do aplicativo encontram-se os itens: Novo, Abrir, Fechar, No retângulo superior à esquerda, o segmento aberto ou editado é exibido. É este segmento que será analisado. O item Novo do menu Arquivo limpa a área respectiva ao segmento a fim de que o usuário possa editar um novo segmento. O item Abrir permite que o usuário abra um segmento já existente. Fechar, fecha o segmento aberto. Salvar e Salvar como permitem salvar o segmento editado ou aberto pelo usuário. Sair permite sair do programa.

77 68 Figura 5: Interface do protótipo implementado A interface é dividida em cinco partes: Retângulo superior à esquerda: exibe o segmento de texto a ser analisado; Retângulo intermediário à esquerda: exibe a classificação lexical das palavras no segmento, realizada a partir da consulta a um dicionário e aplicação de regras para desambiguação, quando for o caso; quando não consegue desambiguar, apresenta as possibilidades de classificação da palavra; Retângulo inferior à esquerda: exibe os elementos classificados como sujeitos para cada enunciado; Retângulo superior à direita: exibe as listas Cf para cada enunciado; Retângulo inferior à direita: exibe as escolhas realizadas pelo programa na solução da co-referência.

78 69 Para permitir o uso das funcionalidades do programa, o usuário conta com os seguintes botões na parte superior da interface: Classificar Palavras: após a abertura ou edição de um segmento, o usuário deve acionar este botão a fim de que o programa busque a classificação das palavras no dicionário. Selecionar Sujeitos: após ter o segmento classificado, é o momento de identificar aquelas entidades que são sujeitos. Esta classificação é importante para obter o nível de saliência das entidades. Resolver Pronomes: quando o usuário acionar este botão serão exibidas as listas Cf para cada enunciado compondo o segmento aberto ou editado e, também, a resolução dos pronomes realizada pelo programa. Inserir Palavra no Dicionário: quando o usuário aciona o botão Classificar Palavras, o programa fornecerá a classe das palavras no segmento conforme classificação retirada do dicionário implementado para esta finalidade. Caso alguma palavra não esteja no dicionário, na sua análise aparecerá o termo Vazio. Neste caso, o usuário deverá inserir a palavra no dicionário com a classificação adequada. O botão Inserir Palavra no Dicionário abre uma caixa de diálogo para inserção de novas palavras no dicionário. Na Figura 5 apresenta-se a interface desta caixa de diálogo.

79 70 Figura 6: Interface do dicionário 7.5 Resultados Obtidos Nesta seção tecem-se comentários sobre o uso de Centering nos exemplos do corpus. Restringiu-se a aplicação do formalismo ao estabelecimento de preferência para entidades que são sujeitos. Para tratamento de sentenças complexas, utilizou-se processamento parcial das sentenças até o ponto onde ocorre um novo sujeito. Se houverem pronomes a resolver antes da ocorrência de um novo sujeito, então processa-se a sentença até aquele ponto, para depois processar a parte seguinte. Os exemplos nas seções e justificam ou esclarecem a adoção desta abordagem.

(2) A rápida publicação deste livro pela editora foi um bom negócio.

(2) A rápida publicação deste livro pela editora foi um bom negócio. 1 Introdução Esta dissertação tem o objetivo geral de investigar as formas nominalizadas deverbais no que tange ao seu aspecto polissêmico e multifuncional. O objetivo específico consiste em verificar,

Leia mais

IVANDRÉ PARABONI UMA ARQUITETURA PARA A RESOLUÇÃO DE REFERÊNCIAS PRONOMINAIS POSSESSIVAS NO PROCESSAMENTO DE TEXTOS EM LÍNGUA PORTUGUESA

IVANDRÉ PARABONI UMA ARQUITETURA PARA A RESOLUÇÃO DE REFERÊNCIAS PRONOMINAIS POSSESSIVAS NO PROCESSAMENTO DE TEXTOS EM LÍNGUA PORTUGUESA IVANDRÉ PARABONI UMA ARQUITETURA PARA A RESOLUÇÃO DE REFERÊNCIAS PRONOMINAIS POSSESSIVAS NO PROCESSAMENTO DE TEXTOS EM LÍNGUA PORTUGUESA Dissertação apresentada como requisito parcial à obtenção do grau

Leia mais

1 Introdução. 1 Neste estudo, será utilizando tanto o termo em inglês parsing, como o termo traduzido análise

1 Introdução. 1 Neste estudo, será utilizando tanto o termo em inglês parsing, como o termo traduzido análise 1 Introdução Este estudo enfoca o desenvolvimento da percepção de elementos de classe fechada, particularmente de afixos verbais e sua representação morfofonológica, assim como o parsing 1 (análise sintática)

Leia mais

Ficha de acompanhamento da aprendizagem

Ficha de acompanhamento da aprendizagem Escola: Professor: Aluno: Legenda: Plenamente desenvolvido; Parcialmente desenvolvido; Pouco desenvolvido; Não trabalhado no bimestre. Oralidade 1º bim. 2º bim. 3º bim. 4º bim. Participar das interações

Leia mais

COLÉGIO SANTA TERESINHA

COLÉGIO SANTA TERESINHA PROFESSORA: Christiane Miranda Buthers de Almeida TURMA: 6º Ano PERÍODO DA ETAPA: 05/02/2018 a 18/05/2018 DISCIPLINA: Língua Portuguesa 1- QUE SERÃO TRABALHADOS DURANTE A ETAPA: 1. Gêneros: 1.1 Romance

Leia mais

Descrição da Escala Língua Portuguesa - 5 o ano EF

Descrição da Escala Língua Portuguesa - 5 o ano EF Os alunos do 5º ano do Ensino Fundamental < 125 identificam o sentido de expressão típica da fala coloquial utilizada em segmento de história em quadrinhos; e o local em que se desenrola o enredo, em anedota.

Leia mais

4 Metodologia. 4.1 Metodologia naturalista: produção da fala espontânea

4 Metodologia. 4.1 Metodologia naturalista: produção da fala espontânea 4 Metodologia 4.1 Metodologia naturalista: produção da fala espontânea O presente estudo fez uso de dados naturalistas ou ecológicos coletados para um estudo longitudinal (Martins, 2007). Um estudo naturalista

Leia mais

Quanto aos textos de estrutura narrativa, identificam personagem, cenário e tempo.

Quanto aos textos de estrutura narrativa, identificam personagem, cenário e tempo. Língua Portuguesa - Ensino Médio SISPAE 2013 01 Abaixo do Básico 1º e 2º ano até 200 pontos Neste Padrão de Desempenho, os estudantes se limitam a realizar operações básicas de leitura, interagindo apenas

Leia mais

Informação Prova de Equivalência à Frequência. Ano letivo de

Informação Prova de Equivalência à Frequência. Ano letivo de Informação Prova de Equivalência à Frequência (Despacho n.º 3 A/2019, de 26 de fevereiro) Ano letivo de 2018 2019 Disciplina: Inglês Ano de escolaridade: 9.º ano Tipo de Prova/código: Escrita (Ponderação:

Leia mais

Sumarizando: o que é uma língua. Métodos para seu estudo...44

Sumarizando: o que é uma língua. Métodos para seu estudo...44 sumário APRESENTAÇÃO...13 1. O que se entende por língua Estudando a língua portuguesa...17 1.1 O Vocabulário: nascimento e morte das palavras. Consultando um dicionário...20 1.2 A Semântica: o sentido

Leia mais

1 Saepi 2013 PADRÕES DE DESEMPENHO ESTUDANTIL LÍNGUA PORTUGUESA - 5º EF

1 Saepi 2013 PADRÕES DE DESEMPENHO ESTUDANTIL LÍNGUA PORTUGUESA - 5º EF 1 Saepi 2013 PADRÕES DE DESEMPENHO ESTUDANTIL LÍNGUA PORTUGUESA - 5º EF até 125 pontos As habilidades presentes neste Padrão de Desempenho são muito elementares e relacionam-se, essencialmente, à apropriação

Leia mais

INFORMAÇÃO-PROVA DE EQUIVALÊNCIA À FREQUÊNCIA

INFORMAÇÃO-PROVA DE EQUIVALÊNCIA À FREQUÊNCIA Ano Letivo 2014/2015 INFORMAÇÃO-PROVA DE EQUIVALÊNCIA À FREQUÊNCIA Decreto-Lei n.º 139/2012, de 5 de julho Disciplina: Português Prova/Código: 139 Ano(s) de Escolaridade: 12º Ano 1. Introdução O presente

Leia mais

Autor(es) HARLEI MIGUEL DE ARRUDA LEITE. Orientador(es) MARINA TERESA PIRES VIEIRA. Apoio Financeiro PIBIC/CNPQ. 1. Introdução

Autor(es) HARLEI MIGUEL DE ARRUDA LEITE. Orientador(es) MARINA TERESA PIRES VIEIRA. Apoio Financeiro PIBIC/CNPQ. 1. Introdução 19 Congresso de Iniciação Científica IMPLEMENTAÇÃO DE GUIAS E ALGORITMOS PARA REGRAS DE ASSOCIAÇÃO MULTIRELACIONAL NA FERRAMENTA DE MINERAÇÃO DE DADOS KIRA Autor(es) HARLEI MIGUEL DE ARRUDA LEITE Orientador(es)

Leia mais

Processo de Admissão de Novos Estudantes Conteúdos programáticos para candidatos que ingressarão no. 3º ano do Ensino Médio MATEMÁTICA

Processo de Admissão de Novos Estudantes Conteúdos programáticos para candidatos que ingressarão no. 3º ano do Ensino Médio MATEMÁTICA Processo de Admissão de Novos Estudantes 2017 Conteúdos programáticos para candidatos que ingressarão no 3º ano do Ensino Médio MATEMÁTICA HABILIDADES CONTEÚDOS Identificar padrões numéricos ou princípios

Leia mais

Avaliar o comportamento das crianças DEL no que concerne ao valor dado à informação de pessoa em Dmax e no afixo verbal;

Avaliar o comportamento das crianças DEL no que concerne ao valor dado à informação de pessoa em Dmax e no afixo verbal; 164 9 Conclusão Este estudo focalizou a aquisição de pessoa como traço formal no Português Brasileiro (PB) com o objetivo de caracterizar a manifestação de pessoa no curso normal do desenvolvimento lingüístico

Leia mais

Informação Prova de Equivalência à Frequência 9º Ano

Informação Prova de Equivalência à Frequência 9º Ano Informação Prova de Equivalência à Frequência 9º Ano Prova Final de 3º Ciclo DISCIPLINA ESPANHOL PROVA 15 2017 O presente documento dá a conhecer os seguintes aspetos relativos à prova: Objeto de avaliação;

Leia mais

Colégio Internato dos Carvalhos

Colégio Internato dos Carvalhos Grupo Disciplinar de Línguas Românicas aøväxé wé XÇá ÇÉ fxvâçwöü É Matriz do Teste Intermédio de Português do 12.º ano Ano letivo 2016-2017 Objeto de avaliação INFORMAÇÃO-TESTE de Português 12.º ano (a

Leia mais

Processo de Admissão de Novos Estudantes Conteúdos programáticos para candidatos que ingressarão no. 2º ano do Ensino Médio MATEMÁTICA

Processo de Admissão de Novos Estudantes Conteúdos programáticos para candidatos que ingressarão no. 2º ano do Ensino Médio MATEMÁTICA Processo de Admissão de Novos Estudantes 2017 Conteúdos programáticos para candidatos que ingressarão no 2º ano do Ensino Médio MATEMÁTICA HABILIDADES CONTEÚDOS Reconhecer, no contexto social, diferentes

Leia mais

Problemas de Escrita. Graça Nunes Thiago Pardo

Problemas de Escrita. Graça Nunes Thiago Pardo Problemas de Escrita Graça Nunes Thiago Pardo Qual é o problema? A transformada de Hough é um algoritmo muito conhecido em visão computacional, mas a sua aplicação em alguns sistemas de tempo real é proibitiva,

Leia mais

Data: Para: Inspeção-Geral de Educação. Direções Regionais de Educação. Escolas com ensino secundário CIREP FERLAP CONFAP

Data: Para: Inspeção-Geral de Educação. Direções Regionais de Educação. Escolas com ensino secundário CIREP FERLAP CONFAP Prova de Exame Nacional de Português Prova 639 2012 12.º Ano de Escolaridade Decreto-Lei n.º 74/2004, de 26 de março Para: Direção-Geral de Inovação e de Desenvolvimento Curricular Inspeção-Geral de Educação

Leia mais

CRITÉRIOS DE AVALIAÇÃO

CRITÉRIOS DE AVALIAÇÃO Competências de Interpretação CRITÉRIOS DE AVALIAÇÃO 3.º Ciclo do Ensino Básico 7º Ano Departamento de Línguas Disciplina: Inglês Domínios Objeto de avaliação Domínios/ Metas de aprendizagem Instrumentos

Leia mais

Anexo B Relação de Assuntos Pré-Requisitos à Matrícula

Anexo B Relação de Assuntos Pré-Requisitos à Matrícula Anexo B Relação de Assuntos Pré-Requisitos à Matrícula MINISTÉRIO DA DEFESA EXÉRCITO BRASILEIRO DEPARTAMENTO DE EDUCAÇÃO E CULTURA DO EXÉRCITO DIRETORIA DE EDUCAÇÃO PREPARATÓRIA E ASSISTENCIAL RELAÇÃO

Leia mais

Uma implementação da teoria de centering para resolução de anáforas em língua portuguesa

Uma implementação da teoria de centering para resolução de anáforas em língua portuguesa Universidade Federal do Paraná Departamento de Informática Tiago Santos de Lima Michel Gagnon Uma implementação da teoria de centering para resolução de anáforas em língua portuguesa Relatório Técnico

Leia mais

1 Apresentação e justificativa

1 Apresentação e justificativa 1 Apresentação e justificativa Esta dissertação insere-se na área de Psicolinguística e tem como foco de investigação o modo como informação linguística e visual integram-se no processo de compreensão

Leia mais

6 Atributos. A dívida da empresa subiu.

6 Atributos. A dívida da empresa subiu. 6 Atributos Para buscar o sentimento de um texto automaticamente precisamos encontrar boas pistas ao longo do discurso. Uma grande variedade de palavras e expressões possui conotação positiva ou negativa,

Leia mais

ANÁLISE E DESENVOLVIMENTO DE SISTEMAS TURMA º PERÍODO - 7º MÓDULO AVALIAÇÃO A1 DATA 10/09/2009 ENGENHARIA DE USABILIDADE

ANÁLISE E DESENVOLVIMENTO DE SISTEMAS TURMA º PERÍODO - 7º MÓDULO AVALIAÇÃO A1 DATA 10/09/2009 ENGENHARIA DE USABILIDADE ANÁLISE E DESENVOLVIMENTO DE SISTEMAS TURMA 2008 4º PERÍODO - 7º MÓDULO AVALIAÇÃO A1 DATA 10/09/2009 ENGENHARIA DE USABILIDADE 2009/2 GABARITO COMENTADO QUESTÃO 1: 1. Considere as afirmações a seguir:

Leia mais

Apresentação 11 Lista de abreviações 13. Parte I: NATUREZA, ESTRUTURA E FUNCIONAMENTO DA LINGUAGEM

Apresentação 11 Lista de abreviações 13. Parte I: NATUREZA, ESTRUTURA E FUNCIONAMENTO DA LINGUAGEM Sumário Apresentação 11 Lista de abreviações 13 Parte I: NATUREZA, ESTRUTURA E FUNCIONAMENTO DA LINGUAGEM O homem, a linguagem e o conhecimento ( 1-6) O processo da comunicação humana ( 7-11) Funções da

Leia mais

Linguagens de Domínio Específico

Linguagens de Domínio Específico Linguagens de Domínio Específico Fabio Mascarenhas 2017.1 http://www.dcc.ufrj.br/~fabiom/dsl Definindo DSLs Linguagem específica de domínio: uma linguagem de programação de computadores de expressividade

Leia mais

Sobre a resolução de correferência

Sobre a resolução de correferência Sobre a resolução de correferência Tatiane de Moraes Coreixas¹, Renata Vieira¹ ¹Faculdade de Informática Pontifícia Universidade Católica do RS (PUC) tatiane.coreixas@pucrs.br, renata.vieira@pucrs.br Abstrat.

Leia mais

AGRUPAMENTO DE ESCOLAS IBN MUCANA

AGRUPAMENTO DE ESCOLAS IBN MUCANA AGRUPAMENTO DE ESCOLAS IBN MUCANA INFORMAÇÃO PROVA DE EQUIVALÊNCIA À FREQUÊNCIA Espanhol - Prova Escrita e Prova Oral Prova 368 2016 11º Ano de Escolaridade (Decreto-lei nº 139/2012 de 5 de Julho) O presente

Leia mais

Análise Sintática de Frases utilizando Gramáticas Livres de Contexto Probabilísticas

Análise Sintática de Frases utilizando Gramáticas Livres de Contexto Probabilísticas Universidade de São Paulo Mestrado em Ciência da Computação Instituto de Matemática e Estatística Disciplina MAC5725 Lingüística Computacional Análise Sintática de Frases utilizando Gramáticas Livres de

Leia mais

Processo de Admissão de Novos Estudantes Conteúdos programáticos para candidatos que ingressarão no. 1º ano do Ensino Médio MATEMÁTICA

Processo de Admissão de Novos Estudantes Conteúdos programáticos para candidatos que ingressarão no. 1º ano do Ensino Médio MATEMÁTICA Processo de Admissão de Novos Estudantes 2016 Conteúdos programáticos para candidatos que ingressarão no 1º ano do Ensino Médio MATEMÁTICA CONTEÚDOS Efetuar cálculos com números reais envolvendo as operações

Leia mais

INFORMAÇÃO PROVA DE EQUIVALÊNCIA À FREQUÊNCIA. Prova

INFORMAÇÃO PROVA DE EQUIVALÊNCIA À FREQUÊNCIA. Prova INFORMAÇÃO PROVA DE EQUIVALÊNCIA À FREQUÊNCIA Espanhol - Prova Escrita e Prova Oral Prova 368 2017 11º Ano de Escolaridade (Decreto-lei nº 139/2012 de 5 de Julho) O presente documento visa divulgar a informação

Leia mais

CONCURSO DE BOLSA 2019

CONCURSO DE BOLSA 2019 6.º ANO Domínio linguístico-gramatical: emprego dos substantivos, adjetivos (locuções adjetivas), advérbios (locuções adverbiais), verbos (modos, tempos, flexões de número e pessoa). Acentuação - tônica

Leia mais

Prova Escrita de ESPANHOL Iniciação

Prova Escrita de ESPANHOL Iniciação INFORMAÇÃO PROVA DE EQUIVALÊNCIA À FREQUÊNCIA DO ENSINO BÁSICO Decreto Lei n.º 6/2001, de 18 de janeiro Prova Escrita de ESPANHOL Iniciação 7.º / 8.º / 9.º Anos de Escolaridade PROVA ESCRITA CÓDIGO 15

Leia mais

INFORMAÇÃO PROVA DE EQUIVALÊNCIA À FREQUÊNCIA. Prova

INFORMAÇÃO PROVA DE EQUIVALÊNCIA À FREQUÊNCIA. Prova INFORMAÇÃO PROVA DE EQUIVALÊNCIA À FREQUÊNCIA Espanhol - Prova Escrita e Prova Oral Prova 375 2017 11º Ano de Escolaridade (Decreto-lei nº 139/2012 de 5 de Julho) O presente documento visa divulgar a informação

Leia mais

Aulão TJ-SP. Português Professores: Júnia Andrade e Marco Antônio (Macarrão) 1

Aulão TJ-SP. Português Professores: Júnia Andrade e Marco Antônio (Macarrão)  1 Aulão TJ-SP Português - 2017 Professores: Júnia Andrade e Marco Antônio (Macarrão) www.pontodosconcursos.com.br 1 Português para o TJ-SP 1. Programa oficial 1. Análise, compreensão e interpretação de diversos

Leia mais

INFORMAÇÃO-PROVA DE EQUIVALÊNCIA À FREQUÊNCIA

INFORMAÇÃO-PROVA DE EQUIVALÊNCIA À FREQUÊNCIA Ano Letivo 2013/2014 INFORMAÇÃO-PROVA DE EQUIVALÊNCIA À FREQUÊNCIA Decreto-Lei n.º 139/2012, de 5 de julho Disciplina: Português Prova/Código: 139 Ano(s) de Escolaridade: 12º Ano 1. Introdução O presente

Leia mais

INFORMAÇÃO Prova de Equivalência à Frequência 3º Ciclo do Ensino Básico Decreto Lei n.º 139/2012, de 5 de julho

INFORMAÇÃO Prova de Equivalência à Frequência 3º Ciclo do Ensino Básico Decreto Lei n.º 139/2012, de 5 de julho AGRUPAMENTO DE ESCOLAS Dr.ª LAURA AYRES INFORMAÇÃO Prova de Equivalência à Frequência 3º Ciclo do Ensino Básico Decreto Lei n.º 139/2012, de 5 de julho Disciplina: ESPANHOL Código: 15 Tipo de Exame: Escrita

Leia mais

Descrição da Escala Língua Portuguesa - 7 o ano EF

Descrição da Escala Língua Portuguesa - 7 o ano EF Os alunos do 7º ano do Ensino Fundamental 150 identificam a finalidade de produção do texto, com auxílio de elementos não verbais e das informações explícitas presentes em seu título, em cartaz de propaganda

Leia mais

Objectivos / Competências Conteúdos Descrição dos itens

Objectivos / Competências Conteúdos Descrição dos itens MATRIZ DA PROVA DE EXAME A NÍVEL DE ESCOLA AO ABRIGO DO DECRETO-LEI Nº 357/07, DE 29 DE OUTUBRO ESPANHOL NÍVEL DE INICIAÇÃO 12.º ANO (Cursos Científicos- Humanísticos Decreto Lei nº 74/04, de 26 de Março)

Leia mais

Extração de Alvos em Comentários de Notícias em Português baseada na Teoria da Centralização

Extração de Alvos em Comentários de Notícias em Português baseada na Teoria da Centralização Proceedings of Symposium in Information and Human Language Technology. Natal, RN, Brazil, November 4 7, 2015. c 2015 Sociedade Brasileira de Computação. Extração de Alvos em Comentários de Notícias em

Leia mais

CTCH DEPARTAMENTO DE LETRAS

CTCH DEPARTAMENTO DE LETRAS CTCH DEPARTAMENTO DE LETRAS CATEGORIAS FUNCIONAIS NO DESENVOLVIMENTO LINGUÍSTICO E NO QUADRO DE DEL (DÉFICIT ESPECIFICAMENTE LINGUÍSTICO): EXPLORANDO SEMELHANÇAS E DISTINÇÕES ENTRE DEL E DÉFICIT DE APRENDIZAGEM

Leia mais

INFORMAÇÃO DE EXAME A NÍVEL DE ESCOLA EQUIVALENTE A NACIONAL Secundário - 1.ª e 2.ª FASES CÓDIGO: 847

INFORMAÇÃO DE EXAME A NÍVEL DE ESCOLA EQUIVALENTE A NACIONAL Secundário - 1.ª e 2.ª FASES CÓDIGO: 847 2015/2016 ANO DE ESCOLARIDADE: 11.º ANO DURAÇÃO DO EXAME: 120 minutos TOLERÂNCIA: 30 minutos INFORMAÇÃO DE EXAME A NÍVEL DE ESCOLA EQUIVALENTE A NACIONAL Secundário - 1.ª e 2.ª FASES CÓDIGO: 847 DISCIPLINA:

Leia mais

INFORMAÇÃO DE PROVA EQUIVALENTE A EXAME NACIONAL

INFORMAÇÃO DE PROVA EQUIVALENTE A EXAME NACIONAL INFORMAÇÃO DE PROVA EQUIVALENTE A EXAME NACIONAL Espanhol Continuação (Bienal)- Prova Escrita Prova 847 2016 Duração da Prova: 120 minutos. Tolerância: 30 minutos 11º Ano de Escolaridade (Decreto-lei nº

Leia mais

Informação Prova de Equivalência à Frequência Espanhol

Informação Prova de Equivalência à Frequência Espanhol Informação Prova de Equivalência à Frequência Espanhol Prova 368 2016 10.º e 11.º Anos de Escolaridade (Continuação) O presente documento visa divulgar informação relativa à prova de Equivalência à Frequência,

Leia mais

Ferramenta de apoio a identificação de eventos utilizando Linguagem Natural. Aluno: Ricardo Tomelin Orientador: Everaldo Artur Grahl

Ferramenta de apoio a identificação de eventos utilizando Linguagem Natural. Aluno: Ricardo Tomelin Orientador: Everaldo Artur Grahl Ferramenta de apoio a identificação de eventos utilizando Linguagem Natural Aluno: Ricardo Tomelin Orientador: Everaldo Artur Grahl Roteiro 1. Introdução 2. Objetivos 3. Análise Essencial de Sistemas 4.

Leia mais

Anexo B Relação de Assuntos Pré-Requisitos à Matrícula

Anexo B Relação de Assuntos Pré-Requisitos à Matrícula Anexo B Relação de Assuntos Pré-Requisitos à Matrícula MINISTÉRIO DA DEFESA EXÉRCITO BRASILEIRO DEPARTAMENTO DE EDUCAÇÃO E CULTURA DO EXÉRCITO DIRETORIA DE EDUCAÇÃO PREPARATÓRIA E ASSISTENCIAL 6º ANO Ensino

Leia mais

Sistemas Baseados em Conhecimento

Sistemas Baseados em Conhecimento Sistemas Baseados em Conhecimento Profa. Josiane M. P. Ferreira Baseado no capítulo 2 do livro Sistemas Inteligentes Fundamentos de Aplicações, organizadção: Solange Oliveira Rezende, ed. Manole, 2005.

Leia mais

A resolução de anáforas pronominais da língua portuguesa com base no algoritmo de Mitkov

A resolução de anáforas pronominais da língua portuguesa com base no algoritmo de Mitkov UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS E DE TECNOLOGIA PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO A resolução de anáforas pronominais da língua portuguesa com base no algoritmo

Leia mais

Processos de Software by Pearson Education Ian Sommerville 2006 Engenharia de Software, 8ª. edição. Capítulo 4 Slide 1

Processos de Software by Pearson Education Ian Sommerville 2006 Engenharia de Software, 8ª. edição. Capítulo 4 Slide 1 Processos de Software Ian Sommerville 2006 Engenharia de Software, 8ª. edição. Capítulo 4 Slide 1 Objetivos Apresentar modelos de processos de software Descrever três modelos genéricos de processo e quando

Leia mais

MINISTÉRIO DA DEFESA EXÉRCITO BRASILEIRO DEPARTAMENTO DE EDUCAÇÃO E CULTURA DO EXÉRCITO DIRETORIA DE EDUCAÇÃO PREPARATÓRIA E ASSISTENCIAL

MINISTÉRIO DA DEFESA EXÉRCITO BRASILEIRO DEPARTAMENTO DE EDUCAÇÃO E CULTURA DO EXÉRCITO DIRETORIA DE EDUCAÇÃO PREPARATÓRIA E ASSISTENCIAL MINISTÉRIO DA DEFESA EXÉRCITO BRASILEIRO DEPARTAMENTO DE EDUCAÇÃO E CULTURA DO EXÉRCITO DIRETORIA DE EDUCAÇÃO PREPARATÓRIA E ASSISTENCIAL 6º ANO Ensino Fundamental Língua Portuguesa 2) Inferir o sentido

Leia mais

Prova ampliada em formato digital (ficheiro em pdf.), com o tipo de letra Areal, tamanho 16 e espaçamento de 1,5.

Prova ampliada em formato digital (ficheiro em pdf.), com o tipo de letra Areal, tamanho 16 e espaçamento de 1,5. INFORMAÇÃO DE EXAME A NÍVEL DE ESCOLA PORTUGUÊS ANO LETIVO 2012/2013 TIPO DE PROVA: Escrita CÓDIGO DA PROVA: 527 ANO: 12º Decreto-Lei nº3 / 2008,Decreto-Lei n.º 139/2012, de 5 de julho, a Portaria Nº 243/

Leia mais

Informação - Prova de Equivalência à Frequência

Informação - Prova de Equivalência à Frequência Informação - Prova de Equivalência à Frequência 12º Ano de Escolaridade [Dec.Lei nº 139/2012] Cursos Científico-Humanísticos Prova 358 / 2016 Inglês (Continuação anual) 1ª e 2ª Fases A prova é composta

Leia mais

Descrição da Escala Língua Portuguesa - 9 o ano EF

Descrição da Escala Língua Portuguesa - 9 o ano EF Os alunos do 9º ano do Ensino Fundamental 175 identificam os elementos constitutivos da organização interna do gênero, em receita culinária; localizam itens explícitos de informação, relativos à descrição

Leia mais

Seleção de Atributos 1

Seleção de Atributos 1 Seleção de Atributos 1 Tópicos Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Seleção de atributos antes do aprendizado Benefícios Abordagens automáticas

Leia mais

sintaticamente relevante para a língua e sobre os quais o sistema computacional opera. O resultado da computação lingüística, que é interno ao

sintaticamente relevante para a língua e sobre os quais o sistema computacional opera. O resultado da computação lingüística, que é interno ao 1 Introdução A presente dissertação tem como tema a aquisição do modo verbal no Português Brasileiro (PB). Tal pesquisa foi conduzida, primeiramente, por meio de um estudo dos dados da produção espontânea

Leia mais

INFORMAÇÃO Prova de Equivalência à Frequência Ensino Secundário Decreto Lei n.º 139/2012, de 5 de julho. AGRUPAMENTO DE ESCOLAS Dr.

INFORMAÇÃO Prova de Equivalência à Frequência Ensino Secundário Decreto Lei n.º 139/2012, de 5 de julho. AGRUPAMENTO DE ESCOLAS Dr. AGRUPAMENTO DE ESCOLAS Dr.ª LAURA AYRES INFORMAÇÃO Prova de Equivalência à Frequência Ensino Secundário Decreto Lei n.º 139/2012, de 5 de julho Disciplina: ESPANHOL Código: 368 (11º Ano) Tipo de Exame:

Leia mais

847- ESPANHOL (NÍVEL- CONTINUAÇÃO 10.º/ 11.º ANO)

847- ESPANHOL (NÍVEL- CONTINUAÇÃO 10.º/ 11.º ANO) 847- ESPANHOL (NÍVEL- CONTINUAÇÃO 10.º/ 11.º ANO) FORMAÇÃO ESPECÍFICA 1ª/2ª FASE 1.INTRODUÇÃO O presente documento visa divulgar as características do Exame de Espanhol a nível de escola a realizar em

Leia mais

PROGRAMAÇÃO DE PORTUGUÊS C1

PROGRAMAÇÃO DE PORTUGUÊS C1 POGAMAÇÃO D POTUGUÊS C1 OBJTIVOS GAIS O aprendente do nível C1 é capaz de compreender um vasto número de textos longos e exigentes, reconhecendo os seus significados implícitos. É capaz de se exprimir

Leia mais

Informação-Prova de Equivalência à Frequência

Informação-Prova de Equivalência à Frequência Informação-Prova de Equivalência à Frequência 3º Ciclo do Ensino Básico Prova de Equivalência à Frequência de Francês LEII código 16 ( Desp. Normativo nº1- A/2017) Ano letivo 2016/2017 PROVA ESCRITA e

Leia mais

2.8. Alusão histórica 3. A afirmação da tese e a impessoalização do discurso 4. Exercícios 5. Atividade de produção textual

2.8. Alusão histórica 3. A afirmação da tese e a impessoalização do discurso 4. Exercícios 5. Atividade de produção textual SUMÁRIO CAPÍTULO I NOÇÕES GERAIS DE TIPOLOGIA TEXTUAL 1. A definição de tipo textual 1.1. Texto narrativo 1.2. Texto descritivo 1.3. Texto injuntivo 1.4. Texto dialogal 1.5. Texto dissertativo 2. Elaborando

Leia mais

UNIVERSIDADE DO ESTADO DO PARÁ LÍNGUA PORTUGUESA e REDAÇÃO PROSEL/ PRISE 1ª ETAPA

UNIVERSIDADE DO ESTADO DO PARÁ LÍNGUA PORTUGUESA e REDAÇÃO PROSEL/ PRISE 1ª ETAPA LÍNGUA PORTUGUESA e REDAÇÃO PROSEL/ PRISE 1ª ETAPA 1. Confrontar opiniões e pontos de vista sobre as diferentes manifestações da linguagem verbal e não verbal. 1.2. Depreender, através de leitura do texto,

Leia mais

Língua Portuguesa UNIDADE DE REVISÃO E RECUPERAÇÃO

Língua Portuguesa UNIDADE DE REVISÃO E RECUPERAÇÃO Língua Portuguesa UNIDADE DE REVISÃO E RECUPERAÇÃO Organizamos esta unidade para orientá-lo na revisão dos conteúdos trabalhados ao longo da disciplina. Siga as orientações desta apresentação, reveja os

Leia mais

Avaliação de Centering em Resolução Pronominal da Língua Portuguesa

Avaliação de Centering em Resolução Pronominal da Língua Portuguesa Avaliação de Centering em Resolução Pronominal da Língua Portuguesa Ana Margarida Aires 1, Jorge Cesar B. Coelho 2, Sandra Collovini 2, Paulo Quaresma 1 e Renata Vieira 2 1 Universidade de Évora, Departamento

Leia mais

Indexação automática. CBD/ECA Indexação: teoria e prática

Indexação automática. CBD/ECA Indexação: teoria e prática Indexação automática CBD/ECA Indexação: teoria e prática Indexação documentária Identificar pela análise dos documentos, os seus assuntos extrair os conceitos que indicam o seu conteúdo traduzir os conceitos

Leia mais

Informação-Prova de Equivalência à Frequência

Informação-Prova de Equivalência à Frequência Agrupamento de Escolas Fernão de Magalhães Informação-Prova de Equivalência à Frequência Exame de Equivalência à Frequência Espanhol 11º Ano Nível de Iniciação Prova 375 2017 Ensino Secundário I Introdução

Leia mais

CAPÍTULO 1 O ESTUDO DAS PALAVRAS

CAPÍTULO 1 O ESTUDO DAS PALAVRAS Índice CAPÍTULO 1 O ESTUDO DAS PALAVRAS LIÇÃO 1 FONÉTICA...3 1.1. Fonema e letra... 3 1.2. Divisão dos fonemas... 3 1.3. Classificação dos fonemas... 4 1.4. Encontro vocálico... 5 1.5. Encontro consonantal...

Leia mais

CAPÍTULO I NOÇÕES GERAIS DE TIPOLOGIA TEXTUAL

CAPÍTULO I NOÇÕES GERAIS DE TIPOLOGIA TEXTUAL CAPÍTULO I NOÇÕES GERAIS DE TIPOLOGIA TEXTUAL... 23 1. A definição de tipo textual... 23 1.1. Texto narrativo... 23 1.2. Texto descritivo... 24 1.3. Texto injuntivo... 25 1.4. Texto dialogal... 26 1.5.

Leia mais

Metodologia Científica. Aula 8 Estrutura de Artigos Científicos

Metodologia Científica. Aula 8 Estrutura de Artigos Científicos Metodologia Científica Aula 8 Estrutura de Artigos Científicos Profa. Ms. Daniela Cartoni daniela_cartoni@yahoo.com.br Artigos científicos De acordo com a ABNT (NBR 6022, 2003): Artigo científico é parte

Leia mais

Informação - Prova de Equivalência à Frequência

Informação - Prova de Equivalência à Frequência Direção de Serviços da Região Norte Informação - Prova de Equivalência à Frequência 11º Ano de Escolaridade [Dec.Lei nº 139/2012] Cursos Científico-Humanísticos Prova 367 2013 Inglês (Continuação bienal)

Leia mais

CRITÉRIOS DE AVALIAÇÃO E CLASSIFICAÇÃO Disciplina: Português

CRITÉRIOS DE AVALIAÇÃO E CLASSIFICAÇÃO Disciplina: Português CRITÉRIOS DE AVALIAÇÃO E CLASSIFICAÇÃO Disciplina: Português Ensino Básico Ano letivo: 16/17 5º ANO Perfil de Aprendizagens Específicas O aluno é capaz: Domínios Interpretar discursos orais breves (Referir

Leia mais

SUMÁRIO. Língua Portuguesa. Pronome: classificação, emprego, colocação dos pronomes pessoais oblíquos átonos, formas de tratamento...

SUMÁRIO. Língua Portuguesa. Pronome: classificação, emprego, colocação dos pronomes pessoais oblíquos átonos, formas de tratamento... Língua Portuguesa Compreensão Textual... 3 Ortografia... 15 Semântica... 27 Morfologia... 30 Sintaxe... 59 Compreensão e interpretação de textos... 3 Variação linguística... 7 Gêneros de texto... 9 Coerência

Leia mais

Informação PROVA ESCRITA 1 - INTRODUÇÃO

Informação PROVA ESCRITA 1 - INTRODUÇÃO AGRUPAMENTO ESCOLAS PROFESSOR CARLOS TEIXEIRA Código 150502 Prova Escrita de Equivalência à Frequência de Espanhol Informação Prova 15 2019 9º Ano / 3.º Ciclo do Ensino Básico (Despacho Normativo nº 3-A/2019,

Leia mais

AGRUPAMENTO DE ESCOLAS PADRE BARTOLOMEU DE GUSMÃO

AGRUPAMENTO DE ESCOLAS PADRE BARTOLOMEU DE GUSMÃO AGRUPAMENTO DE ESCOLAS PADRE BARTOLOMEU DE GUSMÃO ESCOLA JOSEFA DE ÓBIDOS ANO LETIVO 2015/2016 INFORMAÇÃO PROVA DE EQUIVALÊNCIA À FREQUÊNCIA DO 3º CICLO DO ENSINO BÁSICO Língua Estrangeira II - Espanhol

Leia mais

Descrição da Escala Língua Portuguesa - 5 o ano EF

Descrição da Escala Língua Portuguesa - 5 o ano EF Os alunos do 5º ano do Ensino Fundamental < 125 identificam o sentido de expressão típica da fala coloquial utilizada em segmento de história em quadrinhos; e o local em que se desenrola o enredo, em anedota.

Leia mais

Informação Prova Prova código 376 de Francês II (LE III)

Informação Prova Prova código 376 de Francês II (LE III) Informação Prova Prova código 376 de Francês II (LE III) Prova de Equivalência à Frequência do Ensino Secundário Decreto-Lei n.º 139/2012, de 5 de julho Despacho normativo n.º 1-A/2017, de 10 de fevereiro

Leia mais

INFORMAÇÃO PROVA DE EQUIVALÊNCIA À FREQUÊNCIA

INFORMAÇÃO PROVA DE EQUIVALÊNCIA À FREQUÊNCIA INFORMAÇÃO PROVA DE EQUIVALÊNCIA À FREQUÊNCIA INGLÊS Prova 06 2015 ------------------------------------------------------------------------------------------------------------------------------- 2º Ciclo

Leia mais

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU Organizaçãoe Recuperaçãode Informação GSI521 Prof. Dr. Rodrigo Sanches Miani FACOM/UFU Pré-processamento de documentos Organização e Recuperação de Informação(GSI521) Introdução O pré-processamento de

Leia mais

(1) A análise dos resultados experimentais indicaram um efeito principal de número do núcleo interveniente no processamento da concordância.

(1) A análise dos resultados experimentais indicaram um efeito principal de número do núcleo interveniente no processamento da concordância. 1 Introdução A presente tese tem como tema o processamento da concordância de número entre sujeito e verbo na produção de sentenças e está vinculada ao Projeto Explorando relações de interface língua-sistemas

Leia mais

Aula 01 Planejamento de uma Pesquisa

Aula 01 Planejamento de uma Pesquisa Aula 01 Planejamento de uma Pesquisa Stela Adami Vayego - DEST/UFPR 1 Etapas usuais de uma pesquisa empírica Tema, definição do problema, objetivos,... Planejamento da pesquisa Metolo- -logia estatística

Leia mais

2 - B1 Produção Escrita - Essay - Início 11/02/2019 Término 08/04/2019 Segunda-feira 13h30-17h30 (sala 33) Carga Horária: 32h

2 - B1 Produção Escrita - Essay - Início 11/02/2019 Término 08/04/2019 Segunda-feira 13h30-17h30 (sala 33) Carga Horária: 32h Professor Bernardo Olavo de Oliveira 1 - A0 Interações Cotidianas em Língua Inglesa (Curso presencial com o uso do MEO1) - Início 12/02/2019 Término 06/06/2019 Terça-feira e quinta-feira 18h - 20h (sala

Leia mais

SBC - Sistemas Baseados em Conhecimento

SBC - Sistemas Baseados em Conhecimento Siglas, Símbolos, Abreviaturas DW - Data Warehouse KDD Knowledge Discovery in Database MD Mineração de Dados OLAP - On-line analytical processing SBC - Sistemas Baseados em Conhecimento 1. INTRODUÇÃO O

Leia mais

Aplicação de uma Técnica Tradicional de Expansão de Consulta ao Modelo TR+

Aplicação de uma Técnica Tradicional de Expansão de Consulta ao Modelo TR+ Pontifícia Universidade Católica do Rio Grande do Sul Faculdade de Informática Programa de Pós-Graduação em Ciência da Computação Aplicação de uma Técnica Tradicional de Expansão de Consulta ao Modelo

Leia mais

Objectivos / Competências Conteúdos Descrição dos Domínios de referência: Unidades temáticas

Objectivos / Competências Conteúdos Descrição dos Domínios de referência: Unidades temáticas MATRIZ DA PROVA DE EXAME A NÍVEL DE ESCOLA AO ABRIGO DO DECRETO-LEI Nº 357/07, DE 29 DE OUTUBRO ESPANHOL NÍVEL DE INICIAÇÃO 10º ANO (Cursos Científicos- Humanísticos Decreto Lei nº 74/04, de 26 de Março)

Leia mais

Descrição da Escala Língua Portuguesa - 3 a série EM

Descrição da Escala Língua Portuguesa - 3 a série EM Os alunos 3ª série do Ensino Médio 200 localizam itens explícitos de informação, relativos à descrição de características de determinado fenômeno ou fato, em artigo de opinião, infográfico, notícia e mapa;

Leia mais

Realizam a prova alunos autopropostos que se encontram abrangidos pelos planos de estudo instituídos pelo Decreto-Lei n.º 139/2012, de 5 de julho.

Realizam a prova alunos autopropostos que se encontram abrangidos pelos planos de estudo instituídos pelo Decreto-Lei n.º 139/2012, de 5 de julho. Agrupamento de Escolas Padre João Coelho Cabanita INFORMAÇÃO PROVA DE EQUIVALÊNCIA À FREQUÊNCIA ESPANHOL 2016 Prova 15 3.º Ciclo do Ensino Básico Ao abrigo do Despacho normativo n.º 1-G/2016, de 6 de abril

Leia mais

Português. Língua Não Materna (B1) 1. Introdução. Informação n.º Data: Para: Prova 64/94/

Português. Língua Não Materna (B1) 1. Introdução. Informação n.º Data: Para: Prova 64/94/ Prova Final / Prova de Exame Nacional de Português Língua Não Materna (B1) Prova 64/94/839 2012 6.º Ano, 9.º Ano ou 12.º Ano de Escolaridade Para: Direção-Geral de Inovação e de Desenvolvimento Curricular

Leia mais

ABORDAGENS COMPUTACIONAIS da teoria da gramática

ABORDAGENS COMPUTACIONAIS da teoria da gramática 1 9 7 2 5 0 ABORDAGENS COMPUTACIONAIS da teoria da gramática 1 9 7 2 5 0 Leonel Figueiredo de Alencar Gabriel de Ávila Othero (organizadores) ABORDAGENS COMPUTACIONAIS da teoria da gramática 1 9 7 2 5

Leia mais

Informação-Prova de Equivalência à Frequência

Informação-Prova de Equivalência à Frequência Agrupamento de Escolas Fernão de Magalhães Chaves Informação-Prova de Equivalência à Frequência Exame de Equivalência à Frequência Espanhol LE II Prova 15 2017 3.º Ciclo do Ensino Básico I Introdução O

Leia mais

Prova Escrita de ESPANHOL Iniciação Bienal

Prova Escrita de ESPANHOL Iniciação Bienal INFORMAÇÃO - PROVA DE EQUIVALÊNCIA À FREQUÊNCIA DO ENSINO SECUNDÁRIO Decreto Lei n.º 74/2004, de 26 de março Prova Escrita de ESPANHOL Iniciação Bienal 10.º / 11.º Anos de Escolaridade ESTRUTURA DA PROVA

Leia mais

Coesão e coerência no jornal Diário Gaúcho: um estudo exploratório

Coesão e coerência no jornal Diário Gaúcho: um estudo exploratório XXII Salão de Iniciação Científica UFRGS Coesão e coerência no jornal Diário Gaúcho: um estudo exploratório Ana Maria Sigas Pichini Graduanda Letras / Bacharelado Voluntária de IC PROPESQ UFRGS Profª Drª

Leia mais

Descrição da Escala Língua Portuguesa - 3 a série EM

Descrição da Escala Língua Portuguesa - 3 a série EM Os alunos da 3 a série do Ensino Médio 200 localizam itens explícitos de informação, relativos à descrição de características de determinado fenômeno ou fato, em artigo de opinião, infográfico, notícia

Leia mais

DEPARTAMENTO DE LÍNGUAS - Grupo de Português Planificação Anual /Critérios de avaliação

DEPARTAMENTO DE LÍNGUAS - Grupo de Português Planificação Anual /Critérios de avaliação DOMÍNIOS (Módulos) Conteúdos Objetivos Estratégias/ recursos Leitura: - Distinguir a matriz discursiva - Interpretação de linguagem verbal e Avaliação (1) : instrumentos/ pesos 70%: Calendariz ação (aulas)

Leia mais

Castro (2008, p.7) define a palavra ontologia de forma mais simplificada:

Castro (2008, p.7) define a palavra ontologia de forma mais simplificada: Recuperação de Informação baseada em Castro (2008, p.7) define a palavra ontologia de forma mais simplificada: Ela é o resultado da junção de dois termos gregos onta (entes) e logos (teoria, discurso,

Leia mais

ESPANHOL (LE II) 2017

ESPANHOL (LE II) 2017 INFORMAÇÃO PROVA DE EQUIVALÊNCIA À FREQUÊNCIA ESPANHOL (LE II) 2017 Prova 368 Tipo de Prova: Escrita e Oral Ensino Secundário (Decreto-Lei n.º 139/2012, de 5 de julho) Introdução O presente documento visa

Leia mais

H003 Compreender a importância de se sentir inserido na cultura escrita, possibilitando usufruir de seus benefícios.

H003 Compreender a importância de se sentir inserido na cultura escrita, possibilitando usufruir de seus benefícios. 2ª Língua Portuguesa 5º Ano E.F. Objeto de Estudo Usos e funções: código oral e código escrito Usos e funções: código oral e código escrito Usos e funções: norma-padrão e variedades linguísticas. Usos

Leia mais