O Corpus CSTNews e sua Complementaridade Temporal

Tamanho: px
Começar a partir da página:

Download "O Corpus CSTNews e sua Complementaridade Temporal"

Transcrição

1 O Corpus CSTNews e sua Complementaridade Temporal Jackson W. C. Souza 1,3, Ariani Di Felippo 2,3 1 Programa de Pós-graduação em Linguística e Língua Portuguesa (PPGL/UFSCar) 2 Departamento de Letras (DL) - Universidade Federal de São Carlos (UFSCar) Caixa Postal São Carlos, SP, Brasil 3 Núcleo Interinstitucional de Linguística Computacional NILC Inst. de Ciências Matemáticas e de Computação (ICMC) - Universidade de São Paulo (USP) Caixa Postal São Carlos, SP, Brasil {jackcruzsouza, arianidf}@gmail.com Resumo. O corpus CSTNews é o recurso linguístico que tem subsidiado as pesquisas sobre Sumarização Automática Multidocumento (SAM) envolvendo o português. Dentre suas inúmeras anotações, destaca-se que os textos-fonte estão conectados pelas relações do modelo Cross-document Structure Theory. Neste artigo, investigar-se-ão as relações Follow-up e Historical background, que expressam diferentes tipos de complementaridade temporal. Especificamente, analisa-se a ocorrência de expressões temporais nas sentenças anotadas por essas relações com o objetivo de caracterizar linguisticamente o CSTNews, gerando conhecimento para a SAM, como a classificação automática dessas relações semântico-estruturais. Palavras-chave: sumarização multidocumento, relações CST, complementariedade temporal, corpus multidocumento. 1 Introdução No Processamento Automático das Línguas Naturais (PLN), a importância dos recursos linguísticos é amplamente reconhecida. Dentre eles, destacam-se os corpora, ou seja, conjuntos de dados linguístico-textuais coletados criteriosamente com o propósito de servirem para a pesquisa de uma língua ou variedade linguística [1]. Assim definidos, os corpora permitem o estudo da língua e a consequente definição manual de regras ou o aprendizado estatístico das mesmas. Para a Sumarização Automática Multidocumento (SAM), os pesquisadores do PLN no Brasil têm utilizado amplamente o CSTNews [2], corpus com 50 coleções ou grupos de textos. Cada coleção contém basicamente (i) 2 ou 3 notícias jornalísticas sobre um mesmo assunto compiladas de fontes distintas e (ii) 1 sumário humano multidocumento. As coleções possuem em média 42 sentenças e os sumários humanos multidocumento possuem em média 7 sentenças. Ademais, as coleções estão categorizadas pelos rótulos das seções dos jornais dos quais os textos foram compilados. Assim, o corpus possui coleções das seguintes categorias: esporte (10 coleções), mundo (14 coleções), dinheiro (1 coleção), política (10 coleções), ciência (1 coleção) e cotidiano (14 coleções).

2 O CSTNews possui diversas anotações. Dentre elas, destaca-se que os textos-fonte foram manualmente interconectados em cada coleção pelas relações da Crossdocument Structure Theory (CST) [3]. A CST é uma teoria semântico-discursiva que permite relacionar em pares segmentos de diferentes textos que abordam um mesmo assunto, explicitando informações redundantes, complementares e/ou contraditórias, diferenças de estilo de escrita, ordenação temporal dos eventos/fato, etc. A partir dessa explicitação, tem-se desenvolvidos métodos de SAM que não selecionam sentenças redundantes ou contraditórias para compor o sumário, mas selecionam sentenças complementares. Dada a importância da CST, tem-se focado a identificação automática das relações na SAM. O parser discursivo CSTParser [4], desenvolvido para o português, por exemplo, identifica as relações de complementaridade entre 2 sentenças com aproximadamente 70% de precisão, baseando-se apenas na similaridade lexical entre elas. Neste artigo, investigar-se-ão as relações Follow-up e Historical background, que expressam diferentes tipos de complementaridade temporal. Analisar-se-á a ocorrência de expressões temporais (ETs) nas sentenças anotadas por essas relações, objetivando-se caracterizar o CSTNews e gerar conhecimento para a SAM, como regras e/ou classificação automática dessas relações previstas pelo modelo CST. Na Seção 2, apresentam-se as relações de complementariedade temporal, Followup e Historical background. Na Seção 3, descreve-se a análise das relações do modelo CST no CSTNews. Por fim, na Seção 4, tecem-se os comentários finais. 2 As relações CST e as Expressões Temporais no CSTNews A partir da anotação do CSTNews, propôs-se uma tipologia na qual as relações foram classificadas em relações de conteúdo e relações de forma [2]. As relações de conteúdo são de redundância, complemento ou contradição. As relações de forma dizem respeito à fonte/autoria ou estilo. As relações de complementaridade dividemse em temporais ou atemporais. As temporais são Follow-up e Historical background. Follow-up ocorre quando, dado um par de sentenças e, apresenta acontecimentos/eventos que sucederam os acontecimentos/eventos presentes em ; os acontecimentos em e em devem ser relacionados e ter um espaço de tempo relativamente curto entre si, como em (1). Historical background ocorre quando apresenta informações históricas/passadas sobre algum elemento de, como em (2). (1) Follow-up (2) Historical background A pista auxiliar de Congonhas abriu às 6h, apenas para decolagens. Congonhas só abriu para pousos, às 8h50. Um acidente aéreo na localidade de Bukavu, no leste da República Democrática do Congo (RDC), matou 17 pessoas na quinta-feira à tarde, informou nesta sexta-feira um porta-voz das Nações Unidas. Acidentes aéreos são frequentes no Congo, onde 51 companhias privadas operam com aviões antigos principalmente fabricados na

3 antiga União Soviética. Como mencionado, o CSTNews possui uma gama variada de anotações. Uma delas consiste na identificação das ETs [5]. Para a anotação das ETs, utilizou-se a tipologia de [6]. De acordo com essa tipologia, as ETs são de 4 tipos: (i) tempo calendário, (ii) frequência (p.ex.: Ocorrerá entre os dias 29 e 31 de julho ), (iii) duração (p.ex.: O Natal é comemorado todo ano ) e (iv) genérico (p.ex.: Eu gosto do mês de julho ). As ETs que expressam tempo calendário são de 3 subtipos: (i) hora (p.ex.: Ele chegou às 9h30m), (ii) data e (iii) intervalo (p.ex.: Entre junho e julho ). E, por fim, as ETs do subtipo data são: (i) enunciação (p.ex.: Partiu em março ), (ii) textual (p.ex.: Um dia após a venda ) e (iii) absoluto (p.ex.: O acidente ocorreu em fevereiro de 2002 ). Tendo em vista a explicitação dessas expressões, analisou-se a ocorrência das ETs nos pares de sentenças do CSTNews anotados pelas relações de complementariedade temporal com o objetivo de verificar se essas relações no CSTNews caracterizam-se pela ocorrência de expressões temporais de tipos específicos, a fim de depreender conhecimento linguístico específico para a classificação automática dessas relações. Na sequência, descreve-se a análise de corpus. 3 Análise de corpus Do total de 380 pares de sentenças anotados com as relações Follow-up e Historical background, apenas 114 pares foram analisados manualmente até o momento, ou seja, 30%. Nesses 114 pares, constatou-se: a) as ETs ocorrem em 38 dos 57 pares anotados com Follow-up (ETs de hora e data ); ou seja, essas expressões estão presentes em 66,6% dos pares; b) a informação temporal nos pares de Follow-up também é indicada por outros mecanismos linguísticos. Por exemplo, em (3), a informação temporal é expressa por uma oração subordinada adverbial, iniciada pela conjunção quando ; isso foi observado em 19 dos 57 pares (ou seja, em 33,3% dos pares); (3) Todos morreram quando o avião, prejudicado pelo mau tempo, não conseguiu chegar à pista de aterrissagem e caiu numa floresta a 15 quilômetros do aeroporto de Bukavu. O avião acidentado, operado pela Air Traset, levava 14 passageiros e três tripulantes. c) as ETs ocorrem em 47 dos 57 pares anotados com Historical background (ETs de data e duração ). Ou seja, a frequência de ETs nesses pares é de 82,4%. Em (4), por exemplo, ambas as sentenças do par apresentam expressões temporais ( em julho do ano passado, em, e naquele horário, em ); Em julho do ano passado, a média foi de 36 km no horário. Naquele horário, segundo a CET (Companhia de Engenharia de Tráfego), havia (4) 110 km de congestionamento em toda a cidade enquanto a média para o horário era de 76 km. d) as ETs do tipo tempo calendário ocorrem tanto nos pares anotados com Followup, como nos pares conectados por Historical background;

4 e) as ETs do subtipo data ocorrem em 42 dos 57 pares cujas sentenças estão relacionadas por Historical background, ou seja, a frequência de ETs do subtipo data é de 73,6%; f) as ETs do subtipo hora ocorrem em 24 dos 57 pares cujas sentenças estão relacionadas Follow-up, ou seja, essas ETs ocorrem em 42,1% desses pares. Na Tabela 1, sistematiza-se a ocorrência das informações temporais (ETs ou outros) nas sentenças do CSTNews anotadas com Follow-up e Historical background. Tabela 1. Expressão de tempo nas relações de complementaridade temporal do CSTNews. Mecanismo linguístico Relação Expressão Temporal Total de CST Tempo calendário Outro 1 pares Frequência Duração Hora Data Follow-up Historical background Visando a criação de classificadores para a identificação das relações CST, com base em técnicas de aprendizado automático (simbólico e sistema de regras), elegeu-se o ambiente Weka (Waikato Environment for Knowledge Analysis) [7], o qual possui tais técnicas de aprendizado automático. O subcorpus foi pré-processado, a fim de gerar dados em formato adequado ao Weka. Para a classificação, foram utilizadas as ETs descritas na Tabela 1. Utilizaram-se os algoritmos J48 (simbólico) e PART (sistema de regras). O algoritmo J48, que indica quais atributos são utilizados para a classificação de dadas relações CST, obteve 79.8% de precisão, e permite observar que (i) a relação Historical background é caracterizada pelas ETs data, frequência e duração ; e que (ii) a relação Follow-up é caracterizada pela ET hora. O algoritmo PART obteve precisão de 78%, e permite observar que, dado um par de sentenças, se a ET utilizada for do subtipo data, então a relação é Historical background; se outra ET for utilizada, então se trata da relação Follow-up. 4 Considerações finais A análise manual em questão permitiu verificar que as relações Follow-up e Historical background caracterizam-se de forma distinta quanto à ocorrência de ETs. Além disso, os testes no Weka permitiram gerar regras para a identificação automática das relações de complementariedade temporal por meio de pistas na superfície textual. Agradecimentos Agradecemos à FAPESP e à CAPES pelo suporte financeiro. 1 Indica mecanismos linguísticos como os ilustrados em (3), que são se referem às ETs.

5 Referências 1. Sardinha, B. T. Linguística de Corpus. Barueri, SP: Editora Manole. (2004) 2. Cardoso, P.C.F.; Maziero, E.G.; Jorge, M.L.C.; Seno, E.M.R.; Di Felippo, A.; Rino, L.H.M.; Nunes, M.G.V.; Pardo, T.A.S. CSTNews - A Discourse-Annotated Corpus for Single and Multi-Document Summarization of News Texts in Brazilian Portuguese. In the Proceedings of the 3rd RST Brazilian Meeting, pp Cuiabá/Brazil. (2011) 3. Radev, D. R. A common theory of information fusion from multiple text sources, step one: cross-document structure. In: Acl Sigdial Workshop On Discourse And Dialogue. Proceedings, Hong Kong. (2000) 4. Maziero, E. G.; Pardo, T. A. S. CSTParser a multi-document discourse parser Menezes Filho, L.A. Pardo, T.A.S. Detecção de Expressões Temporais no Contexto de Sumarização Automática. In the Proceedings of the 2nd STIL Student Workshop on Information and Human Language Technology, pp Cuiabá/ Brasil. (2011) 6. Baptista, J.; Hagège, C.; Mamede, N. Identificação, classificação e normalização de expressões temporais do português: A experiência do segundo HAREM e o futuro. Em C. Mota e D. Santos (eds.), Desafios na avaliação conjunta do reconhecimento de entidades mencionadas: O Segundo HAREM. Linguateca. (2008) 7. Frank, E. Witten, I. H.; Hall, M. A. Data Mining: Pratical Machine Learning Toos and Techniques. 3a Ed. MK. Waikato (2011)

Em Busca de Métodos de Detecção da Complementaridade para a Sumarização Automática Multidocumento

Em Busca de Métodos de Detecção da Complementaridade para a Sumarização Automática Multidocumento Em Busca de Métodos de Detecção da Complementaridade para a Sumarização Automática Multidocumento Jackson Wilke da Cruz Souza 1,2, Ariani Di Felippo 1,2 1 Núcleo Interinstitucional de Linguística Computacional

Leia mais

Em Direção à Caracterização da Complementaridade no Corpus Multidocumento CSTNews

Em Direção à Caracterização da Complementaridade no Corpus Multidocumento CSTNews Em Direção à Caracterização da Complementaridade no Corpus Multidocumento CSTNews Jackson Souza 1,3, Ariani Di Felippo 1,2 1 Núcleo Interinstitucional de Linguística Computacional (NILC) Caixa Postal 668

Leia mais

Enriquecendo o Córpus CSTNews a Criação de Novos Sumários Multidocumento

Enriquecendo o Córpus CSTNews a Criação de Novos Sumários Multidocumento Enriquecendo o Córpus CSTNews a Criação de Novos Sumários Multidocumento 1 Márcio S. Dias, 1 Alessandro Y. Bokan Garay, 2 Carla Chuman, 3 Cláudia D. Barros, 1 Erick G. Maziero, 1 Fernando A. A. Nobrega,

Leia mais

ALINHAMENTO MANUAL DE TEXTOS E SUMÁRIOS EM UM CORPUS JORNALÍSTICO MULTIDOCUMENTO

ALINHAMENTO MANUAL DE TEXTOS E SUMÁRIOS EM UM CORPUS JORNALÍSTICO MULTIDOCUMENTO ALINHAMENTO MANUAL DE TEXTOS E SUMÁRIOS EM UM CORPUS JORNALÍSTICO MULTIDOCUMENTO 1. Introdução Com o imenso volume de informação disponível na web, necessita-se de estratégias que permitam absorvê-la de

Leia mais

Em Direção à Caracterização de Sumários Humanos Multidocumento

Em Direção à Caracterização de Sumários Humanos Multidocumento Em Direção à Caracterização de Sumários Humanos Multidocumento Renata Tironi de Camargo 1,2, Ariani Di Felippo 1,2, Thiago A. S. Pardo 2 1 Departamento de Letras (DL) Centro de Educação e Ciências Humanas

Leia mais

O Desenvolvimento de um Sistema Computacional de Sumarização Multidocumento com Base em um Método Linguisticamente Motivado

O Desenvolvimento de um Sistema Computacional de Sumarização Multidocumento com Base em um Método Linguisticamente Motivado O Desenvolvimento de um Sistema Computacional de Sumarização Multidocumento com Base em um Método Linguisticamente Motivado Guilherme Gonçalves, Thiago Alexandre Salgueiro Pardo Núcleo Interinstitucional

Leia mais

Alinhamento do CSTNews Processo, manual, tipos, exemplos, problemas

Alinhamento do CSTNews Processo, manual, tipos, exemplos, problemas Renata Tironi de Camargo (PPGL/NILC) Verônica Agostini (ICMC/NILC) Orientadores: Ariani Di Felippo Thiago A. S. Pardo 1 Alinhamento O que é, onde é usado, tipos Propostas de mestrado Alinhamento do CSTNews

Leia mais

Sumarização Automática Multidocumento

Sumarização Automática Multidocumento I m p l e m e n t a ç ã o d e u m M é t o d o L i n g u í s t i c o p a r a a S u m a r i za ç ã o A u t o m á t i c a M u l t i d oc u m e n t o Guilherme Gonçalves, Thiago A. S. Pardo Núcleo Interinstitucional

Leia mais

INVESTIGAÇÃO DO FENÔMENO DA COMPLEMENTARIDADE PARA A SUMARIZAÇÃO AUTOMÁTICA MULTIDOCUMENTO

INVESTIGAÇÃO DO FENÔMENO DA COMPLEMENTARIDADE PARA A SUMARIZAÇÃO AUTOMÁTICA MULTIDOCUMENTO INVESTIGAÇÃO DO FENÔMENO DA COMPLEMENTARIDADE PARA A SUMARIZAÇÃO AUTOMÁTICA MULTIDOCUMENTO JACKSON WILKE DA CRUZ SOUZA SÃO CARLOS 2014 RESUMO A Sumarização Automática Multidocumento (SAM) é uma alternativa

Leia mais

Investigação de Métodos de Identificação de Redundância para a Sumarização Automática Multidocumento

Investigação de Métodos de Identificação de Redundância para a Sumarização Automática Multidocumento Investigação de Métodos de Identificação de Redundância para a Sumarização Automática Multidocumento Jackson Souza (jackcruzsouza@gmail.com) 01/08/2011 a 31/07/2012 Orientação: Profa. Dra. Ariani Di Felippo

Leia mais

SCC5908 Tópicos em Processamento de Língua Natural. Necessidade de lidar com grande quantidade de textos/documentos

SCC5908 Tópicos em Processamento de Língua Natural. Necessidade de lidar com grande quantidade de textos/documentos DISCURSO PARTE 3 SCC5908 Tópicos em Processamento de Língua Natural Thiago A. S. Pardo MUDANÇA DE PERSPECTIVA Web e explosão de informação Necessidade de lidar com grande quantidade de textos/documentos

Leia mais

CSTNews: um Córpus de Textos Jornalísticos Anotados segundo a Teoria Discursiva Multidocumento CST (Cross-document Structure Theory)

CSTNews: um Córpus de Textos Jornalísticos Anotados segundo a Teoria Discursiva Multidocumento CST (Cross-document Structure Theory) Universidade de São Paulo - USP Universidade Federal de São Carlos - UFSCar Universidade Estadual Paulista - UNESP CSTNews: um Córpus de Textos Jornalísticos Anotados segundo a Teoria Discursiva Multidocumento

Leia mais

TeMário 2006: Estendendo o Córpus TeMário

TeMário 2006: Estendendo o Córpus TeMário Universidade de São Paulo - USP Universidade Federal de São Carlos - UFSCar Universidade Estadual Paulista - UNESP TeMário 2006: Estendendo o Córpus TeMário Erick Galani Maziero Vinícius Rodrigues de Uzêda

Leia mais

CARACTERIZAÇÃO DA COMPLEMENTARIDADE TEMPORAL: SUBSÍDIOS PARA SUMARIZAÇÃO AUTOMÁTICA MULTIDOCUMENTO

CARACTERIZAÇÃO DA COMPLEMENTARIDADE TEMPORAL: SUBSÍDIOS PARA SUMARIZAÇÃO AUTOMÁTICA MULTIDOCUMENTO CARACTERIZAÇÃO DA COMPLEMENTARIDADE TEMPORAL: SUBSÍDIOS PARA SUMARIZAÇÃO AUTOMÁTICA MULTIDOCUMENTO Jackson Wilke da Cruz SOUZA * Ariani Di FELIPPO ** RESUMO: A complementaridade é um fenômeno multidocumento

Leia mais

NEPaLE: Uma ferramenta computacional de suporte à avaliação de paráfrases

NEPaLE: Uma ferramenta computacional de suporte à avaliação de paráfrases NEPaLE: Uma ferramenta computacional de suporte à avaliação de paráfrases Rafael de Oliveira Teixeira 1, Eloize Rossi Marques Seno 1, Helena de Medeiros Caseli 2 1 Instituto Federal de São Paulo câmpus

Leia mais

Caracterização linguística de sumários humanos multidocumento: explorando o nível lexical

Caracterização linguística de sumários humanos multidocumento: explorando o nível lexical Universidade de São Paulo - USP Universidade Federal de São Carlos - UFSCar Universidade Estadual Paulista - UNESP Caracterização linguística de sumários humanos multidocumento: explorando o nível lexical

Leia mais

CSTTool: Uma ferramenta semi-automática para anotação de córpus pela teoria discursiva multidocumento CST

CSTTool: Uma ferramenta semi-automática para anotação de córpus pela teoria discursiva multidocumento CST Universidade de São Paulo - USP Universidade Federal de São Carlos - UFSCar Universidade Estadual Paulista - UNESP CSTTool: Uma ferramenta semi-automática para anotação de córpus pela teoria discursiva

Leia mais

GistSumm GIST SUMMarizer: Extensões e Novas Funcionalidades

GistSumm GIST SUMMarizer: Extensões e Novas Funcionalidades Universidade de São Paulo - USP Universidade Federal de São Carlos - UFSCar Universidade Estadual Paulista - UNESP GistSumm GIST SUMMarizer: Extensões e Novas Funcionalidades Thiago Alexandre Salgueiro

Leia mais

Métodos para Sumarização Automática Multidocumento Usando Modelos Semântico-Discursivos

Métodos para Sumarização Automática Multidocumento Usando Modelos Semântico-Discursivos Métodos para Sumarização Automática Multidocumento Usando Modelos Semântico-Discursivos Paula C. F. Cardoso, Thiago A. S. Pardo, Maria das Graças V. Nunes Núcleo Interinstitucional de Linguística Computacional

Leia mais

ANOTAÇÃO DE SENTIDOS DE VERBOS EM NOTÍCIAS JORNALÍSTICAS EM PORTUGUÊS DO BRASIL

ANOTAÇÃO DE SENTIDOS DE VERBOS EM NOTÍCIAS JORNALÍSTICAS EM PORTUGUÊS DO BRASIL ANOTAÇÃO DE SENTIDOS DE VERBOS EM NOTÍCIAS JORNALÍSTICAS EM PORTUGUÊS DO BRASIL 1 Marco A. Sobrevilla Cabezudo, 1 Erick G. Maziero, 2 Jackson W. C. Souza, 1 Márcio S. Dias, 1 Paula C. F. Cardoso, 1 Pedro

Leia mais

Manual Alignment of Texts and Summaries in a Multidocument

Manual Alignment of Texts and Summaries in a Multidocument Manual Alignment of Texts and Summaries in a Multidocument Corpus of News Articles (Alinhamento Manual de Textos e Sumários em um Corpus Jornalístico Multidocumento) 1,2 Verônica Agostini 1,3 Renata Tironi

Leia mais

SUMARIZAÇÃO AUTOMÁTICA MULTIDOCUMENTO

SUMARIZAÇÃO AUTOMÁTICA MULTIDOCUMENTO SUMARIZAÇÃO AUTOMÁTICA MULTIDOCUMENTO Thiago A. S. Pardo Núcleo Interinstitucional de Lingüística Computacional Instituto de Ciências Matemáticas e de Computação Universidade de São Paulo SUMARIZAÇÃO MONODOCUMENTO

Leia mais

Estratégias de Seleção de Conteúdo com Base na CST (Cross-document Structure Theory) para Sumarização Automática Multidocumento

Estratégias de Seleção de Conteúdo com Base na CST (Cross-document Structure Theory) para Sumarização Automática Multidocumento Estratégias de Seleção de Conteúdo com Base na CST (Cross-document Structure Theory) para Sumarização Automática Multidocumento Maria Lucia del Rosario Castro Jorge, Thiago Alexandre Salgueiro Pardo Núcleo

Leia mais

Pedro Paulo Balage Filho

Pedro Paulo Balage Filho Interface Web para o projeto: Sumarização Automática Multidocumento para o Português do Brasil com Base na Teoria de Estruturação Multidocumento CST (Cross-documentStructure Theory) Pedro Paulo Balage

Leia mais

Operações de Retextualização e Reescrita. Processos e Reflexões humanas

Operações de Retextualização e Reescrita. Processos e Reflexões humanas Operações de Retextualização e Reescrita Processos e Reflexões humanas Introdução A retextualização está nas atividades cotidianas, nos mais diversos modos : Anotação de aulas; Contando alguma notícia,

Leia mais

Automatização de um Método de Avaliação de Estruturas Retóricas

Automatização de um Método de Avaliação de Estruturas Retóricas Automatização de um Método de Avaliação de Estruturas Retóricas Erick Galani Maziero (erickgm@grad.icmc.usp.br) Thiago Alexandre Salgueiro Pardo (taspardo@icmc.usp.br) Núcleo Interinstitucional de Lingüística

Leia mais

Extração de paráfrases em português a partir de léxicos bilíngues: um estudo de caso

Extração de paráfrases em português a partir de léxicos bilíngues: um estudo de caso Extração de paráfrases em português a partir de léxicos bilíngues: um estudo de caso Paulo César Polastri 1,2, Helena de Medeiros Caseli 1,2, Eloize Rossi Marques Seno 2,3 1 Departamento de Computação,

Leia mais

O código do modelo de mapeamento sintático-conceitual do sistema ConPor

O código do modelo de mapeamento sintático-conceitual do sistema ConPor Universidade de São Paulo - USP Universidade Federal de São Carlos - UFSCar Universidade Estadual Paulista - UNESP O código do modelo de mapeamento sintático-conceitual do sistema ConPor Lucia Specia Lucia

Leia mais

Implementação de um Modelo para Previsão de Evasão Escolar no IFSULDEMINAS

Implementação de um Modelo para Previsão de Evasão Escolar no IFSULDEMINAS 6ª Jornada Científica e Tecnológica e 3º Simpósio de Pós-Graduação do IFSULDEMINAS 04 e 05 de novembro de 2014, Pouso Alegre/MG Implementação de um Modelo para Previsão de Evasão Escolar no IFSULDEMINAS

Leia mais

Geração de Modelo para Reconhecimento de Entidades Nomeadas no OpenNLP

Geração de Modelo para Reconhecimento de Entidades Nomeadas no OpenNLP Geração de Modelo para Reconhecimento de Entidades Nomeadas no OpenNLP Gabriel C. Chiele 1, Evandro Fonseca 1, Renata Vieira 1 1 Faculdade de Informática Pontifícia Universidade Católica do Rio Grande

Leia mais

Anotação de subtópicos do córpus multidocumento CSTNews

Anotação de subtópicos do córpus multidocumento CSTNews Núcleo Interinstitucional de Linguística Computacional - NILC Anotação de subtópicos do córpus multidocumento CSTNews Relatório Técnico NILC-TR-12-07 Paula C. F. Cardoso, Amanda P. Rassi, Erick G. Maziero,

Leia mais

Fusão Automática de Sentenças Similares em Português

Fusão Automática de Sentenças Similares em Português Fusão Automática de Sentenças Similares em Português Eloize Rossi Marques Seno, Maria das Graças Volpe Nunes NILC ICMC Unisidade de São Paulo Caixa Postal 668 13560-970 São Carlos SP Brasil {eloize,gracan}@icmc.usp.br

Leia mais

6 Atributos. A dívida da empresa subiu.

6 Atributos. A dívida da empresa subiu. 6 Atributos Para buscar o sentimento de um texto automaticamente precisamos encontrar boas pistas ao longo do discurso. Uma grande variedade de palavras e expressões possui conotação positiva ou negativa,

Leia mais

Identificação de Pontos Perceptualmente Importantes (PIP) em séries temporais de tópicos extraídos de dados textuais

Identificação de Pontos Perceptualmente Importantes (PIP) em séries temporais de tópicos extraídos de dados textuais Universidade de São Paulo Biblioteca Digital da Produção Intelectual - BDPI Departamento de Ciências de Computação - ICMC/SCC Comunicações em Eventos - ICMC/SCC 2015 Identificação de Pontos Perceptualmente

Leia mais

Investigação do Fenômeno da Redundância na Sumarização Automática Multidocumento

Investigação do Fenômeno da Redundância na Sumarização Automática Multidocumento Universidade de São Paulo - USP Universidade Federal de São Carlos - UFSCar Universidade Estadual Paulista - UNESP Investigação do Fenômeno da Redundância na Sumarização Automática Multidocumento Jackson

Leia mais

Recapitulando... Abordagens: PLN. Abordagens: PLN 29/03/2012. Introdução ao Processamento de Línguas Naturais. Distribuição de palavras

Recapitulando... Abordagens: PLN. Abordagens: PLN 29/03/2012. Introdução ao Processamento de Línguas Naturais. Distribuição de palavras Introdução ao Processamento de Línguas Naturais SCC5908 Introdução ao Processamento de Língua Natural Thiago A. S. Pardo Recapitulando... Abordagens superficiais vs. profundas Simbolismo vs. estatística

Leia mais

Análise Automática de Coerência Textual em Resumos Científicos: Avaliando Quebras de Linearidade

Análise Automática de Coerência Textual em Resumos Científicos: Avaliando Quebras de Linearidade Proceedings of Symposium in Information and Human Language Technology. Natal, RN, Brazil, November 4 7, 2015. c 2015 Sociedade Brasileira de Computação. Análise Automática de Coerência Textual em Resumos

Leia mais

Descrição e Análise do Fenômeno da Contradição para a Sumarização Automática Multidocumento

Descrição e Análise do Fenômeno da Contradição para a Sumarização Automática Multidocumento Universidade de São Paulo - USP Universidade Federal de São Carlos - UFSCar Universidade Estadual Paulista - UNESP Descrição e Análise do Fenômeno da Contradição para a Sumarização Automática Multidocumento

Leia mais

COMPARANDO SUMÁRIOS DE REFERÊNCIA HUMANOS COM EXTRATOS IDEAIS NO PROCESSO DE AVALIAÇÃO DE SUMÁRIOS EXTRATIVOS

COMPARANDO SUMÁRIOS DE REFERÊNCIA HUMANOS COM EXTRATOS IDEAIS NO PROCESSO DE AVALIAÇÃO DE SUMÁRIOS EXTRATIVOS COMPARANDO SUMÁRIOS DE REFERÊNCIA HUMANOS COM EXTRATOS IDEAIS NO PROCESSO DE AVALIAÇÃO DE SUMÁRIOS EXTRATIVOS Carlos Henrique Delgado UBM Universidade de Barra mansa Barra Mansa Rio de Janeiro Brasil henrique_chd@yahoo.com.br

Leia mais

Desambiguação Lexical de Sentido com uso de Informação Multidocumento por meio de Redes de Co-ocorrência

Desambiguação Lexical de Sentido com uso de Informação Multidocumento por meio de Redes de Co-ocorrência Desambiguação Lexical de Sentido com uso de Informação Multidocumento por meio de Redes de Co-ocorrência Fernando Antônio A. Nóbrega, Thiago A. Salgueiro Pardo Núcleo Interinstitucional de Linguística

Leia mais

TeMário: Um Corpus para Sumarização Automática de Textos

TeMário: Um Corpus para Sumarização Automática de Textos Universidade de São Paulo - USP Universidade Federal de São Carlos - UFSCar Universidade Estadual Paulista - UNESP TeMário: Um Corpus para Sumarização Automática de Textos Thiago Alexandre Salgueiro Pardo

Leia mais

Sumarização Automática para Simplificação de Textos: Experimentos e Lições Aprendidas

Sumarização Automática para Simplificação de Textos: Experimentos e Lições Aprendidas Sumarização Automática para Simplificação de Textos: Experimentos e Lições Aprendidas Paulo R. A. Margarido, Thiago A. S. Pardo e Sandra M. Aluísio Núcleo Interinstitucional de Lingüística Computacional

Leia mais

Alinhamento Manual dos Sumários Humanos e dos Textos-Fonte do Corpus Multidocumento CSTNews

Alinhamento Manual dos Sumários Humanos e dos Textos-Fonte do Corpus Multidocumento CSTNews Núcleo Interinstitucional de Linguística Computacional NILC Universidade de São Paulo - USP Universidade Federal de São Carlos UFSCar Alinhamento Manual dos Sumários Humanos e dos Textos-Fonte do Corpus

Leia mais

Uma abordagem de classificação automática para Tipo de Pergunta e Tipo de Resposta

Uma abordagem de classificação automática para Tipo de Pergunta e Tipo de Resposta Uma abordagem de classificação automática para Tipo de Pergunta e Tipo de Resposta Patricia Nunes Gonçalves 1, António Horta Branco 1 1 Faculdade de Ciências da Universidade de Lisboa Lisboa - Portugal

Leia mais

Encontro 10 Anos da Linguateca PROPOR 2008 Aveiro Portugal

Encontro 10 Anos da Linguateca PROPOR 2008 Aveiro Portugal Marcirio Silveira Chaves Pólo XLDB da Linguateca LaSIGE Departamento de Informática Faculdade de Ciências da Universidade de Lisboa Encontro 10 Anos da Linguateca PROPOR 2008 Aveiro Portugal 9/16/08 1

Leia mais

Introdução ao Processamento de Línguas Naturais. SCC5908 Introdução ao Processamento de Língua Natural. Thiago A. S. Pardo

Introdução ao Processamento de Línguas Naturais. SCC5908 Introdução ao Processamento de Língua Natural. Thiago A. S. Pardo /0/0 Introdução ao Processamento de Línguas Naturais SCC5908 Introdução ao Processamento de Língua Natural Thiago A. S. Pardo Dilemas no Brasil Como lidar com a interdisciplinaridade Linda no papel, complicada

Leia mais

Reconhecimento e normalização de expressões temporais no HAREM 2. C. Hagège J. Baptista e N. Mamede

Reconhecimento e normalização de expressões temporais no HAREM 2. C. Hagège J. Baptista e N. Mamede Reconhecimento e normalização de expressões temporais no HAREM 2 C. Hagège ( France ) Xerox Research Centre Europe, Grenoble J. Baptista e N. Mamede ( Portugal ) L2f INESC-ID Lisboa Plano da apresentação

Leia mais

Prof. Heitor Silvério Lopes

Prof. Heitor Silvério Lopes Prof. Heitor Silvério Lopes WEKA WEKA: Waikato Environment for Knowledge Analysis Iniciado em 1992, versão estável atual: 3.8.1 É um software para mineração de dados desenvolvido em Java com código aberto

Leia mais

Explorando Métodos de Uso Geral para Desambiguação Lexical de Sentidos para a Língua Portuguesa

Explorando Métodos de Uso Geral para Desambiguação Lexical de Sentidos para a Língua Portuguesa Explorando Métodos de Uso Geral para Desambiguação Lexical de Sentidos para a Língua Portuguesa Fernando Antônio A. Nóbrega 1, Thiago A. Salgueiro Pardo 1 1 Núcleo Interinstitucional de Linguística Computacional

Leia mais

PLN e áreas correlatas

PLN e áreas correlatas Introdução ao Processamento de Línguas Naturais SCC5869 Tópicos em Processamento de Língua Natural Thiago A. S. Pardo PLN e áreas correlatas Limites entre PLN e outras áreas: como percebem isso? Recuperação

Leia mais

CORPUS PARALELO E CORPUS PARALELO ALINHADO: PROPRIEDADES E APLICAÇÕES (PARALLEL CORPUS AND ALIGNED PARALLEL CORPUS: FEATURES AND APPLICATIONS)

CORPUS PARALELO E CORPUS PARALELO ALINHADO: PROPRIEDADES E APLICAÇÕES (PARALLEL CORPUS AND ALIGNED PARALLEL CORPUS: FEATURES AND APPLICATIONS) CORPUS PARALELO E CORPUS PARALELO ALINHADO: PROPRIEDADES E APLICAÇÕES (PARALLEL CORPUS AND ALIGNED PARALLEL CORPUS: FEATURES AND APPLICATIONS) Helena de Medeiros CASELI (PG Universidade de São Paulo São

Leia mais

Exploração de métodos de sumarização automática multidocumento com base em conhecimento semânticodiscursivo. Paula Christina Figueira Cardoso

Exploração de métodos de sumarização automática multidocumento com base em conhecimento semânticodiscursivo. Paula Christina Figueira Cardoso Exploração de métodos de sumarização automática multidocumento com base em conhecimento semânticodiscursivo Paula Christina Figueira Cardoso SERVIÇO DE PÓS-GRADUAÇÃO DO ICMC-USP Data de Depósito: Assinatura:

Leia mais

Identificação automática de relações multidocumento. Erick Galani Maziero

Identificação automática de relações multidocumento. Erick Galani Maziero Identificação automática de relações multidocumento Erick Galani Maziero SERVIÇO DE PÓS-GRADUAÇÃO DO ICMC-USP Data de Depósito: Assinatura: Identificação automática de relações multidocumento Erick Galani

Leia mais

03/12/2010 DISCURSO PARTE 3. SCC5869 Tópicos em Processamento de Língua Natural. Thiago A. S. Pardo VEINS THEORY (CRISTEA ET AL.

03/12/2010 DISCURSO PARTE 3. SCC5869 Tópicos em Processamento de Língua Natural. Thiago A. S. Pardo VEINS THEORY (CRISTEA ET AL. DICURO PARTE 3 CC5869 Tópicos em Processamento de Língua atural Thiago A.. Pardo VEI THEORY (CRITEA ET AL., 1998) 1 TEORIA DA VEIA Para cada unidade discursiva, identificam-se veias na estrutura discursiva

Leia mais

O tratamento da partícula se para fins de anotação de papéis semânticos

O tratamento da partícula se para fins de anotação de papéis semânticos O tratamento da partícula se para fins de anotação de papéis semânticos Magali Sanches Duran, Sandra Maria Aluísio Núcleo Interinstitucional de Linguística Computacional ICMC Universidade de São Paulo

Leia mais

ORDENAÇÃO DE SENTENÇAS EM SUMÁRIOS MULTIDOCUMENTO

ORDENAÇÃO DE SENTENÇAS EM SUMÁRIOS MULTIDOCUMENTO Universidade de São Paulo - USP ORDENAÇÃO DE SENTENÇAS EM SUMÁRIOS MULTIDOCUMENTO Jader Bruno Pereira Lima Thiago Alexandre Salgueiro Pardo NILC-TR-12-02 Junho, 2012 Série de Relatórios do Núcleo Interinstitucional

Leia mais

EDITOR DE ANOTAÇÃO DE SIMPLIFICAÇÃO: MANUAL DO USUÁRIO

EDITOR DE ANOTAÇÃO DE SIMPLIFICAÇÃO: MANUAL DO USUÁRIO Universidade de São Paulo USP Universidade Federal de São Carlos UFSCar Universidade Estadual Paulista UNESP EDITOR DE ANOTAÇÃO DE SIMPLIFICAÇÃO: MANUAL DO USUÁRIO Helena de Medeiros Caseli Tiago de Freitas

Leia mais

SEMÂNTICA PARTE 3 ANÁLISE SEMÂNTICA 14/06/2012. SCC5908 Tópicos em Processamento de Língua Natural. Até agora, significado da sentença

SEMÂNTICA PARTE 3 ANÁLISE SEMÂNTICA 14/06/2012. SCC5908 Tópicos em Processamento de Língua Natural. Até agora, significado da sentença SEMÂNTICA PARTE 3 SCC5908 Tópicos em Processamento de Língua Natural Thiago A. S. Pardo ANÁLISE SEMÂNTICA Até agora, significado da sentença Rhumba closed. e Closing(e) Closed(e,Rhumba) 2 1 ANÁLISE SEMÂNTICA

Leia mais

CSTTool: um parser multidocumento automático para o Português do Brasil

CSTTool: um parser multidocumento automático para o Português do Brasil CSTTool: um parser multidocumento automático para o Português do Brasil Priscila Aleixo, Thiago Alexandre Salgueiro Pardo Núcleo Interinstitucional de Lingüística Computacional (NILC) Instituto de Ciências

Leia mais

Realiter, Rio de Janeiro 2006

Realiter, Rio de Janeiro 2006 Sandra Maria Aluísio (ICMC-USP) Ieda Maria Alves (FFLCH-USP) Mariangela de Araujo (FFLCH-USP) Bruno Oliveira Maroneze (PG-FFLCH-USP) Thiago A. S. Pardo (ICMC-USP) Esta exposição tem a finalidade de apresentar

Leia mais

Análise Automática de Coerência Usando o Modelo Grade de Entidades para o Português

Análise Automática de Coerência Usando o Modelo Grade de Entidades para o Português Análise Automática de Coerência Usando o Modelo Grade de Entidades para o Português Alison R. P. Freitas, Valéria D. Feltrim 1 Departamento de Informática Universidade Estadual de Maringá (UEM) Av. Colombo,

Leia mais

Lucía Castro & Lucia Rino

Lucía Castro & Lucia Rino Lucía Castro & Lucia Rino Owczarzak, Karolina; Dang, Hoa Trang (2011). Who wrote What Where: Analyzing the content of human and automatic summaries. Proc. of the Workshop on Automatic Summarization for

Leia mais

Problemas de Escrita. Graça Nunes Thiago Pardo

Problemas de Escrita. Graça Nunes Thiago Pardo Problemas de Escrita Graça Nunes Thiago Pardo Qual é o problema? A transformada de Hough é um algoritmo muito conhecido em visão computacional, mas a sua aplicação em alguns sistemas de tempo real é proibitiva,

Leia mais

Padrão de uso de adjetivos nos jornais Diário Gaúcho e Zero Hora

Padrão de uso de adjetivos nos jornais Diário Gaúcho e Zero Hora Padrão de uso de adjetivos nos jornais Diário Gaúcho e Zero Hora Integra a pesquisa PADRÕES DO PORTUGUÊS POPULAR ESCRITO: O VOCABULÁRIO DO JORNAL DIÁRIO GAÚCHO - FASE 1 Bruna Rodrigues da Silva PIBIC-CNPq-UFRGS

Leia mais

Alinhamento automático de textos e sumários multidocumento. Verônica Agostini

Alinhamento automático de textos e sumários multidocumento. Verônica Agostini Alinhamento automático de textos e sumários multidocumento Verônica Agostini II SERVIÇO DE PÓS GRADUAÇÃO DO ICMC USP Data de Depósito: Assinatura: Alinhamento automático de textos e sumários multidocumento

Leia mais

Tipificação Manual do Alinhamento do Córpus CSTNews

Tipificação Manual do Alinhamento do Córpus CSTNews Tipificação Manual do Alinhamento do Córpus CSTNews Renata Tironi de Camargo Verônica Agostini Grupo de Sumarização Automática ALINHAMENTO Exemplo com sobreposição lexical Sumário: Antes de chegar à Jamaica,

Leia mais

Mapeamento da Comunidade Brasileira de Processamento de Línguas Naturais

Mapeamento da Comunidade Brasileira de Processamento de Línguas Naturais Mapeamento da Comunidade Brasileira de Processamento de Línguas Naturais Thiago Alexandre Salgueiro Pardo, Helena de Medeiros Caseli 2, Maria das Graças Volpe Nunes Instituto de Ciências Matemáticas e

Leia mais

Matéria: Desenho e desenvolvimento de tecnologias linguísticas

Matéria: Desenho e desenvolvimento de tecnologias linguísticas Introdução às tecnologias linguísticas Pablo Gamallo Otero Departamento de Língua Espanhola Universidade de Santiago de Compostela Matéria: Desenho e desenvolvimento de tecnologias linguísticas Mestrado

Leia mais

1 Introdução. 1 CÂMARA JR., J.M, Estrutura da língua portuguesa, p Ibid. p. 88.

1 Introdução. 1 CÂMARA JR., J.M, Estrutura da língua portuguesa, p Ibid. p. 88. 1 Introdução A categoria tempo é um dos pontos mais complexos dos estudos em língua portuguesa. Por se tratar de um campo que envolve, sobretudo, conceitos igualmente complexos como semântica e interpretação

Leia mais

Sumarização multidocumento com base em aspectos informativos. Alessandro Yovan Bokan Garay

Sumarização multidocumento com base em aspectos informativos. Alessandro Yovan Bokan Garay Sumarização multidocumento com base em aspectos informativos Alessandro Yovan Bokan Garay SERVIÇO DE PÓS-GRADUAÇÃO DO ICMC-USP Data de Depósito: Assinatura: Alessandro Yovan Bokan Garay Sumarização multidocumento

Leia mais

INVESTIGAÇÃO DE ESTRATÉGIAS DE SUMARIZAÇÃO HUMANA MULTIDOCUMENTO. Renata Tironi de Camargo

INVESTIGAÇÃO DE ESTRATÉGIAS DE SUMARIZAÇÃO HUMANA MULTIDOCUMENTO. Renata Tironi de Camargo INVESTIGAÇÃO DE ESTRATÉGIAS DE SUMARIZAÇÃO HUMANA MULTIDOCUMENTO Renata Tironi de Camargo SÃO CARLOS 2013 UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE EDUCAÇÃO E CIÊNCIAS HUMANAS PROGRAMA DE PÓS-GRADUAÇÃO

Leia mais

Eloize Rossi Marques Seno

Eloize Rossi Marques Seno Eloize Rossi Marques Seno SERVIÇO DE PÓS-GRADUAÇÃO DO ICMC-USP Data de Depósito: Assinatura: Eloize Rossi Marques Seno Orientadora: Profa. Dra. Maria das Graças Volpe Nunes Tese apresentada ao Instituto

Leia mais

Alinhamento Sentencial e Lexical de Córpus Paralelos: Recursos para a Tradução Automática

Alinhamento Sentencial e Lexical de Córpus Paralelos: Recursos para a Tradução Automática Alinhamento Sentencial e Lexical de Córpus Paralelos: Recursos para a Tradução Automática Helena de Medeiros Caseli 1, Maria das Graças Volpe Nunes 1 1 Núcleo Interinstitucional de Lingüística Computacional

Leia mais

RECOGNITION AND CLASSIFICATION OF NAMED ENTITIES FOR THE DEVELOPMENT OF AN ABBREVIATIONS DICTIONARY FROM BRAZILIAN HISTORICAL PORTUGUESE

RECOGNITION AND CLASSIFICATION OF NAMED ENTITIES FOR THE DEVELOPMENT OF AN ABBREVIATIONS DICTIONARY FROM BRAZILIAN HISTORICAL PORTUGUESE RECONHECIMENTO E CLASSIFICAÇÃO DE ENTIDADES NOMEADAS PARA O DESENVOLVIMENTO DE UM DICIONÁRIO ELETRÔNICO DE ABREVIATURAS DO PORTUGUÊS HISTÓRICO DO BRASIL RECOGNITION AND CLASSIFICATION OF NAMED ENTITIES

Leia mais

Análise Sintática de Frases utilizando Gramáticas Livres de Contexto Probabilísticas

Análise Sintática de Frases utilizando Gramáticas Livres de Contexto Probabilísticas Universidade de São Paulo Mestrado em Ciência da Computação Instituto de Matemática e Estatística Disciplina MAC5725 Lingüística Computacional Análise Sintática de Frases utilizando Gramáticas Livres de

Leia mais

Investigação de modelos de coerência local para sumários multidocumento. Márcio de Souza Dias

Investigação de modelos de coerência local para sumários multidocumento. Márcio de Souza Dias Investigação de modelos de coerência local para sumários multidocumento Márcio de Souza Dias SERVIÇO DE PÓS-GRADUAÇÃO DO ICMC-USP Data de Depósito: Assinatura: Márcio de Souza Dias Investigação de modelos

Leia mais

ESTUDOS DA TRADUÇÃO II. Prof. Carlos Rodrigues 11 de abril de 2015

ESTUDOS DA TRADUÇÃO II. Prof. Carlos Rodrigues 11 de abril de 2015 ESTUDOS DA TRADUÇÃO II Prof. Carlos Rodrigues 11 de abril de 2015 O que são corpora eletrônicos? Como os corpora eletrônicos contribuem com a atividade dos tradutores e intérpretes? Corpus/ Corpora? Corpora

Leia mais

Professor: Eduardo R. Hruschka Estagiário PAE: Luiz F. S. Coletta

Professor: Eduardo R. Hruschka Estagiário PAE: Luiz F. S. Coletta Professor: Eduardo R Hruschka Estagiário PAE: Luiz F S Coletta (luizfsc@icmcuspbr) Sumário Definição do projeto 1 Desenvolvimento de algoritmo de Aprendizado de Máquina (AM); 2 Pré-processamento dos dados;

Leia mais

SCC0173 Mineração de Dados Biológicos

SCC0173 Mineração de Dados Biológicos SCC0173 Mineração de Dados Biológicos Classificação I: Algoritmos 1Rule e KNN Prof. Ricardo J. G. B. Campello SCC / ICMC / USP 1 Créditos O material a seguir consiste de adaptações e extensões dos originais:

Leia mais

1.1 Tema Aprendizado de Máquina (Mit97) é o campo da Inteligência Artificial responsável pelo desenvolvimento de modelos inferidos automaticamente a

1.1 Tema Aprendizado de Máquina (Mit97) é o campo da Inteligência Artificial responsável pelo desenvolvimento de modelos inferidos automaticamente a 1 Introdução 1.1 Tema Aprendizado de Máquina (Mit97) é o campo da Inteligência Artificial responsável pelo desenvolvimento de modelos inferidos automaticamente a partir de dados. Existem diversas aplicações

Leia mais

Análise Linguística da Operação de Generalização na Sumarização Humana Multidocumento

Análise Linguística da Operação de Generalização na Sumarização Humana Multidocumento Universidade de São Paulo - USP Universidade Federal de São Carlos - UFSCar Universidade Estadual Paulista - UNESP Análise Linguística da Operação de Generalização na Sumarização Humana Multidocumento

Leia mais

Estudo e Avaliação da Seleção de Atributos para Pré-processamento no Processo de Mineração de Dados

Estudo e Avaliação da Seleção de Atributos para Pré-processamento no Processo de Mineração de Dados Estudo e Avaliação da Seleção de Atributos para Pré-processamento no Processo de Mineração de Dados Silvani Weber da Silva Borges 1 (PIBIC/CNPq/Unioeste), Renato B. Machado (Orientador), Newton Spolaôr

Leia mais

ELABORAÇÃO DE DICIONÁRIO ELETRÔNICO Mauro Rebello 1, Violeta de San Tiago Dantas Barbosa Quental 2.

ELABORAÇÃO DE DICIONÁRIO ELETRÔNICO Mauro Rebello 1, Violeta de San Tiago Dantas Barbosa Quental 2. DL - DEPARTAMENTO DE LETRAS ELABORAÇÃO DE DICIONÁRIO ELETRÔNICO Mauro Rebello 1, Violeta de San Tiago Dantas Barbosa Quental 2. 1 Aluno do curso de Letras da PUC-Rio 2 Professora e pesquisadora da área

Leia mais

Análise retórica com base em grande quantidade de dados. Erick Galani Maziero

Análise retórica com base em grande quantidade de dados. Erick Galani Maziero Análise retórica com base em grande quantidade de dados Erick Galani Maziero SERVIÇO DE PÓS-GRADUAÇÃO DO ICMC-USP Data de Depósito: Assinatura: Erick Galani Maziero Análise retórica com base em grande

Leia mais

UNIVERSIDADE DE SÃO PAULO Instituto de Ciências Matemáticas e de Computação ISSN

UNIVERSIDADE DE SÃO PAULO Instituto de Ciências Matemáticas e de Computação ISSN UNIVERSIDADE DE SÃO PAULO Instituto de Ciências Matemáticas e de Computação ISSN 0103-2569 IDENTIFICAÇÃO AUTOMÁTICA DE MACROASPECTOS EM TEXTOS JORNALÍSTICOS ALESSANDRO YOVAN BOKAN GARAY THIAGO ALEXANDRE

Leia mais

DIMENSIONAMENTO DA OFERTA ATUAL E FUTURA DO TRANSPORTE INTERCAMPI DA USP-SÃO CARLOS: UMA AVALIAÇÃO DE DIFERENTES CENÁRIOS

DIMENSIONAMENTO DA OFERTA ATUAL E FUTURA DO TRANSPORTE INTERCAMPI DA USP-SÃO CARLOS: UMA AVALIAÇÃO DE DIFERENTES CENÁRIOS DIMENSIONAMENTO DA OFERTA ATUAL E FUTURA DO TRANSPORTE INTERCAMPI DA USP-SÃO CARLOS: UMA AVALIAÇÃO DE DIFERENTES CENÁRIOS Bruno Almeida Maximino Cintia Isabel de Campos Cira Souza Pitombo Universidade

Leia mais

UNIVERSIDADE FEDERAL DE PERNAMBUCO CENTRO DE INFORMÁTICA GRADUAÇÃO EM ENGENHARIA DA COMPUTAÇÃO

UNIVERSIDADE FEDERAL DE PERNAMBUCO CENTRO DE INFORMÁTICA GRADUAÇÃO EM ENGENHARIA DA COMPUTAÇÃO UNIVERSIDADE FEDERAL DE PERNAMBUCO CENTRO DE INFORMÁTICA GRADUAÇÃO EM ENGENHARIA DA COMPUTAÇÃO Sistema de Sumarização Automática de Textos Baseado em Classes de Documentos PROPOSTA DE TRABALHO DE GRADUAÇÃO

Leia mais

Análise de Significância Estatística na Comparação entre Sistemas de Sumarização Automática

Análise de Significância Estatística na Comparação entre Sistemas de Sumarização Automática Universidade de São Paulo - USP Universidade Federal de São Carlos - UFSCar Universidade Estadual Paulista - UNESP Análise de Significância Estatística na Comparação entre Sistemas de Sumarização Automática

Leia mais

19 Congresso de Iniciação Científica INCLUSÃO DE UM NOVO ALGORITMO DE CLASSIFICAÇÃO NA FERRAMENTA KIRA

19 Congresso de Iniciação Científica INCLUSÃO DE UM NOVO ALGORITMO DE CLASSIFICAÇÃO NA FERRAMENTA KIRA 19 Congresso de Iniciação Científica INCLUSÃO DE UM NOVO ALGORITMO DE CLASSIFICAÇÃO NA FERRAMENTA KIRA Autor(es) MIRELA TEIXEIRA CAZZOLATO Orientador(es) MARINA TERESA PIRES VIEIRA Apoio Financeiro PIBIC/CNPQ

Leia mais

Introdução ao Processamento de Línguas Naturais. Thiago A. S. Pardo

Introdução ao Processamento de Línguas Naturais. Thiago A. S. Pardo Introdução ao Processamento de Línguas Naturais Thiago A. S. Pardo Núcleo Interinstitucional de Lingüística Computacional Instituto de Ciências Matemáticas e de Computação Universidade de São Paulo 1 Meta

Leia mais

O MÉTODO LAPELINC: ALIMENTAÇÃO DE DOCUMENTOS DO CORPUS DOViC NO APLICATIVO WEBSINC

O MÉTODO LAPELINC: ALIMENTAÇÃO DE DOCUMENTOS DO CORPUS DOViC NO APLICATIVO WEBSINC Página 69 de 510 O MÉTODO LAPELINC: ALIMENTAÇÃO DE DOCUMENTOS DO CORPUS DOViC NO APLICATIVO WEBSINC Amanda Moreno Fonsêca de Andrade (UESB/CNPq) Patrick Pereira Campos Brito (UESB) Jorge Viana Santos (UESB/CNPq)

Leia mais

ÍNDICE Capítulo 1. Avaliação conjunta Diana Santos Capítulo 2. Organização e resultados morfolímpicos Luís Costa, Paulo Rocha e Diana Santos

ÍNDICE Capítulo 1. Avaliação conjunta Diana Santos Capítulo 2. Organização e resultados morfolímpicos Luís Costa, Paulo Rocha e Diana Santos ÍNDICE Prefácio Lista dos capítulos Lista alfabética de autores Capítulo 1. Avaliação conjunta Diana Santos 1. Apresentação 2. O modelo da avaliação conjunta 2.1 Modelos de avaliação anteriores 2.2 Características

Leia mais

Modelagem gerativa para sumarização automática multidocumento. Maria Lucía del Rosario Castro Jorge

Modelagem gerativa para sumarização automática multidocumento. Maria Lucía del Rosario Castro Jorge Modelagem gerativa para sumarização automática multidocumento Maria Lucía del Rosario Castro Jorge SERVIÇO DE PÓS-GRADUAÇÃO DO ICMC-USP Data de Depósito: Assinatura: Modelagem gerativa para sumarização

Leia mais

Novas Ferramentas e Recursos Linguísticos para a Tradução Automática

Novas Ferramentas e Recursos Linguísticos para a Tradução Automática Novas Ferramentas e Recursos Linguísticos para a Tradução Automática Por ocasião d O Fim do Início de uma Nova Era no Processamento da Língua Portuguesa Anabela Barreiro barreiro_anabela@hotmail.com FLUP

Leia mais

Aplicação de métodos clássicos de Sumarização Automática no contexto multidocumento multilíngue: primeiras aproximações

Aplicação de métodos clássicos de Sumarização Automática no contexto multidocumento multilíngue: primeiras aproximações Universidade de São Paulo - USP Universidade Federal de São Carlos UFSCar Universidade Estadual Paulista - UNESP Aplicação de métodos clássicos de Sumarização Automática no contexto multidocumento multilíngue:

Leia mais

PREDIÇÃO À EVASÃO ESCOLAR: Estudo de caso aplicado no IFSULDEMINAS Campus Passos RESUMO

PREDIÇÃO À EVASÃO ESCOLAR: Estudo de caso aplicado no IFSULDEMINAS Campus Passos RESUMO PREDIÇÃO À EVASÃO ESCOLAR: Estudo de caso aplicado no IFSULDEMINAS Campus Passos Carla Fernandes da SILVA 1 ; Clayton Silva MENDES 2. RESUMO A evasão escolar é um dos principais desafios a ser superado

Leia mais

Alternativas para construção de classificadores de solos brasileiros

Alternativas para construção de classificadores de solos brasileiros 48 Resumos Expandidos: XII Mostra de Estagiários e Bolsistas... Alternativas para construção de classificadores de solos brasileiros Matheus Agostini Ferraciolli¹ Luiz Manoel Silva Cunha² Resumo: Este

Leia mais

UNIVERSIDADE FEDERAL DO PARÁ PRÓ-REITORIA DE PESQUISA E PÓS-GRADUAÇÃO DIRETORIA DE PESQUISA

UNIVERSIDADE FEDERAL DO PARÁ PRÓ-REITORIA DE PESQUISA E PÓS-GRADUAÇÃO DIRETORIA DE PESQUISA UNIVERSIDADE FEDERAL DO PARÁ PRÓ-REITORIA DE PESQUISA E PÓS-GRADUAÇÃO DIRETORIA DE PESQUISA PROGRAMA INSTITUCIONAL DE BOLSAS DE INICIAÇÃO CIENTÍFICA PIBIC : CNPq, CNPq/AF, UFPA, UFPA/AF, PIBIC/INTERIOR,

Leia mais

Uma ferramenta para expansão do vocabulário com base em coocorrência

Uma ferramenta para expansão do vocabulário com base em coocorrência Resumos Expandidos: XI Mostra de Estagiários e Bolsistas... 11 Uma ferramenta para expansão do vocabulário com base em coocorrência Exupério Lédo Silva Júnior 1 Roberta Akemi Sinoara 2 Solange Oliveira

Leia mais

Uma Investigação sobre Algoritmos de Diferentes Abordagens de Aprendizado Supervisionado na Classificação de Papéis Retóricos em Resumos Científicos

Uma Investigação sobre Algoritmos de Diferentes Abordagens de Aprendizado Supervisionado na Classificação de Papéis Retóricos em Resumos Científicos Uma Investigação sobre Algoritmos de Diferentes Abordagens de Aprendizado Supervisionado na Classificação de Papéis Retóricos em Resumos Científicos Vinícius M. A. de Souza 1 e Valéria D. Feltrim 2 1 Instituto

Leia mais