O Corpus CSTNews e sua Complementaridade Temporal
|
|
- Yago Terra Martins
- 5 Há anos
- Visualizações:
Transcrição
1 O Corpus CSTNews e sua Complementaridade Temporal Jackson W. C. Souza 1,3, Ariani Di Felippo 2,3 1 Programa de Pós-graduação em Linguística e Língua Portuguesa (PPGL/UFSCar) 2 Departamento de Letras (DL) - Universidade Federal de São Carlos (UFSCar) Caixa Postal São Carlos, SP, Brasil 3 Núcleo Interinstitucional de Linguística Computacional NILC Inst. de Ciências Matemáticas e de Computação (ICMC) - Universidade de São Paulo (USP) Caixa Postal São Carlos, SP, Brasil {jackcruzsouza, arianidf}@gmail.com Resumo. O corpus CSTNews é o recurso linguístico que tem subsidiado as pesquisas sobre Sumarização Automática Multidocumento (SAM) envolvendo o português. Dentre suas inúmeras anotações, destaca-se que os textos-fonte estão conectados pelas relações do modelo Cross-document Structure Theory. Neste artigo, investigar-se-ão as relações Follow-up e Historical background, que expressam diferentes tipos de complementaridade temporal. Especificamente, analisa-se a ocorrência de expressões temporais nas sentenças anotadas por essas relações com o objetivo de caracterizar linguisticamente o CSTNews, gerando conhecimento para a SAM, como a classificação automática dessas relações semântico-estruturais. Palavras-chave: sumarização multidocumento, relações CST, complementariedade temporal, corpus multidocumento. 1 Introdução No Processamento Automático das Línguas Naturais (PLN), a importância dos recursos linguísticos é amplamente reconhecida. Dentre eles, destacam-se os corpora, ou seja, conjuntos de dados linguístico-textuais coletados criteriosamente com o propósito de servirem para a pesquisa de uma língua ou variedade linguística [1]. Assim definidos, os corpora permitem o estudo da língua e a consequente definição manual de regras ou o aprendizado estatístico das mesmas. Para a Sumarização Automática Multidocumento (SAM), os pesquisadores do PLN no Brasil têm utilizado amplamente o CSTNews [2], corpus com 50 coleções ou grupos de textos. Cada coleção contém basicamente (i) 2 ou 3 notícias jornalísticas sobre um mesmo assunto compiladas de fontes distintas e (ii) 1 sumário humano multidocumento. As coleções possuem em média 42 sentenças e os sumários humanos multidocumento possuem em média 7 sentenças. Ademais, as coleções estão categorizadas pelos rótulos das seções dos jornais dos quais os textos foram compilados. Assim, o corpus possui coleções das seguintes categorias: esporte (10 coleções), mundo (14 coleções), dinheiro (1 coleção), política (10 coleções), ciência (1 coleção) e cotidiano (14 coleções).
2 O CSTNews possui diversas anotações. Dentre elas, destaca-se que os textos-fonte foram manualmente interconectados em cada coleção pelas relações da Crossdocument Structure Theory (CST) [3]. A CST é uma teoria semântico-discursiva que permite relacionar em pares segmentos de diferentes textos que abordam um mesmo assunto, explicitando informações redundantes, complementares e/ou contraditórias, diferenças de estilo de escrita, ordenação temporal dos eventos/fato, etc. A partir dessa explicitação, tem-se desenvolvidos métodos de SAM que não selecionam sentenças redundantes ou contraditórias para compor o sumário, mas selecionam sentenças complementares. Dada a importância da CST, tem-se focado a identificação automática das relações na SAM. O parser discursivo CSTParser [4], desenvolvido para o português, por exemplo, identifica as relações de complementaridade entre 2 sentenças com aproximadamente 70% de precisão, baseando-se apenas na similaridade lexical entre elas. Neste artigo, investigar-se-ão as relações Follow-up e Historical background, que expressam diferentes tipos de complementaridade temporal. Analisar-se-á a ocorrência de expressões temporais (ETs) nas sentenças anotadas por essas relações, objetivando-se caracterizar o CSTNews e gerar conhecimento para a SAM, como regras e/ou classificação automática dessas relações previstas pelo modelo CST. Na Seção 2, apresentam-se as relações de complementariedade temporal, Followup e Historical background. Na Seção 3, descreve-se a análise das relações do modelo CST no CSTNews. Por fim, na Seção 4, tecem-se os comentários finais. 2 As relações CST e as Expressões Temporais no CSTNews A partir da anotação do CSTNews, propôs-se uma tipologia na qual as relações foram classificadas em relações de conteúdo e relações de forma [2]. As relações de conteúdo são de redundância, complemento ou contradição. As relações de forma dizem respeito à fonte/autoria ou estilo. As relações de complementaridade dividemse em temporais ou atemporais. As temporais são Follow-up e Historical background. Follow-up ocorre quando, dado um par de sentenças e, apresenta acontecimentos/eventos que sucederam os acontecimentos/eventos presentes em ; os acontecimentos em e em devem ser relacionados e ter um espaço de tempo relativamente curto entre si, como em (1). Historical background ocorre quando apresenta informações históricas/passadas sobre algum elemento de, como em (2). (1) Follow-up (2) Historical background A pista auxiliar de Congonhas abriu às 6h, apenas para decolagens. Congonhas só abriu para pousos, às 8h50. Um acidente aéreo na localidade de Bukavu, no leste da República Democrática do Congo (RDC), matou 17 pessoas na quinta-feira à tarde, informou nesta sexta-feira um porta-voz das Nações Unidas. Acidentes aéreos são frequentes no Congo, onde 51 companhias privadas operam com aviões antigos principalmente fabricados na
3 antiga União Soviética. Como mencionado, o CSTNews possui uma gama variada de anotações. Uma delas consiste na identificação das ETs [5]. Para a anotação das ETs, utilizou-se a tipologia de [6]. De acordo com essa tipologia, as ETs são de 4 tipos: (i) tempo calendário, (ii) frequência (p.ex.: Ocorrerá entre os dias 29 e 31 de julho ), (iii) duração (p.ex.: O Natal é comemorado todo ano ) e (iv) genérico (p.ex.: Eu gosto do mês de julho ). As ETs que expressam tempo calendário são de 3 subtipos: (i) hora (p.ex.: Ele chegou às 9h30m), (ii) data e (iii) intervalo (p.ex.: Entre junho e julho ). E, por fim, as ETs do subtipo data são: (i) enunciação (p.ex.: Partiu em março ), (ii) textual (p.ex.: Um dia após a venda ) e (iii) absoluto (p.ex.: O acidente ocorreu em fevereiro de 2002 ). Tendo em vista a explicitação dessas expressões, analisou-se a ocorrência das ETs nos pares de sentenças do CSTNews anotados pelas relações de complementariedade temporal com o objetivo de verificar se essas relações no CSTNews caracterizam-se pela ocorrência de expressões temporais de tipos específicos, a fim de depreender conhecimento linguístico específico para a classificação automática dessas relações. Na sequência, descreve-se a análise de corpus. 3 Análise de corpus Do total de 380 pares de sentenças anotados com as relações Follow-up e Historical background, apenas 114 pares foram analisados manualmente até o momento, ou seja, 30%. Nesses 114 pares, constatou-se: a) as ETs ocorrem em 38 dos 57 pares anotados com Follow-up (ETs de hora e data ); ou seja, essas expressões estão presentes em 66,6% dos pares; b) a informação temporal nos pares de Follow-up também é indicada por outros mecanismos linguísticos. Por exemplo, em (3), a informação temporal é expressa por uma oração subordinada adverbial, iniciada pela conjunção quando ; isso foi observado em 19 dos 57 pares (ou seja, em 33,3% dos pares); (3) Todos morreram quando o avião, prejudicado pelo mau tempo, não conseguiu chegar à pista de aterrissagem e caiu numa floresta a 15 quilômetros do aeroporto de Bukavu. O avião acidentado, operado pela Air Traset, levava 14 passageiros e três tripulantes. c) as ETs ocorrem em 47 dos 57 pares anotados com Historical background (ETs de data e duração ). Ou seja, a frequência de ETs nesses pares é de 82,4%. Em (4), por exemplo, ambas as sentenças do par apresentam expressões temporais ( em julho do ano passado, em, e naquele horário, em ); Em julho do ano passado, a média foi de 36 km no horário. Naquele horário, segundo a CET (Companhia de Engenharia de Tráfego), havia (4) 110 km de congestionamento em toda a cidade enquanto a média para o horário era de 76 km. d) as ETs do tipo tempo calendário ocorrem tanto nos pares anotados com Followup, como nos pares conectados por Historical background;
4 e) as ETs do subtipo data ocorrem em 42 dos 57 pares cujas sentenças estão relacionadas por Historical background, ou seja, a frequência de ETs do subtipo data é de 73,6%; f) as ETs do subtipo hora ocorrem em 24 dos 57 pares cujas sentenças estão relacionadas Follow-up, ou seja, essas ETs ocorrem em 42,1% desses pares. Na Tabela 1, sistematiza-se a ocorrência das informações temporais (ETs ou outros) nas sentenças do CSTNews anotadas com Follow-up e Historical background. Tabela 1. Expressão de tempo nas relações de complementaridade temporal do CSTNews. Mecanismo linguístico Relação Expressão Temporal Total de CST Tempo calendário Outro 1 pares Frequência Duração Hora Data Follow-up Historical background Visando a criação de classificadores para a identificação das relações CST, com base em técnicas de aprendizado automático (simbólico e sistema de regras), elegeu-se o ambiente Weka (Waikato Environment for Knowledge Analysis) [7], o qual possui tais técnicas de aprendizado automático. O subcorpus foi pré-processado, a fim de gerar dados em formato adequado ao Weka. Para a classificação, foram utilizadas as ETs descritas na Tabela 1. Utilizaram-se os algoritmos J48 (simbólico) e PART (sistema de regras). O algoritmo J48, que indica quais atributos são utilizados para a classificação de dadas relações CST, obteve 79.8% de precisão, e permite observar que (i) a relação Historical background é caracterizada pelas ETs data, frequência e duração ; e que (ii) a relação Follow-up é caracterizada pela ET hora. O algoritmo PART obteve precisão de 78%, e permite observar que, dado um par de sentenças, se a ET utilizada for do subtipo data, então a relação é Historical background; se outra ET for utilizada, então se trata da relação Follow-up. 4 Considerações finais A análise manual em questão permitiu verificar que as relações Follow-up e Historical background caracterizam-se de forma distinta quanto à ocorrência de ETs. Além disso, os testes no Weka permitiram gerar regras para a identificação automática das relações de complementariedade temporal por meio de pistas na superfície textual. Agradecimentos Agradecemos à FAPESP e à CAPES pelo suporte financeiro. 1 Indica mecanismos linguísticos como os ilustrados em (3), que são se referem às ETs.
5 Referências 1. Sardinha, B. T. Linguística de Corpus. Barueri, SP: Editora Manole. (2004) 2. Cardoso, P.C.F.; Maziero, E.G.; Jorge, M.L.C.; Seno, E.M.R.; Di Felippo, A.; Rino, L.H.M.; Nunes, M.G.V.; Pardo, T.A.S. CSTNews - A Discourse-Annotated Corpus for Single and Multi-Document Summarization of News Texts in Brazilian Portuguese. In the Proceedings of the 3rd RST Brazilian Meeting, pp Cuiabá/Brazil. (2011) 3. Radev, D. R. A common theory of information fusion from multiple text sources, step one: cross-document structure. In: Acl Sigdial Workshop On Discourse And Dialogue. Proceedings, Hong Kong. (2000) 4. Maziero, E. G.; Pardo, T. A. S. CSTParser a multi-document discourse parser Menezes Filho, L.A. Pardo, T.A.S. Detecção de Expressões Temporais no Contexto de Sumarização Automática. In the Proceedings of the 2nd STIL Student Workshop on Information and Human Language Technology, pp Cuiabá/ Brasil. (2011) 6. Baptista, J.; Hagège, C.; Mamede, N. Identificação, classificação e normalização de expressões temporais do português: A experiência do segundo HAREM e o futuro. Em C. Mota e D. Santos (eds.), Desafios na avaliação conjunta do reconhecimento de entidades mencionadas: O Segundo HAREM. Linguateca. (2008) 7. Frank, E. Witten, I. H.; Hall, M. A. Data Mining: Pratical Machine Learning Toos and Techniques. 3a Ed. MK. Waikato (2011)
Em Busca de Métodos de Detecção da Complementaridade para a Sumarização Automática Multidocumento
Em Busca de Métodos de Detecção da Complementaridade para a Sumarização Automática Multidocumento Jackson Wilke da Cruz Souza 1,2, Ariani Di Felippo 1,2 1 Núcleo Interinstitucional de Linguística Computacional
Leia maisEm Direção à Caracterização da Complementaridade no Corpus Multidocumento CSTNews
Em Direção à Caracterização da Complementaridade no Corpus Multidocumento CSTNews Jackson Souza 1,3, Ariani Di Felippo 1,2 1 Núcleo Interinstitucional de Linguística Computacional (NILC) Caixa Postal 668
Leia maisEnriquecendo o Córpus CSTNews a Criação de Novos Sumários Multidocumento
Enriquecendo o Córpus CSTNews a Criação de Novos Sumários Multidocumento 1 Márcio S. Dias, 1 Alessandro Y. Bokan Garay, 2 Carla Chuman, 3 Cláudia D. Barros, 1 Erick G. Maziero, 1 Fernando A. A. Nobrega,
Leia maisALINHAMENTO MANUAL DE TEXTOS E SUMÁRIOS EM UM CORPUS JORNALÍSTICO MULTIDOCUMENTO
ALINHAMENTO MANUAL DE TEXTOS E SUMÁRIOS EM UM CORPUS JORNALÍSTICO MULTIDOCUMENTO 1. Introdução Com o imenso volume de informação disponível na web, necessita-se de estratégias que permitam absorvê-la de
Leia maisEm Direção à Caracterização de Sumários Humanos Multidocumento
Em Direção à Caracterização de Sumários Humanos Multidocumento Renata Tironi de Camargo 1,2, Ariani Di Felippo 1,2, Thiago A. S. Pardo 2 1 Departamento de Letras (DL) Centro de Educação e Ciências Humanas
Leia maisO Desenvolvimento de um Sistema Computacional de Sumarização Multidocumento com Base em um Método Linguisticamente Motivado
O Desenvolvimento de um Sistema Computacional de Sumarização Multidocumento com Base em um Método Linguisticamente Motivado Guilherme Gonçalves, Thiago Alexandre Salgueiro Pardo Núcleo Interinstitucional
Leia maisAlinhamento do CSTNews Processo, manual, tipos, exemplos, problemas
Renata Tironi de Camargo (PPGL/NILC) Verônica Agostini (ICMC/NILC) Orientadores: Ariani Di Felippo Thiago A. S. Pardo 1 Alinhamento O que é, onde é usado, tipos Propostas de mestrado Alinhamento do CSTNews
Leia maisSumarização Automática Multidocumento
I m p l e m e n t a ç ã o d e u m M é t o d o L i n g u í s t i c o p a r a a S u m a r i za ç ã o A u t o m á t i c a M u l t i d oc u m e n t o Guilherme Gonçalves, Thiago A. S. Pardo Núcleo Interinstitucional
Leia maisINVESTIGAÇÃO DO FENÔMENO DA COMPLEMENTARIDADE PARA A SUMARIZAÇÃO AUTOMÁTICA MULTIDOCUMENTO
INVESTIGAÇÃO DO FENÔMENO DA COMPLEMENTARIDADE PARA A SUMARIZAÇÃO AUTOMÁTICA MULTIDOCUMENTO JACKSON WILKE DA CRUZ SOUZA SÃO CARLOS 2014 RESUMO A Sumarização Automática Multidocumento (SAM) é uma alternativa
Leia maisInvestigação de Métodos de Identificação de Redundância para a Sumarização Automática Multidocumento
Investigação de Métodos de Identificação de Redundância para a Sumarização Automática Multidocumento Jackson Souza (jackcruzsouza@gmail.com) 01/08/2011 a 31/07/2012 Orientação: Profa. Dra. Ariani Di Felippo
Leia maisSCC5908 Tópicos em Processamento de Língua Natural. Necessidade de lidar com grande quantidade de textos/documentos
DISCURSO PARTE 3 SCC5908 Tópicos em Processamento de Língua Natural Thiago A. S. Pardo MUDANÇA DE PERSPECTIVA Web e explosão de informação Necessidade de lidar com grande quantidade de textos/documentos
Leia maisCSTNews: um Córpus de Textos Jornalísticos Anotados segundo a Teoria Discursiva Multidocumento CST (Cross-document Structure Theory)
Universidade de São Paulo - USP Universidade Federal de São Carlos - UFSCar Universidade Estadual Paulista - UNESP CSTNews: um Córpus de Textos Jornalísticos Anotados segundo a Teoria Discursiva Multidocumento
Leia maisTeMário 2006: Estendendo o Córpus TeMário
Universidade de São Paulo - USP Universidade Federal de São Carlos - UFSCar Universidade Estadual Paulista - UNESP TeMário 2006: Estendendo o Córpus TeMário Erick Galani Maziero Vinícius Rodrigues de Uzêda
Leia maisCARACTERIZAÇÃO DA COMPLEMENTARIDADE TEMPORAL: SUBSÍDIOS PARA SUMARIZAÇÃO AUTOMÁTICA MULTIDOCUMENTO
CARACTERIZAÇÃO DA COMPLEMENTARIDADE TEMPORAL: SUBSÍDIOS PARA SUMARIZAÇÃO AUTOMÁTICA MULTIDOCUMENTO Jackson Wilke da Cruz SOUZA * Ariani Di FELIPPO ** RESUMO: A complementaridade é um fenômeno multidocumento
Leia maisNEPaLE: Uma ferramenta computacional de suporte à avaliação de paráfrases
NEPaLE: Uma ferramenta computacional de suporte à avaliação de paráfrases Rafael de Oliveira Teixeira 1, Eloize Rossi Marques Seno 1, Helena de Medeiros Caseli 2 1 Instituto Federal de São Paulo câmpus
Leia maisCaracterização linguística de sumários humanos multidocumento: explorando o nível lexical
Universidade de São Paulo - USP Universidade Federal de São Carlos - UFSCar Universidade Estadual Paulista - UNESP Caracterização linguística de sumários humanos multidocumento: explorando o nível lexical
Leia maisCSTTool: Uma ferramenta semi-automática para anotação de córpus pela teoria discursiva multidocumento CST
Universidade de São Paulo - USP Universidade Federal de São Carlos - UFSCar Universidade Estadual Paulista - UNESP CSTTool: Uma ferramenta semi-automática para anotação de córpus pela teoria discursiva
Leia maisGistSumm GIST SUMMarizer: Extensões e Novas Funcionalidades
Universidade de São Paulo - USP Universidade Federal de São Carlos - UFSCar Universidade Estadual Paulista - UNESP GistSumm GIST SUMMarizer: Extensões e Novas Funcionalidades Thiago Alexandre Salgueiro
Leia maisMétodos para Sumarização Automática Multidocumento Usando Modelos Semântico-Discursivos
Métodos para Sumarização Automática Multidocumento Usando Modelos Semântico-Discursivos Paula C. F. Cardoso, Thiago A. S. Pardo, Maria das Graças V. Nunes Núcleo Interinstitucional de Linguística Computacional
Leia maisANOTAÇÃO DE SENTIDOS DE VERBOS EM NOTÍCIAS JORNALÍSTICAS EM PORTUGUÊS DO BRASIL
ANOTAÇÃO DE SENTIDOS DE VERBOS EM NOTÍCIAS JORNALÍSTICAS EM PORTUGUÊS DO BRASIL 1 Marco A. Sobrevilla Cabezudo, 1 Erick G. Maziero, 2 Jackson W. C. Souza, 1 Márcio S. Dias, 1 Paula C. F. Cardoso, 1 Pedro
Leia maisManual Alignment of Texts and Summaries in a Multidocument
Manual Alignment of Texts and Summaries in a Multidocument Corpus of News Articles (Alinhamento Manual de Textos e Sumários em um Corpus Jornalístico Multidocumento) 1,2 Verônica Agostini 1,3 Renata Tironi
Leia maisSUMARIZAÇÃO AUTOMÁTICA MULTIDOCUMENTO
SUMARIZAÇÃO AUTOMÁTICA MULTIDOCUMENTO Thiago A. S. Pardo Núcleo Interinstitucional de Lingüística Computacional Instituto de Ciências Matemáticas e de Computação Universidade de São Paulo SUMARIZAÇÃO MONODOCUMENTO
Leia maisEstratégias de Seleção de Conteúdo com Base na CST (Cross-document Structure Theory) para Sumarização Automática Multidocumento
Estratégias de Seleção de Conteúdo com Base na CST (Cross-document Structure Theory) para Sumarização Automática Multidocumento Maria Lucia del Rosario Castro Jorge, Thiago Alexandre Salgueiro Pardo Núcleo
Leia maisPedro Paulo Balage Filho
Interface Web para o projeto: Sumarização Automática Multidocumento para o Português do Brasil com Base na Teoria de Estruturação Multidocumento CST (Cross-documentStructure Theory) Pedro Paulo Balage
Leia maisOperações de Retextualização e Reescrita. Processos e Reflexões humanas
Operações de Retextualização e Reescrita Processos e Reflexões humanas Introdução A retextualização está nas atividades cotidianas, nos mais diversos modos : Anotação de aulas; Contando alguma notícia,
Leia maisAutomatização de um Método de Avaliação de Estruturas Retóricas
Automatização de um Método de Avaliação de Estruturas Retóricas Erick Galani Maziero (erickgm@grad.icmc.usp.br) Thiago Alexandre Salgueiro Pardo (taspardo@icmc.usp.br) Núcleo Interinstitucional de Lingüística
Leia maisExtração de paráfrases em português a partir de léxicos bilíngues: um estudo de caso
Extração de paráfrases em português a partir de léxicos bilíngues: um estudo de caso Paulo César Polastri 1,2, Helena de Medeiros Caseli 1,2, Eloize Rossi Marques Seno 2,3 1 Departamento de Computação,
Leia maisO código do modelo de mapeamento sintático-conceitual do sistema ConPor
Universidade de São Paulo - USP Universidade Federal de São Carlos - UFSCar Universidade Estadual Paulista - UNESP O código do modelo de mapeamento sintático-conceitual do sistema ConPor Lucia Specia Lucia
Leia maisImplementação de um Modelo para Previsão de Evasão Escolar no IFSULDEMINAS
6ª Jornada Científica e Tecnológica e 3º Simpósio de Pós-Graduação do IFSULDEMINAS 04 e 05 de novembro de 2014, Pouso Alegre/MG Implementação de um Modelo para Previsão de Evasão Escolar no IFSULDEMINAS
Leia maisGeração de Modelo para Reconhecimento de Entidades Nomeadas no OpenNLP
Geração de Modelo para Reconhecimento de Entidades Nomeadas no OpenNLP Gabriel C. Chiele 1, Evandro Fonseca 1, Renata Vieira 1 1 Faculdade de Informática Pontifícia Universidade Católica do Rio Grande
Leia maisAnotação de subtópicos do córpus multidocumento CSTNews
Núcleo Interinstitucional de Linguística Computacional - NILC Anotação de subtópicos do córpus multidocumento CSTNews Relatório Técnico NILC-TR-12-07 Paula C. F. Cardoso, Amanda P. Rassi, Erick G. Maziero,
Leia maisFusão Automática de Sentenças Similares em Português
Fusão Automática de Sentenças Similares em Português Eloize Rossi Marques Seno, Maria das Graças Volpe Nunes NILC ICMC Unisidade de São Paulo Caixa Postal 668 13560-970 São Carlos SP Brasil {eloize,gracan}@icmc.usp.br
Leia mais6 Atributos. A dívida da empresa subiu.
6 Atributos Para buscar o sentimento de um texto automaticamente precisamos encontrar boas pistas ao longo do discurso. Uma grande variedade de palavras e expressões possui conotação positiva ou negativa,
Leia maisIdentificação de Pontos Perceptualmente Importantes (PIP) em séries temporais de tópicos extraídos de dados textuais
Universidade de São Paulo Biblioteca Digital da Produção Intelectual - BDPI Departamento de Ciências de Computação - ICMC/SCC Comunicações em Eventos - ICMC/SCC 2015 Identificação de Pontos Perceptualmente
Leia maisInvestigação do Fenômeno da Redundância na Sumarização Automática Multidocumento
Universidade de São Paulo - USP Universidade Federal de São Carlos - UFSCar Universidade Estadual Paulista - UNESP Investigação do Fenômeno da Redundância na Sumarização Automática Multidocumento Jackson
Leia maisRecapitulando... Abordagens: PLN. Abordagens: PLN 29/03/2012. Introdução ao Processamento de Línguas Naturais. Distribuição de palavras
Introdução ao Processamento de Línguas Naturais SCC5908 Introdução ao Processamento de Língua Natural Thiago A. S. Pardo Recapitulando... Abordagens superficiais vs. profundas Simbolismo vs. estatística
Leia maisAnálise Automática de Coerência Textual em Resumos Científicos: Avaliando Quebras de Linearidade
Proceedings of Symposium in Information and Human Language Technology. Natal, RN, Brazil, November 4 7, 2015. c 2015 Sociedade Brasileira de Computação. Análise Automática de Coerência Textual em Resumos
Leia maisDescrição e Análise do Fenômeno da Contradição para a Sumarização Automática Multidocumento
Universidade de São Paulo - USP Universidade Federal de São Carlos - UFSCar Universidade Estadual Paulista - UNESP Descrição e Análise do Fenômeno da Contradição para a Sumarização Automática Multidocumento
Leia maisCOMPARANDO SUMÁRIOS DE REFERÊNCIA HUMANOS COM EXTRATOS IDEAIS NO PROCESSO DE AVALIAÇÃO DE SUMÁRIOS EXTRATIVOS
COMPARANDO SUMÁRIOS DE REFERÊNCIA HUMANOS COM EXTRATOS IDEAIS NO PROCESSO DE AVALIAÇÃO DE SUMÁRIOS EXTRATIVOS Carlos Henrique Delgado UBM Universidade de Barra mansa Barra Mansa Rio de Janeiro Brasil henrique_chd@yahoo.com.br
Leia maisDesambiguação Lexical de Sentido com uso de Informação Multidocumento por meio de Redes de Co-ocorrência
Desambiguação Lexical de Sentido com uso de Informação Multidocumento por meio de Redes de Co-ocorrência Fernando Antônio A. Nóbrega, Thiago A. Salgueiro Pardo Núcleo Interinstitucional de Linguística
Leia maisTeMário: Um Corpus para Sumarização Automática de Textos
Universidade de São Paulo - USP Universidade Federal de São Carlos - UFSCar Universidade Estadual Paulista - UNESP TeMário: Um Corpus para Sumarização Automática de Textos Thiago Alexandre Salgueiro Pardo
Leia maisSumarização Automática para Simplificação de Textos: Experimentos e Lições Aprendidas
Sumarização Automática para Simplificação de Textos: Experimentos e Lições Aprendidas Paulo R. A. Margarido, Thiago A. S. Pardo e Sandra M. Aluísio Núcleo Interinstitucional de Lingüística Computacional
Leia maisAlinhamento Manual dos Sumários Humanos e dos Textos-Fonte do Corpus Multidocumento CSTNews
Núcleo Interinstitucional de Linguística Computacional NILC Universidade de São Paulo - USP Universidade Federal de São Carlos UFSCar Alinhamento Manual dos Sumários Humanos e dos Textos-Fonte do Corpus
Leia maisUma abordagem de classificação automática para Tipo de Pergunta e Tipo de Resposta
Uma abordagem de classificação automática para Tipo de Pergunta e Tipo de Resposta Patricia Nunes Gonçalves 1, António Horta Branco 1 1 Faculdade de Ciências da Universidade de Lisboa Lisboa - Portugal
Leia maisEncontro 10 Anos da Linguateca PROPOR 2008 Aveiro Portugal
Marcirio Silveira Chaves Pólo XLDB da Linguateca LaSIGE Departamento de Informática Faculdade de Ciências da Universidade de Lisboa Encontro 10 Anos da Linguateca PROPOR 2008 Aveiro Portugal 9/16/08 1
Leia maisIntrodução ao Processamento de Línguas Naturais. SCC5908 Introdução ao Processamento de Língua Natural. Thiago A. S. Pardo
/0/0 Introdução ao Processamento de Línguas Naturais SCC5908 Introdução ao Processamento de Língua Natural Thiago A. S. Pardo Dilemas no Brasil Como lidar com a interdisciplinaridade Linda no papel, complicada
Leia maisReconhecimento e normalização de expressões temporais no HAREM 2. C. Hagège J. Baptista e N. Mamede
Reconhecimento e normalização de expressões temporais no HAREM 2 C. Hagège ( France ) Xerox Research Centre Europe, Grenoble J. Baptista e N. Mamede ( Portugal ) L2f INESC-ID Lisboa Plano da apresentação
Leia maisProf. Heitor Silvério Lopes
Prof. Heitor Silvério Lopes WEKA WEKA: Waikato Environment for Knowledge Analysis Iniciado em 1992, versão estável atual: 3.8.1 É um software para mineração de dados desenvolvido em Java com código aberto
Leia maisExplorando Métodos de Uso Geral para Desambiguação Lexical de Sentidos para a Língua Portuguesa
Explorando Métodos de Uso Geral para Desambiguação Lexical de Sentidos para a Língua Portuguesa Fernando Antônio A. Nóbrega 1, Thiago A. Salgueiro Pardo 1 1 Núcleo Interinstitucional de Linguística Computacional
Leia maisPLN e áreas correlatas
Introdução ao Processamento de Línguas Naturais SCC5869 Tópicos em Processamento de Língua Natural Thiago A. S. Pardo PLN e áreas correlatas Limites entre PLN e outras áreas: como percebem isso? Recuperação
Leia maisCORPUS PARALELO E CORPUS PARALELO ALINHADO: PROPRIEDADES E APLICAÇÕES (PARALLEL CORPUS AND ALIGNED PARALLEL CORPUS: FEATURES AND APPLICATIONS)
CORPUS PARALELO E CORPUS PARALELO ALINHADO: PROPRIEDADES E APLICAÇÕES (PARALLEL CORPUS AND ALIGNED PARALLEL CORPUS: FEATURES AND APPLICATIONS) Helena de Medeiros CASELI (PG Universidade de São Paulo São
Leia maisExploração de métodos de sumarização automática multidocumento com base em conhecimento semânticodiscursivo. Paula Christina Figueira Cardoso
Exploração de métodos de sumarização automática multidocumento com base em conhecimento semânticodiscursivo Paula Christina Figueira Cardoso SERVIÇO DE PÓS-GRADUAÇÃO DO ICMC-USP Data de Depósito: Assinatura:
Leia maisIdentificação automática de relações multidocumento. Erick Galani Maziero
Identificação automática de relações multidocumento Erick Galani Maziero SERVIÇO DE PÓS-GRADUAÇÃO DO ICMC-USP Data de Depósito: Assinatura: Identificação automática de relações multidocumento Erick Galani
Leia mais03/12/2010 DISCURSO PARTE 3. SCC5869 Tópicos em Processamento de Língua Natural. Thiago A. S. Pardo VEINS THEORY (CRISTEA ET AL.
DICURO PARTE 3 CC5869 Tópicos em Processamento de Língua atural Thiago A.. Pardo VEI THEORY (CRITEA ET AL., 1998) 1 TEORIA DA VEIA Para cada unidade discursiva, identificam-se veias na estrutura discursiva
Leia maisO tratamento da partícula se para fins de anotação de papéis semânticos
O tratamento da partícula se para fins de anotação de papéis semânticos Magali Sanches Duran, Sandra Maria Aluísio Núcleo Interinstitucional de Linguística Computacional ICMC Universidade de São Paulo
Leia maisORDENAÇÃO DE SENTENÇAS EM SUMÁRIOS MULTIDOCUMENTO
Universidade de São Paulo - USP ORDENAÇÃO DE SENTENÇAS EM SUMÁRIOS MULTIDOCUMENTO Jader Bruno Pereira Lima Thiago Alexandre Salgueiro Pardo NILC-TR-12-02 Junho, 2012 Série de Relatórios do Núcleo Interinstitucional
Leia maisEDITOR DE ANOTAÇÃO DE SIMPLIFICAÇÃO: MANUAL DO USUÁRIO
Universidade de São Paulo USP Universidade Federal de São Carlos UFSCar Universidade Estadual Paulista UNESP EDITOR DE ANOTAÇÃO DE SIMPLIFICAÇÃO: MANUAL DO USUÁRIO Helena de Medeiros Caseli Tiago de Freitas
Leia maisSEMÂNTICA PARTE 3 ANÁLISE SEMÂNTICA 14/06/2012. SCC5908 Tópicos em Processamento de Língua Natural. Até agora, significado da sentença
SEMÂNTICA PARTE 3 SCC5908 Tópicos em Processamento de Língua Natural Thiago A. S. Pardo ANÁLISE SEMÂNTICA Até agora, significado da sentença Rhumba closed. e Closing(e) Closed(e,Rhumba) 2 1 ANÁLISE SEMÂNTICA
Leia maisCSTTool: um parser multidocumento automático para o Português do Brasil
CSTTool: um parser multidocumento automático para o Português do Brasil Priscila Aleixo, Thiago Alexandre Salgueiro Pardo Núcleo Interinstitucional de Lingüística Computacional (NILC) Instituto de Ciências
Leia maisRealiter, Rio de Janeiro 2006
Sandra Maria Aluísio (ICMC-USP) Ieda Maria Alves (FFLCH-USP) Mariangela de Araujo (FFLCH-USP) Bruno Oliveira Maroneze (PG-FFLCH-USP) Thiago A. S. Pardo (ICMC-USP) Esta exposição tem a finalidade de apresentar
Leia maisAnálise Automática de Coerência Usando o Modelo Grade de Entidades para o Português
Análise Automática de Coerência Usando o Modelo Grade de Entidades para o Português Alison R. P. Freitas, Valéria D. Feltrim 1 Departamento de Informática Universidade Estadual de Maringá (UEM) Av. Colombo,
Leia maisLucía Castro & Lucia Rino
Lucía Castro & Lucia Rino Owczarzak, Karolina; Dang, Hoa Trang (2011). Who wrote What Where: Analyzing the content of human and automatic summaries. Proc. of the Workshop on Automatic Summarization for
Leia maisProblemas de Escrita. Graça Nunes Thiago Pardo
Problemas de Escrita Graça Nunes Thiago Pardo Qual é o problema? A transformada de Hough é um algoritmo muito conhecido em visão computacional, mas a sua aplicação em alguns sistemas de tempo real é proibitiva,
Leia maisPadrão de uso de adjetivos nos jornais Diário Gaúcho e Zero Hora
Padrão de uso de adjetivos nos jornais Diário Gaúcho e Zero Hora Integra a pesquisa PADRÕES DO PORTUGUÊS POPULAR ESCRITO: O VOCABULÁRIO DO JORNAL DIÁRIO GAÚCHO - FASE 1 Bruna Rodrigues da Silva PIBIC-CNPq-UFRGS
Leia maisAlinhamento automático de textos e sumários multidocumento. Verônica Agostini
Alinhamento automático de textos e sumários multidocumento Verônica Agostini II SERVIÇO DE PÓS GRADUAÇÃO DO ICMC USP Data de Depósito: Assinatura: Alinhamento automático de textos e sumários multidocumento
Leia maisTipificação Manual do Alinhamento do Córpus CSTNews
Tipificação Manual do Alinhamento do Córpus CSTNews Renata Tironi de Camargo Verônica Agostini Grupo de Sumarização Automática ALINHAMENTO Exemplo com sobreposição lexical Sumário: Antes de chegar à Jamaica,
Leia maisMapeamento da Comunidade Brasileira de Processamento de Línguas Naturais
Mapeamento da Comunidade Brasileira de Processamento de Línguas Naturais Thiago Alexandre Salgueiro Pardo, Helena de Medeiros Caseli 2, Maria das Graças Volpe Nunes Instituto de Ciências Matemáticas e
Leia maisMatéria: Desenho e desenvolvimento de tecnologias linguísticas
Introdução às tecnologias linguísticas Pablo Gamallo Otero Departamento de Língua Espanhola Universidade de Santiago de Compostela Matéria: Desenho e desenvolvimento de tecnologias linguísticas Mestrado
Leia mais1 Introdução. 1 CÂMARA JR., J.M, Estrutura da língua portuguesa, p Ibid. p. 88.
1 Introdução A categoria tempo é um dos pontos mais complexos dos estudos em língua portuguesa. Por se tratar de um campo que envolve, sobretudo, conceitos igualmente complexos como semântica e interpretação
Leia maisSumarização multidocumento com base em aspectos informativos. Alessandro Yovan Bokan Garay
Sumarização multidocumento com base em aspectos informativos Alessandro Yovan Bokan Garay SERVIÇO DE PÓS-GRADUAÇÃO DO ICMC-USP Data de Depósito: Assinatura: Alessandro Yovan Bokan Garay Sumarização multidocumento
Leia maisINVESTIGAÇÃO DE ESTRATÉGIAS DE SUMARIZAÇÃO HUMANA MULTIDOCUMENTO. Renata Tironi de Camargo
INVESTIGAÇÃO DE ESTRATÉGIAS DE SUMARIZAÇÃO HUMANA MULTIDOCUMENTO Renata Tironi de Camargo SÃO CARLOS 2013 UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE EDUCAÇÃO E CIÊNCIAS HUMANAS PROGRAMA DE PÓS-GRADUAÇÃO
Leia maisEloize Rossi Marques Seno
Eloize Rossi Marques Seno SERVIÇO DE PÓS-GRADUAÇÃO DO ICMC-USP Data de Depósito: Assinatura: Eloize Rossi Marques Seno Orientadora: Profa. Dra. Maria das Graças Volpe Nunes Tese apresentada ao Instituto
Leia maisAlinhamento Sentencial e Lexical de Córpus Paralelos: Recursos para a Tradução Automática
Alinhamento Sentencial e Lexical de Córpus Paralelos: Recursos para a Tradução Automática Helena de Medeiros Caseli 1, Maria das Graças Volpe Nunes 1 1 Núcleo Interinstitucional de Lingüística Computacional
Leia maisRECOGNITION AND CLASSIFICATION OF NAMED ENTITIES FOR THE DEVELOPMENT OF AN ABBREVIATIONS DICTIONARY FROM BRAZILIAN HISTORICAL PORTUGUESE
RECONHECIMENTO E CLASSIFICAÇÃO DE ENTIDADES NOMEADAS PARA O DESENVOLVIMENTO DE UM DICIONÁRIO ELETRÔNICO DE ABREVIATURAS DO PORTUGUÊS HISTÓRICO DO BRASIL RECOGNITION AND CLASSIFICATION OF NAMED ENTITIES
Leia maisAnálise Sintática de Frases utilizando Gramáticas Livres de Contexto Probabilísticas
Universidade de São Paulo Mestrado em Ciência da Computação Instituto de Matemática e Estatística Disciplina MAC5725 Lingüística Computacional Análise Sintática de Frases utilizando Gramáticas Livres de
Leia maisInvestigação de modelos de coerência local para sumários multidocumento. Márcio de Souza Dias
Investigação de modelos de coerência local para sumários multidocumento Márcio de Souza Dias SERVIÇO DE PÓS-GRADUAÇÃO DO ICMC-USP Data de Depósito: Assinatura: Márcio de Souza Dias Investigação de modelos
Leia maisESTUDOS DA TRADUÇÃO II. Prof. Carlos Rodrigues 11 de abril de 2015
ESTUDOS DA TRADUÇÃO II Prof. Carlos Rodrigues 11 de abril de 2015 O que são corpora eletrônicos? Como os corpora eletrônicos contribuem com a atividade dos tradutores e intérpretes? Corpus/ Corpora? Corpora
Leia maisProfessor: Eduardo R. Hruschka Estagiário PAE: Luiz F. S. Coletta
Professor: Eduardo R Hruschka Estagiário PAE: Luiz F S Coletta (luizfsc@icmcuspbr) Sumário Definição do projeto 1 Desenvolvimento de algoritmo de Aprendizado de Máquina (AM); 2 Pré-processamento dos dados;
Leia maisSCC0173 Mineração de Dados Biológicos
SCC0173 Mineração de Dados Biológicos Classificação I: Algoritmos 1Rule e KNN Prof. Ricardo J. G. B. Campello SCC / ICMC / USP 1 Créditos O material a seguir consiste de adaptações e extensões dos originais:
Leia mais1.1 Tema Aprendizado de Máquina (Mit97) é o campo da Inteligência Artificial responsável pelo desenvolvimento de modelos inferidos automaticamente a
1 Introdução 1.1 Tema Aprendizado de Máquina (Mit97) é o campo da Inteligência Artificial responsável pelo desenvolvimento de modelos inferidos automaticamente a partir de dados. Existem diversas aplicações
Leia maisAnálise Linguística da Operação de Generalização na Sumarização Humana Multidocumento
Universidade de São Paulo - USP Universidade Federal de São Carlos - UFSCar Universidade Estadual Paulista - UNESP Análise Linguística da Operação de Generalização na Sumarização Humana Multidocumento
Leia maisEstudo e Avaliação da Seleção de Atributos para Pré-processamento no Processo de Mineração de Dados
Estudo e Avaliação da Seleção de Atributos para Pré-processamento no Processo de Mineração de Dados Silvani Weber da Silva Borges 1 (PIBIC/CNPq/Unioeste), Renato B. Machado (Orientador), Newton Spolaôr
Leia maisELABORAÇÃO DE DICIONÁRIO ELETRÔNICO Mauro Rebello 1, Violeta de San Tiago Dantas Barbosa Quental 2.
DL - DEPARTAMENTO DE LETRAS ELABORAÇÃO DE DICIONÁRIO ELETRÔNICO Mauro Rebello 1, Violeta de San Tiago Dantas Barbosa Quental 2. 1 Aluno do curso de Letras da PUC-Rio 2 Professora e pesquisadora da área
Leia maisAnálise retórica com base em grande quantidade de dados. Erick Galani Maziero
Análise retórica com base em grande quantidade de dados Erick Galani Maziero SERVIÇO DE PÓS-GRADUAÇÃO DO ICMC-USP Data de Depósito: Assinatura: Erick Galani Maziero Análise retórica com base em grande
Leia maisUNIVERSIDADE DE SÃO PAULO Instituto de Ciências Matemáticas e de Computação ISSN
UNIVERSIDADE DE SÃO PAULO Instituto de Ciências Matemáticas e de Computação ISSN 0103-2569 IDENTIFICAÇÃO AUTOMÁTICA DE MACROASPECTOS EM TEXTOS JORNALÍSTICOS ALESSANDRO YOVAN BOKAN GARAY THIAGO ALEXANDRE
Leia maisDIMENSIONAMENTO DA OFERTA ATUAL E FUTURA DO TRANSPORTE INTERCAMPI DA USP-SÃO CARLOS: UMA AVALIAÇÃO DE DIFERENTES CENÁRIOS
DIMENSIONAMENTO DA OFERTA ATUAL E FUTURA DO TRANSPORTE INTERCAMPI DA USP-SÃO CARLOS: UMA AVALIAÇÃO DE DIFERENTES CENÁRIOS Bruno Almeida Maximino Cintia Isabel de Campos Cira Souza Pitombo Universidade
Leia maisUNIVERSIDADE FEDERAL DE PERNAMBUCO CENTRO DE INFORMÁTICA GRADUAÇÃO EM ENGENHARIA DA COMPUTAÇÃO
UNIVERSIDADE FEDERAL DE PERNAMBUCO CENTRO DE INFORMÁTICA GRADUAÇÃO EM ENGENHARIA DA COMPUTAÇÃO Sistema de Sumarização Automática de Textos Baseado em Classes de Documentos PROPOSTA DE TRABALHO DE GRADUAÇÃO
Leia maisAnálise de Significância Estatística na Comparação entre Sistemas de Sumarização Automática
Universidade de São Paulo - USP Universidade Federal de São Carlos - UFSCar Universidade Estadual Paulista - UNESP Análise de Significância Estatística na Comparação entre Sistemas de Sumarização Automática
Leia mais19 Congresso de Iniciação Científica INCLUSÃO DE UM NOVO ALGORITMO DE CLASSIFICAÇÃO NA FERRAMENTA KIRA
19 Congresso de Iniciação Científica INCLUSÃO DE UM NOVO ALGORITMO DE CLASSIFICAÇÃO NA FERRAMENTA KIRA Autor(es) MIRELA TEIXEIRA CAZZOLATO Orientador(es) MARINA TERESA PIRES VIEIRA Apoio Financeiro PIBIC/CNPQ
Leia maisIntrodução ao Processamento de Línguas Naturais. Thiago A. S. Pardo
Introdução ao Processamento de Línguas Naturais Thiago A. S. Pardo Núcleo Interinstitucional de Lingüística Computacional Instituto de Ciências Matemáticas e de Computação Universidade de São Paulo 1 Meta
Leia maisO MÉTODO LAPELINC: ALIMENTAÇÃO DE DOCUMENTOS DO CORPUS DOViC NO APLICATIVO WEBSINC
Página 69 de 510 O MÉTODO LAPELINC: ALIMENTAÇÃO DE DOCUMENTOS DO CORPUS DOViC NO APLICATIVO WEBSINC Amanda Moreno Fonsêca de Andrade (UESB/CNPq) Patrick Pereira Campos Brito (UESB) Jorge Viana Santos (UESB/CNPq)
Leia maisÍNDICE Capítulo 1. Avaliação conjunta Diana Santos Capítulo 2. Organização e resultados morfolímpicos Luís Costa, Paulo Rocha e Diana Santos
ÍNDICE Prefácio Lista dos capítulos Lista alfabética de autores Capítulo 1. Avaliação conjunta Diana Santos 1. Apresentação 2. O modelo da avaliação conjunta 2.1 Modelos de avaliação anteriores 2.2 Características
Leia maisModelagem gerativa para sumarização automática multidocumento. Maria Lucía del Rosario Castro Jorge
Modelagem gerativa para sumarização automática multidocumento Maria Lucía del Rosario Castro Jorge SERVIÇO DE PÓS-GRADUAÇÃO DO ICMC-USP Data de Depósito: Assinatura: Modelagem gerativa para sumarização
Leia maisNovas Ferramentas e Recursos Linguísticos para a Tradução Automática
Novas Ferramentas e Recursos Linguísticos para a Tradução Automática Por ocasião d O Fim do Início de uma Nova Era no Processamento da Língua Portuguesa Anabela Barreiro barreiro_anabela@hotmail.com FLUP
Leia maisAplicação de métodos clássicos de Sumarização Automática no contexto multidocumento multilíngue: primeiras aproximações
Universidade de São Paulo - USP Universidade Federal de São Carlos UFSCar Universidade Estadual Paulista - UNESP Aplicação de métodos clássicos de Sumarização Automática no contexto multidocumento multilíngue:
Leia maisPREDIÇÃO À EVASÃO ESCOLAR: Estudo de caso aplicado no IFSULDEMINAS Campus Passos RESUMO
PREDIÇÃO À EVASÃO ESCOLAR: Estudo de caso aplicado no IFSULDEMINAS Campus Passos Carla Fernandes da SILVA 1 ; Clayton Silva MENDES 2. RESUMO A evasão escolar é um dos principais desafios a ser superado
Leia maisAlternativas para construção de classificadores de solos brasileiros
48 Resumos Expandidos: XII Mostra de Estagiários e Bolsistas... Alternativas para construção de classificadores de solos brasileiros Matheus Agostini Ferraciolli¹ Luiz Manoel Silva Cunha² Resumo: Este
Leia maisUNIVERSIDADE FEDERAL DO PARÁ PRÓ-REITORIA DE PESQUISA E PÓS-GRADUAÇÃO DIRETORIA DE PESQUISA
UNIVERSIDADE FEDERAL DO PARÁ PRÓ-REITORIA DE PESQUISA E PÓS-GRADUAÇÃO DIRETORIA DE PESQUISA PROGRAMA INSTITUCIONAL DE BOLSAS DE INICIAÇÃO CIENTÍFICA PIBIC : CNPq, CNPq/AF, UFPA, UFPA/AF, PIBIC/INTERIOR,
Leia maisUma ferramenta para expansão do vocabulário com base em coocorrência
Resumos Expandidos: XI Mostra de Estagiários e Bolsistas... 11 Uma ferramenta para expansão do vocabulário com base em coocorrência Exupério Lédo Silva Júnior 1 Roberta Akemi Sinoara 2 Solange Oliveira
Leia maisUma Investigação sobre Algoritmos de Diferentes Abordagens de Aprendizado Supervisionado na Classificação de Papéis Retóricos em Resumos Científicos
Uma Investigação sobre Algoritmos de Diferentes Abordagens de Aprendizado Supervisionado na Classificação de Papéis Retóricos em Resumos Científicos Vinícius M. A. de Souza 1 e Valéria D. Feltrim 2 1 Instituto
Leia mais