Descrição do DMSumm: um Sumarizador Automático Baseado em um Modelo Discursivo
|
|
- Gabriel Henrique Lombardi Wagner
- 6 Há anos
- Visualizações:
Transcrição
1 Universidade de São Paulo - USP Universidade Federal de São Carlos - UFSCar Universidade Estadual Paulista - UNESP Descrição do DMSumm: um Sumarizador Automático Baseado em um Modelo Discursivo Thiago Alexandre Salgueiro Pardo NILC-TR Março, 2002 Série de Relatórios do Núcleo Interinstitucional de Lingüística Computacional NILC - ICMC-USP, Caixa Postal 668, São Carlos, SP, Brasil
2
3 Resumo 1 Neste relatório é apresentada a descrição de um sumarizador automático de textos baseado em um modelo de discurso que combina conhecimento semântico, retórico e intencional para produzir sumários coerentes. O sumarizador segue a arquitetura clássica da geração de textos de três passos, isto é, possui os processos de seleção de conteúdo, planejamento textual e realização lingüística, tendo como entrada uma mensagem que compreende um objetivo comunicativo, uma proposição central e um conteúdo informativo. Os dois primeiros componentes são informações pontuais; o último é uma estrutura semântica. A seleção de conteúdo focaliza essa estrutura, podando-a e fornecendo uma mensagem reduzida para o planejador textual. Este, por sua vez, baseado no modelo de discurso, constrói as possíveis estruturas retóricas do sumário, que são, então, lingüisticamente realizadas. 1 Este trabalho foi apoiado pela FAPESP Fundação de Amparo à Pesquisa do Estado de São Paulo.
4 ÍNDICE 1. INTRODUÇÃO ARQUITETURA O SISTEMA DMSUMM IMPLEMENTAÇÃO PERFIL DO USUÁRIO PREPARAÇÃO DO TEXTO A SUMARIZAR DADOS DE ENTRADA DO DMSUMM DADOS DE SAÍDA DO DMSUMM PROCESSAMENTO CONCLUSÕES REFERÊNCIAS BIBLIOGRÁFICAS...16
5 1. Introdução A sumarização automática de textos tem se tornado uma área proeminente devido à crescente demanda por informação no menor tempo possível. Com o advento da internet, onde as pessoas se vêem em um mar de informação em constante expansão e atualização, um grande interesse acadêmico, comercial e governamental surgiu nessa área. Há diversos tipos de sumários e métodos de sumarização. Previsões meteorológicas, sinopses de novelas, chamadas de notícias jornalísticas, resenhas e abstracts de livros e teses, por exemplo, podem ser considerados sumários. Estes podem ser classificados como indicativos, informativos ou críticos (Mani, 2001): sumários indicativos apenas listam ou indicam o assunto principal dos textos-fonte; os informativos são autocontidos, isto é, possuem toda a informação essencial dos textosfonte, dispensando a leitura destes; os críticos avaliam ou apenas comentam o conteúdo de suas fontes. Os métodos de sumarização, por sua vez, podem ser divididos em duas grandes abordagens: a superficial e a profunda. A abordagem superficial utiliza dados estatísticos e empíricos para a sumarização, enquanto a profunda procura utilizar teorias formais e modelos lingüísticos. Este relatório apresenta a implementação de uma abordagem profunda de sumarização, o sumarizador automático de textos DMSumm Discourse Modeling Summarizer que segue o modelo de discurso de Rino (1996), o qual estabelece um relacionamento entre relações profundas do discurso as relações semânticas, retóricas e intencionais podendo gerar sumários indicativos e informativos. Diferentemente de trabalhos baseados em métodos estatísticos (por exemplo, Larocca Neto et al., 2000; Knight and Marcu, 2000; Black and Johnson, 1988; Baxendale, 1958) ou fundamentais, baseados em algum tipo de estruturação retórica (por exemplo, Marcu, 1998a, 1998b; O Donnel, 1997; Hovy, 1988; McKeown, 1985) ou até mesmo em cenários comunicativos limitados (por exemplo, Cawsey, 1993; Maybury, 1992; Moore and Paris, 1993), o destaque deste trabalho é a estruturação do discurso com base na interação entre os diferentes níveis de representação lingüística, consistindo em um modelo consistente e independente de língua. Para mais detalhes sobre métodos de sumarização, vide Martins et al. (2001). A próxima seção descreve a arquitetura do DMSumm, enquanto a Seção 3 apresenta o ambiente computacional do DMSumm, juntamente com exemplos. As conclusões são mostradas na Seção Arquitetura No modelo de Rino, procura-se lidar com restrições típicas não só da sumarização (Sparck Jones, 1993), mas da geração de textos também, a saber: a) preservação da proposição central (PC) e b) satisfação do objetivo comunicativo (OC). A PC se refere ao que se quer comunicar com o discurso, enquanto o OC representa a própria motivação para a existência de qualquer discurso. Juntamente com uma base de conhecimento (BC), referente ao conteúdo informativo do texto-fonte que se quer sumarizar, o OC e a PC formam a entrada do sumarizador, a mensagem-fonte (MF). Dessa forma, a MF do DMSumm fornece os principais componentes para a produção do discurso: o OC é responsável por selecionar os componentes textuais que se relacionarão à PC nos sumários e a BC fornece informação, isto é, conhecimento para ser manipulado durante a sumarização. No DMSumm, tanto o OC quanto a PC são informações pontuais; a BC é um componente hierárquico semanticamente estruturado 1
6 que também contem a PC. Como podem existir diferentes interpretações para um texto, a MF pode variar, dando origem a diferentes sumários (conforme Mushakoji, 1993). É importante notar que o DMSumm, caracterizado como um gerador textual, não possui o processo de interpretação automática, sendo a MF produzida a partir da interpretação manual (subjetiva) do texto que se quer sumarizar. O DMSumm sumariza, portanto, a MF correspondente a um texto-fonte, e não o texto-fonte propriamente dito. O DMSumm abrange os processos clássicos da geração, ou seja, os processos de seleção de conteúdo, planejamento textual e realização lingüística, executados em pipeline, sendo o planejamento textual o processo principal que, de fato, é a implementação do modelo de discurso. A Figura 1 apresenta a arquitetura do DMSumm. Objetivo comunicativo Proposição central Base de conhecimento Seleção de conteúdo Heurísticas Base de conhecimento podada Intenções Planejamento textual Operadores de plano Planos de texto Léxico Realização lingüística Gramática Sumários Figura 1 Arquitetura do DMSumm A seleção de conteúdo recebe como entrada a MF, tendo a função de reduzir o conteúdo informativo disponível para a produção dos sumários. Esse processo é 2
7 composto de duas tarefas: a) podar a BC por meio de heurísticas e b) reproduzir tanto o OC quanto a PC na BC podada. A saída deste processo, a BC podada, e o OC e a PC originais constituem os dados de entrada para o planejamento textual, denominados mensagem-fonte do sumário (MFS). O planejamento textual, cuja função é estruturar o discurso, recebe como entrada a MFS. A partir desta, são montados os planos de texto (estruturas retóricas) de possíveis sumários com base no modelo de discurso de Rino (1996), mapeando relações semânticas (da BC) e intencionais em relações retóricas. Os modelos semânticos utilizados são o Modelo Problema-Solução (Winter, 1976; Jordan, 1980, 1984) e as relações clausais de Jordan (1992); as intenções são as da GSDT (Grosz and Sidner Discourse Theory Grosz and Sidner, 1986); as relações retóricas são basicamente as da RST (Rhetorical Structure Theory Mann and Thompson, 1987). O mapeamento entre as relações é feito por operadores de plano (OPs), que são um artifício computacional para se montar a estrutura e o conteúdo de textos, conforme o trabalho de Moore e Paris (1993). O processo de realização lingüística possui a função de produzir os sumários propriamente ditos a partir dos planos de texto, expressando estes últimos em língua natural pela aplicação de templates. Este relatório descreve somente a funcionalidade do DMSumm a sua forma de interação com o usuário, não abordando os conceitos fundamentais e os modelos utilizados em cada processo da sumarização. Detalhes dessa natureza podem ser encontrados em Pardo e Rino (2001a, 2001b) e Pardo (2002a). A próxima seção descreve o ambiente computacional do DMSumm e a forma como este foi projetado. 3. O Sistema DMSumm Esta seção explora o ambiente computacional do DMSumm. São discutidos a implementação, o perfil do usuário, a preparação do texto a sumarizar, a forma dos dados de entrada e de saída do sistema e o processamento computacional em si Implementação A implementação do DMSumm pode ser dividida em duas partes: o engenho de inferência e a interface com o usuário. O engenho de inferência foi desenvolvido em PROLOG; a interface com o usuário em DELPHI. O engenho de inferência é responsável por todo o processamento do DMSumm. A interface com o usuário é responsável por passar os componentes da MF e outros parâmetros para o engenho de inferência e por apresentar, de forma amigável, os resultados automáticos ao usuário Perfil do Usuário O DMSumm é destinado a usuários especialistas, visto que é um gerador textual e, portanto, não tem o processo de interpretação automática. O usuário deve conhecer os modelos semânticos, para que possa estruturar a BC a partir do texto-fonte, e as relações intencionais da GSDT. 3
8 3.3. Preparação do Texto a Sumarizar Como o processo de interpretação não é automático, o texto-fonte precisa ser interpretado manualmente para produzir a MF do DMSumm. A primeira etapa para a interpretação é a segmentação do texto a sumarizar. O texto pode ser segmentado em parágrafos, em sentenças ou, conforme Mann e Thompson (1987), em unidades mínimas de significado. É importante notar que as proposições elementares (folhas) da BC são os segmentos delineados durante essa fase. Durante a segmentação, deve-se identificar os segmentos com números seqüências. Nos casos em que uma mesma sentença é partida em mais de um segmento, esses segmentos devem possuir os mesmos números identificadores acrescidos de letras distintas, sendo estes colocados entre apóstrofos. A próxima etapa consiste em identificar no texto o que se quer comunicar, isto é, determinar a PC, que, no modelo de Rino, sempre será um dos segmentos da BC. Devese também tentar reconhecer o OC do texto, o que pode se dar em função da PC. Por exemplo, caso o texto tente convencer o leitor de algo, pode-se associar o OC discutir. Se o texto explica um procedimento a fim de que o leitor consiga reproduzi-lo, o OC pode ser relatar. Se o texto detalha as características de um objeto ou evento para que o leitor seja capaz de identifica-los, o OC pode ser descrever. A determinação do OC é de caráter puramente subjetivo, ainda mais em textos em que os OCs estão mesclados. É importante notar que as estruturas retóricas produzidas durante o planejamento textual e, portanto, os próprios conteúdos dos sumários, são diretamente dependentes do OC escolhido, já que cada OC está associado a um grupo distinto de estratégias retóricas Dados de Entrada do DMSumm Para o funcionamento completo do DMSumm, isto é, a aplicação de todos os seus processos em pipeline para a geração dos sumários, os dados de entrada que devem estar disponíveis são os componentes da MF, a base intencional e o texto-fonte segmentado, sendo que estes dois últimos elementos e a BC (da MF) devem estar em um arquivo do tipo texto. A BC será utilizada nos processos de seleção de conteúdo e planejamento textual; a base intencional durante o planejamento textual; o texto-fonte segmentado durante a realização lingüística. O OC e a PC não necessitam estar em arquivos, pois são selecionados diretamente na interface do DMSumm. A BC deve ser estruturada em um arquivo seguindo uma das regras abaixo, no formato PROLOG, para cada nó da árvore semântica: 1. REL ( NÓ PAI, [ NÓ FILHO ] ). 2. REL ( NÓ PAI, [ NÓ FILHO ESQUERDO, NÓ FILHO DIREITO ] ). A primeira regra é aplicada em casos em que um nó tem apenas um filho; a segunda em casos em que um nó tem dois filhos. Como exemplo, considere o texto segmentado da Figura 2 (extraído do Theses Corpus Feltrim et al., 2001). A Figura 3 mostra uma possível BC para esse texto, enquanto a Figura 4 mostra a codificação dessa BC para o arquivo que servirá de entrada para o DMSumm segundo as regras acima. Em casos onde a relação semântica se repete na codificação, deve-se acrescentar um índice a ela. O padrão de índice é o símbolo de underline seguido de um número identificador da relação. Como exemplo, vide as relações simsem da Figura 4. 4
9 [1] A representação de grandes dicionários de língua natural, principalmente nos casos em que se trabalha com vários milhões (ou dezenas de milhões) de palavras, é um interessante problema computacional a ser tratado dentro da área de Processamento de Língua Natural (PLN). [2a] Autômatos finitos (AFs), largamente usados na construção de compiladores, são excelentes estruturas para representação desses dicionários, [2b] permitindo acesso direto às palavras e seus possíveis atributos (gênero, número, grau, etc). [3] Um dicionário contendo mais de palavras da língua portuguesa sem atributos, cuja representação em formato texto ocupa mais de 4.5Mb, pode ser convertido em um AF compactado de apenas 218Kb, conforme será apresentado (o processo de conversão para esse caso levou 4:17Seg, rodando em um Pentium166/Linux). [4a] Esse trabalho tem por objetivo investigar métodos eficientes de construção, representação e minimização de AFs de grande porte (dezenas de milhões de estados), [4b] a fim de propor um conjunto de estruturas e algoritmos para criação de um sistema eficiente e versátil de representação de grandes léxicos de língua natural. [5a] Outro objetivo é o de investigar métodos de representação para os atributos das entradas léxicas, [5b] de forma a permitir a criação de um formato otimizado capaz de ser inserido diretamente no AF, com o menor impacto possível no tamanho final desse último. [6] Será também desenvolvido um protótipo do sistema, para efeito de testes e confirmação de eficiência do sistema. Figura 2 Texto backsem Situation cause exemplify enable Results simsem prop(3) Problem Solution simsem sit(2a) aspectofsit(2b) detail res(5b) res(6) simsem met(4b) met(5a) Figura 3 - BC 5
10 rel(backsem,[situation,cause]). rel(situation,[exemplify]). rel(exemplify,[simsem,prop(3)]). rel(simsem,[sit('2a'),aspectofsit('2b')]). rel(cause,[enable,results]). rel(enable,[problem,solution]). rel(problem,[]). rel(solution,[detail]). rel(detail,[sol('4a'),simsem_1]). rel(simsem_1,[met('4b'),met('5a')]). rel(results,[simsem_2]). rel(simsem_2,[res('5b'),res(6)]). Figura 4 BC codificada O texto-fonte segmentado deve seguir a seguinte regra no formato PROLOG, onde a sigla PAR indica PARÁGRAFO e o IDENTIFICADOR DO SEGMENTO corresponde aos números identificadores dos segmentos determinados durante a preparação do texto a sumarizar: PAR ( IDENTIFICADOR DO SEGMENTO, SEGMENTO TEXTUAL ). A Figura 5 exibe a codificação do texto-fonte segmentado da Figura 2. A base intencional, por sua vez, segue uma das regras no formato PROLOG abaixo, onde TAG1 e TAG2 correspondem às etiquetas do modelo Problema-Solução, conforme especificado em (Rino, 1996). A Figura 6 mostra a codificação das intenções para o texto da Figura 2. O reconhecimento das relações intencionais em um texto pode ser feito conforme sugerido por Grosz e Sidner (1986). Vale notar que, durante o desenvolvimento do DMSumm, uma base intencional genérica foi especificada, podendo ser utilizada, a princípio, para quaisquer textos do gênero científico que seguem o modelo Problema-Solução. 1. DOMINATES ( TAG1, TAG2 ). 2. SATISFACTION-PRECEDES ( TAG1, TAG2 ). 3. SUPPORTS ( TAG1, TAG2 ). 4. GENERATES ( TAG1, TAG2 ). 6
11 par(1, A representação de grandes dicionários de língua natural, principalmente nos casos em que se trabalha com vários milhões (ou dezenas de milhões) de palavras, é um interessante problema computacional a ser tratado dentro da área de Processamento de Língua Natural (PLN) ). par( 2a', Autômatos finitos (AFs), largamente usados na construção de compiladores, são excelentes estruturas para representação desses dicionários ). par( 2b, permitindo acesso direto às palavras e seus possíveis atributos (gênero, número, grau, etc) ). par( 3, Um dicionário contendo mais de palavras da língua portuguesa sem atributos, cuja representação em formato texto ocupa mais de 4.5Mb, pode ser convertido em um AF compactado de apenas 218Kb, conforme será apresentado (o processo de conversão para esse caso levou 4:17Seg, rodando em um Pentium166/Linux) ). par( 4a', Esse trabalho tem por objetivo investigar métodos eficientes de construção, representação e minimização de AFs de grande porte (dezenas de milhões de estados) ). par( 4b, a fim de propor um conjunto de estruturas e algoritmos para criação de um sistema eficiente e versátil de representação de grandes léxicos de língua natural ). par( 5a', Outro objetivo é o de investigar métodos de representação para os atributos das entradas léxicas ). par( 5b, de forma a permitir a criação de um formato otimizado capaz de ser inserido diretamente no AF, com o menor impacto possível no tamanho final desse último ). par(6, Será também desenvolvido um protótipo do sistema, para efeito de testes e confirmação de eficiência do sistema ). Figura 5 Texto-fonte segmentado em arquivo 7
12 dominates(sol,probl). dominates(met,probl). dominates(res,probl). dominates(res,sol). dominates(res,met). dominates(sit,aspectofsit). dominates(aspectofsit,sit). satisfaction-precedes(probl,sol). satisfaction-precedes(probl,met). satisfaction-precedes(probl,res). satisfaction-precedes(sol,res). satisfaction-precedes(met,res). supports(met,sol). supports(prop,sit). supports(prop,aspectofsit). supports(sit,sol). supports(sit,met). supports(sit,probl). supports(sit,res). supports(aspectofsit,sol). supports(aspectofsit,met). supports(aspectofsit,probl). supports(aspectofsit,res). supports(prop,sol). supports(prop,met). supports(prop,probl). supports(prop,res). generates(probl,res). generates(sol,res). generates(met,res). Figura 6 Base intencional em arquivo 3.5. Dados de Saída do DMSumm Os dados de saída do DMSumm são armazenados em arquivos. Os seguintes arquivos são gerados após o processamento do sistema: bc_condensada.pro: após a seleção de conteúdo, este arquivo contem a base de conhecimento reduzida segundo as heurísticas selecionadas; pts.sum, planos.sum, prea.sum: após o planejamento textual, estes arquivos contem, respectivamente, um histórico da geração dos planos de texto, os planos de texto para serem exibidos na interface de exibição dos planos (vide Figura 13) e os planos de texto para serem realizados lingüisticamente; sumários.sum: após a realização lingüística, este arquivo contem os sumários referentes aos planos do arquivo prea.sum. 8
13 3.6. Processamento O sistema possui interfaces específicas para cada um dos processos de sumarização, isto é, a seleção de conteúdo, o planejamento textual e a realização lingüística, que podem ser selecionados por meio dos botões na parte superior da interface, conforme pode ser visto na Figura 7. A Figura 7 mostra a interface para o processo de seleção de conteúdo. Nesta interface, o usuário deve selecionar a BC, as heurísticas 2 para podar essa base e a ordem de aplicação das heurísticas. Na figura, foram selecionadas: a BC da Figura 3 selecionando-se a opção outra. Ao selecionar esta opção, o sistema mostra uma janela de abertura de arquivo, onde se deve selecionar o arquivo desejado. As BCs já indicadas na interface são exemplos prontos que foram utilizados para a modelagem inicial do sistema; as heurísticas excluir detalhes de entidades e excluir cenário contextual; a ordem de aplicação das heurísticas, de acordo com as caixas de texto ao lado das heurísticas habilitadas. Neste caso, a heurística para excluir detalhes de entidades será aplicada primeiro. Figura 7 Interface da seleção de conteúdo Vale notar que a determinação da ordem em que as heurísticas são aplicadas pode gerar diferentes BCs podadas. Para executar a seleção de conteúdo, basta selecionar o botão executar. A BC podada é mostrada na Figura 8. 2 Para mais detalhes sobre as heurísticas da seleção de conteúdo, vide Rino e Scott (1994). 9
14 cause enable Results Problem Solution simsem res(5b) res(6) Figura 8 BC podada A interface para o planejamento textual é mostrada na Figura 9. Nesta interface, o usuário deve selecionar a BC, o grupo de operadores de plano (OPs), a base intencional, o OC, a PC e as opções sobre o nível (profundidade) e o número de planos a serem gerados. Na figura, foram selecionados: a BC podada da Figura 8 selecionando-se a opção outra (quando se seleciona uma das BCs já disponíveis na interface para a seleção de conteúdo, a opção Base condensada é automaticamente selecionada pelo sistema durante o planejamento); o grupo de OPs genéricos; a base intencional da Figura 6 selecionando-se a opção outras na caixa de texto correspondente (novamente, caso se selecione uma das BCs da interface, a base intencional é selecionada automaticamente); o OC relatar (utilizando-se a barra de rolagem da caixa de texto correspondente); a PC (utilizando-se a barra de rolagem da caixa de texto correspondente) 3 ; a opção de planejamento qualquer para o nível dos planos a se gerar; a opção de planejamento todos para o número de planos a se gerar. Os grupos de OPs são conjuntos de operadores de plano já selecionados para uma determinada combinação de OC e PC (esses grupos de OPs foram desenvolvidos para as BCs utilizadas para a modelagem do sistema). Por exemplo, caso se queira descrever um problema, é possível selecionar o segundo grupo de operadores. A opção escolhida, operadores de plano genéricos, indica o grupo irrestrito de operadores, ou seja, que não foi customizado para nenhum tipo de combinação de OC e PC, podendo ser aplicado para quaisquer dados de entrada. Essa opção pode permitir maior variedade na geração de planos, entretanto, pode consumir mais tempo de processamento caso se escolha gerar todos os planos. O usuário pode, ainda, escolher dentre os operadores de plano genéricos os operadores que lhe convém para o seu caso particular, montando um arquivo a parte e selecionando-o por meio da opção outros na interface. Para executar o planejamento textual, basta selecionar o botão executar. Os planos de texto resultantes, em número de 14, são mostrados de forma hierárquica na Figura 10. A Figura 11 mostra a interface para a realização lingüística. O usuário deve selecionar o arquivo de planos de texto, o idioma e o arquivo com o texto-fonte segmentado. Na figura, foram selecionados: o arquivo de planos de texto referente à Figura 10; o idioma português; o arquivo com o texto-fonte segmentado da Figura 5. 3 A caixa de texto da PC lista todos os segmentos da BC selecionada. 10
15 Como se pode notar, a interface oferece as opções de idioma inglês e português, já que foram desenvolvidos grupos de templates para os dois casos. Os botões procurar e padrão abaixo da caixa de texto que indica o arquivo de planos de texto servem, respectivamente, para selecionar um arquivo de planos de texto qualquer e para selecionar o arquivo de planos de texto que é gerado no diretório onde o DMSumm se encontra. Sempre que se executa algum dos casos-exemplo da interface, o arquivo de planos de texto é gerado no próprio diretório do DMSumm. Para se executar a realização lingüística, basta selecionar o botão executar. Os sumários gerados para os quatro primeiros planos de texto da Figura 10 são mostrados na Figura 12. Figura 9 Interface do planejamento textual 11
16 res(5b) nonvolcause nonvolcause res(5b) list res(5b) res(6) list list list res(5b) res(6) res(5b) nonvolcause nonvolcause res(6) res(6) res(5b) purpose1 purpose1 res(5b) purpose1 list res(5b) res(6) res(5b) purpose1 purpose1 purpose1 res(5b) list list res(5b) res(6) res(5b) res(6) purpose1 Figura 10 Planos de texto 12
17 Figura 11 Interface da realização lingüística Sumário 1: Esse trabalho tem por objetivo investigar métodos eficientes de construção, representação e minimização de autômatos finitos de grande porte (dezenas de milhões de estados). Sumário 2: Esse trabalho tem por objetivo investigar métodos eficientes de construção, representação e minimização de autômatos finitos de grande porte (dezenas de milhões de estados). Como resultado, será possibilitada a criação de um formato otimizado capaz de ser inserido diretamente no autômato finito, com o menor impacto possível no tamanho final do autômato. 13
18 Sumário 3: Esse trabalho tem por objetivo investigar métodos eficientes de construção, representação e minimização de autômatos finitos de grande porte (dezenas de milhões de estados). A representação de grandes dicionários de língua natural, principalmente nos casos em que se trabalha com vários milhões (ou dezenas de milhões) de palavras, é um interessante problema computacional a ser tratado dentro da área de Processamento de Língua Natural. Conseqüentemente, será possibilitada a criação de um formato otimizado capaz de ser inserido diretamente no autômato finito, com o menor impacto possível no tamanho final do autômato. Sumário 4: Esse trabalho tem por objetivo investigar métodos eficientes de construção, representação e minimização de autômatos finitos de grande porte (dezenas de milhões de estados). A representação de grandes dicionários de língua natural, principalmente nos casos em que se trabalha com vários milhões (ou dezenas de milhões) de palavras, é um interessante problema computacional a ser tratado dentro da área de Processamento de Língua Natural. Conseqüentemente, será possibilitada a criação de um formato otimizado capaz de ser inserido diretamente no autômato finito, com o menor impacto possível no tamanho final do autômato. Será desenvolvido um protótipo para efeito de testes e confirmação de eficiência do sistema. Figura 12 Sumários Outras facilidades oferecidas pela interface incluem a fácil visualização dos dados do sistema. Neste caso, os botões à direita da interface são utilizados para a visualização dos dados de entrada e de saída do DMSumm. Os dois primeiros botões (Texto-fonte e BC) e o último botão (Sumários) são simples editores de texto que exibem o conteúdo de um arquivo qualquer. Os botões Planos de sumário e BC estruturada mostram de forma hierárquica os planos produzidos automaticamente e a BC. As Figuras 13 e 14 mostram as interfaces destes últimos. Figura 13 Interface de exibição dos planos de texto 14
19 Figura 14 Interface de exibição da BC Na Figura 13, pode-se notar que os núcleos e satélites são indicados pelas letras N e S, respectivamente, seguidas de identificadores únicos. Os botões na parte inferior da interface permitem a navegação entre os planos. Clicando-se com o botão direito na interface, abre-se um menu pop-up que permite ao usuário abrir um outro arquivo de planos ou fechar a interface. Durante o processamento de cada passo da sumarização, o botão executar é substituído por um timer que indica quanto tempo de processamento transcorreu até aquele momento desde a seleção do botão executar, sendo este timer atualizado a cada ciclo do sistema. Além de marcar o tempo de processamento, o timer também indica que o sistema ainda está executando sem problemas aparentes. 4. Conclusões Este relatório apresentou a implementação do DMSumm, um sumarizador automático de textos com base no modelo de discurso de Rino (1996). O DMSumm, é composto dos processos da geração automática de textos, isto é, a seleção de conteúdo, o planejamento textual e a realização lingüística. Sua limitação se encontra justamente neste ponto: sendo um gerador, a interpretação ainda é feita de forma manual, exigindo que o usuário do sistema seja, portanto, um usuário especialista nos modelos lingüísticos utilizados. A avaliação do DMSumm, relatada em Pardo (2002a, 2002b), mostrou que o sistema é promissor. Entretanto, muito pode ser feito ainda, destacando-se: o aprimoramento do processo de realização lingüística, que, por ser feito com base em templates, é muito limitado; o acoplamento de um modelo de usuário ao sistema, permitindo a geração de sumários mais dedicados aos interesses do usuário; a variedade de línguas naturais abrangidas pelo DMSumm pode ser aumentada, característica esta desejável no ambiente multilingual atual; pode-se expandir o modelo discursivo do DMSumm, incorporando-se outros objetivos comunicativos. 15
20 Referências Bibliográficas Baxendale, P.B. (1958). Machine-made index for technical literature an experiment. In: IBM Journal of Research and Development, Vol. 2, pp Black, W.J. and Johnson, F.C. (1988). A Practical Evaluation of Two Rule-Based Automatic Abstraction Techniques. In: Expert Systems for Information Management, Vol. 1, No. 3. Department of Computation. University of Manchester Institute of Science and Technology. Cawsey, A. (1993). Planning Interactive Explanations. In: Int. Journal of Man-Machine Studies, Vol. 38, pp Feltrim, V.D.; Nunes, M.G.V.; Aluísio, S.M. (2001). Um corpus de textos científicos em Português para a análise da Estrutura Esquemática. Série de Relatórios do NILC. NILC-TR Grosz, B. and Sidner, C. (1986). Attention, Intentions, and the Structure of Discourse. In: Computational Linguistics, Vol. 12, No. 3. Hovy, E. (1988). Generating Natural Language under Pragmatic Constraints. Lawrence Erlbaum Associates Publishers, Hillsdale, New Jersey. Jordan, M.P. (1980). Short Texts to Explain Problem-Solution Structures and Vice Versa. In: Instructional Science, Vol. 9, pp Jordan, M.P. (1984). Structure, style and word choice in everyday English texts. In: TESL 15, Vols. 1 & 2. Jordan, M. P. (1992). An Integrated Three-Pronged Análisis of a Fund-Raising Letter. In W. C. Mann and S. A. Thompson (eds), Discourse Description: Diverse Linguistic Analyses of a Fund-Raising Text, pp Knight, K. and Marcu, D. (2000). Statistics-Based Summarization Step One: Sentence Compression. In: The 17 th National Conference of the American Association for Artificial Intelligence, Austin, Texas. Larocca Neto, J., Santos, A.D., Kaestner, A.A., Freitas, A.A. (2000). Generating Text Summaries through the Relative Importance of Topics. In: Proceedings of the International Joint Conference IBERAMIA/SBIA, Atibaia, SP. Mani, I. (2001). Automatic Summarization. John Benjamins Publishing Co., Amsterdam. Mann, W.C. and Thompson, S.A. (1987). Rhetorical Structure Theory: A Theory of Text Organization. Technical Report ISI/RS Marcu, D. (1998a). Improving Summarization through Rhetorical Parsing Tuning. In: The Sixth Workshop on Very Large Corpora, pp Montreal, Canada. Marcu, D. (1998b). To build text summaries of high quality, nuclearity is not sufficient. In: The Working Notes of the AAAI-98 Spring Symposium on Intelligent Text Summarization, pp Stanford, California. Martins, C.B.; Pardo, T.A.S.; Espina, A.P.; Rino, L.H.M. (2001). Introdução à Sumarização Automática. Relatório Técnico RT-DC 002/2001, Departamento de Computação, Universidade Federal de São Carlos. Maybury, M.T. (1992). Communicative Acts for Explanation Generation. In: Int. Journal of Man-Machine Studies 37, pp McKeown, K.R. (1985). Text Generation: Using Discourse Strategies and Focus Constraints to Generate Natural Language Text. Cambridge University Press. Moore, J.D. and Paris, C. (1993). Plannig Text for Advisory Dialogues: Capturing Intentional and Rhetorical Information. In: Computational Linguistics, Vol. 19, No. 4, pp
21 Mushakoji, S. (1993). Constructing Identity and Differences in Original Scientific Texts and Their Summaries: Its Problems and Solutions. In: Proceedings of Summarizing Text for Intelligent Communication, B. Endres-Niggemeyer, J. Hobbs and K. Sparck Jones (eds). Dagstuhl, Germany. O'Donnell, M. (1997). Variable-Length On-Line Document Generation. In: Proceedings of the 6th European Workshop on Natural Language Generation, Gerhard- Mercator University, Duisburg, Germany. Pardo, T.A.S e Rino, L.H.M. (2001a). O Planejamento de Sumários a partir de Operadores de Plano. Congresso de Pós-Graduação da Universidade Federal de São Carlos - CONGPG. Pardo, T.A.S. e Rino, L.H.M. (2001b). A Summary Planner Based on a Three-Level Discourse Model. In Proceedings of the Natural Language Processing Pacific Rym Symposium - NLPRS. Tokyo, Japan. Pardo, T.A.S. (2002a). DMSumm: um Gerador Automático de Sumários. Dissertação de Mestrado. Departamento de Computação, Universidade Federal de São Carlos. São Carlos SP. Pardo, T.A.S. (2002b). Avaliação do DMSumm. Relatório Técnico NILC-TR-02-05, São Carlos. Rino, L.H.M. and Scott, D. (1994). Automatic generation of draft summaries: heuristics for content selection. ITRI Techn. Report ITRI University of Brighton, England. Rino, L.H.M. (1996). Modelagem de Discurso para o Tratamento da Concisão e Preservação da Idéia Central na Geração de Textos. Tese de Doutorado. IFSC- Usp. São Carlos - SP. Sparck Jones, K. (1993). What might be in a summary? In: Knorz, Krause and Womser- Hacker (eds.). Information Retrieval: Von der Modellierung zur Anwendung, Vol. 93, pp. 9-26, Universitatsverlag Konstanz. Winter, E.O. (1976). Fundamentals of Information Structure. Hatfield Polytechnic, Hertfodshire, England. 17
GistSumm GIST SUMMarizer: Extensões e Novas Funcionalidades
Universidade de São Paulo - USP Universidade Federal de São Carlos - UFSCar Universidade Estadual Paulista - UNESP GistSumm GIST SUMMarizer: Extensões e Novas Funcionalidades Thiago Alexandre Salgueiro
DMSumm: Um Gerador Automático de Sumários *
DMSumm: Um Gerador Automático de Sumários * Thiago Alexandre Salgueiro Pardo e Lucia Helena Machado Rino {taspardo,lucia}@dc.ufscar.br Departamento de Computação, Centro de Ciências Exatas e de Tecnologia.
TeMário 2006: Estendendo o Córpus TeMário
Universidade de São Paulo - USP Universidade Federal de São Carlos - UFSCar Universidade Estadual Paulista - UNESP TeMário 2006: Estendendo o Córpus TeMário Erick Galani Maziero Vinícius Rodrigues de Uzêda
Automatização de um Método de Avaliação de Estruturas Retóricas
Automatização de um Método de Avaliação de Estruturas Retóricas Erick Galani Maziero (erickgm@grad.icmc.usp.br) Thiago Alexandre Salgueiro Pardo (taspardo@icmc.usp.br) Núcleo Interinstitucional de Lingüística
O código do modelo de mapeamento sintático-conceitual do sistema ConPor
Universidade de São Paulo - USP Universidade Federal de São Carlos - UFSCar Universidade Estadual Paulista - UNESP O código do modelo de mapeamento sintático-conceitual do sistema ConPor Lucia Specia Lucia
DiZer: Uma Proposta de Análise Discursiva Automática para o Português do Brasil 1
DiZer: Uma Proposta de Análise Discursiva Automática para o Português do Brasil 1 Thiago Alexandre Salgueiro Pardo, Lucia Helena Machado Rino, Maria das Graças Volpe Nunes Núcleo Interinstitucional de
A Construção de um Corpus de Textos Científicos em Português do Brasil e sua Marcação Retórica
Universidade de São Paulo - USP Universidade Federal de São Carlos - UFSCar Universidade Estadual Paulista - UNESP A Construção de um Corpus de Textos Científicos em Português do Brasil e sua Marcação
DMSumm: Um Gerador Automático de Sumários
UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS E DE TECNOLOGIA PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO DMSumm: Um Gerador Automático de Sumários Thiago Alexandre Salgueiro Pardo
A Sumarização Automática com Base em Estruturas RST
Universidade de São Paulo - USP Universidade Federal de São Carlos - UFSCar Universidade Estadual Paulista - UNESP A Sumarização Automática com Base em Estruturas RST Gislaine Fonseca Ribeiro Lucia Helena
COMPARANDO SUMÁRIOS DE REFERÊNCIA HUMANOS COM EXTRATOS IDEAIS NO PROCESSO DE AVALIAÇÃO DE SUMÁRIOS EXTRATIVOS
COMPARANDO SUMÁRIOS DE REFERÊNCIA HUMANOS COM EXTRATOS IDEAIS NO PROCESSO DE AVALIAÇÃO DE SUMÁRIOS EXTRATIVOS Carlos Henrique Delgado UBM Universidade de Barra mansa Barra Mansa Rio de Janeiro Brasil henrique_chd@yahoo.com.br
TeMário: Um Corpus para Sumarização Automática de Textos
Universidade de São Paulo - USP Universidade Federal de São Carlos - UFSCar Universidade Estadual Paulista - UNESP TeMário: Um Corpus para Sumarização Automática de Textos Thiago Alexandre Salgueiro Pardo
7 Congresso de Pós-Graduação MODELAGEM DE BASE DE CONHECIMENTO PARA TAREFA DE CLASSIFICAÇÃO EM MINERAÇÃO DE DADOS
7 Congresso de Pós-Graduação MODELAGEM DE BASE DE CONHECIMENTO PARA TAREFA DE CLASSIFICAÇÃO EM MINERAÇÃO DE DADOS Autor(es) LIDIA MARTINS DA SILVA Orientador(es) ANA ESTELA ANTUNES DA SILVA 1. Introdução
ALINHAMENTO MANUAL DE TEXTOS E SUMÁRIOS EM UM CORPUS JORNALÍSTICO MULTIDOCUMENTO
ALINHAMENTO MANUAL DE TEXTOS E SUMÁRIOS EM UM CORPUS JORNALÍSTICO MULTIDOCUMENTO 1. Introdução Com o imenso volume de informação disponível na web, necessita-se de estratégias que permitam absorvê-la de
EDITOR DE ANOTAÇÃO DE SIMPLIFICAÇÃO: MANUAL DO USUÁRIO
Universidade de São Paulo USP Universidade Federal de São Carlos UFSCar Universidade Estadual Paulista UNESP EDITOR DE ANOTAÇÃO DE SIMPLIFICAÇÃO: MANUAL DO USUÁRIO Helena de Medeiros Caseli Tiago de Freitas
A importância do tratamento co-referencial para a sumarização automática de textos
A importância do tratamento co-referencial para a sumarização automática de textos Lucia Helena Machado Rino 1, Eloize Rossi Marques Seno Departamento de Computação UFScar 1 Também Departamento de Letras
UNIVERSIDADE FEDERAL DE PERNAMBUCO CENTRO DE INFORMÁTICA GRADUAÇÃO EM ENGENHARIA DA COMPUTAÇÃO
UNIVERSIDADE FEDERAL DE PERNAMBUCO CENTRO DE INFORMÁTICA GRADUAÇÃO EM ENGENHARIA DA COMPUTAÇÃO Sistema de Sumarização Automática de Textos Baseado em Classes de Documentos PROPOSTA DE TRABALHO DE GRADUAÇÃO
GistSumm: Um Sumarizador Automático Baseado na Idéia Principal de Textos
Universidade de São Paulo - USP Universidade Federal de São Carlos - UFSCar Universidade Estadual Paulista - UNESP GistSumm: Um Sumarizador Automático Baseado na Idéia Principal de Textos Thiago Alexandre
Sumarização Automática: Principais Conceitos e Sistemas para o Português Brasileiro
Universidade de São Paulo - USP Universidade Federal de São Carlos - UFSCar Universidade Estadual Paulista - UNESP Sumarização Automática: Principais Conceitos e Sistemas para o Português Brasileiro Thiago
O Desenvolvimento de um Sistema Computacional de Sumarização Multidocumento com Base em um Método Linguisticamente Motivado
O Desenvolvimento de um Sistema Computacional de Sumarização Multidocumento com Base em um Método Linguisticamente Motivado Guilherme Gonçalves, Thiago Alexandre Salgueiro Pardo Núcleo Interinstitucional
Sumarização Automática Multidocumento
I m p l e m e n t a ç ã o d e u m M é t o d o L i n g u í s t i c o p a r a a S u m a r i za ç ã o A u t o m á t i c a M u l t i d oc u m e n t o Guilherme Gonçalves, Thiago A. S. Pardo Núcleo Interinstitucional
2 O Modelo: SetModel. 2.1 Modelo de Informação
O Modelo: SetModel 2 O Modelo: SetModel 2.1 Modelo de Informação Modelo de informação é uma representação abstrata e formal de entidades incluindo suas propriedades, relações e operações que podem ser
ESTRUTURAÇÃO RETÓRICA: UM MODELO DE REPRESENTAÇÃO DO CONHECIMENTO *
ESTRUTURAÇÃO RETÓRICA: UM MODELO DE REPRESENTAÇÃO DO CONHECIMENTO * Thiago Ianez CARBONEL (DL-UFSCAR) * Lucia Helena Machado RINO (DC-UFSCAR) RESUMO: Neste artigo apresentamos a Teoria de Estruturação
Todas as Palavras da Sentença como Métrica para um Sumarizador Automático
Todas as Palavras da Sentença como Métrica para um Sumarizador Automático Marcus V. C. Guelpeli Departamento de Ciência da Computação Universidade Federal Fluminense - UFF mguelpeli@ic.uff.br Flavia Cristina
PROTÓTIPO PARA SUMARIZAÇÃO AUTOMÁTICA DE TEXTOS ESCRITOS EM LÍNGUA PORTUGUESA ALEXANDRE BUSARELLO JOYCE MARTINS
PROTÓTIPO PARA SUMARIZAÇÃO AUTOMÁTICA DE TEXTOS ESCRITOS EM LÍNGUA PORTUGUESA ALEXANDRE BUSARELLO JOYCE MARTINS Roteiro Introdução Objetivos Fundamentação Teórica Especificação Implementação Operacionalidade
Utilização de XML no Desenvolvimento de Hiperdocumentos Educacionais
1 Utilização de XML no Desenvolvimento de Hiperdocumentos Educacionais Fabiano Fagundes, Parcilene F. Brito, Fernando L. Oliveira, Jackson G. Souza, Carlos H. Tolentino Resumo O desenvolvimento colaborativo
Tutorial sobre o MineraFórum I. Introdução
Tutorial sobre o MineraFórum I. Introdução O MineraFórum é um minerador de textos para fóruns de discussão. A ferramenta realiza um mapeamento dos principais conceitos relacionados ao tema em debate, calculando
A velocidade de fala como marca de segmentação da narrativa espontânea. Miguel Oliveira, Jr. Instituto de Linguística Teórica e Computacional
A velocidade de fala como marca de segmentação da narrativa espontânea Miguel Oliveira, Jr. Instituto de Linguística Teórica e Computacional seja pronto para ouvir tardio para falar Tiago (1:19) 0. Introdução
Manual OntoLP. 1-Introdução ao OntoLP Instalação do OntoLP Executando o OntoLP Observação Importante...4
Manual OntoLP Sumário: 1-Introdução ao OntoLP...2 2-Instalação do OntoLP...2 3-Executando o OntoLP...2 4-Observação Importante...4 5-Aba de Carga do Corpus...5 6-Aba de Extração de Termos...7 7- Aba de
1.1 Tema Aprendizado de Máquina (Mit97) é o campo da Inteligência Artificial responsável pelo desenvolvimento de modelos inferidos automaticamente a
1 Introdução 1.1 Tema Aprendizado de Máquina (Mit97) é o campo da Inteligência Artificial responsável pelo desenvolvimento de modelos inferidos automaticamente a partir de dados. Existem diversas aplicações
5º Congresso de Pós-Graduação
5º Congresso de Pós-Graduação UMA FERRAMENTA PARA GERAÇÃO AUTOMÁTICA DE DIAGRAMA DE CLASSES A PARTIR DA ESPECIFICAÇÃO DE REQUISITOS EM LINGUAGEM NATURAL Autor(es) Orientador(es) LUIZ EDUARDO GALVÃO MARTINS
Métodos para Análise Discursiva Automática
Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação Métodos para Análise Discursiva Automática Thiago Alexandre Salgueiro Pardo Orientadora: Profa. Dra. Maria das Graças Volpe Nunes
Linguística Computacional Interativa
1 Linguística Computacional Interativa Planejamento e realização de texto Aula de 28 de agosto de 2012 2 Tópicos da Aula Introdução A intuição gramatical Gramáticas e Gramaticalização Tema da Aula Modelos
SISTEMA DE GESTÃO PEDAGÓGICA Manual do Professor
SISTEMA DE GESTÃO PEDAGÓGICA Manual do Professor SISTEMA DE GESTÃO PEDAGÓGICA Versão 1.0 1. Cadastro no sistema - Acesse o sistema pelo endereço: http://www.professor.ms.gov.br. - Clique no link na parte
Análise Automática de Coerência Textual em Resumos Científicos: Avaliando Quebras de Linearidade
Proceedings of Symposium in Information and Human Language Technology. Natal, RN, Brazil, November 4 7, 2015. c 2015 Sociedade Brasileira de Computação. Análise Automática de Coerência Textual em Resumos
MSP430 Lab 02 Criar e Compilar um projeto
MSP430 Lab 02 Criar e Compilar um projeto Software CCS Neste post iremos criar um novo projeto utilizando a IDE CCS da Texas Instruments, compilar o código feito em linguagem C e fazer o Debug da aplicação
NEPaLE: Uma ferramenta computacional de suporte à avaliação de paráfrases
NEPaLE: Uma ferramenta computacional de suporte à avaliação de paráfrases Rafael de Oliveira Teixeira 1, Eloize Rossi Marques Seno 1, Helena de Medeiros Caseli 2 1 Instituto Federal de São Paulo câmpus
Manual SAGe Versão 1.0 (a partir da versão )
Manual SAGe Versão 1.0 (a partir da versão 12.05.09) Submissão de Ata de Defesa Sumário Introdução... 2 Elaboração da Ata de Defesa... 3 Submissão da Ata de Defesa... 12 Operação Retornar para Elaboração...
5º Congresso de Pós-Graduação
5º Congresso de Pós-Graduação UMA FERRAMENTA PARA GERAÇÃO AUTOMÁTICA DE DIAGRAMA DE CLASSES A PARTIR DA ESPECIFICAÇÃO DE REQUISITOS EM LINGUAGEM NATURAL Autor(es) WILSON CARLOS DA SILVA Orientador(es)
Métodos para Sumarização Automática Multidocumento Usando Modelos Semântico-Discursivos
Métodos para Sumarização Automática Multidocumento Usando Modelos Semântico-Discursivos Paula C. F. Cardoso, Thiago A. S. Pardo, Maria das Graças V. Nunes Núcleo Interinstitucional de Linguística Computacional
6.1. Teste Baseado em Gramática e Outras Abordagens de Teste
6 Discussão Além das técnicas de teste usando modelos gramaticais, existem outras abordagens de teste funcional de sistemas que estão sendo estudadas pela comunidade científica. Algumas delas se dedicam
SISTEMA ADM ERP - MANUAL DO USUÁRIO. Conceitos Básicos
SISTEMA ADM ERP - MANUAL DO USUÁRIO Conceitos Básicos Sumário Introdução... 3 Acessando o sistema e fazendo Login... 3 Elementos do Sistema... 5 Abas/Guias... 5 Barra de Ferramentas... 5 Cabeçalhos de
Lauro Rafael Lima (Mestrando em Letras na UFSM) Notas de Pesquisa, Santa Maria, RS, v. 1, n. 0, p ,
Lauro Rafael Lima (Mestrando em Letras na UFSM) Notas de Pesquisa, Santa Maria, RS, v. 1, n. 0, p. 142-154, 2011. 142 1. Contextualização 1.1 O gênero notícia de popularização da ciência TEXTOS DE POPULARIZAÇÃO
Avaliação de desempenho em uso de sistemas construtivos inovadores - A elaboração de um banco de dados digital
1º. Workshop de Integração da rede de Pesquisa INOVATEC FINEP [Polo USP] 9 e 10 de Agosto de 2012 Pirassununga, SP Brasil Avaliação de desempenho em uso de sistemas construtivos inovadores - A elaboração
Manual do Revisor Oficial de Contas
Manual do Revisor Oficial de Contas InforDoc - Versão 2.02.00 Manual de utilização A versão 2.02.00 inclui melhoramentos resultantes do contributo de utilizadores, desde o lançamento desta nova plataforma,
Alinhamento do CSTNews Processo, manual, tipos, exemplos, problemas
Renata Tironi de Camargo (PPGL/NILC) Verônica Agostini (ICMC/NILC) Orientadores: Ariani Di Felippo Thiago A. S. Pardo 1 Alinhamento O que é, onde é usado, tipos Propostas de mestrado Alinhamento do CSTNews
IMPLEMENTAÇÃO E RESOLUÇÃO DE MODELOS MATEMÁTICOS UTILIZANDO A PLANILHA EXCEL
IMPLEMENTAÇÃO E RESOLUÇÃO DE MODELOS MATEMÁTICOS UTILIZANDO A PLANILHA EXCEL 1. INTRODUÇÃO Este tutorial apresenta, passo-a-passo, o processo de implementação e resolução de modelos matemáticos na planilha
Nova. Tecnologia em Atendimento. Manual do usuário
Nova Tecnologia em Atendimento Manual do usuário Índice Introdução Arquitetura e Requisitos de Software Tela de Login Página Principal Acesso Fácil Funções Básicas Utilizando Filtros Solicitação de Serviço
CONSTRUDATA. Sumário
Sumário Acessando a pesquisa avançada:...2 Utilizando os filtros:...4 Níveis de dado:...5 Série:...8 Localidade:...11 Pesquisa por Tema:...12 Acessando a Pesquisa por Tema:...12 Buscando os resultados:...16
O Corpus CSTNews e sua Complementaridade Temporal
O Corpus CSTNews e sua Complementaridade Temporal Jackson W. C. Souza 1,3, Ariani Di Felippo 2,3 1 Programa de Pós-graduação em Linguística e Língua Portuguesa (PPGL/UFSCar) 2 Departamento de Letras (DL)
Projeto de Banco de Dados. Componentes de um Sistema de Informação. Arquitetura de SI. Sistema de Informação (SI) SI nas Organizações
Sistema (SI) Coleção de atividades de Banco de Dados que regulam o compartilhamento, SI nas Organizações a distribuição de informações Fernando Fonseca e o armazenamento de dados relevantes ao gerenciamento
19 Congresso de Iniciação Científica APLICAÇÃO DA LÓGICA NEBULOSA A MODELO DE CONHECIMENTO DO PROCESSO DE MINERAÇÃO DE DADOS
19 Congresso de Iniciação Científica APLICAÇÃO DA LÓGICA NEBULOSA A MODELO DE CONHECIMENTO DO PROCESSO DE MINERAÇÃO DE DADOS Autor(es) ANDRE DE ANDRADE BINDILATTI Orientador(es) ANDERSON BERGAMO, ANA ESTELA
Modelagem para previsão/estimação: uma aplicação Neuro-Fuzzy
Proceeding Series of the Brazilian Society of pplied and Computational Mathematics, Vol., N., 0. Trabalho apresentado no XXXV CNMC, Natal-RN, 0. Modelagem para previsão/estimação: uma aplicação Neuro-Fuzzy
Lucía Castro & Lucia Rino
Lucía Castro & Lucia Rino Owczarzak, Karolina; Dang, Hoa Trang (2011). Who wrote What Where: Analyzing the content of human and automatic summaries. Proc. of the Workshop on Automatic Summarization for
Universidade de Santa Cruz do Sul UNISC Departamento de informática COMPILADORES. Introdução. Geovane Griesang
Universidade de Santa Cruz do Sul UNISC Departamento de informática COMPILADORES Introdução geovanegriesang@unisc.br Processadores de linguagem Linguagens de programação são notações para se descrever
Design de IHC. Capítulo 7. Barbosa e Silva Adaptado por Luciana Mara e Thiago Vilela
A Design de IHC Capítulo 7 Adaptado por Luciana Mara e Thiago Vilela Introdução Os modelos e as representações do Capítulo 6, permitem descrever quem usa ou utilizará o sistema (através de perfis de usuários
Introdução à Computação
Introdução à Computação Jordana Sarmenghi Salamon jssalamon@inf.ufes.br jordanasalamon@gmail.com http://inf.ufes.br/~jssalamon Departamento de Informática Universidade Federal do Espírito Santo Agenda
Análise Sintática de Frases utilizando Gramáticas Livres de Contexto Probabilísticas
Universidade de São Paulo Mestrado em Ciência da Computação Instituto de Matemática e Estatística Disciplina MAC5725 Lingüística Computacional Análise Sintática de Frases utilizando Gramáticas Livres de
Sistema de Informação do Técnico Oficial de Contas. Manual de utilização
Sistema de Informação do Técnico Oficial de Contas Manual de utilização Índice Instalação...4 Menu inicial...5 Estrutura geral...6 Índices de diplomas...8 Favoritos...8 Notas pessoais...9 Pesquisa rápida...11
NeuralSumm: Uma Abordagem Conexionista para a Sumarização Automática de Textos 1
NeuralSumm: Uma Abordagem Conexionista para a Sumarização Automática de Textos 1 Thiago Alexandre Salgueiro Pardo Lucia Helena Machado Rino Maria das Graças Volpe Nunes Núcleo Interinstitucional de Lingüística
6 Atributos. A dívida da empresa subiu.
6 Atributos Para buscar o sentimento de um texto automaticamente precisamos encontrar boas pistas ao longo do discurso. Uma grande variedade de palavras e expressões possui conotação positiva ou negativa,
Descoberta de conhecimento em textos - Análise semântica. Diogo Cardoso Eduardo Camilo Inácio Eduardo Monteiro Dellandréa Guilherme Gomes
Descoberta de conhecimento em textos - Análise semântica Diogo Cardoso Eduardo Camilo Inácio Eduardo Monteiro Dellandréa Guilherme Gomes Introdução Diversidade de textos não padronizados; Emails, artigos,
SAO-WEB Manual do Usuário
Documento SAO-WEB Manual do Usuário 1 Referência: SAO-WEB Sistema SAO-WEB Módulo Geral Responsável Trion Data 05/2010 Objetivo Descrever o funcionamento do SAO WEB. O SAO-WEB é uma forma de acesso ao SAO-ERP
OntoGen: Uma Ferramenta para Integração de Esquemas XML - Manual da Ferramenta
UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL INSTITUTO DE INFORMÁTICA CURSO DE CIÊNCIA DA COMPUTAÇÃO MÁRCIO ROBERTO DE MELLO OntoGen: Uma Ferramenta para Integração de Esquemas XML - Manual da Ferramenta
2 Estado da Arte. 2.1.Geração automática de casos de teste
2 Estado da Arte Existem três conceitos importantes que serão abordados durante essa dissertação: geração automática de casos de teste, tabelas de decisão e geração automática de dados de teste. Foi realizada
AULA 9 Geocodificação de Endereços. 9.1 Como funciona a Geocodificação de Endereços
9.1 AULA 9 Geocodificação de Endereços Nessa aula será apresentada a funcionalidade do TerraView relativa a Geocodificação de Endereços. Ela é usada em situações onde dados pontuais precisam ser tratados
Figura 16 Niagara - Visão de grupos de notas.
Conclusão 6 Conclusão 6.1 Trabalhos Relacionados Dentre as funcionalidades fornecidas pela interface gerada pelo framework, em destaque está a possibilidade do zoom livre. Disponibilizar esta funcionalidade
Sistema Indústria. Projeto Custos e Resultados. Fase 4 - Implantação Manual para Gerador de Planilha de Apontamento de Direcionadores de 2º Grau
ADVISORY Sistema Indústria Projeto Custos e Resultados Fase 4 - Implantação Manual para Gerador de Planilha de Apontamento de Direcionadores de 2º Grau Índice 1. Objetivo... 1 2. Acessando o gerador para
Tutorial sobre o MineraFórum
Tutorial sobre o MineraFórum I Conceito O MineraFórum é um minerador de textos para fóruns de discussão. A ferramenta extrai os principais conceitos abordados no debate e oferece a opção de calcular a
Recapitulando... Abordagens: PLN. Abordagens: PLN 29/03/2012. Introdução ao Processamento de Línguas Naturais. Distribuição de palavras
Introdução ao Processamento de Línguas Naturais SCC5908 Introdução ao Processamento de Língua Natural Thiago A. S. Pardo Recapitulando... Abordagens superficiais vs. profundas Simbolismo vs. estatística
ESPECIFICAÇÃO DE SOFTWARE
ESPECIFICAÇÃO DE SOFTWARE Integrantes do grupo: Joel Edu Sánchez Castro Fernando Hattori Miguel Angel Galarreta Valverde Felipe Martins dos Santos 1 SUMÁRIO DESCRIÇÃO...3 REQUISITOS...3 REQUISITOS FUNCIONAIS
Ferramenta: Spider-CoCoMo
Ferramenta: Spider-CoCoMo Manual do Usuário Versão da Ferramenta: 1.0 www.spider.ufpa.br Histórico de Revisões Data Versão Descrição Autor 05/11/2010 0.1 Elaboração do Kleverton Oliveira documento 05/02/2011
Memória. Arquitetura de Von Neumann. Universidade do Vale do Rio dos Sinos Laboratório I Prof.ª Vera Alves 1 CPU. Unidade de controle ULA
Universidade do Vale do Rio dos Sinos Laboratório I Prof.ª Vera Alves 1 Arquitetura de Von Neumann CPU Unidade de controle Unidade de entrada Unidade de saída ULA Von Neumann era um gênio. Falava muitos
Tutorial sobre o uso da ferramenta de autoria A Ferramenta de Autoria - Célula
Tutorial sobre o uso da ferramenta de autoria A Ferramenta de Autoria - Célula Célula é uma Ferramenta de Autoria para o padrão Ginga. Auxilia no processo de criação da interatividade na TV Digital e é
exibe o conteúdo de maneira flexível, ou seja, baseada em ramificações e
exibe o conteúdo de maneira flexível, ou seja, baseada em ramificações e rotas de acesso. Consiste num número de páginas que contem, ao final, uma questão que redireciona o aluno pelo conteúdo disponível.
INTRODUÇÃO. Prof. Msc. Luis Filipe Alves Pereira 2015
INTRODUÇÃO Prof. Msc. Luis Filipe Alves Pereira 2015 INTRODUÇÃO 02/21 QUAIS AS OPERAÇÕES BÁSICAS REALIZADAS EM UM COMPUTADOR DIGITAL? INTRODUÇÃO 03/21 QUAIS AS OPERAÇÕES BÁSICAS REALIZADAS EM UM COMPUTADOR
ARQUIVOS COMPACTADOS Para baixar o WinRAR entre em um dos links abaixo: http://www.baixaki.com.br/download/winrar.htm http://superdownloads.uol.com.br/download/160/winrar-portugues/ Descompactando Arquivos
Para os exemplos dos cenários A e B serão utilizadas as classes Movie, Actor, Director e Genre.
5 Exemplo O funcionamento do ambiente HyperDE+DR é ilustrado neste capítulo com um exemplo de aplicação para registro e consulta de filmes e séries de TV. Este exemplo foi baseado em uma aplicação chamada
GUIA DE INÍCIO RÁPIDO
Versão 2.00 Junho de 2016 Índice 1 Introdução... 3 2 Viewer Edition... 3 2.1 Barra de menu... 4 2.2 Curva ABC... 11 2.3 Áreas de pivoteamento... 12 3 Personal Edition... 12 3.1 Barra de menu... 13 www.bxbsoft.com.br
Pedro Paulo Balage Filho
Interface Web para o projeto: Sumarização Automática Multidocumento para o Português do Brasil com Base na Teoria de Estruturação Multidocumento CST (Cross-documentStructure Theory) Pedro Paulo Balage
Sumário. Referências utilizadas. Introdução. MAFIA: Merging of Adaptive Finite Intervals. Introdução Visão Geral e Objetivos do MAFIA
Sumário : Merging of Adaptive Finite Intervals Elaine Ribeiro de Faria Análise de Agrupamento de Dados ICMC-USP Dezembro 2010 Introdução Visão Geral e Objetivos do Algoritmo Grid Adaptativo Algoritmo Algoritmo
Sumarização Automática para Simplificação de Textos: Experimentos e Lições Aprendidas
Sumarização Automática para Simplificação de Textos: Experimentos e Lições Aprendidas Paulo R. A. Margarido, Thiago A. S. Pardo e Sandra M. Aluísio Núcleo Interinstitucional de Lingüística Computacional
Apresentação do Capítulo 4 MDA (Model-Driven Archtecture) ALUNO: DOMENICO SCHETTINI FILHO NÚMERO USP:
Apresentação do Capítulo 4 MDA (Model-Driven Archtecture) ALUNO: DOMENICO SCHETTINI FILHO NÚMERO USP: 8429016 Definição de MDA OMG (Object Management Group) propôs uma aplicação abrangente das práticas
Em Direção à Caracterização de Sumários Humanos Multidocumento
Em Direção à Caracterização de Sumários Humanos Multidocumento Renata Tironi de Camargo 1,2, Ariani Di Felippo 1,2, Thiago A. S. Pardo 2 1 Departamento de Letras (DL) Centro de Educação e Ciências Humanas
Construção de Compiladores
Construção de Compiladores Parte 1 Introdução Linguagens e Gramáticas F.A. Vanini IC Unicamp Klais Soluções Motivação Porque compiladores? São ferramentas fundamentais no processo de desenvolvimento de
CAPÍTULO 1 INTRODUÇÃO
CAPÍTULO 1 INTRODUÇÃO "Uma longa viagem começa com um único passo. Lao-Tsé Os mapas são um meio de comunicação, cujo objetivo é fornecer ao usuário informações sobre os fenômenos geográficos. Quando se
MANUAL PARA DESENVOLVIMENTO DE SOFTWARE TRABALHO DE CONCLUSAO DE CURSO EM SISTEMAS DE INFORMAÇÃO
MANUAL PARA DESENVOLVIMENTO DE SOFTWARE TRABALHO DE CONCLUSAO DE CURSO EM SISTEMAS DE INFORMAÇÃO Sumário PREFÁCIO...3 MODELO DA DOCUMENTAÇÃO...3 1. INTRODUÇÃO AO DOCUMENTO...3 1.1. Tema...3 2. DESCRIÇÃO
Arquitetura de um Ambiente de Data Warehousing
Arquitetura de um Ambiente de Data Warehousing Processamento Analítico de Dados Profa. Dra. Cristina Dutra de Aguiar Ciferri Prof. Dr. Ricardo Rodrigues Ciferri Arquitetura Típica usuário usuário... usuário
edictor 1.0 beta 010 M a n u a l F e v e r e i r o, Paixão de Sousa, Kepler & Faria 2010 Versão 2014 do Manual: Igor Leal
edictor 1.0 beta 010 M a n u a l F e v e r e i r o, 2 0 1 4 Paixão de Sousa, Kepler & Faria 2010 Versão 2014 do Manual: Igor Leal 1. Configuração de Preferências... 3 1.1 Configurar Aparência e Segurança...
FÓRUM. Fórum AMBIENTE VIRTUAL DE APRENDIZAGEM TUTORIAL DO. Autor(es) Natália Regina de Souza Lima, Scarlat Pâmela Silva
TUTORIAL DO FÓRUM AMBIENTE VIRTUAL DE APRENDIZAGEM Fórum Autor(es) Natália Regina de Souza Lima, Scarlat Pâmela Silva 1 1. O que é um Fórum 2. Como criar um Fórum de discussão 3. O que é uma linha de discussão
Introdução à Interação Humano-Computador. Teorias de IHC Engenharia Cognitiva. Fragmentação de IHC
Introdução à Interação Humano-Computador Teorias de IHC Engenharia Cognitiva Professora: Raquel Oliveira Prates http://www.dcc.ufmg.br/~rprates/ihc \ Aula 1: 14/05 Fragmentação de IHC A grande quantidade
Arquitetura de um Ambiente de Data Warehousing
Arquitetura de um Ambiente de Data Warehousing Processamento Analítico de Dados Profa. Dra. Cristina Dutra de Aguiar Ciferri Prof. Dr. Ricardo Rodrigues Ciferri Arquitetura Típica usuário usuário... usuário
Cópia de Saldos (CTBM300)
Cópia de Saldos (CTBM300) Ambiente : Contabilidade Gerencial Boletim : 00000000-07 Data da publicação : 21/11/2008 Data da revisão : 26/11/08 Versões : Protheus 10 Países : País Sistemas operacionais :
Linguagens Formais e Autômatos 02/2016. LFA Aula 01 24/10/2016. Celso Olivete Júnior.
LFA Aula 01 Apresentação 24/10/2016 Celso Olivete Júnior olivete@fct.unesp.br 1 Professor Celso Olivete Júnior Bacharelado em Ciência da Computação (Unoeste-2002) Mestrado e Doutorado em Engenharia Elétrica
Introdução à Programação
Introdução à Programação Linguagens de Programação: sintaxe e semântica de linguagens de programação e conceitos de linguagens interpretadas e compiladas Engenharia da Computação Professor: Críston Pereira
E-Dictor 1.0 beta. M a n u a l. F e v e r e i r o, Paixão de Sousa, Kepler & Faria 2010
E-Dictor 1.0 beta M a n u a l F e v e r e i r o, 2 0 1 0 Paixão de Sousa, Kepler & Faria 2010 1. Configuração de Preferências... 3 1.1 Configurar Aparência e Segurança... 4 1.2 Configurar Categorias de
Sistemas Especialistas (SE)
Universidade Federal do Espírito Santo Centro de Ciências Agrárias CCA UFES Departamento de Computação Sistemas Especialistas (SE) Inteligência Artificial Site: http://jeiks.net E-mail: jacsonrcsilva@gmail.com
Painel Administrativo Westlock
Painel Administrativo Westlock Acesso ao Painel Administrativo Para acessar o Painel Administrativo da Westlock clique no endereço http://downloadcenter.westlockcontrolsmarcom.com/admin/ e preencha as