6 Atributos. A dívida da empresa subiu.

Documentos relacionados
4 Algoritmos de Aprendizado

2 Sentiment Analysis 2.1

Semântica no Reconhecedor Gramatical Linguístico

7 Experimentos com Tarefas de PLN

A/ART casa/n caiu/v./. Figura 3.1: Frase com anotação morfossintática.

1.1 Tema Aprendizado de Máquina (Mit97) é o campo da Inteligência Artificial responsável pelo desenvolvimento de modelos inferidos automaticamente a

7 Seleção de Atributos

Implementação de Kernel Customizado Aplicado à Análise de Sentimentos em Resenhas de Filmes

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU

Anexo B Relação de Assuntos Pré-Requisitos à Matrícula

MINISTÉRIO DA DEFESA EXÉRCITO BRASILEIRO DEPARTAMENTO DE EDUCAÇÃO E CULTURA DO EXÉRCITO DIRETORIA DE EDUCAÇÃO PREPARATÓRIA E ASSISTENCIAL

PROTÓTIPO PARA SUMARIZAÇÃO AUTOMÁTICA DE TEXTOS ESCRITOS EM LÍNGUA PORTUGUESA ALEXANDRE BUSARELLO JOYCE MARTINS

Pedro Larronda Asti. Anotador Morfossintático para o Português-Twitter. Dissertação de Mestrado

ESPANHOL INFORMAÇÃO PROVA DE EQUIVALÊNCIA À FREQUÊNCIA. Prova º Ciclo do Ensino Básico AGRUPAMENTO DE ESCOLAS VERGÍLIO FERREIRA

Escola Básica e Secundária de Santa Maria. Ano Letivo 2017/2018. Informação Prova Especial de Avaliação. PROFIJ II Tipo 2 1º ano

INFORMAÇÃO PROVA DE EQUIVALÊNCIA À FREQUÊNCIA

OS DIFERENTES CRITÉRIOS UTILIZADOS PARA CLASSIFICAÇÃO DE PALAVRAS EM GRAMÁTICAS ESCOLARES

24/09/2010 SINTAXE PARTE 2. SCC5869 Tópicos em Processamento de Língua Natural. Thiago A. S. Pardo PARSING PROBABILÍSTICO

Escola Básica e Secundária de Santa Maria. Ano Letivo 2017/2018. Informação Prova Especial de Avaliação. PROFIJ IV Tipo 4 1º ano

Marcação de Nomes Próprios usando técnicas de pesquisa local e recorrendo a fontes de conhecimento na Internet

Capítulo1. Capítulo2. Índice A LÍNGUA E A LINGUAGEM O PORTUGUÊS: uma língua, muitas variedades... 15

Universidade Estadual da Paraíba - UEPB Curso de Licenciatura em Computação

Processamento de Linguagem Natural

Sumarizando: o que é uma língua. Métodos para seu estudo...44

Dimensão sociocultural Concretizada nos domínios de referência específicos de cada módulo (em anexo).

3 Modelagem Textual. Everything should be made as simple as possible, but not simpler. Albert Einstein. 1 bag of words

Compiladores I Prof. Ricardo Santos (cap 1)

AGRUPAMENTO de ESCOLAS Nº1 de SANTIAGO do CACÉM Ano Letivo 2013/2014

Processamento de Linguagem Natural

FACULDADE LEÃO SAMPAIO

Processamento de Linguagem Natural

Informação - Prova de Equivalência à Frequência ESPANHOL Código da Prova: º Ano de Escolaridade

Inteligência Artificial. Prof. Esp. Pedro Luís Antonelli Anhanguera Educacional

Etiquetação morfossintática de textos em português do Brasil no domínio do e-commerce

ELABORAÇÃO DE DICIONÁRIO ELETRÔNICO Mauro Rebello 1, Violeta de San Tiago Dantas Barbosa Quental 2.

Análise de Sentimento - Parte I

PLANIFICAÇÃO ANUAL 5º Ano. Disciplina de Português Ano Letivo /2017. Domínios/Conteúdos/Descritores. Unidade 0 Apresentações

VERSÃO DE TRABALHO. Prova Final de Português Língua Não Materna (A2) Prova 93 2.ª Fase 3.º Ciclo do Ensino Básico º Ano de Escolaridade

As Metas Curriculares de Português, para o 2º Ciclo, apresentam quatro características essenciais:

Conteúdo da Apresentação

Apresentação 11 Lista de abreviações 13. Parte I: NATUREZA, ESTRUTURA E FUNCIONAMENTO DA LINGUAGEM

Escola Secundária com 3º Ciclo do Ensino Básico de Amora

INE5416 Paradigmas de Programação. Ricardo Azambuja Silveira INE CTC UFSC E Mail: URL:

INSTITUTO EDUCACIONAL MANOEL PINHEIRO PROGRAMA DE ATIVIDADES DIAGNÓSTICAS PROCESSO DE ADMISSÃO DE NOVOS ALUNOS 2017

Compiladores. Motivação. Tradutores. Motivação. Tipos de Tradutores. Tipos de Tradutores

Interpretar discursos orais com diferentes graus de formalidade e complexidade. Registar,

28/04/2011 SINTAXE PARTE 1. SCC5908 Tópicos em Processamento de Língua Natural. Thiago A. S. Pardo SINTAXE E GRAMÁTICAS

Informação Prova de Equivalência à Frequência. (Inglês)

Python e sua sintaxe LNCC UFRJ

AGRUPAMENTO de ESCOLAS de SANTIAGO do CACÉM Ano Letivo 2016/2017 PLANIFICAÇÃO ANUAL

AGRUPAMENTO de ESCOLAS Nº1 de SANTIAGO do CACÉM Ano Letivo 2013/2014 PLANIFICAÇÃO ANUAL

AGRUPAMENTO de ESCOLAS Nº1 de SANTIAGO do CACÉM Ano Letivo 2013/2014 PLANIFICAÇÃO ANUAL

Objectivos / Competências Conteúdos Descrição dos Domínios de referência: Unidades temáticas

MCZA Processamento de Linguagem Natural Modelando a linguagem com N-gramas

17/09/2010 SINTAXE PARTE 1. SCC5869 Tópicos em Processamento de Língua Natural. Thiago A. S. Pardo SINTAXE E GRAMÁTICAS

AGRUPAMENTO DE ESCOLAS DE PAREDE

AGRUPAMENTO de ESCOLAS de SANTIAGO do CACÉM Ano Letivo 2017/2018 PLANIFICAÇÃO ANUAL

Perfil de aprendizagens específicas Português 8ºano Ano letivo: DOMÍNIOS SUBDOMÍNIOS NÍVEL 1 NÍVEL 2 NÍVEL 3 NÍVEL 4 NÍVEL 5

Português - alfabeto; - sequência alfabética; - formação de palavras; - leitura e interpretação (imagem, palavra, frase e texto).

Capítulo II Gramáticas

TIPOS DE SINTAGMAS E REPRESENTAÇÕES ARBÓREAS FUNDAMENTOS DE SINTAXE APOIO PEDAGÓGICO 23/05/2018 SAULO SANTOS

Colégio Nossa Senhora da Piedade

2º Ciclo do Ensino Básico (Decreto-Lei nº 139/2012, de 5 de julho)

AGRUPAMENTO DE ESCOLAS DANIEL SAMPAIO. Departamento de 1º Ciclo. Ano letivo 2016/2017 PLANIFICAÇÃO A LONGO PRAZO. 4º ANO DISCIPLINA: Português

MATERIAL DE DIVULGAÇÃO DA EDITORA MODERNA

Prova Final de Português Língua Não Materna (A2) Prova 93 1.ª Fase 3.º Ciclo do Ensino Básico º Ano de Escolaridade. Critérios de Classificação

AGRUPAMENTO de ESCOLAS de SANTIAGO do CACÉM Ano Letivo 2015/2016 PLANIFICAÇÃO ANUAL

Ficha de acompanhamento da aprendizagem

1º PERÍODO DISCIPLINA DE PORTUGUÊS [5.º] PLANIFICAÇÃO ANUAL 2018/ º ANO DE ESCOLARIDADE. DOMÍNIO CONTEÚDO TEMPOS 1 Educação Literária

INFORMAÇÃO PROVA DE EQUIVALÊNCIA À FREQUÊNCIA Inglês LE I (2 anos) 2016

Sumário PARTE 1. Gramática

ESCOLA SECUNDÁRIA DR. GINESTAL MACHADO PLANIFICAÇÃO ANUAL DE PORTUGUÊS 11º ANO

1º ANO PROPOSTA PEDAGÓGICA. Nas relações as pequenas coisas são as grandes.

Conteúdos para o teste de ingresso MATEMÁTICA agosto 2018 (Ingresso em 2019) INGRESSO DE 6ª PARA 7º. ANO/2019 DO ENSINO FUNDAMENTAL

PLANO DE ESTUDOS DE PORTUGUÊS - 5.º ANO

As Metas Curriculares de Português, para o 3º Ciclo, apresentam cinco características essenciais:

Processo de Admissão de Novos Estudantes Conteúdos programáticos para candidatos que ingressarão no. 3º ano do Ensino Médio MATEMÁTICA

DOMÍNIOS DE REFERÊNCIA/CONTEÚDOS

Os critérios do ENEM Competências

TABELA DE NÍVEIS DO IDIOMA INGLÊS

Geração de Modelo para Reconhecimento de Entidades Nomeadas no OpenNLP

Informação - Prova de Equivalência à Frequência ESPANHOL (Geral Iniciação) Código da Prova: º e 11.º Anos de Escolaridade

aplicação computacional no Unidades Lexicais: uma Estrutura Ontológica e domínio da Ecologia Leandro Henrique Mendonça de Oliveira USP/ICMC-NILC

AGRUPAMENTO DE ESCOLAS SEBASTIÃO DA GAMA

Informação Prova de Equivalência à Frequência de Inglês. Prova Escrita + Oral

CONTEÚDOS PARA A PROVA DE ADMISSÃO

Listas de frequência de palavras como marcadores de estilo no reconhecimento de autoria. Rui Sousa Silva

Escola Básica e Secundária de Santa Maria. Ano Letivo 2017/2018. Informação Prova Especial de Avaliação. PROFIJ II Tipo 2 2º ano

Exercícios de múltipla escolha

PLANIFICAÇÃO ANUAL Português 8ºano Ano Letivo 2016/2017

LINGUAGEM LIVRE DE CONTEXTO GRAMÁTICA LIVRE DE CONTEXTO

3º ANO Ensino Fundamental

Capítulo II Gramáticas

Carmen Lúcia. A soberba não é grandeza, é inchaço. O que incha parece grande, mas não está são. Santo Agostinho LÍNGUA PORTUGUESA CONTEÚDOS

Introdução. 3 º Ciclo do Ensino Básico (Decreto-Lei n.º 3/2008, de 7 de janeiro)

Por que o dicionário é importante na escola?


DEPARTAMENTO DE LÍNGUAS PORTUGUÊS 2º CICLO Gestão curricular 6ºano

UMA FERRAMENTA PARA A PESQUISA EM CORPORA DE AQUISIÇÃO DE LINGUAGEM

2018 Fundamental II Conteúdo e Datas 1ª Etapa 1ª Parcial Disciplina data Série Conteúdo

Transcrição:

6 Atributos Para buscar o sentimento de um texto automaticamente precisamos encontrar boas pistas ao longo do discurso. Uma grande variedade de palavras e expressões possui conotação positiva ou negativa, o que podem nos dar essas pistas de sentimento, porém dependendo do contexto elas podem significar justamente o oposto. Por exemplo, a palavra subiu normalmente possui uma conotação positiva no mercado financeiro, porém o exemplo abaixo mostra uma conotação oposta. A dívida da empresa subiu. Somente o dicionário de palavras não é suficiente para representar o sentimento do texto, por isso devemos utilizar padrões de linguagem que generalizem mais e sejam capazes de capturar o contexto. Existem 3 tipos de atributos que são utilizados em estudos anteriores de analise de sentimento: atributos sintáticos, semânticos e estruturais (13, 21, 06, 01). Os mais utilizados são os sintáticos e semânticos, entre eles podemos citar n-gramas de palavras, anotação morfossintática(part-of-speech - POS tags) e pontuação. Adicionalmente, atributos sintáticos incluem padrões de frases como por exemplo n-gramas de etiquetas morfossintáticas. Fei (06) mostra que padrões como n+adj (substantivo seguido de um adjetivo negativo) normalmente expressavam um sentimento negativo. Wiebe (21) cria n-gramas de padrões de frases, como por exemplo U-adj + como-prep é usado para todos os bigramas contendo uma única ocorrência de um adjetivo seguido da preposição como. Abbasi (01) utiliza n-gramas de palavras, de etiquetas morfossintáticas, letras e dígitos, e mostra que essas informações são importantes para capturar distinções de linguagem e melhorar a acurácia. Cada atributo novo criado é associado a um identificador, correspondendo a uma coordenada do vetor passado para o SVM. Em cada coordenada do vetor, é atribuído o valor 1 se aquele atributo existe naquele documento e zero caso contrário.

Capítulo 6. Atributos 23 6.1 Atributos N-Gramas Um n-grama é uma sequência de n itens dentro de uma frase. Os itens podem ser palavras, letras, sílabas, classificação gramatical das palavras, ou qualquer outra base. Um n-grama de tamanho 1 é chamado de unigrama, de tamanho de 2, de bigrama, de tamanho 3 é chamado de trigrama, de 4 em diante é n-grama. Para uma sequência de palavras, por exemplo Ações da Petrobras sobem, um bigrama de palavras seria: # Ações, Ações da, da Petrobras, Petrobras sobem, sobem #. Abbasi (01) propõe a utilização de n-gramas para diferentes bases como palavras, letras, dígitos e etiquetas morfossintáticas. Ele mostra que esse tipo de atributo é bastante informativo e importante para capturar estilos de linguagem de textos positivos e negativos. Nesse trabalho utilizamos unigramas, bigramas e trigramas de palavras, etiquetas morfossintáticas e etiquetas de chunks, que será descrito no próximo item. Pesquisas anteriores (12, 21) mostram que a utilização de 4-gramas ou mais é redundante, causando ruído e diminuição da eficiência do experimento, por isso descartamos esse tipo de atributo. 6.2 Processamento de Linguagem Natural Processamento de Linguagem Natural (PLN) é uma área de pesquisa que busca aprimorar a interação entre homem e máquina. Seu principal objetivo é interpretar e gerar linguagem natural (e.g português, inglês, espanhol, etc). Isso significa reconhecer o contexto, fazer análise sintática, semântica, léxica e morfológica, e até mesmo criar resumos e extrair informações. Durante os experimentos os seguintes atributos lingüísticos foram utilizados para a classificação de sentimento: Anotação Morfossintática e Chunks. Anotação Morfossintática consiste em atribuir aos itens lexicais de um texto etiquetas que identifiquem sua classe de palavras, gênero, número e classes gramaticais. Exemplo: Eu não gostei desse filme Etiqueta Morfossintática: [Eu-Pronome] [não-advérbio] [gostei-verbo] [desse-preposição] [filme-substantivo]

Capítulo 6. Atributos 24 Classificação de chunks consiste em dividir o texto em estruturas sintaticamente relacionadas. Essas estruturas não podem ser sobrepostas. Nessa divisão, cada palavra só deve pertencer a um único chunk e as palavras sintaticamente relacionadas devem pertencer ao mesmo chunk. Exemplo: [Eu-BNP] [não-o] [gostei-bvp] [de-bpp] [esse-bnp filme-inp] Nesse exemplo os chunks estão separados por colchetes. Nesse caso Eu inicia um chunk nominal (Begin Noun Phrase). A negação não não pertence a chunk nenhum. O verbo gostei inicia um chunk verbal (Begin Verb Phrase). A preposição desse é quebrada em duas: de, que inicia um chunk preposicional (Begin Prepositional Phrase), e esse que inicia um chunk nominal. Finalmente, o substantivo filme está contido no último chunk nominal (Inside Noun Phrase). Em contraste com muitos trabalhos que utilizam basicamente a relação verbo-substantivo, nós consideramos todas as classes morfossintáticas e suas relações, além da etiqueta de chunks. O processamento dos textos para a obtenção desses atributos lingüísticos foi feito pelo FEXT (10), sistema desenvolvido pelo laboratório LEARN da PUC-Rio. O FEXT utiliza o algoritmo de aprendizado ETL (Entropy Guided Transformation Learning) (05), uma estratégia que combina as vantagens de árvore de decisão com o TBL (Transformation Based Learning). As informações de PLN foram usadas de diferentes maneiras, de modo à melhor capturar o contexto. A primeira informação útil que podemos tirar das etiquetas PLN é uma informação estrutural, a freqüência das etiquetas. Em seus experimentos, Abbasi (01) considera apenas a freqüência das etiquetas morfossintáticas. Em seguida, realizamos experimentos utilizando a presença de bigramas e trigramas apenas das etiquetas. Por exemplo, (Pron+Adv+Verb) é um trigrama de etiqueta morfossintática, se em alguma parte do documento aparecem três palavras consecutivas com essas classificações, então esse atributo trigrama é uma coordenada no vetor do SVM com valor 1. Esse tipo de atributo é proposto por Abbasi, e novamente ele utiliza apenas bigramas e trigramas de etiquetas morfossintáticas. Finalmente, a forma mais usual de se utilizar a informação das etiquetas PLN é criando um par palavra etiqueta. Pang (13) utiliza apenas a etiqueta morfossintática e não obtém bons resultados. Wiebe (21) utiliza unigramas, bigramas e trigramas do par palavras etiqueta Morfossintática. Por exemplo, (Eu Pron + não Adv + gosto Verb) é um trigrama formado

Capítulo 6. Atributos 25 pelo pronome eu seguido do advérbio não seguido do verbo gosto. Nesse trabalho utilizamos tanto etiquetas morfossintáticas quanto etiquetas de chunks. Dessa maneira para cada palavra geramos 3 pares: palavra EtiquMorf, palavra EtiquChk, palavra EtiquMorf EtiquChk. 6.3 Atributos Estruturais Estudos anteriores tem se focado mais em atributos sintáticos e semânticos. O uso de atributos estruturais como distribuição do tamanho de palavra, riqueza de vocabulário, freqüência de caracteres especiais, não tem sido muito utilizado. Pang (12) mostra que muitos atributos não são intuitivamente informativos a principio, porém se mostram de grande importância. Atributos estruturais podem revelar padrões latentes e melhorar a performance do classificador. Wiebe (21) mede a eficiência em utilizar palavras únicas (que só ocorrem uma única vez) para classificar um texto como objetivo/ subjetivo e mostra que em textos subjetivos existem muito mais ocorrências de palavras únicas, indicando que quando estamos dando opinião somos mais criativos no discurso. A utilização desse tipo de atributos não se mostra muito eficiente para classificação de sentimento para críticas de cinema ou produto, porém Abbasi (01) mostra que esses marcadores de estilo melhoram a classificação de textos da Web pois eles são ricos em variações estruturais. Todos os atributos estruturais utilizados nesse trabalho foram propostos por Abbasi com resultados positivos na classificação de sentimento. Nossa lista de atributos estruturais é formada por 15 categorias diferente: frequência de palavras com 1 a 20 letras; frequência de letras; frequência de dígitos; ocorrência de pontuação (!,?, :,...) C; riqueza de vocabulário; tamanho médio das palavras; presença de palavras funcionais (depois, então, nenhum,...) D; nº de palavras pequenas (até 4 letras); nº de palavras que aparecem apenas 1 vez; nº de palavras que aparecem apenas 2 vezes; nº de letras no exemplo; nº de palavras no exemplo; nº de sentenças; nº médio de letras por sentença; nº médio de palavras por sentença; 6.4 Caminhamento na árvore de decisão Uma árvore de decisão é um classificador na estrutura de uma árvore. Trata-se de um modelo prático de uma função recursiva que determina o valor de uma variável e, baseando-se neste valor, executa uma ação. Esta ação pode ser a escolha de outra variável ou a saída.

Capítulo 6. Atributos 26 Figura 6.1: Exemplo de Árvore de decisão Nesse trabalho não estamos utilizando a árvore de decisão como classificador do problema, e sim como gerador de novas informações. Antes das notícias serem encaminhadas para o SVM, geramos uma árvore de decisão. A partir dessa árvore, criamos novos atributos que são incorporados aos vetores e depois passados para o SVM. Para gerar a árvore utilizamos o algoritmo já pronto do C4.5 (15). Cada nó da árvore é um atributo e as arestas a presença ou ausência do mesmo. As folhas são a resposta da classificação. Com os caminhamentos na árvore de decisão criamos novos atributos. Cada passo do caminho é um novo atributo. Em cada documento do corpus adicionamos a informação se esses caminhos existem ou não. Por isso a informação das folhas não é usada, ou seja, não nos importa a classificação final dada pela árvore. Para entender melhor o que significa criar novos atributos através dos caminhamentos, observe o exemplo de uma árvore criada na figura 6.1. Temos a árvore de decisão montada pelo C4.5. Cada nó da árvore é representado por uma a palavra do dicionário, e cada aresta indica o resultado do teste se aquela palavra existe ou não. Se a palavra existir devemos tomar o ramo da esquerda e verificar se a próxima palavra indicada pela árvore existe ou não e assim sucessivamente. O benefício de utilizar uma árvore de decisão é que ela coloca no topo os atributos mais importantes. A tabela 6.4 mostra os novos atributos criados pelo exemplo acima.

Capítulo 6. Atributos 27 Subiram(Existe)+Ações(Existe) Subiram(Existe)+Ações(NãoExiste) Subiram(Existe)+Ações(NãoExiste)+Gastos(Existe) Subiram(NãoExiste)+Cairam(Existe) Subiram(NãoExiste)+Cairam(Existe)+Ações(Existe) Subiram(NãoExiste)+Cairam(Existe)+Ações(NãoExiste)+Gastos(Existe) Tabela 6.1: Novos atributos gerados pela Árvore de Decisão