MCZA Processamento de Linguagem Natural Normalização de texto: Palavras e stopwords

Documentos relacionados
MCZA Processamento de Linguagem Natural Normalização de texto: Stemming

MCZA Processamento de Linguagem Natural Expressões regulares

MCZA Processamento de Linguagem Natural Modelando a linguagem com N-gramas

MCZA Processamento de Linguagem Natural Laboratório: Classificação de textos

MCZA Processamento de Linguagem Natural Classificação de textos

MCZA Processamento de Linguagem Natural Semântica e similaridade de palavras: Parte I

MCZA Processamento de Linguagem Natural Reconhecimento de entidades nomeadas

MCZA Processamento de Linguagem Natural Semântica e similaridade de palavras: Parte III

MCZA Processamento de Linguagem Natural Laboratório: Modelando a linguagem com N-gramas

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU

MCZA Processamento de Linguagem Natural Introdução

Universidade do Sul de Santa Catarina Ciência da Computação Aula 09 Introdução a Análise de Textos Prof. Max Pereira

Pré-Processamento de Documentos

6 Atributos. A dívida da empresa subiu.

Processamento da Informação Ambientes de programação

MODELO DE CLASSIFICAÇÃO AUTOMÁTICA DE QUESTÕES NA LÍNGUA PORTUGUESA Henrique Maia Braum 1, Sandro José Rigo 1, Jorge L. V.

Aula de Hoje. Processamento Estatístico da Linguagem Natural. Módulo útil: re. Módulo útil: random

Recapitulando... Abordagens: PLN. Abordagens: PLN 29/03/2012. Introdução ao Processamento de Línguas Naturais. Distribuição de palavras

Flávio Codeço Coelho, Bruno Cuconato TEXT ANALYTICS EM DOCUMENTOS HISTÓRICOS SENSÍVEIS: CONFIANÇA E ESCALABILIDADE 1 / 19

Verificação automática de substantivos compostos através de reconhecimento de padrões sintáticos

Profª Ana Lúcia Lima Marreiros Maia Profª Fabiana Cristina Bertoni

4 Algoritmos de Aprendizado

Indexação automática. CBD/ECA Indexação: teoria e prática

Semântica no Reconhecedor Gramatical Linguístico

Leitura de Documentos. Priscila Engiel

Pedro Oliveira

Implementação de Kernel Customizado Aplicado à Análise de Sentimentos em Resenhas de Filmes

Determinação do Grau de Similaridade entre Frases

Extração de Informação Téc1 (Verbo e POS) e Téc2 (POS)

Extração de paráfrases em português a partir de léxicos bilíngues: um estudo de caso

Ontologias Linguísticas e Processamento de Linguagem Natural. Ygor Sousa CIn/UFPE

Prof. Walmes M. Zeviani

2 Processo de Mineração de Textos

EMENTA OBJETIVO GERAL. Ampliar os conhecimentos gramaticais, utilizando-os de forma apropriada nas práticas de linguagem oral e escrita.

A/ART casa/n caiu/v./. Figura 3.1: Frase com anotação morfossintática.

Categorização Automática de Textos Baseada em Mineração de Textos

Índice. Classificação de textos para o ensino de português como segunda língua. Índice. technology from seed

Matéria: Desenho e desenvolvimento de tecnologias linguísticas

Identificação e Tratamento de Expressões Multipalavras aplicado à Recuperação de Informação

Ensino Português no Estrangeiro Nível B2 (13B2AZ) CRITÉRIOS ESPECÍFICOS DE CLASSIFICAÇÃO

HORÁRIO DE RECUPERAÇÃO 7 o ANO. Componente Curricular DATA. 1 a SEMANA DESENHO GEOMÉTRICO / ARTES VISUAIS. História CIÊNCIAS MATEMÁTICA 1

Pré-processamento textual para a extração de informação em bases de patentes

Plano de Trabalho Docente Ensino Técnico

ESTRATÉGIAS DE INFERÊNCIA LEXICAL EM L2 ESTUDO DA ANÉLISE GRAMATICAL 1. INTRODUÇÃO

6LET062 LINGUAGEM E SEUS USOS A linguagem verbal como forma de circulação de conhecimentos. Normatividade e usos da linguagem.

Semanário de Língua Portuguesa Professor Cláudio Ferreira. 6 ano A 3º BIMESTRE

Ensino Português no Estrangeiro Nível B2 (14B2AA) CRITÉRIOS ESPECÍFICOS DE CLASSIFICAÇÃO

Mineração de Textos na Web

Escola Secundária com 3º Ciclo do Ensino Básico de Amora

TÍTULO: COMPOSTOS NOS NEOLOGISMOS ROSEANOS CATEGORIA: EM ANDAMENTO ÁREA: CIÊNCIAS HUMANAS E SOCIAIS INSTITUIÇÃO: UNIVERSIDADE DE SÃO PAULO

Natural Language Processing Dealing with unstructured data

Antes de iniciar as respostas, faça uma leitura completa da avaliação. Lembre-se:

AGRUPAMENTO de ESCOLAS Nº1 de SANTIAGO do CACÉM Ano Letivo 2013/2014 PLANIFICAÇÃO ANUAL

Português - alfabeto; - sequência alfabética; - formação de palavras; - leitura e interpretação (imagem, palavra, frase e texto).

PORTUGUÊS POPULAR ESCRITO: O VOCABULÁRIO DO JORNAL DIÁRIO GAÚCHO

ANOTAÇÃO DE SENTIDOS DE VERBOS EM NOTÍCIAS JORNALÍSTICAS EM PORTUGUÊS DO BRASIL

AGRUPAMENTO DE ESCOLAS CEGO DO MAIO PLANIFICAÇÃO ANUAL DISCIPLINA: Português Ano2 Ano letivo 2016/2017

6LET062 LINGUAGEM E SEUS USOS A linguagem verbal como forma de circulação de conhecimentos. Normatividade e usos da linguagem.

RECUPERAÇÃO DE GEOGRAFIA 7 o ANO Horário: das 7:20 h às 12:15 h. 1 a PROVA GEOGRAFIA DATA: 09/12/2015

Processamento de Linguagem Natural

Plano de Trabalho Docente Ensino Técnico

Abordagens na Tradução Automática

PLANO DE ENSINO - CURSO SEMESTRAL Disciplina ESTUDOS DE LINGUAGEM II. Período 2º Período

Ederson Luiz da Silva Ciência da Computação. Algoritmos e Programação

Ensino Técnico Integrado ao Médio

Processamento de Linguagem Natural

MINISTÉRIO DA DEFESA EXÉRCITO BRASILEIRO DEPARTAMENTO DE EDUCAÇÃO E CULTURA DO EXÉRCITO DIRETORIA DE EDUCAÇÃO PREPARATÓRIA E ASSISTENCIAL

Inteligência Artificial. Prof. Esp. Pedro Luís Antonelli Anhanguera Educacional

3º ANO Ensino Fundamental

6LET006 HISTÓRIA E USOS DA LEITURA E DA ESCRITA Os aspectos sócio-histórico-culturais da leitura e da escrita.

COLÉGIO FERNÃO DIAS PAIS EXAME DE BOLSA º ANO DO ENSINO FUNDAMENTAL

Anexo B Relação de Assuntos Pré-Requisitos à Matrícula

2 Sentiment Analysis 2.1

CRITÉRIOS ESPECÍFICOS DE AVALIAÇÃO. Despacho nº 6478/2017, de 26 de julho de Perfil do aluno à saída da escolaridade obrigatória.

Soldado Polícia Militar do Estado de São Paulo Língua Portuguesa

Descoberta de conhecimento em redes sociais e bases de dados públicas

Processo Seletivo Estudantes/2018 Conteúdo Programático

ÍNDICE Capítulo 1. Avaliação conjunta Diana Santos Capítulo 2. Organização e resultados morfolímpicos Luís Costa, Paulo Rocha e Diana Santos

Inglês básico nível fundamental

Plano de Trabalho Docente Ensino Técnico

Grupo de Estudos de Nahuatl (10º ano / 2017)

Processamento de Linguagem Natural

HORÁRIO DE RECUPERAÇÃO 6 o ANO. Componente Curricular DATA. 1 a SEMANA CIÊNCIAS LÍNGUA PORTUGUESA (TEXTO E REDAÇÃO) GEOGRAFIA

AGRUPAMENTO de ESCOLAS Nº1 de SANTIAGO do CACÉM Ano Letivo 2013/2014

Plano de Trabalho Docente 2017 Ensino Técnico

Plano de Trabalho Docente

Verbos ser e estar no presente do indicativo e o plural. História Cap. 2 e 3 pág. 43 a 67 Ciências

Conteúdos das Avaliações de 28 de fevereiro a 07 de março de ºbimestre Disciplina Dia Conteúdo

ELABORAÇÃO DE DICIONÁRIO ELETRÔNICO Mauro Rebello 1, Violeta de San Tiago Dantas Barbosa Quental 2.

Plano de Trabalho Docente Ensino Médio

3 Modelagem Textual. Everything should be made as simple as possible, but not simpler. Albert Einstein. 1 bag of words

Datas e Conteúdos das Avaliações - 6º Ano A CALENDÁRIO DE AVALIAÇÕES DO 2º PERÍODO DO 3º BIMESTRE Período de 17 a 25 de setembro de 2015

Plano de Trabalho Docente Ensino Técnico

Ensino Português no Estrangeiro Nível C1 (14C1AA) CRITÉRIOS ESPECÍFICOS DE CLASSIFICAÇÃO

UMA FERRAMENTA PARA A PESQUISA EM CORPORA DE AQUISIÇÃO DE LINGUAGEM

In: TAVARES, Ulisses. O eu entre nós. São Paulo: Núcleo Pindaíba Edições e Debates, (Coleção PF)

MATERIAL DE DIVULGAÇÃO DA EDITORA MODERNA

Uma Abordagem de Extração de Terminologia Para a Construção de uma Representação Atributo-valor a Partir de Documentos Não Estruturados

ANEXO 1 A Ementário e Quadro de disciplinas por Departamentos/Setores

Aula 13: Listas encadeadas (estruturas lineares)

Transcrição:

MCZA017-13 Processamento de Linguagem Natural Normalização de texto: Palavras e stopwords Prof. Jesús P. Mena-Chalco jesus.mena@ufabc.edu.br 1Q-2018 1

Bibliografia Daniel Jurafsky & James H. Martin. Speech and language processing: An introduction to natural language processing, computational linguistics, and speech recognition. Pearson/Prentice Hall. 2019? 2000 2009 Stanford University University of Colorado, Boulder 2

Bibliografia Capítulo 2 https://web.stanford.edu/~jurafsky/slp3/ 3

Da aula anterior... Expressões Regulares 4

Teste de avaliação em aula (questão 6) 5

Grupos Cada sub-expressão entre parênteses em uma ER é um grupo: Grupo 0: O casamento inteiro. Grupo 1: O primeiro casamento entre parênteses Numeraçao de esquerda para direita 6

Grupos 7

ER para palavras 8

ER para palavras 9

ER para palavras em português 10

Tabela ASCII estendida - https://www.ascii-code.com [-'a-za-zà-öø-öø-ÿ] 11

Palavras (tokenização) 12

Palavras Quantas palavras temos na seguinte frase? Extremamente adaptável, pode ocorrer em ambientes altamente alterados pelo ser humano. 13

Palavras Quantas palavras temos na seguinte frase? Extremamente adaptável, pode ocorrer em ambientes altamente alterados pelo ser humano. 11 palavras. 13 palavras se considerarmos também os sinais de pontuação. 14

Palavras Na frase: Muito longo para os que lamentam, muito curto para os que festejam Quantas palavras existem? Quantas palavras diferentes existem? 15

Palavras Na frase: Muito longo para os que lamentam, muito curto para os que festejam Quantas palavras existem? 12 Quantas palavras diferentes existem? 8 16

Palavras Na frase: Muito longo para os que lamentam, muito curto para os que festejam Quantas palavras existem? 12 (tokens) Quantas palavras diferentes existem? 8 (tipo/vocabulário) 17

Palavras Na frase: Muito longo para os que lamentam, muito curto para os que festejam Quantas palavras existem? 12 (tokens) Quantas palavras diferentes existem? 8 (tipo/vocabulário) Coletânea sobre um determinado assunto. Plural: corpora 18

Corpus textual - Corpora textuais No contexto de PLN, um corpus é um conjunto de documentos (ou de frases) geralmente anotados e utilizados para: Aprendizado (análise) Validação (verificação) Português como lingua oficial https://en.wikipedia.org/wiki/list_of_text_corpora https://www.corpusdoportugues.org/x.asp 19

Análise empírica (evidências): Lei de Herdan (1960), Lei de Heaps (1978) Crescimento de um vocabulário V = Vocabulário N = Tokens (e.g., palavras na coleção) No caso do texto: Capivara V =133, N=192 (ver programa na página da disciplina) 20

Palavras: Prática em python 21

Prática em python 22

Prática em python Machado de Assis (1839-1908) Crônicas reunidas na coleção A semana. Escreveu em praticamente todos os gêneros literários, sendo poeta, romancista, cronista, dramaturgo, contista, folhetinista, jornalista e crítico literário. $ python3 palavras.py A Semana Machado de Assis.txt que é tempo Quantidade de palavras: 267627 23

Prática em python 24

Prática em python $ python3 palavras2.py A Semana Machado de Assis.txt Tokens: 267627, Vocabulario: 25375 11053 que 9875 a 9767 de 8236 o 7525 e 5519 não 4018 é 3476 do 3465 os 3352 um 3203 da 2862 se 2421 as 2237 em 2054 uma 2024 com 2019 mas 1811 para... 25

Palavras: Algumas considerações não triviais 26

Considerações não triviais Quantas palavras? Total de R$10,45 Para valores superiores a 45.455,67 www.ufabc.edu.br UFABC Livre-docente Homem-Maquina D'água U.F.A.B.C. C.M.C.C. Ph.D. Sant'Anna L'ensemble Lebensversicherungsgesellschaftsangestellter 莎拉波娃现在居住在美国东南部的佛罗里达 27

Palavras (primeiro programa) Total de R 10 45 Para valores superiores a 45 455 67 www ufabc edu br UFABC Livre docente Homem Maquina D'água U F A B C C M C C Ph D Sant'Anna L'ensemble Lebensversicherungsgesellschaftsangestellter Frequências (segundo programa) Tokens: 34, Vocabulario: 28 4 c 2 a 2 ufabc 2 45 1 para 1 455 1 r 1 homem maquina 1 67 1 f 1 d 1 d'água 1 u 1 lebensversicherungsgesellschaftsangestellter 1 livre docente 1 br 1 superiores 1 edu 1 sant'anna 1 total 28

Algoritmo: Maximum Mathing É requerido um dicionário. Busca gulosa. Os algoritmos de segmentação mais sofisticados usam modelos estatísticos (aprendizado supervisionado). 29

Palavras com pouco sentido semântico: stopword / stoplist Em muitos contextos: Uma stopword pode ser considerada uma palavra irrelevante para análise (artigos, preposições). a ao aos aquela aquelas aquele aqueles aqui aquilo as até aí com como da das de dela delas dele deles depois do dos dá e ela elas ele eles em entre era eram essa essas esse esses esta estamos estas estava estavam este esteja estejam estejamos estes esteve estive estivemos estiver estivera estiveram estiverem estivermos estivesse estivessem estivéramos estivéssemos estou está estávamos estão eu foi fomos for fora foram forem formos fosse fossem fui fôramos fôssemos haja hajam hajamos havemos hei houve houvemos houver houvera houveram houverei houverem houveremos houveria houveriam houvermos houverá houverão houveríamos houvesse houvessem houvéramos houvéssemos há hão isso isto já lhe lhes lá mais mas me mesmo meu meus minha minhas muito na nas nem no nos nossa nossas nosso nossos num numa não nós o os ou para pela pelas pelo pelos por pra qual quando que quem se seja sejam sejamos sem serei seremos seria seriam será serão seríamos seu seus somos sou sua suas são só também te tem temos tenha tenham tenhamos tenho terei teremos teria teriam terá terão teríamos teu teus teve tinha tinham tive tivemos tiver tivera tiveram tiverem tivermos tivesse tivessem tivéramos tivéssemos tu tua tuas tá tém tínhamos um uma vai você vocês vos vou à às é éramos 30

Palavras com pouco sentido semântico: stopword / stoplist $ python3 palavras2.py A Semana Machado de Assis.txt Tokens: 267627, Vocabulario: 25375 11053 que 9875 a 9767 de 8236 o $ python3 palavras3.py A Semana Machado de Assis.txt 7525 e Tokens: 267627, Vocabulario: 25183 5519 não 703 ser 4018 é 629 ainda 3476 do 564 tudo 3465 os 526 pode 3352 um 475 outro 3203 da 471 homem 2862 se 455 todos 2421 as 454 assim 2237 em 437 outra 2054 uma 420 outros 2024 com 409 grande...... 31

Palavras com pouco sentido semântico: stopword / stoplist 32

Palavras com pouco sentido semântico? As stopwords/stoplists podem ser eliminadas antes ou depois do processamento/leitura do texto. Devemos avaliar seu uso para cada aplicação. Quais das seguintes frases seriam mais informativas? Rio de Janeiro Internet das coisas Rio Janeiro Internet coisas Viagem para casa Viagem casa O papa é pop papa pop Vitamina a Vitamina Muitas aplicações (e.g., motores de busca) não usam stopwords. 33

Palavras com pouco sentido semântico? O tamanho da lista de stopwords pode reduzir a efetividade em uma busca, por exemplo. 34

Stop word / stop list ~1960 Esses termos foram já discutidos desde aprox. 1960: Luhn, H.P. (1959). Keyword in Context Index for Technical Literature (KWIC Index), Yorktown Heights, NY: IBM, Report RC 127. Parkins, P.V. (1963). Approaches to vocabulary management in permuted title indexing of Biological Abstracts. In Automation and Scientific Communication Part 1, Proceedings of The 26th Annual Meeting of the American Documentation Institute (pp. 27 28), Washington, DC: ADI. Fischer, M. (1966). The KWIC index concept: A retrospective view. American Documentation, 17, 57 70. 35

Normalizando as palavras 36

Normalizando as palavras $ python3 palavras3.py A Semana Machado de Assis.txt 475 outro 437 outra 420 outros 258 outras 471 homem 310 homens 145 próprio 128 própria 65 próprios 41 próprias 43 alegria 25 alegres 24 alegre 37

Normalizando as palavras Em textos da língua portuguesa temos diferentes palavras flexionadas em gênero, número ou grau, além de inúmeros tempos verbais distintos. Trabalhor Degrau Amigo Trabalhadora Degraus Amigão A normalização de palavras pode ser entendida como a redução ou a simplificação de palavras. Duas técnicas mais imporantes Stemming Lemmatization 38

Stemming O processo de stemming consiste em reduzir a palavra à sua raiz (sem levar em conta a classe gramatical) amig : amigo, amiga, amigão gat : gato, gata, gatos, gatas Stemming geralmente refere-se a um processo de heurística que corta as extremidades das palavras inclui frequentemente a remoção de afixos derivacionais. Pode ser representado por um conjunto de regras que dependem da linguagem. 39

Stemming for example compressed for exampl compress and compression are both and compress ar both accepted as equivalent to accept as equival to compress. compress 40

Stemming Existem diferentes algoritmos 41

Lemmatisation O processo de lemmatisation consiste aplicar uma técnicas para deflexionar as palavras (retira a conjugação verbal, caso seja um verbo, e altera os substantivos e os adjetivos para o singular masculino, de maneira a reduzir a palavra até sua forma de dicionário) amigo : amigo, amiga, amigão gato : gato, gata, gatos, gatas ter : tinha, tenho, tiver, tem Lemmatisation geralmente usa um dicionário de palavras (a heurística é mais sofisticada). 42

Recuperação de Informação IR Um vocabulário menor pode levar a um melhor desempenho na busca. As operações de stemming e lemmatization são operações comuns e iniciais utilizadas em sistemas de recuperação de informação: Busca: Stemming? Tradução: Lemmatisation? 43