Mineração de Textos. Mineração de Textos

Documentos relacionados
Leitura de Documentos. Priscila Engiel

Profª Ana Lúcia Lima Marreiros Maia Profª Fabiana Cristina Bertoni

textos documentos semi-estruturado

DATA MINING & MACHINE LEARNING (I) Thiago Marzagão

Universidade do Sul de Santa Catarina Ciência da Computação Aula 09 Introdução a Análise de Textos Prof. Max Pereira

Modelo Espaço Vetorial. Mariella Berger

Descoberta de conhecimento em redes sociais e bases de dados públicas

Recuperação de Informação

Aula 7 Medidas de Distância. Profa. Elaine Faria UFU

GSI024 - Organização e Recuperação da

Inteligência Artificial. Raimundo Osvaldo Vieira [DComp IFMA Campus Monte Castelo]

MINERAÇÃO DE DADOS. Thiago Marzagão MINERAÇÃO DE TEXTOS. Thiago Marzagão (UnB) MINERAÇÃO DE DADOS 1/ / 25

Melhorando a Recuperação de Informação

Implementação de um sistema de validação estatística configurável de dados

Avaliação de Descritores de Imagem

4 Recuperação de Informação

Implementação de Kernel Customizado Aplicado à Análise de Sentimentos em Resenhas de Filmes

Capítulo 4. Comitê BAS 35

3 Recuperação de Informações Textuais

Aprendizagem de Máquina

Arquivos invertidos 39

Descoberta de conhecimento em textos - Análise semântica. Diogo Cardoso Eduardo Camilo Inácio Eduardo Monteiro Dellandréa Guilherme Gomes

Aprendizagem de Máquina

Aprendizado de Supervisionado

Roteiro. PCC142 / BCC444 - Mineração de Dados Avaliação de Classicadores. Estimativa da Acurácia. Introdução. Estimativa da Acurácia

Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação

Aprendizado de Máquina (Machine Learning)

Segundo trabalho de Organização e Recuperação da Informação

1 Introdução Motivação

News Clipping. Como calcular ângulos entre notícias pode ajudar na prevenção à lavagem de dinheiro. Willian Gigliotti

Linguagem de Maquina II. Visão Geral

Extração de Conhecimento & Mineração de Dados

Visualização de Texto e Documento

RACIOCÍNIO BASEADO EM CASOS APLICADO PARA AUXÍLIO NA SELEÇÃO DE CURSOS DO INSTITUTO FEDERAL CATARINENSE

Recuperação de Informações

Representação de Arranjos

Descritores de Imagem (introdução)

Um estudo sobre diferentes modelos de Recuperação de Informação em documentos semi-estruturados (XML) -

Recuperação de Informações por Álgebra Linear Computacional

1 Introdução Motivação

Boas Maneiras em Aprendizado de Máquinas

Lista de exercícios 2 Recuperação de Informação Textual

Tabela Hash: Índice remissivo

Pré-processamento de dados

SCC0173 Mineração de Dados Biológicos

BUSINESS INTELLIGENCE BI FERNANDO ESCOBAR, PMP, MSC.

Identificação de Pontos Perceptualmente Importantes (PIP) em séries temporais de tópicos extraídos de dados textuais

Universidade Federal do Paraná Departamento de Informática. Reconhecimento de Padrões. Tipos de Aprendizagem. Luiz Eduardo S. Oliveira, Ph.D.

Aplicação de uma Técnica Tradicional de Expansão de Consulta ao Modelo TR+

GSI024 - Organização e Recuperação da

Aprendizado de Máquina (Machine Learning)

AULA 11 PROJETO E ANÁLISE DE ALGORITMOS. Conceitos básicos e representação de grafos Karina Valdivia Delgado

Mineração de Dados. Análise e Seleção de Variáveis

Universidade Federal do Paraná Departamento de Informática. Reconhecimento de Padrões. Introdução

Aprendizado de Máquina (Machine Learning)

Ponderação de termos

Créditos. SCC0173 Mineração de Dados Biológicos. Aula de Hoje. Desempenho de Classificação. Classificação IV: Avaliação de Classificadores

Mineração de Dados. Arthur Emanuel de O. Carosia Cristina Dutra de Aguiar Ciferri

Curso de Data Mining

Ambiente de Data Warehouse Para Imagens Médicas Baseado Em Similaridade

Seleção de Atributos FSS. Relevância de Atributos. Relevância de Atributos. Seleção de Atributos - FSS. FSS como Busca no Espaço de Estados

Teoria do aprendizado

Mineração de Opinião Aplicada ao Cenário Político

Indexação e Modelos Clássicos

Utilização do Corte Percentual na categorização de documentos da Web com o algoritmo Naive Bayes

Reconhecimento de Padrões

Identifique um número! MINERAÇÃO DE DADOS E TEXTOS MOTIVAÇÃO. Observe a imagem... SCC-230 Inteligência Artificial

Realimentação de Relevância

Programa do Curso. Transformação de Dados. Sistemas Inteligentes Aplicados. Carlos Hall. Discretização de Variáveis Contínuas

Mineração de Dados em Biologia Molecular

Aula 20: Regras de Associação

Mineração de Dados para Detecção de Padrões de Mudança de Cobertura da Terra. Padrões e processos em Dinâmica de uso e Cobertura da Terra

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU

Introdução à Mineração de Dados com Aplicações em Ciências Espaciais

03/07/2017. Modelo de Recuperação de Informação

Reconhecimento de Padrões

Administrador Documentos. Gestão de Documentos. Título do documento

I-Preproc: uma ferramenta para pré-processamento e indexação incremental de documentos

Aprendizado de Máquinas. Introdução à Aprendizado Não- Supervisionado

O modelo espaço de vetores. vetorial. Marcelo Keese Albertini. Faculdade de Computação - UFU 12/03/2013. O modelo de espaço vetorial 1 / 27

INF 1771 Inteligência Artificial

BANCO DE DADOS - MODELAGEM DE DADOS

O modelo espaço de vetores. vetorial. Marcelo Keese Albertini. Faculdade de Computação - UFU. O modelo de espaço vetorial 1 / 25

Recuperação de Dado X Informação. Gerenciamento de Dados e Informação. Histórico. Recuperação de Informação. Histórico. Histórico

Conteúdo da Apresentação

SQLLOMining: Obtenção de Objetos de Aprendizagem utilizando técnicas de Aprendizado de Máquina

Aprendizagem de Máquina - 2. Prof. Júlio Cesar Nievola PPGIa - PUCPR

Aprendizado de Máquina (Machine Learning)

5 Winetag.com.br: um estudo de caso

Introdução às Redes Neurais Artificiais

Lista de Exercícios - Capítulo 8 [1] SCC Inteligência Artificial 1o. Semestre de Prof. João Luís

Redes Neurais (Inteligência Artificial)

Banco de Dados Modelagem e Normalização

Aprendizado por Instâncias Janelas de Parzen & Knn

Módulo 5. Arquitetura do SQL Server. Estruturas de Armazenamento. Armazenamento físico e lógico. Páginas

MCZA Processamento de Linguagem Natural Semântica e similaridade de palavras: Parte III

Aprendizado de Máquina para a Automação da Aquisicão de Conhecimento

Transcrição:

Mineração de Textos Os estudos em Aprendizado de Máquina normalmente trabalham com dados estruturados Entretanto, uma grande quantidade de informação é armazenada em textos, que são dados semi-estruturados Nesta apresentação é dada uma breve introdução à Mineração de Textos José Augusto Baranauskas Departamento de Física e Matemática FFCLRP-USP augusto@ffclrp.usp.br http://dfm.ffclrp.usp.br/~augusto

2 Introdução Uma grande quantidade de toda informação disponível atualmente encontra-se sob a forma de textos (ou documentos) semi-estruturados, tais como livros, artigos, manuais, e-mails e a Web O termo semi-estruturado indica que os dados não são completamente estruturados nem completamente sem estrutura Um documento pode conter alguns atributos estruturados: Título, autor(es), data da publicação mas também contém alguns elementos textuais sem estrutura Resumo e conteúdo

3 Introdução Mineração de Textos (Text Mining - TM) tem como objetivo tratar essa informação semiestruturada Em especial, a literatura biomédica é uma fonte de informação extremamente rica e um conjunto de resumos (abstracts) da base MEDLINE da National Library of Medicine resume esta literatura de forma compreensiva Apesar desta fonte de recursos ser atrativa e de fácil acesso, a extração automática de informação útil a partir dela é um desafio uma vez que os resumos estão em linguagem natural

Representação De maneira geral, um documento é representado por um conjunto de palavraschave (ou termos) O usuário fornece um termo ou uma expressão formada por termos Chá or café Carro and oficina mecânica 4

Sinonímia & Polissemia Sinonímia: um termo possui vários sinônimos Carro, automóvel, veículo Polissemia: um mesm termo tem diferentes significados, dependendo do contexto Mineração (textos?), mineração (carvão?) Exame (teste?), exame (médico?) 5

Stop List É possível associar uma stop list para um determinado conjunto de documentos Uma stop list é um conjunto de palavras que são consideradas irrelevantes Normalmente inclui artigos, preposições, conjunções A stop list pode variar entre conjuntos de documentos (mesma área, mesma língua) 7

Stem Um grupo de diferentes termos podem compartilhar um mesmo radical (stem) Em geral, termos que possuem o mesmo stem correspondem a pequenas variações sintáticas uns dos outros Droga, drogas, drogado, drogaria Com essa identificação, é possível armazenar apenas o stem 8

9 Representação Iniciando com um conjunto de n documentos e m termos, é possível modelar cada documento como um vetor v no espaço m-dimensional Os vetores podem ser binários: 0 indica que o termo não ocorre no documento 1 caso contrário Os vetores podem ser ternários: 0 indica que o termo não ocorre no documento 1 que o termo ocorre uma única vez 2 que o termo ocorre duas ou mais vezes no documento Os vetores podem conter a freqüência absoluta de cada termo no documento (um número inteiro) Os vetores podem conter a freqüência relativa de cada termo no documento (um número real), ou seja, a freqüência absoluta dividida pelo número total de ocorrências de todos os termos no documento

10 Matriz de Freqüência Absoluta t 1 t 2 d 1 74 321 354 15 22 t 5 d 2 84 91 32 143 87 d 3 0 1 167 1 85 d 4 68 56 46 203 92 d 5 1 82 289 0 25 d 6 1 0 225 0 54 d 7 430 392 1 54 121 t 3 t 4

11 Matriz de Freqüência Relativa t 1 t 2 d 1 0.09 0.41 0.45 0.02 0.03 t 5 d 2 0.19 0.21 0.07 0.33 0.20 d 3 0.00 0.00 0.66 0.00 0.33 d 4 0.15 0.12 0.10 0.44 0.20 d 5 0.00 0.21 0.73 0.00 0.06 d 6 0.00 0.00 0.80 0.00 0.19 d 7 0.43 0.39 0.00 0.05 0.12 t 3 t 4

12 Matriz Booleana (Binária) t 1 t 2 d 1 1 1 1 1 1 t 5 d 2 1 1 1 1 1 d 3 0 1 1 1 1 d 4 1 1 1 1 1 d 5 1 1 1 0 1 d 6 1 0 1 0 1 d 7 1 1 1 1 1 t 3 t 4

13 Matriz Ternária t 1 t 2 d 1 2 2 2 2 2 t 5 d 2 2 2 2 2 2 d 3 0 1 2 1 2 d 4 2 2 2 2 2 d 5 1 2 2 0 2 d 6 1 0 2 0 2 d 7 2 2 1 2 2 t 3 t 4

Identificando Documentos Similares Uma vez obtida a matriz de freqüência (binária, ternária, absoluta ou relativa) é possível aplicar qualquer métrica de distância, uma vez que é esperado que documentos similares tenham freqüências similares É possível medir a similaridade entre um conjunto de documentos ou entre um documento e uma query (consulta), freqüentemente definida por meio de um conjunto de termos 14

Identificando Documentos Similares Após obter a freqüência de um termo em um documento é possível modificá-la de forma a considerar a importância percebida daquele termo A formulação tf-idf é utilizada para computar pesos ou scores para os termos Os valores permanecem positivos de forma a capturar a presença ou ausência do termo no documento 15

Métrica tf-idf O peso associado ao termo j é a freqüência do termo (tf = term frequency) modificado por um fator de escala para a importância do termo O fator de escala é chamado de freqüência inversa do termo j em todos documentos (idf = inverse document frequency) Ele simplesmente verifica o número de documentos que contêm o termo j (df = document frequency) e inverte a escala n é o número total de documentos tf idf( j) = idf( j) = tf( j) idf( log 2 n df( j) j) 16

17 Métrica tf-idf Quando o termo aparece em muitos documentos ele é considerado irrelevante e o fator de escala é diminuído, tendendo a zero Quando o termo é relativamente único e aparece em poucos documentos o fator de escala aumenta uma vez que ele parece ser importante Existem métricas alternativas à formulação td-idf mas a motivação geral é a mesma O resultado desse processo é um score positivo que substitui a freqüência em uma célula em nossa tabela Quanto maior o score mais importante seu valor esperado para o método de aprendizado

18 Identificando Documentos Similares Qualquer medida de similaridade/distância pode ser utilizada Uma métrica de similaridade comumente utilizada é o co-seno entre os vetores Sejam u e v dois vetores de documentos; a métrica de similaridade de co-seno é definida como cos( u, v) onde m u v = j= 1 = u v u v u j v j v v Quanto mais próximo de zero o valor encontrado, mais próximos estão os documentos -1 <= cos(α) <= 1; cos(0) = 1; cos(π/2) = 0; cos(π) = -1 Como u e v assumem somente valores positivos, 0 <= cos(u,v) <= 1 v =

19 Identificando Documentos Similares t 1 t 2 d 1 74 321 354 15 22 t 5 d 2 84 91 32 143 87 d 3 31 71 167 72 85 d 4 68 56 46 203 92 d 5 72 82 289 31 25 d 6 15 6 225 15 54 d 7 430 392 17 54 121 cos(d 1,d 1 ) = 1.0000 cos(d 1,d 2 ) = 0.6787 cos(d 1,d 3 )=0.4363 t 3 t 4

Métricas Básicas As duas métricas usualmente utilizadas para avaliar o desempenho são Precisão: porcentagem de documentos recuperados que de fato são relevantes Recall: porcentagem de documentos que são relevantes e foram, de fato, recuperados Documentos relevantes Relevantes e Recuperados Documentos recuperados Todos os documentos 20

21 Métricas Básicas As duas métricas usualmente utilizadas para avaliar o desempenho são Precisão = Relevantes Recuperados / Recuperados Recall: Relevantes Recuperados / Relevantes Documentos relevantes Relevantes e Recuperados Documentos recuperados Todos os documentos

Métricas Básicas Relevantes Recuperados Tp Não Relevantes Recuperados Fp Relevantes Não Recuperados Fn Não Relevantes Não Recuperados Tn 22

Métricas Básicas As duas métricas usualmente utilizadas para avaliar o desempenho são Precisão = Tp/(Tp+Fp) = confiabilidade positiva (prel) Recall = Tp/(Tp+Fn) = sensitividade (sens) Adicionalmente, a métrica F-measure também é utilizada: F-measure = 2 / (1/prel + 1/sens) 23

24 Métricas Básicas Considere um conjunto de documentos rotulados Focalizando em um rótulo específico, por exemplo, saúde; assuma um classificador que rotula documentos como sendo sobre saúde ou não e vamos utilizá-lo para recuperar todos os documentos que ele rotula Precisão a porcentagem de documentos que o classificador corretamente rotula como sendo sobre saúde Recall é a porcentagem de todos os documentos sobre saúde que foram recuperados F-measure é definida como a média harmônica de precisão e recall e é frequentemente utilizada para medir o desempenho de um sistema quando um único número é desejado