Recuperação de Informação em Bases de Texto. Aula 10



Documentos relacionados
Clustering - agrupamento. Baseado no capítulo 8 de. Introduction to Data Mining

MINERAÇÃO DE DADOS APLICADA. Pedro Henrique Bragioni Las Casas

INTELIGÊNCIA ARTIFICIAL Data Mining (DM): um pouco de prática. (1) Data Mining Conceitos apresentados por

Agrupamento de dados

Universidade Tecnológica Federal do Paraná UTFPR Programa de Pós-Graduação em Computação Aplicada Disciplina de Mineração de Dados

Clustering: K-means and Aglomerative

Classificação da imagem (ou reconhecimento de padrões): objectivos Métodos de reconhecimento de padrões

Análise de técnicas de selecção de atributos em Bioinformática

Sistemas de Nomes Planos

Balanceamento de linhas de produção

Algoritmos de Agrupamento - Aprendizado Não Supervisionado. Fabrício Jailson Barth

AGRUPAMENTO DE ESCOLAS DR. VIEIRA DE CARVALHO 1º Ciclo Planificação Anual de Matemática 1º ano Ano Letivo 2015/2016

Reconhecimento de Padrões

Análise do desempenho das escolas públicas de Campinas

Computação Paralela. Desenvolvimento de Aplicações Paralelas João Luís Ferreira Sobral Departamento do Informática Universidade do Minho.

Palavras-Chaves: Agrupamento Hierárquico; Acordo de Resultados.

Pré processamento de dados II. Mineração de Dados 2012

Meta-heurísticas. Métodos Heurísticos José António Oliveira meta-heurísticas

Electrónica de Seguros

Aprendizagem de Máquina

Prof. Júlio Cesar Nievola Data Mining PPGIa PUCPR

Redes de Computadores. Camada de Rede Endereçamento

Sistema Multi-Agente Mediação Electrónica de Seguros

Protocolo de Acordo entre o Ministério da Educação e o Sindicato Nacional dos Professores do Ensino Secundário

Otimização de Recuperação de Informação usando Algoritmos Genéticos

UTILIZANDO O SOFTWARE WEKA

Problema apresentado no AMEC SIG meeting da rede AgentLink, 2001

Aula 20. Roteamento em Redes de Dados. Eytan Modiano MIT

Aproximações e Erros de Arredondamento. introdução. exactidão e precisão. Aula 2 Métodos Numéricos Aplicados à Engenharia

RELATÓRIO DE ANÁLISE DO COMPORTAMENTO

Técnicas de Clustering: Algoritmos K-means e Aglomerative

EAGLE TECNOLOGIA E DESIGN CRIAÇÃO DE SERVIDOR CLONE APCEF/RS

Pesquisa: localização de um Registo num Ficheiro (para aceder ao registo: ler/alterar informação) R. P. António Viera, 23. R. Carlos Seixas, 9, 6º

Anexo 2 Análise de clusters método K-means

Conselho de Docentes do 1.º Ano PLANIFICAÇÃO Anual de Matemática Ano letivo de 2015/2016

Faculdade de Engenharia Optimização. Prof. Doutor Engº Jorge Nhambiu

SUMÁRIO. Introdução... 3

Endereçamento IP 09/05/2014. Endereçamento IP CLASSE B CLASSE A CLASSE A CLASSE C

O uso da Mineração de Textos para Extração e Organização Não Supervisionada de Conhecimento

Tabela de Símbolos. Análise Semântica A Tabela de Símbolos. Principais Operações. Estrutura da Tabela de Símbolos. Declarações 11/6/2008

Instituto Superior de Engenharia do Porto. Agrupamento Clustering

Metodos Praticos de Amostragem para Avaliações de Impacto

Análises Geração RI (representação intermediária) Código Intermediário

CAP 254 CAP 254. Otimização Combinatória. Professor: Dr. L.A.N. Lorena. Assunto: Metaheurísticas Antonio Augusto Chaves

Olhó-passarinho: uma extensão do TweeProfiles para fotografias

3 Classificação Resumo do algoritmo proposto

Algoritmos e Programação Conceitos e Estruturas básicas (Variáveis, constantes, tipos de dados)

Domínio Subdomínio Conteúdos Metas

Regra do SERVIÇO VIVO GESTÃO

HORÁRIO DAS AVALIAÇÕES 2015

DISCIPLINA ENGENHARIA DE SOFTWARE Aula 03 Desenvolvimento Ágil Modelos Ágeis. Profª Esp.: Maysa de Moura Gonzaga

TIC Unidade 2 Base de Dados. Informação é todo o conjunto de dados devidamente ordenados e organizados de forma a terem significado.

2006/2011 ES JOSÉ AUGUSTO LUCAS OEIRAS RESULTADOS DOS EXAMES DOS 11.º/12.º ANOS DE ESCOLARIDADE

Reconhecimento de Padrões. Reconhecimento de Padrões

Miguel Rocha Dep. Informática - Universidade do Minho. BIOINFORMÁTICA: passado, presente e futuro!!

PROGRAMAÇÃO DE MICROPROCESSADORES 2011 / 2012

Analise filogenética baseada em alinhamento de domínios

Internet Update de PaintManager TM. Manual de instalação e utilização do programa de actualização

- A crescente necessidade de sistemas inteligentes e de aquisição de conhecimento levaram à necessidade de implementação de Data Warehouses.

Mineração de Dados em Grandes Bancos de Dados Geográficos

Módulo III. Folhas de Cálculo

MESTRADO EM PESQUISA DE MERCADOS

QUAR. Quadro de Avaliação e Responsabilização SIADAP 1

ADM041 / EPR806 Sistemas de Informação

Sumário. INF01040 Introdução à Programação. Elaboração de um Programa. Regras para construção de um algoritmo

A lógica de programação ajuda a facilitar o desenvolvimento dos futuros programas que você desenvolverá.

COMPARAÇÃO DOS MÉTODOS DE SEGMENTAÇÃO DE IMAGENS OTSU, KMEANS E CRESCIMENTO DE REGIÕES NA SEGMENTAÇÃO DE PLACAS AUTOMOTIVAS

textos documentos semi-estruturado

Aprendizagem de Máquina. Ivan Medeiros Monteiro

FUNDAÇÃO DE APOIO AO ENSINO TÉCNICO DO ESTADO DO RIO DE JANEIRO FAETERJ Petrópolis Área de Extensão PLANO DE CURSO

Problemas de Caminho Mínimo. Metodologias de Apoio à Decisão 1. Slide 1. Definição: Determinar o caminho mais curto entre o nó de entrada e o nó

MANUAL DO EXCEL. Um campo é um espaço que contém determinada informação (ex: Nome do cliente X, Telefone do Sr. Y)

Layouts Balanceamento de Linhas. Maria Antónia Carravilla

Profª Adriana Ferrazza 1. Fonte: BMF&Bovespa. 1. Juro simples. FV= PV.[1+(i.n)]

Redes Neurais Construtivas. Germano Crispim Vasconcelos Centro de Informática - UFPE

UNIVERSIDADE FEDERAL DE SANTA CATARINA GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA DATA MINING EM VÍDEOS

Modelo Cascata ou Clássico

Faculdade de Engenharia Optimização. Prof. Doutor Engº Jorge Nhambiu

17/10/2012. dados? Processo. Doutorado em Engenharia de Produção Michel J. Anzanello. Doutorado EP - 2. Doutorado EP - 3.

A Tributação do Património IMI - AVALIAÇÕES. Elaborados por Abílio Marques AVALIAÇÕES FISCAIS AICCOPN

PUBLICAÇÕES:TECNOMETAL n.º 139 (Março/Abril de 2002) KÉRAMICA n.º 249 (Julho/Agosto de 2002)

Folha de cálculo. Excel. Agrupamento de Escolas de Amares

HORÁRIO DAS AVALIAÇÕES 2015

Árvores Binárias e Busca. Jeane Melo

Conceitos Importantes:

Gerência de Projetos. Aula 07. Prof. Gladimir Ceroni Catarino

Organização e Arquitetura de Computadores I

Consultas (Queries) ou Interrogações

Sistema dinâmico de impressão da tabela de detalhes das facturas

Orientação a Objetos com Java

4 Avaliação Econômica

Universidade Federal do Paraná Departamento de Informática. Reconhecimento de Padrões. Segmentação. Luiz Eduardo S. Oliveira, Ph.D.

Programação de Computadores I Fluxogramas PROFESSORA CINTIA CAETANO

WINCODE SOFTWARE E CONTABILIDADE S.A. MyEnsino Manual da Área Reservada de Professores

ESTRUTURA CONDICIONAL

Análise de Clusters. Aplicações da formação de Grupos (Clustering)

5. EXPERIÊNCIAS E ANÁLISE DOS RESULTADOS Os Programas de Avaliação

FERRAMENTAS DE CRIATIVIDADE MAPA MENTAL (MIND MAP)

Regulamento do Trabalho de Conclusão de Curso Curso: Direito Faculdade das Américas FAM TRABALHO DE CONCLUSÃO DO CURSO (TCC)

Problema de Otimização Combinatória

Transcrição:

Aula 10 1

Agrupamento/ clustering de documentos: Agrupar os documentos em classes/grupos, de acordo com a sua semelhança Aprendizagem não supervisionada Sem conjunto de treino/exemplos 2

3

Agrupamento/ clustering de documentos: Permite: Melhorar recall /abrangência dos sistemas de RI Melhorar diminuir o número de iterações necessárias para recuperar os documentos 4

Agrupamento/ clustering de documentos: Flat Sem estrutura a relacionar os gupos/clusters Hierárquico Com estrutura entre os grupos tipicamente uma árvore 5

Agrupamento/ clustering de documentos: Hard-clustering Cada documento pertence a somente um grupo Soft-clustering Cada documento pode pertencer a mais do que um grupo 6

Agrupamento/ clustering de documentos: Hipótese: Documentos pertencentes ao mesmo grupo têm relevância semelhante relativamente a uma dada pesquisa Implicação: Se um documento de um dado grupo é relevante para uma dada pesquisa, então os outros documentos desse grupo também o deverão ser. 7

Agrupamento/ clustering de documentos: Problema principal: Como calcular a semelhança entre documentos? Vectores» coseno; distância Euclideana Sequência de palavras» Co-ocorrências de expressões Distância semântica... 8

Agrupamento/ clustering de documentos: Problemas adicionais: Agrupar em quantos grupos/clusters? Pré-definido Dependente dos documentos 9

Agrupamento/ clustering de documentos: Avaliação Critério interno Minimizar distâncias internas aos grupos e maximizar distância entre grupos 10

Agrupamento/ clustering de documentos: Avaliação Critério externo Comparar com resultados obtidos por juízes na divisão em classes dos documentos. 11

Agrupamento/ clustering de documentos: Avaliação Pureza/ purity Cada grupo/cluster é associado à classe mais frequente dos seus documentos; a pureza do clustering é obtida pela divisão do número de associações correctas pelo número de documentos 12

Agrupamento/ clustering de documentos: Avaliação F-measure PR / (P+R) P = TP / (TP+FP) R = TP / (TP+FN) 13

K-means -- flat clustering Minimizar a distância dos documentos ao centróide do grupo/cluster Centróide: μ c = 1 c x x c 14

K-means -- flat clustering Minimizar D k = Σ i (d i c k ) 2 d i in cluster k) (sum over all D = Σ k D k 15

K-means -- flat clustering Algoritmo Seleccionar {s1,..., sk} documentos como centróides dos k grupos Enquanto não atingir critério de paragem Associar cada doc di ao cluster cujo centróide estiver mais perto Recalcular os novos centróides 16

K-means -- flat clustering Algoritmo Critérios de paragem Número fixo de iterações Não haver alterações nos grupos Centróides não alterarem Valor do somatório das distâncias dos documentos aos centróides dos seus grupos ser inferior a um dado valor. 17

K-means -- flat clustering Definição de k Pré-fixo Dependente dos documentos Calcular a soma da distância dos documentos aos centróides dos seus grupos para vários k e escolher o k correspondente ao menor valor 18

K-means -- flat clustering Definição de k Dependente dos documentos Problema:»Favorece soluções com muitos grupos --> k=n -> distância = 0! Solução possível:»adicionar um peso por cada novo grupo 19

K-means -- flat clustering Resultados dependem da selecção inicial de documentos: {A,D} versus {A,C} 20

Agrupamento hierárquico Ascendente/bottom-up Hierarchical agglomerative clustering Descendente/top-down 21

HAC - Hierarchical agglomerative clustering Algoritmo simples: Início --> N clusters N-1 iterações em que: Os 2 clusters mais semelhantes são juntos/merged 22

HAC - Hierarchical agglomerative clustering Como calcular a semelhança entre 2 clusters? Single-link Distância entre os documentos mais próximos Complete-link Distância entre os documentos mais afastados 23

HAC - Hierarchical agglomerative clustering Como calcular a semelhança entre 2 clusters? Centroid Distância entre os centróides Average-link Distância média entre os vários pares de documentos 24

Top-down (divisive) clustering Algoritmo simples: Usar um algoritmo de flat clustering para dividir o conjunto inicial (por exemplo, o k-means com k<10) Recursivamente aplicar a mesma abordagem até obter grupos com 1 elemento/documento 25

Como identificar os grupos/clusters? Técnicas de selecção de atributos/features Termos mais informativos informação mútua, ganho de informação Título do documento mais próximo do centróide 26

Como aceder à informação contida nos documentos? Extracção de informação Sistemas de pergunta-resposta Aula 11! 27