Aula 10 1
Agrupamento/ clustering de documentos: Agrupar os documentos em classes/grupos, de acordo com a sua semelhança Aprendizagem não supervisionada Sem conjunto de treino/exemplos 2
3
Agrupamento/ clustering de documentos: Permite: Melhorar recall /abrangência dos sistemas de RI Melhorar diminuir o número de iterações necessárias para recuperar os documentos 4
Agrupamento/ clustering de documentos: Flat Sem estrutura a relacionar os gupos/clusters Hierárquico Com estrutura entre os grupos tipicamente uma árvore 5
Agrupamento/ clustering de documentos: Hard-clustering Cada documento pertence a somente um grupo Soft-clustering Cada documento pode pertencer a mais do que um grupo 6
Agrupamento/ clustering de documentos: Hipótese: Documentos pertencentes ao mesmo grupo têm relevância semelhante relativamente a uma dada pesquisa Implicação: Se um documento de um dado grupo é relevante para uma dada pesquisa, então os outros documentos desse grupo também o deverão ser. 7
Agrupamento/ clustering de documentos: Problema principal: Como calcular a semelhança entre documentos? Vectores» coseno; distância Euclideana Sequência de palavras» Co-ocorrências de expressões Distância semântica... 8
Agrupamento/ clustering de documentos: Problemas adicionais: Agrupar em quantos grupos/clusters? Pré-definido Dependente dos documentos 9
Agrupamento/ clustering de documentos: Avaliação Critério interno Minimizar distâncias internas aos grupos e maximizar distância entre grupos 10
Agrupamento/ clustering de documentos: Avaliação Critério externo Comparar com resultados obtidos por juízes na divisão em classes dos documentos. 11
Agrupamento/ clustering de documentos: Avaliação Pureza/ purity Cada grupo/cluster é associado à classe mais frequente dos seus documentos; a pureza do clustering é obtida pela divisão do número de associações correctas pelo número de documentos 12
Agrupamento/ clustering de documentos: Avaliação F-measure PR / (P+R) P = TP / (TP+FP) R = TP / (TP+FN) 13
K-means -- flat clustering Minimizar a distância dos documentos ao centróide do grupo/cluster Centróide: μ c = 1 c x x c 14
K-means -- flat clustering Minimizar D k = Σ i (d i c k ) 2 d i in cluster k) (sum over all D = Σ k D k 15
K-means -- flat clustering Algoritmo Seleccionar {s1,..., sk} documentos como centróides dos k grupos Enquanto não atingir critério de paragem Associar cada doc di ao cluster cujo centróide estiver mais perto Recalcular os novos centróides 16
K-means -- flat clustering Algoritmo Critérios de paragem Número fixo de iterações Não haver alterações nos grupos Centróides não alterarem Valor do somatório das distâncias dos documentos aos centróides dos seus grupos ser inferior a um dado valor. 17
K-means -- flat clustering Definição de k Pré-fixo Dependente dos documentos Calcular a soma da distância dos documentos aos centróides dos seus grupos para vários k e escolher o k correspondente ao menor valor 18
K-means -- flat clustering Definição de k Dependente dos documentos Problema:»Favorece soluções com muitos grupos --> k=n -> distância = 0! Solução possível:»adicionar um peso por cada novo grupo 19
K-means -- flat clustering Resultados dependem da selecção inicial de documentos: {A,D} versus {A,C} 20
Agrupamento hierárquico Ascendente/bottom-up Hierarchical agglomerative clustering Descendente/top-down 21
HAC - Hierarchical agglomerative clustering Algoritmo simples: Início --> N clusters N-1 iterações em que: Os 2 clusters mais semelhantes são juntos/merged 22
HAC - Hierarchical agglomerative clustering Como calcular a semelhança entre 2 clusters? Single-link Distância entre os documentos mais próximos Complete-link Distância entre os documentos mais afastados 23
HAC - Hierarchical agglomerative clustering Como calcular a semelhança entre 2 clusters? Centroid Distância entre os centróides Average-link Distância média entre os vários pares de documentos 24
Top-down (divisive) clustering Algoritmo simples: Usar um algoritmo de flat clustering para dividir o conjunto inicial (por exemplo, o k-means com k<10) Recursivamente aplicar a mesma abordagem até obter grupos com 1 elemento/documento 25
Como identificar os grupos/clusters? Técnicas de selecção de atributos/features Termos mais informativos informação mútua, ganho de informação Título do documento mais próximo do centróide 26
Como aceder à informação contida nos documentos? Extracção de informação Sistemas de pergunta-resposta Aula 11! 27