Prof. Júlio Cesar Nievola Data Mining PPGIa PUCPR



Documentos relacionados
Clustering - agrupamento. Baseado no capítulo 8 de. Introduction to Data Mining

Clustering: K-means and Aglomerative

MINERAÇÃO DE DADOS APLICADA. Pedro Henrique Bragioni Las Casas

Agrupamento de dados

Universidade Tecnológica Federal do Paraná UTFPR Programa de Pós-Graduação em Computação Aplicada Disciplina de Mineração de Dados

INTELIGÊNCIA ARTIFICIAL Data Mining (DM): um pouco de prática. (1) Data Mining Conceitos apresentados por

Técnicas de Clustering: Algoritmos K-means e Aglomerative

Prof. Júlio Cesar Nievola Data Mining PPGIa PUCPR

Avaliando o que foi Aprendido

Tabela de Símbolos. Análise Semântica A Tabela de Símbolos. Principais Operações. Estrutura da Tabela de Símbolos. Declarações 11/6/2008

Aprendizagem de Máquina

Recuperação de Informação em Bases de Texto. Aula 10

Factor Analysis (FACAN) Abrir o arquivo ven_car.sav. Clique Extraction. Utilizar as 10 variáveis a partir de Vehicle Type.

Classificação da imagem (ou reconhecimento de padrões): objectivos Métodos de reconhecimento de padrões

Pré processamento de dados II. Mineração de Dados 2012

MÓDULO 6 INTRODUÇÃO À PROBABILIDADE

UFGD FCA PROF. OMAR DANIEL BLOCO 6 CLASSIFICAÇÃO DE IMAGENS

A Otimização Colônia de Formigas

PÓS GRADUAÇÃO EM CIÊNCIAS DE FLORESTAS TROPICAIS-PG-CFT INSTITUTO NACIONAL DE PESQUISAS DA AMAZÔNIA-INPA. 09/abril de 2014

Reconhecimento de Padrões

Curso: Redes II (Heterogênea e Convergente) Tema da Aula: Características Roteamento

Projeto de Redes Neurais e MATLAB

Roteiro. Arquitetura. Tipos de Arquitetura. Questionário. Centralizado Descentralizado Hibrido

SUMÁRIO. Introdução... 3

Prof. Antonio Fundamentos de Sistemas Operacionais UNIP/2015

MLP (Multi Layer Perceptron)

Inteligência de Enxame: ACO

Aprendizagem de Máquina. Ivan Medeiros Monteiro

Dificuldades de Modelos de PNL. Onde está a solução ótima? Outro exemplo: Condição ótima Local vs. Global Quinta-feira, 25 de abril

Faculdade de Engenharia Optimização. Prof. Doutor Engº Jorge Nhambiu

Departamento de Matemática - UEL Ulysses Sodré. Arquivo: minimaxi.tex - Londrina-PR, 29 de Junho de 2010.

Localização dos inquéritos de rua para Arroios e Gulbenkian

CAP 254 CAP 254. Otimização Combinatória. Professor: Dr. L.A.N. Lorena. Assunto: Metaheurísticas Antonio Augusto Chaves

Diagrama de transição de Estados (DTE)

4 Aplicativo para Análise de Agrupamentos

Probabilidade. Distribuição Normal

Inteligência Computacional Aplicada a Engenharia de Software

Teste de Software. Ricardo Argenton Ramos Engenharia de Software I

3 Metodologia para Segmentação do Mercado Bancário

Aula 20. Roteamento em Redes de Dados. Eytan Modiano MIT

UNIVERSIDADE FEDERAL DE SANTA CATARINA GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA DATA MINING EM VÍDEOS

Banco de Dados Profa. Dra. Cristina Dutra de Aguiar Ciferri. Banco de Dados Processamento e Otimização de Consultas

ISO/IEC 12207: Gerência de Configuração

Ciclo de Desenvolvimento de Sistemas de BD

2. Método de Monte Carlo

Projeto e Análise de Algoritmos Projeto de Algoritmos Introdução. Prof. Humberto Brandão humberto@dcc.ufmg.br

Introdução a Química Analítica. Professora Mirian Maya Sakuno

Feature-Driven Development

Este documento foi elaborado sob a licença

CAPÍTULO 3 - TIPOS DE DADOS E IDENTIFICADORES

A limiarização é uma das abordagens mais importantes de segmentação de imagens. A limiarização é um caso específico de segmentação.

Conteúdo. Disciplina: INF Engenharia de Software. Monalessa Perini Barcellos. Centro Tecnológico. Universidade Federal do Espírito Santo

Pós-Graduação em Gerenciamento de Projetos práticas do PMI

Tecnologia em Gestão Pública Desenvolvimento de Projetos - Aula 9 Prof. Rafael Roesler

UNIVERSIDADE DE SÃO PAULO. Faculdade de Arquitetura e Urbanismo

4 Avaliação Econômica

CAP. I ERROS EM CÁLCULO NUMÉRICO

Regra do Evento Raro p/ Inferência Estatística:

3 Classificação Resumo do algoritmo proposto

O QUE É E COMO FUNCIONA O CREDIT SCORING PARTE I

4 Segmentação Algoritmo proposto

Teorema do Limite Central e Intervalo de Confiança

CAPÍTULO 7 NÍVEL DE LINGUAGEM DE MONTAGEM

Norma Interpretativa 2 (NI2) - Uso de Técnicas de Valor Presente para mensurar o Valor de Uso.

Universidade Federal do Paraná Departamento de Informática. Reconhecimento de Padrões. Revisão de Probabilidade e Estatística

A Preparação dos Dados

Status. Barra de Título. Barra de Menu. Barra de. Ferramentas Padrão. Caixa de nomes. Barra de. Ferramentas de Formatação. Indicadores de Coluna

Para construção dos modelos físicos, será estudado o modelo Relacional como originalmente proposto por Codd.

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU

Qual é o risco real do Private Equity?

CAPÍTULO 1 Introduzindo SIG

01/05/2016. Danillo Tourinho Sancho da Silva, MSc ROTEIRIZAÇÃO TEORIA DOS GRAFOS MOTIVAÇÃO

IA: Problemas de Satisfação de Restrições. Prof. Msc. Ricardo Britto DIE-UFPI

6 Construção de Cenários

IA Colônia de Formigas. Prof. Ricardo Britto DIE-UFPI

BCC202 - Estrutura de Dados I

Histogramas. 12 de Fevereiro de 2015

29/08/2011. Radiologia Digital. Princípios Físicos da Imagem Digital 1. Mapeamento não-linear. Unidade de Aprendizagem Radiológica

SUMÁRIO Acesso ao sistema... 2 Atendente... 3

Concepção e Elaboração

A lógica de programação ajuda a facilitar o desenvolvimento dos futuros programas que você desenvolverá.

Arquitetura de Computadores - Arquitetura RISC. por Helcio Wagner da Silva

Teoria dos Grafos. Edson Prestes

PLANEJAMENTO EXPERIMENTAL

1. Introdução. 1.1 Introdução

Faculdade Lourenço Filho - ENADE

Preparando um esquema de endereçamento de sua rede

IMES Catanduva. Probabilidades e Estatística. no Excel. Matemática. Bertolo, L.A.

Estatísticas Nacionais do (VoIP) Manual do Usuário Estatísticas do

ENGENHARIA DA COMPUTAÇÃO BANCO DE DADOS I CONTEÚDO 5 ABORDAGEM RELACIONAL

Introdução aos critérios de consulta. Um critério é semelhante a uma fórmula é uma cadeia de caracteres que pode consistir em

Noções de Pesquisa e Amostragem. André C. R. Martins

Campus Capivari Análise e Desenvolvimento de Sistemas (ADS) Prof. André Luís Belini prof.andre.luis.belini@gmail.com /

GERAÇÃO DE VIAGENS. 1.Introdução

O que é a estatística?

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU

Transcrição:

Encontrar grupos de objetos tal que objetos em um grupo são similares (ou relacionados) uns aos outros e diferentes de (ou não relacionados) a objetos em outros grupos

Compreensão Agrupa documentos relacionados para pesquisa, agrupa genes e proteínas que tenham funcionalidade similar, ou agrupa estoques com flutuações de preço similar 2 3 4 Grupos Descobertos Applied-Matl-DOWN,Bay-Network-Down,3-COM-DOWN, Cabletron-Sys-DOWN,CISCO-DOWN,HP-DOWN, DSC-Comm-DOWN,INTEL-DOWN,LSI-Logic-DOWN, Micron-Tech-DOWN,Texas-Inst-Down,Tellabs-Inc-Down, Natl-Semiconduct-DOWN,Oracl-DOWN,SGI-DOWN, Sun-DOWN Apple-Comp-DOWN,Autodesk-DOWN,DEC-DOWN, ADV-Micro-Device-DOWN,Andrew-Corp-DOWN, Computer-Assoc-DOWN,Circuit-City-DOWN, Compaq-DOWN, EMC-Corp-DOWN, Gen-Inst-DOWN, Motorola-DOWN,Microsoft-DOWN,Scientific-Atl-DOWN Fannie-Mae-DOWN,Fed-Home-Loan-DOWN, MBNA-Corp-DOWN,Morgan-Stanley-DOWN Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP, Louisiana-Land-UP,Phillips-Petro-UP,Unocal-UP, Schlumberger-UP Grupo Industrial Technology-DOWN Technology2-DOWN Financial-DOWN Oil-UP Sumarização Reduz o tamanho de grandes bases de dados Agrupando precipitação na Austrália

Classificação Supervisionada Tem informação de rótulo da classe Segmentação simples Dividir estudantes em diferentes grupos de registro alfabeticamente, pelo último nome Resultado de uma query Grupos são resultado de uma especificação externa Particionamento de Grafo Alguma relevância e sinergia mútua, mas áreas não são idênticas

Quantos grupos? Seis Grupos Dois Grupos Quatro Grupos

Um agrupamento é um conjunto de grupos Distinção importante entre conjuntos de grupos hierárquicos e particionais Agrupamento Particional Divide objetos de dados em subconjuntos sem sobreposição (grupos) tal que cada objeto de dados está em exatamente um subconjunto Agrupamento Hierárquico Um conjunto de grupos aninhados organizado como uma árvore hierárquica

Pontos Originais Um Agrupamento Particional

p p3 p4 p2 p p2 p3 p4 Agrupamento Hierárquico Tradicional Dendrograma Tradicional p p3 p4 p2 p p2 p3 p4 Agrupamento Hierárquico não Tradicional Dendrograma não Tradicional

!"# Exclusivo versus não exclusivo Em agrupamentos não exclusivos, pontos podem pertencer a vários grupos. Podem representar várias classes ou pontos de fronteira Fuzzy versus não fuzzy Em agrupamento fuzzy, um ponto pertence a todo grupo com algum peso entre 0 e Soma dos pesos deve ser Agrupamento probabilístico tem características semelhantes Parcial versus completo Em alguns casos, deseja-se agrupar somente alguns dados Heterogêneo versus homogêneo Grupos de tamanho, formato e densidade completamente diferentes

Grupos bem separados Grupos baseados em centro Grupos contíguos Grupos baseados em densidade Propriedade ou Conceitual Descrito por uma Função Objetivo

$%& Grupos bem separados: Um grupo é um conjunto de pontos tal que qualquer ponto em um grupo está mais próximo (ou é mais similar) de todo ponto no grupo do que de qualquer ponto que não está no grupo. 3 grupos bem separados

$% " Baseado em Centro Um grupo é um conjunto de objetos tal que um objeto em um grupo está mais próximo (mais similar) ao centro de um grupo, que ao centro de qualquer outro grupo O centro de um grupo é freqüentemente um centróide, a média de todos os pontos no grupo, ou um medóide, o ponto mais representativo de um grupo 4 grupos baseados em centro

$% "' Grupos Contíguos (Vizinho mais Próximo ou Transitivo) Um grupo é um conjunto de pontos tal que um ponto em um grupo está mais próximo (ou é mais similar) a um ou mais pontos no grupo do que a qualquer ponto que não está no grupo. 8 grupos contíguos

$%! Baseado em Densidade Um grupo é uma região densa de pontos, que é separada por regiões de baixa densidade, de outras regiões de alta densidade. Usado quando os grupos são irregulares ou entrelaçados, e quando ruído ou outliers estão presentes. 6 grupos baseados em densidade

$" Propriedade compartilhada ou Grupos Conceituais Encontrar grupos que partilham alguma propriedade em comum ou representam um conceito em particular. 2 Círculos Sobrepostos

$(#) Grupos Definidos por uma Função Objetivo Achar grupos que minimizam ou maximizam função objetivo Enumerar todas formas possíveis de dividir os pontos em grupos e avaliar quão bom cada potencial conjunto de grupos é usando a função objetivo dada. (NP Hard) Pode-se ter objetivos globais ou locais. Algoritmos de agrupamento hierárquico tem em geral objetivos locais Algoritmos particionais em geral tem objetivos globais Uma variação da abordagem por função objetivo global consiste no ajuste dos dados a um modelo parametrizado. Parâmetros para o modelo são determinados a partir dos dados. Modelos de mistura assumem que os dados são uma mistura de um certo número de distribuições estatísticas.

$(#)* Mapear o problema de agrupamento em um domínio diferente e resolver um problema relacionado naquele domínio Matriz de Proximidade define um grafo ponderado, em que os nós são os pontos sendo agrupados, e o peso das arestas representa a proximidade entre pontos Agrupamento é equivalente a quebrar o grafo em componentes conectados, um para cada grupo. Busca-se minimizar o peso das arestas entre grupos e maximizar o peso das arestas dentro dos grupos

+, "! - Tipo de proximidade ou medida de densidade É uma medida derivada, mas central ao agrupamento Esparsidade Dita o tipo de similaridade Melhora a eficiência Tipo de atributo Dita o tipo de similaridade Tipo de dado Dita o tipo de similaridade Outras características, e.g., auto-correlação Dimensionalidade Ruído e Outliers Tipo de Distribuição

K-médio e suas variações Agrupamento Hierárquico Agrupamento baseado em Densidade

./ Abordagem de agrupamento particional Cada grupo é associado com um centróide (ponto central) Cada ponto é assinalado ao grupo com o centróide mais próximo Número de grupos, K, deve ser especificado O algoritmo básico é muito simples

./ 0! Centróides iniciais em geral são escolhidos aleatoriamente Grupos produzidos variam de execução para outra O centróide é (tipicamente) a média dos pontos do grupo Proximidade é medida pela distância Euclidiana, similaridade dos cossenos, correlação, etc. K-médio converge para as medidas de similaridade já indicadas Maioria da convergência acontece nas primeiras iterações Freqüentemente a condição de parada é mudada para Até que relativamente poucos pontos mudam de grupo Complexidade é O( n * K * I * d ) n = número de pontos, K = número de grupos, I = número de iterações, d = número de atributos

!!23/ 3 2.5 2.5 Pontos originais y 0.5 0-2 -.5 - -0.5 0 0.5.5 2 x 3 3 2.5 2.5 2 2.5.5 y y 0.5 0.5 0 0-2 -.5 - -0.5 0 0.5.5 2 x Agrupamento ótimo -2 -.5 - -0.5 0 0.5.5 2 x Agrupamento Sub-ótimo

+, - "4 + 3 Iteration 2 34 56 2.5 2.5 y 0.5 0-2 -.5 - -0.5 0 0.5.5 2 x

+, - "4 + 3 Iteração 3 Iteração 2 3 Iteração 3 2.5 2.5 2.5 2 2 2.5.5.5 y y y 0.5 0.5 0.5 0 0 0-2 -.5 - -0.5 0 0.5.5 2 x -2 -.5 - -0.5 0 0.5.5 2 x -2 -.5 - -0.5 0 0.5.5 2 x 3 Iteração 4 3 Iteração 5 3 Iteração 6 2.5 2.5 2.5 2 2 2.5.5.5 y y y 0.5 0.5 0.5 0 0 0-2 -.5 - -0.5 0 0.5.5 2 x -2 -.5 - -0.5 0 0.5.5 2 x -2 -.5 - -0.5 0 0.5.5 2 x

) 3/ Medida mais comum é Sum of Squared Error (SSE) Para cada ponto, o erro é a distância ao grupo mais próximo Para obter SSE, os erros são elevados ao quadrados e somados SSE = K i= x C i dist ( m, x) x é um ponto de dado no grupo C i e m i é o ponto representativo para o grupo C i pode mostrar que m i corresponde ao centro (média) do grupo Dados dois grupos, pode-se escolher aquele com o menor erro Uma forma fácil de reduzir SSE é aumentar k, o número de grupos 2 Um bom agrupamento com k menor pode ter um SSE inferior que um agrupamento pobre com k maior i

+, - "4 +* 3 Iteration 2 34 5 2.5 2.5 y 0.5 0-2 -.5 - -0.5 0 0.5.5 2 x

+, - "4 +* 3 Iteração 3 Iteração 2 2.5 2.5 2 2.5.5 y y 0.5 0.5 0 0-2 -.5 - -0.5 0 0.5.5 2 x -2 -.5 - -0.5 0 0.5.5 2 x 3 Iteração 3 3 Iteração 4 3 Iteração 5 2.5 2.5 2.5 2 2 2.5.5.5 y y y 0.5 0.5 0.5 0 0 0-2 -.5 - -0.5 0 0.5.5 2 x -2 -.5 - -0.5 0 0.5.5 2 x -2 -.5 - -0.5 0 0.5.5 2 x

& + Se há k grupos reais então a chance de selecionar um centróide de cada grupo é pequena. Chance é relativamente pequena quando k é grande Se grupos são de mesmo tamanho, n, então Por exemplo, se k = 0, então probabilidade = 0!/0 0 = 0.00036 As vezes os centróides iniciais se reajustam de forma correta, e as vezes não Considere um exemplo de cinco pares de grupos

-5 67 8 Iteration 2 34 6 4 2 y 0-2 -4-6 0 5 0 5 20 x Começando com dois centróides iniciais em um grupo de cada par de grupos

-5 67 8 Iteration 8 Iteration 2 6 6 4 4 2 2 y 0 y 0-2 -4-2 -4-6 -6 8 0 5 0 5 20 x Iteration 3 8 0 5 0 5 20 x Iteration 4 6 6 4 2 4 2 y 0 y 0-2 -4-2 -4-6 -6 0 5 0 5 20 x 0 5 0 5 20 Começando com dois centróides iniciais em um grupo de cada par de grupos x

-5 67 8 Iteration 2 34 6 4 2 y 0-2 -4-6 0 5 0 5 20 Começando com um par de grupos tendo três centróides iniciais, enquanto outro tem somente um x

-5 67 8 Iteration 8 Iteration 2 6 6 4 4 2 2 y 0 y 0-2 -4-2 -4-6 -6 8 0 5 0 5 20 Iteration x 3 8 0 5 0 5 20 Iteration x 4 6 6 4 2 4 2 y 0 y 0-2 -4-2 -4-6 -6 0 5 0 5 20 x 0 5 0 5 20 x Começando com um par de grupos tendo três centróides iniciais, enquanto outro tem somente um

& "4 + Múltiplas execuções Ajuda, mas a probabilidade não está a favor Amostrar e usar agrupamento hierárquico para determinar centróides iniciais Selecionar mais que k centróides iniciais e então selecionar entre estes centróides iniciais Selecionar os mais largamente separados Pós-processamento K-médio Bi-seccional Não é tão suscetível a problemas de inicialização

8 9: Algoritmo básico do k-médio pode levar a grupos vazios Várias estratégias Escolher o ponto que mais contribui para o SSE Escolher um ponto do grupo com o maior SSE Se há vários grupos vazios, o procedimento acima pode ser repetido várias vezes

: " (+ No algoritmo K-médio básico, centróides são atualizados após todos os pontos terem sido assinalados a um centróide Uma alternativa é atualizar os centróides após cada assinalamento (abordagem incremental) Cada assinalamento atualiza zero ou dois centróides Mais caro Introduz uma ordem de dependência Nunca chega a um grupo vazio Pode usar pesos para alterar impacto

/ 4/ Pré-processamento Normalizar dos dados Eliminar outliers Pós-processamento Eliminar pequenos grupos que podem representar outliers Dividir grupos frouxos, i.e., grupos com SSE relativamente alto Unir grupos que estão próximos e que tenham SSE relativamente baixo Pode usar estes passos durante o processo de agrupamento ISODATA

./ %/ Algoritmo K-médio bi-seccional Variante do K-médio que pode produzir um agrupamento particional ou hierárquico

-50./ %/

;./ K-médio tem problemas quando os grupos são de diferentes Tamanhos Densidades Formatos não globulares K-médio tem problemas quando os dados contém outliers

;./ $!2 Pontos Originais K-médio (3 Grupos)

;./ $!2! Pontos Originais K-médio (3 Grupos)

;./ $( Pontos Originais K-médio (2 Grupos)

& ;./ Pontos Originais Grupos K-médio Uma solução é usar muitos grupos. Encontra partes de grupos, mas precisam ser colocados juntos.

& ;./ Pontos Originais Grupos K-médio

& ;./ Pontos Originais Grupos K-médio

Produz um conjunto de grupos aninhados organizado como uma árvore hierárquica Pode ser visualizado como um dendograma Um diagrama tipo árvore que registra a seqüência de uniões ou divisões 6 5 0.2 0.5 0. 4 3 4 2 5 2 0.05 3 0 3 2 5 4 6

Não precisa assumir qualquer número particular de grupos Qualquer número desejado de grupos pode ser obtido cortando o dendograma no nível apropriado Podem corresponder a taxonomias com significado Exemplo em ciências biológicas (e.g., reino animal, reconstrução filogenética, )

Dois tipos principais de agrupamento hierárquico Aglomerativo: Inicia com os pontos sendo grupos individuais A cada passo une os pares de grupos mais próximos até que somente um grupo exista (ou k grupos) Divisivo: Inicia com um grupo que inclui todos os pontos A cada passo divide um grupo até que cada grupo contenha um ponto (ou hajam k grupos) Algoritmos hierárquicos tradicionais usam uma matriz de similaridade ou de distância Unem ou dividem um grupo por vez

) Técnica de agrupamento hierárquica mais popular Algoritmo básico é eficiente. Calcular a matriz de proximidade 2. Fazer cada ponto de dados ser um grupo 3. Repetir 4. Unir os dois grupos mais próximos 5. Atualizar a matriz de proximidade 6. Até que exista somente um único grupo Operação-chave é o cálculo da proximidade de dois grupos Diferentes abordagens para definir a distância entre grupos distinguem os diferentes algoritmos

&+ Iniciar com grupos de pontos individuais e uma matriz de proximidade p p2 p3 p4 p5.. p p2 p3 p4 p5.... Matriz de Proximidade

&+ Após alguns passos de união, têm-se alguns grupos C C2 C3 C4 C5 C3 C4 C C2 C3 C4 C5 C Matriz de Proximidade C2 C5

&+ Deseja-se unir os dois grupos mais próximos (C2 e C5) e atualizar a matriz de proximidade C C2 C C2 C3 C4 C5 C C3 C4 C3 C4 C5 Matriz de Proximidade C2 C5

4< A questão é Como se atualiza a matriz de proximidade? C C2 U C5 C3 C4 C? C3 C4 C2 U C5 C3 C4?????? C Matriz de Proximidade C2 U C5

"!2& - p p2 p3 p4 p5... Similaridade? p p2 MIN MAX Média do Grupo Distância entre Centróides Outros métodos definidos por uma função objetivo Método de Ward usa erro quadrático p3 p4 p5... Matriz de Proximidade

"!2& - p p2 p3 p4 p5... p p2 p3 p4 MIN MAX Média do Grupo Distância entre Centróides Outros métodos definidos por uma função objetivo Método de Ward usa erro quadrático p5... Matriz de Proximidade

"!2& - p p2 p3 p4 p5... p p2 p3 p4 MIN MAX Média do Grupo Distância entre Centróides Outros métodos definidos por uma função objetivo Método de Ward usa erro quadrático p5... Matriz de Proximidade

"!2& - p p2 p3 p4 p5... p p2 p3 p4 MIN MAX Média do Grupo Distância entre Centróides Outros métodos definidos por uma função objetivo Método de Ward usa erro quadrático p5... Matriz de Proximidade

"!2& - p p p2 p3 p4 p5... p2 p3 p4 MIN MAX Média do Grupo Distância entre Centróides Outros métodos definidos por uma função objetivo Método de Ward usa erro quadrático p5... Matriz de Proximidade

& $8+&;3 Similaridade de dois grupos é baseada nos dois pontos mais similares (próximos) nos diferentes grupos Determinado por um par de pontos, i.e., por uma ligação no grafo de proximidade I I2 I3 I4 I5 I.00 0.90 0.0 0.65 0.20 I2 0.90.00 0.70 0.60 0.50 I3 0.0 0.70.00 0.40 0.30 I4 0.65 0.60 0.40.00 0.80 I5 0.20 0.50 0.30 0.80.00 2 3 4 5

$8+ 3 5 5 2 2 3 6 0.2 0.5 0. 4 4 0.05 0 3 6 2 5 4 Grupos Aninhados Dendograma

8+ Pontos Originais Dois Grupos Pode manipular formatos não elípticos

; 8+ Pontos Originais Dois Grupos Sensível a ruídos e outliers

& $8=";3 Similaridade de dois grupos é baseada nos dois pontos menos similares (mais distantes) nos diferentes grupos Determinado por todos os pares de pontos nos dois grupos I I2 I3 I4 I5 I.00 0.90 0.0 0.65 0.20 I2 0.90.00 0.70 0.60 0.50 I3 0.0 0.70.00 0.40 0.30 I4 0.65 0.60 0.40.00 0.80 I5 0.20 0.50 0.30 0.80.00 2 3 4 5

$8= 5 4 2 5 2 3 6 3 4 0.4 0.35 0.3 0.25 0.2 0.5 0. 0.05 0 3 6 4 2 5 Grupos Aninhados Dendograma

8= Pontos Originais Dois Grupos Menos suscetível a ruído e outliers

; 8= Pontos Originais Dois Grupos Tende a quebrar grandes grupos Tendencioso para grupos globulares

& $8 Proximidade de dois grupos é a média da proximidade par-apar entre pontos dos dois grupos 5 A @ 5 A >> > Precisa usar conectividade média para escalabilidade já que proximidade total favorece grandes grupos #? = I I2 I3 I4 I5 I.00 0.90 0.0 0.65 0.20 I2 0.90.00 0.70 0.60 0.50 I3 0.0 0.70.00 0.40 0.30 I4 0.65 0.60 0.40.00 0.80 I5 0.20 0.50 0.30 0.80.00 2 3 4 5 # # @ # > #?

& $8 5 4 5 2 2 4 3 3 6 0.25 0.2 0.5 0. 0.05 0 3 6 4 2 5 Grupos Aninhados Dendograma

& $8 Compromisso entre Single e Complete Link Poder Menos suscetível a ruído e outliers Limitações Tendência para grupos globulares

& $8 B Similaridade de dois grupos é baseada no aumento do erro quadrático quando dois grupos são unidos Similar à media do grupo se distância entre pontos é distância quadrática Menos suscetível a ruído e outliers Tendência para grupos globulares Análogo hierárquico do K-médio Pode ser usado para inicializar o K-médio

$" Média do Grupo Método de Ward 2 3 4 5 6 2 5 3 4 MIN MAX 2 3 4 5 6 2 5 3 4 2 3 4 5 6 2 5 3 4 2 3 4 5 6 2 3 4 5

$C - O(N 2 ) em espaço já que usa a matriz de proximidade. N é o número de pontos O(N 3 ) em tempo em muitos casos Há N passos e a cada passo a matriz de proximidade de tamanho N 2 deve ser atualizada e pesquisada Complexidade pode ser reduzida para O(N 2 log(n)) em tempo para algumas abordagens

$; Uma vez que uma decisão tenha sido tomada de combinar dois grupos, ela não pode ser desfeita Nenhuma função objetivo é minimizada diretamente Diferentes esquemas tem problemas com um ou mais dos seguintes pontos: Sensibilidade a ruído e outliers Dificuldade de manipular grupos de tamanhos diferentes e formatos convexos Quebrar grandes grupos

8&$!)) Construir MST (Minimum Spanning Tree) Iniciar com uma árvore que consiste de qualquer ponto Em passos sucessivos buscar o par de pontos mais próximos (p, q) tal que um ponto (p) está na árvore atual e o outro (q) não Adicionar q à árvore e colocar uma aresta entre p e q

8&$!)) Usar MST para construir uma hierarquia de grupos

!%&" DBSCAN é um algoritmo baseado em densidade Densidade = número de pontos dentro de um raio específico (Eps) Um ponto é um ponto núcleo se ele tem mais que um número especificado de pontos (MinPts) dentro de Eps Estes são os pontos que estão no interior de um grupo Um ponto de fronteira tem menos que MinPts dentro de Eps mas está na vizinhança de um ponto núcleo Um ponto de ruído é um ponto que não é nem um ponto núcleo nem um ponto de fronteira

!%&"$ D@(C

!%&" Eliminar pontos de ruído Fazer agrupamento sobre os pontos restantes

!%&"$ D@(C Pontos Originais Tipos de pontos: núcleo, fronteira e ruído Eps = 0, MinPts = 4

E!%&"(% Pontos Originais Grupos Resistente a ruído Pode manipular grupos de diferentes formas e tamanhos

E!%&"F(% Pontos Originais (MinPts=4, Eps=9.75). Densidades variáveis Dados de alta dimensionalidade (MinPts=4, Eps=9.92)

!%&"$! -&8 Idéia é que para pontos em um grupo, seus k-ésimos vizinhos estão aproximadamente à mesma distância Pontos de ruído tem o k-ésimo vizinho a uma distância maior Desta forma, o gráfico da distância ordenada de todo ponto até seu k-ésimo vizinho mais próximo

9 Para classificação supervisionada tem-se uma variedade de medidas para avaliar quão bom o modelo é Exatidão, precisão, recuperação( recall ) Para análise de agrupamentos a questão análoga é como avaliar o quão bom são os grupos resultantes Mas grupos estão nos olhos de quem os vê! Então por quê deseja-se avaliá-los? Para evitar encontrar padrões nos ruídos Para comparar algoritmos de agrupamento Para comparar dois conjuntos de grupos Para comparar dois grupos

! 4 0.9 0.9 0.8 0.8 Pontos Aleatórios y 0.7 0.6 0.5 y 0.7 0.6 0.5 DBSCAN 0.4 0.4 0.3 0.3 0.2 0.2 0. 0. 0 0 0.2 0.4 0.6 0.8 x 0 0 0.2 0.4 0.6 0.8 x 0.9 0.9 K-médio 0.8 0.7 0.6 0.8 0.7 0.6 Complete Link y 0.5 y 0.5 0.4 0.4 0.3 0.3 0.2 0.2 0. 0. 0 0 0.2 0.4 0.6 0.8 x 0 0 0.2 0.4 0.6 0.8 x

!2 9. Determinar a tendência de agrupamento de um conjunto de dados, i.e., distinguir se uma estrutura não aleatória realmente existe nos dados. 2. Comparar os resultados de uma análise de grupos com resultados externamente conhecidos, e.g., a rótulos de classes externamente fornecidos. 3. Avaliar quão bem os resultados de uma análise de grupos se ajustam aos dados sem referência a informação externa. - Usar somente os dados 4. Comparar os resultados de dois diferentes conjuntos de análise de grupos para determinar qual deles é melhor. 5. Determinar o número correto de grupos. Para 2, 3, e 4 pode-se ainda distinguir se é desejada uma avaliação do agrupamento inteiro ou apenas de grupos individuais.

8 ) Medidas numéricas que são aplicadas para julgar vários aspectos de avaliação de grupos são classificados em três tipos. Índice Externo: Usado para medir até que ponto rótulos de grupos correspondem a rótulos de classes externamente fornecidos. Entropia Índice Interno: Usado para medir quão boa é a estrutura de agrupamento sem relação com informação externa. Soma dos Erros Quadráticos (SSE) Índice Relativo: Usado para comparar dois grupos ou agrupamentos diferentes. Freqüentemente um índice externo ou interno é usado para esta função, e.g., SSE ou entropia As vezes eles são chamados de critérios em vez de índices Entretanto, as vezes critério é a estratégia geral e índice é a medida numérica que implementa o critério.

8 ) 9" Duas matrizes Matriz de Proximidade Matriz de Incidência Uma linha e uma coluna para cada ponto de dados Uma célula é se o par de pontos associado pertence ao mesmo grupo Uma célula é 0 se o par de pontos associado pertence a diferentes grupos Calcular a correlação entre as duas matrizes Como as matrizes são simétricas, somente a correlação entre n(n-)/2 entradas precisa ser calculada Alta correlação indica que pontos que pertencem ao mesmo grupo estão próximos entre si Não é uma boa medida para alguns grupos baseados em densidade ou contigüidade

8 ) 9" Correlação das matrizes de incidência e proximidade para os agrupamentos K-médio dos seguintes conjuntos de dados y 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0. 0 0 0.2 0.4 0.6 0.8 x y 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0. 0 0 0.2 0.4 0.6 0.8 x Correlação = -0.9235 Correlação = -0.580

< 8: & ) Ordenar a matriz de similaridade com relação aos rótulos dos grupos e inspecionar visualmente. y 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0. 0 0 0.2 0.4 0.6 0.8 x Points 0 20 30 40 50 60 70 80 90 00 20 40 60 80 00Similarity 0 Points 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.

< 8: & ) Grupos em dados aleatórios não são tão definidos 0 20 30 0.9 0.8 0.7 0.9 0.8 0.7 Points 40 50 60 0.6 0.5 0.4 y 0.6 0.5 0.4 70 80 90 00 20 40 60 80 00Similarity 0 Points 0.3 0.2 0. 0.3 0.2 0. 0 0 0.2 0.4 0.6 0.8 x DBSCAN

< 8: & ) Grupos em dados aleatórios não são tão definidos 0 20 30 0.9 0.8 0.7 0.9 0.8 0.7 Points 40 50 60 0.6 0.5 0.4 y 0.6 0.5 0.4 70 80 90 00 20 40 60 80 00Similarity 0 Points 0.3 0.2 0. 0.3 0.2 0. 0 0 0.2 0.4 0.6 0.8 x K-médio

< 8: & ) Grupos em dados aleatórios não são tão definidos Points 0 20 30 40 50 60 70 80 90 00 20 40 60 80 00Similarity 0 Points 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0. y 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0. 0 0 0.2 0.4 0.6 0.8 x Complete Link

< 8: & ) 0.9 2 6 4 3 500 000 500 0.8 0.7 0.6 0.5 0.4 2000 0.3 5 2500 0.2 7 3000 500 000 500 2000 2500 3000 0. 0 DBSCAN

8 +$&&- Grupos em figuras mais complicadas não são bem separados Índice Interno: Usado para medir quão boa é a estrutura de agrupamento sem relação a alguma informação externa SSE é bom para comparar dois agrupamentos ou dois grupos (SSE média) Também pode ser usado para estimar número de grupos 0 6 4 2 0-2 SSE 9 8 7 6 5 4 3-4 2-6 0 2 5 0 5 5 0 5 K 20 25 30

8 +$&&- Curva do SSE para conjunto de dados mais complicado 2 6 4 3 5 7 SSE de grupos encontrados usando K-médio

-) Precisa-se de estrutura para interpretar qualquer medida Por exemplo, se a medida de avaliação tem valor 0, a qualidade é boa, mediana ou pobre? Estatística fornece estrutura para avaliar grupos Quanto mais atípico o resultado de um agrupamento for, tanto mais provavelmente ele representa uma estrutura válida nos dados Pode comparar os valores de um índice que resulta de dados aleatórios ou agrupamentos com os resultados de agrupamento. Se o valor de um índice é improvável, então os resultados dos grupos são válidos Estas abordagens são mais complicadas e difíceis de compreender Para comparar os resultados de dois diferentes conjuntos de análises de agrupamento, uma estrutura não é tão necessária. Entretanto, há a questão sobre se a diferença entre os valores dos dois índices é significante

--&&- Exemplo Comparar SSE de 0.005 com três grupos em dados aleatórios Histograma mostra SSE de três grupos em conjuntos de pontos de dados aleatórios de tamanho 00 distribuído na faixa 0.2 0.8 para valores de x e y y 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0. 0 0 0.2 0.4 0.6 0.8 x Count 50 45 40 35 30 25 20 5 0 5 0 0.06 0.08 0.02 0.022 0.024 0.026 0.028 0.03 0.032 0.034 SSE

--" Correlação das matrizes de incidência e proximidade para os agrupamentos de K-médio dos dois seguintes conjuntos de dados y 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0. 0 0 0.2 0.4 0.6 0.8 x y 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0. 0 0 0.2 0.4 0.6 0.8 x Correlação = -0.9235 Correlação = -0.580

"() The validation of clustering structures is the most difficult and frustrating part of cluster analysis. Without a strong effort in this direction, cluster analysis will remain a black art accessible only to those true believers who have experience and great courage. Algorithms for Clustering Data, Jain and Dubes