Instituto Superior de Engenharia do Porto. Agrupamento Clustering

Transcrição

1 Instituto Superior de Engenharia do Porto Engenharia Informática Projecto Agrupamento Clustering Manuel Altino Torres Aniceto Castro Orientadora Profª Fátima Rodrigues Julho 2003

2 Agradecimentos A realização da cadeira de Projecto do curso de Licenciatura em Engenharia Informática, pronuncia o aproximar do final de uma longa jornada com momentos bons e menos bons, com alegrias e sacrifícios, mas sobretudo com a satisfação de levar a bom porto uma tarefa que só pela sua concretização, alivia e conforta o espírito. Queria de uma forma muito especial agradecer à minha família pelo apoio e incentivo, sempre manifestado, em especial à minha esposa e às minhas filhas pela compreensão da minha ausência. No ISEP para o grupo de colegas de trabalho, pelas noites perdidas/ganhas a fazer trabalhos curriculares para as mais diversas cadeiras, e de uma forma muito especial a um amigo de luta académica Paulo Sousa, com quem compartilhei todas as alegrias e tristezas desta jornada, um imenso obrigado. Por último queria agradecer à Profª. Fátima Rodrigues, orientadora do projecto, pela ajuda e disponibilização de informação. Pag 2

3 Índice Índice de figuras Introdução Enquadramento Análise de clusters Aplicações Típicas de Clustering Requisitos para o clustering em Data Mining Escalabilidade Habilidade para lidar com diferentes tipos de atributos Descobrir clusters de forma arbitrária Requisitos mínimos do domínio do conhecimento que determinam os parâmetros de input Habilidade para lidar com ruído nos dados Insensibilidade à ordem dos registos de entrada Dimensionalidades elevadas Clustering com restrições Interpretabilidade e usabilidade Fases de um processo de clustering Representação de padrões Unidades de medida Agrupamentos Abstracção de dados Avaliação de outputs Classificação dos principais métodos de clustering Métodos de partição Métodos hierárquicos Métodos com base na densidade Métodos baseados em grelha Métodos baseados em modelos Selecção do algoritmo de clustering Representação de padrões, selecção e extracção de características Medidas de similaridade Classificação dos algoritmos de Clustering Pag 3

4 11.1- Aglomerativa vs. Divisiva Monothetic. vs. Polythetic Rígido (Hard) vs impreciso (Fuzzy) Incremental vs. não incremental Algoritmos de Clustering hierárquicos Algoritmo hierárquico aglomerativo Algoritmo de clustering de ligação aglomerativa simples Algoritmo de clustering de ligação aglomerativa completa Algoritmos de Partição Método de clustering do erro quadrado Algoritmo k-means Algoritmo de clustering com base na teoria dos grafos Algoritmos de Solução Mista e Modo de busca Clustering vizinho-mais-próximo Agrupamento impreciso (Fuzzy) Algoritmo de clustering impreciso Representação de clusters Abstracção de dados Redes neuronais artificiais de clustering Aproximações evolutivas ao clustering Algoritmo Evolutivo de clustering Aproximações baseadas na procura Restrições de Domínio em clustering Conclusões Referências Pag 4

5 Índice de figuras Fig. 1 Processo de Descoberta do Conhecimento 8 Fig. 2 Exemplo de clustering 11 Fig. 3 - Fases do clustering 16 Fig. 4 - Cluster curvilíneo cujos pontos estão aproximadamente equidistantes da origem 23 Fig. 5 - A e B são mais similares que B e C 27 Fig. 6 - Após alterações no contexto B e C são mais similares que do B e A 27 Fig. 7 - Similaridade conceptual entre pontos 28 Fig. 8 - Taxonomia de clustering 29 Fig. 9 - Segmentação Monothetic de clusters 30 Fig Pontos contidos em 3 clusters 31 Fig Dendograma obtido com o algoritmo de Ligação Mínima 31 Fig Ligação Mínima e Máxima em clusters 32 Fig Clustering de Ligação Mínima com duas classes ligadas por um padrão de ruído 33 Fig Clustering de Ligação Máxima com duas classes ligadas por um padrão de ruído 33 Fig Dois clusters concêntricos 33 Fig Sensibilidade do algoritmo k-means à partição inicial 37 Fig Utilização da árvore de atravessamento mínimo para clusters 40 Fig Clusters imprecisos 42 Fig Representação de Clusters por pontos 44 Fig Representação de clusters por classificação em árvore ou por declarações 45 conjuntivas Fig Compressão de dados por clustering 46 Fig Operação de corte 49 Fig Procura global em GAs 51 Pag 5

6 1- Introdução Agrupamento ou clustering consiste na criação de classes, subconjuntos de registos que representam valores mais próximos em certos atributos, produzindo um esquema de agrupamento que particiona o conjunto de dados em classes. Deve ser usado quando se pretende descobrir nos dados grupos semelhantes de registos que partilham propriedades comuns sem quaisquer pré-condições acerca do que se possa entender por similaridade operação não supervisionada. Os resultados da segmentação podem ser usados de duas formas: 1. para resumir o conteúdo de cada segmento da base de dados considerando apenas as características mais relevantes de cada cluster e não de todos os seus registos; 2. como preparação de dados para outros métodos de Data Mining, por exemplo produção de regras de classificação de cada um dos clusters descobertos. Os métodos de agrupamento ou Clustering são usados para construção de grupos de objectos com base nas semelhanças e diferenças entre os mesmos, de tal maneira que os grupos obtidos sejam os mais homogéneos e bem separados possíveis. Este trabalho tem por objectivo apresentar as principais etapas de formação de agrupamentos, distinguir os diferentes métodos de obtenção de clusters e descrever o funcionamento dos principais algoritmos e as suas características. Existe um número elevado de algoritmos de clustering desenvolvidos, dos quais os algoritmos de partição são os mais conhecidos. Explicar as diferentes formas de cálculo existentes entre estes diversos algoritmos exigiria grandes conhecimentos de estatística, descrições e explicações matemáticas complicadas que estão fora do âmbito deste trabalho. No entanto os requisitos básicos são claros e facilmente entendidos. Pag 6

7 Os clusters são tipicamente baseados à volta de centros ou de um valor médio. O modo como os centros são inicialmente definidos e ajustados depende muito do algoritmo utilizado. Um método consiste em começar com um conjunto aleatório de centros, que são depois ajustados, removidos ou adicionados à medida que a análise progride. Para identificar itens que pertencem a um cluster, deve ser usada alguma medida, por forma a que seja possível aferir a proximidade ou o distanciamento entre itens num cluster e entre itens de outros clusters. A semelhança ou diferença entre itens é tipicamente uma medida de distância entre elementos a partir do centro do cluster num espaço multi-dimensional (em que cada dimensão representa uma variável a ser comparada). 2- Enquadramento A análise de grandes volumes de dados, com o objectivo de descobrir automaticamente conhecimento, continua ainda ser um problema de difícil resolução e por isso ainda desperta o interesse de diversas áreas incluindo Estatística, Inteligência Artificial, Visualização de Dados, etc. O crescente interesse neste domínio, a multiplicidade de áreas envolvidas no tratamento deste problema e consequentemente a necessidade de divulgação do estado da arte entre as diferentes áreas, determinaram o surgimento de uma nova área de investigação, designada por Descoberta de Conhecimento em Bases de Dados (DCBD). Historicamente a noção de descoberta de relações úteis a partir de dados teve várias designações, incluindo Descoberta de Conhecimento em Bases de Dados, Data Mining, Extracção de Conhecimento, Descoberta de Informação, Arqueologia de Dados e Processamento de Relações entre Dados. O termo Descoberta de Conhecimento em Bases de Dados, ou simplesmente DCBD foi proposto pela comunidade académica em 1995 [Frawley et al., 1995] para designar todo o processo de exploração de conhecimento a partir de dados, identificando a aplicação de algoritmos particulares de Data Mining (DM) como apenas um passo em todo este complexo processo. Em termos comerciais foi Pag 7

8 adoptada a designação Data Mining para referir o processo completo e daí o termo ser tão conhecido [Connor, 1996] [Greenfel, 1996]. Segundo Frawley, [Frawley et tal,. 1995] Descoberta de Conhecimento em Bases de Dados é o processo não trivial de identificação de relações válidas, novas, compreensíveis e potencialmente úteis nos dados. O termo Descoberta de Conhecimento em Bases de Dados, refere-se ao processo completo de descoberta de conhecimento útil a partir de dados. É um processo altamente interactivo que exige a participação humana em praticamente todas as suas fases, como ilustrado pela figura 1: selecção, limpeza, transformação e projecção de dados; exploração dos dados por aplicação de métodos ou algoritmos particulares de DM para extrair relações e modelos apropriados; avaliação e interpretação das relações extraídas de modo a decidir o que realmente constitui conhecimento; consolidação do novo conhecimento e resolução de conflitos que possam surgir com o conhecimento já existente; apresentação do novo conhecimento aos decisores. Fig. 1 Processo de Descoberta do Conhecimento Os algoritmos de DM são apenas um passo em todo este processo de descoberta de conhecimento, pois a aplicação destes algoritmos exige o préprocessamento de dados e a posterior interpretação das relações descobertas. A operação de DM consiste na aplicação iterativa de algoritmos para extrair Pag 8

9 relações a partir dos dados sem os passos adicionais que fazem parte do processo de DCBD, como a incorporação de conhecimento prévio apropriado e a adequada interpretação dos resultados. Estes passos adicionais são essenciais para assegurar a qualidade do conhecimento obtido dos dados, pois a aplicação não sustentada de algoritmos de DM pode conduzir à descoberta de relações inválidas e sem interpretação. Apesar da complexidade e morosidade que todo o processo de DCBD possa envolver, a maioria dos problemas que ocorrem quer ao nível científico, quer ao nível dos negócios ou a nível intelectual, podem ser descritos apenas segundo as seguintes operações: classificação, associação, sequenciação, clustering e análise de desvios. Estas operações, fazendo parte do processo de DCBD, são também caracterizadoras do mesmo, assim, as operações usadas no processo directo de DCBD (ou processo orientado) são designadas por operações supervisionadas, ao passo que as do processo indirecto (também designadas por processo não-orientado) são designadas por não-supervisionadas. O Clustering é uma das possíveis operações da fase de Data Mining pela qual os dados são agrupados. As variáveis usadas para clustering devem ter todas uma escala idêntica. Sem uma escala comum, a diferença de valor numa variável como por exemplo o salário, cujo valor por exemplo varia entre 0 e 10000, pode reduzir o efeito de outras variáveis cuja variação não é tão grande, como por exemplo a idade que varia normalmente entre 0 e 100. Por esta razão, previamente ao processo de clustering deve ser feita a normalização dos valores de todas as variáveis para uma escala comum, por exemplo entre 0 e 1. O clustering difere das restantes técnicas de Data Mining porque o seu objectivo é em geral menos preciso. Este problema pode ser minorado permitindo ao analista direccionar a segmentação, como por exemplo eliminando alguns atributos, ou aumentando o peso de um determinado atributo. Deste modo pode-se direccionar a vizinhança de procura do algoritmo para o objectivo em causa, diminuindo em geral o espaço de procura do algoritmo. A importância dos atributos, especialmente numéricos, pode ser estabelecida usando métodos estatísticos. Pag 9

10 As ferramentas comerciais de Data Mining usam variadíssimos algoritmos de clustering, mas os pontos seguintes são em geral comuns: A maioria dos algoritmos define automaticamente um número de clusters, podendo o utilizador também definir um número limite de clusters a criar; Uma ou mais medidas de distâncias podem ser usadas para calcular a similaridade ou diferença entre registos a mais comum é a medida Euclideana simples ou pesada; É possível associar pesos que reflectem a importância relativa das diferentes variáveis; É possível conduzir a tendência de um algoritmo em identificar mais ou menos clusters no conjunto de dados. Por exemplo se a um algoritmo é exigido uma forte similaridade entre os itens de um cluster, provavelmente este algoritmo encontrará mais clusters do que um outro ao qual isto não é exigido. 3- Análise de clusters Ao processo de agrupar em conjuntos objectos físicos ou abstractos, com as mesmas similaridades, chama-se clustering. Um cluster é um conjunto de objectos similares entre si dentro do mesmo cluster e dissimilares em relação a objectos noutros clusters. A análise de clusters ou o seu conceito, é um procedimento humano normal, muitas vezes usado de forma inconsciente. Muito cedo nas escolas, nos primeiros anos de educação as crianças aprendem a classificar e agrupar, por exemplo distinguir entre gatos e cães, entre animais e plantas, progredindo num refinamento de classificação que tem subjacente teorias de clustering. A análise de clusters tem sido usada em inúmeras aplicações, tais como reconhecimento de padrões na análise de dados, processamento de imagem e pesquisa de mercado, entre outras. Pag 10

11 Através do clustering podem ser identificadas distribuições, padrões e correlações entre os atributos dos dados, independentemente da densidade e distribuição destes. Assim a análise de clusters é o processo de partição de um conjunto de dados (ou objectos) em sub-classes mais pequenas (clusters) com características comuns, de tal maneira que os grupos obtidos são os mais homogéneos e bem separados possíveis. Fig. 2 Exemplo de clustering Um exemplo de clustering é mostrado na figura 2. Os padrões originais são mostrados na figura 2(a), e os agrupamentos (clusters) desejados são mostrados na figura 2(b). Aos pontos pertencentes ao mesmo cluster é atribuída a mesma identificação. A variedade de técnicas usada na representação de dados, medidas de proximidade (similaridade) entre elementos, (dados) e grupos de elementos produz frequentemente nos métodos de clustering ordenamentos confusos. É importante compreender a diferença entre classificação supervisionada e classificação não supervisionada (clustering). Na classificação supervisionada as classes e o seu número são definidos previamente, na classificação não supervisionada não é necessário um objectivo pré-definido, são os próprios algoritmos que inferem relações a partir dos dados. Pag 11

12 Neste caso o problema coloca-se quando são encontrados dados que não se identificam com nenhum dos padrões existentes. Tipicamente os padrões já identificados (de treino) são usados para construir a descrição do novo padrão ao qual serão atribuídos os dados. No caso do clustering o problema é agrupar uma dada colecção de dados não identificados em clusters com padrões que façam sentido. O clustering é útil em qualquer área onde seja necessário a exploração e classificação de dados. No entanto em muitos destes problemas existe normalmente, alguma informação prévia (modelos estatísticos tratamentos prévios, conhecimento adquirido ou outros) disponíveis acerca dos dados, e o utilizador deve fazer opções, levando em conta o necessário domínio da área de conhecimento para melhor orientar a exploração classificação e tratamento destes. A metodologia de clustering é particularmente apropriada na exploração de relacionamentos entre os dados e as estruturas que lhes podem estar subjacentes. 4- Aplicações Típicas de Clustering No comércio o clustering pode ajudar a descobrir grupos distintos de clientes e caracterizar estes grupos com base no seu padrão de compras. Em biologia pode ser usado para agrupar plantas, ajudar a identificar toxinas, classificar genes pela similaridade das suas funções, classificar e agrupar problemas de saúde pública ou doenças hereditárias. O cluster pode também ser uma ajuda na identificação das áreas de terrenos com usos similares, por observação de imagem de satélite. Pode ainda ser usado para ajudar a classificar informação e documentos descobertos na Web. Como uma função de Data Mining o clustering pode ser usado como ferramenta para obter ganhos na distribuição de dados, na observação de características de cada cluster e evidenciar um conjunto particular de clusters para melhor análise. Em alternativa pode servir como um passo no processamento para outros algoritmos, do tipo caracterização e classificação, os quais podem operar com Pag 12

13 os clusters detectados. O clustering de dados encontra-se aplicado em muitas situações, contribuindo para áreas de investigação, como sejam Data Mining, Estatística, Aprendizagem Máquina, Biologia, Tecnologias de Bases de Dados Espaciais, Prospecção de Mercado, e muitos outras. Possibilitando de forma vantajosa o tratamento de grandes volumes de dados, a análise de clusters tem-se tornado, recentemente uma das actividades de topo na investigação em Data Mining. Como um ramo da Estatística, a análise de clusters tem sido estudada ao longo dos anos de forma intensiva, tendo como objecto principal a distância-base na análise de clusters. As ferramentas de análise de clusters baseadas em algoritmos do tipo K-means, k-medoids, e outros métodos tem sido usados em software de análise estatística do tipo S-plus, SPSS e outros. As amostras de dados são normalmente pequenas e constituídas essencialmente por dados numéricos. Em aprendizagem máquina o clustering é um exemplo de aprendizagem não supervisionada, o que quer dizer que não existem classificações predefinidas ou classes de exemplos de treino pré-estabelecidos. Por esta razão o clustering tem uma forma de aprender por observação, em vez de aprender por exemplos. Em Data Mining o esforço principal foi centrado na busca de métodos eficientes de análise de clusters para grandes bases de dados, tendo em conta a escalabilidade e a criação de métodos de clustering para formas e tipos de dados complexos ou ainda métodos de clustering mistos (dados numéricos e categóricos), representando por isso uma evolução relativamente aos métodos Estatísticos. Em seguida são apresentados os requisitos necessários dos métodos de clustering, a serem aplicáveis em Bases de Dados reais. 5- Requisitos para o clustering em Data Mining 5.1- Escalabilidade Muitos algoritmos de clustering trabalham bem em pequenos conjuntos de dados com quantidades de objectos próximas de 200. No entanto, grandes bases de dados podem conter milhões de objectos. Nestes casos o clustering Pag 13

14 sobre uma amostra pode conduzir a resultados parciais não aplicáveis à totalidade dos dados. Logo um bom algoritmo de clustering deve ser escalável para atender à dimensão dos dados a tratar Habilidade para lidar com diferentes tipos de atributos Muitos algoritmos são desenhados para criação de clusters com base em intervalos de valores (numéricos). No entanto, pode ser necessário a criação de clusters para outros tipos de dados, tipo binários, categóricos (nominais), ordinais ou mistura de todos estes tipos Descobrir clusters de forma arbitrária Muitos algoritmos de clustering determinam os clusters com base em medidas de distâncias tipo Euclideana ou Manhattan. Os algoritmos baseados nestas medidas de distâncias tendem a encontrar clusters esféricos com dimensões e densidades similares. É importante que um algoritmo de clustering detecte clusters de forma arbitrária Requisitos mínimos do domínio do conhecimento que determinam os parâmetros de input Muitos algoritmos de clustering requerem do utilizador certos parâmetros (como por ex. o número de clusters, distância base). Os resultados do clustering são obviamente sensíveis a estes inputs. Estes parâmetros são por vezes difíceis de determinar, especialmente em grandes conjuntos de dados. Isto não só responsabiliza o utilizador pelos resultados como dificulta e limita a liberdade de optimização do algoritmo, restringindo a sua qualidade. Por este motivo é importante que o utilizador tenha algum conhecimento da área dos dados a tratar Habilidade para lidar com ruído nos dados A maioria das bases de dados do mundo real contem dados em falta desconhecidos ou errados. Alguns algoritmos de clustering são sensíveis a este tipo de dados e podem levar à criação de clusters de mais pobre qualidade. Pag 14

15 5.6- Insensibilidade à ordem dos registos de entrada Alguns algoritmos são sensíveis à ordem dos registos de entrada. Por exemplo, o mesmo conjunto de dados, quando presente a um algoritmo com diferentes ordenações pode gerar clusters completamente diferentes. É importante que um algoritmo de clustering seja insensível à ordem de entrada dos dados Dimensionalidades elevadas As bases de dados ou Data Wharehouse podem conter muitos atributos e representar várias dimensões dos dados. Muitos algoritmos de clustering são bons a lidar com baixas dimensões de dados, envolvendo apenas duas ou três dimensões. É um desafio a criação de clusters num espaço multidimensional, especialmente considerando que estes dados podem estar muito dispersos Clustering com restrições As aplicações do mundo real podem necessitar da criação de clusters obrigados a vários tipos de restrições. Por exemplo num dado trabalho, é necessário criar clusters com base na localização de caixas automáticas de pagamento (multi-banco) numa cidade. Na criação destes clusters é necessário levar em consideração as possíveis restrições existentes numa cidade, como sejam vias rápidas, rios, pontes, ou outros. O desafio desta tarefa é encontrar grupos de dados que conduzam a bons clusters respeitando as restrições impostas Interpretabilidade e usabilidade Os utilizadores esperam que os resultados de clustering sejam interpretáveis, compreensíveis e utilizáveis. Isto é, os clusters necessitam ser descritos de forma não ambígua demonstrando uma aplicação específica e objectiva. É importante estudar como o objectivo de uma aplicação pode influenciar a selecção do método de clustering. Pag 15

16 6- Fases de um processo de clustering Tipicamente a actividade de agrupamento de padrões envolve os seguintes passos: 1. Representação de padrões (opcionalmente inclui extracção de características e/ou selecção); 2. Definição de uma unidade de medida de proximidade de padrões apropriado ao contexto dos dados; 3. Clustering ou agrupamento; 4. Abstracção de dados (se necessário); 5. Avaliação de outputs. Padrões Selecção/extracção de características Representação Padrões Similaridade entre padrões Agrupamento Clusters Ciclo de retorno Fig. 3 - Fases do clustering A figura 3 mostra a sequência típica dos primeiros desses três passos. A informação de agrupamentos usada no processo, pode afectar a extracção das similaridades calculadas Representação de padrões Refere-se ao número de classes/padrões disponíveis e ao tipo de escala de características a considerar no algoritmo de clustering. Pode incluir extracção de características que consiste na obtenção de padrões e uso de uma ou mais transformações dos dados de input para definição de uma característica mais evidente Unidades de medida É normalmente definida por uma função que avalia a distância entre padrões. O tipo de medições de distância a usar deve considerar a área e o contexto de análise. Por exemplo pode ser usada uma medida simples, tipo distância Pag 16

17 Euclideana ou uma medida mais elaborada para reflectir similaridades entre padrões Agrupamentos Este passo pode ser chamado de várias maneiras. A criação de clusters pode ser difícil (pela própria partição dos dados em grupos) ou impreciso (onde cada padrão tem uma variedade de graus possíveis de agrupamento). Os algoritmos de clustering hierárquicos, por exemplo produzem uma série de partições com medidas de proximidades pelas quais se pode criar a junção ou divisão de clusters considerando a sua similaridade. Os algoritmos de segmentação de clusters identificam a partição que optimiza o critério de criação de clusters. Técnicas adicionais para as operações de agrupamento podem incluir métodos estatísticos e de teoria dos grafos, entre outros, na criação de clusters Abstracção de dados É um processo de extracção de uma representação compacta e simples de um conjunto de dados. Onde a simplicidade é maior na perspectiva da análise automática (por forma que a máquina possa ter um processamento mais eficiente) ou orientada ao humano (para que a representação obtida seja intuitivamente mais apelativa e de mais fácil compreensão). Num contexto de clustering, uma abstracção típica de dados é o centróide como uma descrição mais compacta de cada cluster Avaliação de outputs Ao contrário da classificação, os modelos de clustering não fornecem parâmetros de avaliação de resultados e daí que seja necessário aplicar índices de avaliação que permitam validar os clusters. Tipicamente esses índices avaliam o quão similares são os objectos dentro de um cluster e o quão afastados estão os clusters. Pag 17

18 7- Classificação dos principais métodos de clustering Existe um largo número de algoritmos de clustering descritos na literatura existente. A escolha do algoritmo mais apropriado para um dado tratamento depende essencialmente do tipo de dados disponíveis e do propósito particular da aplicação. Se a análise de clusters é usada como uma ferramenta de exploração descritiva, é possível testar vários algoritmos com os mesmos dados e com este tratamento descobrir qual o que levaria a melhores resultados. De uma forma geral os métodos de clustering podem ser classificados nas seguintes categorias: 7.1- Métodos de partição Dada uma base de dados de n objectos ou tuplos de dados, o método de partição constrói k partições de dados sendo k n, onde cada partição representa um cluster. Isto é, os dados são classificados em k grupos, que satisfazem os seguintes requisitos: 1. cada grupo deve conter pelo menos um objecto; 2. cada objecto deve pertencer a apenas um grupo. Este segundo requisito pode ser relaxado nalgumas técnicas de partição do tipo impreciso (fuzzy). Dado k, o número de partições a construir, o método de partição constrói as partições iniciais, e de seguida é usada uma técnica de recolocação iterativa que tenta melhorar a partição movendo os objectos de um grupo para outro. O critério geral para uma boa partição é que os objectos no mesmo cluster sejam próximos ou semelhantes, enquanto os objectos de diferentes clusters sejam afastados ou muito diferentes. Existem vários tipos de critérios para avaliar a qualidade das partições. Para atingir um óptimo global no método de clustering de partição óptima global é requerida uma enumeração exaustiva de todas as possibilidades de partição. Ao contrário de maioria das aplicações esta, adopta um de dois métodos heurísticos: Pag 18

19 1. o algoritmo k-means, onde cada cluster é representado pelo pior valor dos objectos nesse cluster; 2. o algoritmo k-medoids, onde cada cluster é representado por um dos objectos mais próximos do centro do cluster. Estas heurísticas funcionam bem em bases de dados pequenas ou médias, na procura de clusters de forma esférica. Para encontrar clusters com formas mais complexas ou fazer clustering em grandes conjuntos de dados com base nos métodos de partição é necessário que estes métodos sejam estendidos, isto é preparados para este tipo de tratamento Métodos hierárquicos Os métodos hierárquicos criam uma decomposição hierárquica de um dado conjunto de objectos. Um método hierárquico pode ser caracterizado pela forma como inicia a decomposição hierárquica, de forma aglomerativa ou divisiva. A aproximação aglomerativa, também chamada bottom-up, inicia com cada objecto formando um grupo separado. Sucessivamente vai juntando objectos ou grupos até que todos os grupos estão fundidos num só grupo (o nível mais elevado da hierarquia), ou até se atingir uma dada condição de paragem. A aproximação divisiva também chamada top-down, inicia com todos os objectos no mesmo cluster. Em cada iteração sucessiva um cluster é dividido em clusters mais pequenos, até que eventualmente só existe um objecto por cluster ou até que uma dada condição de paragem seja atingida. Os métodos hierárquicos sofrem do facto de uma vez dado um passo (divisão ou junção), este não poder ser desfeito. Esta rigidez é útil pelo seu baixo custo de calculo, não tendo a preocupação do número combinatório de diferentes opções. No entanto, o maior problema desta técnica é que não permite corrigir decisões erradas. Existem duas aproximações para melhorar a qualidade do clustering hierárquico: 1. ter um cuidado extra na análise de ligações de cada partição hierárquica; Pag 19

20 2. inicialmente usar o algoritmo de hierarquia aglomerativa e depois refinar o resultado com recurso à recolocação iterativa Métodos com base na densidade A maioria dos métodos de partição de clusters baseia-se na distância entre objectos. Tais métodos conseguem apenas encontrar com eficiência clusters de forma esférica, tendo muita dificuldade em faze-lo para clusters de forma arbitrária. Outros métodos de clustering têm sido desenvolvidos com base na notação de densidade. A ideia principal é continuar o crescimento de um dado cluster na medida em que a densidade (número de objectos) na sua vizinhança tenha uma proximidade determinada. Isto é, para cada ponto do cluster se na sua vizinhança a um determinado raio existe algum ponto não pertencente ao cluster, este deve ser integrado neste. Este método permite criar clusters de forma arbitrária com regiões densas separadas entre si por dados dispersos, que neste método são chamados de dados ruído. O algoritmo DBSCAN (Density-Based Spatial Clustering of Aplication with Noise) [Ester 1996], é um método típico com base na densidade em que os clusters crescem de acordo com um dado limiar de densidade. De igual forma o algoritmo OPTICS (Ordering Points to Identify the Clustering Structure) [Ankerst 1999], é um método típico com base na densidade que calcula o aumento da ordem de clusters de forma automática por análise interactiva de clusters Métodos baseados em grelha Os métodos baseados em grelha quantificam o espaço dos objectos num número finito de células que formam uma estrutura em grelha. Todas as operações de clustering são desenvolvidas sobre esta estrutura (i.e. no espaço quantificado). A principal vantagem desta aproximação é um mais rápido tempo de processamento, que tipicamente é independente do número de dados, dependendo apenas do número de células, da sua dimensão e do espaço quantificado. Pag 20

21 7.5- Métodos baseados em modelos O método baseado em modelos cria um modelo para cada cluster e encontra o melhor preenchimento dos dados para esse modelo. O algoritmo cria clusters construindo uma função densidade que possa reflectir a distribuição espacial dos dados. Este método determina também de uma forma automática o número de clusters com base em métodos estatísticos e considera ainda o ruído e/ou dados dispersos na construção robusta de clusters. 8- Selecção do algoritmo de clustering A disponibilidade de um vasto conjunto de algoritmos de clustering existentes, pode facilmente confundir o utilizador na selecção de qual o mais apropriado para o problema que este tenha em mãos. O critério de escolha deve ter por base: 1. A forma como os clusters são formados; 2. A estrutura dos dados; 3. Sensibilidade na utilização das técnicas de clustering para alterações que não afectem a estrutura dos dados. Não existe no entanto, uma análise crítica dos algoritmos de clustering que lidem com questões importantes, do tipo: - Como devem ser normalizados os dados? - Quais as medidas de similaridade apropriadas que devem ser usadas em dada situação? - Como deve ser usado o conhecimento do domínio num problema particular de clustering? - Qual a eficiência de uma classificação de clusters com uma grande quantidade de conjuntos (na ordem dos milhões de registos)? Estas questões têm motivado a investigação nesta área e o seu estudo reflecte o estado da arte nos algoritmos e nas metodologias de clustering. Com esta perspectiva um utilizador informado deve ser capaz de aceder a níveis de Pag 21

22 técnicas diferentes, e em última análise, ter uma decisão competente em qual técnica ou parte da técnica a empregar numa dada aplicação. Não existem técnicas de clustering que sejam universalmente aplicáveis a estruturas de dados. Por exemplo, considerando o conjunto de dados mostrados na figura 2(a), nem todas as técnicas de clustering podem descobrir de igual forma, todos os clusters aí presentes com igual facilidade. Isto deve-se ao facto dos algoritmos de clustering frequentemente conterem suposições sobre a forma ou configuração dos clusters com base nos critérios de similaridade ou em critérios de agregação. O ser humano pode, de uma forma interactiva, fazer clustering em domínios a duas dimensões, no entanto os problemas do mundo real, normalmente envolvem mais dimensões. Adicionalmente os dados dificilmente seguem uma estrutura ideal ( esférica, linear, etc.) como no exemplo da figura 2. Isto explica o largo número de algoritmos de clustering que existem nesta área de investigação, em que cada um pela sua especificidade tem um melhor ou pior desempenho conforme a distribuição específica de padrões e o tipo de dados. É importante, na utilização de algoritmos de clustering, conhecer com algum detalhe o processo de recolha dos dados assim como ter algum conhecimento da área a que se referem os dados e ainda testar com vários algoritmos, quais os melhores resultados. Quanto maior for a informação que o utilizador tem acerca dos dados maior é a probabilidade de obter melhores agrupamentos com base nas suas opções. O domínio desta informação pode também ser usado para melhorar a qualidade das características de similaridade, agrupamentos e representação de clusters. 9- Representação de padrões, selecção e extracção de características Não existem teorias ou directivas que possam sugerir qual o padrão de características apropriado a usar numa situação específica. Na verdade o processo de geração de padrões não é controlado directamente. Pag 22

23 O papel do utilizador no processo de geração de padrões é recolher factos e conjecturas sobre os dados, e opcionalmente usar esta informação, para de alguma forma condicionar com as suas opções o algoritmo de clustering a usar. Devido à dificuldade de contornar a representação de padrões, é convencionalmente assumido que esta está disponível previamente. No entanto uma investigação cuidada das características e uma qualquer transformação possível (ainda que simples) pode deter melhoramentos significativos nos resultados de clustering. Uma boa representação de padrões pode criar uma mais fácil e simples compreensão do resultado de clustering, assim como uma pobre representação de padrões com uma estrutura difícil ou mesmo impossível de compreender, pode impossibilitar a criação de clusters. Fig. 4 - Cluster curvilíneo cujos pontos estão aproximadamente equidistantes da origem A figura 4 mostra um exemplo simples onde os pontos apresentam um cluster com o formato curvilíneo. Dependendo do algoritmo usado os dados representados na figura 4 podem ser classificados num ou mais clusters. O que à vista humana pode parecer óbvio, como poderia ser lógico classificar os dados num só cluster, para um algoritmo, poderá não ser tão evidente. Um padrão pode representar um objecto físico (por ex. uma cadeira) ou abstracto (por ex. um estilo de escrita). Os padrões são representados convencionalmente como vectores multidimensionais, onde cada dimensão é uma característica. Estas características podem ser, quer quantitativas quer qualitativas. Por exemplo, se altura e cor são duas características usadas, Pag 23

24 então (20,preto) poderia ser a representação de um objecto preto com 20 unidades de altura. As características podem ser subdividas nos seguintes tipos: 1. Características quantitativas a. Valores contínuos (ex. altura); b. Valores discretos (ex. número de computadores); c. Valores inteiros (ex. a duração de um evento); 2. Características qualitativas a. Valores nominais (ex. cor); b. Valores ordinais (ex. nível, evolução qualitativa de temperatura ( frio ou quente ), intensidade de som ( alto ou baixo ) ). As características quantitativas podem ser medidas numa escala de relação (com um significado de valor referência, como por ex. temperatura) ou numa escala nominal ou ordinal. Podem ainda ser usadas estruturas de características, as quais são representadas em árvore em que os nós pai representam a generalização dos seus nós filhos. Por exemplo um nó pai veículo pode ser a generalização de nós filhos identificados como carro, autocarro, camião, e motociclo. O nó carro poderia ainda ser a generalização da marca de carro tipo Toyota, Ford, Fiat, etc. Às generalizações de representação de padrões podemos chamar objectos simbólicos. Estes são definidos por uma lógica de conjunção de eventos. Estes eventos ligam valores a características nos quais essas características podem assumir um ou mais valores e onde nem todos os objectos têm que estar definidos com o mesmo conjunto de características. É importante isolar as características mais descritivas e discriminatórias do conjunto de características a utilizar e usar estas exclusivamente na análise do correspondente subconjunto de dados. A técnica de selecção de características identifica um subconjunto destas a partir das existentes para uso subsequente, enquanto a técnica de extracção de características cria novas características a partir do conjunto das características originais dos dados. Pag 24

25 Neste caso o objectivo é melhorar o desempenho do clustering e/ou proporcionar um calculo mais eficiente. A selecção de características é um tópico bem explorado no reconhecimento de padrões. No entanto, num contexto de clusters (i.e. identificações de padrões), o processo de selecção de características tem a necessidade de ser ad hoc, (i.e. adaptação específica a cada caso). Este pode envolver um processo de verificação/erro onde vários subconjuntos de características são seleccionadas do resultado dos clusters de padrões, sendo o resultado função da validade de um índice. Em contraste, alguns dos processos de extracção de características, não dependem da identificação dos dados e podem ser usados directamente. Reduzindo o número de padrões obtemos um beneficio adicional, que é produzir outputs que um humano pode mais facilmente visualizar, inspeccionar e interpretar. 10- Medidas de similaridade Sendo a similaridade fundamental para a definição de clusters, a medida de similaridade entre dois padrões do mesmo espaço de características é essencial para os procedimentos de clustering. Devido à variedade de tipo de características e escalas, a distância (ou medida) deve ser escolhida criteriosamente. O mais comum é calcular a dissimilaridade entre dois padrões utilizando uma medida de distância definida no espaço de características. A métrica mais conhecida para características contínuas é a distância Euclideana d ( xi, x j ) = ou a distância Euclideana pesada d n r= 1 ( ( ) ( ) 2 f x f x k ( xi, j j ) = wm d m ( xi, x j ) m= 1 que permite definir graus de importância dos atributos. r i r j 2 Pag 25

26 Estas são frequentemente usadas para avaliar a proximidade entre objectos num espaço bidimensional ou tridimensional, e funcionam bem para conjuntos de dados compactos ou clusters isolados. No entanto estas métricas apresentam uma tendência para que os atributos de maior escala dominem os restantes. A solução para este problema inclui a normalização das características contínuas (para uma escala ou variância comum) ou outro tipo de normalização pesada (ponderada). A correlação linear das características pode também desordenar a medida de distâncias. Esta distorção pode ser aliviada utilizando uma transformação pesada dos dados, usando o quadrado da distância de Mahalanobis 1 d ( x, x ) = ( x x ) S, M i j i j ( x x ) T onde x i e x j são vectores linha, e o S a matriz de covariância dos padrões ou a matriz de covariância conhecida do processo de geração de padrões ou ainda atribuindo diferentes pesos a diferentes características com base na variância e correlação linear de cada par de atributos. Alguns algoritmos de clustering trabalham uma matriz de valores de proximidade em detrimento do conjunto de padrões original. É útil nestas situações calcular previamente todos os n ( n 1) / 2 valores de pares de distância para n padrões e ordena-los numa matriz (simétrica). O cálculo das distâncias entre padrões com algumas ou todas as características contínuas é problemática, uma vez que diferentes tipos de características não são comparáveis e (em casos extremos) a noção de proximidade converte-se na representação binária das características para uma escala nominal. No entanto alguns algoritmos, especialmente aqueles de aprendizagem máquina, (onde padrões mistos são comuns) desenvolveram medidas de proximidade para tipos de padrões heterogéneos. Os padrões podem também ser representados utilizando strings ou estruturas em árvore. Uma comparação entre uma aproximação sintáctica e estatística ao reconhecimento de padrões, usando vários critérios pode ser feita, mas normalmente as conclusões dos métodos sintácticos é inferior em todos os aspectos. i j Pag 26

27 Existem algumas medidas de distância reportadas na literatura que levam em conta o efeito da envolvente (pontos na vizinhança). Esta envolvência designada por contexto é a similaridade entre dois pontos x i e x j que é dada por s( xi, x j ) = f ( x, x, E) onde E é o contexto (conjunto de pontos envolventes). Uma definição, usando o contexto é MND (Mutual Neighbor Distance) que é dada por MND x, x ) = NN( x, x ) + NN( x, x ) onde NN x i, x ) é o numero de vizinhos ( i j i j j i ( j x j com respeito a x i (NN Nearst Neighbor). Nas figuras 5 e 6 é dado um exemplo. Na figura 5 o vizinho mais próximo de A é B e o vizinho mais próximo de B é A. Fig. 5 - A e B são mais similares que B e C Fig. 6 - Após alterações no contexto B e C são mais similares que do B e A Assim ( A, B) = NN( B, A) = 1 NN e o ( A, B) = 2 MND. No entanto NN ( B, C) = 1 e NN ( C, B) = 2 logo MND ( B, C) = 3. A figura 6 é obtida da figura 5 por adição de três novos pontos D, E, F. Agora MND ( B, C) = 3 (como antes) mas como A deixou de ser o ponto mais próximo NN logo MND ( A, B) = 5. A MND entre A e B é alterada pela de B, o ( A, B) = 2 introdução adicional de pontos apesar de A e B não se terem movido. Em virtude disto a MND tem sido aplicada com sucesso em vários algoritmos de clustering. Esta observação suporta pontos de vista que defendem que a dissimilaridade não precisa de ser métrica. Isto permite que seja possível fazer que com que quaisquer dois padrões arbitrários sejam simultaneamente iguais codificando-os com um número suficientemente largo de características. Pag 27

28 Uma consequência disto é que dois padrões arbitrários são de similaridade igual a menos que se adicione informação de domínio. Por exemplo no clustering conceptual a similaridade entre x i e x j é definida por s( xi, x j ) = f ( xi, x j, C, E) onde E é o conjunto de conceitos pré-definidos. Esta notação é ilustrada com a ajuda da figura 7. Aqui a distância Euclideana entre os pontos A e B é menor que entre B e C. Fig. 7 - Similaridade conceptual entre pontos No entanto B e C podem ser vistos como mais similares que A e B porque B e C pertencem ao mesmo conceito (elipse) e A pertence a um conceito diferente (rectângulo). O conceito de medida de similaridade medido é a mais geral medida de similaridade. No cluster conceptual um grupo de objectos forma apenas uma classe que é possível descrever por um conceito. Isto difere do cluster convencional, o qual mede similaridades com base na distância geométrica. O cluster conceptual é composto por dois componentes principais: 1. descoberta de classes apropriadas; 2. formação de descrição para cada classe. O desafio principal consiste em encontrar entre as similaridades mais elevadas ou mais vastas que interligam a globalidade dos dados, similaridades mais específicas que possam dar consistência à formação de clusters. Pag 28

29 11- Classificação dos algoritmos de Clustering Diferentes aproximações à operação de clustering de dados pode ser observada com ajuda da hierarquia mostrada na figura 8. Clustering Baseado em modelos Hierárquico Partição Redes Kohonen Teorema de Bayes Ligações simples Ligações completas Erro quadrado Teoria gráfica Solução mista Modo de busca k-means Expectativa maximização Fig. 8 - Taxonomia de clustering A nível mais elevado, há uma distinção entre a aproximação por hierarquia, partição (o método hierárquico produz uma série de segmentações, enquanto o método de partição só produz uma), ou baseada em modelos. A taxonomia mostrada na figura 8 deve ser complementada com uma discussão dos assuntos relacionados que podem (em princípio) afectar as diferentes aproximações que passam ser feitas tendo em vista o ponto de partida nessa taxonomia Aglomerativa vs. Divisiva Este aspecto está relacionado com a estrutura do algoritmo e a sua forma de operar. Na forma aglomerativa começa-se com cada padrão dentro um cluster distinto, e sucessivamente são juntos outros clusters até que um critério de paragem seja satisfeito. O método divisivo começa com todos os padrões num único cluster e executa divisões sucessivas até que um critério de paragem seja satisfeito. Pag 29

30 11.2 Monothetic. vs. Polythetic Este aspecto relaciona o uso sequencial ou simultâneo de características no processo de clustering. A maioria dos algoritmos é polythetic, quer isto dizer, que todas as características entram no calculo das distâncias entre padrões, e as decisões são baseadas nessas distâncias. No monothetic são consideradas características consecutivas para dividir determinada colecção de padrões. Isto é ilustrado na figura 9. Fig. 9 - Segmentação Monothetic de clusters Aqui, a colecção inicial é dividida em dois grupos que usa a característica x 1 na divisão vertical (linha v). Cada um destes clusters é adicionalmente dividido independentemente, usando a característica x 2, como observado pelas linhas divisórias H 1 e H 2. O problema principal com este algoritmo é que gera 2 d clusters onde d é a dimensão dos padrões (nº de características). Para valores grandes de d (d>100), o número de clusters gerado por este algoritmo é tão grande que o conjunto de dados em cada um perde o interesse por ser tão pequeno Rígido (Hard) vs impreciso (Fuzzy) No algoritmo de clustering rígido cada padrão é atribuído a um único cluster durante a sua operação e no seu output. No clustering impreciso o método atribui graus ou níveis, nos vários agrupamentos para cada padrão atribuído. Um Cluster impreciso pode ser convertido num cluster rígido atribuindo a cada cluster os padrões com o maior valor de pertença a um dado cluster. Pag 30

31 11.4- Incremental vs. não incremental Este assunto surge quando o conjunto de padrões a ser agrupado é grande, e existem constrangimentos em tempo de execução com espaço em memória que afecta o desempenho do algoritmo. A história recente da metodologia de clusters não contém muitos exemplos de algoritmos de clustering projectados para trabalhar com uma grande quantidade de dados, mas o advento do Data Mining potenciou o desenvolvimento de algoritmos de clustering que minimizam o número de passagens pela faixa de padrões, reduzindo não só o número de padrões examinado durante a execução como o tamanho das estruturas de dados usadas nas operações do algoritmo. 12- Algoritmos de Clustering hierárquicos O funcionamento de um algoritmo de clustering hierárquico é ilustrado na figura 10, usando um conjunto de dados bidimensionais. Esta figura descreve sete padrões etiquetados de A a G em três clusters. O algoritmo hierárquico contem um diagrama que representa os clusters com agrupamento de padrões, níveis de semelhança (proximidade). Um dendograma correspondendo aos sete pontos da figura 10 é mostrado na figura 11. Este pode ser segmentado a níveis diferentes o que corresponde a diferentes clusters dos dados. S i m i l a r i d a d e Fig Pontos contidos em 3 clusters Fig Dendograma obtido com o algoritmo de Ligação Mínima Pag 31

32 Existem variadíssimos algoritmos hierárquicos de clustering, variantes dos algoritmos Ligação Mínima [Sneath e Sokal 1973], Ligação Máxima, e Mínimo de Discrepância [Murtagh 1984]. Destes, o de Ligação Mínima e Ligação Máxima são os mais populares. Estes dois algoritmos diferem no modo como caracterizam a semelhança entre um par de clusters. Fig Ligação Mínima e Máxima em clusters Na Ligação Mínima o método usado é o mínimo das distâncias entre todos os pares de padrões dos dois clusters. No algoritmo de Ligação Máxima, a distância entre dois agrupamentos é o máximo de todos os pares de distância entre padrões nos dois agrupamentos como mostra a figura 12. Em qualquer dos casos, os dois agrupamentos são fundidos para formar um cluster maior com base no critério da distância mínima. O algoritmo de Ligação Máxima produz clusters fortemente limitados, em contraste o algoritmo de Ligação Mínima, sofre de um efeito de encadeamento, isto é, tem tendência a produzir clusters compridos. Pag 32

33 Fig Clustering de Ligação Mínima com duas classes ligadas por um padrão de ruído (*) Fig Clustering de Ligação Máxima com duas classes ligadas por um padrão de ruído (*) Nas figuras 13 e 14 existem dois clusters separados por uma ponte de ruído nos padrões. O algoritmo de Ligação Mínima produz os clusters mostrados na figura 13, enquanto que o algoritmo de Ligação Máxima obtém os clusters mostrados na figura 14. Os clusters obtidos pelo algoritmo de ligação máxima são mais compactos que os obtidos pelo algoritmo de Ligação Mínima. O cluster identificado com 1 foi obtido usando o algoritmo de Ligação Mínima e é alongado devido ao ruído identificado nos padrões com *. O algoritmo de Ligação Mínima é mais versátil que o algoritmo de Ligação Máxima, por exemplo, o algoritmo de Ligação Mínima pode detectar clusters concêntricos como os mostrados na figura 15, o que o algoritmo de Ligação Máxima não consegue. Fig Dois clusters concêntricos Pag 33

Exibir mais