Mineração de Dados. Modelos Descritivos. Descoberta de agrupamentos

Mineração de Dados Descoberta de agrupamentos Modelos Descritivos tarefa de geração de um modelo descritivo consiste (em grande parte) em analisar os dados do domínio (entradas) e sugerir uma partição do domínio, de acordo com similaridades observadas nos dados. Entradas Modelo Determinação de uma configuração de centróides de agrupamentos dos dados Modelo de agrupamento dos dados Dados para agrupamento de subespécies da planta Iris Dados da planta Iris Conjunto de medidas c_sepala l_sepala c_petala l_petala 5, 3,8,5,3 largura-sepala largura-petala 5,4 3,4,7, 7, 3, 4,7,4 6,4 3, 4,5,5 uma amostra do domínio 7,3 6,7,9,5 6,3 5,8,8,8 comprimento-sepala largura-sepala comprimento-petala largura-petala Modelo Rótulo de classe natural comprimento-sepala comprimento-petala 3 4

Modelo de agrupamento para os dados da planta Iris Classes de interesse versus classes naturais largura-sepala setosa versicolor virginica Classes de interesse 3 agrupamentos classes naturais largura-petala setosa versicolor virginica valiação de modelos descritivos Questão fundamental: quantos grupos representam mais adequadamente os dados? Usualmente, adotam-se métricas estatísticas de qualidade da configuração de agrupamento: média de distâncias intra-grupo e de distâncias inter-grupos. avaliação da qualidade de um modelo descritivo normalmente é problemática se não dispusermos de informação extra (conhecimento de perícia). busca informada pela melhor configuração é muito mais eficiente. comprimento-sepala comprimento-petala 5 6 Introdução descoberta de agrupamentos é uma tarefa descritiva que procura agrupar dados utilizando a similaridade dos valores de seus atributos como fator de decisão quanto a sua pertinência num entre vários agrupamentos possíveis. Este processo utiliza técnicas de aprendizagem não supervisionada, pois a similaridade entre os atributos é uma característica intrínseca dos dados, não necessitando de um arquivo de treinamento com classes pré-definidas. Introdução Em geral, a identificação dos agrupamentos intrínsecos dos dados permite a descrição de cada agrupamento através de um padrão protótipo. O processo normalmente é iterativo e interativo, necessitando que o usuário modifique parâmetros e reapresente os dados até encontrar uma configuração satisfatória de agrupamentos. ênfase nesta tarefa é a descrição dos dados e não a previsão de como um novo caso será classificado. 7 8

grupamento de conceitos plicações típicas de agrupamentos O agrupamento de conceitos é uma tarefa onde o sistema de aprendizagem aceita um conjunto de descrições de objetos (eventos, observações, fatos) e produz um esquema de classificação sobre as observações. O sistema não requer um professor para pré-classificar os objetos; ele usa uma função de avaliação para descobrir classes com boas descrições conceituais. grupamento de conceitos é um tipo de aprendizagem por observação, se opondo ao aprendizado por exemplos. É uma forma importante de sumarizar os dados de uma maneira interpretável. Em negócios, podem ajudar comerciantes a descobrir grupos distintos em suas bases de clientes e caracterizar grupos baseados em padrões de compras. maioria das ferramentas de agrupamento trabalha em razão de um número pré-definido de grupos especificado por um usuário. Classificação de documentos na Web para a descoberta de informação Como uma função de MD, para se ter uma visão de distribuição de dados, para se observar as características de cada agrupamento e para focar em um conjunto particular de grupos para análise posterior. lternativamente, a clusterização pode servir como uma etapa de préprocessamento para outros algoritmos, tais como caracterização e classificação, que irão então operar sobre os agrupamentos detectados. Em biologia, podem ser usadas para derivar taxonomias de plantas e animais, categorizar genes com funcionalidades similares e ter uma visão dentro de estruturas inerentes em populações 9 Tipos de representação de agrupamentos Os grupos podem ser: (a) exclusivos, instâncias pertencem apenas a um grupo (b) sobrepostos, em que uma instância pode pertencer a diversos grupos (c) probabilísticos, caso em que uma instância pertence a cada grupo com alguma probabilidade (d) hierárquicos, é feita uma divisão a grosso modo de instâncias em grupos maiores, os quais são refinados, se decompondo em grupos menores. (a) (c) a k d g j h i e 3 a,4,,5 b,,8, c,3,3,4 d,,,8 e,4,,4 f,,4,5 g,7,, h,5,4, f c b (b) (d) g a d a k c i e j g h e i c f d k b j b f h Escolha da representação de agrupamentos escolha entre as possíveis representações de agrupamento depende da natureza dos mecanismos que determinam o fenômeno específico do agrupamento considerado. Como raramente estes mecanismos são conhecidos, até porque é o que queremos descobrir, por razões pragmáticas, a escolha é normalmente ditada pelas ferramentas computacionais disponíveis.

Método k-médias O método k-médias deriva o seu nome do fato de ele iniciar com um conjunto de k germes escolhidos como suposição inicial para os centróides, ou médias, dos agrupamentos. No algoritmo original (MacQueen 967), a inicialização dos centróides é feita tomando-se simplesmente os k primeiros vetores (registros) dos dados. Quando os dados possuem algum tipo de ordenação, pode-se escolher registros que estejam mais espaçados entre si. Cada um dos k vetores é um agrupamento embrionário com apenas um único elemento. No segundo passo do algoritmo, cada vetor de dado recebe o rótulo do agrupamento que estiver mais próximo. Isto é feito, medindo-se a distância entre o vetor e cada centróide dos agrupamentos. pós a rotulação de todos os dados, os centróides dos agrupamentos são atualizados, calculando-se cada um como a média de todos os vetores que pertencem ao agrupamento correspondente. atualização dos centróides é repetida até eles não se modificarem mais. 3 lgoritmo: Entrada: Saída: Método: lgoritmo k-médias k-médias, para particionamento baseado no valor médio dos objetos no agrupamento. O número de agrupamentos k e um banco de dados contendo n objetos. Um conjunto de k agrupamentos que minimizam o critério de erro-quadrático. () escolher arbitrariamente k objetos como os centros dos agrupamentos iniciais; () repetir (3) (re)designar cada objeto para o agrupamento ao qual o objeto é mais similar, baseado no valor médio dos objetos no agrupamento; (4) atualizar as média dos agrupamentos, i.e., calcular o valor médio dos objetos para cada agrupamento; (5) até que não haja mudanças; 4 Exemplo do método k-médias s figuras abaixo, representam a aplicação dos dois primeiros passos do algoritmo k-médias em um arquivo com dados com dois atributos contínuos, considerando-se um número de médias k = 3. pós o passo de rotulação, as médias são atualizadas considerando-se a nova configuração dos agrupamentos. pós as médias serem atualizadas, os rótulos são atualizados pela distância às novas médias. Inicialização das médias tribuição dos rótulos tualização das médias Nova atribuição de rótulos e atualização das médias 5 6

Medidas de similaridade pertinência de um registro num determinado agrupamento depende da medida de similaridade adotada entre os vetores. Na versão padrão deste método, a distância euclidiana é utilizada. representação geométrica do método k-médias mostra a sua adequação natural para lidar com atributos numéricos contínuos. Entretanto, existem diversos tipos de variáveis (numéricas em escalas diferentes e não numéricas) que podem ser utilizadas como atributo, e cada variável deve ser apropriadamente ajustada para que o método funcione bem. lém disso, no método k-médias todos os atributos têm a mesma importância. Entretanto, em algumas aplicações existe o conhecimento prévio de que alguns atributos são mais importantes que outros, e gostaríamos que o critério de similaridade levasse isso em conta. importância relativa dos atributos (bias) é fixada através de pesos. Por ser baseado em distância (euclidiana), o modelo dos agrupamentos é isotrópico gerando uma partição equivalente a um diagrama de Voronoi. No caso de atributos numéricos, em geral basta adotar-se um critério de escalamento das variáveis, para que a importância relativa entre elas seja preservada. Um exemplo aqui seriam as variáveis rendimento e área de moradia. Neste caso, a similaridade entre dois registros se dá pela distância entre os dois pontos correspondentes, no espaço normalizado de características. Na versão padrão deste método, a distância euclidiana é utilizada. Quando as proporções entre os valores dos atributos é mais importante que o seu valor absoluto, então uma medida de similaridade baseada em ângulos entre vetores é mais apropriada. peixe grande peixe pequeno pequeno grande 7 8 Partição induzida método k-médias Diagrama de Voronoi: poliedros convexos em torno dos centróides. Limitações do k-médias O método k-médias tem dificuldades quando os agrupamentos têm: Tamanhos diferentes Densidades diferentes Formas não esféricas Limitações do método: Em métodos baseados em distâncias a médias, as fronteiras de decisão não levam em conta as diferentes distribuições multivariadas. lém disso, diferenças entre densidades das distribuições deveriam afetar as posições das fronteiras de decisão. K-médias tem problemas para lidar com dados estranhos (outliers) 9

Tamanhos diferentes Densidades diferentes K-médias (3 Clusters) K-médias (3 grupos) Formas não esféricas Solução possível Grupos encontrados por K-médias K-médias ( grupos) Uma solução é usar muitos agrupamentos Encontra partes dos grupos, mas precisa colocá-los juntos. 3 4

Exemplo de solução Exemplo de solução Grupos encontrados por K-médias Grupos encontrados por K-médias 5 6 Distribuição normal multivariada Distribuição normal bivariada f ( x) = (π ) p T ( x µ ) e ( x µ ) Matriz de covariâncias de uma distribuição bivariada: σ = σ σ σ onde σ e σ são as variâncias marginais e σ é a covariância 7 8

Dados do problema Classificação desejada grupamento probabilístico (EM) lgoritmo k-médias lgoritmo G-K (multivariado) lgoritmo iterativo que considera uma mistura de modelos probabilísticos (desconhecidos) que descreve a distribuição dos grupos. Como o k-médias, ele começa com uma distribuição inicial (parâmetros dos modelos) para calcular as probabilidades de cada amostra pertencer a cada grupo, que são as expectativas. Num segundo passo, ele atualiza os parâmetros dos modelos probabilísticos: maximização da probabilidade das distribuições, considerando os dados. 9 3 5 43 B 6 45 4 46 45 45 Um modelo mistura de duas classes B 6 47 5 5 B 65 49 46 5 5 B 6 49 B 6 43 4 dados modelo 5 B 63 43 B 65 B 66 B 65 46 39 B 6 5 B 63 5 4 4 O algoritmo EM O algoritmo inicia com valores arbitrários dos parâmetros do modelo mistura (µ, σ, µ B, σ B, p ). p B é obtido indiretamente: p + p B =. partir desses parâmetros, calcula-se as probabilidades de cada amostra pertencer a cada uma das distribuições, pela regra de Bayes (expectation: valor esperado da classe): Pr [ x] Pr = [ x ] Pr[ ] f ( x; µ, = Pr[] x Pr[] x σ ) p onde f(x; µ, σ ) é a distribuição normal para o grupo : f ( x µ ) σ ( x;, ) = e µ σ πσ µ =5, σ =5, p =.6 µ B =65, σ B =, p B =.4 3 3

O algoritmo EM partir das probabilidades, são calculadas novas estimativas dos parâmetros dos grupos (maximization: maximização da probabilidades das distribuições para os dados): Mapa uto-organizável É uma rede neural com treinamento não-supervisionado, capaz de aprender a agrupar dados, produzindo uma representação numa dimensão reduzida, preservando (na medida do possível) a topologia do espaço de entrada. Pr µ = [ x ] x + Pr[ x ] x + L + Pr[ xn ] Pr[ x ] + Pr[ x ] + L + Pr[ x ] n x n Espaço de entrada contínuo w Espaço de saída discreto Pr σ = [ x ]( x µ ) + Pr[ x ]( x µ ) + L + Pr[ xn ]( xn µ ) Pr[ x ] + Pr[ x ] + L + Pr[ x ] n w 6 w Φ(x;w) 3 i(x) w 5 w 4 5 w 4 w 3 6 33 34 é pequeno é médio é grande tem patas tem 4 patas tem pelos tem cascos tem crina tem penas caça corre voa nada Entradas: nomes de animais e seus atributos couja fal cavalo 35 Visualização por rotulação Podemos visualizar um mapa de características rotulando cada neurônio pelo padrão de teste que excita este neurônio de maneira máxima (melhor estímulo). rotulação produz uma partição da grade de neurônios ( x ) evidenciando uma hierarquia de domínios aninhados. cavalo cavalo fal fal cavalo fal fal fal fal fal fal 36