7. Agrupaeto fuzzy (fuzzy clusterg) 7. Agrupaeto clássco Agrupaeto é a classfcação ão-supervsoada de padrões (observações, dados, objetos, eeplos) e grupos (clusters). Itutvaete, padrões seelhates deve estar o eso grupo e padrões dsttos deve estar e grupos dsttos. Agrupaeto é ua técca drgda por dados, sto é, ão se cohece prevaete a que grupo os dados pertece. Represetação dos padrões Padrões pode ser u objeto físco (cadera) ou u coceto abstrato (estlo de prograação). Algortos de agrupaeto são aplcados a padrões descrtos coo vetores ultdesoas, sedo que cada desão represeta u atrbuto do padrão. Cojuto de dados E coposto por N padrões: E {,,..., N } Padrão descrto por atrbutos: (,,..., ) Tpos de atrbutos Os atrbutos pode ser: Quattatvos Valores cotíuos (peso) Valores dscretos (úero de coputadores) Itervalos (duração de u eveto) Qualtatvos Noas ou desordeados (cor) Ordas (avalações qualtatvas de teperatura coo quete e fro) 3 Etapas do processo de agrupaeto Padrões Represetação dos objetos Clusters Clusters valdados Preparação Agrupaeto Valdação Prodade Iterpretação Medda de slardade Sgfcado dos clusters 4
Téccas de agrupaeto Preparação: oralzações, coversões de tpo, redução do úero de atrbutos. Prodade: defção (escolha) de ua edda de slardade adequada ao doío de aplcação, por e. dstâca. Agrupaeto: aplcação do algortos de agrupaeto Valdação: avalação do resultado do agrupaeto. Deve deterar se os clusters são sgfcatvos. Iterpretação: rotulação do cluster, defdo sua atureza, por eo da aálse de seus objetos. De fora geral as téccas de agrupaeto dvde-se e: Herárqucas Partcoas 5 6 Agrupaeto herárquco Eeplo Gera ua represetação e fora de árvore chaada dedograa que represeta grupos de padrões ahados e íves de slardade os quas os agrupaetos uda. F G Cluster 3 No ível as alto todos os padrões estão e u eso grupo. No ível as específco cada padrão está e u grupo utáro. A C B Cluster D E Cluster 7 8
dedograa Agrupaetos partcoas Dado u cojuto de dados fto X o problea de agrupaeto e X cosste e ecotrar város cetros de agrupaetos (clusters) que possa caracterzar adequadaete classes relevates de X. A B C D E F G 9 0 Agrupaetos partcoas Gera ua úca partção os dados. Vatage: as efcete para cojuto de dados grade. Desvatage: é ecessáro defr prevaete o úero de grupos desejável. Gera grupos pela otzação de ua fução crtéro (objetvo). Algortos partcoas de erro quadrátco A fução crtéro as utlzada e algortos de agrupaeto partcoas é o erro quadrátco O erro quadrátco de u agrupaeto C co clusters de u cojuto de padrões E é: err ( E, C ) j j ( j ) c j Ode (j) é o -éso padrão pertecete ao j-éso cluster e c j é o cetróde do j-éso cluster
Método de agrupaeto de erro quadrátco ) Selecoe ua partção cal dos padrões co u úero fo de clusters e cetros de clusters. ) Atrbua cada padrão ao cetro de cluster as próo e calcule os ovos cetros de clusters coo os cetródes dos clusters. Repta este passo até que a covergêca seja obtda, sto é, até que a dvsão e clusters fque estável. Crtéros de covergêca Não ocorre re-atrbuções de padrões de u cluster para outro O erro quadrátco para de dur sgfcatvaete após u úero de terações 3) Faça erge e dvsão de clusters baseados e forações heurstcas, opcoalete volte ao passo. 3 4 Algorto -eas (-édas) Algorto -eas Mas sples e as cohecdo algortos de erro quadrátco. É fácl de pleetar e sua copledade é O() co sedo o úero de padrões. Problea: é sesível à partção cal e pode covergr para u ío local do valor da fução crtéro se a partção cal ão for escolhda apropradaete ) escolha cetros de clusters que pode ou ão cocdr co os padrões. ) atrbua cada padrão ao cetro de cluster as próo. 3) Recalcule os cetros de clusters usado os grupos defdos. 4) Se o crtéro de covergêca ão for satsfeto, vá para o passo. 5 6
Meddas de slardade A edda de slardade etre dos padrões o espaço dos atrbutos é essecal para o agrupaeto. Devdo à grade varedade de tpos de atrbutos e escalas, a edda deve ser selecoada co cudado. Meddas de dstâca para atrbutos cotíuos Dstâca Eucldaa: (caso partcular da étrca de Mows para p d ( d, j ) ( j ) / Usualete calcula-se a dsslardade etre dos padrões usado ua edda de dstâca. j 7 8 7. Agrupaeto fuzzy (fuzzy clusterg) Métrca de Mows: d d / p p p (, j ) j j p 9 Agrupaeto clássco gera partções sedo que padrões pertece a apeas u cluster, ou seja, os clusters são dsjutos. Agrupaeto fuzzy estede essa oção e assoca cada padrão a cada cluster usado ua fução de pertêca. O resultado desse algorto é u agrupaeto as ão é ua partção 0
Agrupaeto eclusvo X ão eclusvo Agrupaeto eclusvo (hard): cada objeto pertece elusvaete a u úco grupo. Agrupaeto ão-eclusvo (fuzzy): u objeto pode pertecer a as de u grupo, co dferetes graus. Algorto de agrupaeto fuzzy ) Selecoe ua partção fuzzy cal de N obejtos e clusters selecoado a atrz de pertêca U N. U eleeto uj dessa atrz represeta o grau de pertêca do objeto o cluster c j. ) Usado U, o valor da fução crtéro fuzzy, e. ua fução de erro quadrátco poderado, assocada co a partção correspodete. Ua possível fução crtéro fuzzy é: E K ( E, U ) µ Ode N c µ N j É o -éso cetro de cluster. Reatrbua padrões aos clusters para reduzr essa fução de crtéro e recalcule U. c No agrupaeto fuzzy, cada cluster é u cojuto fuzzy de todos os padrões. 3) repta o passo até que as etradas de U ão seja alteradas sgfcatvaete. 3 4
Eeplo Hard clusters: H {,,3,4,5} H {6,7,8,9} Fuzzy clusters: F {0,9/, 0,8/, 0,7/3, 0,6/4, 0,55/5, 0,/6, 0,/7, 0/8, 0/9} F {0/, 0/, 0/3, 0,/4, 0,5/5, 0,4/6, 0,35/7, /8, 0,9/9} Agrupaeto clássco X Agrupaeto fuzzy Aálse de clusters clássca: (requsto forte) Classes fora partção de X F F 7 3 4 6 8 9 H 5 H Aálse de clusters fuzzy: (requsto as fraco) Classes fora partção fuzzy ou pseudo-partção fuzzy de X 5 6 Método de Agrupaeto Fuzzy cmeas Método de agrupaeto partcoal que ecotra ua pseudo-partção fuzzy os dados. Pseudo partção fuzzy Seja X {,,..., } cojuto de dados Partção c-fuzzy de X (pseudo partção fuzzy de X) : Faíla de cojutos fuzzy de X deotados por: {A, A,..., A c } que satsfaz: c A ( ) para todo N 0 < A ( ) < para todo N c ode c é u tero postvo 7 8
Eeplos Eeplo ) Eeplo ) X {,, 3 } Z [0,0] A A A 3 A 0.6/ + / + 0./ 3 A 0.4/ + 0/ + 0.9/ 3 {A, A } é ua partção -fuzzy de X 3 4 5 6 7 8 9 0 {A, A, A 3 } é ua pseudo-partção de Z Z 9 30 Eeplo 3) Y [0,0] Método de agrupaeto fuzzy c-eas Problea de agrupaeto fuzzy : B B B 3 3 4 5 6 7 8 9 0 B (4) /; B (4) ; B 3 (4) 0 logo B (4) + B (4) + B 3 (4) {B, B, B 3 } é ua partção fuzzy de Y as ão é ua pseudo-partção fuzzy de y Y 3 X {,,..., } cojuto de dados ode [... p ] R p, para todo N Ecotrar ua pseudo partção fuzzy e os cetros de clusters assocados pelos quas a estrutura dos dados é elhor represetada. Isso requer: algu crtéro que epressa a déa geral de que assocações seja fortes etre eleetos detro do cluster e fraca etre clusters. Esse crtéro é forulado e teros de u Ídce de desepeho 3
Ídce de desepeho Usualete baseado e cetros de clusters Dada ua pseudo partção {A, A,..., A c } os cetros de clusters v, v,..., v c assocados co a partção são calculados: v [ A ( )] [ A ( )] Para todo N c é u úero real que cotrola a fluêca dos graus de pertêca o vetor v, que é o cetro da classe fuzzy A, é a éda poderada dos dados e A 33 Ídce de desepeho O ídce de desepeho J ( ) de ua partção fuzzy é defdo e teros dos cetros de clusters pela fórula: J ( ) [ A ( ode -v represeta a dstâca etre e v O ídce de desepeho ede a soa poderada das dstâcas etre cetros de clusters e eleetos os clusters correspodetes c )] v 34 Objetvo do étodo de agrupaeto fuzzy c-eas: Ecotrar ua pseudo partção que za o ídce de desepeho J ( ) 7.3 Algorto Fuzzy c-eas Assur que são dados: o úero de clusters c ua edda de dstâca e partcular u úero real u úero postvo pequeo ε (crtéro de parada) Passo. Seja t0. Selecoe ua pseudo partção cal (0) 35 36
Passo 3. Atualze (t+) pelo segute procedeto: Para todo X, se -v (t) > 0 para todo N c etão defa: Passo. Calcule os c cetros de clusters v (t),..., v (t) c para (t) e o valor escolhdo de por: v [ A ( )] [ A ( )] A ( t + ) ( ) c j se -v (t) 0 para algu I N c etão defa A (t+)( ) para I coo sedo qualquer úero real ão egatvo satsfazedo ( t + ) A ( ) I e defa A (t+)( ) 0 para N c -I v v ( t ) ( t ) j 37 38 7.4 Eeplo Passo 4. Copare (t) e (t+). Se (t+) - (t) εpare; caso cotráro creete t e volte ao passo. (t+) - (t) deota ua dstâca etre (t+) e (t) o espaço R Eeplo: (t+) - (t) a A (t+)( ) - A (t) ( ) para N c N 3 4 5 6 7 8 9 0 3 4 5 X 0 0 0 3 4 5 5 5 6 6 6 X 0 4 3 3 0 4 4 3 39 3 4 5 6 40