Análise de dados: clustering e redução de dimensionalidade

Transcrição

1 Análise de dados: clustering e redução de dimensionalidade Métodos e sua implementação em R Clustering - definições Objectivo genérico: agrupar objetos / entidades / exemplos (linhas da tabela) com base na sua similaridade Principais tarefas: Como definir similaridade? Como agrupar elementos baseados nessa similaridade (algoritmos)? Como visualizar os agrupamentos? Como interpretar os agrupamentos? 1

2 Clustering - definições Problema tem diversas variantes/ formulações dependendo de: Tipos de dados disponíveis (e.g. atributos numéricos vs nominais) Formato dos resultados desejados Função objetivo para a optimização da partição Função de similaridade entre os exemplos Clustering representação dos resultados Mapa que define a atribuição de exemplos a clusters 1 exemplo pertence a 1 cluster Permitir que um exemplo pertença a mais do que um cluster (sobreposição) Atribuir probabilidades de pertença: cada par <exemplo, cluster> tem uma probabilidade Hierarquia de clusters (com exemplos nas folhas) 2

3 Similaridade (atributos numéricos) Por vezes difícil determinar o que é similar ou não! Medindo distâncias: euclidiana, Manhattan Manha7an d( i, j) = x i Euclideana x + x j i x j x i x j p p 2 2 d( i, j) = ( x x + x x x x i j1 i2 j2 ip Cálculo de similaridades de matrizes / data frames numéricos em R: função dist Medindo semelhança de formas: coeficientes de correlação - função cor permite calcular correlações; parâmetro method = spearman, pearson 1 p j 2 ) Similaridade (atributos nominais) Para atributos / campos que podem ser representados por valores binários (0/1) ou por valores inteiros com uma ordem, a distância de Manhattan pode ser usada Podem definir-se métricas de distância próprias para cada campo, mas tal não é muito prático Quando num conjunto de dados há dois tipos de campos (numéricos e nominais) é necessário normalizar valores (por exemplo entre 0 e 1) 3

4 Clustering hierárquico Abordagem aglomerativa: vai agrupando os objetos, iteração a iteração, criando uma árvore que representa uma hierarquia de clusters Estratégia bottom up, construindo árvore das folhas para a raiz Folhas da árvore: exemplos/ objetos; nós da árvore: representam possíveis clusters Critério de junção baseado na distância entre clusters, i.e. são juntos os clusters mais próximos em cada iteração Baseado numa matriz de distâncias: onde estão guardadas as distâncias entre todos os pares de objetos; esta matriz é construída aplicando uma métrica de similaridade Implementado na função R: hclust Clustering hierárquico - exemplo Cada objeto é inicialmente colocado num cluster. Em cada iteração dois clusters juntam-se

5 Clustering Hierárquico: Distâncias entre clusters d min (C, C * ) = min d(x,y) para todos os elementos x em C * e y em C SINGLE LINKAGE / NEAREST NEIGHBOUR Distância entre 2 clusters é a menor distância entre qualquer par de elementos dos 2 clusters d min (C, C * ) = max d(x,y) para todos os elementos x em C * e y em C COMPLETE LINKAGE Distância entre 2 clusters é a maior distância entre qualquer par de elementos dos 2 clusters d avg (C, C * ) = (1 / C * C ) d(x,y) para todos os elementos x em C * e y em C AVERAGE LINKAGE Distância entre 2 clusters é a média das distâncias entre os pares de elementos dos 2 clusters Definido no argumento method da função hclust Clustering hierárquico: exemplo > set.seed(1234) > x = rnorm(12,mean=rep(1:3,each=4),sd=0.2) > y = rnorm(12,mean=rep(c(1,2,1),each=4),sd=0.2) > plot(x,y,col="blue",pch=19,cex=2) > text(x+0.05,y+0.05,labels=as.character(1:12)) criar 3 clusters arpficiais com 4 elementos cada 5

6 Clustering hierárquico: exemplo > dataframe <- data.frame(x=x,y=y) > dist(dataframe) criar matriz de distâncias: por omissão euclidiana: função dist Argumento: method métrica de similaridade; valores possíveis: euclidean, manha-an, minkowski, maximum Clustering hierárquico: exemplo > distxy = dist(dataframe, method = "euclidean") > hc = hclust(distxy) > plot(hc) Executar clustering hierárquico: função hclust Argumentos: - Matriz distâncias - method: método para cálculo de distâncias entre clusters; valores: complete, single, average, ward, Por omissão: complete linkage 6

7 Clustering hierárquico exemplo dataset iris > iris.sc = scale(iris[,1:4]) > boxplot(iris[,1:4]) > boxplot(iris.sc) > dist.iris = dist(iris.sc, method = "euclidean") > hc.complete = hclust(dist.iris, method = "complete") > my.plot.hc (hc.complete, lab.col = as.integer(iris$species)+1, cex = 0.4) Clustering hierárquico exemplo dataset iris > hc.average = hclust(dist.iris, method = "average") > my.plot.hc (hc.average, lab.col = as.integer(iris$species)+1, cex = 0.4) 7

8 Função para plot de árvores com cores my.plot.hc = function(hclust, lab = 1:length(hclust$order), lab.col = rep(1, length(hclust$order)), hang = 0.1,...) { y = rep(hclust$height, 2) x = as.numeric(hclust$merge) y = y[which(x<0)] x = x[which(x<0)] x = abs(x) y = y[order(x)] x = x[order(x)] plot(hclust, labels = F, hang = hang,...) text(x = x, y = y[hclust$order]- (max(hclust$height) * hang), labels = lab[hclust$order], col = lab.col[hclust$order], srt = 90, adj = c(1,0.5), xpd = NA,...) } Heatmaps Forma de representar dados matriciais onde cores de cada célula representam escala de valores Função heatmap do R permite representar heatmaps (sendo aplicada sobre matrizes numéricas) Os heatmaps criados por esta função incluem clustering hierárquico realizado quer ao nível das linhas, quer ao nível das colunas 8

9 Heatmap: exemplo > x1 = rnorm(12,mean=rep(1:3,each=4),sd=0.2) > x2 = rnorm(12,mean=rep(1:3,each=4),sd=0.2) > y1 = rnorm(12,mean=rep(c(1,2,1),each=4),sd=0.2) > y2 = rnorm(12,mean=rep(c(1,2,1),each=4),sd=0.2) > df2 = data.frame(x1, x2, y1, y2) > heatmap(as.matrix(df2)) Clustering hierárquico divisivo Alternativa ao anterior em que processo se inicia com apenas um cluster Processo em cada passo escolhe um cluster para dividir e escolhe a forma de o dividir da melhor forma Exemplo: algoritmo Diana Mais complexo definir critérios para as escolhas anteriores dado o nº de hipóteses Função diana em R exemplo: > library( cluster ) > diana (distxy) 9

10 K-Means Clustering Determina K clusters que englobam todos os pontos, de forma a minimizar a média do quadrado das distâncias de cada ponto para o centro do cluster a que pertence d(v,x): d(v,x) = d(v i, X) 2 / n 1 < i < n d(v i, X) refere-se à distância Euclideana entre o ponto v i e o centro de gravidade do cluster X, a que pertence K-Means: Algoritmo de Lloyd Algoritmo de Lloyd Gerar aleatoriamente k centros de clusters Enquanto os centros do cluster mudam Atribuir a cada ponto um cluster C i correspondendo ao cluster com centro mais próximo Depois de atribuir um cluster a cada um dos n pontos calcular novos centros para os k clusters dados pelo centro de gravidade do cluster 10

11 Kmeans - exemplo Dados usados no exemplo do clustering hierárquico Inicialização: aleatória Recalculando centróides Kmeans - exemplo Passo 2: re- atribuir clusters Recalculando centróides conpnua 11

12 Kmeans - exemplo > reskmeans <- kmeans(dataframe,centers=3) > reskmeans$cluster [1] > plot(dataframe$x,dataframe$y, col=reskmeans$cluster, pch=19, cex=2) > points(reskmeans$centers, col=1:3, pch=3, cex=3, lwd=3) Características do K-means Método heurístico eficiente mas não garante soluções óptimas. Qualidade da solução final é dependente da solução inicial gerada aleatoriamente optimização local. Solução inicial pode ser melhorada criando-se uma distribuição dos centróides que os distribua melhor (i.e. quando se cria cada centróide reduz-se probabilidade de pontos mais próximos) 12

13 Kmeans exemplo com dataset iris > kmeans.iris = kmeans(iris[,1:4], centers = 3, nstart = 10000) > table(kmeans.iris$cluster, iris$species) setosa versicolor virginica Redução de dimensionalidade ObjePvos: dado um conjunto alargado de variáveis, descobrir um conjunto mais pequeno de variáveis não correlacionadas entre si que explicam a maior parte da variabilidade dos dados Em termos de compressão de dados, queremos uma matriz com o menor rank possível, que explique os dados (e os permita reconstruir) Técnica mais popular: Análise de componentes principais (ou PCA) 13

14 Análise de componentes principais - PCA Consta de um procedimento algébrico que converte as variáveis originais (Ppicamente correlacionadas) num conjunto de variáveis não correlacionadas (linearmente) que se designam por componentes principais (PC) ou variáveis latentes Análise baseada na covariância das diversas variáveis As PCs são ordenadas pela quanpdade decrescente de variabilidade (variância) que explicam Cada PC é gerada de forma a explicar o máximo de variabilidade da parte ainda não explicada, tendo que ser ortogonal às PCs anteriores ÚPl quando há grande número de dados e estes contêm possível redundância A PCA é sensível à escala dos dados, pelo que se recomenda a sua normalização prévia Análise de componentes principais - PCA PCA fornece mapeamento de um espaço com N dimensões (N nº variáveis originais) para um espaço com M dimensões (onde M < N) As coordenadas das observações nas novas variáveis são chamada de scores (T) As novas dimensões são combinações lineares das variáveis originais, sendo os coeficientes destas no espaço original designado por loadings (P) Os dados originais (X) são obpdos fazendo X = T.P T Se considerarmos apenas k componentes principais consideramos apenas as primeiras k colunas das matrizes T e P e temos uma aproximação dos dados originais 14

15 PCA no R Há várias formas de realizar a PCA em R, em diversos packages dispntos Uma das funções mais usada, num dos packages base do R, é a função princomp Argumento obrigatório: matriz de dados numéricos (ou data frame apenas com valores numéricos) Argumentos opcionais: subset usado para filtrar linhas, na.ac9on ação para tratar NAs,... Resultado: objeto Ppo list, com vários campos de resultados incluindo loadings, scores,... Função alternapva: prcomp Usa métodos diferentes para calcular a PCA Tem alguns argumentos dispntos: scale valor lógico que permite fazer a normalização dos valores Lista com resultados é dispnta (ver exemplos) > pairs(iris[-5]) PCA - exemplo > pcares = prcomp(iris[,-5], scale = T) > pcares2 = princomp(scale(iris[,-5])) > summary(pcares) Importance of components: PC1 PC2 PC3 PC4 Standard deviation Proportion of Variance Cumulative Proportion > summary(pcares2) Importance of components: Comp.1 Comp.2 Comp.3 Comp.4 Standard deviation Proportion of Variance Cumulative Proportion > plot(pcares2) 15

16 PCA - exemplo PCA exemplo 16

17 PCA exemplo > pcares$rotation PC1 PC2 PC3 PC4 Sepal.Length Sepal.Width Petal.Length Petal.Width > pcares2$loadings Loadings: Comp.1 Comp.2 Comp.3 Comp.4 Sepal.Length Sepal.Width Petal.Length Petal.Width > biplot(pcares) PCA - exemplo 17

18 Singular Value DecomposiLon (SVD) Método algébrico de fatorização de matrizes que pode ser usado em análise de dados para reduzir a dimensionalidade dos dados A PCA é um caso parpcular da SVD, sendo a SVD um dos métodos aconselhados para calcular a PCA Pode ser usado para idenpficar variáveis dependentes de outras, que podem ser removidas no processo de análise de dados SVD consta da fatorização de uma matriz M (de dimensões n x m) em M = UDV T onde U é uma matriz n x n, V é uma matriz m x m, A tem dimensões n x m; além disso U.U T e V.V T são iguais à matriz idenpdade de dimensões n e m. As colunas de U são os vetores singulares esquerdos e as de V os vetores singulares direitos A matriz D é uma matriz diagonal com os valores singulares de M SVD em R Em R, a operação de SVD pode ser executada com a função svd O principal argumento para esta função é a matriz de dados M O resultado é uma lista com três campos: d matriz diagonal D u matriz U v matriz V As colunas de v são equivalentes aos loadings resultantes da PCA (se os dados para esta forem normalizados) 18

19 SVD - exemplo > svdres= svd(scale(iris[,-5])) > svdres$v [,1] [,2] [,3] [,4] [1,] [2,] [3,] [4,] > plot(pcares$rotation[,1], svdres$v[,1], pch=19, xlab="pc1", ylab="sv1-dir") > abline(0,1, col="red") Note- se que as loadings (rota9on) da PCA são equivalentes às colunas do vetor v do SVD SVD exemplo reconsltuição > download.file(" dataanalysis/face.rda", destfile="face.rda", method = "curl") > load("face.rda") > image(t(facedata)[,nrow(facedata):1]) > svd1 <- svd(scale(facedata)) > plot(svd1$d^2/sum(svd1$d^2),pch=19,xlab="sv",ylab="variancia explicada ) 19

20 SVD exemplo reconsltuição > aprox1 <- svd1$u[,1] %*% t(svd1$v[,1]) * svd1$d[1] > aprox5 <- svd1$u[,1:5] %*% diag(svd1$d[1:5])%*% t(svd1$v[, 1:5]) > aprox10 <- svd1$u[,1:10] %*% diag(svd1$d[1:10])%*% t(svd1$v[, 1:10]) > par(mfrow=c(1,4)) > image(t(aprox1)[,nrow(aprox1):1]) > image(t(aprox5)[,nrow(aprox5):1]) > image(t(aprox10)[,nrow(aprox10):1]) > image(t(facedata)[,nrow(facedata):1]) 20