Redução de Dimensionalidade e Agrupamento de Dados

Transcrição

1 Redução de Dimensionalidade e Agrupamento de Dados Fabrício Olivetti de França Universidade Federal do ABC

2 Tópicos 1. Análise de Componentes Principais 2. Agrupamento de Dados 1

3 Redução de Dimensionalidade Quando trabalhamos com muitos atributos, alguns destes podem ser: Redundantes: dois ou mais representam a mesma informação (Ex.: tempo em segundos e tempo em minutos) Ruidosos: possuem valores aleatórios sem significado (Ex.: sinais ruidosos) Irrelevantes: não possuem relação com a tarefa desejada (Ex.: termos irrelevantes para classificação de sentimentos) 2

4 Redução de Dimensionalidade Além disso, quando possível, é desejável compactar esses atributos para uma espaço de menor dimensão. Curse of Dimensionality: quanto maior a dimensionalidade, mais difícil se torna perceber diferenças de similaridades; complexidade de algoritmos em função de d, etc. 3

5 Análise de Componentes Principais

6 Principal Components Analysis (PCA) Identifica as direções de maior variação de valores. Rotaciona o eixo para que cada eixo rotacionado represente da maior para a menor variação. 4

7 Principal Components Analysis (PCA) y x Figura 1: Eixos originais. 5

8 Principal Components Analysis (PCA) y z Figura 2: Eixos rotacionados. 6

9 Principal Components Analysis (PCA) Para isso utiliza a informação de autovalores e autovetores da matriz de covariância dos atributos. 7

10 Covariância dos Atributos Dada uma matriz de dados X R n d, centralizamos os pontos para que fiquem com média zero: x i,j = x i,j ˆx j, com ˆx j sendo a média dos valores do atributo j. 8

11 Covariância dos Atributos A covariância dos atributos pode ser calculada como: Cov = 1 n X T X, que resulta em uma matriz Cov R d d. 9

12 Covariância dos Atributos O elemento i, j dessa matriz representa a correlação entre o atributo i e o atributo j. A diagonal indica a variância do respectivo atributo. 10

13 Autovalores e Autovetores Dessa matriz podemos extrair um total de d 1 autovalores (λ) e autovetores (e) tal que: Cov e = λ e 1 apenas se todos os atributos forem independentes 11

14 Autovalores e Autovetores Se ordenarmos todos os autovalores/autovetores pela ordem do maior autovalor para o menor, temos que: Cada autovetor i representa a i-ésima direção de maior variação O autovalor correspondente quantifica essa variação 12

15 Principal Components Analysis (PCA) Cada autovetor representa uma combinação linear dos atributos originais de tal forma a capturar a variação descrita pelo autovalor. Basicamente a matriz de autovetores é uma base de dados rotacionada que captura a variação em ordem crescente. 13

16 Principal Components Analysis (PCA) Se um autovalor for muito pequeno, significa que não existe variação naquele eixo e, portanto, ele pode ser descartado. Imagine um problema de classificação utilizando apenas uma variável x j com variância baixa. É fácil perceber que tal variável não tem poder discriminatório pois, para toda classe, ela apresenta um valor muito similar. 14

17 Rotacionando a base de dados De posse da matriz E R d k dos k primeiros autovetores com um valor significativo de λ, é possível transformar a matriz de dados centralizada X com: X = X E. Isso transforma a matriz em uma matriz X R n k com k < d. 15

18 Principal Components Analysis (PCA) Usos do PCA: Transformar a base de dados mantendo a dimensão. Reduzir a base de dados, eliminando eixos com pouca variância. Reduzir para duas dimensões para visualizar os dados. 16

19 Principal Components Analysis (PCA) Quando utilizado para redução de dimensionalidade, verifique o custo-benefício de remover um eixo dado sua variância. Além disso, uma vez que a base é transformada, os atributos perdem totalmente seu significado original. Se temos os atributos m 2, garagens, andar, bairro; uma vez aplicado o PCA não sabemos que combinação linear cada novo atributo representa. 17

20 PCA funcional -- Recebe dados e devolve a matriz de rotaç~ao pca :: Int -> Data -> RotMtx pca k x = submatrix k eigenvectors where (eigenvalues, eigenvectors) = descsort $ H.eig covariance covariance = multmtx (transpose x ) x x = center x 18

21 PCA funcional A matriz de covariância tem dimensão d d, costumeiramente cabendo na memória. A matriz de dados e a de dados centralizadas não cabem em memória, portanto devemos pensar em opções de MapReduce para as funções covariance e center. 19

22 PCA funcional distribuído Lembrando do algoritmo Ordinary Least Square, podemos calcular a matriz de covariância como a somatória dos produtos externos de cada linha de X, a centralização de dados também vimos em uma aula passada, no cálculo do Desvio-Padrãoo. 20

23 PCA funcional distribuído -- Recebe dados e devolve a matriz de rotaç~ao pca :: Int -> Data -> RotMtx pca k x = submatrix k evecs where (evals, evecs) = descsort $ H.eig covmtx covmtx = sum $ map (\xi -> outerprod xi xi) x media xi = (sum xi) / (length xi) centraliza xi = (xi.- (media xi)) x = mapcolunas centraliza x 21

24 PCA funcional distribuído O grande desafio da implementação distribuída é calcular a matriz x centralizada e, após esse procedimento, a matriz de covariância. pca :: Int -> ChunksOf [[Double]] -> [[Double]] pca k x = submatrix k evecs where (evals, evecs) = descsort $ H.eig $ covmtx $ center x 22

25 PCA funcional distribuído Implemente as seguintes funções: center :: ChunksOf [[Double]] -> ChunksOf [[Double]] covar :: (NFData a, Num a) => ChunksOf [[a]] -> [[a]] 23

26 PCA funcional distribuído center :: ChunksOf [[Double]] -> ChunksOf [[Double]] center x = parmap (map (.-. m)) x where m = mapreduce (./n) (.+.) x n = sum $ parmap length x covar :: (NFData a, Num a) => ChunksOf [[a]] -> [[a]] covar x = mapreduce (\xi -> outerprod xi xi) (..+..) x 24

27 PCA - PySpark Traduza o código para PySpark: center :: ChunksOf [[Double]] -> ChunksOf [[Double]] center x = parmap (map (.-. m)) x where m = mapreduce (./n) (.+.) x n = sum $ parmap length x covar :: (NFData a, Num a) => ChunksOf [[a]] -> [[a]] covar x = mapreduce (\xi -> outerprod xi xi) (..+..) x 25

28 PCA - PySpark Dada uma RDD X : n = X.lenght() # 1 x d xmean = (X.map(lambda xi: xi/n).reduce(lambda (xi, yj): xi+yj) ) Xcenter = X.map(lambda xi: xi - xmean) Covar = (Xcenter.map(lambda (k1,xi): np.outer(xi, xi)).reduce(lambda x,y: x+y) ) 26

29 PCA - PySpark Com Covar calculado basta fazer: eva, eve = np.linalg.eigh(covar) idx = np.argsort(-eva) pcamtx = eve[:,idx[:k]] 27

30 Agrupamento de Dados

31 Aprendizado Não-Supervisionado Muitas vezes não temos um rótulo pré-definido que queremos extrair de nossos dados. 28

32 Aprendizado Não-Supervisionado Muitas vezes não temos um rótulo pré-definido que queremos extrair de nossos dados. Contagem? 1 e 2 28

33 Aprendizado Não-Supervisionado Muitas vezes não temos um rótulo pré-definido que queremos extrair de nossos dados. Contagem? 1 e 2 Tipo? 28

34 Aprendizado Não-Supervisionado O aprendizado não-supervisionado especifica as técnicas para extrair conhecimento de um conjunto de dados sem que tenhamos: Informação do que queremos encontrar. Qualquer retorno indicando corretude do que encontramos. 29

35 Aprendizado Não-Supervisionado Essas técnicas se baseiam em: Formação de grupos de dados similares. Modelo de criação de um dado. Busca de objetos representativos. 30

36 Formação de grupos de dados Essas técnicas se baseiam em: Define-se uma medida de similaridade entre nossos dados. Note que os grupos formados dependente dessa medida de similaridade. 31

37 Formação de grupos de dados Nas imagens abaixo: 32

38 Formação de grupos de dados Podemos formar os grupos bonzinhos e malvados : 33

39 Formação de grupos de dados Podemos formar os grupos masculino, feminino e indefinido : 34

40 Formação de grupos de dados Podemos formar os grupos heróis, vítimas e vilões : 35

41 Modelo de Criação Procura encontrar um modelo que explica a geração dos dados: P(θ x) =? 36

42 Modelo de Criação Vamos tomar como exemplo agora as seguintes imagens: 37

43 Modelo de Criação Com elas podemos encontrar os seguintes modelos de criação: 38

44 Dados Representativos Vamos considerar que uma imagem é um conjunto de pixels, e as cores desses pixels são nossos dados. Se encontrarmos as k cores mais representativa dessa imagem, podemos redesenhá-la utilizando essas cores, economizando bits! 39

45 Dados Representativos 40

46 Objetos Representativos Vamos estudar a busca pelas k cores mais representativas. Os resultados ilustrados anteriormente utilizam o conceito de agrupamento, especificamente a técnica k-means. 41

47 k-means Digamos que temos diversas cores que são tons de vermelho, verde e azul y x 42

48 k-means Queremos escolher as 3 cores mais representativas desse conjunto! y x 43

49 k-means E não necessariamente essas 3 cores devem fazer parte do conjunto de dados, podemos criar cores novas! y x 44

50 k-means O que caracteriza uma cor representativa de um conjunto? y x 45

51 k-means Bom, para saber isso primeiro precisamos conhecer os conjuntos! y x 46

52 k-means Para nosso exemplo é fácil: y x 47

53 k-means A cor representativa de cada grupo é aquela que mais se aproxima de todas do grupo y x 48

54 k-means Ou seja, é a que tem maior similaridade média com os elementos do grupo y x 49

55 k-means Ou seja, é a que tem maior similaridade média com os elementos do grupo y x 50

56 k-means Matematicamente, quem são esses elementos? y x 51

57 k-means Dado um conjunto de pontos X n-dimensionais, queremos determinar o ponto c, representando o centro, que minimiza: J(X, c) = 1 m m dist(x i, c) i=1 definimos que a distância é o inverso da similaridade. 52

58 k-means O mínimo pode ser encontrado com: J(X, c) = 1 m m dist(x i, c) = 0 i=1 53

59 k-means Utilizando a distância Euclidiana temos: 1 m m (x i c) 2 = 2 m i=1 m (c x i ) = 0 i=1 54

60 k-means 2 m m (mc x i ) = 0 i=1 mc = m i=1 c = 1 m x i m x i i=1 55

61 k-means O centro ótimo para um conjunto de pontos X é a média desses pontos. c = 1 m m i=1 x i 56

62 k-means Temos os centros...como definir os grupos? y x 57

63 k-means Para cada amostra x, verificamos o centro mais próximo...essa amostra fará parte desse grupo y x 58

64 k-means Sabemos como calcular o centro, dado os grupos...e como definir os grupos dado os centros y x 59

65 k-means Começamos chutando pontos iniciais para os centros y x 60

66 k-means Definimos os grupos de acordo com esses centros: y x 61

67 k-means Para cada grupo, calculamos o novo centro: y x 62

68 k-means E remontamos os grupos: y x 63

69 k-means Repetimos esse procedimento y x 64

70 k-means...até os centros ou os grupos não se alterarem mais y x 65

71 k-means kmeans it points clusters it == 0 = clusters clusters == clusters = clusters otherwise = kmeans (it-1) points clusters where clusters = emstep points clusters 66

72 k-means emstep points clusters = maximizationstep $ estimationstep points clusters 67

73 k-means estimationstep :: [[Double]] -> [[Double]] -> [[[Double]]] estimationstep points clusters = map (\(k,v) -> v) $ groupbykey $ sortbykey $ assign points clusters 68

74 k-means assign points clusters = map closestto points where closestto p = (argmin $ map (euclid p) clusters, p) 69

75 k-means maximizationstep :: [[[Double]]] -> [[Double]] maximizationstep candidates = map meanvec candidates 70

76 k-means - Paralelo Temos dois procedimentos a serem realizados em cada iteração: Alocar os elementos a um centro. Calcular um novo centro. Considere que os centros residem em memória. 71

77 k-means - Paralelo Desenhe o fluxo dos dados dessa função e escreva o procedimento utilizando PySpark: emstep :: ChunksOf [[Double]] -> [[Double]] -> [[Double]] eemstep points clusters = maximizationstep $ estimationstep points clusters 72

78 k-means - Paralelo A função maximizationstep recebe uma lista de tuplas [(Int, ([Double], Double)] contendo k elementos representando o id do cluster, a soma dos vetores dos pontos daquele cluster e quantos elementos existem no cluster. emstep :: ChunksOf [[Double]] -> [[Double]] -> [[Double]] eemstep points clusters = maximizationstep $ estimationstep points clusters 73

79 k-means - Paralelo Um simples map sequencial resolve: emstep :: ChunksOf [[Double]] -> [[Double]] -> [[Double]] eemstep points clusters = map (\(idx, (xs,n)) -> xs./ n) $ estimationstep points clusters 74

80 k-means - Paralelo A função estimationstep tem que mapear os pontos para esse formato [(Int, ([Double], Double)] e reduzir somando os elementos da tupla valor. emstep :: ChunksOf [[Double]] -> [[Double]] -> [[Double]] eemstep points clusters = map (\(idx, (xs,n)) -> xs./ n) $ estimationstep points clusters 75

81 k-means - Paralelo A função estimationstep tem que mapear os pontos para esse formato [(Int, ([Double], Double)] e reduzir somando os elementos da tupla valor. emstep :: ChunksOf [[Double]] -> [[Double]] -> [[Double]] eemstep points clusters = map (\(idx, (xs,n)) -> xs./ n) $ mapreducebykey assign soma points where assign = (\pi -> (assign pi clusters, (pi,1.0))) 76

82 k-means - Paralelo Reescreva o procedimento utilizando PySpark: emstep :: ChunksOf [[Double]] -> [[Double]] -> [[Double]] eemstep points clusters = map (\(idx, (xs,n)) -> xs./ n) $ mapreducebykey assign soma points where assign = (\pi -> (assign pi clusters, (pi,1.0))) 77

83 k-means - Paralelo centers = RDD.map(lambda xi: (assign(xi,c), xi)).reducebykey(lambda (pi1, n1), (pi2, n2) : (pi1+pi2, n1+n2)).map(lambda (idx, (pi, n)): (pi/n)).collect() 78

84 Agrupamento Espectral Nem sempre nossos dados apresentam um agrupamento óbvio mensurado por uma medida de similaridade: y x 79

85 Agrupamento Espectral O uso do algoritmo k-means é insuficiente para encontrar os dois grupos existentes: y x 80

86 Agrupamento Espectral Mesmo utilizando um número maior de clusters o algoritmo apresenta dificuldades para entender a estrutura da base de dados y x 81

87 Agrupamento Espectral Uma forma alternativa de representar esses objetos é imaginar que eles formam um grafo em que os k pontos mais próximos de um certo ponto, forma uma aresta com este

88 Agrupamento Espectral Dessa forma passamos a representar nossos dados através da matriz Laplaciana, que é dada por: L = G A, com A sendo a matriz de adjacência e G uma matriz diagonal com os elementos da diagonal igual ao grau do nó correspondente. 83

89 Agrupamento Espectral Essa matriz Laplaciana tem algumas propriedades interessantes: O número de autovalores iguais a 0 é igual ao número de componentes conexos. Os autovetores correspondentes aos autovalores iguais a 0 representam um grupo, sendo os nós pertencentes a esse grupo com valores positivos e todo o restante igual a 0. Os autovetores consequentes representam diversas formações de possíveis agrupamentos. 84

90 Agrupamento Espectral Com isso podemos calcular a Laplaciana de uma base de dados e utilizar os k primeiros autovetores dessa matriz (com autovalores diferentes de 0) e gerar (similar ao PCA) uma matriz n k contendo a informação dos grupos. 85

91 Agrupamento Espectral Nesse ponto, temos a projeção dos nossos dados em um espaço de dimensão reduzida. Podemos agora aplicar a técnica k-means utilizando essa representação para obtermos os grupos. 86

92 Agrupamento Espectral Com isso é possível encontrar os grupos corretos de nosso exemplo: y x 87

93 Agrupamento Espectral Faça uma implementação do Agrupamento Espectral no Spark. Dica: aplicando o algoritmo SVD na matriz Laplaciana, temos que a matriz U representa os autovetores. Utilize o algoritmo svd já implementado no Spark. 88

94 Atividade 05 Complete o Laboratório Algoritmos de Agrupamento de Dados no Spark 89