Algoritmos de Regressão

Transcrição

1 Algoritmos de Regressão com Big Data Fabrício Olivetti de França Universidade Federal do ABC

2 Tópicos 1. Regressão Linear 2. Ordinary Least Square 3. Gradiente Descendente 4. Overfitting 5. Variáveis Não-Lineares 1

3 Regressão Linear

4 Aprendendo com exemplos Uma das formas de aprendizado de máquina é definido como um conjunto de dados na forma {(x, y)}, com x R d um vetor de atributos e y R uma variável alvo, queremos descobrir um mapa entre um certo x para seu valor y correspondente: f : x y. 2

5 Aprendendo com exemplos Vamos tomar como exemplo um corretor que quer aprender a avaliar o valor de um imóvel. Cada imóvel pode ser representado por diversas características como: Metragem quadrada Vagas na garagem Andar Bairro etc. 3

6 Aprendendo com exemplos Para aprender a avaliar novos imóveis ele investiga pelo classificado do jornal vários exemplos: m 2 vagas andar valor , , ,

7 Aprendendo com exemplos O objetivo é aprender: f (m 2, vagas, andar) = valor, para quaisquer valores de m 2, vagas e andar. 5

8 Aprendendo com exemplos O objetivo é aprender: f (m 2, vagas, andar) = valor, para quaisquer valores de m 2, vagas e andar. Isso caracteriza o Aprendizado Supervisionado. 5

9 Aprendendo com exemplos Reduzindo nossa tabela para duas variáveis, temos: m 2 mil $

10 Aprendendo com exemplos Com duas variáveis é simples verificar a relação visualmente: y x 7

11 Aprendendo com exemplos Com duas variáveis é simples verificar a relação visualmente: y x 8

12 Aprendendo com exemplos Com essa reta podemos determinar novos valores: y x 9

13 Regressão Linear Esse método é conhecido como regressão linear. Ele pode ser usado quando nossas variáveis apresentam uma correlação linear entre elas! (mas tem alguns truques para permitir correlações não-lineares também) 10

14 Regressão Linear Dado um conjunto com n exemplos {(x i, y i )}, com x i R d, y R. Queremos encontrar f : R d R, tal que: f (x i ) w x i + b = y i 11

15 Regressão Linear Renomenado nossas variáveis do exemplo, temos: x i,1 = m 2 (1) x i,2 = vagas (2) x i,3 = andar (3) y i = vagas (4) x i = (x i,1, x i,2, x i,3 ) (5) 12

16 Regressão Linear f (x i ) = y i (6) w x i + b = y i (7) w 1 x i,1 + w 2 x i,2 + w 3 x i,3 + b = y i (8) 13

17 Regressão Linear Definindo w 0 = b e x i,0 = 1 para todo i, podemos escrever: w 0 x i,0 + w 1 x i,1 + w 2 x i,2 + w 3 x i,3 = y i (9) w x i = y i, (10) ou seja, y é o produto interno entre w e x i. 14

18 Regressão Linear Dados os n exemplos, podemos escrever na forma matricial, X R n (d+1), y R n 1 : com w R (d+1) 1. X w = y, Esse modelo de regressão é dito interpretável pois é fácil determinar o quanto uma mudança em determinado x j afeta o valor de y. 15

19 Ordinary Least Square

20 Ordinary Least Square O nosso problema consiste em determinar w de tal forma a minimizar o erro de aproximação: e(w) = (y X w) T (y X w). 16

21 Ordinary Least Square Para determinar a solução, calculamos a derivada e igualamos a zero para encontrar o mínimo local: e(w) w = (y X w)t (y X w). w 17

22 Exercício Calcule: e(w) w = (y X w)t (y X w). w 18

23 Exercício e(w) w = (y X w)t (y X w) w e(w) w = (yy T (X w) T y y T X w + (Xw) T Xw w e(w) w = (yy T 2w T X T y + w T X T X w w e(w) w = 2X T y + 2X T Xw 19

24 Exercício 2X T y + 2X T Xw = 0 2X T Xw = 2X T y X T Xw = X T y w = (X T X ) 1 X T y 20

25 Ordinary Least Square Temos então que: w = (X T X ) 1 X T y, com (X T X ) 1 X T sendo a pseudo-inversa de X. 21

26 Ordinary Least Square Para dimensões grandes de X o custo da multiplicação de matrizes pode se tornar proibitivo. Uma implementação simples, assumindo a existência de uma função inv que inverte uma matriz é dada por: ols :: [[Double]] -> [Double] -> [Double] ols x y = multmtx pseudoinv (multmtx (transpose x) y) where pseudoinv = inv $ multmtx (transpose x) x 22

27 Ordinary Least Square A multiplicação X T X pode ser simplificada como a soma dos produtos externos de cada x i por ele mesmo: ols :: [[Double]] -> [Double] -> [Double] ols x y = multmtx pseudoinv (multmtx (transpose x) y) where pseudoinv = inv $ sum $ map autoouterprod x autoouterprod xi = outerprod xi xi 23

28 Ordinary Least Square Da mesma forma X T y pode ser simplificada como a soma dos vetores x i y i : ols :: [[Double]] -> [Double] -> [Double] ols x y = multmtx pseudoinv $ sumvec (y.*.. x) where pseudoinv = inv $ sum $ map autoouterprod x autoouterprod xi = outerprod xi xi 24

29 Ordinary Least Square Em um contexto de computação distribuída, imaginamos que temos pedaços de (x i, y i ) espalhados pelo cluster de máquinas. Dessa formas podemos paralelizar pensando em funções de map e reduce: mapper :: ([Double], Double) -> ([[Double]], [Double]) reducer :: ([[Double]], [Double]) -> ([[Double]], [Double]) -> ( ols :: ChunksOf ([Double], Double) -> [Double] ols xy = multmtx pseudoinv xty where xtx, xty = mapreduce mapper reducer xy pseudoinv = inv xtx 25

30 Ordinary Least Square Como implementar as funções mapper e reducer? mapper :: ([Double], Double) -> ([[Double]], [Double]) reducer :: ([[Double]], [Double]) -> ([[Double]], [Double]) -> ( ols :: ChunksOf ([Double], Double) -> [Double] ols xy = multmtx pseudoinv xty where xtx, xty = mapreduce mapper reducer xy pseudoinv = inv xtx 26

31 Ordinary Least Square Como implementar as funções mapper e reducer? mapper :: ([Double], Double) -> ([[Double]], [Double]) mapper (x, y) = (outerprod x x, y *. x) reducer :: ([[Double]], [Double]) -> ([[Double]], [Double]) -> ([[Double]], [Double]) reducer (a, b) (a, b) = (a..+.. b, a.+. b) 27

32 Gradiente Descendente

33 Gradiente Descendente Uma outra forma de resolver o problema é utilizando métodos de gradiente para otimização. Dada uma função f (x) definida e diferenciável em torno de um ponto x 0, sabemos que ela decresce mais rapidamente na direção oposta do gradiente f (x 0 ). 28

34 Gradiente Descendente Ou seja, fazendo: x t+1 = x t α f (x t ). Temos que f (x t+1 ) f (x t ), para um α pequeno. 29

35 Gradiente Descendente Temos então que: f (x 0 ) f (x 1 ) f (x 2 ) f (x t ). 30

36 Gradiente Descendente Estamos interessados na minimização da aproximação de f (x) com y: e(w) = 1 n n y i x i w, i=1 por exemplo. 31

37 Gradiente Descendente Porém, a derivada da função valor absoluto é indefinida no ponto 0:

38 Gradiente Descendente Por outro lado, a função quadrática apresenta uma única solução ótima, e é bem definida: e(w) = 1 n n (y i x i w) 2, i=1 33

39 Gradiente Descendente

40 Gradiente Descendente Temos então que: e(w) = 2 n n (y i x i w) x i, i=1 35

41 Gradiente Descendente Ou com o mesmo ótimo: e(w) = 1 n n (y i x i w) x i, i=1 36

42 Gradiente Descendente O novo valor para w pode ser calculado como: w t+1 = w t + αe((y i x i w) x i ), 37

43 Gradiente Descendente O algoritmo pode ser descrito como: graddesc :: [[Double]] -> [Double] -> [Double] -> Double -> Int -> [Double] graddesc x y w alpha it convergiu = w otherwise = graddesc x y w alpha (it-1) where w = w.+. (alpha *. nabla) nabla = mediavetor $ map (\(yi, xi) -> yi *. xi) $ zip (y.-. y ) x y = map (dotprod w) x convergiu = (erro < 1e-6) (it==0) 38

44 Gradiente Descendente Se X é muito grande, temos que paralelizar o cálculo de nabla. Note que o cálculo de y do qual nabla depende, já está pronto para ser paralelizado. 39

45 Gradiente Descendente Uma forma de se pensar nessa paralelização é através de um processo mapper e reducer que recebem tuplas de um vetor x e um escalar y: graddesc :: ChunksOf [(Vector Double, Double)] -> Vector Double -> Double -> Int -> Vector Double graddesc xy w alpha it convergiu = w otherwise = graddesc xy w alpha (it-1) where w = w.+. (alpha *. (nabla./ n)) nabla = mapreduce mapper reducer xy convergiu = (it==0) n = sum $ map length xy 40

46 Exercício Escreva as funções mapper e reducer: 41

47 Exercício Escreva as funções mapper e reducer: mapper :: ([Double], Double) -> [Double] -> [Double] mapper (xi, yi) = ( yi - (dotprod w xi) ) *. xi reducer :: [Double] -> [Double] -> [Double] reducer = (.+.) 42

48 Escolha de α A escolha do valor de passo de atualização de w é importante pois um valor muito baixo ocasiona uma demora para atingir o ponto de convergência, por outro lado um valor muito alto faz com que o método do gradiente ultrapasse o ponto de ótimo levando a divergência. 43

49 Overfitting

50 Overfit Em muitos casos, a amostra de dados coletada não é representativa. No nosso exemplo, isso pode acontecer ao coletar dados de imóveis de apenas uma região específica. 44

51 Overfit Isso faz com que a reta de regressão não necessariamente represente a realidade: y x 45

52 Overfit Isso pode ocorrer por causa de: Coleta de dados sem o devido cuidado estatístico. Apenas algumas da d variáveis são realmente importantes. Algumas das variáveis são correlacionadas (ex.: área útil e área total). 46

53 Regularização Para resolver tal problema, utilizamos a regularização na função-objetivo. Para isso alteramos o cálculo do erro para: e(w) = 1 n n d (y i x i w) 2 + λ w i p, i=1 i=0 47

54 Regularização Com isso a equação de atualização de w passa a ser calculada como: w t+1 = w t + αe((y i x i w) x i ) λl p, com l p sendo o gradiente da regularização escolhida. 48

55 Regularização l 2 Para p = 2 temos a norma quadrática cujo gradiente resultará em: w t+1 = w t + αe((y i x i w) x i ) λw. Essa é conhecida como regularização l 2 ou ridge. Esse tipo de regularização incentiva baixos valores para todos os elementos do vetor w. 49

56 Regularização l 1 Para p = 1 temos o valor absoluto, o que resulta em descontinuidade. Portanto a fórmula de atualização fica: w t = w t + αe((y i x i w) x i ) wi t λ se wi t > λ w t+1 i = wi t + λ se wi t < λ c.c. w t i Essa é conhecida como regularização l 1 ou lasso. Esse tipo de regularização incentiva que alguns valores de w sejam zeros. 50

57 Regularização ElasticNet Podemos combinar ambas as regularizações: w t = w t + αe((y i x i w) x i ) wi t λ 1 λ 2 w se wi t > λ w t+1 i = wi t + λ 1 λ 2 w se wi t < λ wi t λ 2 w c.c. Essa é conhecida como regularização ElasticNet. 51

58 Variáveis Não-Lineares

59 Variáveis Não-Lineares Considere os seguintes pontos: y x 52

60 Variáveis Não-Lineares Uma alternativa para esses casos é criação de novos atributos como funções não lineares. Esses novos atributos podem ser: Transformação: aplicação de uma função não-linear em uma combinação linear das variáveis. Interação: interação polinomial entre duas ou mais variáveis. 53

61 Transformação A aplicação de uma função não-linear, se escolhida adequadamente, pode gerar novos atributos que possuem relação linear com a variável alvo. Funções comumentes utilizadas para essa tarefa: Sigmoid: 1 1+e x cria uma variável em um tipo sinal, com valores entre 0 e 1. Tangente Hiperbólica: tanh (x) idem ao anterior, mas variando entre 1 e 1. Logaritmo: log (x) lineariza variáveis que seguem uma lei de potência. Rectified Linear Units: max (0, x), elimina os valores negativos, relacionado com Redes Neurais. Softmax: e x i j ex j, similar a sigmoid, mas também faz com que a soma dos valores de x seja igual a 1. 54

62 Transformação Aplicando uma transformação logarítimica em nosso exemplo, temos: y x 55

63 Interação A interação polinomial gera interações de grau p entre as variáveis. Por exemplo, em um problema com 2 variáveis e p = 2 teríamos as variáveis x 1 x 1, x 1 x 2, x 2 x 2. Já para p = 3 teríamos x 3 1, x 2 1 x 2, x 1 x 2 2, x

64 Interação Introduzindo a variável x 2 1 em nosso exemplo, temos: y x 57

65 Gerando Atributos Polinomiais Dado um vetor x = [x 1, x 2, x 3,..., x d ], queremos obter: [[1], [x 1, x 2,..., x d ], [x 2 1, x 1 x 2,...], [x 3 1, x 2 1 x2,...],...]. Não queremos que repita x 1 x 2 ex 2 x 1. 58

66 Gerando Atributos Polinomiais Vamos iniciar criando uma lista inicial infinita da seguinte forma: poly = [[1], [], [],..] 59

67 Gerando Atributos Polinomiais Agora, para cada variável x i e para cada lista l poly, multiplicamos x i a cada elemento de l e concatenamos a lista gerada com a lista seguinte. Para x 1 teremos: ys = [[1], [x_1], [x_1^2], [x_1^3],..] 60

68 Gerando Atributos Polinomiais Agora, para cada variável x i e para cada lista l ys, multiplicamos x i a cada elemento de l e concatenamos a lista gerada com a lista seguinte. Para x 2 teremos: ys = [[1], [x_1, x_2], [x_1^2, x_1 \cdot x_2, x_2^2], [x_1^3, x_1^2 \cdot x_2, x_1 \cdot x_2^2, x_2^3],..] Queremos uma função que aplique map (*x i ) em cada elemento de uma lista e concatene com a seguinte. 61

69 Gerando Atributos Polinomiais Ou seja, queremos: ys = [[1], [], [],..] [[1], (map (*x1) [1]) ++ [], (map (*x1) (map (*x1) [1]) ++ []) ++ [],..] ou: ys = [[1], [], [],..] [[1], f [1] [], f (f [1] []) [],..] f xs1 xs2 = (map (*x1) xs1) ++ xs2 62

70 Gerando Atributos Polinomiais Ou seja, queremos: f :: Double -> [[Double]] -> [[Double]] f x (y:[]) = [y] -- já é o último elemento f x (y:z@(zi:zs)) = y : (f x (g:zs)) where g = (map (*x) y) ++ zi 63

71 Gerando Atributos Polinomiais Fazendo a chamada: f 2 [[1], [], [], []] geramos: f 2 ([1]:([]:[[], []] = [1] : f 2 [2]:[[], []] f 2 ([1]:([]:[[], []] = [1] : [2] : f 2 [4]:[[]] f 2 ([1]:([]:[[], []] = [1] : [2] : [4] : f 2 [8]:[] f 2 ([1]:([]:[[], []] = [1] : [2] : [4] : [[8]] 64

72 Gerando Atributos Polinomiais Fazendo a chamada: f 3 [[1], [2], [4], [8]] geramos: f 2 ([1]:([]:[[], []] = [1] : f 3 [2, 3] : [[4], [8]] f 2 ([1]:([]:[[], []] = [1] : [2, 3] : f 3 [4, 6, 9] : [[8]] f 2 ([1]:([]:[[], []] = [1] : [2, 3] : [4, 6, 9] : f 3 [8, 12, 18, 27] : [] f 2 ([1]:([]:[[], []] = [1] : [2, 3] : [4, 6, 9] : [[8, 12, 18, 27]] 65

73 Gerando Atributos Polinomiais Então dado uma lista inicial que armazenará as interações até a ordem k: order k = [1] : (take k $ repeat []) Temos então a função: poly k x = foldr f (order k) x 66

74 Gerando Atributos Polinomiais - Paralelo A entrada da função é apenas um vetor de x, portanto basta aplicar um mapper. A implementação desse caso fica como exercício para casa. 67

75 Atividade 03 Complete o Laboratório Regressão Linear no Spark 68