Support Vector Machines

Tamanho: px

Começar a partir da página:

Download "Support Vector Machines"

Rui Gesser
4 Há anos
Visualizações:

1 Universidade Federal do Paraná Laboratório de Estatística e Geoinformação - LEG Support Vector Machines Eduardo Vargas Ferreira

de decisão); Tentamos encontrar o plano que separa

2 Definição Support Vector Machines são baseados no conceito de planos de decisão (que definem limites de decisão); Tentamos encontrar o plano que separa as classes no espaço de características, (X 1, X 2). 2

3 O que é um hiperplano? Se f (X ) > 0, estamos em um lado, se f (X ) < 0, estamos do outro; Note que se codificarmos como Y i = +1 os pontos em azul, e Y i = 1 os pontos em rosa, então Y i f (X i ) > 0 para todo i. 3

4 Separando as classes Mas, em meio a tantos hiperplanos possíveis, qual escolher? X X X X 1 4

5 Maximal Margin Classifier Dentre todos os hiperplanos, buscamos aquele que apresenta maior distância entre as margens das duas classes (seria a largura do corredor). Problema de otimização com restrição X argmax M, sujeito a p j=1 β2 j = 1, e β 0,β 1,...,β p y i (β 0 +β 1x i β px ip ) M, i = 1 : n X1 5

6 Voltamos ao problema de otimização restrita Então, temos o seguinte problema: argmax β 0,β M, sujeito a y i ( x i, β + β 0) M, i = 1 : n. Utilizando a técnica dos Multiplicadores de Lagrange chega-se em J(β, β 0, α) = 1 n 2 β 2 α i [y i ( xi, β + β 0 ) 1]. i=1 A resolução das equações β J = 0 e J β 0 = 0 leva ao seguinte problema maiores detalhes argmax α n α i 1 n n α i α k y i y k xi, xk, 2 i=1 i=1 k=1 com { α i 0, i = 1,..., n n i=1 α i y i = 0 6

7 Perturbação nos dados A busca por um classificador que separe perfeitamente todas as observações de treinamento torna-o sensível a outliers; X X X X 1 7

8 Dados não separáveis Além disso, em situações reais, é difícil encontrar aplicações cujos dados sejam linearmente separáveis (o hiperplano, geralmente, não existe); X X1 8

9 Support Vector Classifier 9

10 Support Vector Classifier Diante desses problemas, surgiu a ideia de se considerar um classificador que não separe as classes perfeitamente, tal que: Seja mais robusto a observações individuais; Classifique a maior parte dos dados de treinamento. O Support Vector Classifier (ou Soft Margin Classifier) faz isso. X X X X1 10

11 Support Vector Classifier argmax M, β 0,β 1,...,β p,ɛ 1,...,ɛ n sujeito a p j=1 β2 j = 1. y i (β 0 + β 1 x i β px ip ) M(1 ɛ i ) }{{} violação da margem n ɛ i 0, ɛ i C i=1 X X 1 C é o tuning parameter (decide o quanto aceitamos errar); E ɛ i são as variáveis de folga: Se ɛ i = 0, então a i-ésima obs. está no lado correto da margem; Se 0 < ɛ i 1, então a i-ésima obs. está no lado errado da margem; Se ɛ i > 1, então a i-ésima obs. está no lado errado do hiperplano. 11

12 Support Vector Classifier X X X X1 X X X X1 12

13 Limite linear pode falhar O Support Vector Classifier é útil quando o limite as classes é linear; X X X X 1 Entretanto, por vezes temos limites de classes não lineares. 13

14 Expansão das características 14

15 Ideia da expansão das características Considere o seguinte problema linearmente não separável Expandindo a característica de x 1, através de x 2 = x 2 1, conseguimos uma separação linear Que projetada no espaço original, se transforma em 15

16 Ideia da expansão das características Suponha outro problema de classificação: Antes Depois Expandindo o espaço, temos um hiperplano linearmente separável em R 3. 16

17 Exemplo simulado Suponha que utilizemos (X 1, X 2 1, X 2, X 2 2, X 1X 2), ao invés de (X 1, X 2). A fronteira de decisão ficará β 0 + β 1X 1 + β 2X β 3X 2 + β 4X β 5X 1X 2 = 0 Se fosse um polinômio cubico sairíamos de 2 para 9 variáveis! 17

18 Truque do Kernel 18

19 Truque do Kernel Voltando ao problema de otimização argmax α N α i 1 2 i=1 N N α i α k y i y k xi, xk. i=1 k=1 Por exemplo, considere o espaço de características com x 1 e x 2 K(x i, x k) = (1 + x i, x k ) 2 = 1 + 2x i1x k1 + 2x i2x k2 + (x i1x k1) 2 + (x i2x k2) 2 + 2x i1x k1 x i2x k2 Ao escolher Φ(x i ) = ( 1, 2x i1, 2x i2, x 2 i1, x 2 i2, 2x i1 x i2 ), chegamos em: K(x i, x k ) = Φ(x i ), Φ(x k ). 19

20 Truque do Kernel Voltando ao problema de otimização argmax α N α i 1 2 i=1 N N α i α k y i y k K(x i, x k). i=1 k=1 Por exemplo, considere o espaço de características com x 1 e x 2 K(x i, x k) = (1 + x i, x k ) 2 = 1 + 2x i1x k1 + 2x i2x k2 + (x i1x k1) 2 + (x i2x k2) 2 + 2x i1x k1 x i2x k2 Ao escolher Φ(x i ) = ( 1, 2x i1, 2x i2, x 2 i1, x 2 i2, 2x i1 x i2 ), chegamos em: K(x i, x k ) = Φ(x i ), Φ(x k ). 20

21 Truque do Kernel Lembrando que x i x k 2 = x i, x i + x k, x k 2 x i, x k, abaixo alguns exemplos de Kernel Kernel linear: K(x i, x k ) = x i, x k ; Kernel gaussiano: K(x i, x k ) = exp ( γ x i x k 2) ; Kernel exponencial: K(x i, x k ) = exp ( γ x i x k ); Kernel polinomial: K(x i, x k ) = (p + x i, x k ) q ; Kernel híbrido: K(x i, x k ) = (p + x i, x k ) q exp ( γ x i x k 2) ; Kernel sigmoidal: K(x i, x k ) = tanh (k x i, x k δ). Os parâmetros que devem ser determinados pelo usuário. 21

22 Exemplo simulado Kernel polinomial K(x i, x k ) = (p + x i, x k ) q Kernel exponencial K(x i, x k ) = exp ( γ x i x k ) 22

23 Exemplo: Iris dataset O objetivo deste estudo é classificar a flor em três categorias: Versicolor; Virginica; Setosa. Para tanto, utilizamos o comprimento e largura das pétalas e sépalas. 23

24 Exemplo: Iris dataset 24

Exemplo: Iris dataset ## $linear ## ## setosa versicolor virginica ## setosa 50 0 0 ## versicolor 0 47 3 ## virginica 0 1 49 ## ## $polynomial ## ## setosa versicolor virginica ## setosa 50 0 0 ##

25 Exemplo: Iris dataset ## $linear ## ## setosa versicolor virginica ## setosa ## versicolor ## virginica ## ## $polynomial ## ## setosa versicolor virginica ## setosa ## versicolor ## virginica ## ## $radial ## ## setosa versicolor virginica ## setosa ## versicolor ## virginica ## ## $sigmoid ## ## setosa versicolor virginica ## setosa ## versicolor ## virginica

26 Exemplo: heart disease - HD Os dados contêm o diagnóstico de 303 pacientes com dores no peito: Yes: indica a presença de doença cardíaca; No: indica ausência de doença cardíaca; Os dados apresentam 13 preditores incluindo Age, Sex, Chol, e outras medidas de funções cardíacas e pulmonar; Thal:a Ca < 0.5 Ca < 0.5 Slope < 1.5 Oldpeak < 1.1 Chol < 244 MaxHR < 156 MaxHR < No Yes No RestBP < 157 No MaxHR < Yes No ChestPain:bc Chol < 244 Sex < 0.5 No No No Yes Age < 52 Thal:b ChestPain:a Yes No No No Yes RestECG < 1 Yes Yes Yes 26

27 Exemplo: heart disease - HD Vamos comparar o desempenho dos métodos através da curva ROC, utilizando os dados de treino; True positive rate Support Vector Classifier LDA True positive rate Support Vector Classifier SVM: γ=10 3 SVM: γ=10 2 SVM: γ= False positive rate False positive rate No gráfico da direita, note que não temos uma comparação muito justa, pois quanto maior γ mais complexo é o modelo (e melhor o ajuste). 27

28 Exemplo: heart disease - HD Agora, com os dados de teste, o comportamento da curva ROC é um pouco diferente; True positive rate Support Vector Classifier LDA True positive rate Support Vector Classifier SVM: γ=10 3 SVM: γ=10 2 SVM: γ= False positive rate False positive rate Note agora que SVM com γ = 10 1 apresentou um pior desempenho. 28

(x ). One versus One (OVO): Treina-se os

29 Se temos mais de duas classes? O que fazemos então se temos K > 2 classes? One versus All (OVA): Compara-se cada classe vs as restantes; Calcula-se f k (x ), k = 1 : K; x k f k (x ) > f ( k) (x ). One versus One (OVO): Treina-se os ( K 2) classificadores; Classifica x para a classe que vencer a maioria das competições. 29

30 Referências James, G., Witten, D., Hastie, T. e Tibshirani, An Introduction to Statistical Learning, 2013; Hastie, T., Tibshirani, R. e Friedman, J., The Elements of Statistical Learning, 2009; Lantz, B., Machine Learning with R, Packt Publishing, 2013; Tan, Steinbach, and Kumar, Introduction to Data Mining, Addison-Wesley, 2005; Some of the figures in this presentation are taken from An Introduction to Statistical Learning, with applications in R (Springer, 2013) with permission from the authors: G. James, D. Witten, T. Hastie and R. Tibshirani 30

Documentos relacionados

Métodos baseados em árvores

Universidade Federal do Paraná Laboratório de Estatística e Geoinformação - LEG Métodos baseados em árvores Eduardo Vargas Ferreira Introdução Árvore de decisão é o conjunto de regras que envolvem a estratificação