Universidade Federal d Paraná Labratóri de Estatística e Geinfrmaçã - LEG Classificaçã Prfs.: Eduard Vargas Ferreira Walmes Marques Zeviani
Intrduçã Em muits prblemas, a variável Y assume valres em um cnjunt nã rdenad C, pr exempl: E-mail {spam, ham}; Dígit {0, 1,..., 9}; Alzheimer {cm Alzheimer, sem Alzheimer}; Nestes cass, estams diante de um prblema de classificaçã; 2
Intrduçã Cnsidere um prblema binári, em que Y assume smente dis valres, c 1 u c 2. Para um dad x, esclherems c 1 quand P(Y = c 1 x) P(Y = c 2 x), Tal classificadr é cnhecid cm Classificadr de Bayes. Esclhems nssa funçã, tal que, h(x) = argmax P(Y = d x). d {c 1,c 2 } Nte que agra, cust basead na distância entre a respsta bservada e estimada nã faz mais sentid. A invés dele, é cmum utilizar J(h) = P[Y h(x )]. Assim, ainda que h(x) R +, ela representará a esclha pr uma classe. 3
Plug-in classifier Entretant, nã cnhecems tais prbabilidades: O classificadr de Bayes é um padrã ur inalcançável! A sluçã é entã estimar P(Y = c i x), para i C, u seja Estimams P(Y = c x) para cada categria c C; Tmams h(x) = argmax c C P(Y = c x). Essa abrdagem é cnhecida cm plug-in classifier. 4
K-Nearest Neighbrs O KNN estima a distribuiçã cndicinal de Y X de acrd cm as classes ds K vizinhs de determinada bservaçã x 0, u seja: P(Y = j X = x 0) = 1 K i N 0 I(y i = j). 5
K-Nearest Neighbrs A esclha de K tem um efeit drástic n classificadr KNN btid KNN: K=1 KNN: K=100 6
K-Nearest Neighbrs Tems que esclhê-l de acrd cm resultad d teste. A linha pntilhada representa classificadr de Bayes. Taxa de err 0.00 0.05 0.10 0.15 0.20 Err de trein Err de teste 0.01 0.02 0.05 0.10 0.20 0.50 1.00 1/K 7
Exempl: Inadimplência n cartã de crédit Neste exempl, nss bjetiv é prever se um cliente será u nã inadimplente n próxim mês; Para tant, tems três variáveis explicativas: Estudante: se cliente é u nã estudante; Rendiment: rendiment anual d cliente; Sald: valr devid n mês atual. Rendiment 0 20000 40000 60000 Sald 0 500 1000 1500 2000 2500 Rendiment 0 20000 40000 60000 0 500 1000 1500 2000 2500 Sald Nã Sim Inadimplente Nã Sim Inadimplente 8
Pdems utilizar regressã linear? Supnha que para classificaçã da variável Inadimplente cdificams da frma: { 0, se N~a, Y = 1, se Sim. Pdems simplesmente realizar uma regressã linear de Y em X e classificar cm Sim se Ŷ > 0.5? Cnsiderand fat de que E (Y X = x) = P (Y = 1 X = x), pdems pensar que regressã é ótima para ist! N cas de respsta binária, regressã linear faz um bm trabalh (equivalente à análise de discriminante linear); Entretant, ela pde prduzir prbabilidades menres d que 0 u maires d que 1. Regressã lgística é mais aprpriada. 9
Regressã lgística Dentand pr p(x ) = P(Y = 1 X ). A regressã lgística utiliza a frma p(x ) = eβ 0+β 1 X 1 + e β 0+β 1 X. Assim, nã imprta s valres de β 0 e β 1 u X, p(x ) (0, 1). 10
Regressã lgística Cm um puc de algebrism chegams em ( ) p(x ) lg = β 0 + β 1X. 1 p(x ) Que é chamada lg dds u transfrmaçã lgit em p(x ). Variável Ceficiente Desvi padrã Estatística t p-valr Intercept -10,6513 0,3612-29,5 < 0, 0001 Sald 0,0055 0,0002 24,9 < 0, 0001 Qual é a prbabilidade estimada de Inadimplente para um cliente cm Sald de $1000? e ˆβ 0 + ˆβ 1 X ˆp(X ) = 1 + e = e 10,6513+0,0055 1000 = 0, 006. ˆβ 0 + ˆβ 1 X 1 + e 10,6513+0,0055 1000 11
Regressã lgística Vams repetir prcess anterir, agra cm Estudante cm preditr; Variável Ceficiente Desvi padrã Estatística t p-valr Intercept -3,5041 0,0707-49,55 < 0, 0001 Estudante[Sim] 0,4049 0,1150 3,52 0,0004 P (Inadimplente=Sim Estudante=Sim) = e 3,5041+0,4049 1 = 0, 0431. 1 + e 3,5041+0,4049 1 P (Inadimplente=Sim Estudante=N~a) = e 3,5041+0,4049 0 = 0, 0292. 1 + e 3,5041+0,4049 0 12
Regressã lgística cm várias variáveis Agra cas de mais de um preditr, mdel geral trna-se ( ) p(x ) lg = β 0 + β 1X 1 +... + β px p. 1 p(x ) e p(x ) = eβ 0+β 1 X 1 +...+β px p 1 + e β 0+β 1 X 1 +β px p. Variável Ceficiente Desvi padrã Estatística t p-valr Intercept -10,8690 0,4923-22,08 < 0, 0001 Sald 0,0057 0,0002 24,74 < 0, 0001 Rendiment 0,0030 0,0082 0,37 0,7115 Estudante[Sim] -0,6468 0,2362-2,74 0,0062 Pr que ceficiente de Estudante é negativ agra, enquant era psitiv anterirmente? Cnfundiment. 13
Cnfundiment Os resultads sã diferentes, especialmente quand existe crrelaçã entre s preditres (veja gráfic da direita); Taxa de inadimplência 0.0 0.2 0.4 0.6 0.8 Sald d cartã de crédit 0 500 1000 1500 2000 2500 500 1000 1500 2000 Nã Sim Sald d cartã de crédit Estudante Estudantes[Sim] tendem a ter mair Sald d cartã de crédit; Assim, marginalmente a taxa de Inadimpl^encia é mair d que nã Estudantes[N~a]; Pr utr lad, para cada nível d Sald mensal, a inadimplência ds estudantes é menr (gráfic da esquerda). 14
Outra abrdagem Uma alternativa para estimar P(Y X ) cnsiste em mdelar a distribuiçã de X em cada classe separadamente; E utilizar Terema de Bayes para bter P(Y X ); P(Y = k X = x) = Que escrevend de utra frma fica P(Y = k X = x) = P(Y = k)p(x = x Y = k) P(X = x) π kf k (x) K l=1 π lf l (x) Entã tems que δ k (x) argmax π k f k (x) 15
Outra abrdagem f k (x) = P(X = x Y = k) é a densidade para X na classe k (diferentes distribuições levam a diferentes métds); π k = P(Y = k) é a prbabilidade marginal u priri para classe k. Pde ser estimada utilizand as prprções amstrais em cada classe. Para diferentes priris em cada classe, tems diferentes decisões; 16
Análise de discriminante A cnsiderarms para f k (x) a distribuiçã Nrmal em cada classe, ns leva à análise de discriminante linear u quadrática, pis δ k (x) argmax π k f k (x) { = argmax lgπ k 1 2 lg Σ k 1 } 2 x µ k, Σ 1 k (x µ k ). x µ k, Σ 1 k (x µ k ) é a Distância de Mahalanbis de x e µ k ; Pr exempl, seja µ 1 = 1.5, µ 2 = 1.5, π 1 = π 2 = 0.5 e σ 2 = 1 0 1 2 3 4 5 4 2 0 2 4 3 2 1 0 1 2 3 4 17
Análise de discriminante Quand f k (x) pssui matriz de cvariância, Σ k, diferente em cada classe, tems a análise de discriminante quadrátic (ADQ) δ k (x) argmax π k f k (x) { = argmax lgπ k 1 2 lg Σ k 1 } 2 (x µ k) t Σ 1 k (x µ k ). Nte a crrência d term quadrátic na distância de Mahalanbis; Se tdas as classes cmpartilharem mesm Σ = k diante da análise de discriminante linear (ADL) n k 1 n K ˆΣ k, estams δ k (x) argmax π k f k (x) = argmax {lgπ k 12 } µtkσ 1 µ k + x t Σ 1 µ k. Em ADL, term quadrátic é cancelad. 18
Análise de discriminante Utilizams, assim, s dads de trein para estimar tais quantidades e incrprar à regra de decisã, da seguinte frma ˆπ k = n k n ˆµ k = 1 n k ˆΣ k = i:y i =k 1 n k 1 x i (x i ˆµ k )(x i ˆµ k ) t i:y i =k 19
Regressã lgística versus ADL Regressã lgística e análise de discriminante linear diferem-se na frma de estimar s parâmetrs: Regressã lgística maximiza a verssimilhança cndicinal p(x i, y i ) = i i p(y i x i ) g(x i ) } {{ } lgistica i } {{ } ignrad ADL maximiza a verssimilhança cmpleta p(x i, y i ) = p(x i y i ) p(y i ) i i i }{{}}{{} nrmal f k bernulli π k Mas na prática, s resultads sã similares. 20
Ilustraçã: p = 2 e k = 3 classes N exempl abaix, tems π 1 = π 2 = π 3 = 1/3; X2 4 2 0 2 4 X2 4 2 0 2 4 4 2 0 2 4 X1 4 2 0 2 4 X1 A linha pntilhada é cnhecida cm frnteira de decisã de Bayes (Bayes decisin bundaries); 21
Exempl: Iris Data Cmpriment da Sépala Largura da Sépala Cmpriment da Pétala Largura da Pétala 22
Exempl: Iris Data Tems 4 variáveis, 3 espécies cm 50 bservações em cada classe; Variável discriminante 2 Variável discriminante 1 Análise de discriminante linear classifica crretamente 147/150 bservações ds dads de trein. 23
Exempl simulad: Bayes, ADL e ADQ N exempl, tems a frnteira de decisã de Bayes em rsa, ADL pntilhad e ADQ em verde, em um prblema cm 2 classes; N gráfic da esquerda Σ 1 = Σ 2 e da direita Σ 1 Σ 2; X2 4 3 2 1 0 1 2 X2 4 3 2 1 0 1 2 4 2 0 2 4 X 1 4 2 0 2 4 X 1 24
Qual classificadr esclher? Cenári 1: 20 bservações em cada classe. Tdas nã crrelacinadas e nrmalmente distribuídas; Cenári 2: Semelhante a cenári 1, mas em cada classe, s preditres têm crrelaçã de -0,5; Cenári 3: Semelhante a cenári 1, mas cm distribuiçã t de student. Cenári 1 Cenári 2 Cenári 3 0.25 0.30 0.35 0.40 0.45 0.15 0.20 0.25 0.30 0.20 0.25 0.30 0.35 0.40 0.45 KNN 1 KNN CV ADL Lgístic ADQ KNN 1 KNN CV ADL Lgístic ADQ KNN 1 KNN CV ADL Lgístic ADQ 25
Qual classificadr esclher? Cenári 4: Os dads sã nrmalmente distribuíds, cm crrelaçã de 0,5 em uma classe e -0,5 em utra; Cenári 5: As respstas fram geradas utilizand s preditres: X1 2, X2 2 X 1 X 2 (u seja, limite de decisã quadrátic); e Cenári 6: As respstas fram geradas utilizand funções nã lineares mais elabradas. Cenári 4 Cenári 5 Cenári 6 0.30 0.35 0.40 0.20 0.25 0.30 0.35 0.40 0.18 0.20 0.22 0.24 0.26 0.28 0.30 0.32 KNN 1 KNN CV ADL Lgístic ADQ KNN 1 KNN CV ADL Lgístic ADQ KNN 1 KNN CV ADL Lgístic ADQ 26
Naive bayes Vims que quand f k (x) tem distribuiçã Nrmal cm mesma variância Σ tems ADL. E se tems variâncias diferentes em cada classe tems ADQ; Agra, se supuserms que as cmpnentes de x sã independentes cndicinalmente à classe Y estams diante d Naive Bayes; Naive Bayes assume distribuiçã nrmal, cm Σ k diagnal: δ k (x) lg [ π k ] p f kj (x j ) = 1 2 j=1 p (x j µ kj ) 2 + lg(π k ). Apesar de tal supsiçã nã ser razável em muits prblemas (Naive = Ingênu) ela é cnveniente, e leva a bns classificadres. j=1 σ 2 kj 27
Tips de err Vltand a exempl d cartã de crédit, tems a seguinte situaçã: Inadimpl^encia predit Inadimpl^encia bservad Nã Sim Ttal Nã 9644 252 9896 Sim 23 81 104 Ttal 9667 333 10000 Fals psitiv: fraçã de exempls negativs classificads cm psitiv; Fals negativ: fraçã de exempl psitiv classificad cm negativ; Cnstruíms esta tabela classificand a classe cm Sim se P(Inadimpl^encia = Sim Sald, Estudante) 0, 5. Será que limiar de 0,5 é a melhr pçã? 28
Variand threshld Pdems mudar as taxas de err, alterand a frnteira de decisã para algum valr [0, 1]: P(Inadimpl^encia = Sim Sald, Estudante) threshld. Abaix, em azul tems a taxa de fals negativ, em laranja fals psitiv e em pret a taxa de err ttal. Taxa de err 0.0 0.2 0.4 0.6 0.0 0.1 0.2 0.3 0.4 0.5 Threshld 29
Curva ROC A curva ROC (receiver peratr characteristic) ns ajuda nesta esclha d threshld. Ela apresenta as duas taxas de err a mesm temp. Curva ROC Sensibilidade 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 1 - especificidade 30
Referências James, G., Witten, D., Hastie, T. e Tibshirani, An Intrductin t Statistical Learning, 2013; Hastie, T., Tibshirani, R. e Friedman, J., The Elements f Statistical Learning, 2009; Lantz, B., Machine Learning with R, Packt Publishing, 2013; Tan, Steinbach, and Kumar, Intrductin t Data Mining, Addisn-Wesley, 2005; Sme f the figures in this presentatin are taken frm An Intrductin t Statistical Learning, with applicatins in R (Springer, 2013) with permissin frm the authrs: G. James, D. Witten, T. Hastie and R. Tibshirani 31