SUCESU 005 ecnologas Intelgênca Artfcal O estado da arte em métodos para reconhecmento de padrões: Support Vector Machne Bernardo enna Resende de Carvalho bpenna@gmal.com Resumo A área de reconhecmento de padrões consste na classfcação de dversos exemplos, exstentes em uma determnada base de dados, como pertencentes a um tpo específco de padrão, dentre os possíves padrões que essa base possa representar. Város métodos são empregados nesta área, porém nos últmos anos um método vem se destacando entre os demas: Support Vector Machne (SVM). As SVMs são máqunas de aprendzagem que se baseam na eora da Aprendzagem Estatístca, trenadas através de um algortmo supervsonado. Elas foram propostas em 99. Desde então são empregadas em dversos setores, obtendo resultados superores a outros métodos. As SVMs possuem uma formulação teórca consstente, que alada aos resultados prátcos obtdos, as tornam o estado da arte em métodos para reconhecmento de padrões. este trabalho, são descrtos os prncípos fundamentas que caracterzam as SVMs, bem como sua nterpretação geométrca e exemplos de problemas em que são empregadas. Elas possuem algumas característcas partculares, como: a detecção automátca dos exemplos mas relevantes nas bases de dados utlzadas, chamados vetores de suporte; a robustez aos exemplos das bases que são notadamente errôneos, conhecdos como outlers; e o mapeamento mplícto dos exemplos em um espaço de dmensões elevadas, através das funções de kernel. ) Introdução Métodos de reconhecmento de padrões são pesqusados desde a década de 60 (Kanal 968), época em que se ncava o desenvolvmento da nformátca. os últmos 40 anos, não foram poucos os métodos crados para esta área, como Redes euras Artfcas (Rosenblatt 958), Árvores de Decsão (Qunlan 986), Algortmos Genétcos (Goldberg 989), entre outros. Em 99, um grupo de pesqusa da A& Bell Laboratores desenvolveu um método de classfcação novador, ncalmente conhecdo como Algortmo para classfcadores de margens ótmas (Boser et al. 99). o ano segunte, fo publcado Boser & Guon (993), expandndo alguns concetos contdos no trabalho ncal. Em Cortes & Vapnk (995), os autores propuseram uma forma de se ldar de manera efcente com os outlers, como são conhecdos os exemplos que representam padrões notadamente ncorretos, que nterferem de manera sgnfcatva nos métodos até então usados. A partr da publcação deste últmo artgo, o método passou a ser conhecdo como Support Vector Machne, como é conhecdo até hoe. O obetvo deste trabalho é explcar o funconamento das SVMs, descrevendo seus prncípos fundamentas e as ferramentas das quas elas se baseam, como trenamento supervsonado, aprendzagem estatístca e otmzação global. Além dsso, serão ndcadas váras áreas em que sua aplcação se mostrou bem sucedda e outras em que anda podem vr a ser utlzadas, com grande expectatva de sucesso. O trabalho está dvddo em 6 seções. a seção, é descrta e exemplfcada a área de reconhecmento de padrões. a seção 3, são abordados os prncípos báscos que dão suporte à formulação das SVMs, que é descrta na seção 4. a qunta seção, são dscutdas algumas aplcações das SVMs. or fm, a seção 6 contém algumas conclusões do trabalho. ara a correta compreensão, uma breve explcação da notação utlzada neste trabalho: os vetores, sempre do tpo coluna, são apresentados em negrto, e os valores numércos com fonte normal. ) Reconhecmento de padrões Sea uma base de dados qualquer, consttuída de dversos exemplos,.e. seus elementos. Cada exemplo possu um tpo específco de padrão assocado a ele. Um padrão nada mas é do que o tpo do exemplo, ou sea, um rótulo que o caracterze ou que o classfque. Os exemplos das bases de dados são geralmente medções ou observações sobre determnado assunto, defnndo o domíno do processo de aprendzagem. Engenhero Eletrcsta - UFMG, Mestrando em Engenhara Elétrca (Intelgênca Computaconal) UFMG
Um método de reconhecmento de padrões deve, baseado no conhecmento extraído dos exemplos de uma base, classfcar um exemplo novo, desconhecdo até então, ao padrão que mas reflete as suas característcas. roblemas de reconhecmento de dígtos, reconhecmento de faces, predção de tendêncas em séres fnanceras, predção de falhas em equpamentos, e mutos outros, englobam o unverso do reconhecmento de padrões. Esta área é muto extensa e surgem freqüentemente novas aplcações, fazendo com que métodos poderosos seam cada vez mas necessáros. Fgura - Reconhecmento de dígtos a Fgura, são representados exemplos para a tarefa de reconhecmento de dígtos usados em Le Cun et al. (989). Os padrões desta base são os dígtos 0,,, 3, 4, 5, 6, 7, 8 e 9. Dzer que um exemplo se refere ao dígto 3, equvale a dzer que a dstrbução dos pxels deste exemplo representa, de modo geral, o padrão de dstrbução encontrado no dígto 3. a Fgura, pode-se observar alguns exemplos utlzados em Guodong et al. (000) para o reconhecmento de faces. este caso, cada face consttu um exemplo e cada ndvíduo um padrão da base de dados. Fgura - Reconhecmento de faces 3) Aprendzagem de máqunas Uma máquna de aprendzagem deve ter a propredade de, após a observação de város pares de entrada e saída { x, mtar o comportamento do sstema, gerando saídas }, = próxmas de a partr de entradas próxmas de x (Vapnk 995). Quando o número de padrões - saídas ou classes é fnto, normalmente números naturas, a tarefa é denomnada classfcação de padrões. Se houver apenas duas classes possíves, dá-se o nome de classfcação bnára. Já quando exste um número nfnto de padrões possíves (valores reas), eles são conhecdos como problemas de regressão. 3.) renamento supervsonado O processo de trenamento ou aprendzagem - de uma máquna se refere à fase em que ela adqure o conhecmento, ou sea, retém as nformações relevantes a respeto de um assunto específco, representado por uma base de dados, para fazer uso destas nformações no futuro. O obetvo do trenamento é austar os parâmetros lvres da máquna de forma a encontrar uma lgação entre os pares entrada e saída (Braga et al. 000). Um tpo partcular de trenamento, o trenamento supervsonado, é realzado por meo de um supervsor externo. O supervsor é responsável por fornecer para a máquna as entradas - exemplos de trenamento - untamente com as saídas deseadas para cada exemplo. Desta
forma, ações podem ser tomadas a fm de valorzar os acertos e punr os erros obtdos pela máquna, possbltando que o processo de aprendzagem se efetue. A utlzação de um método de reconhecmento de padrões pode ser dvdda em duas fases: trenamento e aplcação, cada uma utlzando um conunto de dados específco. a prmera é usado o conunto de trenamento, composto pelos exemplos nos quas a máquna obtém o conhecmento. a segunda fase é utlzado o conunto de teste, consttuído pelos exemplos no qual o método será efetvamente aplcado. O conunto de trenamento deve ser estatstcamente representatvo, para que sea possível à máquna reconhecer os exemplos de teste, propredade conhecda como generalzação. 3.) Aprendzagem estatístca Sea { x }, um conunto de trenamento com exemplos, unformemente dstrbuídos em relação a uma função de densdade de probabldade desconhecda p( x). O obetvo = do processo de aprendzagem estatístca é obter uma função ndcadora que mnmze o rsco funconal, por meo das relações extraídas deste conunto (Vapnk 995). O rsco funconal é a probabldade da saída deseada ser dferente da saída obtda pela máquna, após a escolha de uma função ndcadora. Como p ( x) é desconhecda, não se pode calcular dretamente este rsco, utlzando-se um prncípo ndutvo para sua aproxmação. Os métodos de aprendzagem estatístca devem apresentar as seguntes característcas: um conunto flexível e grande o sufcente de funções ndcadoras dsponíves, para representar o comportamento do conunto de dados. As funções ndcadoras são responsáves por tentar smular o comportamento dos sstemas em que os métodos são utlzados. um prncípo ndutvo, capaz de assocar o conunto de trenamento à função que governa o sstema. São exemplos de prncípos ndutvos: regularzação, mnmzação do rsco empírco, mnmzação do rsco estrutural, nferênca Baesana. um algortmo de aprendzagem, procedmento que ndca como mplementar o prncípo ndutvo e seleconar a melhor função dentro do unverso das funções ndcadoras exstentes. o processo de escolha da melhor função que se austa ao conunto de trenamento, é necessára a cração de uma medda de dscrepânca ou perda, que snalza à máquna quando houve erros ou acertos durante a aprendzagem (Vapnk 998). ara problemas de classfcação bnára, a função de perda comumente empregada é se f ( x, z) (, f ( x, z) ) = () 0 se f ( x, z) = onde z são parâmetros da função ndcadora e f ( x, z) a saída da máquna cua entrada é x. Um prncípo ndutvo geralmente empregado pelas máqunas de aprendzagem exstentes é a mnmzação do rsco empírco. O rsco empírco, calculado utlzando-se (), é dado por Rempírco = (, f ( x, z) ). () = Sua mnmzação nem sempre é sufcente para a obtenção de resultados adequados, pos ela não leva em consderação a complexdade das funções ndcadoras. Quando a complexdade das funções é superor à necessdade do problema, ocorre o sobre-auste (overfttng Fg. 3a) da função em relação ao conunto de trenamento. Quando ela é nferor, ocorre o sub-auste (underfttng Fg. 3b). Em ambos os casos, a capacdade de generalzação é reduzda. A Fg. 3c apresenta uma função cua complexdade é adequada ao problema. (a) (b) (c) Fgura 3 - Funções ndcadoras ou de aproxmação
Com o uso do conceto de dmensão VC (Vapnk 995), fo desenvolvda uma expressão, com probabldade ( η) de ocorrer, que ndca que o lmte superor do rsco funconal é R funconal Rempírco + Rbound ( h,η, ) (3) dado um valor de η [ 0, ]. A dmensão VC é h e o número de exemplos de trenamento. A mnmzação do rsco estrutural tem como obetvo mnmzar R bound ( h, η, ), o fator somado ao rsco empírco em (3). Este prncípo usa a dmensão VC para controlar a complexdade das funções ndcadoras, de forma a adequá-las a cada problema. 3.3) Otmzação global e teora do Lagrangeano dual Qualquer problema de otmzação pode descrto como: Ache os valores dos parâmetros v = [ v,...,v M ] que mnmzem a função c ( v), sueta às restrções g ( v) 0 e h( v) = 0. Quando a função de custo c ( v) é uma função convexa, quadrátca em v, e as restrções g ( v) e h ( v) são lneares em v, dá-se o nome de Q (quadratc programmng). Um problema Q tem a propredade de possur uma únca solução global, ou sea, exste um únco conunto de valores de v que torna c ( v) a mínma possível. Esta característca, como ndca a Fgura 4, dferenca as SVMs de outros métodos, como as Redes euras Artfcas (RAs). Fgura 4 - Otmzação local RAs x Otmzação global SVMs O problema de otmzação descrto anterormente, também chamado de problema prmal, pode apresentar dfculdade na obtenção da solução, devdo prncpalmente à natureza das restrções v e h v. or este motvo, é comum a utlzação da eora do Lagrangeano g ( ) ( ) (Fletcher 987) para que sea obtda uma formulação dual para o problema de otmzação, mas smples de se resolver que a prmal. O problema dual possu a mesma solução do prmal, quando obedecdas certas condções (Luenberger 984). Uma mplcação desta propredade é que se pode resolver ndretamente o problema prmal por meo da resolução dreta do dual. O problema Lagrangeano dual pode ser obtdo pelo acréscmo das restrções prmas à função de custo prmal, com o uso dos multplcadores de Lagrange α e β. Ele é descrto como: Mnmze a função cd ( v) = c ( v) + α g( v) + β h( v) em relação aos parâmetros v e a maxmze em relação aos parâmetros α e β. A únca restrção do problema dual é α 0. 4) Support Vector Machnes Dado o conunto de trenamento { } n x, com entradas x e saídas correspondentes = R {, + }, a SVM fo desenvolvda para a aplcação em tarefas de classfcação bnára. ara sto, ela cra uma superfíce lnear de separação f ( x) = 0 descrto por w ϕ ( x) +b = 0 (4) onde w é o vetor de pesos, b o termo de polarzação e ϕ (.) o mapeamento realzado em um espaço, chamado espaço de característcas, cua dmensão é superor a dos dados de entrada. Durante o processo de trenamento de uma SVM, utlza-se o produto da saída deseada pela saída obtda f ( x ) para ndcar se a classfcação fo correta, como é mostrado por [ w ϕ ( x ) + b] + ξ com ξ 0. (5)
As varáves de folga ξ possbltam a correta classfcação dos exemplos da base de dados que se encontram lgeramente fora da regão de sua classe, como mostrado na Fgura 5. Desta forma, as SVMs se tornam robustas a pequenas varações no conunto de trenamento, dferentemente de outras máqunas de aprendzagem, possbltando uma melhor generalzação (Braga et al. 000). Fgura 5 - Varáves de folga O processo de trenamento das SVMs consste na obtenção de valores para w e b, de forma a mnmzar uma função de custo J ( w,ξ). As SVMs têm como obetvo a construção de um hperplano ótmo (Vapnk 995), que maxmza a margem de separação, representada por M =. w (6) O prmero termo da função de custo J ( w,ξ) mnmza a norma do vetor de pesos w, [ ] a fm de maxmzar a margem. O outro termo mnmza as varáves de folga ξ = ξ,...,ξ, para evtar que todos os exemplos ncorretos seam consderados outlers. ara a cração da função de custo, é utlzado um parâmetro de regularzação C, que pondera estes dos termos. Há váras superfíces que separam os exemplos da Fgura 6 (a, b, c, d), porém a melhor delas é a de máxma margem, Fg. 6-d. Resultados teórcos obtdos em Vapnk (995) ndcam que a maxmzação das margens de separação entre os exemplos das classes e +, como mostrado na Fgura 7, mplca em uma maor generalzação de uma máquna de aprendzagem. Fgura 6 Superfíces de separação Fgura 7 Vetores de suporte ode-se defnr o problema prmal de uma SVM como mn w, b, ξ J ( w, ξ) = w + C ξ sueto a = em que a prmera restrção é a condção apresentada em (5). Como descrto na seção 3.3, é aplcado o Lagrangean [ w ϕ( x ) + b] ξ 0, ξ =,..., o (Fletcher 987) ao problema prmal (7), resultando no problema Lagrangeano dual, que é então dervado em relação aos parâmetros prmas. As dervadas são gualadas a zero, para mnmzar o Lagrangeano em relação aos parâmetros prmas. As expressões obtdas são então substtuídas no própro Langrangeano dual para a obtenção do problema de otmzação dual de uma SVM, dado por α = 0 maxα J D su. a = = = = 0 α C, =,..., ( α ) = α α α K( x, x ) (7) (8)
α em que é lmtado pelo valor do parâmetro C, que deve ser sntonzado pelo usuáro. A função K ( x ) x, é chamada função de kernel. As funções de kernel K( x x ) = ϕ( x ) ϕ( x ),, como as da abela, realzam um produto no própro espaço de entrada, e não no espaço de característcas, que possu uma dmensão mas elevada. Graças às funções de kernel, problemas não lnearmente separáves podem ser resolvdos pelas SVMs, uma vez que a superfíce de separação é lnear apenas no espaço de característcas, e não no espaço de entrada, como mostra a Fgura 8. Kernel Expressão arâmetro Lnear x x RBF x x e σ olnomal ( ) b x + a Sgmóde tanh( β x + β ) σ x a, b β 0, β 0x Fgura 8 Espaços: entrada x característca abela Algumas funções de kernel Exstem város algortmos capazes de resolver problemas Q rapdamente, que podem ser utlzados para a resolução do problema dual das SVMs (latt 998, Mangasaran & Muscant 999). ara a utlzação das SVMs, após o processo de aprendzagem, não é n ecessáro realzar o mapeamento ϕ ( x ) dretamente. Basta usar as funções de kernel, untamente com os exemplos de trenamento,os multplcadores de Lagrange e o termo de polarzação ótmos, de modo a calcular a saída da SVM para um exemplo x qualquer, utlzando * * ( ) K( x,x ) + b f x k = sgn α k k. (9) = Uma característca das soluções da SVM é o fato de que város va lores de α são nulos após o processo de trenamento. Como ndcado em (9), quando estes valores são nulos, os exemplos aos quas eles são assocados não nfluencam na saída da SVM, ou sea, são rrelevantes para o problema. Os exemplos que possuem multplcadores de Lagrange não nulos são conhecdos como vetores de suporte, e normalmente estão próxmos da superfíce de separação, como mostra a Fgura 7. 5) Aplcações de SVM As SVMs foram aplcadas com sucesso em dversas áreas. a medcna, foram usadas para a dentfcação de proteínas em Zen et al. (000) e de células cancerígenas em Crstann et al. (000). a área de segurança, elas foram utlzadas para o reconhecmento de mpressões dgtas em ontl et al. (00), além do seu emprego tanto na detecção (Osuna 997) quanto no reconhecmento de faces (Guodong et al. 000). As tarefas de reconhecmento de textos (Joachms 998) e de assnaturas (Bortolozz et al. 003) por meo das SVMs também obtveram resultados sgnfcatvos. Análses de crédto através de SVMs foram abordados em Mangasaran & Muscant (999). Uma modfcação das SVMs, chamada Support Vector Regresson (SVR), capaz de ldar com problemas de predção ou regressão de funções, fo desenvolvda em Vapnk et al. (996), e utlzada com sucesso em Muller et al. (997). Exstem anda áreas em que as SVMs tendem a contrbur de modo sgnfcatvo nos próxmos anos, mas que anda são utlzados apenas métodos mas conhecdos, como as Redes euras Artfcas ou Algortmos Genétcos. Alguns exemplos destas áreas são as ndústras de mneração (Carvalho & Montero 003) e sderurga (Carvalho et al. 004). k *
6) Conclusão A área de reconhecmento de padrões é muto extensa e surgem freqüentemente novas aplcações, fazendo com que métodos poderosos seam cada vez mas necessáros. este contexto se nserem as SVMs, que possuem uma formulação teórca consstente, e têm obtdo resultados prátcos de sucesso em dversas áreas. As SVMs utlzam o prncípo de mnmzação do rsco estrutural, que resulta em uma alta capacdade de generalzação, mesmo que o conunto de trenamento não sea muto representatvo. Além dsso, elas possuem outras característcas, descrtas com detalhes neste trabalho, que ustfcam a denomnação de estado da arte em métodos de reconhecmento de padrões. 7) Bblografa BOROLOZZI, F. & JUSIO, E.J.R. & SABOURI, R. 003. An Off-Lne Sgnature Verfcaton Method Based on SVM Classfer and Graphometrc Features. In Fth Internatonal Conference on Advances n attern Recognton ():34-4, Calcutá. BOSER, B. & GUYO, M. 993. Automatc Capact unng of Ver Large VC-dmenson Classfers. Advances n eural Informaton rocessng Sstems. BOSER, B. & GUYO, M. & VAIK, V. 99. A ranng Algorthm for Optmal Margn Classfers. Computatonal Learng heor. 44 5. ttsburgh, A. BRAGA, A.. & CARVALHO, A..L.F. & LUDERMIR,.B. 000. Redes euras Artfcas: eora e aplcações. LC. 6p. CARVALHO, B..R. & MOEIRO, A.M. 00. Modelagem eural de um rocesso de rodução de elotas de Mnéro de Ferro. VII Sem. Autom. de rocessos ABM, Santos. CARVALHO, B..R. & MORAIS, F.M. & SEA & A.L. 004. redção do teor de slíco no ferro-gusa utlzando técncas de ntelgênca artfcal. ABM Internat. Meetng Ironmakng. CORES, C. & VAIK, V. 995. Support-Vector etworks. Machne Learnng. CRISIAII. &DUFFY.&SCHUMMER M.000. Support vector classfcaton and vald- aton of cancer tssue samples usng mcroarra expresson data. Bonformatcs. 6(0). FLECHER, R. 987.ractcal Methods of Optmzaton. ed. John Wle and Sons. GOLDBERG, D.E. 989. Genetc Algorthms n Search, Optmzaton, and Machne Learnng. Addson-Wesle, USA. G UODOG, G. & LI, S. & KALUK, S. 000. Face recognton b support vector machnes. In roc. IEEE Internatonal Conf. on Automatc Face and Gesture Recognton, 96-0. JOACHIMS,. 998. ext Categorzaton wth Support Vector Machnes: Learnng wth Man Relevant Features. In roceedngs of European Conf. Machne Learnng, 37-4. KAAL, L.. 968. attern Recognton. hompson Book.Lbrar of Congress o.68-3794. LE CU, Y. & BOSER, B. & DEKER, J. S. & HEDERSE, D. & HOWARD, R.E. & HUBBARD, W. & JACKEL, L.D. 989. Backpropagaton Appled to Handwrtten Zp Code Recognton. eural Computaton ():54-55. LUEBERGER, D.G. 984. Lnear and onlnear rogrammng, Addson-Wesle, CA. MAGASARIA, O. L. & MUSICA, D. R. 999. Successve overrelaxaton for support vector machnes. IEEE rans. eural etworks 0 (5), 03-037. M ULLER K.R. & SMOLA A. & RÄSCH G. & SCHÖLKOF B. & VAIK, V. 997. redctng me Seres wth Support Vector Machnes. In roceedngs ICA'97, p.999. OSUA, E. 997. ranng Support Vector Machnes: an Applcaton to Face Detecton. LA, J. 999. Fast tranng of support vector machnes usng sequental mnmal optmzaton. In Advances n kernel methods-support vector learnng. MA, 85 08. OIL, M. & YAO, Y. MARCIALIS, G. & FRASCOI,. & ROLI F. 00. A new machne learnng approach to fngerprnt classfcaton. In 7th Congress of the Italan Assocaton for Artfcal Intellgence, 57-63. QUILA, J.R. 986. Inducton of decson trees. Machne Learnng, :8-06. ROSEBLA, F. 958. he perceptron: a probablstc model for nformaton storage and organzaton n the bran. schol Rev. 65(6):386-408. VAIK, V. 995. he nature of statstcal learnng theor. Sprnger-Verlag, ew York. VAIK, V. 998. Statstcal learnng theor. John Wle and Sons, ew York. VAIK, V. & GOLOWICH, E. & SMOLA, A. 996. Support Vector Method for Functon Approxmaton, Regresson Estmaton, and Sgnal rocessng. In Advances n eural Informaton rocessng Sstems. (9):8-87, Cambrdge, MA. ZIE, A. & RASCH, G. & MIKA, Z. & SCHOLKOF, B. & LEGAUER,. & MULLER, K.R. 000. Engneerng support vector machne kernels that recognze translaton ntaton stes. Bonformatcs, 6(9):799--807.