EXRAÇÃO EURAL DE COMPOEES PRICIPAIS LIEARES EM APLICAÇÕES DE ELEVADA DIMESIOALIDADE J.B.O SOUZA FILHO, M.S. SOUZA, L.P. CALÔBA, J.M. SEIXAS Laboratório de Processaento de Sinais (LPS) - COPPE/EP/UFRJ CP 68504, Rio de Janeiro 2945-970, RJ, Brazil E-ails: nash@lps.ufr.br, arcs@lps.ufr.br, caloba@lps.ufr.br, seixas@lps.ufr.br Resuo A análise das coponentes prinicipais é u étodo freqüenteente utilizado para redução de diensionalidade de grandes conuntos de dados. Métodos clássicos ou neurais pode ser utilizados para extrair as coponentes principais. este trabalho, u novo étodo neural para extração de coponentes é proposto e coparado co étodos clássicos e neurais ordinários, sendo considerados nesta análise a qualidade da extração das coponentes, o esforço coputacional e a coplexidade dos algoritos. Para isto, u processo estocástico de ua aplicação de sonar co 60 coponentes é utilizado. É ostrado que o étodo proposto é capaz de extrair de fora acurada e eficiente as principais coponentes deste processo. Abstract Principal coponents analysys (PCA) is frequently used for diensionality reduction of large data sets. Classical or neural ethods can be used to extract the principal coponents. In this wor, a new neural ethod for coponents extraction is proposed and copared with classical and ordinary neural ethods, considering the quality of coponent extraction, the coputacional effort and the coplexity of the algoriths. For this, a stocastic process fro a sonar syste application with 60 coponents is used. It is shown that the new neural ethod is able to extract accurately and efficiently the ain coponents of this process. Keywords Adaptative principal coponents extraction, hierarchical neural networ, principal coponents analysis, diensionality reduction, bacpropagation Introdução U grande núero de probleas, sea na área técnica, édica ou financeira, envolve abientes co u grande núero de variáveis. E várias ocasiões, os conuntos de dados relacionados possue ua grande redundância entre suas variáveis, ou sea, grande parte da inforação contida nos dados não é relevante ou não contribui de fora significativa para solução de u dado problea. U exeplo é a construção de classificadores neurais. Para a aioria dos casos, a adoção de u sistea de pré-processaento se faz necessária, se o qual a eficiência de discriinação da rede e/ou seu custo coputacional pode não se apresentar de fora satisfatória. E geral, o obetivo dos sisteas de pré-processaento é enfatizar as características relevantes do processo, reduzindo o núero de variáveis envolvidas. Co dados de enor diensionalidade, a rede neural consegue discernir elhor quais são os atributos relevantes no espaço de dados e, assi, u elhor desepenho pode ser obtido. Para probleas de classificação e tepo real, por exeplo, a redução de diensionalidade pode ser vital, se a qual a operação de u dado sistea pode ser inviável. Encontrar u étodo onde u conunto de dados possa ser representado por u enor núero de variáveis, co o ínio de correlação entre si, e que sea ótio do ponto de vista do erro-édio quadrático, preservando ao áxio as características relevantes do conunto original é bastante interessante. A análise das coponentes principais (PCA) é u étodo que atende os requisitos anteriores, sendo utilizado e u grande núero de probleas que envolve copactação baseada e energia []. A PCA pode ser realizada através de étodos clássicos ou neurais. Os étodos clássicos envolve a decoposição por valor singular ou o cálculo da atriz de autocovariância e a extração dos autovetores e autovalores desta atriz. Quanto aos étodos neurais, redes de treinaento supervisionado ou não-supervisionado pode ser utilizadas. A despeito de aior volue de processaento para extração de todas as coponentes de u processo, os étodos neurais perite a extração de u núero qualquer de coponentes e, por sere processos iterativos, perite diferentes níveis de acuidade na estiativa. Redes construtivas são especialente interessantes ua vez que, extraído certo núero de coponentes, é possível proover a extração de coponentes de orde superior, se a necessidade de realizar u novo processo de treinaento desde o início. Por outro lado, na extração neural, quanto aior o núero de passos de treinaento, elhor a estiativa produzida, logo é possível estabelecer u coproisso entre a qualidade necessária a estiativa e o custo coputacional envolvido. Outra vantage do processo de extração neural é a questão da coplexidade de ipleentação. A extração neural possui u algorito sensivelente ais siples que o étodo clássico e, por conseqüência, exige enos recursos coputacionais (coplexidade de controle, cálculo de funções, utilização de eória), sendo especialente indicado para ipleentações de sisteas de extração e clas-
sificação e icrocontroladores, processadores digitais de sinais ou eso e hardware. este trabalho é proposto u novo étodo de extração de coponentes realizado através de ua rede construtiva auto-supervisionada odificada treinada pelo étodo de bacpropagation. A qualidade das coponentes extraídas e custo coputacional envolvido no processo de extração são coparadas co os obtidos e u rede rede bacpropagation auto-supervisionada ordinária [2] e co redes não-supervisionadas (Sanger [3] e APEX [4]). Inicialente, descreveos a análise PCA e alguns étodos neurais de extração e realizaos a proposição do novo étodo encionado. Logo após, caracterizaos o processo utilizado e apresentaos as siulações realizadas para os vários étodos apresentados. As conclusões pertinentes e as referências bibliográficas encerra este trabalho. 2 Análise de Coponentes Principais (PCA) A análise das coponentes principais é baseada na expansão das séries de Karhunen-Löeve [5]. Dado u espaço de dados de diensão, a PCA obté u conunto de M vetores ortogonais (direções principais), onde M, tal que a variança da proeção do conunto de dados na direção de cada u destes vetores é áxia. E processos de édia nula, coo a variança é igual à energia, a PCA fornece direções de áxia concentração de energia. Para a grande parte das aplicações, verifica-se que a energia se concentra e u núero reduzido de coponentes. Assi, a PCA pode ser utilizada para ua efetiva redução da diensão do espaço de dados, realizada através da proeção e reconstrução do conunto dos dados nas direções de aior energia do processo, ou sea, nas direções que ais significativaente representa o processo no sentido do erro édio quadrático. Recentes estudos co classificadores neurais, e áreas tão diversas coo física experiental e processaento de sinais de sonar passivo, ostrara que a PCA pode reduzir e ais de 93% o núero de coponentes necessárias para realizar a tarefa de classificação [6],[7], eso operando sobre espaços de diensão bastante elevada (entre 496 e 800 direções) viabilizando a necessária operação on-line destas aplicações. 3 Métodos eurais para PCA 3. reinaento não-supervisionado I (Sanger) Segundo Oa, u neurônio co regra de aprendizado tipo Hebbiana constitui u filtro para prieira coponente da distribuição de entrada. Por Sanger, este odelo pode ser expandido para ua rede de ua caada, co todos neurônios lineares, realizando ua PCA para taanhos arbitrários de entrada [3]. A atualização dos pesos desta rede é realizada pelo Generalized Hebbian Algorith (GHA), ou sea: w i = η.[ y. x y i. = w i. y ] onde: w i ( é atualização sofrida pelo peso w i na n-ésia iteração e η é a taxa ou fator de aprendizado. Para esta rede, de acordo co o teorea de convergência provado por Sanger [3], no liite: w 0, w q e w ( = n =,...,, ou sea, a rede converge para os autovetores noralizados (q ) atribuídos aos aiores autovalores da atriz de correlação do espaço de entrada, ordenados e orde decrescente. 3.2 reinaento não-supervisionado II (APEX) Este étodo foi proposto por Kung e Diaantaras [4] e consiste e ua rede neural linear de n entradas conectadas as saídas através de pesos feedfoward (w i ). Adicionalente, existe pesos laterais (c ) que conecta as saídas das - neurônios anteriores co o -ésio neurônio, proovendo a ortogonalização dos seus pesos sinapticos co as estiativas das coponentes principais arazenadas nos pesos dos - neurônios anteriores. a etapa de propagação das entradas do - ésio neurônio, teos: W = w w ] [ 2 w y = W. x( e y = w. x( c. y( O auste dos pesos w e c é dado por: w = β. y.{ x( y. w } c = β. y.{ y( y. c } Confore deduções realizadas e [4], se fizeros c =W.w, podeos reescrever y na fora: y = w.{ x( W. W. x( } = w. x' = z, onde: x ( corresponde a x( quando extraídas todas suas proeções nas direções das - estiativas de coponentes anteriores e z pode ser visto coo a saída de u neurônio linear da caada escondida de ua rede de duas caadas, considerando que cada u destes neurônios está subetido a u conunto de variáveis de entrada distintas dadas por x (.
Reescrevendo a equação de auste dos pesos w, teos: w = β. z.{ x( z. w } = β. z. e ( ) Observando a equação anterior, percebeos que ela é idêntica à equação de treinaento dos pesos que conecta os neurônios da caada escondida aos neurônios de saída de ua rede bacpropagation auto-supervisionada. Assi, a rede APEX pode ser vista coo ua rede bacpropagation onde apenas a caada de reconstrução é treinada e seus pesos são replicados na caada de proeção. A diferença principal no étodo APEX reside no fato de que o produto que deterina c não é calculado e si estiado a cada iteração. 3.3. reinaentos Supervisionados Para extração supervisionada, redes de duas caadas ordinárias, co neurônios lineares, treinadas pelo algorito de bacpropagation pode ser utilizadas [8]. Adotando u processo de extração seqüencial, utilizaos ua rede construtiva, ou sea, ua estrutura onde neurônios são adicionados à caada escondida ao longo do processo de extração. O processo de extração é inicializado co ua rede de nós de entrada, u neurônio na caada interediária e nós de saída, onde é o núero de variáveis do processo. Os vetores alvo adotados corresponde às próprias entradas (treinaento auto-supervisionado) e os pesos são inicializados de fora aleatória. Esta rede é treinada até a estabilização do erro-édio quadrático. Ao final do processo, duas estiativas, e geral distintas, da prieira coponente são fornecidas pelos pesos que conecta o neurônio da caada interediária aos nós de entrada ( a estiativa) e aos neurônios da caada de saída (2 a estiativa). Para extração da segunda coponente, ais u neurônio é adicionado à caada interediária e as sinapses a ele relacionadas são inicializadas aleatoriaente. O treinaento é reinicializado, antendo constantes todos pesos relacionados às coponentes anteriorente extraídas, confore ilustrado na Figura, onde as sinapses representadas e linha contínua corresponde às sinapses congeladas e aquelas representadas e linha traceada corresponde às sinapses e treinaento. Este processo é repetido até a extração das M coponentes deseadas. É iportante ressaltar o papel de cada caada na constituição da saída. Podeos observar que a caada escondida constitui ua caada de proeção do espaço de dados de entrada na direção de ua das estiativas da prieira coponente e que a caada de saída constitui ua caada de reconstrução, tendo coo direção a segunda estiativa da coponente. Figura. Rede Supervisionada na Extração da Segunda Coponente. Alguas observações sobre este étodo pode ser realizadas: i) Os pesos da caada de proeção e reconstrução não são iguais, ou sea, teos u problea de estiação de 2 direções, das quais apenas direções serão utilizadas. ii) Os pesos não possue ódulo unitário, ou sea, cabe ao algortio de treinaento austar os pesos de fora que o produto de seus ódulos tenha valor unitário. iii) A convergência da caada de reconstrução para ua boa estiativa da coponente e questão é sensivelente ais rápida que a da caada de proeção. As observações anteriores nos levara à pesquisa de u novo étodo de treinaento, onde pesos da caada de proeção e reconstrução fosse inicializados iguais e sua atualização fosse seelhante ao longo de todo treinaento, de fora que o problea de estiação envolvesse apenas a estiação de direções. Considere a extração da p-ésia coponente. A saída do -ésio neurônio é dada por: ~ X = W p. X i. W pi + K p i= onde: X é a saída do -ésio neurônio e K p- é a contribuição das (p-) coponentes á extraídas. Fazendo W p = W p para p e, a sensibilidade de cada saída e relação a u dado peso é dada por: onde: ~ X p = δ ( ). i= X. W i pi + W. X δ( ) =, se = e δ( ) = 0,se p (I) (II)
O gradiente do erro-édio quadrático para u padrão de entrada pode ser escrito coo: ~ 2 eq ~ X = 2. ( X X ). (III) p = Considerando: 2 eq, ~ Wp = α ε = X X, as eq. II e III, a p regra de atualização dos pesos [9] é dada por: W p = 2. α. X. = ε. W p p + 2. α. γ, onde : γ = ε. i= X. W γ i pi É possível observar que a equação de treinaento anterior é idêntica à equação de treinaento por bacpropagation de ua rede de duas caadas de neurônios lineares no que se refere aos pesos da caada de proeção, excetuando-se o fator 2.α. γ, relacionado ao efeito sobre a função obetivo erroédio quadrático da anutenção dos pesos de abas caadas iguais. 4 Caracterização Clássica do Processo O étodo clássico forneceu ua base coparativa para a coparação da qualidade das coponentes extraídas pelos étodos neurais. Alguns autovalores do processo utilizado são apresentados na abela. abela. Alguns autovalores obtidos na Análise Clássica. C Autovalor C Autovalor 0,543 6 0,0827 2 0,3082 7 0,070 3 0,492 8 0,0440 4 0,48 9 0,037 5 0,0909 0 0,0349 Para avaliar a quantidade de energia representada por u núero crescente de coponentes principais, procedeos a soa noralizada dos autovalores, tendo coo fator de noralização a energia total do processo, ou sea, o soatório de todos autovalores obtidos. A quantidade percentual de energia dos dados por grupo de coponentes principais está representada na Figura 2 e na abela 2. Através delas, podeos perceber o caráter de concentração de energia da PCA. abela 2. Percentual de Energia por grupo de Coponentes. C Energia C Energia 3,94 % 5 93,68 % 3 58,94 % 20 97,07 % 5 7,07 % 30 99,28 % 7 80,4 % 40 99,86 % 0 86,98 % 50 99,99 % Figura 2. Percentual da Energia por Grupo de Coponentes. 5 Resultados odas análises desenvolvidas fora ipleentadas através de prograas desenvolvidos e linguage C ASI. Optaos por esta linguage pela aior velocidade das ipleentações, peritindo u aior núero de siulações na busca de parâetros ótios de treinaento, assi coo por visaros ua futura ipleentação e processadores digitais de sinais (DSPs) 5. Método não-supervisionado I (Sanger) O conunto de dados foi dividido e conuntos de treino, teste e validação, co 04, 52 e 52 eventos, respectivaente. Adotaos a regra-delta coo processo de treinaento, ou sea, ua atualização de pesos é realizada para cada evento do conunto de treinaento. A taxa de aprendizado (η) e de decréscio de aprendizado (γ) fora 0,2 e 0,999985, ou sea, a cada passo de treinaento, o valor de η é ultiplicado por γ, caracterizando u decaiento exponencial. Verificaos que a rede foi capaz de extrair 27 coponentes, através de 500.000 passos de treinaento. Os parâetros apresentados fora levantados através de alguas siulações e representa o elhor coproisso entre custo coputacional e qualidade de extração. Para avaliar a qualidade do processo de extração, ou sea, as direções das coponentes extraídas e a ortogonalidade entre as diferentes coponentes, o gráfico da atriz de ângulos apresentado na Figura 3 foi realizado. Cada eleento i desta atriz corresponde ao ódulo do ângulo forado entre a i- ésia coponente fornecida pelo étodo clássico e o -ésia coponente extraída pelo étodo neural. Podeos observar que as coponentes corretaente extraídas pelo étodo neural apresenta ângulos pequenos e relação as coponentes clássicas e a ortogonalidade entre coponentes distintas é antida. a abela 3, os ângulos obtidos para as 28 prieiras coponentes são apresentados.
abela 3. Módulo dos Ângulos por Coponente (graus). C Valor C Valor C Valor C Valor,08 8 4,20 5 0,08 22 4,8 2 0,78 9 5,8 6 7,09 23,59 3 3,32 0 8,29 7,76 24 2,07 4 3,63 4,56 8 7,0 25 6,6 5 5,87 2 27,89 9 4,79 26 8,62 6 3,59 3 28,26 20 9,7 27 8,73 7 4,03 4 4,7 2 0,65 28 37,99 ua época de treinaento corresponde a dez atualizações do pesos da rede. Para o étodo A, o elhor coproisso entre a velocidade de treinaento e a qualidade de extração é obtido para valores da taxa de aprendizado (η) entre 0.5 e. Adotaos η=0.85. Coo critério de udança da coponente e extração, adotaos a estabilização do EMQ para u valor de 5.0-7, ou sea, caso a diferença entre o EMQ atual e o EMQ da iteração anterior atina u valor inferior a esta constante, a coponente é considerada extraída. Para extração das 60 coponentes, 85748 passos de treinaento fora necessários. A abela 5 apresenta o núero de passos envolvidos na extração de alguas coponentes. Através dela, o custo coputacional da extração de cada coponente pode ser avaliado para o étodo proposto. abela 4. Passos para Extração das Coponentes. Figura 3. Ângulos entre as Coponentes Clássicas e as Coponentes extraídas pela rede eural (étodo Sanger). Diferenteente dos étodos supervisionados construtivos, neste étodo, todas coponentes são estiadas de fora siultânea. Siulações envolvendo o étodo de batelada tabé fora realizadas, poré os resultados obtidos não copensara seu aior custo coputacional. Vale lebrar que no étodo batelada, para ua atualização de pesos é utilizado o valor édio das atualizações calculadas para cada evento do conunto de treinaento 5.2 Método não-supervisionado II (APEX) Dada a analogia verificada entre o étodo APEX e o bacpropagation auto-supervisionado, foi verificado que para ua qualidade de estiação equivalente à obtida nos étodos supervisionados, u núero aior de passos de treinaento foi necessário, o que está relacionado a estiação de c ao longo do treinaento. Os resultados obtidos nas siulações não se apresentara significativos e não serão apresentados. 5.3. Métodos supervisionados Designaos o étodo que realiza duas estiações (proeção e reconstrução independentes) coo étodo A e o outro, coo étodo B (proeção e reconstrução iguais). O conunto de dados foi dividido e 04 eventos para o conunto de treino e 05 eventos para o conunto de teste. O étodo de batelada foi adotado. A cada época de treinaento, o EMQ conunto de teste foi avaliado, onde consideraos que C Passos C Passos 505 6 693 2 395 7 98 3 239 8 336 4 507 9 83 5 295 0 208 Quanto a qualidade das coponentes extraídas, verificaos que as estiativas fornecidas pela caada de reconstrução são sensivelente elhores que as da caada de proeção. O processo de extração não é crítico quanto as direções da caada de proeção, ua vez que seu efeito é a diinuição do ódulo das proeções, a qual é copensada pelo auste do ódulo dos vetores da caada de reconstrução. Coparando as direções fornecidas pelo étodo clássico e pelo étodo A, verificaos que o étodo foi capaz de extrair 27 coponentes do processo. a Figura 4, o gráfico da atriz de ângulos é apresentado. a abela 5, apresentaos alguns ângulos entre as coponentes fornecidas por abos étodos. abela 5. Módulo dos Ângulos por Coponente (graus). C Valor C Valor C Valor C Valor 0,54 8 0,59 5 9,72 22,4 2 0,39 9 3,23 6 2,7 23 4,6 3,68 0 7,4 7 7, 24 28,4 4 0,55 6, 8 7, 25 27,5 5 5,87 2 44,2 9 5,78 26 8,98 6 5,68 3 43,2 20 0,9 27 3,28 7 0,4 4 2,8 2 0,6 28 39,6 Considerando o étodo B, adotaos coo taxa de aprendizado o valor 0.75. Para extração das 60 coponentes, u total de 62764 passos de treinaento fora necessários. O critério de udança da coponente e extração foi o eso adotado no étodo A. A abela 6 apresenta o núero de passos envolvidos na extração de alguas coponentes.
Conclusões Figura 4. Ângulos entre as Coponentes Clássicas e as Coponentes extraídas pela rede eural (étodo A). abela 6. Passos para Extração das Coponentes. C Passos C Passos 6 6 3 2 9 7 69 3 6 8 203 4 74 9 734 5 58 0 60 U total de 23 coponentes fora extraídas pelo étodo, a u custo coputacional sensivelente enor. O gráfico da atriz de ângulos é apresentado na Figura 5. a abela 7, apresentaos os ângulos obtidos na coparação deste étodo co o étodo clássico. Podeos perceber que do ponto de vista de qualidade de estiação, este étodo é equivalente ao anterior, e especial, e relação às coponentes ais energéticas. abela 7. Módulo dos Ângulos por Coponente (graus). C Valor C Valor C Valor C Valor 0,54 8 0,59 5 7,05 22,75 2 0,39 9 3,2 6 8,0 23 2,32 3,68 0 0,3 7 3,7 24 75, 4 0,55 9,56 8 4,4 25 60,6 5 5,87 2 47,7 9 4,7 26 77, 6 5,68 3 47,4 20 3,7 27 52,2 7 0,4 4 2,7 2 2,4 28 57,3 Métodos neurais para extração PCA fora apresentados, discutidos e coparados quanto à qualidade das coponentes extraídas e quanto ao custo coputacional envolvido. A elhor relação custo-benefício entre estes parâetros foi obtida pelo novo étodo proposto, o bacpropagation auto-supervisionado odificado. Para este étodo, ua velocidade de convergência razoavelente aior foi obtida e a qualidade das coponentes se apresentou equivalente ou superior a dos deais, principalente na extração das coponentes ais significativas do processo Referências Bibliográficas [] Hayin, S. eural etwors: a Coprehensive Foundation, Second Edition, Prentice Hall, 999. [2] Hertz, J. K and Paler, R. G. Introduction to the heory of eural Coputation, Addison- Wesley, 99 [3] Sanger,. D. Optial unservised learning in a single-layer feedforward neural networ. eural etwors, 989. [4] Kung, S.Y. and Diaantaras, K.I. and aur, J.S. Adaptative Principal Coponents Extraction and Applications, IEEE ransactions on Signal Processing, vol 42, o. 5, May 994, pp 202-27 [5] Papoulis, A.. Probability, Rando Variables, and Stochastic Processes, hird Edition, Mc Grall-Hill, 99. [6] Vassali, M. R.and Seixas, J. M. Principal Coponent Analysis for eural Electron/Jet Discriination in Highly Segented Calorieters, VII International Worshop on Advanced Coputing and Analysis echniques, ACA 2000. [7] Soares-Filho and Seixas, J. M. and Calôba, L.P. Principal Coponents for Classification of Passive Sonar Signals. 200 IEEE International Syposiu on Circuits and Systes, Sydney, Australia, 200 [8] Baldi,P. and Horni,K. eural etwors and PCA learning fro Exaples without Local Minia, eural etwors, vol2, 985, pp 53-58 [9] Widrow, Bernard and Lehr, M. A. 30 years of Adaptive eural etwors: Perceptron, Madaline and Bacpropagation, IEEE proceedings v78, n9, 990. Figura 5. Ângulos entre as Coponentes Clássicas e as Coponentes extraídas pela rede eural (étodo B).