Boletim de Ciências Geodésicas ISSN: 1413-4853 bcg_editor@ufpr.br Universidade Federal do Paraná Brasil



Documentos relacionados
CLASSIFICAÇÃO DE IMAGENS HIPERESPECTRAIS EMPREGANDO SUPPORT VECTOR MACHINES

Despacho Econômico de. Sistemas Termoelétricos e. Hidrotérmicos

NOTA II TABELAS E GRÁFICOS

TEORIA DE ERROS * ERRO é a diferença entre um valor obtido ao se medir uma grandeza e o valor real ou correto da mesma.

2 Máquinas de Vetor Suporte 2.1. Introdução

5.1 Seleção dos melhores regressores univariados (modelo de Índice de Difusão univariado)

CAPÍTULO VI Introdução ao Método de Elementos Finitos (MEF)

Análise de Regressão. Profa Alcione Miranda dos Santos Departamento de Saúde Pública UFMA

Universidade Federal do Paraná Departamento de Informática. Reconhecimento de Padrões. Classificadores Lineares. Luiz Eduardo S. Oliveira, Ph.D.

CENTRO UNIVERSITÁRIO DO LESTE DE MINAS GERAIS - UnilesteMG

PARTE Apresente as equações que descrevem o comportamento do preço de venda dos imóveis.

Variabilidade Espacial do Teor de Água de um Argissolo sob Plantio Convencional de Feijão Irrigado

Ministério da Educação. Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira. Cálculo do Conceito Preliminar de Cursos de Graduação

Classificação de Padrões

O Método de Redes Neurais com Função de Ativação de Base Radial para Classificação em Data Mining

7. Resolução Numérica de Equações Diferenciais Ordinárias

Adriana da Costa F. Chaves

Introdução à Análise de Dados nas medidas de grandezas físicas

MAPEAMENTO DA VARIABILIDADE ESPACIAL

Sistemas de Filas: Aula 5. Amedeo R. Odoni 22 de outubro de 2001

PLANEJAMENTO DE EXPERIMENTOS E OTIMIZAÇÃO DE SISTEMAS MISTOS

Reconhecimento Estatístico de Padrões

Introdução e Organização de Dados Estatísticos

UNIVERSIDADE PRESBITERIANA MACKENZIE CCSA - Centro de Ciências Sociais e Aplicadas Curso de Economia

Cálculo do Conceito ENADE

Influência dos Procedimentos de Ensaios e Tratamento de Dados em Análise Probabilística de Estrutura de Contenção

Nota Técnica Médias do ENEM 2009 por Escola

Figura 8.1: Distribuição uniforme de pontos em uma malha uni-dimensional. A notação empregada neste capítulo para avaliação da derivada de uma

Fast Multiresolution Image Querying

Celso Liczbinski 1,2 Vitor Haertel 2

Estatística stica Descritiva

PLANILHAS EXCEL/VBA PARA PROBLEMAS ENVOLVENDO EQUILÍBRIO LÍQUIDO-VAPOR EM SISTEMAS BINÁRIOS

Regressão e Correlação Linear

Faculdade de Engenharia Optimização. Prof. Doutor Engº Jorge Nhambiu

Problemas Associados a Cones de Segunda Ordem

CONGRESSO DE INICIAÇÃO CIENTÍFICA E PÓS-GRADUAÇÃO - I CICPG SUL BRASIL Florianópolis 2010

Universidade Salvador UNIFACS Cursos de Engenharia Cálculo IV Profa: Ilka Rebouças Freire. Integrais Múltiplas

3 Algoritmos propostos

Aprendizagem de Máquina

CAPÍTULO 1 Exercícios Propostos

Aprendizagem de Máquina

RAE-eletrônica ISSN: Escola de Administração de Empresas de São Paulo. Brasil

Covariância e Correlação Linear

Programação Linear 1

Sistemas Robóticos. Sumário. Introdução. Introdução. Navegação. Introdução Onde estou? Para onde vou? Como vou lá chegar?

Investigações sobre o uso de dados hiperespectrais na classificação de especies agrícolas com respostas espectrais muito semelhantes 1

PROJEÇÕES POPULACIONAIS PARA OS MUNICÍPIOS E DISTRITOS DO CEARÁ

CQ110 : Princípios de FQ

Objetivos da aula. Essa aula objetiva fornecer algumas ferramentas descritivas úteis para

Geração de poses de faces utilizando Active Appearance Model Tupã Negreiros 1, Marcos R. P. Barretto 2, Jun Okamoto 3

Uso dos gráficos de controle da regressão no processo de poluição em uma interseção sinalizada

Metodologia IHFA - Índice de Hedge Funds ANBIMA

UM ALGORITMO EXATO PARA A OTIMIZAÇÃO DE CARTEIRAS DE INVESTIMENTO COM RESTRIÇÕES DE CARDINALIDADE

Estimativa da fração da vegetação a partir de dados AVHRR/NOAA

UMA ABORDAGEM ALTERNATIVA PARA O ENSINO DO MÉTODO DOS MÍNIMOS QUADRADOS NO NÍVEL MÉDIO E INÍCIO DO CURSO SUPERIOR

Os modelos de regressão paramétricos vistos anteriormente exigem que se suponha uma distribuição estatística para o tempo de sobrevivência.

Cálculo Numérico BCC760 Interpolação Polinomial

Análise Econômica da Aplicação de Motores de Alto Rendimento

Prof. Benjamin Cesar. Onde a(n, i) é o fator de valor atual de uma série de pagamentos. M: montante da renda na data do último depósito.

4 Critérios para Avaliação dos Cenários

Aula 7: Circuitos. Curso de Física Geral III F-328 1º semestre, 2014

ESTATÍSTICA MULTIVARIADA 2º SEMESTRE 2010 / 11. EXERCÍCIOS PRÁTICOS - CADERNO 1 Revisões de Estatística

MODELAGEM MATEMÁTICA DO PROCESSO DE EVAPORAÇÃO MULTI-EFEITO NA INDÚSTRIA DE PAPEL E CELULOSE

Variação ao acaso. É toda variação devida a fatores não controláveis, denominadas erro.


5 Implementação Procedimento de segmentação

Professor Mauricio Lutz CORRELAÇÃO

1 a Lei de Kirchhoff ou Lei dos Nós: Num nó, a soma das intensidades de correntes que chegam é igual à soma das intensidades de correntes que saem.

7 - Distribuição de Freqüências

Estimativa da Incerteza de Medição da Viscosidade Cinemática pelo Método Manual em Biodiesel

UM NOVO ALGORITMO GENÉTICO PARA A OTIMIZAÇÃO DE CARTEIRAS DE INVESTIMENTO COM RESTRIÇÕES DE CARDINALIDADE

Controlo Metrológico de Contadores de Gás

Apostila de Estatística Curso de Matemática. Volume II Probabilidades, Distribuição Binomial, Distribuição Normal. Prof. Dr. Celso Eduardo Tuna

Escola Secundária Dr. Ângelo Augusto da Silva Matemática 12.º ano Números Complexos - Exercícios saídos em (Exames Nacionais 2000)

Máquinas de Vetores de Suporte Supprot Vector Machine. Aluizio Fausto Ribeiro Araújo Universidade Federal de Pernambuco Centro de Informática

Aplicando o método de mínimos quadrados ordinários, você encontrou o seguinte resultado: 1,2

Software para Furação e Rebitagem de Fuselagem de Aeronaves

3 Metodologia de Avaliação da Relação entre o Custo Operacional e o Preço do Óleo

REGRESSÃO NÃO LINEAR 27/06/2017

Redes Neuronais (Introdução, perceptrões, e MLP)

UM PROBLEMA ECONOMÉTRICO NO USO DE VARIÁVEIS CLIMÁTICAS EM FUNÇÕES DE PRODUÇÃO AJUSTADAS A DADOS EXPERIMENTAIS

7.4 Precificação dos Serviços de Transmissão em Ambiente Desregulamentado

ANÁLISE DE CONFIABILIDADE DO MODELO SCS-CN EM DIFERENTES ESCALAS ESPACIAIS NO SEMIÁRIDO

PREVISÃO DO ÍNDICE MERVAL: UMA APLICAÇÃO DE REDES NEURIAS POLINOMIAIS GMDH

INTRODUÇÃO SISTEMAS. O que é sistema? O que é um sistema de controle? O aspecto importante de um sistema é a relação entre as entradas e a saída

PROGRAMAÇÃO DIÁRIA DE IMAGENS DE UM SATÉLITE DE OBSERVAÇÃO: UMA FORMULAÇÃO REDUZIDA

POLARIMETRIA ÓPTICA E MODELAGEM DE POLARES OBSERVADAS NO OPD/LNA NO PERÍODO DE

Testes não-paramétricos

CURSO ON-LINE PROFESSOR: VÍTOR MENEZES

Variáveis dummy: especificações de modelos com parâmetros variáveis

Redes Neurais (Inteligência Artificial)

Algoritmos Genéticos com Parâmetros Contínuos

3 Elementos de modelagem para o problema de controle de potência

NORMAS DE SELEÇÃO AO DOUTORADO

Regressão Múltipla. Parte I: Modelo Geral e Estimação

Controle de qualidade de produto cartográfico aplicado a imagem de alta resolução

Sinais Luminosos 2- CONCEITOS BÁSICOS PARA DIMENSIONAMENTO DE SINAIS LUMINOSOS.

FUNÇÃO NO R PARA OBTENÇÃO DO DESENHO D-ÓTIMO EM MODELOS DE MISTURAS COM RESTRIÇÕES

ESPELHOS E LENTES ESPELHOS PLANOS

Universidade Estadual de Ponta Grossa/Departamento de Economia/Ponta Grossa, PR. Palavras-chave: CAPM, Otimização de carteiras, ações.

Transcrição:

Boletm de Cêncas Geodéscas ISSN: 1413-4853 bcg_edtor@ufpr.br Unversdade Federal do Paraná Brasl ANDREOLA, RAFAELA; HAERTEL, VITOR CLASSIFICAÇÃO DE IMAGENS HIPERESPECTRAIS EMPREGANDO SUPPORT VECTOR MACHINES Boletm de Cêncas Geodéscas, vol. 16, núm. 2, abrl-juno, 2010, pp. 210-231 Unversdade Federal do Paraná Curtba, Brasl Dsponível em: http://www.redalyc.org/artculo.oa?d=393937716002 Como ctar este artgo Número completo Mas artgos Home da revsta no Redalyc Sstema de Informação Centífca Rede de Revstas Centífcas da Amérca Latna, Carbe, Espanha e Portugal Projeto acadêmco sem fns lucratvos desenvolvdo no âmbto da ncatva Acesso Aberto

CLASSIFICAÇÃO DE IMAGENS HIPERESPECTRAIS EMPREGANDO SUPPORT VECTOR MACHINES Classfcaton of Hyperspectral Images wth Support Vector Machnes RAFAELA ANDREOLA VITOR HAERTEL Unversdade Federal do Ro Grande do Sul UFRGS Centro Estadual de Pesqusas em Sensoramento Remoto e Meteorologa - CEPSRM Caxa Postal 15052 - CEP 91501-970 - Porto Alegre - RS, Brasl rafaela.andreola@gmal.com; vctor.haertel@ufrgs.br. RESUMO Neste estudo é nvestgado o desempenho do classfcador Support Vector Machnes (SVM) na classfcação de magens em alta dmensonaldade. Como SVM opera em um par de classes a cada vez, propõe-se aqu a sua mplementação em uma estrutura em forma de árvore bnára, onde somente duas classes são tratadas em cada nó. A acuráca da magem temátca produzda por este esquema de classfcação é avalada para duas funções kernel dstntas e em função do valor para dmensonaldade dos dados. Os testes foram realzados empregando magens hperespectras adqurdas pelo sstema sensor AVIRIS. São aqu apresentados e dscutdos os resultados obtdos. Palavras-chave: Support Vector Machnes; Classfcador em Árvore Bnára; Sensoramento Remoto; Imagens Hperespectras. ABSTRACT In ths study we nvestgate the performance of the Support Vector Machnes (SVM) classfer when appled to the classfcaton of hgh dmensonal remotely sensed mage data. As SVM deals wth a par of classes at a tme, we propose ts mplementaton n a bnary tree approach where two classes only are dealt wth at each node. The accuracy of the thematc mage produced by ths classfcaton scheme was evaluated for two dfferent kernel functons and dfferent data dmensonalty. Tests were performed usng hperspectral mage data collected by the sensor system AVIRIS. Results are presented and dscussed.

Andreola, R. e Haertel, V.. 211 Keywords: Hyperspectral Image Data; Support Vector Machnes; Bnary Tree Classfer; Remote Sensng. 1. INTRODUÇÃO Dados em alta dmensonaldade (hperespectras) podem oferecer um poder dscrmnante bem mas elevado do que dados tradconas em baxa dmensonaldade. FUKUNAGA (1990) demonstra que classes espectralmente muto semelhantes entre s (classes que compartlham vetores de médas muto próxmos) podem, frequentemente, ser separadas satsfatoramente em espaços de dmensão mas alta. Esta é uma das motvações para o desenvolvmento de sstemas sensores com um número grande de bandas espectras, conhecdos como sensores hperespectras. Entretanto, uma das prncpas dfculdades que surgem no processo de classfcação de dados em alta dmensonaldade por meo de classfcadores paramétrcos como, por exemplo, o da Máxma Verossmlhança Gaussana (MVG), dz respeto ao número geralmente lmtado de amostras de trenamento dsponíves, em comparação com o número de parâmetros a serem estmados. Um número lmtado de amostras de trenamento resulta em uma estmatva pouco confável dos parâmetros e, conseqüentemente, em um valor reduzdo na acuráca da magem temátca produzda. Este fato pode ser comprovado varando a dmensonaldade dos dados. Incando o processo de classfcação com dados em dmensonaldade reduzda, a acuráca da magem temátca tende ncalmente a aumentar na medda em que nformações adconas (na forma de bandas espectras) são ncluídas. Em um determnado momento, a acuráca atnge um máxmo para em seguda passar a dmnur, na medda em que a dmensonaldade dos dados contnua a aumentar. Este problema é conhecdo pela comundade nternaconal como fenômeno de Hughes. Redução na dmensonaldade dos dados por meo de técncas de extração ou seleção de varáves feature selecton/extracton (WANG, 2008; ZHONG & WANG, 2008), ntrodução de mostras de trenamento sem-rotuladas (LICZBINSKI & HAERTEL, 2008; JACKSON & LANDGREBE, 2001; SHASHAHANI & LANDGREBE, 1994), técncas de análse dscrmnante regularzada (FRIEDMAN, 1989; AEBERHARD et al., 1994; KUO & CHANG, 2007; BERGE et al., 2007), são abordagens que vem sendo nvestgadas com o objetvo de mnmzar as conseqüêncas de tal fenômeno. Neste contexto, desperta o nteresse a utlzação de classfcadores não paramétrcos, como é o caso de SVM, que apresenta a vantagem de não ser afetado por este tpo de problema (HUANG et al., 2002). O emprego de SVM na classfcação de magens hperespectras em sensoramento remoto vem sendo nvestgado por alguns autores. MELGANI e BRUZZONE (2004) apresentam resultados obtdos com a aplcação de SVM em magens hperespectras. Em seu estudo os dos autores comparam os resultados obtdos por SVM com os produzdos por outros dos classfcadores também não-paramétrcos (redes neuras RBF e K- vznhos mas próxmos). No presente estudo, a avalação é feta comparando os

212 Classfcação de magens hperespectras empregando suport vector machnes. resultados produzdos por SVM com aqueles produzdos pelo classfcador paramétrco mas frequentemente utlzado pela comundade em sensoramento remoto (MVG). SHAH et al. (2003) apresentam um sumáro dos város trabalhos desenvolvdos por aqueles autores com vstas à classfcação de magens hperespectras, nclundo o emprego de SVM com a etapa de otmzação mplementada va método Lagrangano. WATANACHATURAPORN et al. (2004) relatam uma nvestgação ncal no emprego de SVM na classfcação de magens hperespectras em sensoramento remoto. Em seu trabalho, aqueles autores nvestgam os efetos na acuráca dos resultados causados pelos dferentes métodos de mplementar SVM em problemas com múltplas classes e pelo tpo de kernel utlzado. Outras aplcações empregando técncas de SVM têm sdo nvestgadas por outros autores como, por exemplo, BROWN et al. (2000) e BROWN et al. (1999). Nestes trabalhos os autores nvestgam a utlzação de SVM em problemas de mstura espectral, comparando uma abordagem envolvendo SVM com o bem conhecdo Modelo Lnear de Mstura Espectral. A utlzação do classfcador SVM apresenta, entretanto, algumas dfculdades. Possvelmente a mas óbva resda no fato de SVM ser aplcável dretamente a apenas um par de classes a cada vez (ABE, 2005). Na metodologa proposta, nvestga-se a mplementação de SVM em um classfcador em estágo múltplo estruturado na forma de árvore bnára. Uma vantagem adconal desta estrutura resde na possbldade de otmzação na escolha das varáves ou feções (features) que conferem um maor poder dscrmnante entre o par de classes a cada nó ndvdual da árvore bnára. 2. SUPPORT VECTOR MACHINES (SVM) SVM é um classfcador lnear no qual busca-se mnmzar o erro com relação ao conjunto das amostras de trenamento (rsco empírco) e o erro com relação ao conjunto das amostras de teste (rsco na generalzação). O objetvo de SVM consste em obter o equlíbro entre esses erros, mnmzando o excesso de ajustes com respeto às amostras de trenamento (overfttng) e aumentando, conseqüentemente, a capacdade de generalzação do classfcador (VAPNIK, 1999). O problema denomnado de overfttng consste em o classfcador memorzar os padrões de trenamento, gravando suas peculardades e ruídos, ao nvés de extrar as característcas geras que permtrão a generalzação ou reconhecmento de padrões não utlzados no trenamento do classfcador (SMOLA et al., 2000). A questão da generalzação pode ser mas bem avalada para o caso de duas classes. Assumndo que as amostras de trenamento das duas classes são lnearmente separáves, a função de decsão mas adequada é aquela para a qual a dstânca entre os conjuntos das amostras de trenamento é maxmzada. Neste contexto, a função de decsão que maxmza esta separação é denomnada de ótma (Fgura 1). Este prncípo é mplementado em SVM e a correspondente formulação matemátca dada a segur está baseada em ABE (2005).

Andreola, R. e Haertel, V.. 213 Seja um conjunto com M amostras de trenamento x (=1,..., M) em um problema que consste de duas classes lnearmente separáves (ω 1 e ω 2 ). Cada amostra fca assocada a um rótulo: y =1 se x ω 1, y = -1 se x ω 2. A forma geral de uma função lnear de decsão é dada por: T D( x) = w x + b (1) onde x é um vetor m-dmensonal representando o padrão a ser classfcado, w também é um vetor m-dmensonal (pesos) e b o termo ndependente. Como estamos supondo amostras lnearmente separáves, não ocorrerá a stuação em que wx + b = 0. Desta forma, o crtéro para classfcação pode ser escrto como: wx +b > a para x ω 1 (y =1) (2) wx +b < -a para x ω 2 (y = -1) para a>0. Dvdndo ambos os membros da desgualdade por a, o crtéro para classfcação fca: 1 1 T para y = wx + b (3) 1 para y = 1 Deste modo, ambas as condções podem ser combnadas em uma únca: T y ( w x + b) 1 para =1, 2,..., M (4) sendo M o número de amostras dsponíves. Fgura 1 - O hperplano ótmo separando os dados com a máxma margem ρ. Os support vectors (amostras crculadas) e uma dstrbução dos dados no R 2 (atrbutos x 1 e x 2 ). Fonte: Adaptado de ABE (2005).

214 Classfcação de magens hperespectras empregando suport vector machnes. O hperplano: T D( x) = w x + b= c para 1< c < 1 (5) forma, então, uma superfíce de separação entre as duas classes. Para c= 0, a Equação (5) defne um hperplano stuado à mea dstânca entre os dos hperplanos extremos (c=1 e c=-1). A dstânca entre estes dos hperplanos extremos é denomnada de margem, representada por ρ na Fgura 1. Supondo a exstênca de pelo menos uma amostra x para a qual D(x)= 1, e pelo menos uma outra amostra para a qual D(x)= -1, então o hperplano D(x)= 0 representa a melhor superfíce de separação entre estas amostras, no sentdo de que maxmza o poder de generalzação do classfcador. A regão entre os dos hperplanos extremos (-1 D(x) 1) pode ser entendda como a regão de generalzação. O hperplano D(x)=0, ao maxmzar o valor da margem, maxmza a regão de generalzação sendo, portanto, neste sentdo ótmo (Fgura 1). A dstânca d(x) de uma amostra x a um plano qualquer D(x) é dada por: d(x) = D( x) / w (6) O hperplano ótmo será, portanto, aquele para o qual esta dstânca é máxma. Esta condção pode ser obtda mnmzando-se w, ou equvalentemente, mnmzando: 1 2 1 T Q ( w) = w = w w (7) 2 2 com respeto aos parâmetros da função D(x), w e b. Para satsfazer a convenção adotada com relação ao rótulo de cada amostra (y ), a restrção da Equação (4) deve ser mposta. Tal restrção é mposta de manera a assegurar que não ocorram amostras de trenamento na regão de separação entre as duas classes (entre as margens). A nclusão das restrções (4) no problema de mnmzação da Equação (7) pode ser resolvdo por meo da técnca dos multplcadores de Lagrange (α). Esta abordagem pode ser expressa por mnmzar M 1 T T Q( w, b, α) = ww α{ y( wx + b) 1 (8) } 2 = 1 com relação a w, b e maxmzar com relação a α, sendo α=(α 1,,..., α M ) os multplcadores de Lagrange, um vetor de dmensão M, com α 0. Deste modo, obtém-se a forma dual, expressa em termos de α somente (HAMEL, 2009; ABE, 2005): M M 1 T Q( α) = α αα y y xx j j = 1 2, j= 1 j (9)

Andreola, R. e Haertel, V.. 215 A solução deste problema permte expressar w em termos de α resultando em uma nova forma para a função de decsão (1): T D( x) = α yx x + b S onde S é o conjunto de índces dos support vectors, sto é, as amostras de trenamento para as quas α >0. A formulação acma apresenta solução somente no caso de as amostras x pertencentes às duas classes serem lnearmente separáves. Em stuações reas, entretanto, os dados frequentemente não são lnearmente separáves. Este fato ocorre com frequênca em magens multespectras cobrndo cenas naturas, como aquelas empregadas em sensoramento remoto (Landsat-TM e SPOT, entre outros sstemas sensores), nas quas as dferentes classes de cobertura do solo mutas vezes não são lnearmente separáves. Para estender a formulação acma para conjuntos de dados não lnearmente separáves, permte-se que alguns dados possam volar a restrção da Equação (4), por meo da ntrodução do conceto de varável de folga (slack varable) representada por ξ (ξ 0). Tas varáves relaxam as restrções mpostas ao problema de otmzação. Neste caso, a restrção expressa na Equação (4) torna-se: y ( w T x + b) 1 (11) Esta abordagem é conhecda como SVMs com margens suaves (soft-margn) (HAMEL, 2009; LORENA & CARVALHO, 2007; ABE, 2005). Para o caso de 0<ξ <1 a correspondente amostra x não terá margem máxma, mas será rotulada corretamente. No caso de ξ 1, a amostra x será rotulada erroneamente. Para levar em consderação o termo ξ, mnmzando assm o erro sobre os dados de trenamento, a Equação (7) é reformulada como: M 1 2 Q( w, b, ξ) = w + C ξ (12) 2 = 1 A constante C, conhecda como parâmetro de margem, estabelece o equlíbro entre a maxmzação da margem e a mnmzação dos erros. O procedmento, neste caso, é semelhante ao desenvolvdo para o caso de margens rígdas, resultando em uma função de decsão semelhante à anteror (Equação 10), com a únca dferença de C α 0 para =1,..., M (HAMEL, 2009; ABE, 2005). As SVMs lneares são efcazes na classfcação de conjuntos de dados lnearmente separáves, contamnados com a presença de alguns ruídos e outlers. Entretanto, em stuações reas ocorre com bastante freqüênca classes não lnearmente separáves. A solução mas smples nestes casos consstra na adoção ξ (10)

216 Classfcação de magens hperespectras empregando suport vector machnes. de polnômos de grau mas elevado. Entretanto, esta abordagem apresenta o rsco de excesso de ajuste (overfttng), e a conseqüente redução no poder de generalzação do classfcador (DUDA et al., 2000). Uma opção mas efcente consste em mapear os dados para um espaço de dmensão mas alta, no qual os dados tornam-se lnearmente separáves (HAMEL, 2009; CRISTIANINI & SHAWE-TAYLOR, 2000). Na abordagem apresentada a segur, as M amostras no espaço orgnal (x 1, x 2,..., x M ), com dmensão m são mapeadas no novo espaço (espaço característco) por meo de uma função g de dmensão n>m: g = ( g1, g2, L g n ). Neste novo espaço as M amostras x (dmensão m) são mapeadas em M amostras com dmensão n: g1( x1) g2( 1) x M g ( ) n x1, g1( x2) g2( 2) x M g ( ) n x2,..., g1( xm ) g2( M ) x M gn( xm) O processo consta então de dos passos: 1- uma função não lnear g mapea os dados do espaço orgnal para um novo espaço de dmensão mas alta; 2- a classfcação é feta neste novo espaço empregando uma função de decsão lnear. A forma geral da função de decsão no espaço orgnal é dada pela Equação (1). Neste novo espaço, a função lnear de decsão fca: D( x) = w. g( x ) + b (13) e a Equação (9) torna-se, portanto: M M 1 Q( α ) = α α α j y y j H ( x, x j ) (14) 2 = 1, j= 1 onde H(x, x j ) = g(x ) T.g(x j ), que recebe a denomnação de kernel. A condção necessára para que uma função H seja um kernel é conhecda como condção de Mercer: M hh jh( x, x j) 0 (15), j= 1 para todo M, x e h, onde h é um número real (ABE, 2005). Neste novo espaço, a função de decsão expressa em termos de α - Equação (10) - torna-se:

Andreola, R. e Haertel, V.. 217 D( x) = α yg( x ) g( x ) + b (16) S ou alternatvamente expressa em termos de kernel: com b dado por: D ( x) = α y H ( x, x) + b (17) S 1 b = y j α y H ( x x j ) U j U S sendo U o conjunto dos support vectors denomnados de unbounded, sto é, aqueles para os quas 0<α <C. Exstem, portanto, duas possíves abordagens ao problema do mapeamento de dados em espaços de dmensão mas elevada para fns de classfcação empregando funções de decsão lneares g(x) (HAMEL, 2009; HERBRICH, 2002): 1- Selecone explctamente uma função g para mapeamento dos dados em um espaço de dmensão mas alta. 2- Selecone dretamente um kernel H que satsfaça as condções de Mercer. Este kernel va defnr de uma forma mplícta a função de mapeamento g. Do ponto de vsta matemátco, as duas possíves abordagens ctadas acma são equvalentes. A segunda abordagem (escolha dreta de um kernel) apresenta, entretanto, a vantagem de ser mas fácl de mplementar e de ser nterpretada. Outra vantagem oferecda por esta abordagem consste em não se necesstar operar dretamente no espaço em dmensão mas alta, no qual os dados estão sendo mapeados. Tanto a fase de trenamento do classfcador quanto a fase de classfcação dos dados utlza-se dretamente H(x, x) em lugar da função de mapeamento g(x). Exemplos comuns de kernel são a Radal Bass Functon (RBF) (Equação 19) e o kernel Polnomal (Equação 20): 2 H ( xx, ) = exp( γ x x ) (19) onde γ é um parâmetro postvo para controle T d H ( xx, ) = ( xx + 1) (20) e d é um número natural e determna o grau do polnômo. A regra de classfcação é dada por: D(x )>0 x ω 1 (21) D(x )<0 x ω 2 Se D(x )=0, então x está sobre o hperplano separador e não é classfcado. Quando as amostras de trenamento são lnearmente separáves, a regão {x 1>D(x)> -1} é a regão de generalzação. (18)

218 Classfcação de magens hperespectras empregando suport vector machnes. Pode-se mostrar que SVM apresenta vantagens com respeto a classfcadores convenconas, especalmente quando o número de amostras de trenamento é pequeno e a dmensonaldade dos dados é grande, devdo ao fato de que os classfcadores convenconas não têm mecansmos para maxmzar a margem (dstânca entre os dos hperplanos extremos). A maxmzação da margem permte aumentar a capacdade de generalzação do classfcador (ABE, 2005). 3. MATERIAIS E MÉTODOS 3.1 Materas Nestes expermentos são empregados dados em alta dmensonaldade (hperespectras) coletados pelo sstema sensor AVIRIS sobre uma área agrícola de testes, desenvolvda pela Purdue Unversty, e denomnada de Indan Pnes, localzada no noroeste do Estado de Indana, EUA, sob a denomnação de 92AV220. Da cena 92av220, fo seleconado de um segmento de magem de (435x435) um recorte de (145x118), num total de 17110 pxels. Esta área dspõe de dados de verdade terrestre. O que torna a área atraente para os estudos que empregam dados em alta dmensonaldade é esta possur classes com característcas espectras muto semelhantes entre s e, portanto, dfíces de serem separados por meo de dados tradconas em baxa dmensonaldade como, por exemplo, dados Landsat-TM. Do conjunto de 220 bandas que dspõe a cena AVIRIS (cobre a regão 0.4μm à 2.4μm do espectro eletromagnétco, com resolução espectral de 10nm), foram removdas as bandas rudosas causados por problemas atmosfércos (vapor de água, CO 2, O 3 ). A dmensonaldade fnal dos dados utlzados é de 190 bandas. A área seleconada apresenta 10 classes de cobertura do solo. Para realzar os expermentos foram seleconadas ses classes que apresentam a maor dfculdade de separação (Ver Tabela 1). Tabela 1 - Relação das classes usadas nos expermentos. A magem fo obtda no níco da época de crescmento das culturas de soja e mlho. Nesta etapa apenas aproxmadamente 5% da área está efetvamente coberta pela vegetação, sendo os restantes 95% composto por solo exposto e resíduo de colhetas anterores. Estas condções resultam em classes espectralmente muto

Andreola, R. e Haertel, V.. 219 semelhantes (vetores de méda muto semelhantes entre s), consttundo-se por esta razão em um desafo ao processo de classfcação. A classe pastagens/árvores (grass trees) fo ncluída por possur característcas espectras bem dferentes das demas sendo, portanto, faclmente separável das demas classes, servndo de referênca no processo de classfcação. A Fgura 2 lustra o comportamento espectral médo das classes da Tabela 1, onde se verfcam dos aspectos prncpas: a dferença espectral da classe pastagens/árvores com relação às demas classes, e a alta semelhança entre as outras cnco classes (varações das culturas de mlho e soja). Fgura 2 - Curvas de resposta espectral méda para cada uma das classes: mlho cultvo mínmo (cnza pontlhada), mlho planto dreto (cnza contínua fna), pastagens/árvores (cnza contnua grossa), soja cultvo mínmo (preta contínua fna), soja planto dreto (preta contínua grossa), soja cultvo convenconal (preta pontlhada). resposta espectral [uw/(cm^2*nm*sr)] 6000 5000 4000 3000 2000 1000 0 20 40 60 80 100 120 140 160 180 200 bandas Como nos dados utlzados o ntervalo numérco de varação dos contadores dgtas ao longo do conjunto das bandas espectras é muto grande, decdu-se padronzar estes dados (equações 22 e 23) para méda gual a zero e desvo padrão gual a um (JOHNSON E WICHERN,1982): 1 2 1 ( ) ( Z= V X μ ) (22)

220 Classfcação de magens hperespectras empregando suport vector machnes. onde μ é o vetor de médas, X é o espaço orgnal, Z é o espaço normalzado e V 1/2 é dado por: σ11 0 L 0 (23) 1 0 σ 2 22 L 0 V = M M O M 0 0 σ L pp O resultado deste processo de padronzação está lustrado na Fgura 3. Fgura 3 - Curvas de resposta espectral méda para as classes após a padronzação: mlho cultvo mínmo (cnza pontlhada), mlho planto dreto (cnza contínua fna), pastagens/árvores (cnza contnua grossa), soja cultvo mínmo (preta contínua fna), soja planto dreto (preta contínua grossa), soja cultvo convenconal (preta pontlhada). 1 0,5 resposta espectral 0 0 40 80 120 160 200-0,5-1 -1,5 bandas Do conjunto das amostras dsponíves para cada classe foram extraídos dos subconjuntos: um com amostras de trenamento e um segundo com amostras de teste (método holdout). Com a fnaldade de capturar as varações naturas que ocorrem ao longo da área coberta pela magem, as amostras em ambos os subconjuntos foram extraídos alternadamente do conjunto das amostras dsponíves nos dados de verdade terrestre.

Andreola, R. e Haertel, V.. 221 Para tornar os resultados obtdos para as váras classes comparáves entre s, os expermentos empregaram subconjuntos de trenamento e de teste de mesmo tamanho para todas as classes em estudo: 50, 100, 200 e 300 amostras por classe para trenamento e 300 amostras por classe para teste. As amostras de trenamento e teste foram tomadas a ntervalos regulares no conjunto total de amostras para cada classe. Desta forma, as amostras de trenamento em um expermento não necessaramente constam no conjunto das amostras de trenamento do expermento segunte. 3.2 Métodos A metodologa adotada mplementa SVM em uma árvore bnára, do tpo bottom-up, a fm de possbltar a utlzação de SVM em problemas mult-classe. Os resultados produzdos por este classfcador assm proposto foram comparados com aqueles resultantes do classfcador MVG - largamente usado na comundade centífca em reconhecmento de padrões. Para o trenamento do classfcador, em cada nó da árvore, aplca-se o algortmo que pode ser vsto na Fgura 4a. As amostras de trenamento são ncalmente atrbuídas ao nó raz. Em seguda, supondo-se que os dados sejam normalmente dstrbuídos, escolhe-se as duas classes que orgnarão os nós flhos pelo crtéro dstânca de Bhattacharyya: ( Σ 1 1+ Σ2) 1 T Σ1+ Σ2 1 ( 2 (24) B = μ1 μ2) ( μ1 μ2) + ln 12 12 8 2 2 Σ1 Σ 2 onde μ 1 e μ 2 são os vetores de médas das classes ω 1 e ω 2 respectvamente, e Σ 1 e Σ 2 as matrzes de covarânca. O uso do algortmo SFS (Sequental Forward Selecton) tem por objetvo seleconar, em cada nó, o subconjunto das N bandas com maor poder dscrmnante (SERPICO et al., 2003). Estas serão usadas para o cálculo dos coefcentes no caso do uso do classfcador SVM ou para a estmação dos parâmetros no caso do uso do classfcador MVG cujas acurácas serão comparadas. Utlzando-se as respectvas funções de decsão, classfca-se as amostras de trenamento das demas classes em um dos dos nós flhos. Caso a porcentagem das amostras de trenamento de uma dada classe classfcada em um dos nós flhos seja maor que determnado lmar de verossmlhança (LV), todas as amostras serão atrbuídas a este nó flho. Caso contráro, as amostras de trenamento desta classe são replcadas em ambos os nós flhos. Esse processo será repetdo até que cada nó contenha apenas uma classe (nós termnas). A Fgura 4b lustra o fluxograma do algortmo para teste do classfcador. Entra-se com as amostras de teste no nó raz. Com base nos parâmetros estmados (caso do classfcador MVG) ou nos coefcentes calculados (caso do classfcador

222 Classfcação de magens hperespectras empregando suport vector machnes. SVM) na fase de trenamento, em cada nó decde-se em qual nó flho a amostra de teste será classfcada. Este processo é repetdo para cada amostra, ao longo dos város níves na árvore bnára, até que um nó termnal seja atngdo, atrbundo desta forma um rótulo a cada uma das amostras. Fgura 4 (a) Fluxograma do algortmo de trenamento do classfcador. (b) Fluxograma do algortmo de teste do classfcador.

Andreola, R. e Haertel, V.. 223 Para fns de mplementação da metodologa proposta neste estudo, fo desenvolvda uma ferramenta denomnada de Classfcador em Árvore Bnára (CAB). O CAB, mplementado em forma de árvore bnára, possu duas versões, uma para o classfcador MVG e outra para o classfcador SVM. Desenvolvdos em ambente MATLAB 6.1, o CAB-MVG e o CAB-SVM apresentam como resultado a Matrz de Confusão. 4. RESULTADOS E DISCUSSÕES Os expermentos foram desenvolvdos com o objetvo de quantfcar numercamente os resultados de desempenho da metodologa proposta na classfcação de magens dgtas de alta dmensonaldade em sensoramento remoto, utlzando dferentes kernels e parâmetros no classfcador SVM mplementados pela ferramenta CAB-SVM. Fo realzada uma sére de expermentos, tomando-se a dmensonaldade dos dados como varável ndependente e a resultante acuráca na classfcação como varável dependente. O valor da dmensonaldade dos dados, sto é, o número de bandas espectras empregadas, varou entre 20 e 180. Em um prmero conjunto de expermentos as bandas espectras foram seleconadas por meo do algortmo SFS, a um ntervalo de 20 bandas. Em um segundo conjunto de expermentos a seleção destas bandas foram fetas a ntervalos regulares no espectro eletromagnétco (sem o uso do SFS), com o ntuto de verfcar a efcáca do SFS em um classfcador não paramétrco como o SVM. O objetvo dos expermentos é analsar o comportamento da acuráca produzda pelo classfcador SVM em função da dmensonaldade dos dados e dos parâmetros escolhdos. Os resultados assm obtdos são comparados com aqueles obtdos nas mesmas condções, empregando-se um classfcador paramétrco tradconal (MVG), mplementado pela ferramenta CAB-MVG. Notase que o valor mínmo admssível para as amostras de trenamento no caso do CAB- MVG é gual à dmensonaldade dos dados mas um. Um valor nferor resultará em uma matrz de covarânca sngular e, portanto, não utlzável (LANDGREBE, 2003). O número de amostras de trenamento fo escolhdo delberadamente pequeno com relação à dmensonaldade dos dados para desta forma melhor evdencar os problemas que ocorrem em stuações reas, ou seja, o pequeno número de amostras de trenamento normalmente dsponíves. Na realzação dos expermentos foram usadas 80 bandas para o cálculo da dstânca de Bhattacharyya (no caso de 50 amostras de trenamento, todas elas são usadas para o cálculo da dstânca de Bhattacharyya) e LV de 99%. Decdu-se fxar o LV em 99% para que fosse obtda sempre a maor estrutura possível, ou seja, o número máxmo de nós termnas (MORAES, 2005). Segundo o autor, valores mas altos para o LV produzem, uma menor varabldade no valor estmado da acuráca de cada classe ndvdual, em função da dmensão dos dados.

224 Classfcação de magens hperespectras empregando suport vector machnes. Outras grandezas são requerdas pela ferramenta CAB-SVM. Os multplcadores de Lagrange (Equação 8) foram calculados empregando a função quadprog.m dsponível em MATLAB, enquanto que o parâmetro de margem C (Equação 12) fo tomado gual a um (1). Nos város expermentos realzados, envolvendo dferentes sub-conjuntos de amostras de trenamento, foram nvestgados dstntos valores para o grau do polnômo (no caso do kernel polnomal) e para gamma (γ), no caso do kernel RBF. As Fguras 5-12 lustram os resultados produzdos pelo classfcador SVM (ferramenta CAB-SVM mplementando os kernels polnomal e RBF) juntamente com aqueles produzdos pelo classfcador mas tradconal MVG (ferramenta CAB-MVG), para 50, 100, 200 e 300 amostras de trenamento. Nas Fguras 5, 7, 9 e 11 estão lustrados o resultados dos expermentos empregando bandas seleconadas va SFS e nas Fguras 6, 8, 10 e 12 os resultados com bandas seleconadas sem SFS. Deve-se observar aqu que os expermentos empregando a ferramenta CAB-SVM evdencaram que a acuráca nos resultados depende dos valores adotados para o grau do polnômo no caso do kernel polnomal e para gamma (γ) no caso do kernel RBF. Para fns de comparação entre os dos classfcadores, estas fguras lustram os melhores resultados obtdos em cada caso. Fgura 5 - Acuráca Méda para os classfcadores MVG e SVM com kernel Polnomal grau 2 e RBF γ 1.5 para 50 amostras de trenamento com SFS. 50 amostras de trenamento com SFS 95 Acuráca Méda (%) 90 85 80 75 70 65 MVG POLY 2 RBF 1.5 60 0 20 40 60 80 100 120 140 160 180 200 Dmensonaldade dos Dados

Andreola, R. e Haertel, V.. 225 Fgura 6 - Acuráca Méda para os classfcadores MVG e SVM com kernel Polnomal grau 2 e RBF γ 1.5 para 50 amostras de trenamento sem SFS. 50 amostras de trenamento sem SFS 95 Acuráca Méda (%) 90 85 80 75 70 65 MVG POLY 2 RBF 1.5 60 0 20 40 60 80 100 120 140 160 180 200 Dmensonaldade dos Dados Fgura 7 - Acuráca Méda para os classfcadores MVG e SVM com kernel Polnomal grau 3 e RBF γ 2 para 100 amostras de trenamento com SFS. 100 amostras de trenamento com SFS 95 Acuráca Méda (%) 90 85 80 75 70 65 MVG POLY 3 RBF 2 60 0 20 40 60 80 100 120 140 160 180 200 Dmensonaldade dos Dados

226 Classfcação de magens hperespectras empregando suport vector machnes. Fgura 8 - Acuráca Méda para os classfcadores MVG e SVM com kernel Polnomal grau 3 e RBF γ 2 para 100 amostras de trenamento sem SFS. 100 amostras de trenamento sem SFS Acuráca Méda (%) 95 90 85 80 75 70 65 60 0 20 40 60 80 100 120 140 160 180 200 Dmensonaldade dos Dados MVG Poly 3 RBF 2 Como se pode perceber pela análse das Fguras 5 à 8, os resultados obtdos para 50 amostras de trenamento são pratcamente guas com e sem o uso de SFS, e para 100 amostras de trenamento, os resultados sem SFS são melhores do que os com uso de SFS nos expermentos realzados com a ferramenta CAB-SVM. O mesmo não acontece para os expermentos realzados com a ferramenta CAB- MVG, onde os resultados se mostram claramente melhores com o uso do SFS, apesar de apresentarem, em ambos os casos, os efetos do fenômeno de Hughes. Em todos os casos as acurácas médas para o classfcador SVM são superores às acurácas médas utlzando o classfcador MVG. Fgura 9 - Acuráca Méda para os classfcadores MVG e SVM com kernel Polnomal grau 3 e RBF γ 0.5 para 200 amostras de trenamento com SFS. 200 amostras de trenamento com SFS Acuráca Méda (%) 95 90 85 80 75 70 65 60 0 20 40 60 80 100 120 140 160 180 200 Dmensonaldade dos Dados MVG POLY 3 RBF 0.5

Andreola, R. e Haertel, V.. 227 Fgura 10 - Acuráca Méda para os classfcadores MVG e SVM com kernel Polnomal grau 3 e RBF γ 0.5 para 200 amostras de trenamento sem SFS. 200 amostras de trenamento sem SFS 95 Acuráca Méda(%) 90 85 80 75 70 65 MVG Poly 3 RBF 0.5 60 0 20 40 60 80 100 120 140 160 180 200 Dmensonaldade dos Dados Fgura 11 - Acuráca Méda para os classfcadores MVG e SVM com kernel Polnomal grau 3 e RBF γ 1.5 para 300 amostras de trenamento com SFS. 300 amostras de trenamento com SFS 95 Acuráca Méda (%) 90 85 80 75 70 65 MVG POLY 3 RBF 1.5 60 0 20 40 60 80 100 120 140 160 180 200 Dmensonaldade dos Dados

228 Classfcação de magens hperespectras empregando suport vector machnes. Fgura 12 - Acuráca Méda para os classfcadores MVG e SVM com kernel Polnomal grau 3 e RBF γ 1.5 para 300 amostras de trenamento sem SFS. 300 amostras de trenamento sem SFS 95 Acuráca Méda (%) 90 85 80 75 70 65 MVG Poly 3 RBF 1.5 60 0 20 40 60 80 100 120 140 160 180 200 Dmensonaldade dos Dados Pode-se perceber que, mesmo com o aumento do número de amostras de trenamento de 200 para 300 (Fguras 9 à 12), a acuráca méda não se eleva substancalmente (com o uso da ferramenta CAB-SVM SVM mplementado em forma de árvore bnára); pelo contráro, na maora dos casos a acuráca méda para 300 amostras de trenamento é levemente menor ou gual que aquela para 200. Isso acontece porque o poder máxmo de generalzação do classfcador é atngdo com 200 amostras de trenamento, ou seja, o conjunto de 200 amostras representa bem as característcas de cada classe, e o ncremento para 300 apresenta o rsco de aumento no número de amostras rudosas, para um reduzdo acréscmo de nformação. Comparando-se os resultados lustrados nas Fguras 5 à 12 pode-se perceber que o maor ganho obtdo empregando o método SFS baseado em dstâncas estatístcas ocorre em classfcadores paramétrcos como a MVG. Neste caso, os expermentos mostraram um ganho sgnfcatvo no valor da acuráca méda com o pco passando de 81.3% para 87.9% no expermento empregando 100 amostras de trenamento e de 85.7% para 89.2% com 200 amostras de trenamento. O mesmo não ocorreu nos expermentos empregando o classfcador SVM. Utlzando-se SFS com o crtéro Dstânca de Bhattacharyya para seleção de varáves o ganho para o classfcador SVM mostrou ser mínmo, resultando anda em uma osclação nos valores de acuráca méda estmada para dstntos valores de dmensonaldade dos dados. Os expermentos envolvendo 100 amostras de trenamento (Fgura 7) servem