Detecção de mudanças em imagens multitemporais de sensoriamento remoto empregando support vector machines Rute Henrique da Silva Ferreira, Vitor Haertel Universidade Federal do Rio Grande do Sul UFRGS/PPGSR Caixa Postal 5044 950-970 Porto Alegre RS, Brasil rutehs@ig.com.br, victor.haertel@ufrgs.br Centro Universitário La Salle UNILASALLE Victor Barreto, 88 900-000 Canoas RS, Brasil rutehs@ig.com.br Abstract. In this paper we investigate a semi-supervised approach to change detection in remote sensing multitemporal image data by applying Support Vector Machines (SVM) techniques. The proposed methodology is based on the difference between fraction images produced in two different dates. In images of natural scenes the difference in the fractions such as vegetation and bare soil occurring in two different dates tend to present a distribution symmetric about the origin. This fact can be used to model two overlapping multivariate Normal distributions: change, no-change. The Expectation-Maximization algorithm (EM) is implemented to estimate the parameters (mean vector, covariance matrix and a priori probability) associated with these two distributions. Random samples are extracted from these two distributions and used to train a SVM classifier in this semisupervised approach. The proposed methodology is tested by using sets of multitemporal TM-Landsat multispectral image data covering the same scene in two different dates. The results are compared with the other procedures, including the available field observations. Palavras-chave: change detection, kernel methods, fraction-images, EM algorithm, detecção de mudanças, métodos baseados em kernel, imagens-fração, algoritmo EM.. Introdução O problema da detecção de mudanças em um conjunto de imagens da mesma cena, mas adquiridas em datas distintas tem sido alvo de interesse em áreas como sensoriamento remoto, diagnósticos médicos, planejamento urbano e vigilância por vídeo. Em sensoriamento remoto, técnicas de detecção de mudanças em imagens multitemporais têm sido aplicadas a monitoramento agrícola, florestal, de áreas urbanas, entre outras aplicações (Zanotta e Haertel, 0). Duas principais abordagens para o problema da detecção de mudanças têm sido propostas na literatura na área de sensoriamento remoto: o método supervisionado e o método não supervisionado (Singh, 989; Bruzzone e Pietro, 000; Lu et al, 003; Bruzzone et al, 004; Catellana et al, 007; Filippone e Sanguinetti, 00). A primeira baseia-se na análise comparativa de imagens temáticas cobrindo a mesma cena e obtidas a partir da classificação de imagens multiespectrais obtidas em datas distintas. A desvantagem deste procedimento é que ele requer informação de verdade terrestre (amostras de treinamento). Já na segunda abordagem, a detecção é feita pela comparação direta entre duas imagens multitemporais sem fazer uso de qualquer outro dado adicional. Nesse caso o processo se dá pela aplicação de operações matemáticas e métodos estatísticos não supervisionados. Embora o método supervisionado tenha algumas vantagens em comparação com o método não-supervisionado, como a definição da natureza do tipo de mudança ocorrida, a disponibilização de amostras de treinamento, é geralmente uma tarefa de difícil execução e de custo elevado. Consequentemente, o uso de métodos não supervisionados na detecção de 830
mudanças é mais atraente a nível operacional e tem sido largamente explorado pelos pesquisadores no desenvolvimento de seus trabalhos (Zanotta e Haertel, 0). As abordagens não supervisionadas para a detecção de mudanças são geralmente baseadas em imagens diferença. Estas são produzidas pela subtração, pixel por pixel, das imagens adquiridas em duas datas diferentes (Radke et al, 005). As diferenças podem ser calculadas, a partir dos dados originais ou a partir de dados extraídos dos originais, tais como componentes principais ou índices de vegetação. Em qualquer caso, uma imagem de diferenças é produzida e um limiar é aplicado para distinguir os pixels onde a mudança tenha ocorrido daqueles pixels que permaneceram inalterados. Dentre os vários métodos de detecção de mudança não-supervisionado propostos na literatura, o mais amplamente utilizado é aquele conhecido como análise do vetor de mudanças (CVA change vector analysis) (Bovolo et al, 00). A técnica de CVA é baseada em três etapas: comparação da imagem por subtração de vetores, cálculo da norma dos vetores de mudança espectral (por vezes também a direção do vetor de mudança espectral é calculada) e limiarização. (Bovolo et al, 00). Haertel et al (004) utilizam o conceito de pixel mistura no problema da detecção de mudanças. O fenômeno de mistura em pixels ocorre quando um mesmo pixel compreende duas ou mais classes distintas, denominadas, neste contexto, de componentes (endmembers). Então é possível derivar um novo conjunto de dados com as chamadas imagens-fração, as quais informam em cada pixel a fração ocupada por cada uma das componentes do terreno, como por exemplo, vegetação, solo, sombra/água. Essa abordagem apresenta duas vantagens: permite uma análise em nível de sub-pixel e elimina a necessidade de normalização radiométrica das imagens adquiridas em datas distintas. Dessa forma, as imagens de diferenças são produzidas a partir da subtração de componentes geradas a partir das imagens multiespectrais. Muitas abordagens propostas na literatura buscam modelar as distribuições para as classes mudança e não-mudança, a fim de estimar um valor adequado para o limiar que separa as duas classes (Bruzzone e Pietro, 000; Bazi et al, 005; Bovolo et al, 00). Por outro lado, observa-se que nos últimos anos, classificadores baseados em kernels têm sido usados com sucesso em diversas áreas como reconhecimento de faces, categorização de texto, previsão de séries temporais e reconhecimento de dígitos manuscritos. Dentre eles, pode-se citar Support Vector Machines (SVM), Kernel Análise de Componentes Principais (KPCA), Kernel Fisher Discriminante (KFD), Kernel k-médias e outros (Shawe-Taylor e Cristianini, 004). SVM constituem um método bem adequado para lidar com o problema da classificação de imagens hiperespectrais uma vez que eles podem lidar com espaços de dimensões grandes de forma eficiente, lidam com amostras ruidosas de uma forma robusta e produzem soluções esparsas, ou seja, o modelo que define a fronteira de decisão é expresso como uma função de um subconjunto de amostras de treinamento (Camps-Valls e Bruzzone, 005). Neste trabalho o problema da detecção de mudanças é abordado considerando inicialmente que duas distribuições gaussianas caracterizam as classes mudança e não mudança. Então o algoritmo Expectation-Maximization (EM) (Duda et al, 00) é utilizado para estimar os parâmetros estatísticos que caracterizam cada classe. Após essa etapa, é feita uma classificação com o uso de SVM, com amostragem normal multivariada. Para fins de comparação, também foi realizada uma classificação Bayesiana.. Metodologia O processo de detecção de mudanças investigado neste trabalho consiste nas seguintes etapas: pré-processamento (onde as imagens são registradas e as imagens-fração são produzidas), análise dos dados (produção das imagens diferença por subtração), estimação dos 830
parâmetros da função densidade de probabilidade, classificação Bayesiana e classificação com SVM. As subseções a seguir apresentam os conceitos envolvidos em cada etapa do processo.. A proposta para a abordagem do problema de detecção de mudanças Conforme mencionado na seção anterior, neste trabalho as imagens de diferenças são produzidas a partir da subtração de componentes das imagens-fração geradas a partir das imagens multiespectrais (Haertel et al. 004). O método utilizado para estimar as frações das componentes de mistura (endmembers) de cada pixel da imagem é o Modelo Linear de Mistura Espectral (MLME). O MLME assume que a resposta espectral de cada pixel pode ser modelada por uma combinação linear das respostas espectrais de cada componente, ponderada pela fração da área que essa componente ocupa dentro do pixel (Shimabukuro e Smith, 99). O MLME é representado por p equações lineares e m frações desconhecidas: R = SF + V () onde p é o número de bandas, m é o número de componentes, R é um vetor de dimensão p que representa a resposta espectral dos pixels para cada banda, S é uma matriz de ordem p por m cujos termos s ij correspondem à resposta espectral da componente j na banda i, F é um vetor de dimensão m que corresponde a fração do pixel ocupada pela componente j, e V é um vetor de dimensão p que corresponde ao erro residual do modelo. Para p > m o sistema é sobredeterminado, podendo ser resolvido para as frações (f j ) utilizando o método dos mínimos quadrados, sujeito às seguintes restrições: m () 0 f j j fj = j = Os valores da equação devem ser selecionados de forma a representar da melhor forma possível as componentes (endmembers) para a imagem em questão. O resultado do fracionamento contará com um número de imagens igual ao número de componentes escolhidas para representar a região. Em cenas naturais é frequente o uso das componentes vegetação, solo e sombra/água. Baseado na proposta de Zanotta e Haertel (0), neste trabalho serão utilizadas as componentes vegetação e solo. Assim, para cada data serão geradas as imagens-fração de vegetação e solo. A figura mostra o espalhamento dos dados da imagem diferenças, considerando no eixo vertical as diferenças de solo e no horizontal as diferenças de vegetação. Figura. Gráfico do espalhamento dos dados da imagem-diferença. Fonte: Zanotta, 00. 8303
Analisando os dados, pode-se constatar a existência de uma correlação negativa entre a distribuição das diferenças de vegetação e solo. Essa correlação é explicada naturalmente pelo consequente aumento na fração de solo resultante da diminuição da fração vegetação e viceversa. Ainda é possível verificar que a figura representa a mistura de duas distribuições: mudança e não-mudança. Supõe-se aqui que ambas apresentam uma distribuição normal, bivariada (mudança na fração vegetação e mudança na fração solo). Supõe-se ainda que ambas as distribuições tenham médias na origem (ou próxima a esta) devido à simetria na distribuição das duas variáveis. A diferença entre as duas distribuições vai se concentrar nas variâncias, com a classe mudança apresentando uma dispersão grande e a classe não mudança uma dispersão pequena, conforme mostra a figura. Figura. Distribuições das classes mudança e não-mudança. O algoritmo EM pode ser usado para fins de estimação dos parâmetros (vetor de médias, matriz de covariâncias e probabilidade a priori) destas duas distribuições (Duda et al, 00). Consideram-se aqui as classes ω e ω, respectivamente, como as classes mudança e nãomudança. Assim, M, S, P(ω ), M, S, P(ω ) representam os vetores de médias, matrizes de covariâncias e probabilidades a priori de cada classe. Para valores iniciais dos parâmetros no algoritmo EM, algumas considerações são necessárias e podem ser ilustradas por meio da figura. A classe mudança apresenta uma distribuição bivariada, alongada na direção de maior dispersão, que é estimada pelo primeiro autovalor (λ ). Para valor inicial no EM propõe-se utilizar a matriz de covariância para a totalidade das amostras de diferenças nas frações. Já as amostras da classe não-mudança estão concentradas em torno da origem, apresentando uma pequena dispersão, causada pelos inevitáveis ruídos nos dados. Esta dispersão será estimada pela variância na direção ortogonal à de maior variação, ou seja, na direção do segundo autovetor. Esta variância é estimada pelo segundo autovalor (λ ). A distribuição será, portanto circular em torno da origem com um raio proporcional a λ (Zanotta e Haertel, 0). Como geralmente o número de pixels apresentando pequena mudança ou mudança nula é muito maior do que o número de pixels apresentando sinais claros de mudança, os valores iniciais das probabilidades a priori podem ser estimados inicialmente como 0. para mudança e 0.9 para não-mudança. Assim, as estimativas iniciais para cada classe ficam: 0 M matriz de (3) = 0, S covariancia 0 =, P(ω ) = 0., M λ 0 = 0, S = da amostra total 0 λ e P(ω ) = 0.9 8304
Após a convergência do EM os parâmetros obtidos foram utilizados tanto na classificação Bayesiana quanto na obtenção de mostras de treinamento para a classificação com SVM.. Classificação Bayesiana Como se assumiu dados normalmente distribuídos, após a estimação dos parâmetros, as funções de decisão de Bayes para as classes mudança e não-mudança foram calculadas supondo uma distribuição normal multivariada (equação 4): p T (4) p( X ω ) ( ) i = π Σi exp ( X µ i ) Σi ( X µ i ) onde µ i é o vetor de média, Σ i é a matriz de covariância da classe ω i, P(ω i ) é a probabilidade a priori para a classe ω i e p é a dimensionalidade dos dados. Para o caso das duas classes mudança (ω ) e não mudança (ω ) as funções de decisão e a regra de decisão Bayesiana são dadas, respectivamente, pelas equações 5 e 6. p X ω. P ω (5) G (X) = ( ) ( ) G (X) = p( X ω ). P ( ω ) X ω, G ( X ) > G X ω, G ( X ) < G ( X ) ( X ) Após a classificação, foi produzido o mapa de mudança (Figura 3a)..3 SVM com amostragem normal multivariada A classificação com SVM utilizada neste trabalho está baseada em Abe (005), cujo problema pode ser expresso pelas equações (7) e (8). Maximizar: M α M α α y y H ( x, x ) (7) i i j i j i j i= i, j= (6) Sujeito a : M αi i i= y = 0 e C α i 0 para i=,..., M (8) onde: α i são multiplicadores de Lagrange, M é o número de amostras consideradas, H(x i, x j ) é a função de kernel e C é a variável de folga. Neste trabalho foi utilizado o kernel polinomial, descrito pela equação (9). H(x,x ) = (x T x ) d (9) Os algoritmos utilizados para a implementação do SVM foram desenvolvidos em MATLAB. Para fins de treinamento do classificador SVM foram utilizadas amostras randômicas extraídas a partir de uma distribuição normal multivariada, obtidas por meio da função mvnrnd.m, do MATLAB, usando em cada caso os parâmetros da respectiva distribuição estimados via EM. 3. Resultados Para os experimentos foram consideradas duas imagens Landsat 5-TM cobrindo a mesma área, localizada no estado de Roraima. A razão desta escolha deve-se a experiência adquirida em trabalhos anteriores (Haertel et al. 004). Esta área é caracterizada por duas planícies 8305
distintas, uma localizada a uma altitude média de 00 metros e outra localizada numa alta elevação formando um platô: o Platô do Tepequém. Uma floresta densa cobre a região de baixa elevação, enquanto a região do platô é dominada por cerrado. A imagem da primeira data foi adquirida em Outubro de 99 e a imagem da segunda data em Abril de 994. Nos experimentos foram consideradas apenas as frações resultantes para vegetação e solo. Na abordagem Bayesiana foram utilizadas as equações (5) e (6) e foi produzido o mapa de mudança mostrado na figura 3a, onde preto indica mudança e branco não-mudança. Os experimentos com SVM foram feitos com o kernel polinomial com 00, 400 e 600 amostras de treinamento para cada classe, utilizando as equações (7), (8) e (9). Para o parâmetro d da equação (9) (grau do polinômio), foram realizados testes com d variando de até 0. Os valores testados para a variável de folga C foram 0, 5 e. A figura 3 mostra alguns resultados obtidos. (a) (b) (c) (d) (e) (f) Figura 3. Experimentos. (a) abordagem Bayesiana, (b) SVM, d =, 400 amostras, C = 0, (c) SVM, d =, 600 amostras, C = 0, (d) SVM, d = 3, 400 amostras, C = 0, (d) SVM, d = 3, 600 amostras, C = 0 e (f) SVM, d = 6, 400 amostras, C = 0. 4. Discussão e Conclusões Neste trabalho o problema da detecção de mudanças foi abordado com o uso do classificador SVM. Para fins de treinamento do classificador SVM foram utilizadas amostras randômicas extraídas a partir de uma distribuição normal multivariada, considerando que duas distribuições gaussianas caracterizam as classes mudança e não-mudança. Uma inspeção visual dos resultados obtidos mostra uma boa concordância com os resultados obtidos em Haertel et al (004). Os experimentos com 00 amostras resultaram em imagens com muitos tons escuros (mudança), independente do parâmetro d utilizado. Com 400 amostras verificou-se que quando era utilizado parâmetro d par as imagens tinham mais tons escuros que as de parâmetro ímpar. Com 600 amostras os resultados foram semelhantes 8306
para parâmetros d pares e ímpares. Os testes com variável de folga 0 mostraram melhores resultados. Testes com 600 amostras, d par e variável de folga C = 0 aproximaram-se mais dos resultados obtidos em Haertel et al (004). Para trabalhos futuros sugere-se o uso do kernel gaussiano, que tem sido utilizado em outras abordagens para o problema de detecção de mudanças envolvendo kernel, como o support vector data domain (Bovolo et al, 00). Também se sugere experimentos com dados sintéticos para que se possa testar o processo em dados de referência, ou seja, um par de imagens onde se tenha conhecimento das alterações existentes. Referências Bibliográficas ABE, S. Support Vector Machines for Pattern Classifications. Kobe, Japão: Ed. Springer, 005. BAZI, Y. BRUZZONE, L. MELGANI, F. An Unsupervised Approach based on the Generalized Gaussian Model to Automatic Change Detection in Multitemporal SAR Images. IEEE Transactions on Geoscience and Remote Sensing. v. 43, n. 4, p. 874 886, 005. BOVOLO, F. CAMPS-VALLS, G. BRUZZONE, L. A Support Vector Domain Method for Change Detection in Multitemporal Images. Pattern Recognition Letters. v. 3, n. 0, p. 48 54, 00. BRUZZONE, L. PRIETO,D.F. Automatic Analysis of the Difference Image for Unsupervised Change Detection. IEEE Transactions on Geoscience and Remote Sensing. v. 38. n. 3, p. 7 8, 000. CAMPS-VALLS, G. BRUZZONE, L. Kernel-Based Methods for Hyperspectral Image Classification. IEEE Transactions on Geoscience and Remote Sensing, v. 43, n. 6, JUNE 005. CASTELLANA, L. D ADDABBO, A. PASQUARIELLO, G. A Composed Supervised/Unsupervised Approach to Improve Change Detection from Remote Sensing. Pattern Recognition Letters. v. 8, n. 4, p. 405 43, 007. DUDA, R. O. HART, P. E. STORK, D. G. Pattern Classification. nd edition, New York: John Wiley & Sons, 00. FILIPPONE, M. SANGUINETTI, G. Information Theoretic Novelty Detection. Pattern Recognition. v. 43, n. 3, p. 805 84, 00. HAERTEL, V.; SHIMABUKURO, Y. E.; ALMEIDA FILHO, R. Fraction Images in Multitemporal Change Detection. International Journal of Remote Sensing, v. 0, n. 3, p. 5473-5489, 004. LU, D. MAUSEL, P. BRONDIZIO, E. MORAN, E. Change Detection Techniques. International Journal of Remote Sensing. v. 5, n., p. 365 407, 003. RADKE, R. J. ANDRA, S. AL-KOFAHI, O. ROYSAM, B. Image Change Detection Algorithms: a Systematic Survey. IEEE Transactions on Image Processing. v. 4, n. 3, p. 94 307, 005. SHAWE-TAYLOR, J. CRISTIANINI, N. Kernel Methods for Pattern Analysis. Cambridge University Press, UK, 004. SHIMABUKURO, Y. E., and SMITH, J. A. The least-squares mixing models to generate fraction images derived from remote sensing multispectral data. IEEE Transactions on Geoscience and Remote Sensing, v.9, n., 6 0, 99. SINGH, A. Digital Change Detection Techniques using Remotely-Sensed data. International Journal of Remote Sensing. v. 43, n. 0, p. 989 003, 989. ZANOTTA, D. HAERTEL, V. Gradual Land Cover Change Detection based on Multitemporal Fraction Images. Pattern Recognition, v. 45, p. 97-937, 0. 8307