Avaliação da técnica de casamento de imagens aplicada à localização geográfica de VANTs

Transcrição

1 Avaliação da técnica de casamento de imagens aplicada à localização geográfica de VANTs Carlos Anderson Oliveira Silva Programa de Pós-Graduação em Engenharia Elétrica Universidade Federal de Minas Gerais Trabalho submetido para obtenção do título de Mestre em Inteligência Computacional Dezembro de 2015

2 Seja você quem for, seja qual for a posição social que você tenha na vida, a mais alta ou a mais baixa, tenha sempre como meta muita força, muita determinação e sempre faça tudo com muito amor e com muita fé em Deus, que um dia você chega lá. De alguma maneira você chega lá. Ayrton Senna

3 ...à minha família, amigos e mestres.

4 Agradecimentos Primeiramente gostaria de agradecer a Deus pela vida e a oportunidade de trilhar este caminho. Aos meus pais e familiares pelo amor, incentivo e apoio incondicional. Ao meu orientador professor Dr. Cristiano Leite de Castro, pelo suporte, correções e incentivos sempre de grande valia e aos professores Dr. Antônio de Pádua Braga e Dr. Élcio Hideiti Shiguemori pelos ensinamentos e conhecimentos compartilhados. Aos colegas de laboratório LITC, do projeto de pesquisa PITER e os Meninos lá de casa pelo acolhimento e palavras de incentivo. Aos colegas da TOTVS e do Instituto Federal do Norte de Minas Gerias pela compreensão e flexibilização de horários. Aos amigos e todos aqueles que fizeram parte, de forma direta ou indireta, deste trabalho o meu sincero e entusiasmado MUITO OBRIGADO!

5 Resumo Este trabalho apresenta resultados da abordagem de casamento de imagens aplicada à estimativa de posição para a navegação autônoma de VANTs (Veículos Aéreos Não Tripulados). O cálculo da posição absoluta se dá com a uniformização das imagens via extração de bordas e descoberta da posição na imagem georreferenciada que fornece a maior correlação com a imagem capturada em tempo de voo. As extrações de bordas são realizadas por cinco métodos: operador de canny e redes neurais dos tipos RBF e MLP treinadas sob duas metodologias diferentes. A avaliação do método considera diferentes tipos de terreno (floresta, rodovia e zona urbana), a capacidade em seguir rotas reais especificadas em um simulador de voo e a acurácia do método sobre quadros extraídos de um vídeo em um voo real realizado na região da cidade de São Carlos- SP. Ainda é apresentada uma nova proposta de interface do sistema NAV para o projeto PITER, que facilita a realização de testes e extração de resultados de futuras técnicas de estimação de posição. Os resultados obtidos são promissores e indicam que nosso sistema de visão pode ser usado na substituição do GPS (Global Positioning System) em voos reais.

6 Abstract This work presents results of the image matching approach applied to the position estimate for autonomous navigation of UAVs (Unmanned Aerial Vehicles). The absolute position is obtained via image edge extraction and estimation of coordinates in the georeferenced image that provides the highest correlation with the image captured in flight time. Edge descriptors considered in our evaluation are: Canny operator and RBF and MLP neural networks trained under two different methodologies. The evaluation considers different types of terrain (forests, highways and urban areas), the ability of following planned routes specified in a flight simulator and also the accuracy on frames drawn from a video of a real flight performed in the region of São Carlos-SP. We also provided a new NAV system interface for the PITER project which allows automation of testing and infomation extraction with other position estimate techniques. The results are promising and indicate that our vision method can be used in replacement of Global Positioning System (GPS) in real flights.

7 Sumário 1 Introdução 1 2 Estado da arte Odometria Rastreamento de landmarks Casamento de imagens Extração de características em imagens Correlação Conclusões do capítulo Algoritmos de Casamento de Imagens Sistema de Visão Computacional Métodos de extração de bordas Detector de bordas de Canny Detector de bordas via RBF Treinamento da rede RBF Ativação da rede RBF MultiLayer Perceptron - MLP Multilayer Perceptron Multiobjetivo - MLP MOBJ Treinamento da rede MLP MOBJ Ativação da rede MLP MOBJ Experimentos e resultados Banco de Imagens Classes de terreno Simulador Novo VC Vídeo Discussão i

8 5 Conclusões e propostas de continuidade 55 A Banco de imagens 62 ii

9 Lista de Figuras 1.1 Imagens de Veículos Aéreos Não Tripulados (VANT) (Extraída de (VANTs, 2015)) Sistema de visão baseado em casamento de imagens Processo de correlação entre as imagens Exemplo da aplicação do extrator de bordas Canny em uma imagem de satélite Arquitetura de uma rede RBF. (Extraída de RBF (2015) ) Padrões de treinamento representando as possíveis bordas de uma imagem Esquema do processo de extração de bordas via RBF. (Extraída de (Goltz, 2011)) Extração de bordas utilizando RBF Esquema da arquitetura de uma rede multicamadas Gráfico da função de tangente hiperbólica Extração de bordas utilizando MLP MOBJ Imagens do banco: (a) Classe Floresta, (b) Classe Urbano e (c) Classe Rodovida Geração da imagem template a partir do pixel α(x, y) Resultado da aplicação do Filtro Gaussiano para simular a diferença espectral na captura da imagem Distâncias obtidas pela RBF para as 80 imagens do banco: (a) Metogologia 1 (b) Metodologia Distâncias obtidas pela MLP MOBJ para as 80 imagens do banco: (a) Metogologia 1 (b) Metodologia Imagens do banco onde ocorreram Falsos Positivos, ambas da classe Floresta. (a) Imagem 6, FP via MLP MOBJ - Metodologia 1 (b) Imagem 52, FP via RBF - Metodologia iii

10 4.7 Tela do módulo VC Tela do módulo Novo VC Trajeto planejado para rotas no simulador Trajeto do VANT utilizando Canny Trajeto do VANT utilizando RBF (Metodologia 1) Trajeto do VANT utilizando MLP (Metodologia 1) Trajeto do VANT utilizando RBF (Metodologia 2) Trajeto do VANT utilizando MLP (Metodologia 2) Desvios obtidos por Canny no simulador do voo Desvios obtidos pelas RBFs no simulador de voo. (a) RBF (Metodologia 1). (b) RBF (Metodologia 2) Desvios obtidos pelas MLPs MOBJ no simulador de voo. (a) MLP MOBJ (Metodologia 1). (b) MLP MOBJ (Metodologia 2) Imagem capturada pelo VANT na região de São Carlos-SP Desvios obtidos por Canny durante o voo Desvios obtidos pelas RBFs durante o voo. (a) RBF (Metodologia 1). (b) RBF (Metodologia 2) Desvios obtidos pelas MLPs MOBJ durante o voo. (a) MLP MOBJ (Metodologia 1). (b) MLP MOBJ (Metodologia 2) Valores da matriz de correlação. (a) Classe Urbano. (b) Classe Floresta Exemplo de extração de bordas pelos métodos Canny e MLP MOBJ Metodologias 1 e 2. (a) Imagem original. (b) Bordas via Canny (c) Bordas via MLP MOBJ Metodologia 1 (d) Bordas via MLP MOBJ Metodologia iv

11 Lista de Tabelas 2.1 Resumo das vantagens e desvantagens das técnicas estudadas Resultados consolidados do banco de imagens Resultados obtidos no banco de imagens por tipos de terreno Desempenho dos extratores Canny, RBF e MLP MOBJ na estimativa de posições sobre uma rota planejada Desempenho dos extratores de borda com imagens do vídeo: Canny, RBF e MLP MOBJ no vídeo v

12 Capítulo 1 Introdução A navegação de veículos aéreos não tripulados (VANT), também conhecidos como drones ou Aeronaves Remotamente Pilotadas (ARPs), tem buscado alternativas à tecnologia GPS (do inglês GPS - Global Positioning System). Mas esse é um grande desafio que não se restringe apenas a esse tipo de veículo, como cita (Jung et al., 2005), a navegação autônoma se estende à navegação de automóveis terrestres. Para este, várias soluções são propostas desde a construção de estradas inteligentes até um sistema de sensores e processamento que faz com que o veículo permaneça em uma estrada, ou siga uma rota pré-determinada. A Figura 1.1 apresenta alguns modelos de VANTs. A motivação para o estudo apresentado neste trabalho veio dos sistemas de navegação autônoma de VANTs disponíveis. Esses sistemas frequentemente fazem uso de sensores inercial (do inglês INS - Inertial Navigation System) e de posicionamento global por satélite. O sistema de posicionamento global, GPS, sofre com a frequente indisponibilidade de seu sinal em algumas regiões do mundo e se o sinal de GPS, por algum motivo, se torna indisponível ou corrompido, a estimativa da posição fornecida apenas pelo INS diverge no tempo e tende a se tornar inútil dentro de instantes (Conte and Doherty, 2008; Kim and Sukkarieh, 2007). Falhas no sinal de GPS são motivadas por diversos fatores, tais como perturbações na ionosfera (Muella, 2008), muito comuns na América do Sul, vulnerabilidade a jamming ou até mesmo a ataques maliciosos. Adicionalmente, por não ser uma tecnologia nacional, seu uso para operações sigilosas (militares) fica restrito (Conte and Doherty, 2008; Shiguemori et al., 2007). Por essas razões, um sistema de navegação autônoma capaz de lidar com falhas de GPS, de curto ou longo prazo, se faz muito útil. Uma solução potencial para este problema é substituir o GPS por um sistema de Visão Computacional, capaz de estimar a posição geográfica de uma aeronave a partir de imagens capturadas em tempo real ao longo do voo. 1

13 Figura 1.1: Imagens de Veículos Aéreos Não Tripulados (VANT) (Extraída de (VANTs, 2015)). Dentre as abordagens na literatura, temos o reconhecimento de marcos nas imagens (landmarks), odometria, casamento de imagens, dentre outras que são técnicas empregadas em pesquisas recentes para possibilitar a navegação desse tipo de aeronave. Em seu trabalho de Mestrado, (Goltz, 2011) diz que várias estratégias são propostas para dar uma solução a navegação de VANTs, como por exemplo, por rádio controle, porém esta é uma solução que depende da interação com um piloto, ou seja, a aeronave não seria um equipamento totalmente autônomo. A solução a ser proposta para o problema de navegação visual precisa levar em consideração restrições relacionadas à velocidade de processamento da técnica empregada, carga útil da aeronave e variações nas imagens devido a ações do homem, tempo e luminosidade. Uma abordagem recentemente investigada por nosso grupo de pesquisa é baseada no casamento de imagens do terreno sobrevoado com imagens de satélite georreferenciadas (Goltz et al., 2011; Horta et al., 2012; Santos et al., 2013) e têm-se mostrado promissora para imagens desta natureza. Partindo-se de uma rota planejada para o VANT, o casamento de imagens permite aferir se esse encontra-se em rota ou se houve algum desvio. Na hipótese de que a rota não esteja sendo seguida, pode-se então corrigir a trajetória para que a aeronave possa cumprir com êxito o seu pla- 2

14 nejamento de voo. A estimativa da posição absoluta se dá com a uniformização das imagens via extração de bordas e descoberta da posição na imagem georreferenciada que fornece a maior correlação com a imagem aérea. Quando o casamento é realizado corretamente, a posição calculada por este procedimento é similar àquela fornecida pelo GPS. Neste trabalho, a técnica de casamento de imagens se divide em duas etapas: extração de características e cálculo da correlação entre imagens. Diante disto, a escolha de um bom extrator de características se faz necessário para o bom desempenho da técnica. Uma imagem possui várias características: intensidade dos pixels (cor), formas, luminosidade, textura, dentre outras. Ademais as imagens processadas em um sistema de visão computacional aplicado à navegação autônoma são, geralmente, capturadas em instantes distintos e isso faz com que existam variações de características como: luminosidade, cor, além de escala, rotação e translação, que devem ser considerados pelos algoritmos de reconhecimento de padrões (Castro et al., 2009; Shiguemori et al., 2007). Ou seja, a escolha de um extrator de características deve ser pensada levando em consideração todas essas variáveis. Por serem robustos à variações de luminosidade e diferença espectral das imagens, descritores de características baseados em bordas (arestas) são utilizadas como base de investigação neste trabalho. Adicionalmente, variações escala, rotação e projeção podem ser corrigidas via técnicas padrões de processamento de imagens e através de informações obtidas pelo sistema de navegação da aeronave (Conte and Doherty, 2008; Santos et al., 2013; Silva et al., 2015). Este trabalho tem como objetivo geral o estudo e avaliação da técnica de casamento de imagens para estimação da posição geográfica de VANTs com vistas a navegação autônoma. Os objetivos específicos são apresentados a seguir. 1. Implementar metodologia de casamento de imagens proposta por (Goltz, 2011) no sistema NAV/simulador de voo; 2. Avaliar o desempenho das metodologias de casamento de imagens sob três perspectivas: (i) com relação a diferentes tipos de terreno (floresta, rodovia e urbano), (ii) sua capacidade em seguir por rotas especificadas em um simulador de voo e (iii) o desempenho da técnica em um vídeo que retrata uma situação real de voo; 3. Criar um instrumento para validar/testar outras metodologias a serem propostas. 3

15 Com o desenvolvimento deste trabalho, foi possível contribuir com: desenvolvimento de uma interface gráfica para automação dos testes realizados no ambiente do simulador de voo; Implementação e disponibilização de cinco extratores de características baseados em bordas no módulo de visão computacional do sistema NAV; Extensão dos resultados obtidos em (Goltz, 2011), com uma análise empírica da metodologia de casamento de imagens em rotas pré-estabelecidas no simulador e também em um vídeo real; Publicação de um artigo no 12 o Congresso Brasileiro de Inteligência Computacional, o qual foi escolhido para publicação especial do International Journal of High Performance Systems Architecture (Silva et al., 2015) Este documento está organizado em capítulos da seguinte forma: No Capítulo 2 são apresentadas as principais abordagens disponíveis na literatura para estimação do posicionamento de veículos em uma determinada cena ou área. O Capítulo 3 apresenta a abordagem metodológica utilizada neste trabalho, bem como o estudo realizado sobre os conceitos empregados no desenvolvimento dos experimentos. O Capítulo 4 traz a descrição dos experimentos realizados, os objetivos de cada um deles, os resultados obtidos com a execução dos mesmos e, por fim, uma discussão sobre esses resultados. O Capítulo 5 faz a conclusão do trabalho, apresenta sugestões de continuidade do mesmo e ainda apresenta as contribuições trazidas com o desenvolvimento do estudo. 4

16 Capítulo 2 Estado da arte A navegação autônoma de aeronaves tem se tornado um assunto de interesse na literatura e diversas soluções têm sido propostas para este problema. Um bom sistema de navegação autônoma deve permitir que um veículo capture a informação da área, interprete-a e tome a decisão sem precisar da intervenção humana. Estudos sobre Veículos Aéreos Não Tripulados (Lacerda et al., 2014), despertam o interesse de órgãos militares e governos, para fins de guerra e segurança, a fim de evitar a exposição de seres humanos em tarefas que colocam a vida em risco (Santos et al., 2013). Atualmente, um dos maiores desafios nessa área é dotar um VANT da capacidade de navegação autônoma, de modo a reduzir a dependência dos Sistemas de Navegação Global por Satélite (GNSS) (Medeiros and Silva, 2008). Alguns sistemas já propostos utilizam o processamento de imagens para estimação da posição atual de forma a substituir ou reduzir a dependência do GPS. As técnicas para estimar a posição de um VANT podem ser enquadradas em 3 classes e essas são descritas nas subseções a seguir deste capítulo. 2.1 Odometria Uma técnica comumente empregada para estimativa de posicionamento de um VANT é a odometria (Bay et al., 2008; Castro et al., 2009; Lacerda et al., 2014; Mirisola et al., 2015; Santos and Shiguemori, 2009). Essa estimativa se dá com a correlação de características de imagens capturadas em diferentes momentos. A ideia de funcionamento da odometria é integrar informações, de modo incremental, ao longo do movimento tomando como referência um ponto contido na cena. A correlação destas imagens se dá após a extração de características, também chamada de features. Vários algoritmos estão disponíveis na literatura para a correlação dessas imagens, como o SIFT (do inglês, Scale Invariant Features), proposto por 5

17 (Lowe, 1999), que permite uma detecção e extração de features na imagem, invariante a luminosidade, rotação, translação, escala e pequenas variações de perspectivas. O algoritmo tem 4 etapas principais: detecção de extremos, localização de pontos-chave, definição de orientação e descrição dos pontos-chave (Castro et al., 2009). O melhor candidato para correlacionar cada ponto-chave é encontrado pela identificação de seu vizinho mais próximo, através da menor distância euclidiana entre os descritores dos pontos. Maiores informações em (Lowe, 1999). Em seu trabalho, (Lacerda et al., 2014) geram a informação de rumo de uma aeronave com base em apenas dois pontos distintos de coordenadas informadas por um sistema de processamento de imagens em uma área sobrevoada. Os pontos representam um ponto de origem e um ponto de chegada, ou ainda, pontos intermediários entre um voo mais longo. A proa é o ângulo formado entre o eixo longitudinal da aeronave e o Norte de Referência. O rumo é a direção da rota. A informação da proa pode ser fornecida pelo sistema inercial da aeronave, no entanto, o rumo deve ser estimado. A estimação do rumo é importante porque pode ter influência do vento e turbulência, principalmente para aeronaves de pequeno porte, como é o caso dos VANTs (Lacerda et al., 2014). Segundo os autores, sua técnica é aplicável em sistemas de navegação autônoma para veículos aéreos não tripulados, porque permite aferir se a aeronave está ou não na rota correta, e, caso não esteja, fazendo as correções necessárias, o VANT poderá cumprir a missão a ele designada. Um outro descritor de características muito utilizado na literatura é o SURF (do inglês, Speeded Up Reboust Features), apresentado por (Bay et al., 2008). Essa técnica, também invariante a rotação e escala, baseia-se na matriz Hessiana para a detecção dos pontos de referência. A maior vantagem desse método em relação aos demais é o curto tempo de resposta durante o processo, possibilitando a sua aplicação em tempo real de voo. O SURF e o SIFT foram testados por (Santos and Shiguemori, 2009) em imagens de diferentes sensores (imagens aéreas e de satélite) contendo a mesma cena. Ambos os algoritmos obtiveram 100% de acerto com as correspondências feitas entre imagens do mesmo sensor. Para as correspondências feitas entre imagens de sensores diferentes, o SIFT acertou 44, 12% e o SURF, 33, 33%. Exposto isso, os métodos SIFT e SURF não se mostraram robustos a trabalharem com imagens capturadas em diferentes sensores. 6

18 2.2 Rastreamento de landmarks Outro assunto bastante encontrado na literatura no contexto de processamento de imagens para estimativa de posição é o rastreamento de Landmarks (Andrade et al., 2011; Michaelsen and Meidow, 2014; Sala et al., 2006; Shiguemori et al., 2007). Um sistema de reconhecimento de landmarks, aplicado à navegação de veículos aéreos, deve reconhecer um landmark capturado por um sistema de visão embarcado em um VANT, em tempo real, enquanto sobrevoa uma área específica apoiando assim o sistema de navegação para realizar uma missão planejada (Andrade et al., 2011; Shiguemori et al., 2007). Várias são as formas de localizar um landmark: através do casamento de imagens, técnicas de correlação de imagens, como o SIFT e SURF citados anteriormente, através da busca de uma forma geométrica de prévio conhecimento. (Lacerda et al., 2014) faz uma observação importante em seu trabalho sobre a influência de agentes externos dificultadores no reconhecimento de marcos e cumprimento de uma rota planejada para uma aeronave: vento e turbulências, muito comuns para este tipo de aeronave de pequeno porte. Segundo (Michaelsen and Meidow, 2014), apesar do reconhecimento de landmarks não ser um assunto novo na literatura, incorporá-lo em um controle de navegação de VANTs é uma tarefa não-trivial que tem sido abordada de forma bastante heurística até agora. O algoritmo ORB (do inglês, Oriented FAST and Rotated BRIEF ) é um dos métodos mais eficientes para o processamento digital de imagens (Silva Filho et al., 2014), sendo invariante a rotação e ruídos nas imagens. O seu funcionamento se divide em três etapas: localizar pontos chaves na imagem de busca, realizar um calculo sobre os descritores destes pontos e, por fim, relacionar os pontos da imagem de busca com a imagem treinada. Em seu trabalho, Silva Filho et al. (2014) utiliza o método ORB para extração de características de imagens aéreas e lógica Fuzzy para identificar marcos nessas imagens. Com a combinação destas técnicas, (Silva Filho et al., 2014) alcançou uma especificidade em torno de 99, 47%. A utilização de imagens de grande resoluções ou de grande dimensões traz um custo computacional elevado quando se trabalha com reconhecimento de marcos. (Andrade et al., 2011) tratam essa dificuldade distribuindo o processamento de reconhecimento em duas unidades de processamento: a bordo do VANT e outra em uma estação em terra. Isso se dá porque o VANT tem uma limitação quanto a sua capacidade de carga (Horta et al., 2012). Em solo é possível realizar o processamento de forma mais rápida e logo em seguida a informação é enviada do solo para a aeronave em 7

19 missão. Com a técnica de reconhecimento de landmarks distribuídas, os resultado de (Andrade et al., 2011) são promissores para ser utilizado em um sistema de navegação autônoma de veículos aéreos não tripulados. Outro exemplo da técnica de reconhecimento de landmarks para navegação autônomas de robôs é (Sá et al., 2014), que utiliza um VANT para realizar a captura de marcos em um ambiente indoor e envia as informações de localização para um robô em solo. O objetivo deste trabalho é fazer com que, através de cooperação entre VANT e robô, o veículo terrestre alcance uma posição de um mapa passando por pontos específicos planejados anteriormente. A aplicação da técnica de landmarks tem como premissa que os marcos a serem localizados sejam de conhecimento prévio, o que torna-se um complicador em missões que não se tenha um conhecimento prévio da área. 2.3 Casamento de imagens O mecanismo de casamento de imagens (do inglês, template matching) possui dois estágios principais: extração de características e correlação. A correlação pode ser feita no domínio espacial ou no domínio da transformada. A expressão domínio espacial se refere ao próprio plano da imagem, e os métodos de processamento de imagens nessa categoria se baseiam na manipulação direta dos pixels(gonzalez and Woods). O domínio da transformada (Gonzalez and Woods), consiste em aplicar uma transformada na imagem, realizar o processamento nesse domínio e obter a transformada inversa para retornar os resultados ao domínio espacial (Canhoto et al., 2009; Santos et al., 2013; Shiguemori et al., 2007) Extração de características em imagens Várias são as características de uma imagem: intensidades (cor), textura, formas, resolução, etc. E todas elas são humanamente percebidas apenas no olhar, contudo, quando se trabalha com processamento digital de imagens, se faz necessária uma representação computacional. Essa representação pode ser construída com a extração de características da imagem, uma etapa importante, por exemplo, no processo de aprendizagem de uma rede neural ou ainda para a técnica de casamento de imagens, discutidos nessa seção. O trabalho de (Goltz et al., 2011), utiliza redes neurais para extrair características de imagens e estimar a latitude e longitude da aeronave. Eles realizaram o casamento de imagens no domínio espacial a fim de obter a localização de uma aeronave não 8

20 tripulada. O erro só foi contabilizado caso a distância entre a posição real e a obtida fosse maior que 10 metros. Para extração de características (bordas) utilizou-se Rede Neural Celular (RNC), Rede Perceptron de Multiplas Camadas (RPMC) e Rede com Funções de Base Radial (RBF). Além das redes neurais foram extraídas as bordas das imagens utilizando os operadores de Sobel e Canny. As redes neurais implementadas no trabalho para a extração de bordas inicialmente foram comparadas com o algoritmo Canny, uma vez que este operador obteve o melhor resultado (entre ele e as demais redes) na detecção de bordas em imagens-verdade (Goltz et al., 2009). Na extração de bordas em imagens de satélite e aéreas, as redes RBF e RPMC também obtiveram resultados próximos ao Canny. A RNC apresentou os piores resultados quando comparada ao operador Canny, RBF e RPMC nos testes de detecção de bordas em imagens-verdade (Goltz et al., 2011). Todavia ao ser empregada em imagens de satélite e aéreas, apresentou melhores resultados no processo de correlação. (Goltz, 2011) conclui o seu trabalho dizendo, que apesar da RBF e da RPMC não apresentarem bons resultados para estimação da posição elas se mostraram bastante eficientes ao serem comparadas com o algoritmo Canny. Isso faz com que estas redes sejam ferramentas com potencial emprego em aplicações, o que deve ser verificado em pesquisas posteriores. Como aplicação de um extrator de características nos dois domínios (espacial e da transformada) podemos citar o trabalho de (Horta et al., 2012). Este trabalho realiza a extração de bordas das imagens (domínio espacial), em seguida aplicada uma transformada nas bordas extraídas (domínio da transformada) e, por último, faz o calculo da correlação. A transformada aplicada em seu trabalho chama-se Ring Projection Transform (RPT) (Lee and Chen, 2009). Essa transformada é invariante à escala e segundo (Horta et al., 2012) tem um custo computacional melhor. Esse baixo custo computacional é atribuído ao fato da técnica criar uma vetor para representar a imagem, logo quando for feito o casamento de padrões entre as imagens transformadas, a comparação é feita entre vetores e não entre matrizes. Como essa técnica de extração é invariante à rotação, a informação de bússola do sistema de navegação visual não é necessária. Os resultados obtidos por (Horta et al., 2012) sugerem que o método funciona bem, mas podem ser melhorados utilizando-se outras formas de extrair bordas das imagens, ou até mesmo trabalhando-se com imagens em escala de cinza, além do ajuste através de alguma heurística para a correção do brilho. 9

21 2.3.2 Correlação A correlação entre imagens consiste na identificação de características comuns entre duas imagens ou apenas em parte delas. Essa identificação é feita através de uma filtragem entre as duas imagens. Existem dois conceitos estritamente relacionados e que precisam serem compreendidos ao realizar uma filtragem no domínio espacial: correlação e convolução. O funcionamento da correlação e da convolução são parecidos. Eles consistem em mover uma máscara pela imagem e calcular a soma dos produtos em cada posição, a única diferença é que no processo de convolução o primeiro filtro deve ser rotacionado 180 o (Gonzalez and Woods). O cálculo da correlação é muito utilizado junto à técnica de casamento de imagens. Conforme exposto por (Goltz, 2009), existem fatores que dificultam uma boa resposta da técnica de correlação aplicada ao casamento de imagens, como: diferenças de escala, rotação, luminosidade e resposta espectral. O uso de um extrator de características baseados em bordas/arestas facilita o processo de correlação espacial um vez que este extrator é robusto aos problemas de luminosidade e resposta espectral. 2.4 Conclusões do capítulo Diante do estudo realizado sobre o estado da arte e estimação de posicionamento geográfico a partir de imagens, técnicas de casamento, reconhecimento de landmarks e correlação, foi possível perceber que várias são as abordagens disponíveis na literatura. Muitos são os desafios, mas a pesquisa tem se desenvolvido e expandido as suas abordagens. A Tabela 2.1 apresenta as principais vantagens e desvantagens de cada técnica. 10

22 Tabela 2.1: Resumo das vantagens e desvantagens das técnicas estudadas. Técnica Vantagem Desvantagem Odometria Boa precisão em curto Acumulo de erros de prazo, fácil implementação e altas taxas de erros na estimação da orientação causa grandes amostragem. posição; Utilizando os métodos SIFT e SURF, não se mostrou robusta a Rastreamento de landmarks Boa precisão de estimação. Casamento de imagens Apresenta bons resultados na estimação da posição. variações de sensores. Necessita de conhecimento prévio da área sobrevoada; As variações das cenas influenciam no desempenho da técnica. Sempre indica um ponto de maior correlação após o casamento podendo gerar falsos positivos; Nem sempre estará sobrevoando uma área georreferenciada; Diferentes sensores influenciam no bom desempenho. Como consequência do estudo realizado, este trabalho busca estimar a posição de uma aeronave através do processamento digital de imagens, princípios de inteligência artificial e métodos que tem dado resultados promissores para extração de características e casamento imagens. 11

23 Capítulo 3 Algoritmos de Casamento de Imagens 3.1 Sistema de Visão Computacional O sistema de visão avaliado neste trabalho, estima a posição do VANT através de informações extraídas do sensor inercial, do computador de bordo e de um mecanismo que faz o casamento da imagem capturada pela câmera do VANT com a imagem georreferenciada, conforme ilustrado no diagrama da Figura 3.1. Como pode ser observado no diagrama, o sistema proposto trabalha com duas imagens capturadas em tempo, câmeras e posições diferentes: imagem de satélite georreferenciada e capturada pela câmera do VANT. Com isso, temos fatores dificultadores no processo de casamento das imagens como as diferenças de escala, rotação, luminosidade e resposta espectral entre as imagens template (capturada pela câmera do VANT) e target (imagem de satélite georreferenciada). Conforme observado em trabalho anterior (Goltz et al., 2011), estes fatores podem ser contornados aplicandose os seguintes procedimentos: captura a imagem em visada nadir, eliminando efeitos de perspectiva (José and Shiguemori, 2010); conversão para tons de cinza; correção de rotação através de informação de posição de proa fornecida pela bússola do VANT; correção do fator de escala através de informação de altitude fornecida pelo computador de bordo do VANT; 12

24 Figura 3.1: Sistema de visão baseado em casamento de imagens. aplicação de filtro passa-baixa (Gonzalez and Woods) para suavização da imagem e eliminação de detalhes do terreno; aplicação de filtro passa-alta (Gonzalez and Woods) para realçar as bordas da imagem. Das etapas de pré-processamento acima descritas, é importante ressaltar que as correções envolvendo rotação e escala são aplicadas apenas na imagem capturada pelo VANT. Além disso, os fatores ligados às diferenças de luminosidade e resposta espectral são eliminados, inerentemente, através das metodologias de extração de bordas que discutiremos na Seção

25 Em se tratando da imagem georreferenciada, o target é obtido a partir de um recorte feito com base na informação de localização fornecida pelo sensor inercial, com o objetivo de reduzir a área de busca, pois o sistema embarcado no VANT, de modo geral, apresenta recursos computacionais de processamento e memória reduzidos. Esta posição se torna o ponto central da imagem. A partir deste ponto são acrescidos n pixels nas direções norte, sul, leste e oeste, em que n é a metade do tamanho pretendido para aquela imagem. As dimensões das imagens alvo e template são discutidas no Capítulo 4. O mecanismo de casamento de imagens é baseado em um extrator de bordas e posterior aplicação de correlação espacial entre pixels. Uma vez que as bordas das imagens target e template são extraídas, o casamento é feito com base na sua correlação. A correlação é o processo de mover uma máscara pela imagem e calcular a soma dos produtos em cada posição (Gonzalez and Woods). O cálculo da correlação no domínio espacial é dado pela Equação 3.1, c(s, t) = F (x, y)w (x s, y t) (3.1) x y em que c(s, t) denota a correlação c dos pixels (s, t), com s = 0, 1,..., M 1 e t = 0, 1,..., N 1; M e N correspondem às dimensões da matriz F que armazena as bordas da imagem georreferenciada (target); W com dimensões J K, com J M e K N, representa a matriz que armazena as bordas da imagem capturada pelo VANT (template). A partir da Equação 3.1, a posição do VANT pode ser estimada da seguinte forma: registra-se a posição (s, t ) de maior correlação entre as matrizes F (target) e W (template) e tomam-se as coordenadas do pixel de F que coincidem com o pixel central de W (x s, y t ). De preferência, a imagem template deve ter dimensões ímpares para que seja possível tomar como referência seu pixel central. As coordenadas do pixel na imagem georreferenciada que coincidem com o pixel central da imagem aérea correspondem à posição geográfica do VANT. A Figura 3.2 ilustra o processo de correlação entre as imagens. 14

26 Figura 3.2: Processo de correlação entre as imagens. 3.2 Métodos de extração de bordas A escolha de um extrator baseado em bordas se deu pelo fato de as bordas serem bastante robustas à mudanças de luminosidade (Conte and Doherty, 2008; Silva et al., 2015) e, como discutido na seção anterior, a imagem georreferenciada e a imagem capturada pela câmera do VANT são geralmente produzidas em instantes distintos, o que faz com que haja uma diferença nas condições de luminosidade no momento de sua captura. Faz-se portanto necessário um extrator que produza características robustas às condições de luminosidade. Para extração das bordas, três técnicas foram usadas: filtro de Canny (Canny, 1986), redes neurais do tipo Radial Basis Function (RBF) (Haykin, 2001) e redes neurais do tipo Multilayer com treinamento multiobjetivo (MLP MOBJ) (Costa, 2002). A escolha destas RNAs é uma continuidade do trabalho de mestrado de (Goltz, 15

27 2011). Tais técnicas são descritas nas Seções 3.2.1, 3.2.2, e 3.2.4, a seguir Detector de bordas de Canny O detector de Canny é um filtro de convolução robusto ao ruído. Canny (Canny, 1986) definiu três critérios a que um filtro de detecção de bordas deve atender, o qual ele denominou de filtro ótimo: 1. Boa detecção: o detector de bordas deve encontrar somente bordas, consistindo na maximização da razão sinal/ruído; 2. Boa localização: a distância entre os pixels de borda encontrados pelo detector deve ser a menor possível com os pontos de bordas bem localizados; 3. Apenas uma resposta para um única aresta: evita que o detector de bordas identifique múltiplos pixels de borda onde somente exista um único pixel. Logo, um filtro para detecção de bordas envolve a maximização do itens 1 e 2, o que equivale a maximização do produto entre eles (Canny, 1986), conforme a Expressão 3.2 a seguir w G( x)f(x)dx w w w G ( x)f (x)dx w (3.2) n 0 f w 2 w (x)dx n 0 f w 2 (x)dx em que f(x) é a resposta de impulso do filtro definido no intervalo [ w; w], G(x) é uma borda unidimensional e n 0, a quantificação do ruído da imagem. Assume-se que a borda está centrada em x = 0. A condição de filtro ótimo (Expressão 3.2) deve ainda atender ao terceiro critério (item 3). A ideia básica é que deve haver um único ponto de borda onde existe uma única borda verdadeira(canny, 1986). A expressão matemática para a distância ( X max ) entre máximos adjacentes na resposta do filtro f(x) é dada pela Equação 3.3. X max = 2π ( + f 2 (x)dx + f 2 (x)dx ) 1 2 (3.3) Assim, ao maximizar a condição dada pela Expressão 3.2, deve-se também garantir que X max seja o maior possível, aumentando a possibilidade de separação entre máximos verdadeiros e máximos falsos na saída do filtro f(x). O algoritmo de extração de bordas de Canny (Canny, 1986) é dividido em 5 etapas: 16

28 suavização: é comum na captura de imagens digitais a existência de ruídos. Para que esses ruídos não sejam confundidos com bordas, é aplicada sobre a imagem um filtro Gaussiano (Gonzalez and Woods) que produz o efeito de um borramento na imagem; intensidades de tons de cinza: essas áreas são encontradas determinando gradientes na imagem. A magnitude desse gradiente pode ser definida pela distância Euclidiana (Gonzalez and Woods) nas direções x e y respectivamente, em seguida, aplicando-se o teorema de Pitágoras; supressão não máxima: a finalidade dessa fase é converter bordas borradas na imagem de magnitude dos gradientes em bordas fortes. Para isso, são mantidos apenas os máximos locais da imagem de gradiente; limiar duplo: os pixels de borda resultante da etapa anterior são classificados como arestas verdadeiras ou falsas. Muitas bordas serão provavelmente verdadeiras da imagem, mas outras, podem ser detectadas por ruídos ou variações de cores, comum em superfícies ásperas. A forma mais simples de classificar uma borda como verdadeira é através de um limiar, de modo que apenas arestas maiores que um determinado limiar sejam consideradas verdadeiras. O método de Canny utiliza duplo limiar. Os pixels acima do maior limiar são definidos como fortes e os pixels com valores entre os dois limiares são definidos como fracos; rastreamento da borda por histerise: as bordas fortes são consideradas verdadeiras e podem ser incluídas na imagem final. As bordas fracas são incluídas na imagem final, se e somente se, estiverem acompanhas de uma borda forte. A Figura 3.3 ilustra um exemplo da aplicação do extrator Canny a uma imagem de satélite Detector de bordas via RBF A construção de uma rede de função de base radial (RBF, do inglês Radial-Basis Function), em sua forma mais básica, envolve três camadas com papéis totalmente diferentes(haykin, 2001): a camada de entrada, que liga a rede ao seu ambiente; A camada escondida, que aplica uma transformação não-linear do espaço de entrada para o espaço oculto; E a camada de saída, que responde ao sinal de ativação da camada de entrada. A Figura 3.4 mostra a arquitetura de uma rede RBF. 17

29 Figura 3.3: Exemplo da aplicação do extrator de bordas Canny em uma imagem de satélite. Figura 3.4: Arquitetura de uma rede RBF. (Extraída de RBF (2015) ) A RBF é considerada uma rede neural do tipo feed-forward que usa funções de base radial como funções de ativação dos neurônios da camada escondida. O mapeamento entrada-saída produzido pela RBF, devido à apresentação de um padrão arbitrário x R d, é dado por (Haykin, 2001): h ŷ(x) = w j ϕ(x, c j, σ j ) (3.4) i=1 ϕ(x, c j, σ j ) = exp ( x c ) j 2 2σ 2 j (3.5) sendo que c j e σ j representam, respectivamente, o centróide e o raio para o j-ésimo neurônio da camada escondida. 18

30 A extração de bordas via RBF se deu de duas formas: a primeira (que chamaremos de Metodologia 1), faz o aprendizado da rede a partir dos possíveis padrões de borda presentes em uma imagem, sendo que cada padrão possui um valor associado (saída desejada). Essa metodologia foi retirada de (Goltz, 2011); A segunda (que chamaremos de Metodologia 2) tem apenas dois valores desejados, 0 e 1, representando as condições: não-existência de bordas e existência de borda respectivamente. Para os padrões de borda que apresentam alguma variação de intensidade, a saída desejada é igual a 1. Para aqueles que não possuem variações, a saída desejada é 0. A Figura 3.5 ilustra os padrões e suas respectivas saídas desejadas em ambas as metodologias Treinamento da rede RBF Figura 3.5: Padrões de treinamento representando as possíveis bordas de uma imagem. Cada Metodologia foi implementada com um método de treinamento diferente. A Metodologia 1 foi treinada por partes, ou seja, os vetores de centróide (c j ) e raio (σ j ) de cada neurônio oculto foram estimados a partir do algoritmo de agrupamento Fuzzy C-Means (Jang and Sun, 1997), sendo o centro de cada cluster os valores c j e σ j, obtidos a partir da variação média dos elementos de cada cluster até o seu centro. Os pesos da camada de saída (w j ) foram calculados segundo a regra de Widrow-Hoff (Haykin, 2001). A Metodologia 2 teve todos os parâmetros da camada escondida e os pesos da camada de saída calculados de acordo com o método do Gradiente descendente (back-propagation) (Haykin, 2001). A camada de saída das duas redes possui um único neurônio com função de ativação sigmoide logística, cujas saídas são valores entre 0 e Ativação da rede RBF Uma vez treinada, o processo de extração de bordas via RBF ocorre da seguinte forma: desliza-se um quadro de tamanho 3x3 sobre a imagem a ser processada, um pixel por iteração, da esquerda para direita até o final da linha, quando então o 19

31 quadro desliza um pixel pra baixo e percorre novamente a imagem da esquerda para direita. Cada quadro pode ser visto como um vetor de 9 posições, correspondendo a um padrão de entrada para a rede RBF, conforme apresenta a Figura 3.6. Figura 3.6: Esquema do processo de extração de bordas via RBF. (Extraída de (Goltz, 2011)) Em se tratando da Metodologia 1, o escalar obtido na saída da rede é comparado com os valores de saída associados a cada padrão de treinamento (vide Figura 3.5). O padrão de treinamento cuja saída mais se aproxima da saída da RBF fornece seu valor central (0 ou 1) à posição correspondente na imagem processada. Já para a Metodologia 2, é utilizado o limiar de 0, 75 como referência na saída da rede. A escolha deste valor levou em consideração o desbalanceamento de classes no conjunto de treinamento da rede. Com isso, para a saída maior ou igual que esse limiar é definido o valor 0, caso contrário 1. No processo de extração de bordas das imagens para a rede RBF da Metodologia 1, foi avaliado sobre um conjunto independente de validação (banco de imagens) topologias de 2 a 9 neurônios na camada escondida. A que apresentou melhor desempenho foi a de arquitetura 9:5:1. Para a Metodologia 2 a que apresentou melhor resposta foi a arquitetura 9:17:1. A Figura 3.7 mostra o resultado da extração de bordas de uma imagem por uma RBF utilizando as duas metodologias de treinamento apresentadas MultiLayer Perceptron - MLP Como dito na subseção anterior, uma rede neural do tipo feed-forward é constituída por camadas, normalmente, uma camada de entrada, uma ou mais camadas escondidas e uma camada de saída, conforme ilustra a Figura 3.8. Essas redes neurais (Haykin, 2001) são normalmente chamadas de perceptron de múltiplas camadas (MLP, do 20

32 (a) Extraı da via RBF (Metodologia 1) (b) Extraı da via RBF (Metodologia 2) Figura 3.7: Extrac a o de bordas utilizando RBF ingle s MultiLayer Perceptron), as quais representam uma generalizac a o do perceptron de camada u nica. O funcionamento de um a rede MLP e sı ncrono, ou seja, dada uma entrada (um vetor) esta e propagada para a saı da multiplicando-se pelos pesos de cada camada, aplicando-se a func a o de ativac a o e propagando-se esse valor para a camada seguinte ate que a camada de saı da seja atingida (Costa, 2002). Tais redes te m sido aplicadas com sucesso para resolver diversos problemas difı ceis, atrave s do seu treinamento de forma supervisionada com um algoritmo muito popular conhecido como algoritmo de retropropagac a o do erro, tambe m referenciado na literatura como back-propagation (Haykin, 2001). 21

33 Figura 3.8: Esquema da arquitetura de uma rede multicamadas. Os parâmetros da rede e o seu dimensionamento, geralmente, são definidos empiricamente. O dimensionamento inadequado da rede pode levar às seguintes situações (Costa, 2002): overfitting: para um conjunto de treinamento experimental, o ruido apresentado pode ser aprendido pela rede. underfitting: nesse caso a topologia escolhida é insuficiente para a modelagem do problema, a rede não converge durante o treinamento Multilayer Perceptron Multiobjetivo - MLP MOBJ A superfície de erro de uma MLP com aprendizagem supervisionada é uma função altamente não linear do vetor de pesos sinápticos w (Haykin, 2001). O método do Gradiente Descendente realiza os ajustes dos pesos no sentido contrário do vetor gradiente da função de custo, de modo a minimizá-la. Contudo, em dados reais, o erro nulo alcançado no treinamento representa um modelamento do ruído por parte da rede. Outro fator limitante é a dimensão da rede que pode impedir a convergência para um resultado satisfatório. Dessa forma, o treinamento pode resultar em overfitting ou underfitting (Costa, 2002). Dado um conjunto de treinamento formado pelos pares (x i, d i ) P i=1 sendo que x é o vetor de entrada e d é a saída desejada, a função de custo a ser minimizada é normalmente definida como a soma dos erros quadráticos: J 1 = 1 2 P (d i y i ) 2 (3.6) i=1 22

34 sendo que y i é a saída da rede. Com isso, o ajustes dos pesos é definido por: W i+1 = W i γ J i (3.7) sendo que γ é uma constante positiva chamada de tamanho do passo ou taxa de aprendizagem e J é o vetor gradiente no instante i (Costa, 2002; Haykin, 2001). Como o ajuste dos pesos depende do cálculo do gradiente, a função objetivo deve ser diferenciável e contínua. Considerando o treinamento multi-objetivo, o primeiro passo para solucionar o problema é obter o conjunto de soluções para os objetivos conflitantes (Texeira et al., 2000): Soma dos erros quadráticos médios (Expressão 3.6) e norma dos pesos de rede dada pela Equação 3.8. J 2 = w (3.8) A minimização destes objetivos é feita até que um ponto de equilíbrio seja alcançado, obtendo-se as soluções chamadas de não-dominadas gerando assim uma estimativa do conjunto Pareto-ótimo (Texeira, 2001). Um método de otimização proposto por (Texeira, 2001) para o treinamento de MLPs, o que utiliza o método ɛ restrito, transforma um problema multi-objetivo em vários subproblemas monoobjetivo restritos. O processo de otimização da rede se dá utilizando o algoritmo elipsoidal. Nesse método a minimização é aplicada à função de erro, e a função da norma é definida como restrição, conforme mostra a Equação 3.9. min w W 1 N T N T j=1 sujeito (d j f(x j ; w)) 2 (3.9) a : W ɛ sendo que W é o vetor de pesos da rede, N T é o número de padrões no conjunto de treinamento, x j e d j são, respectivamente, a j ésima entrada e a saída do conjunto de treinamento. O algoritmo MOBJ, a partir de um ɛ inicial definido como parâmetro, obtém soluções com diferentes níveis de complexidade. Cada uma destas soluções é uma solução não-dominada. A solução ideal fica então localizada entre o limiar das soluções factíveis e das não definidas no espaço de estados representados pelas funções do erro e da norma. A escolha do melhor modelo poderá ocorrer através de um especialista ou de modo automatizado através de um método de decisão. Para este trabalho a escolha 23

35 do modelo seu deu com base nos resultados obtidos sobre um conjunto de validação independente (banco de imagens) Treinamento da rede MLP MOBJ Para o treinamento da MLP MOBJ foi utilizada a função tangente hiperbólica nas camadas escondida e de saída. A saída da função é obtida a partir da razão entre o seno hiperbólico e o cosseno hiperbólico, de forma similar à relação trigonométrica da tangente, conforme Equação (3.10). tanh(t) = sinh(t) cosh(t) (3.10) Os valores de saída da função de tangente hiperbólica são entre -1 e 1, conforme mostra a figura 3.9. Figura 3.9: Gráfico da função de tangente hiperbólica. Os mesmos padrões da RBF (Figura 3.5) foram utilizados no processo de treinamento desta rede, contudo os valores de saída esperados foram adaptados para o intervalo de -1 a 1, possíveis valores de saída da função de tangente hiperbólica (Equação 3.10). Assim temos, para a Metodologia 1, as saídas desejadas: -0,9; -0,7; -0,5; -0,3; -0,1; 0,1; 0,3; 0,5; 0,7 e 0,9. Já para Metodologia 2, as saídas desejadas são: 1, 1, 1, 1, 1, 1, 1, -1 e Ativação da rede MLP MOBJ O processo de ativação utilizado para a rede MLP MOBJ se assemelha com o já discutido na Subseção Um janela de dimensão 3X3 desliza sobre a imagem ao passo de 1 pixel, sempre da esquerda para a direita, e, ao atingir o fim da linha, retorna ao início 1 pixel abaixo da linha anterior (Vide Figura 3.6). Para a Metodologia 1, o valor de saída da rede para cada entrada é comparado com as saídas esperadas para cada padrão de treinamento apresentado pela Figura 3.5. O valor desejado que mais se aproximar da saída da rede fornece o valor central 24

36 de seu padra o (0 ou 1). Ja para a Metodologia 2, foi utilizado o limiar 0, 6, logo, o valor de saı da para cada entrada da rede e comparado com esse limiar. Caso seja maior ou igual, e atribuı do o valor 0, caso contra rio, 1. A Figura 3.10 mostra os resultados obtidos com a ativac a o da rede para as duas metodologias. (a) Extraı da via MLP MOBJ (Metodologia 1) (b) Extraı da via MLP MOBJ (Metodologia 2) Figura 3.10: Extrac a o de bordas utilizando MLP MOBJ 25

37 Capítulo 4 Experimentos e resultados Três experimentos foram conduzidos com o objetivo de avaliar o desempenho das técnicas de casamento de imagens descritas no capítulo anterior. Tais técnicas foram avaliadas considerando imagens de diferentes tipos de terreno, rotas especificadas no simulador de voo e imagens extraídas de um voo real de um VANT, na região de São Carlos-SP. O primeiro experimento teve como objetivo testar a acurácia dos métodos frente a diferentes tipos de terreno. Isso se justifica pelo fato de que a extração de características baseada em bordas pode ter seu desempenho prejudicado em imagens que contenham terrenos não estruturados, tais como regiões de floresta e zona rural. Por outro lado, é esperado que seu desempenho seja melhor em terrenos contendo características robustas como, por exemplo, em interseções de rodovias e construções urbanas. Para dar suporte aos experimentos, um banco de dados foi então formado a partir da seleção de 80 imagens de satélite da cidade de São José do Campos, no estado de São Paulo. As imagens desse banco foram classificadas, via inspeção visual, em três grupos: Floresta, Rodovia e Urbano. O critério para a classificação de cada imagem se deu pela característica de maior predominância na mesma imagem. Maiores detalhes desse banco de imagens são apresentados e discutidos na Seção 4.1 O objetivo do segundo experimento foi verificar a capacidade dos métodos em seguir uma rota planejada usando um simulador de voo. Para tanto, nossos algoritmos de casamento de imagens tiveram que ser implementados em um sistema computacional (Santos et al., 2013) cuja finalidade é a comunicação (via TCP-IP) entre o mapa de imagens georreferenciadas e o simulador FlightGear (FlightGear, 2015). A incorporação de nossos algoritmos a este sistema possibilitou o planejamento de uma rota, a captura de imagens em tempo de voo (simulando a câmera acoplada ao VANT) e a coleta dos seguintes dados: altitude, posição de proa, coordenadas ge- 26

38 ográficas reais e coordenadas obtidas através do template matching. Maiores detalhes são apresentados na Seção 4.2. O terceiro e último experimento teve por objetivo avaliar a acurácia do sistema em uma situação real de voo. Utilizando um vídeo, que capturou imagens durante o voo de um VANT no município de São Carlos, estado de São Paulo, foram extraídas imagens (frames do vídeo) para avaliar o comportamento desse sistema em uma situação real de voo. Maiores detalhes são apresentados na Subseção 4.3. Para todos os experimentos, a distância Euclidiana foi usada como métrica de desempenho para calcular a diferença entre a posição real (obtida previamente) e a posição calculada via casamento de imagens. No caso do primeiro experimento (banco de imagens), essa distância foi calculada em relação aos pixels das imagens. O processo de escolha do pixel que representa a posição real é descrito na Seção 4.1. Um falso positivo (FP) foi considerado quando a distância, em pixels, entre os pontos for maior que 100. Nos demais experimentos (simulador de voo e vídeo), a distância foi calculada em relação a posição geográfica (latitude e longitude) real da aeronave. O cálculo dessa distância é dado de acordo com a Equação d = R T arccos(cos(lat 1 ) cos(lat 2 ) cos(lon 1 lon 2 ) + sin(lat 1 ) sin(lat 2 )) sendo que R T representa o raio médio da circunferência da terra, lat 1, lat 2, lon 1 e lon 2 são, respectivamente, as latitudes e longitudes relativas a duas posições (Longley, 2005). Seguindo a recomendação de (Conte and Doherty, 2008), um falso positivo foi considerado quando essa distância, em metros, é maior que Banco de Imagens A criação do banco de imagens se deu pela necessidade de um ambiente que pudesse oferecer um mecanismo para aferir os métodos aqui discutidos, em cada uma das classes de terreno. Diante disto um ambiente controlado se fez necessário, visto que seria uma tarefa difícil tal resposta em outro tipo de ambiente. Como dito anteriormente, esse banco é composto por 80 imagens de satélites da cidade de São José dos Campos-SP. Cada imagem tem uma dimensão de 350 pixels de largura por 350 pixels de altura. Tais imagens podem ser visualizadas no Apêndice A com seus respectivos identificadores. 27

39 4.1.1 Classes de terreno Uma investigação a que este trabalho se dispõe, propõe a avaliação da acurácia dos métodos frente a diferentes tipos de terreno. Como o trabalho atua com imagens apenas na faixa do visível, três classes principais de terrenos poderão serem encontradas em uma situação real de voo: Floresta, Urbano e Rodovia. (a) Floresta (b) Urbano (c) Rodovia Figura 4.1: Imagens do banco: (a) Classe Floresta, (b) Classe Urbano e (c) Classe Rodovida A classe Floresta é definida como imagens de terrenos não estruturados e com predominância de área verde, por exemplo lavouras e florestas. A classe Urbano pode ser descrita como imagens de terrenos que tem estruturas comuns de zonas urbanas: prédios, ruas, casas, piscinas, etc. E, por último, a classe Rodovia. Essa classe mistura características das duas classes anteriores, pois normalmente uma rodovia tem partes estruturadas (estradas pavimentadas, por exemplo) e não estruturadas (florestas a 28

40 margem da estrada, por exemplo). Todavia, algo bem característico define essa classe: rotatórias, pontes e passarelas. A Figura 4.1 mostra imagens de exemplo para cada classe. Todas elas fazem parte do banco de imagens que trata essa seção. A avaliação do sistema de visão frente a diferentes tipos de terreno se deu a partir do casamento entre os targets (350x350 pixels) pertencentes ao banco de imagens e seus correspondentes templates. Cada template foi gerado a partir da escolha aleatória de um pixel α(x, y) no target, o qual representa a posição real da aeronave. A acurácia da posição estimada pelo sistema de visão pôde então ser calculada como a distância Euclidiana entre α(x, y) e o pixel de maior correlação retornado via processo de casamento de imagens descrito na Seção 3.1. A imagem template, com 119 pixels tanto de altura como de largura, foi gerada tomando-se 59 pixels nas direções norte, sul, leste e oeste a partir de α(x, y). A Figura 4.2 ilustra a geração da imagem template. Figura 4.2: Geração da imagem template a partir do pixel α(x, y). Como as imagens que integram o banco não sofrem influências dos itens, discutidos na Seção 3.1, que são dificultadores no processo de casamento do template com o target, foi realizado um procedimento para simular a diferença da resposta espectral causada pelos diferentes sensores. Para cada imagem template gerada, foi aplicado um filtro Gaussiano de dimensão 5x5 e σ = 2 (Gonzalez and Woods). O resultado da aplicação deste filtro é ilustrado na Figura

41 Figura 4.3: Resultado da aplicação do Filtro Gaussiano para simular a diferença espectral na captura da imagem. Após a execução de todos os procedimentos acima descritos, os resultados a seguir foram obtidos. A Tabela 4.1 compara os resultados obtidos pelos extratores Canny, RBF (Metodologia 1 e 2) e MLP MOBJ (Metodologia 1 e 2) para todas as 80 imagens pertencentes ao banco de dados. Todos os valores foram obtidos em função da distância Euclidiana. São listadas a distância média, a moda e o número de falsos positivos (FP), representando o número de estimativas de posição com distância superior a 100 pixels. Tabela 4.1: Resultados consolidados do banco de imagens. Método distância média (px) Variância moda (px) FP Canny RBF (Metodologia 1) RBF (Metodologia 2) MLP MOBJ (Metodologia 1) MLP MOBJ (Metodologia 2) A Tabela 4.1 mostra que o casamento de imagens via extrator Canny foi capaz de estimar corretamente a posição real da aeronave para todas as 80 imagens, independentemente do tipo de terreno. A rede RBF, treinada pelas Metodologias 1 e 2, apresentaram resultados diferentes. A Metodologia 1 obteve pixels de distância da posição ideal, de moda e 1 falso positivo, enquanto a Metodologia 2 teve pixel de média, a mesma moda (1.4142) e nenhum FP. O último extrator, MLP MOBJ, também dividido em duas metodologias de treinamento, obteve: Metodologia 1, distância média de pixels, moda de e 1 FP; Metodologia 30

42 2, de distância média, de moda e nenhum ponto de FP. Moda igual a se refere a distância de exatamente um pixel em relação ao pixel real. Os métodos que se mostraram menos eficientes foram MLP MOBJ e RBF, ambas treinadas pela Metodologia 1. Contudo, estes métodos obtiveram valores médios abaixo do limiar de Falso Positivo, 100 pixels. As Figuras 4.4a, 4.4b, 4.5a e 4.5b ilustram as distâncias obtidas pelas redes neurais para todas as 80 imagens do banco. O eixo y representa a distância em pixels e o eixo x representa as imagens pertencentes ao banco. (a) Metodologia 1 (b) Metodologia 2 Figura 4.4: Distâncias obtidas pela RBF para as 80 imagens do banco: (a) Metogologia 1 (b) Metodologia 2 31

43 (a) Metodologia 1 (b) Metodologia 2 Figura 4.5: Distâncias obtidas pela MLP MOBJ para as 80 imagens do banco: (a) Metogologia 1 (b) Metodologia 2 Podemos observar nas Figuras 4.5a e 4.4a que as imagens 6 e 52, respectivamente, apresentaram uma distância maior que 100 pixels (FP). Essas imagens possuem uma parcela dominante de terreno não-estruturado, Figuras 4.6a e 4.6b, e são classificadas como Floresta. 32

44 (a) Imagem 6 do banco de imagens (b) Imagem 52 do banco de imagens Figura 4.6: Imagens do banco onde ocorreram Falsos Positivos, ambas da classe Floresta. (a) Imagem 6, FP via MLP MOBJ - Metodologia 1 (b) Imagem 52, FP via RBF - Metodologia 1. A Tabela 4.2 divide os resultados apresentados na Tabela 4.1 por classes: Floresta, Rodovia e Urbano. As medidas de distância média são em pixels. Como esperado, Canny, RBF Metodologia 2 e MLP MOBJ Metodologia 2 mostraram-se indiferentes ao tipo de terreno. Já RBF e MLP MOBJ, ambas treinadas com a Metodologia 1, mostraram-se melhor em terrenos contendo características estruturadas (Rodovia e Urbano) do que com texturas não estruturadas, classe Floresta. Tabela 4.2: Resultados obtidos no banco de imagens por tipos de terreno. Classe # Método dist. média Variância moda FP Canny RBF (Metodologia 1) Floresta 29 RBF (Metodologia 2) MLP MOBJ (Metodologia 1) MLP MOBJ (Metodologia 2) Canny RBF (Metodologia 1) Rodovia 13 RBF (Metodologia 2) e MLP MOBJ (Metodologia 1) e MLP MOBJ (Metodologia 2) e Canny RBF (Metodologia 1) Urbano 38 RBF (Metodologia 2) e MLP MOBJ (Metodologia 1) MLP MOBJ (Metodologia 2) Em média, para extrair as bordas de uma imagem de dimensão 350X350 pixels, o 33

45 método Canny levou 0, 87 segundos, RBF Metodologia: 1 38, 47 segundos, RBF Metodologia 2: 1, 5 segundos, MLP MOBJ Metodologia 1: 75, 81 segundos e MLP MOBJ Metodologia 2: 75, 74 segundos. Neste trabalho foram utilizados para os métodos de Canny e RBF (Metodologia 2) disponíveis no toolbox do MatLab R (Matlab, 2015). Os demais métodos foram implementados. 4.2 Simulador O objetivo deste experimento, como dito antes, é verificar a capacidade de uma VANT sobrevoar uma determinada área por uma rota previamente planejada. Porém, antes de descrever a metodologia deste experimento, é importante descrever o ambiente (software) usado para simulação de voos a partir de rotas planejadas. O projeto PITER (Processamento de Imagens em Tempo Real), desenvolvimento no IEAv (Instituto de Estudos Avançados), tem por objetivo demonstrar o conceito de navegação autônoma por imagens para VANTs (Castro et al., 2009). O projeto possui um software desenvolvimento por terceiros denominado NAV (Navegação Autônoma de VANTs) (Santos et al., 2013) que simula o voo de veículos aéreos não tripulados. Este software é composto por módulos que trabalham de forma independente e comunicam-se através de protocolo TCP/IP. A seguir são apresentados os módulos e suas respectivas funcionalidades no sistema NAV: Servidor: responsável pela comunicação entre todos os módulos. Ele recebe, processa e responde às solicitações de todos os módulos. Essas solicitações podem ser diretas ou indiretas. Direta é apenas uma resposta que o próprio servidor dispõe, indireta é quando o servidor precisa consultar um outro módulo para só então responder ao solicitante; Veículo Aéreo Não Tripulado (VANT): responsável por controlar o voo da aeronave feito através de um simulador de voo externo. Esse pode ser o software Flightgear (FlightGear, 2015), utilizado neste trabalho, ou o X-Plane (X-Plane, 2015). O simulador de voo fornece a este módulo informações importantes, tais como: velocidade, altitude, longitude, latitude, direção de proa e rumo. Uma característica que deve ser ressaltada nesse módulo é que ele simula o sensor inercial de uma aeronave. Um sensor inercial pode ter um erro associado a posição real, visto que o erro é acumulado durante toda a trajetória; 34

46 Banco de Dados Geográfico (BDG): simula a câmera acoplada à aeronave, ou seja, é responsável por enviar a imagem referente à posição atual do VANT para os módulos que precisarem dessa informação; Sistema de Navegação Autônoma (SNA): responsável pelo controle da aeronave, corrigindo sua direção, altitude e velocidade. Essa tarefa é importante para que seja possível seguir uma trajetória previamente planejada; Sistema de Planejamento de Trajetória (SPT): responsável por determinar o caminho que deve ser percorrido pela aeronave e, verificar a cada instante, a iminência de colisão com obstáculos que podem existir na trajetória inicial planejada; Visão Computacional (VC): exibe na tela as informações de localização detectadas durante a execução do voo no simulador. A figura 4.7 mostra o módulo VC. Para o funcionamento de todo o sistema existem algumas restrições e instruções importantes na execução de cada módulo. O primeiro módulo a ser executado deve ser o Servidor. Em seguida, obrigatoriamente, o SPT e o SNA. Em seguida pode-se então iniciar o módulo BDG e depois, o módulo VANT. O último módulo a ser executado é o VC. Por uma questão de concepção do software, essa ordem de execução sempre deve ser seguida. O funcionamento do simulador dar-se-á da seguinte forma: o módulo VANT fornece uma informação de coordenada com a posição da aeronave. Com essa informação é feito um recorte na imagem georreferenciada, tomando como referência as coordenadas informadas pelo módulo VANT para ser o centro deste recorte. Esta imagem será o target na técnica de casamento de imagens. O template (imagem da camera) será a imagem fornecida pelo módulo BDG. Feito o casamento entre o template e o target via algoritmo no módulo VC, é indicado o ponto de maior correlação entre as imagens (assume-se que esse ponto seja a posição real do VANT), e a partir desse são obtidas as coordenadas geográficas equivalentes a tal. Os valores são enviados para o módulo SNA que verifica se a aeronave está na rota planejada. Caso não, ela é direcionada para a rota planejada. 35

47 Figura 4.7: Tela do módulo VC Novo VC Conforme visto na Figura 4.7, o módulo VC fornece na sua tela apenas informações visuais. Essas informações são a posição real e a estimada pela técnica de casamento de imagens, as imagens simuladas da câmera do VANT e a área sobrevoada. Essas informações, apesar de conseguirem mostrar se a aeronave está prosseguindo pela rota planejada ou não, não são estruturadas em termos quantitativos ou descritivos. Quantos FPs foram atingidos naquela rota? Quantos pontos de correlação foram estimados? Como se faz para testar um outro extrator de características ou outra técnica de casamento? Essas informações podem ser adquiridas, contudo é necessário ter acesso ao código fonte do programa e conhecimento da estrutura do sistema NAV. Com o objetivo de automatizar os testes via simulador e extrair informações relevantes dos mesmos, melhorias no módulo VC foram propostas neste trabalho e uma nova interface, denominada Novo VC foi desenvolvida. O seu funcionamento, essencialmente, não foi alterado. As contribuições foram apenas no aspecto visual do programa e estrutural das informações do voo. Com estas alterações tornou-se possível que qualquer usuário, sem acesso ou conhecimento do código fonte, possa testar novas técnicas de navegação autônoma e extrair dados quantitativos e descritivos de forma estruturada com maior facilidade. A Figura 4.8 mostra como ficou o Novo VC. 36

48 Figura 4.8: Tela do módulo Novo VC. No módulo, agora reformulado, foram removidas as informações visuais da área sobrevoada e a imagem simulada da câmera acoplada ao VANT. Adicionalmente foram inseridos os itens: Dados de Entrada: este campo permite que o usuário do módulo informe o nome de uma função ou método de estimação da posição que ele tenha desenvolvido e deseja testar; Configurações: nessa aba o usuário do módulo consegue definir qual o valor (em metros) deve ser levado em consideração para que um ponto de correlação seja considerado um falso positivo. Outra configuração editável, implementada no Novo VC, é o tamanho da imagem template. Ainda, o usuário consegue visualizar coordenadas da rota planejada para aquela missão; Log de Voo: informa ao usuário todas as latitudes e longitudes, reais e estimadas, além de suas respectivas distâncias, em metros. Ainda informa o número total de estimativas de posição, a quantidade de FPs, conforme a configuração definida no item anterior, e tempo total do trajeto, em segundos; 37

49 Imagem Georreferenciada: informa ao usuário todo o mapa da área sobrevoada e as coordenadas reais e estimadas pela técnica simulada de forma visual. Após essas alterações, a tarefa de testar e validar os métodos no simulador se tornou mais fácil e rápido, além de tornar disponíveis as informações em modo quantitativo e não apenas visual. O Novo VC foi disponibilizado para todos os integrantes do projeto PITER. Já utilizando as melhorias do módulo VC, os resultados a seguir foram obtidos para a rota planejada mostrada na figura 4.9. Todas os métodos devem seguir pela mesma rota. A rota inicia pelo ponto A e segue a ordem lexicográfica até o ponto G. O último ponto da rota planejada fica bem próximo do primeiro. Figura 4.9: Trajeto planejado para rotas no simulador. A Tabela 4.3 compara os desempenhos dos extratores Canny, RBF (Metodologia 1 e 2) e MLP MOBJ (Metodologia 1 e 2) na estimativa de posições sobre uma rota planejada. Encontram-se listados o número total de estimativas de posição ao longo da rota (#), a distância média medida em relação a posição real (em metros), a variância, a moda (em metros), as taxas de falsos positivos (FP) e de verdadeiros positivos (VP). 38

50 Tabela 4.3: Desempenho dos extratores Canny, RBF e MLP MOBJ na estimativa de posições sobre uma rota planejada Método # Dist. média Variância Moda FP(%) VP(%) Canny e RBF (Metodologia 1) e RBF (Metodologia 2) e+004 N/D MLP MOBJ (Metodologia 1) e+005 N/D MLP MOBJ (Metodologia 2) e+005 N/D A Tabela 4.3 mostra que, ao longo da mesma rota, os métodos obtiveram resultados diferentes. Canny e RBF (Metodologia 2) calcularam a posição 85 vezes, RBF Metodologia 1, 26, e as MLPs MOBJ calcularam apenas 17 vezes. Essas diferenças podem ser atribuídas ao custo computacional dispendido por cada um destes métodos durante a extração de bordas das imagens. Canny foi o único método que obteve desvio médio, em relação à posição real, inferior a 200 metros e o menor percentual de falsos positivos. Contudo, o método MLP MOBJ (Metodologia 2) obteve uma taxa de FP próxima ao Canny. Outro ponto a ser observado é que as MLPs MOBJ obtiveram as menores variações. As rotas calculadas via Canny, RBF (Metodologia 1 e 2) e MLP MOBJ (Metodologia 1 e 2) podem ser visualizadas juntamente com a rota planejada nas Figuras 4.10, 4.11, 4.12, 4.13 e 4.14, respectivamente. Figura 4.10: Trajeto do VANT utilizando Canny. 39

51 O me todo de Canny obteve um trac o de rota pro ximo do real. Isso pode ser atribuı do ao elevado nu mero de correlac o es ao longo do trajeto e o valor me dio abaixo da refere ncia de FP (200 metros). Figura 4.11: Trajeto do VANT utilizando RBF (Metodologia 1). Figura 4.13: Trajeto do VANT utilizando MLP (Metodologia 1). 40

52 Figura 4.12: Trajeto do VANT utilizando RBF (Metodologia 2). Figura 4.14: Trajeto do VANT utilizando MLP (Metodologia 2). Pode-se observar a partir das Figuras 4.11 e 4.12 que as rotas obtidas pelas duas metodologias de treinamento de redes RBF se mostram diferentes. A Metodologia 1, com apenas 26 pontos de correlac a o, apresenta uma rota com pontos muito espac ados 41

53 entre si. A Metodologia 2, com 85 pontos de correlação, obteve um trajeto formado pela junção de segmentos de reta menores, dando o aspecto de um traço mais próximo do real. Cabe novamente ressaltar que, a metodologia 2 e o Canny foram os métodos que obtiveram o maior número de estimativas durante todo o trajeto. Isso se deve ao fato de terem sido obtidos via funções otimizadas do software Matlab R (Matlab, 2015). As redes MLPs foram as redes que menos calcularam a correlação durante todo o trajeto, 17 vezes. Todavia, como pode ser visto na Figura 4.14, a rede treinada via Metodologia 2 obteve um traço próximo do real. Esta rede Metodologia 2 apresentou o segundo melhor número de verdadeiros positivos, 70.59%, ficando atrás apenas dos 74.1% de Canny. No canto superior direito das Figuras 4.10, 4.11, 4.12, 4.13 e 4.14 pode-se notar um desvio proposital na trajetória do VANT. Isso ocorre porque o sistema NAV (Santos et al., 2013), originalmente, possui uma configuração que indica um obstáculo entre aqueles way-points. Essa é uma característica inerente do simulador de voo utilizado e não prejudica a análise dos resultados feita neste estudo. Uma análise detalhada dos desvios (em metros) entre a localização real e a localização obtida considerando todas as estimativas de posição é dada pelas Figuras 4.15, 4.16a, 4.16b, 4.17a e 4.17b. Nota-se, com base nessas figuras, que Canny apresenta menor variância em relação aos outros métodos, sendo capaz de estimar inúmeras posições com desvios (em metros) bem próximos de zero, moda de O método que obteve a maior distância (erro) em metros foi a MLP MOBJ Metodologia 1, 1658 metros. RBF Metodogia 1 e MLP MBOJ Metodologias 1 e 2 não obtiveram um valor de moda, ou seja, nenhuma distância se repetiu durante o trajeto. 42

54 Figura 4.15: Desvios obtidos por Canny no simulador do voo. 43

55 (a) RBF (Metodologia 1) (b) RBF (Metodologia 2) Figura 4.16: Desvios obtidos pelas RBFs no simulador de voo. (a) RBF (Metodologia 1). (b) RBF (Metodologia 2) 44

56 (a) Desvios obtidos pela MLP (Metodologia 1) no simulador do voo. (b) Desvios obtidos pela MLP (Metodologia 2) no simulador do voo. Figura 4.17: Desvios obtidos pelas MLPs MOBJ no simulador de voo. MOBJ (Metodologia 1). (b) MLP MOBJ (Metodologia 2) (a) MLP 45

57 4.3 Vídeo O objetivo deste experimento foi avaliar as técnicas discutidas neste trabalho em uma situação real de voo. Para isso, os métodos apresentados foram submetidos a imagens retiradas de um vídeo a partir do voo de um VANT. A XMobots (XMobots, 2015), empresa brasileira especializada no desenvolvimento e fabricação de Veículos Aéreos Não Tripulados (VANTs) para aplicações profissionais, forneceu ao projeto PITER um vídeo feito na região de São Carlos-SP por um de seus VANTs. As imagens extraídas deste vídeo cobrem uma área predominantemente verde e com terrenos não estruturados, conforme mostra a Figura Figura 4.18: Imagem capturada pelo VANT na região de São Carlos-SP. O número total de imagens (quadros), em visada nadir, retiradas do vídeo foi de 309. As imagens que não estavam nessa visada foram descartadas. Cada imagem possui as informações de latitude, longitude, altitude e posição de proa (bússola). Essas informações são importantes para o funcionamento e aferição do sistema de visão proposto. As coordenadas reais foram usadas para o cálculo do erro de estimação em cada ponto. As informações de altitude e bússola são utilizadas para ajustar a escala e rotação das imagens, respectivamente. As imagens target foram extraídas de uma imagem georreferenciada da região de São Carlos-SP. As informações de latitude e longitude de cada imagem template (quadro extraído do vídeo) servem como referência para essa extração. Cabe no entanto, ressaltar que neste experimento, diferentemente do simulador de voo, não 46

58 há informação do sensor inercial para o recorte do alvo. Caso a imagem alvo fosse recortada a partir da posição de referência do quadro corrente (template), o erro acumulado do inercial seria neste experimento desprezado. Para simular esse erro dois valores aleatórios, no intervalo de 200 e 200 (pixels), são somados à coordenada de referência (x e y). Este valor foi escolhido de forma a permitir que a imagem template sempre esteja contida na imagem target. A partir desse novo valor de coordenada são acrecidos 300 pixels nas direções norte, sul, leste e oeste, gerando assim a imagem template com as dimensões 600 pixels de altura e 600 pixels de largura. A Tabela 4.4 apresenta o desempenho dos métodos utilizados. Nela são listados o nome do métodos, a distância média (em metros), a variância (ou desvio padrão), a moda (em metros) e os percentuais de falsos positivos (FP) e verdadeiros positivos (VP). Tabela 4.4: Desempenho dos extratores de borda com imagens do vídeo: Canny, RBF e MLP MOBJ no vídeo Método Distância média Variância Moda FP(%) VP(%) Canny RBF (Metodologia 1) RBF (Metodologia 2) MLP MOBJ (Metodologia 1) MLP MOBJ (Metodologia 2) Como pode ser observado na Tabela 4.4, os métodos apresentaram resultados satisfatórios, sendo que nenhum deles apresentou falsos positivos. Canny resultou em uma distância média de e moda , os melhores valores se comparados com as demais técnicas investigadas. Acredita-se que os bons resultados obtidos neste experimentos podem ser atribuídos a boa resolução das imagens templates, a proximidade de tempo de captura entre template e target (vídeo) e ainda por se tratar de uma região rural com baixa variação de características do terreno. Outro fator que pode influenciar nos resultados, é uma imprecisão do log identificado nos imagens deste vídeo. As Figuras 4.19, 4.20a, 4.20b, 4.21a e 4.21b apresentam as distâncias em metros obtidas para todas as imagens extraídas do vídeo. 47

59 Figura 4.19: Desvios obtidos por Canny durante o voo. 48

60 (a) RBF (Metodologia 1) (b) RBF (Metodologia 2) Figura 4.20: Desvios obtidos pelas RBFs durante o voo. (a) RBF (Metodologia 1). (b) RBF (Metodologia 2) 49

61 (a) Desvios obtidos pela MLP (Metodologia 1) no simulador do voo. (b) Desvios obtidos pela MLP (Metodologia 2) no simulador do voo. Figura 4.21: Desvios obtidos pelas MLPs MOBJ durante o voo. (a) MLP MOBJ (Metodologia 1). (b) MLP MOBJ (Metodologia 2) 50

62 4.4 Discussão Na análise comparativa entre os extratores de borda, Canny mostrou-se, no geral, melhor que os demais, apresentando 100% de acurácia para o experimento envolvendo diferentes tipos de terreno. Em relação ao experimento que usa o simulador de voo, Canny apresentou uma rota mais suave que os outros métodos e foi o único método que obteve um erro médio de estimação da posição abaixo dos 200m. Sua taxa de falso de positivos ficou na ordem de 25.9%. Adicionalmente, por apresentar menor tempo de processamento na extração de bordas, Canny, juntamente com a RBF Metodologia 2, realizou o maior número de cálculos de correlação, fazendo com que sua rota estimada tenha um percurso mais próximo da rota real. As RBFs, divididas em duas metodologias de treinamento, apresentaram resultados distintos. No experimento por classe de terreno, a RBF Metodologia 1 apresentou um falso positivo para as 80 imagens do banco. O ponto de falso positivo apresentado corresponde a uma imagem do banco de dados classificado como Floresta (ver Figura 4.6b). Em relação aos resultados obtidos usando o simulador de voo, a RBF Metodologia 2 apresentou 64, 7% de FP, o pior resultado dentre todas as metodologia testadas, enquanto a Metodologia 1 apresentou 46.15%, sendo este o segundo pior resultado. Embora a rota produzida pelos extratores RBFs tenha produzido uma taxa elevada de falsos positivos, é importante ressaltar que, assim como Canny, eles conseguiram alcançar com êxito todos os way-points da rota planejada no simulador. A MLP MOBJ Metodologia 1, no experimento utilizando o banco de imagens, apresentou o maior valor de distância média (desvio), em torno de 4.3 pixels, além de um FP referente a uma imagem de classe Floresta. Este Falso Positivo reforça a hipótese de que métodos de extração de borda podem ter seu desempenho prejudicado em classes de terreno com baixa estruturação. Para os experimentos no simulador, as MLPs MOBJ tiveram os menores números de estimativas, 17, para ambas as metodologias de treinamento. Esse baixo valor pode ser associado ao esforço computacional demandado para realizar a extração de bordas. A Metodologia 2 de treinamento dessa rede obteve o segundo menor desvio médio, , entre todos os métodos testados. Além disso, apesar de ter uma distância média acima do limiar de FP (200 metros), o percentual de FP é bem próximo de Canny, 29.41%. Finalmente, cabe ressaltar que as MLPs não foram capazes de atingir o último way-point da rota planejada. Isso pode ter ocorrido pelo tempo de resposta gasto pelos métodos para extrair as bordas. No experimento do vídeo todos os métodos de extração de borda, obtiveram 100% de Verdadeiros Positivos. Vale ressaltar que este resultado não era esperado quando 51

63 o vídeo foi inicialmente disponibilizado. Pensava-se que os métodos de extração de bordas poderiam falhar devido à predominância de terrenos não-estruturados nos quadros do vídeo. O bom resultado pode ser atribuído à qualidade do sensor de captura das imagens. Este experimento utilizou um mosaico de imagens georreferenciadas montada a partir de imagens do Google Maps. As imagens fornecidas pela empresa XMobots são de alta resolução: 72 dpi, 5184 pixels de altura, 3456 pixels de largura e 24 bits de intensidade, gerando assim uma imagem de 10mb, em média. Essas configurações trazem uma riqueza de detalhes para cada cena. O processo de extração de bordas traz bons resultados quando se tem uma boa definição de mudança de intensidade. Apesar de trazerem ganhos em acurácia, imagens com essas configurações trazem um custo computacional elevado, gerando um esforço de processamento. O processo de casamento das imagens extraídas do vídeo levou em média 33 segundos, invariante ao método de extração de bordas. A hipótese da possível queda de desempenho de extratores de bordas no casamento de imagens não estruturadas é verdadeira, conforme apontado no experimento que considerou diferentes classes de terreno. As Figuras 4.22a e 4.22b, a seguir, mostram duas matrizes com valores de correlação (pixel a pixel) estimados através do processo de casamento de imagens. A Figura 4.22a é a matriz retornada a partir do casamento entre imagens da classe Urbano e a Figura 4.22b é a matriz retornada a partir do casamento entre imagens da classe Floresta. Percebe-se, na Figura 4.22a, um pico bem definido indicando o ponto de mais alta correlação em relação aos demais, mostrando a qualidade do descritor em diferenciar a região de interesse. Já na Figura 4.22b, não há um pico bem definido, mas sim inúmeros picos com magnitudes similares. Este é um indicativo da perda de qualidade do descritor em diferenciar regiões de interesse em cenas não estruturadas. 52

64 (a) Classe Urbano (b) Classe Floresta Figura 4.22: Valores da matriz de correlação. (a) Classe Urbano. (b) Classe Floresta Este fato reforça que um sistema de localização baseado em bordas deve considerar o planejamento de rotas em terrenos mais bem estruturados. Cabe ressaltar, no entanto, que a qualidade do descritor de bordas pode aumentar caso as imagens possuam elevada resolução, como mostrado no experimento com o vídeo. Os extratores baseados em RNAs aqui avaliados obtiveram, no geral, piores desempenhos que o bem conhecido operador de Canny. A implementação de uma abordagem de regularização (aprendizado Multiobjetivo) no treinamento de modelos MLP mostrou-se promissora e merece ser melhor investigada. A metodologia 2 de treinamento de MLP MOBJ mostrou um interessante descritor de bordas, conforme pode ser observado pela Figura 4.23, que compara as extrações de bordas de Canny e MLPs MOBJ para uma mesma imagem. 53

65 (a) Imagem orginal (b) Bordas via Canny (c) Bordas via MLP MOBJ Metodologia 1 (d) Bordas via MLP MOBJ Metodologia 2 Figura 4.23: Exemplo de extração de bordas pelos métodos Canny e MLP MOBJ Metodologias 1 e 2. (a) Imagem original. (b) Bordas via Canny (c) Bordas via MLP MOBJ Metodologia 1 (d) Bordas via MLP MOBJ Metodologia 2 A metodologia 2 é uma variação da abordagem de treinamento de RNAs usada em (Goltz, 2011) e considera o problema de extração de bordas como um problema de discriminação binária: presença ou não-presença de borda. Dos extratores baseados em RNAs aqui avaliados, MLP MOBJ Metodologia 2 foi o que mais se aproximou do operador Canny. 54

66 Capítulo 5 Conclusões e propostas de continuidade A navegação sem o uso de um agente de apoio ou de tecnologias de geolocalização, como o GNSS, por exemplo, ainda é um desafio. Como visto no Capítulo 2, estudos sobre esse assunto despertam interesse de órgãos militares e governos, para fins de guerra e segurança, a fim de evitar a exposição de seres humanos em tarefas que colocam a vida em risco. Com isso, várias abordagens são avaliadas a fim se chegar a uma tecnologia que permita, de forma autônoma, uma aeronave sobrevoar uma área, capturar uma imagem, interpretá-la e tomar a decisão quanto a sua navegação. Os resultados obtidos neste trabalho fornecem indicativos de qua a abordagem de casamento de imagens pode ser usada como alternativa a uma tecnologia de localização e estimação da posição geográfica de uma aeronave não tripulada. Eles comprovam que descritores baseados em bordas são robustos a diferenças espectrais e de luminosidade sendo capazes de reconhecer eficientemente regiões de interesse em imagens obtidas de diferentes sensores na faixa do visível. Boas estimativas de localização foram obtidas no experimento com o vídeo mesmo sabendo de antemão que o terreno sobrevoado era não estruturado (zona rural). Cabe ao projetista do sistema de localização avaliar o compromisso entre usar sensores de alta resolução para obtenção das imagens e o custo computacional para processá-las. Em se tratando de tempo de processamento de imagens, foi mostrado neste trabalho que o uso de funções otimizadas pode ser vantajoso para elevar a taxa de ocorrência de estimação de posições ao longo do percurso do VANT. O experimento com o simulador mostrou que um número maior de estimativas pode levar a uma trajetória mais suave e próxima da rota planejada. Diante das considerações apresentadas, esta dissertação possui as seguintes contribuições: 55

67 desenvolvimento de uma interface gráfica para automação dos testes realizados no ambiente do simulador de voo; Implementação e disponibilização de cinco extratores de características baseados em bordas no módulo de visão computacional do sistema NAV; Extensão dos resultados obtidos em (Goltz, 2011), com uma análise empírica da metodologia de casamento de imagens em rotas pré-estabelecidas no simulador e também em um vídeo real; Como continuidade deste trabalho, alguns trabalhos futuros são sugeridos: minimizar o tempo no processo de extração de bordas em imagens de satélites e georreferenciadas para as redes neurais artificiais aqui estudadas; Avaliar o emprego da Metodologia 2 de treinamento em outras redes neurais; Identificar em tempo de voo a classe do terreno sobrevoada e aplicar o extrator com melhor acurácia para aquele tipo de terreno; Estudar uma técnica que corrija a perspectiva das imagens, eliminando uma premissa do processo de casamento de imagens que é a captura das imagens em visada nadir; Estudar outras técnicas de casamento de imagens no domínio da transformada utilizando as bordas extraídas via RNAs. 56

68 Referências Bibliográficas Ruan M Andrade, Elcio H. Shiguemori, and Ana Paula A. de Castro. Tracking rural and urban landmarks for uav autonomous navigation. page 433. CRC Press, Herbert Bay, Andreas Ess, Tinne Tuytelaars, and Luc Van Gool. Surf:speeded-up robust features. volume 110, pages Elsevier, Andrea Canhoto, Elcio Hideiti Shiguemori, and Marco Antonio Pizani Domiciano. Image sequence processing applied to autonomous aerial navigation. In Signal and Image Processing Applications (ICSIPA), 2009 IEEE International Conference on, pages IEEE, John Canny. A computational approach to edge detection. Pattern Analysis and Machine Intelligence, PAMI-8(6): , Ana Paula Abrantes de Castro, José Demisio Simões da Silva, Felipe Leonardo Lobo Medeiros, and Élcio Hideiti Shiguemori. Restauração de imagens e detecção automática de características aplicados a navegação aérea autônoma. In Anais XIV Simpósio Brasileiro de Sensoriamento Remoto, pages 1 10, Gianpaolo Conte and Patrick Doherty. An integrated uav navigation system based on aerial image matching. In Aerospace Conference, pages IEEE, Marcelo Azevedo Costa. Controle por modos deslizantes da generalização em aprendizado de redes neurais artificais, FlightGear. Flight gear - simulador de voo, URL org/. Gustavo Augusto Mascarenhas Goltz. Avaliação do erro estimação da posição de um vant através da correlação entre imagens aéreas e de satélite Gustavo Augusto Mascarenhas Goltz. Redes neurais artificiais em imagens para estimação da posição de um vant,

69 Gustavo Augusto Mascarenhas Goltz, José Demísio Simões da Silva, Haroldo Fraga de Campos Velho, and Elcio Hideiti Shiguemori. Detecção de bordas em imagens aéreas e de satélite com uso de redes neurais artificiais Gustavo Augusto Mascarenhas Goltz, Élcio Hideiti Shiguemori, and Haroldo Fraga de Campos Velho. Position estimation of uav by image processing with neural networks. In X Congresso Brasileiro de Inteligência Computacional, pages CBIC, Rafael C. Gonzalez and Richard E. Woods. Processamento de Imagens Digitais. 3. ed. edition. ISBN Simon Haykin. Redes Neurais: Princípios e práticas. bookman, Porto Alegre - RS, 2nd edition, ISBN Euler Guimarães Horta, Élcio Hideiti Shiguemori, Haroldo Fraga de Campos Velho, and Antônio de Pádua Braga. Extração de características e casamento de padrões aplicados à estimação de posição de um vant. In Anais do XIX Congresso Brasileiro de Automática, pages , ISBN Jyh-Shing Roger Jang and Chuen-Tsai Sun. Neuro-fuzzy and Soft Computing: A Computational Approach to Learning and Machine Intelligence. Prentice-Hall, Inc., Upper Saddle River, NJ, USA, ISBN Caio G. José and Elcio Hideiti Shiguemori. Processamento de imagens obtidas com diferentes ângulos de visada para aplicação na navegação autônoma. In Anais do Seminário Anual de Iniciação Científica e Pós-Graduação do IEAv. IEAv, Claudio Rosito Jung, Fernando Osório, Christian Roberto Kelber, and Farlei José Heinen. Computação embarcada: projeto e implementação de veículos autônomos inteligentes Jong-Hyuk Kim and Salah Sukkarieh. Real-time implementation of airborne inertialslam. Robotics and Autonomous Systems, 55(1):62 71, Marielcio Gonçalves Lacerda, Camila Souza dos Anjos, and Élcio Hideiti Shiguemori. Uso de coordenadas geográficas para estimação automática de rumo aplicada a navegação aérea autônoma de veículos aéreos não tripulados. Anais XVII Simpósio Brasileiro de Sensoriamento Remoto - SBSR,

70 Wen-Chia Lee and Chin-Hsing Chen. A fast template matching method for rotation invariance using two-stage process. In Intelligent Information Hiding and Multimedia Signal Processing, IIH-MSP 09. Fifth International Conference on, pages IEEE, Paul A. Longley. Geographic information systems and science. 2nd ed. Wiley, ISBN D. G. Lowe. Object recognetion from local scale-invariant features. In International Conference on Computer Vision 2, Matlab. Matlab, URL Felipe Leonardo Lôbo Medeiros and JDS Silva. Grafos de visibilidade aplicados à representação computacional de ambientes de navegação aérea. X Simpósio de Aplicações Operacionais em Áreas de Defesa (SIGE), São José dos Campos SP, Eckart Michaelsen and Jochen Meidow. Stochastic reasoning for structural pattern recognition: An example from image-based uav navigation. Pattern Recognition, 47(8): , Luiz G. B. Mirisola, Jorge Dias, and Samuel Siqueira and Bueno. Uma metodologia de odometria visual/inercial e slam 3d com um vant, Marcio Tadeu de Assis Honorato Muella. Morfologia e dinâmica das irregularidades ionosféricas de pequena escala e imageamento ionosférico por GPS, RBF. Arquitetura rbf, URL images/nature_inspired/rbf_net.png. Fabricio Bortolini de Sá, Marino Frank Cypriano, Felippe Mendonça de Queiroz, Raquel Frizera Vassallo, Flavio Garcia Pereira, and Anselmo Frizera Neto. Planejamento de trajetória para um robô môvel usando imagens capturadas por um vant: conceitos e resultados preliminares. Anais do XX Congresso Brasileiro de Automática, Pablo Sala, Robert Sim, Ali Shokoufandeh, and Sven Dickinson. Landmark selection for vision-based navigation. volume 22, pages IEEE,

71 A.L. Santos, L.C.B. Torres, Élcio Hideiti Shiguemori, Haroldo Fraga de Campos Velho, and Antônio de Pádua Braga. Controle e navegação de vants através de utilização de template matching. In Anais do Computer on the beach. Computer on the beach, B. A. O. Santos and Élcio Hideiti Shiguemori. Determinação de pontos de controle em imagens aéreas e de videogramaa para aplicação na navegação autônoma. page 41. IEAv, Elcio Hideiti Shiguemori, Maurício Pozzobon Martins, and Marcus Vinícius T. Monteiro. Landmarks recognition for autonomous aerial navigation by neural networks and gabor transform. In Image Processing: Algorithms and Systems, volume 29, page 64970, Carlos Anderson Oliveira Silva, Gustavo Augusto Mascarenhas Goltz, Cristiano Leite Castro, Élcio Hideiti Shiguemori, Haroldo Fraga de Campos Velho, and Antônio de Pádua Braga. Avaliação da técnica de casamento de imagens para navegação autônoma de vants Paulo Silva Filho, Marcel Rodrigues, Osamu Saotome, and Elcio Hideiti Shiguemori. Fuzzy-based automatic landmark recognition in aerial images using orb for aerial auto-localization. In Advances in Visual Computing, pages Springer, Roselito Albuquerque de Texeira. Treinamento de redes neurais artificiais através de otimização multi-objetivo: Uma nova abordagem para o equilíbrio entre a polarização e a variância., Roselito de Albuquerque Texeira, Antonio Padua Braga, Ricardo HC Takahashi, and Rodney R Saldanha. Improving generalization of mlps with multi-objective optimization. Neurocomputing, 35(1): , VANTs. Imagens de vants, URL { uploads//2011/10/mq-1-predator-1.jpg},{ wp-content/uploads/2013/11/brasil_investe_em_veiculo_aereo_nao_ tripulado.jpg},{ 2014/04/VANT.jpg}e{ EnsoMOSAIC_UAV_Mini.jpg}. X-Plane. X-plane - ultra-realistic flight simulation, URL com/. 60

72 XMobots. Xmobots, URL 61