SEGMENTAÇÃO DE IMAGENS DE LARANJEIRAS COM MAPAS AUTO-ORGANIZÁVEIS FELIPE ALVES CAVANI 1 MÁRIO LUIZ TRONCO 2 RAFAEL VIEIRA DE SOUSA 3 ARTHUR JOSÉ VIEIRA PORTO 4 RESUMO A complexidade presente nas imagens agrícolas torna necessária a pesquisa de técnicas robustas de segmentação de imagens, pois a condição de iluminação é variável e os objetos na cena são complexos. Rede neural artificial é uma ferramenta que apresenta bom desempenho na classificação de padrões complexos e grande tolerância a ruídos, o que a qualifica para este tipo de imagem. Neste trabalho é explorado o uso de mapas auto-organizáveis, para a segmentação da imagem. Com esta rede foi possível segmentar imagens de laranjeiras de tal forma que uma classe é associada aos frutos. Os resultados mostram que esta é uma técnica viável, entretanto é necessário explorar outras topologias de redes para melhorar a qualidade da imagem. PALAVRAS-CHAVE: Imagens agrícolas, laranjeiras, segmentação, redes neurais artificiais, self-organized maps. ORANGE TREES IMAGE SEGMENTATION WITH SELF-ORGANIZED MAPS ABSTRACT Agricultural images complexity demands research for robust image segmentation algorithms, because of change in the light conditions and the objects in scene are complex. Artificial Neural Networks are a tool with good performance in pattern classification and great tolerance for noise, witch make this adequate for image segmentation. In this research, selforganized maps are explored as a tool for image segmentation. With this kind of artificial neural network was possible to segment images from orange trees, where one class corresponds to the fruits. The experimental result show that this technique is feasible, however is necessary to explore other neural networks topologies for increase the quality of the segmented image. KEYWORDS: Agricultural images, orange trees, segmentation, artificial neural networks, self-organized maps. 1 Mestrando em Eng. Mecânica, Bolsista do CNPq, USP - Escola de Engenharia de São Carlos - Dpto. Eng. Mecânica - Laboratório de Simulação e Controle. Av. Trabalhador São-carlense, 400, Parque Arnold Schimidt, São Carlos, SP. e-mail:fcavani@gmail.com 2 Professor do Depto de Ciências da Computação e Estatística, Ibilce, Unesp. R. Cristóvão Colombo, 2265, Jardim Nazareth, São José do Rio Preto, SP. e-mail: mariot@ibilce.unesp.br 3 Doutorando em Eng. Mecânica, USP, Escola de Eng. de São Carlos. e-mail: rafael@cnpdia.embrapa.br 4 Professor Titular da Escola de Eng. de São Carlos, Dep. Eng. Mecânica. e-mail: avporto@sc.usp.br
1. INTRODUÇÃO Imagens digitais, em sua forma padrão, são adequadas para transmitir as características físicas visíveis a um observador humano. Quando deseja-se que estas características sejam compreendidas sob o ponto de vista de uma máquina, é necessário usar um conjunto de técnicas, no contexto da visão computacional. Uma das técnicas fundamentais neste contexto é a de segmentação de imagem (Cheng et. al, 2001), que consiste em destacar regiões de interesse nessa imagem (Rosenfeld & Kak, 1983, Gonzalez & Wintz, 1987). Na literatura são relatadas diversas técnicas de segmentação, que devem ser aplicadas conforme o problema em questão, ou seja, conforme a imagem. A cena que será registrada pela câmera, para dar origem a imagem, pode ser estruturada ou não estruturada. Imagens de cenas agrícolas podem ser consideradas não estruturadas pois a iluminação natural varia durante o dia e, também, conforme a época do ano (Tian & Slaughter, 1998). Outro fator que contribui para a falta de estrutura da cena são as plantas, que apesar de serem organizadas em linhas de plantio, facilitando a localização, não possuem uma organização regular de galhos, folhas e frutos, caso exista algum fruto. As cores de cada parte da planta também não são iguais, pois em uma mesma árvore é possível encontrar frutos com diversos tons de uma mesma cor, ou até mesmo de outra cor. Diversas técnicas de segmentação vêm sendo aplicadas a imagens agrícolas, como pode ser observado nas revisões feitas por Jiménez & Pons (2000) e Hannan & Burks (2004). Dentre os trabalhos citados por estes autores, o uso da cor do pixel é comum para a localização de frutas. Alguns trabalhos também levam em conta características não locais, como a forma da fruta. Dentre os espaços de cores existentes, o RGB e o HSI foram utilizados, sendo que a aplicação do HSI é mais interessante, pois ele é mais robusto em imagens com sombras e reflexos. Como foi visto, as imagens de cenas agrícolas estão sujeitas a diversos fatores que podem prejudicar a segmentação, resultando em imagens com muito ruído. RNA (Redes Neurais Artificiais) são conhecidas por lidar muito bem com este tipo de situação (Pal & Pal, 1993). Outra característica importante das RNAs é seu baixo custo computacional, pois a sua complexidade cresce linearmente, com o número de neurônios, o que as tornam adequadas para aplicações de tempo real quando comparada com técnicas convencionais (Braga et. al., 2000). Pal & Pal (1993) são otimistas com relação ao uso de RNA para segmentação de imagens e citam diversos trabalhos sobre este assunto. Mais recentemente Cheng et al. (2001)
citam muitos trabalhos que utilizam RNAs para segmentar imagens coloridas. Egmont- Petersen et al. (2002) relacionam outros trabalhos que utilizam RNAs para processamento de imagem. Destes três trabalhos é observado que foram realizadas segmentações em diversos tipos de imagens, utilizando várias arquiteturas de RNAs, dentre elas as que mais se destacam são as redes de Hopfield e as redes mapas auto-organizáveis (Self-organized Maps - SOM). A tarefa de segmentação busca por similaridades ou descontinuidades nos pixels (Cheng et. al, 2001). Para isto é necessário observar as propriedades locais de um pixel (intensidade ou cor) ou as características (linha, pontos, bordas ou textura) dele, que são derivadas dos pixels ao redor deste, então, a atribuição deste pixel a uma classe pode ser feita por uma RNA, como em um problema de classificação de padrões. Uma RNA de arquitetura perceptron multi-camada pode ser usada para classificar os pixels, então, será necessário gerar os padrões de entradas e saídas, o que pode ser específico para determinada aplicação. Devido a esta limitação do treinamento supervisionado é possível utilizar o treinamento não supervisionado, que deverá buscar por regularidades nos padrões de entrada e agrupá-los em classes. O agrupamento em classes pode ser feito por uma RNA de arquitetura SOM. Esta rede é organizada de forma que seus neurônios possuem ligações laterais, como em células do córtex visual. Estas fazem com que ocorra uma competição entre os neurônios, portanto, o aprendizado desta rede é competitivo ou não supervisionado. Também é possível afirmar que o aprendizado é auto organizado. A organização surge quando a rede passa a mapear os padrões de entradas em um espaço de menor dimensão (normalmente uma ou duas dimensões) de tal forma a agrupar os padrões semelhantes (Kohonen, 1990). A capacidade de mapear padrões foi explorada por Moreira & Costa (1996) que utilizaram uma SOM bidimensional, onde as componentes de cores RGB normalizadas são mapeadas para um espaço bidimensional e posteriormente as classes são identificadas através de um algoritmo que encontra o agrupamento no mapa bidimensional. Nesta estratégia não é preciso determinar o número de classes, pois o algoritmo proposto é encarregado disso. Também foi proposta uma forma de comparar a segmentação com uma imagem segmentada manualmente. Os resultados mostram que esta estratégia é viável para a segmentação de imagens. O método usado para avaliar a segmentação também é adequado. O uso de um SOM unidimensional é proposta por Wu et. al. (2000) para a localização de mãos em uma imagem. Diferente de Moreira & Costa (1996), que utilizam um algoritmo para definir quantos segmentos existem na imagem, Wu et. al. (2000) utilizam uma
rede SOM modificada, que usa crescimento, poda e agrupamento para determinar a quantidade de neurônios na rede. Neste caso a rede SOM funciona como um classificador, já que ela mapeia um padrão de entrada para o neurônio que representa a classe. Lin et. al. (1992) utilizam uma rede SOM de uma dimensão com o número de neurônios fixo para iniciar a rede proposta por eles, a Constraint Satisfaction Neural Network (CSNN). Neste artigo as imagens que são segmentadas estão em tons de cinza, mas Kurugollu et. al. (2002) passam a usar cores para segmentar as imagens. Ambos utilizam a rede SOM para determinar a qual segmento um pixel pertence, da mesma forma que Wu et. al. (2000). Neste trabalho uma RNA de arquitetura SOM foi usada para segmentar imagens agrícolas, mais especificamente imagens de uma laranjeira. O propósito desta segmentação é encontrar regiões com cores semelhantes de tal forma a separar os elementos que compõem a cena, ou seja, separar folhas, frutas, solo e céu. A seguir será discutida a rede SOM, o treinamento e o uso dela. 2. DESENVOLVIMENTO Redes SOM são capazes de organizar os padrões em um espaço de menor dimensão de forma coerente, dispondo os semelhantes próximos uns dos outros, então esta informação é usada para atribuir as classes para os pixels, assim, segmentando a imagem. Este comportamento é obtido através do treino da rede com o algoritmo apropriado, que ajusta os pesos sinápticos do neurônio que tiver a menor distância euclidiana entre os pesos e o padrão de entrada. A distância é calculada conforme a equação 1, onde w i é o peso do neurônio, x p é o padrão p e d é o número de neurônios, ou seja, o número de segmentos. D = w x, i = 1,..., d (1) i i p Determinado o neurônio vencedor, o ajuste deve ser feito conforme a equação 2, onde w k ( t +1) é o peso atualizado, w k (t) é o peso atual, α(t) é a taxa de aprendizagem e x p é o padrão p. w ( t+ 1) = w ( t) + α( t)( x w ( t)) (2) k k p k Os neurônios vizinhos ao vencedor também devem ser atualizados, mas com uma taxa de aprendizagem menor. A equação 3 realiza esta tarefa, onde q representa os neurônios vizinhos ao vencedor k. w t+ = w t + t x w t (3) 2 q( 1) q( ) ( α( )) ( p q( )) O processo de aprendizagem pode ser resumido nos seguintes passos:
1. Iniciar os pesos dos neurônios aleatoriamente 2. Para cada padrão x p fazer: - Encontre o neurônio vencedor k. - Atualize o peso do neurônio k usando a eq. 2. - Atualize os neurônios vizinhos usando a eq. 3. 3. Atualize α ( t + 1) = Kα( t) Figura 2: Imagem usada no treinamento da RNA. 4. Enquanto não convergir vá para o passo 2. Uma rede SOM com 27 entradas e oito neurônios foi utilizada. Cada entrada está associada a um componente de cor de cada pixel em um quadrado 3 3, onde o pixel central é o que será classificado. Cada neurônio é associado a uma classe, onde uma delas representa os frutos na árvore. O espaço de cor utilizado foi o HSI (Hue, Saturation, Intensity), pois este é utilizado em muitas aplicações devido ao fato de separar a informação sobre a cor da intensidade da luz, assim, evitando o problema com sombras e reflexos. Os parâmetros para o algoritmo de treinamento foram ajustados da seguinte forma: α ( 1) = 0,9, K = 0.9, d = 8, raio da vizinhança igual a 1. Os valores do α (1), K e d adotados foram os mesmo que em Lin et. al. (1992). As imagens (fig. 1) para o treinamento e para o teste da RNA foram feitas em um pomar de laranjeiras. O dia estava ensolarado e sem nuvens. Estas imagens foram reduzidas para o tamanho de 512x384 pixels, para aumentar a velocidade de processamento. Figura 1: Imagem de uma laranjeira usada nos testes da segmentação. Foi utilizada uma imagem (fig. 2) de tamanho reduzido (55x42 pixels) recortada de uma das imagens originais, para treinar a rede. O algoritmo de treinamento e a rede foram
implementados no Octave 5, que é um ambiente gratuito similar ao Matlab. 3. RESULTADOS E DISCUSSÃO Foram obtidas imagens segmentadas em oito classes, onde uma dessas classes é associada ao fruto, como pode ser observado nas figuras 3 e 4. A rede SOM foi responsável por agrupar as cores semelhantes nestas oito classes de tal forma a gerar um imagem menos complexa, onde podem ser aplicados outros algoritmos, como, por exemplo, um para encontrar círculos. Os pixels foram agrupados de tal forma que é possível reconhecer, por inspeção manual, na imagem segmentada, as laranjas. Figura 3: Imagem original (esquerda). Imagem segmentada da laranjeira (centro).classe correspondente as laranjas (direita). A grande variação na intensidade de luz, que é consequência das sobras e reflexos, presente em cenas ao ar livre, prejudicou a segmentação em regiões escuras da imagem, isto porque a topologia da RNA adotada leva em conta o canal da intensidade da luz. Figura 4: Imagem original (esquerda). Imagem segmentada da laranjeira (centro).classe 5 http://www.octave.org correspondente as laranjas (direita).
As regiões mais claras da imagem também foram prejudicadas, pois é possível notar que locais sem laranjas foram associados a classe das laranjas. Estes dois fatos causam muitos ruídos, prejudicando a qualidade da segmentação. 4. CONCLUSÕES Imagens digitais de cenas agrícolas apresentam diversos desafios quando buscamos extrair informações delas, por isso devemos utilizar técnicas de segmentação de imagens robustas. Isto também contribui para que os demais processos de compreensão da imagem sejam realizados com sucesso. Através da técnica de segmentação de imagens, que utiliza RNA de arquitetura SOM, foi possível reconhecer, por inspeção manual, as partes segmentadas. Entretanto esta técnica precisa ser refinada, para isto será necessário desenvolver outras topologias de rede. Também deve ser testada uma RNA que não utilize a intensidade da luz, para que seja determinado se esta é mais adequada para segmentação das imagens em questão. A segmentação com SOM deve ser comparada com segmentações feitas com as técnicas convencionais, assim será possível determinar a viabilidade desta rede. 5. AGRADECIMENTOS Agradecemos ao Prof. Sérgio Borges pela disponibilização do banco de imagens utilizado no presente trabalho. 6. REFERÊNCIAS BIBLIOGRÁFICAS BRAGA, A.; LUDEEMIR, T. B.; CARVALHO, A. Redes Neurais Artificiais, LTC, 2000. CHENG, H. D.; JIANG, X. H.; SUN, Y., WANG, J. Color image segmentation: advances and prospects. Pattern Recognition, v.34, p. 2259-2281, 2001. EGMONT-PETERSEN, M.; RIDDER, D.; HANDELS, H. Image processing with neural networks - a review. Pattern Recognition, v. 35, p. 2279-2301, 2002. GONZALEZ, R. C.; WINTZ, P. Digital Image Processing. 2 ed. Assison-Wesley Publishing Company, 1987. HANNAN, M. W.; BURKS T. F. Current developments in Automated Citrus Harvesting. In: ASAE/CSAE ANUAL INTERNATIONAL MEETING, Ontário, Canadá, 2004. JIMÉNEZ, A. R.; CERES, R.; PONS J. L. A survey of computer vision methods for locating
fruit on trees. Transactions of the ASAE, v. 43, p. 1911-1920, 2000. KOHONEN, T. The Self-Organizing Map. In: PROCEEDINGS OF THE IEEE, v. 78, n. 9, p. 1464-1480, 1990. KURUGOLLU, F.; SANKUR, B. HARMANCI, A. E.; Image Segmentation by relaxation using constraint satisfaction neural network. Image and Vision Computing, v. 20, p. 483-497, 2002. LIN, W.; TSAO, E. C.; CHEN, C. Constraint Satisfaction Neural Networks for image segmentation. Pattern Recognition, v. 25, p. 679-693, 1992. MOREIRA, J.; COSTA, L. F. Neural-based color segmentation and classification using selforganizing maps. In: IX SIBGRAPI, anais, p. 47-54, 1996. PAL, N. R.; PAL, S. K. A review on image segmentation techniques. Pattern Recognition, v. 26, p. 1277-1294, 1993. ROSENFELD, A.; KAK, A. C. Digital Picture Processing. 2 ed. v. 2. Academic Press Inc., 1982. TIAN, L. F.; SLAUGHTER, D. C. Environmentally adaptive segmentation algorithm for outdoor image segmentation. Computer and Electronics in Agriculture, v. 21, p. 153-168, 1998. WU, Y.; LIU, Q.; HUANG T. S. An Adaptative Self-Organizing Segmentation Algorithm with Application to Robust Real-time Human Hand Localization. In: PROCEEDINGS ASIAN CONFERENCE ON COMPUTER VISION, Taiwan, 2000.