Geração de mapas densos de disparidades utilizando cortes de grafo

Save this PDF as:
 WORD  PNG  TXT  JPG

Tamanho: px
Começar a partir da página:

Download "Geração de mapas densos de disparidades utilizando cortes de grafo"

Transcrição

1 UNIVERSIDADE FEDERAL DE GOIÁS INSTITUTO DE INFORMÁTICA LAIS CÂNDIDO RODRIGUES DA SILVA LOPES Geração de mapas densos de disparidades utilizando cortes de grafo Goiânia 2017

2

3 LAIS CÂNDIDO RODRIGUES DA SILVA LOPES Geração de mapas densos de disparidades utilizando cortes de grafo Dissertação apresentada ao Programa de Pós Graduação do Instituto de Informática da Universidade Federal de Goiás, como requisito parcial para obtenção do título de Mestre em Programa de Pós-Graduação em Ciência da Computação. Área de concentração: Ciência da Computação. Orientador: Prof. Dr. Gustavo Teodoro Laureano Goiânia 2017

4 Ficha de identificação da obra elaborada pelo autor, através do Programa de Geração Automática do Sistema de Bibliotecas da UFG. Lopes, Lais Geração de mapas densos de disparidades utilizando cortes de grafo [manuscrito] / Lais Lopes LXXIX, 79 f.: il. Orientador: Prof. Dr. Gustavo Teodoro Laureano. Dissertação (Mestrado) - Universidade Federal de Goiás, Instituto de Informática (INF), Programa de Pós-Graduação em Ciência da Computação, Goiânia, Bibliografia. Inclui gráfico, tabelas, algoritmos, lista de figuras, lista de tabelas. 1. Mapa de disparidades. 2. Grafo. 3. Corte de grafos. 4. Espaço de disparidades da imagem. 5. Teoria Gestalt. I., Gustavo Teodoro Laureano, orient. II. Título. CDU 004

5

6 Todos os direitos reservados. É proibida a reprodução total ou parcial do trabalho sem autorização da universidade, do autor e do orientador(a). Lais Cândido Rodrigues da Silva Lopes Graduou se em Tecnologia em Análise e Desenvolvimento de Sistemas no Instituto Federal de Educação, Ciência e Tecnologia Goiano (Instituto Federal Goiano) - Campus Urutaí. Atualmente é professora do Instituto Federal Goiano - Campus Posse. Durante o Mestrado, na Universidade Federal de Goiás - UFG, foi bolsista da Fundação de Amparo à Pesquisa do Estado de Goiás - FAPEG.

7 Aos meus pais Ângela e Valdivino, pelos ensinamentos e princípios dados. Aos dois homens da minha vida: Allan, meu esposo, e Joaquim, meu primogênito, minhas alegrias.

8 Agradecimentos Em primeiro lugar, ao Senhor dos senhores, o Deus grande, poderoso e temível. Ao professor Dr. Gustavo Teodoro Laureano, pela dedicação e apoio científico que me guiaram no desenvolvimento deste trabalho. Ao meu esposo, pela cumplicidade, dedicação e carinho, sempre ao meu lado me incentivando. Aos professores do Programa de Pós Graduação em Ciência da Computação pelos ensinamentos científicos e filosóficos. A todos os amigos que fiz durante o programa de pós graduação, em especial ao meu amigo Walisson pela amizade e companheirismo. À FAPEG pela concessão da bolsa que auxiliou nas minhas despesas durante o período.

9 "Só podemos ver uma curta distância à frente, mas podemos ver que há muito o que precisa ser feito.", Alan Turing.

10 Resumo Lopes da Silva Rodrigues Cândido, Lais. Geração de mapas densos de disparidades utilizando cortes de grafo. Goiânia, p. Dissertação de Mestrado. Instituto de Informática, Universidade Federal de Goiás. A captura de imagens por múltiplas posições permite recuperar a informação tridimensional do ambiente aplicando o conhecimento sobre a geometria das câmeras e as correspondências entre os pontos das imagens. A correspondência de características em imagens é a tarefa de relacionar regiões de imagens diferentes a um mesmo ponto de interesse, sendo considerado um problema de difícil solução, uma vez que, sofre com ambiguidades, oclusões, variação de iluminação, além de distorções locais. Por contar com tantos desafios, este tema é um dos mais investigados na área de visão computacional [Scharstein e Szeliski 2002]. A presente dissertação tem por objetivo gerar mapas de disparidade densos, usando corte de grafos, a partir de espaços de busca construídos com métricas de correspondência baseadas em leis da teoria Gestalt. Foi desenvolvida uma abordagem híbrida, composta de um algoritmo local para construir o espaço de disparidades da imagem (EDI), e um algoritmo global utilizado para otimizar as disparidades. Os resultados foram mapas de disparidades próximos dos mapas esperados (ground-truth). Percebeu-se a melhor performance da metodologia proposta em relação aos métodos em separado que a compõe. Palavras chave Mapa de disparidades, Grafo, Corte de grafos, Espaço de disparidades da imagem, Teoria Gestalt.

11 Abstract Lopes da Silva Rodrigues Cândido, Lais. Generation of disparities maps using graph cuts.. Goiânia, p. MSc. Dissertation. Instituto de Informática, Universidade Federal de Goiás. The capture of images by multiple positions allows to recover the three-dimensional information of the environment applying the knowledge about the geometry of the cameras and the correspondences between the points of the images. The correspondence of characteristics in images is the task of relating regions of different images to the same point of interest, being considered a problem of difficult solution, since it suffers with ambiguities, occlusions, variation of illumination, besides local distortions. For having so many challenges, this subject is one of the most investigated in the field of computer vision cite Scharstein2001. The present dissertation aims to generate dense disparity maps, using graph cutting, from search spaces constructed with matching metrics based on laws of the Gestalt theory. A hybrid approach was developed, consisting of a local algorithm to construct the image disparity space (EDI), and a global algorithm used to optimize the disparities. The results were maps of disparities close to the expected maps ( textit ground-truth). It was also perceived the best performance of the methodology proposed in relation to the separate methods that compose it. Keywords Disparity maps, Graph, Graph cut, Disparity space image, Gestalt theory.

12 Sumário Lista de Figuras 12 Lista de Tabelas 15 Lista de Algoritmos 16 1 Introdução Motivação e Justificativa Objetivos Geral Específicos Organização do Trabalho 20 2 Visão estéreo Problema de correspondência de imagens estéreo Geometria epipolar Computação estéreo Métodos locais Métodos globais Propagação de crenças Corte de grafos Teoria Gestalt 46 3 Algoritmo de Correspondência Descrição da abordagem proposta 51 4 Resultados Considerações sobre a avaliação dos resultados Resultados e discussão 59 5 Conclusão 72 Referências Bibliográficas 73

13 Lista de Figuras 1.1 Base de imagens Tsukuba 18 (a) Imagem de referência. 18 (b) Imagem alvo. 18 (c) Ground-truth Esquema de visão estéreo simplificado Visão geral de um sistema de visão estéreo Distorção fotométrica. 24 (a) Imagem original 24 (b) Imagem com distorção fotométrica Distorção fotométrica ruído. 25 (a) Imagem original 25 (b) Imagem ruídosa Superfície especular. 25 (a) Imagem original 25 (b) Imagem com reflexo Exemplo de ambiguidade 25 (a) Imagem original 25 (b) Imagem com ambiguidade Exemplo de oclusão Geometria epipolar Processo de retificação. 28 (a) Par estéreo original 28 (b) Par estéreo retificado Espaço de Disparidades da Imagem Troca de mensagens entre vértices Segmentação por cor usando o Mean Shift Exemplo de grafo simples não direcionado Corte de grafo Exemplo da modelagem de grafo Movimento α expansion. 43 (a) Rotulação inicial f. 43 (b) Rotulação ˆf Exemplo de grafo para uma imagem 1D Possíveis pesos para as arestas do termo de Dados. 45 (a) Exemplo aresta tp α. 45 (b) Exemplo aresta tp α. 45 (c) Exemplo aresta e {p,q}. 45

14 (d) Exemplo de grafo completo Agrupamento por similaridade de cor. 48 (a) Imagem original. 48 (b) Similaridade f s (δc pq ) para o pixel destacado Máscara de proximidade Esquema geral da metodologia Par estéreo Tsukuba. 56 (a) Imagem da esquerda. 56 (b) Imagem da direita 56 (c) Ground-truth 56 (d) Mapa de oclusão Par estéreo Venus. 56 (a) Imagem da esquerda. 56 (b) Imagem da direita 56 (c) Ground-truth 56 (d) Mapa de oclusão Par estéreo Teddy. 57 (a) Imagem da esquerda. 57 (b) Imagem da direita 57 (c) Ground-truth 57 (d) Mapa de oclusão Par estéreo Cones. 57 (a) Imagem da esquerda. 57 (b) Imagem da direita 57 (c) Ground-truth 57 (d) Mapa de oclusão Mapas de descontinuidades. 59 (a) Mapa de descontinuidades - Tsukuba 59 (b) Mapa de descontinuidades - Venus 59 (c) Mapa de descontinuidades - Teddy 59 (d) Mapa de descontinuidades - Cones Mapas de disparidades com diferentes métricas no EDI. 60 (a) SAD 60 (b) OSAD 60 (c) CCN 60 (d) SQD 60 (e) Teoria Gestalt - TG Gráfico da taxa de erro para o par Tsukuba Gráfico da taxa de erro para o par Venus Gráfico da taxa de erro para o par Teddy Gráfico da taxa de erro para o par Cones Mapas de disparidades utilizando α expansion e teoria Gestalt. 67 (a) Tsukuba 67 (b) Mapa de erro 67 (c) Venus 67 (d) Mapa de erro 67

15 (e) Teddy 67 (f) Mapa de erro 67 (g) Cones 67 (h) Mapa de erro Comparação entre técnicas para o par de imagens Teddy. 68 (a) Programação Dinâmica 68 (b) Corte de grafos 68 (c) Propagação de Crenças 68 (d) GC + compartilhamento de rótulos 68 (e) Método Proposto Comparação entre técnicas para o par de imagens Venus. 69 (a) Programação Dinâmica 69 (b) Corte de grafos 69 (c) Propagação de Crenças 69 (d) GC + compartilhamento de rótulos 69 (e) Método Proposto Diferentes termos de suavização usando o par Tsukuba. 70 (a) Modelo de Potts 70 (b) Distância L 2 truncada 70 (c) Ground-truth Diferentes termos de suavização usando o par Teddy. 71 (a) Modelo de Potts 71 (b) Distância L 2 truncada 71 (c) Ground-truth 71

16 Lista de Tabelas 2.1 Métricas de similaridade Particularidades dos pares estéreos Principais parâmetros Porcentagem de bad pixels para diferentes construções do EDI Valores ótimos para os estéreos Tsukuba, Venus, Teddy e Cones Comparação do método proposto Erros para o par Teddy Erros para o par Venus. 70

17 Lista de Algoritmos 2.1 Espaço de Disparidade Al pha Expansion 42

18 Introdução CAPÍTULO 1 A geração de mapas de disparidades é um problema clássico de visão estéreo, cujo objetivo principal é calcular as diferenças entre as posições, chamadas de disparidades, de um mesmo ponto físico em imagens diferentes. A visão estéreo é um tema de pesquisa da área de Visão Computacional [Szeliski 2010] que se caracteriza pela presença de múltiplos pontos de visualização de uma mesma cena. A captura de imagens por múltiplas posições permite recuperar a informação tridimensional do ambiente aplicando o conhecimento sobre a geometria das câmeras e as correspondências entre os pontos das imagens [Hartley e Zisserman 2003]. A distribuição das disparidades de acordo com a cena é conhecido como mapa de disparidades. Quando esse mapa possui uma disparidade para cada pixel da cena é chamado de mapa denso de disparidades. A correspondência de características em imagens é a tarefa de relacionar regiões de imagens diferentes a um mesmo ponto de interesse. A Figura 1.1 ilustra o problema de correspondência, os pontos coloridos em destaque nas figuras 1.1(a) e 1.1(b) representam pontos físicos correspondentes no mundo real. Nela está o par de imagens estéreo Head and Lamp, popularmente conhecido como Tsukuba, a figura mais à esquerda é denominada imagem de referência e a mais a direita imagem alvo. Tipicamente os mapas de disparidades são codificadas em tons de cinza, pixels de objetos mais próximos à câmera recebem valores próximos a 255 (branco), enquanto pixels de objetos mais distantes recebem valores tendendo a 0 (preto). A figura 1.1(c) traz o mapa de disparidades esperado (ground-truth) para o par de imagens Tsukuba, apresentado nas Figuras 1.1(a) e 1.1(b). A tarefa de mensurar a diferença de localização dos pontos entre as imagens de referencia e alvo é considerada um problema de difícil solução, uma vez que, sofre com ambiguidades, oclusões, variação de iluminação, além de distorções locais [De-maeztu et al. 2011]. Por contar com tantos desafios, este tema é um dos mais investigados na área de visão computacional [Scharstein e Szeliski 2002]. Existem, basicamente, duas abordagens para se fazer correspondência de pixels: local e global [Brown et al. 2003], [Scharstein e Szeliski 2002]. Técnicas locais trabalham associando os pixels por meio de janelas de vizinhança. Quanto mais uma janela se

19 18 (a) Imagem de referência. (b) Imagem alvo. (c) Ground-truth Figura 1.1:. Os pontos coloridos em destaque nas figuras 1.1(a) (imagem de referência) e 1.1(b) (imagem alvo) representam pontos correspondentes nas duas imagens. E na figura 1.1(c) está o mapa de disparidades esperado do par de imagens Tsukuba. assemelha à outra, maior é a probabilidade de correspondência entre os pixels. Técnicas globais realizam a correspondência levando em consideração o comportamento de todos os pixels da imagem. Um dos maiores desafios, independente da abordagem adotada, é atribuir a disparidade de cada ponto na imagem dentro do contexto da cena, respeitando a solidez e as fronteiras dos objetos na cena. Os trabalhos de [Kanade e Okutomi 1994], [Boykov, Veksler e Zabi 1998] e [Kuk-Jin e In-So 2005] tiveram como objeto de investigação as dimensões da janela de vizinhança. Tais técnicas trabalham de forma local e estão sujeitas a ambiguidades. Uma maneira de se diminuir as ambiguidades é considerando todo o comportamento dos pixels da imagem e não apenas os que estão dentro de uma janela. Nesse contexto os trabalhos de [Sun, Zheng e Shum 2003] e [Boykov, Veksler e Zabih 2001] realizaram a modelagem do problema na forma de um problema de minimização de energia, minimizar tal energia significa a achar o mapa de disparidades com o menor sinal de erro associado. Bons resultados são encontrados em ambos, no entanto, segundo os autores, ainda há espaço para melhorias. O Espaço de Disparidades da Imagem (EDI) é uma matriz que armazena os custos para cada disparidade. Uma alternativa para gerar mapas de disparidades mais precisos é associar técnicas locais em técnicas globais. Em [Hu et al. 2010] o EDI é gerado por meio de uma técnica local bem parecida com a abordada em [Kuk-Jin e In-So 2005] e as disparidades são escolhidas pelo algoritmo global Alpha Expansion proposto em [Boykov, Veksler e Zabih 2001]. O uso de tais técnicas permitiram ao algoritmo competir

20 19 dentro do mesmo patamar com os três algoritmos, baseados em cortes de grafo, mais bem avaliados pelo Middlebury. O presente trabalho propõe a utilização de uma abordagem híbrida para a geração de mapas de disparidades densos. Dessa forma, duas técnicas são utilizadas, uma local para gerar o EDI e uma global para selecionar as disparidades. A técnica local tem inspiração na Teoria Gestalt. Nela o custo das correspondências são computados com base nas leis de similaridade e proximidade geométrica das janelas, conforme pesquisa de Yoon and Kweon [Yoon e Kweon 2006]. A técnica global é baseada em cortes de grafos. O problema é modelado na forma de um grafo e posteriormente minimizado, conforme pesquisa de Boykov et. al [Boykov, Veksler e Zabih 2001]. O uso das leis Gestálticas alcançam EDI s mais precisos, pois conseguem simular a percepção humana por meio de matrizes de agregação que armazenam os pesos referentes a cada pixel da janela de suporte de acordo com a proximidade espacial e similaridade de cor. Dessa forma, tal técnica consegue preservar as descontinuidades presentes nas bordas dos objetos, além de trabalhar bem em regiões homogêneas, sendo bem robusto para tamanhos variados de janela. Uma possível formulação para resolver essas dificuldades é por meio de minimização de energias. A técnica global modela o problema em termos de energia e busca minimizá-la. Para isso, o problema é delineado na forma de um grafo, onde pixels são os nós, e os pesos nos arcos entre os nós são os custos de se atribuir rótulos aos pixels. Seu uso permite gerar mapas que variam de forma mais suave, respeitando assim a integralidade dos objetos, sem no entanto perdas na preservação das descontinuidades. A modelagem do EDI desempenha um papel importante, pois ele é a base para o cálculo do mapa. Quando a distribuição do custo do EDI não é informativa, dessa forma a medida de custo não confiável, tornando o problema de otimização complexo [Hu et al. 2010]. Espera-se que ao oferecer uma entrada inicial mais refinada ao algoritmo global torne a modelagem da energia a ser minimizada mais adequada o que resultaria em um mapa de disparidades mais preciso Motivação e Justificativa A partir do mapa de disparidades é possível utilizar regras de triangulação para estimar o mapa de profundidade da cena. Quando se conhece o valor das disparidades existentes entre os pixels as coordenadas do mundo real de cada ponto da imagem podem ser reconstruídas [Szeliski 2010]. Existem várias formas de se extrair as características 3D da cena. Métodos que envolvem sensores de profundidade a laser, além de invasivos, não trabalham bem sobre superfícies brilhantes. Dispositivos ultra-sônicos são muito caros e fornecem apenas informações esparsas sobre o ambiente. Uma outra opção são os sistemas estéreos, com

21 1.1 Objetivos 20 custo de aquisição baixo, não invasivos e trabalham bem sobre cenas em geral, sendo necessário porém lidar com algumas dificuldades já bem conhecidas como, ambiguidades, ruídos e oclusões. Mapas de profundidade podem ser utilizados para as mais variadas finalidades. Um exemplo é a Navegação autônoma, tanto em robôs como em carros, que tem despontado como uma das áreas mais investigadas atualmente [Mendes e Wolf 2013]. A visão estéreo também tem sido empregada na automação industrial onde máquinas com visão 3D conseguem realizar tarefas, como, identificação, localização e medição de peças [?]. Além destas, a reconstrução de ambientes por meio de mapas de disparidades é usada na estimação de medidas em locais de difícil acesso como oceanos, montanhas, desertos, entre outros. A busca por técnicas de correspondência estéreo mais robustas e eficazes tornam as pesquisas constantes, uma vez que contribuem para o avanço nas citadas áreas. 1.1 Objetivos Geral Gerar mapas de disparidade densos, usando corte de grafos, a partir de espaços de busca construídos com métricas de correspondência baseadas em leis da teoria Gestalt Específicos 1. Construir espaços de busca utilizando as leis de similaridade e proximidade. 2. Utilizar o algoritmo α-expansion para gerar mapas de disparidades densos. 3. Avaliar a qualidade dos mapas gerados. 1.2 Organização do Trabalho O presente trabalho encontra-se estruturado da seguinte forma: No capítulo 2 é dada uma visão geral sobre computação e visão estéreo, além de alguns aspectos geométricos relacionados. Ainda neste mesmo capítulo é apresentado o problema de correspondência de características, bem como as principais dificuldades encontradas. No capítulo 3 é apresentado em detalhes a abordagem proposta. No capítulo 4 são exibidas, as bases de dados utilizadas, a metodologia adotada para a geração dos resultados, além claro, dos resultados obtidos com o uso da metodologia esclarecida no capítulo anterior. E por fim, no capítulo 5 é apresentada a conclusão da dissertação.

22 Visão estéreo CAPÍTULO 2 O sistema visual humano é binocular, dotado de dois olhos que trabalham em conjunto. Tal característica confere algumas vantagens, como por exemplo, olho sobressalente em caso de um ser danificado, campo de visão maior e a estereopsia. Essa última habilidade é gerada graças à paralaxe, que é a disparidade binocular proporcionada pelas posições diferentes dos dois olhos na cabeça. Cada olho registra uma imagem monocular, fundidas pelo cérebro e geram a chamada imagem ciclopiana responsável pela percepção de profundidade [Szeliski 2010]. A capacidade de perceber o mundo em três dimensões está intimamente ligada com a noção de profundidade, pois esta é a responsável por estimar com maior precisão as distâncias entre objetos dispostos em um espaço. A visão estéreo computacional, ou computação estéreo, é inspirada no sistema visual humano. Duas câmeras postas uma ao lado da outra respeitando uma distância préestabelecida fazem o papel do olho humano e buscam determinar a estrutura tridimensional de uma cena por meio das imagens captadas. Isso é possível, pois existe a noção de que a profundidade é baseada nas diferenças de aparência entre as imagens captadas pelo olho da direita e da esquerda [Szeliski 2010]. Essa diferença existente entre as imagens captadas pelos olhos é chamada de disparidade, e é calculada, segundo De-Maeztu et. al, [De-maeztu et al. 2011], pela localização dos pontos homólogos do par de imagens. A Figura 2.1 mostra um exemplo de esquema de visão estéreo. Nela duas câmeras capturam imagens da mesma cena em um determinado instante de tempo a partir de perspectivas diferentes. Na imagem tirada pela câmera da esquerda, denominada de A, é possível perceber que a bola verde aparece mais a direita no enquadramento. Essa mesma bola quando capturada pela câmera B, ao contrário do que acontece na câmera A, é posicionada mais a esquerda no enquadramento. Um sistema de visão estéreo computacional, de acordo com Brown et al, [Brown et al. 2003], pode ser dividido em três partes básicas: calibração, correspondência e reconstrução. A calibração é o processo de determinar os parâmetros necessários para a reconstrução do feixe de luz gerador da imagem. Alguns parâmetros são: a distância focal, o centro óptico e a posição relativa da câmera. A correspondência busca determinar

23 2.1 Problema de correspondência de imagens estéreo 22 Figura 2.1: Esquema de visão estéreo simplificado. Duas câmeras capturam imagens da mesma cena em diferentes pontos de visualização. a diferença de localização nas imagens do mesmo ponto físico no espaço. O problema de reconstrução é estimar a informação de profundidade com base no mapa de disparidade gerado pelo problema de correspondência. A profundidade dos pontos são calculados com base em sua disparidade. A Figura 2.2 mostra a sinopse de um sistema de visão estéreo. Além dos três passos descritos acima há uma fase adicional de retificação do par de imagens. A calibração é o primeiro passo da computação estéreo, é através dele que se armazenam parâmetros físicos da captura das fotos que posteriormente serão utilizados na fase de retificação das imagens. Após a retificação os pontos correspondentes das imagens ficam localizados na mesma linha, facilitando o processo de correspondência. A chave para se fazer a reconstrução (triangulação) do ambiente é o mapa de disparidades obtido na fase anterior. A etapa de correspondência é considerada por alguns autores, como Lazaros et al, [Lazaros, Sirakoulis e Gasteratos 2008], e Szeliski [Szeliski 2010], como uma das mais problemáticas de um sistema de visão estéreo. E por isso mesmo é um dos tópicos que mais tem sido pesquisados na última década [Yang e Ahuja 2012], [Boykov e Veksler 2006]. O presente trabalho foca na resolução do problema de correspondência, para tanto a próxima seção é destinada à sua explicação. 2.1 Problema de correspondência de imagens estéreo Dado duas imagens da mesma cena, imagem de Referência e imagem Alvo, capturadas em perspectivas diferentes, conforme mostrado nas Figuras 1.1(a) e 1.1(b), existe uma dificuldade em associar os pixels dessas duas imagens a um mesmo ponto físico correspondente. O processo de associar os pontos da imagem de referência com seus correspondentes na imagem alvo é chamado de problema de correspondência. A

24 2.1 Problema de correspondência de imagens estéreo 23 Figura 2.2: Visão geral de um sistema de visão estéreo. Com as câmeras inicialmente calibradas é possível armazenar parâmetros físicos da captura das fotos que posteriormente serão utilizados na fase de retificação das imagens. A correspondência de pontos homólogos é a chave para o problema de reconstrução (triangulação). disparidade gerada pela diferença de localização do mesmo ponto entre as duas imagens é inversamente proporcional à noção de profundidade dos objetos em relação à câmera. Dessa forma, Szeliski [Szeliski 2010] conclui que a tarefa de extrair profundidade de um conjunto de imagens se transforma então na tarefa de estimar o mapa de disparidades d(x,y). A distribuição das disparidades de acordo com alguma cena gera o mapa de disparidades. Tais mapas podem ser densos ou esparsos. Mapas densos apresentam uma maior riqueza de detalhes e associam uma disparidade para cada pixel da cena. Por outro lado, mapas esparsos focam nas características principais da cena, ignorando detalhes. Embora exista uma demanda muito grande por mapas densos, Lazaros et al., [Lazaros, Sirakoulis e Gasteratos 2008], pontuam que os mapas esparsos são úteis

25 2.1 Problema de correspondência de imagens estéreo 24 em aplicações que necessitam de estimação de profundidade rápida, como navegação autônoma por exemplo. Tipicamente os mapas de disparidades são codificados em 256 tons de cinza. A Figura 1.1(c) mostra um exemplo de mapa de disparidades. Na verdade, trata-se do mapa de disparidades esperado, conhecido como ground-truth, do par de imagens Tsukuba. Disparidades de pixels pertencentes a objetos mais próximos da câmera são codificados com valores tendendo a 255, representação da cor branca, enquanto disparidades de pixels de objetos mais distantes a câmera recebem valores próximo ao 0, cor preta. O problema de correspondência de características sofre com alguns obstáculos que o tornam desafiador. Entre eles, distorções fotométricas vide Figura 2.3, ruídos vide Figura 2.4, superfícies especulares vide Figura 2.5, regiões ambíguas vide Figura2.6, padrões repetitivos e oclusões vide Figura 2.7. As distorções fotométricas dizem respeito aos problemas relacionados à aquisição das imagens pelo equipamento, como borramento por movimento, desfocamento, erros de compressão, além de ruídos. A Figura 2.3 mostra um exemplo de distorção pela quantidade de luz em que os objetos estão expostos, enquanto a Figura 2.4 mostra um exemplo de imagem ruidosa. Superfícies planas e lisas podem sofrer com reflexão especular da luz, porém tais reflexões podem representar falsas correspondências. A Figura 2.5 ilustra esse problema. (a) Imagem original (b) Imagem com distorção fotométrica Figura 2.3: Distorção fotométrica. A mesma imagem capturada a partir de exposições de luz diferentes. Outra dificuldade muito bem conhecida é a ambiguidade, Figura 2.6. Quando não existe informação suficiente para realizar a correta correspondência de um ponto, mesmo ao se adotar uma região de vizinhança a busca por correspondência pode não retornar uma resposta satisfatória. A repetição de padrões também pode causar um efeito de ambiguidade.

26 2.1 Problema de correspondência de imagens estéreo 25 (a) Imagem original (b) Imagem ruídosa Figura 2.4: Distorção fotométrica ruído. Na Figura 2.4(b) imagem comprometida por ruídos. (a) Imagem original (b) Imagem com reflexo Figura 2.5: Superfície especular. A luz ao bater na lata é refletida de maneira diferente na Figura 2.5(b). As elipses em verde e laranja evidenciam possíveis dificuldades em associar regiões homólogas. (a) Imagem original (b) Imagem com ambiguidade Figura 2.6: Ambiguidade, para o ponto especificado em laranja na Figura 2.6(a) existem vários candidatos prováveis na Figura 2.6(b).

27 2.2 Geometria epipolar 26 Oclusões são grandes obstáculos na busca por correspondências. A disposição das câmeras pode criar cenas em que elementos fiquem expostos em um cena e oclusos em outra. A Figura 2.7 ilustra um exemplo de oclusão em um par de imagens estéreo. Figura 2.7: Oclusão, as setas coloridas partindo da imagem de referencia mostram as disposições dos pontos homólogos na imagem alvo. A seta tracejada exibe um caso típico de oclusão onde o ponto presente na imagem de referencia é ocluído na imagem alvo. Diante de tais dificuldades é comum o uso de algumas suposições sobre a cena, afim de simplificar o processo de correspondência. De acordo com Scharstein and Szeliski, [Scharstein e Szeliski 2002], existem duas suposições já bem estabelecidas na área de visão computacional. A primeira, diz respeito ao mundo fisco e o processo de formação de imagens digitais. Conhecida como suposição de superfícies Lambertianas, estabelece que a aparência das superfícies não varia com o ponto de vista. A segunda suposição é sobre a geometria do mundo real ou da cena e sobre a aparência visual dos objetos. Parte-se do fato de que o mundo físico consiste de superfícies que variam de forma suave e não abrupta. Além destes há ainda as suposições extraídas da calibração das câmeras e da geometria epipolar. 2.2 Geometria epipolar A busca por pixels correspondentes na imagem alvo pode ser feita de forma bidimensional. No entanto, esse processo é custoso computacionalmente e torna-se inviável para aplicações que exigem alto desempenho. Ao se trabalhar com sistemas de visão estéreo existem algumas informações adicionais disponíveis, chamadas de dados de pose e calibração das câmeras, que podem tornar a busca por pixels correspondentes unidimensional através do conhecimento das linhas epipolares. A busca unidimensional apresenta uma série de vantagens sobre a bidimensional, podendo-se destacar sua maior rapidez, confiabilidade e acurácia [Jiang et al. 2011].

28 2.2 Geometria epipolar 27 Figura 2.8: Geometria epipolar: Destaque para o plano epipolar Ω do ponto P e para as linhas tracejadas partindo das projeções P l e P r conhecidas como linhas epipolares. Figura adaptada de [Cui et al. 2017]. A geometria epipolar estéreo trata da geometria existente entre dois pontos de vista de uma mesma cena. A projeção de um ponto em ambas as cenas, imagens de referência e alvo, constituem pontos correspondentes, e a diferença de localização das projeções do referido ponto em cada plano da imagem é chamado de disparidade. Dessa forma Cui et al., [Cui et al. 2017], afirmam que a informação de profundidade é determinada através do conhecimento das disparidades, que são os relacionamentos geométricos entre as câmeras e suas propriedades individuais. Através da geometria epipolar é possível estimar o intervalo de possíveis localizações de um dado pixel na imagem alvo [Szeliski 2010]. Considere duas câmeras capturando imagens da mesma cena a partir de pontos de vista diferentes, para cada ponto P da cena um plano epipolar Ω é definido. Tal plano é delimitado pelas projeções P l e P r e pelos centros de projeção, O l e O r, das duas câmeras. A Figura 2.8 exibe um exemplo de geometria epipolar. Os epipolos, e l e e r, são os pontos de intersecção da linha B, que junta os centros ópticos das câmeras conhecida como linha de base, com os planos das imagens. As linhas onde o plano epipolar intercepta os planos da imagem, Π 1 e Π 2, são chamadas de linhas epipolares conjugadas. Os epipolos são as projeções dos centros focais das câmeras umas nas outras. O epipolo e l é a imagem virtual do centro ótico O r da segunda câmera, e vice versa. Se P l e P r são projeções do mesmo ponto, então P r deve estar na linha epipolar associado com P. Graças a essa restrição é possível restringir a busca pelos pontos correspondentes P l e P r a uma linha. O processo de transformar os planos dos pares de imagem de forma que as linhas epipolares se tornem colineares e paralelas horizontalmente é chamado de retificação. O resultado final são imagens sem distorções introduzidas no momento da captura pela câmera. A Figura 2.9(a) mostra um exemplo de par de imagens obtidas por um sistema de câmeras estéreo e a Figura 2.9(b) o resultado final obtido pelo processo de retificação.

29 2.3 Computação estéreo 28 (a) Par estéreo original (b) Par estéreo retificado. Figura 2.9: O processo de retificação faz com que as câmeras fiquem perfeitamente alinhadas e com a mesma distância focal. Na imagem 2.9(a) está um par de imagens obtidas por um sistema de câmeras estéreo, enquanto a figura 2.9(b) ilustra o resultado obtido pelo processo de retificação aplicado à imagem 2.9(a). Figura extraída de [Hartley e Zisserman 2003] 2.3 Computação estéreo A partir de pares de imagens retificadas, como mostrado na Figura 2.9(b), o processo de busca por pontos correspondentes da imagem de referencia na imagem alvo pode ser inciado. Quanto mais um pixel na imagem de referencia for semelhante a outro na imagem alvo, maior é a probabilidade de serem correspondentes. Essa semelhança é medida pela intensidade dos pixels por meio da computação do custo de correspondência. Algumas métricas comumente utilizadas são a CCN (Correlação Cruzada Normalizada) e a SAD (Soma Absoluta da Diferença), a seção apresenta outras métricas de correspondência. A busca por pixels correspondentes levando em consideração apenas a informação de intensidade é propensa a ambiguidades, pois vários pixels em uma imagem podem ter a mesma intensidade. Dessa forma, faz-se a busca por meio de regiões de pixels, aqui chamadas de janelas. Cada pixel é centrado em uma janela, no lugar de medir a similaridade entre os pixels, mede-se então a similaridade entre as janelas. Tal similaridade é

30 2.3 Computação estéreo 29 Figura 2.10: EDI: Cada retângulo é um plano da imagem, ou profundidade. Nesse exemplo o EDI tem quatro planos, logo, cada elemento do EDI deve pertencer ao intervalo de d 1 à d 4. computada através da agregação dos custos de correspondência dos pixels da janela por meio de uma média ou de um somatório [Scharstein e Szeliski 2002]. A matriz que guarda a similaridade entre os pixels e suas correspondentes localizações (y,x) r e (y,x) a, coordenadas das janelas de referencia e alvo respectivamente, é chamada de Espaço de Disparidade da Imagem (EDI). O EDI é uma matriz tridimensional EDI(y,x,d r ), onde d r representa as possíveis profundidades. Cada profundidade pode ser entendida como um plano conforme mostrado na Figura Para cada profundidade (mais precisamente disparidade) d r, computa-se um custo para cada pixel (x,y) daquele plano. Para se computar o EDI, o tamanho das janelas precisa ser definido e uma medida de similaridade deve ser estabelecida para comparálas. Fazendo W r centrada no pixel de interesse com coordenadas (y,x) e W a centrada no pixel com coordenadas (y,x + d), o tamanho da janela de [2.nv + 1 X 2.nv + 1] e SQD (Soma dos Quadrados da Diferença) a métrica de similaridade, a Equação da distância entre as regiões é dada em 2-1. EDI(y,x,d r ) = nv n v [W r (y + i,x + j) W a (y + i,x + j + d r )] 2 (2-1) i= n v j= n v

31 2.3 Computação estéreo 30 onde n v é o tamanho da vizinhança e d r é o valor de disparidade do índice r no vetor de deslocamento d. O pseudo-código do EDI implementado é mostrado no algoritmo 2.1. Como parâmetros de entrada tem-se: as imagens de referencia e alvo, I r e I a, ambas já retificadas, o tamanho da janela de vizinhança nv, o intervalo de disparidades d, onde d = d min : d max e a métrica utilizada Φ. Para a computação dos custos do EDI cinco métricas, quatro de similaridade e uma de dissimilaridade, são suportadas. A função computar custo(w r,w a,φ) executa a métrica escolhida de acordo com a string Φ passada. Algoritmo 2.1: Espaço de Disparidade Entrada: I r, I a, nv, Φ, d Saída: EDI(y, x, d) 1 para cada pixel p r I r faça 2 Definir a janela de vizinhança W r 3 para cada deslocamento d r d faça 4 Definir a janela de vizinhança W a I a 5 EDI(y,x,d r ) = computar-custo(w r,w a, Φ) 6 fim 7 fim O parâmetro d r citado na linha 3 representa o deslocamento da janela de busca na imagem alvo, mais precisamente ele modela as profundidades admissíveis para cada pixel p r da imagem de referencia, vide linha 1. O cálculo do custo para cada pixel é feito na linha 5, onde existe uma função para cada métrica suportada, um exemplo de tais métrica é mostrado na Equação 2-1. O EDI corresponde ao espaço de possíveis soluções do mapa de disparidades. Cada pixel dispõe de d r custos, um custo para cada plano. Uma forma simples de selecionar as disparidades é levar em consideração o menor custo possível. O Winner Takes All (WTA) elege, de forma local, a disparidade dentro do EDI que representa a menor diferença de intensidade entre as janelas. A Equação 2-2 apresenta o WTA aplicado na geração do mapa de disparidades D. No entanto tal abordagem não leva ao mapa esperado, visto que sofre com os problemas de correspondência já discutidos na seção 2.1. D(y, x) = argmin(edi(y, x)) (2-2) Técnicas que selecionam as disparidades levando em consideração uma região de vizinhança são conhecidas como técnicas locais. Uma outra abordagem possível é eleger as disparidades de maneira global, para isso é necessário modelar o problema na forma

32 2.3 Computação estéreo 31 de minimização de uma função de energia. Em 2003, Brown et al, [Brown et al. 2003] classificaram as abordagens para se fazer correspondência de pixels, exatamente em métodos locais e globais. No entanto, com o passar do tempo alguns autores como Yang and Ahuja, [Yang e Ahuja 2012], Wang et al., [Wang et al. 2015], e Yang et al., [Yang et al. 2009], passaram a considerar uma nova abordagem, denominada de híbrida, pois agrupa elementos locais e globais Métodos locais Técnicas locais trabalham associando os pixels com base em sua vizinhança, conhecida como janela. Quanto mais uma janela se assemelha à outra, maior é a probabilidade de correspondência entre os pixels de interesse das imagens de referencia e alvo. A disparidade para cada pixel é calculada por uma função de custo que mede o quanto as regiões são correspondentes. Uma métrica muito utilizada em correspondência de pixels é a Correlação Cruzada Normalizada (CCN), bastante empregada devido a sua robustez no tratamento das variações de luminosidade, no entanto ela exige alto custo computacional à medida que o tamanho da janela aumenta [Ploumpis, Amanatiadis e Gasteratos 2015]. Para tanto existe uma variação da CCN para cálculos rápidos, conhecida como Correlação Cruzada Normalizada Rápida (CCNR) que foi empregada em [Sun, Zheng e Shum 2003]. Uma outra versão da CCN é a Correlação Cruzada Zero Normalizada (CCZN) que foi utilizada no trabalho de Binaghi et al, [Binaghi et al. 2004]. Nele a CCZN foi integrada a uma rede neural artificial para definir o formato e o tamanho da janela de suporte para cada região da imagem. A Soma dos Quadrados da Diferença (SQD) das intensidades empregada em [MacLean, Sabihuddin e Islam 2010], também pode ser utilizada, sua principal característica é o baixo custo computacional, no entanto, variações de intensidade entre as janelas prejudicam sua performance. A sua versão normalizada, Soma dos Quadrados da Diferença Normalizada (SQDN), conforme comenta Szeliski, [Szeliski 2010], consegue obter resultados mais refinados mesmo em imagens capturadas com diferentes exposições. Outra alternativa é a Soma Absoluta das Diferenças (SAD) [Kanade e Okutomi 1994], segundo Mahalakshmi, [Mahalakshmi, Muthaiah e Swaminathan 2012], em comparação com outras métricas gerais de similaridade, em particular com a SQD e a CCN, a SAD é mais simples de se implementar e apresenta resultados mais precisos. Em [Dawoud, Samir e Janier 2012] foi utilizada a SAD Optimizada (OSAD) para buscar faces através da correspondência de templates. Métricas insensíveis à diferença de ganho ou viés da câmera, como por exemplo medidas baseadas em gradientes [Scharstein 1994] e medidas não paramétricas tais como

33 2.3 Computação estéreo 32 Tabela 2.1: Métricas de similaridade Sigla Definição da métrica de similaridade Referencia CCN n (W r (y+i,x+ j) W r ).(W a (y+i,x+ j+d r ) W a ) i, j= n n i, j= n Ploumpis (W r (y+i,x+ j) W r ) 2.(W a (y+i,x+ j+d r ) W a ) 2 et al CCZN 1 (2n+1) 2. n i, j= n. 2 t=1 (W t(y+i,x+ j) W t (y,x,d r )) σ(x 1,y 1,d r ).σ(x 2,y 2,d r ), onde σ(x,y,d) = 1 (2n+1) 2. n i, j= n.(w(y + 1,x + j) W(x,y,d r) 2 ) Binagui et al SQD SQDN n (W r (y + i,x + j) W a (y + i,x + j + d r )) 2 MacLean i, j= n et al n i, j= n W r (y+i,x+ j) W r n W a (y+i,x+ j+d r ) W a n (W r (y+i,x+ j) W r ) 2 (W a (y+i,x+ j+d r ) W a ) 2 i, j= n i, j= n 2 Szeliski 2010 SDA SDAO n W r (y + i,x + j) W a (y + i,x + j + d r ) i, j= n n i, j= n W r (y+i,x+ j) W a (y+i,x+ j+d r ) max W r (y+i,x+ j) W a (y+i,x+ j+d r ) Mahalakshmi et al Dawoud et al TC n HAMMING(W r(y + i,x + j),w a(y + i,x + j + d r )), onde i, j= n W k (x,y) =,BIT ST RING(W k(m,n) < W k (y,x)) Zabih and Woodfill 1994 Transformação Celsus (TC), [Zabih e Woodfill 1994], também podem ser utilizadas na computação estéreo. A Transformação Celsus converte cada pixel dentro de uma janela em movimento de um pequeno vetor representando quais vizinhos estão acima ou abaixo do pixel central. A tabela 2.1 apresenta algumas das funções de similaridade disponíveis. Uma estratégia comumente utilizada em técnicas locais é o WTA, Equação 2-2, que elege, de forma local, a disparidade dentro do EDI que representa a menor diferença de intensidade entre as janelas. As principais limitações dessa abordagem são as oclusões, ambiguidades e variações de iluminação. Visando suprir a ambiguidade que é uma das principais problemáticas das técnicas locais alguns trabalhos usam o WTA associado com outros métodos para aumentar a acurácia dos mapas de disparidades. Segundo [Scharstein e Szeliski 2002], o problema da ambiguidade está relacionado ao tamanho da janela de busca. Quanto maior a janela, maior o custo para computar as correspondências. Por outro lado, uma janela muito pequena pode não conter características suficientes para realizar a correta correspondência dos pixels. Os trabalhos de [Kanade e Okutomi 1994] e [Yoon e Kweon 2006] buscaram definir tamanhos ótimos para estas janelas.

34 2.3 Computação estéreo 33 Em [Kanade e Okutomi 1994], os mapas de disparidades são calculados através de janelas de tamanhos adaptativos. A soma da diferença dos quadrados das intensidades é utilizada para calcular as disparidades. As janelas são selecionadas de acordo com a variação local das intensidades e disparidades. Quanto maior a variação da região vizinha em relação ao pixel de interesse maior o grau de incerteza atribuído à janela. Dessa forma, a Equação 2-3 supõe que a disparidade nas coordenadas (ξ,η) tende a ser constante próximo do ponto central d r (0,0) e aumentar a medida que se distanciam d r (ξ,η) d r (0,0) N(0,α d ξ 2 + η 2 ) (2-3) onde α d é uma constante que representa a flutuação da disparidade. Essa limitação força janelas com dimensões que melhor se adaptem ao pixel de interesse. No trabalho de Yoon e Kweon, [Yoon e Kweon 2006], o tamanho da janela altera de acordo com o pixel de interesse. Nessa abordagem os pixels pertencentes à janela de suporte recebem pesos. Estes podem ser considerados como a probabilidade de dois pixels pertencerem a um mesmo objeto, a Equação 2-4 representa essa suposição. w(p,q) Pr(d p = d q ) (2-4) Onde p é o pixel em consideração e q seu vizinho, w(p,q) é o peso entre os pixels p e q e d p e d q são os rótulos atribuídos ao pixels p e q respectivamente. Dessa forma, o valor do peso de suporte deve ser proporcional à probabilidade dos pixels p e q terem a mesma disparidade. Os pesos são calculados de acordo com o relacionamento fotométrico e geométrico dos pixels vizinho. Esses relacionamentos estão presentes no sistema visual humano, conhecidos como Princípios Gestalt de Percepção, e referem-se a como elementos individuais são agrupados em um mesmo objeto. O cálculo do peso de um dado pixel se dá pela força de agrupamento por similaridade e proximidade entre os pixels vizinhos e é calculado conforme Equação 2-5. w(p,q) = f ( c pq, g pq ) (2-5) onde, f ( c pq, g pq ) é determinado pela equação 2-6. f ( c pq, g pq ) = f s ( c pq ). f p ( g pq ) (2-6) f s ( c pq ) e f p ( g pq ) representam a força de agrupamento pela similaridade e proximidade, respectivamente. As disparidades são computadas agregando o custo bruto de correspondência com os pesos das duas janelas de suporte, tanto na imagem de referência, como na imagem alvo. Finalmente cada pixel recebe uma disparidade selecionada através do método WTA, vide Equação 2-2. Os resultados foram animadores

35 2.3 Computação estéreo 34 na comparação com métodos baseados em janelas deslocadas, janelas compactas e imagem integral, uma vez, que apresentou o melhor resultado em regiões de bordas (descontinuidades). No entanto, tal método é computacionalmente mais caro do que outros métodos baseados em janelas. Segundo Boykov et al, [Boykov, Veksler e Zabi 1998], o formato da janela é uma característica importante. Janelas retangulares privilegiam pixels pertencentes a um mesmo objeto, apresentando dubiedades na presença de bordas. Os principais problemas surgem quando há a presença de cantos e objetos finos, os primeiros tendem a se tornar arredondados e os segundos, muito das vezes, são expandidos ou simplesmente desaparecem. Com o objetivo de desenvolver janelas com dimensões e formatos que se adaptem ao pixel de interesse [Boykov, Veksler e Zabi 1998] propõem uma nova abordagem para o cálculo de disparidades. Nessa abordagem o formato da janela muda de acordo com o pixel de interesse, para cada hipótese de disparidade de um dado pixel uma janela é construída. Inicialmente todas as hipóteses têm as mesmas probabilidades. Considere duas hipóteses H 0 : P d, hipótese nula representando a condição P d (pixel p com disparidade d) e H 1 : P d, hipótese alternativa representando a condição P d (pixel p não tem disparidade igual a d). Não existe um conhecimento prévio que privilegie uma ou outra, logo o evento P d só é plausível se a probabilidade de o pixel p ter disparidade igual a d for maior do que a probabilidade de o pixel p não ter disparidade igual a d: Pr(O H 0 ) > Pr(O H 1 ). Onde O representa o evento l p = i p, sendo l p a variável que representa a intensidade do pixel p. Por definição, Pr(O H 0 ) = f (i p,i). Para computar Pr(O H 1 ), usa-se a equação 2-7. Pr(O H 1 ) = Pr(O H 1) Pr(H 1 ) Pr(O P = j ) f (i p, j).pr(p = Pr(H j i 1 ) j ) Pr(H j i 1 ) (2-7) Onde f (i p, j) = Pr(O P i ) e j representa o intervalo dos possíveis valores de intensidade de P. A janela que representa a disparidade mais plausível para o pixel de interesse é eleita, trata-se da janela que apresenta o maior número de pixels conectados compartilhando da mesma disparidade. O esquema de janelas variável superou os métodos de janela fixa comparados, entre eles um baseado em correlação normalizada e outro em um filtro BandPass, que delimita a frequência do sinal da imagem. Apresentou resultados satisfatórios em descontinuidades e regiões com pouca textura. Outros exemplos de abordagens locais podem ser encontrados nos trabalhos de [Hosni et al. 2009], [Veksler 2003] e [Damjanovic, Heijden e Spreeuwers 2012].

36 2.3 Computação estéreo Métodos globais Técnicas globais realizam a correspondência dos pontos de maneira que todos os pixels da imagem são levados em consideração. A disparidade de cada pixel é eleita considerando todo o comportamento dos demais. Conforme menciona Boykov et al, [Boykov, Veksler e Zabih 2001], alguns problemas de visão computacional que requerem a estimação de medidas quantitativa espacialmente variáveis, podem ser naturalmente formulados em termos de minimização de energia. Dessa forma, busca-se por um mapa de disparidades que minimize a energia total do sistema. Uma função tipicamente utilizada dentro do contexto de minimização de energia é mostrada na Equação 2-8. E( f ) = E data ( f ) + λ.e smooth ( f ) (2-8) O primeiro termo E data ( f ), termo de dados, mede o desacordo entre o rótulo oferecido e um determinado pixel p e possui a forma mostrada na Equação 2-10, onde D p diz o quão apropriado o rótulo f p é para o pixel p. O parâmetro λ trata-se do peso dado à função de suavização. O segundo termo E smooth, termo de suavização, implementa a suposição de suavização da função. A Equação 2-11 mostra a forma característica deste termo, onde V p,q { f p, f q } mensura o custo de se atribuir os rótulos f p, f q aos pixels adjacentes p e q, Onde V pode ser classificado sob duas classes gerais: semi-métricas e métricas. V é considerado uma semi-métrica se para quaisquer pares de rótulos α,β L duas propriedades são satisfeitas: V (α,β) = V (β,α) 0 e V (α,β) = 0 α = β. Para ser considerado uma métrica V deve satisfazer a restrição do triângulo da desigualdade, dado em 2-9. V (α,β) V (α,γ) +V (γ,β) (2-9) onde os rótulos α,β,γ L O problema de minimizar tais energias pode ser abordado a partir de diferentes aproximações, como por exemplo, Programação Dinâmica, Belief Propagation (BP), Simulated Anealing (SA), Graph Cuts (GC) e outros. Dentre as citadas, BP e GC tem sido amplamente utilizadas pelos bons resultados apresentados [Yang e Ahuja 2012]. E data ( f ) = D p ( f p ) (2-10) p P E smooth ( f ) = V p,q ( f p, f q ) (2-11) p,q N

37 2.3 Computação estéreo Propagação de crenças Abordagens baseadas em Propagação de Crenças (PC) realizam a estimativa da disparidade por meio de uma modelagem gráfica. As imagens são modeladas na forma de grafos através de grids quatro-conectados onde cada pixel é um nó. Tais abordagens trabalham através do envio de mensagens (propagação) de alguns nós para outros nós. O valor da variável aleatória de cada nó é calculada através da combinação do valor observado do nó com os valores das mensagens que ele recebe dos seus vértices vizinhos. A Figura 2.11 ilustra a troca de mensagens entre os nós, onde m i j (x j) é a mensagem que o vértice i envia para o vértice j, informando sobre qual estado x o vértice j deveria estar. Figura 2.11: Troca de mensagens entre vértices. Em Sun et al, [Sun, Zheng e Shum 2003], o problema de correspondência estéreo é modelado como uma rede de probabilidades. Três cadeias de Markov são acopladas a essa rede, a primeira representa a suposição de suavização, a segunda a presença ou ausência de descontinuidades e a terceira trata das oclusões na imagem de referência. O algoritmo Loopy Belief Propagation (LBP) é utilizado para estimar a probabilidade das disparidades. O algoritmo LBP, segundo os autores pode ser resumido como um PC que ignora a existência de loops na modelagem da rede. Os resultados mostraram o bom comportamento do algoritmo frente a outras técnicas. Para o par de imagens Tsukuba, considerado como um ambiente complicado pelos autores, o uso de segmentação melhorou a performance do algoritmo, para os outros pares no entanto, a adição de tal etapa não fez diferença significativa. Contudo, a performance do algoritmo para algumas base de dados não acompanhou a performance obtida com a base Tsukuba, isso aconteceu pelo fato dos parâmetros utilizados no algoritmo terem sido fixos para todas as bases de dados. Em 2009, Yang et. al, [Yang et al. 2009], calcularam os mapas de disparidades levando em consideração a correlação ponderada da cor para modelar o termo de dados e BP para refinar os resultados. O algoritmo proposto é dividido em três blocos, inicialização, classificação dos pixels e refinamento iterativo. No primeiro bloco o volume de correlação é calculado com base na cor, a Equação 2-12 mostra como a diferença das

38 2.3 Computação estéreo 37 cores xy entre os pixels x e y é obtida. xy = ( c r,g,b I c (x) I c (y)) 3 (2-12) Onde I c é a intensidade do canal de cor c. As cores recebem pesos de acordo com a sensibilidade às bordas de oclusão, vide Equação w x,y = e (β 1 cw xy +γ 1 cw x y 2 ) (2-13) Os parâmetros β 1 cw = 10 e γ 1 cw = 21 foram determinados empiricamente pelos autores. Posteriormente BP é usado para estimar o mapa de disparidades inicial. No segundo bloco a classificação de cada pixel pode ser feita em três classes, estável, instável e ocluso. Os pixels são considerados oclusos quando não passam na checagem mútua, os demais pixels são considerados estáveis ou instáveis de acordo com a medida de confiança obtida pelo volume de correlação, dado em Onde CL 1 representa o melhor valor de disparidade e CL 2 representa o segundo melhor valor. C1 L C2 L CL 2 (2-14) No terceiro e último bloco o algoritmo Mean Shift (MS) é utilizado para segmentar o mapa de disparidade inicial pela cor. Um exemplo de resultado desse passo pode ser visto na Figura O MS é um método de clusterização não paramétrico, que estabelece uma janela (kernel) de busca para cada amostra, para maiores informações consultar [Comaniciu e Meer 2002]. O objetivo é propagar a informação dos pixels estáveis para os instáveis e oclusos por meio de um plano que se ajusta à segmentação obtida pelo MS. O algoritmo itera sobre cada segmento através de um BP hierárquico, a hipótese atual do termo de dados E (i+1) D é obtida usando o termo de dados anterior E (i) D, o plano de ajustes e a classificação dos pixels. Os resultados demonstraram boa performance, principalmente em áreas sem a presença de oclusões e descontinuidades. Na média o algoritmo teve uma performance superior a outros algoritmos apresentados no Middlebury, mas segundo os autores ainda há espaços para melhorias Corte de grafos Uma abordagem que tem sido muito utilizada para resolver problemas de correspondência estéreo é a modelagem por corte de grafos. Seja G = ν,ε um grafo, onde ν é um conjunto finito, não vazio de vértices e ε o conjunto de arestas que interligam os vértices. A Figura 2.13 traz o exemplo de um grafo simples não direcionado, composto por cinco vértices ν = {1,2,3,4,5} representados pelas bolas pretas. Os traços que aparecem interligando os vértices são as arestas do grafo. Note que as arestas não possuem

39 2.3 Computação estéreo 38 Figura 2.12: Segmentação por cor usando o Mean Shift. Figura extraída de [Yang et al. 2009] Figura 2.13: Exemplo de grafo simples não direcionado. As bolas em preto numeradas de 1 a 5 representam os vértices e os traços que as interligam são as arestas do grafo. direção, por isso trata-se de um grafo não direcionado. A partir do momento em que as arestas possuem direção, ou seja, saem de um vértice e chegam em outro, as arestas são representadas por traços com setas, conforme mostrado na Figura Fazendo agora G α = ν α,ε α um grafo ponderado, com dois vértices especiais chamados de terminais. Um grafo é dito ponderado quando existe pesos associados às suas arestas [Akira e Matsushigue 2008]. Um corte C ε é um conjunto de arestas tais que os vértices terminais são separados no grafo direcionado G(C) = ν,ε C. O custo do corte C, denotado por C, é a soma dos pesos das arestas por onde o corte passa, conforme equação A Figura 2.14 mostra um exemplo de corte de grafos. Nesta a linha azul corta o grafo em dois

40 2.3 Computação estéreo 39 Figura 2.14: Corte de grafo. A linha azul corta o grafo, sendo o custo de tal corte ( ) = 6. conjuntos, vértices vermelhos e vértices pretos. O problema do corte mínimo é encontrar um corte com o menor custo associado. C (S,T ) = c(u, v) (2-15) p S,q T,(p,q) ε Dentro do contexto de cortes de grafo para resolver o problema de correspondência, o trabalho de Boykov et al. [Boykov, Veksler e Zabih 2001] foi um dos primeiros a despontar, sendo um grande influenciador de outros trabalhos. Nele são apresentados dois algoritmos, alpha-beta swap e alpha-expansion, que modelam o problema a ser resolvido na forma de um grafo especializado. Quando o corte mínimo/fluxo máximo do grafo é encontrado a energia do sistema é minimizada. A Figura 2.15 mostra um exemplo de grafo. A função de energia utilizada em ambos algoritmos é semelhante a da Equação 2-8, a principal diferença é a escolha do segundo termo da equação, termo de suavização, vide Equação No alpha-beta swap a função utilizada é uma semi-métrica, uma vez que não obedece a restrição do triângulo da desigualdade, mais especificamente a função utilizada é dada em V p,q ( f p, f q ) = min(k, f p f q 2 ) (2-16) onde K é uma constante. O segundo algoritmo, alpha-expansion, trabalha apenas com métricas. Ele foi implementado em duas versões cada qual utilizando funções de suavização distintas, na primeira versão foi utilizada o Modelo de Potts 2-17 e na segunda a distância L 2 truncada V = T ( f p f q ) (2-17) onde, T ( ) é 1 se o argumento é verdadeiro e 0 caso o contrário, f p e f q são os rótulos

41 2.3 Computação estéreo 40 Figura 2.15: Modelagem de grafo com detalhes para corte de grafo. A linha tracejada em verde mostra por onde o corte passa. Pixels acima dessa linha, para o exemplo do algoritmo Alpha Expansion, são rotulados como al pha e pixels abaixo dessa linha são rotulados como α. Figura adaptada de [Boykov, Veksler e Zabih 2001] atribuídos aos pixels p e q respectivamente. V (α,β) = min(k, α β ) (2-18) onde, α e beta são os rótulos e K é um valor de truncamento. Tais algoritmos foram aplicados nos problemas de restauração e correspondência de imagens. Dentro do contexto de correspondência estéreo foram feitas comparações apenas com um método que utilizava Simulated Anealing, sendo esta uma limitação. Os resultados obtidos demonstraram a superioridade dos algoritmos propostos, que ofereceram resultados mais precisos. Em Kolmogorov and Zabih [Kolmogorov e Zabih 2001], os algoritmos e a modelagem apresentados em Boykov et al, [Boykov, Veksler e Zabih 2001], foram utilizados para realizar a correspondência de imagens. O diferencial apresentado neste é o tratamento explícito de oclusões, para tanto um termo é adicionado na modelagem da energia total do sistema, conforme Equação E( f ) = E data ( f ) + E occ ( f ) + E smooth ( f ) (2-19)

42 2.3 Computação estéreo 41 O termo de oclusão E occ ( f ) impõe uma penalidade para os pixels oclusos. No entanto, a escolha do termo de suavização, igual acontece em [Boykov, Veksler e Zabih 2001], representa a parte mais delicada na modelagem do problema. O termo de suavização que mais se encaixou com a nova função de energia foi semelhante à forma da energia de Potts. Os resultados foram comparados com os métodos expostos em [Boykov, Veksler e Zabih 2001] e [Kanade e Takeo 1999]. O método proposto foi superior aos métodos comparados e se aproximou do ground-truth para a par de imagens Tsukuba. No entanto, o algoritmo apresentado foi em média 25% mais lento em relação aos métodos propostos em [Boykov, Veksler e Zabih 2001]. Outra maneira de se obter mapas de disparidades densos é integrando métodos locais e globais na construção de algoritmos de correspondência estéreo. Tal abordagem é conhecida como híbrida. Em [Hu et al. 2010], um algoritmo local é utilizado para gerar um termo de dados mais confiável para ser otimizado por um algoritmo global. Acredita-se que oferecer um termo de dados mais refinado para algoritmos globais torna a modelagem da energia a ser minimizada mais adequada. Neste trabalho o termo de dados é gerado por meio de dois passos, inicialização bruta e refinada. Na inicialização bruta o volume de correlação da imagem é calculado e os mínimos locais são selecionados pelo WTA. Através de uma fase de checagem mútua os pixels são considerados como oclusos ou estáveis. Na inicialização refinada o volume de correlação é novamente calculado, só que dessa vez, levando em consideração a informação de oclusão. O objetivo é propagar informações dos pixels estáveis para os oclusos e instáveis. Com o termo de dados pronto o algoritmo Alpha Expansion proposto em [Boykov, Veksler e Zabih 2001] é utilizado para minimizar a energia do sistema. Os resultados alcançados são comparáveis aos três algoritmos baseados em cortes de grafos mais bem avaliados na homepage do Middlebury. O algoritmo proposto competiu dentro do mesmo patamar e superou os outros em algumas bases de dados. Alguns exemplos de abordagens híbridas podem ser visto em [Yang e Ahuja 2012], e [Wang et al. 2015] Alpha expansion O Alpha Expansion recebe como entrada o EDI e assim como acontece com todos os algoritmos pertencentes à abordagem global, utiliza a Equação 2-8 que busca minimizar a energia total de um sistema. O algoritmo parte do pressuposto de suavização, onde pixels que pertencem a um mesmo objeto tendem a ter rótulos que variam suavemente, enquanto que pixels situados nas bordas dos objetos variam de forma mais acentuada. Dessa forma, é necessária uma estratégia que não super penalize, tanto as pequenas, como as grandes diferenças entre pixels adjacentes. Quando aplicado ao problema de correspondência estéreo os rótulos

43 2.3 Computação estéreo 42 são as disparidades. Para cada pixel p P deve-se atribuir um rótulo f p L, onde P representa o conjunto de pixels da imagem e L os possíveis rótulos. Esse mapeamento de pixels em rótulos é chamado de rotulação. Dada uma rotulação de entrada f e um determinado rótulo α L, o objetivo do algoritmo é encontrar uma rotulação ˆf que minimize a energia total E da Equação 2-8. O pseudo código 2.2, disponível em [Boykov, Veksler e Zabih 2001], mostra o funcionamento do algoritmo α - expansion. Algoritmo 2.2: Al pha Expansion Entrada: rotulação inicial f. Saída: rotulação final ˆf. 1 sucesso = 0. 2 para Cada rótulo α L faça 3 encontre ˆf = argmine( f ) de f com um α - expansion de f 4 se E( ˆf ) < E( f ) então 5 f = ˆf 6 sucesso = 1 7 fim 8 fim 9 se sucesso == 1 então 10 go to 1 11 fim 12 return f A execução das linhas 3-7 representam uma iteração, e a execução das linhas 1-11 um ciclo. Em cada ciclo o algoritmo itera sobre os rótulos do conjunto L e para cada pixel é permitido o movimento de expansão (linha 3). Tal movimento permite a cada pixel permanecer com seu rótulo atual ou expandir para o rótulo α oferecido. A Figura 2.16, mostra um exemplo do resultado obtido após a primeira iteração do algoritmo. Tendo a imagem da esquerda como uma rotulação inicial qualquer f, a imagem da direita mostra a rotulação resultante ˆf após a primeira iteração do algoritmo α expansion. É possível perceber que os pixels rotulados como α, na figura representado pelos pontos em laranja, expandem após a primeira iteração. Cada rotulação tem uma energia associada, o objetivo é diminuir a energia o máximo possível, portanto quando um ciclo oferece uma energia maior do que a do ciclo anterior o algoritmo é finalizado. A linha 4 compara a energia encontrada no ciclo atual E( ˆf ) com a energia do ciclo anterior E( f ). A energia de cada rotulação, linha 3, é dada pelo custo de computar o corte mínimo. Para achar tal energia é preciso modelar o problema na forma de um grafo

44 2.3 Computação estéreo 43 (a) Rotulação inicial f. (b) Rotulação ˆf. Figura 2.16: A figura 2.16(a) trás o exemplo de uma rotulação inicial qualquer f, enquanto que a 2.16(b) mostra o resultado dessa mesma rotulação após a primeira iteração do α - expansion. especializado G α = ν α,ε α onde as arestas, ε α, recebem pesos não negativos e existe a presença de dois nós, ν α, terminais especiais chamados de Source s e Sink t. Os vértices do grafo são, os pixels p P mais os nós terminais s e t que representam os rótulos α e α respectivamente. Existem dois tipos de arestas t-links e n-links, a primeira realiza a conexão entre os pixels p e os nós terminais α e α e a segunda conecta os pixels vizinhos {p,q} N, onde {p,q} P e N é o sistema de vizinhança. As arestas t-links (terminal links) são, (tp α ) quando conecta os pixels p ao nó terminal α e (tp α ) quando conecta os pixels p com o nó terminal α. As arestas n-links (neighbors links) possuem a notação e {p,q} indicando que os pixels p e q estão interligados. O conjunto de arestas que formam o grafo é a união dos t-links com os n-links e é mostrado na Equação ε α = { p P{(t p α ),(tp α )}, e {p,q} } (2-20) {p,q} N No trabalho de [Boykov, Veksler e Zabih 2001] para cada dois pixels adjacentes, {p,q} N, rotulados com labels distintos f p f q, um nó intermediário a {p,q} é criado. A ideia é suavizar as mudanças de intensidades e assim evitar a superpenalização nas bordas dos objetos. Dessa forma o conjunto de nós que compõe o grafo é formado pelos pixels, nós terminais e os nós auxiliares. Para cada nó auxiliar uma tríplice de arestas ξ {p,q} = {e {p,a},e {a,q},(p,α)} é criada. O nó auxiliar a {p,q} possuí três conexões, uma ligando o pixel p ao nó a, outra ligando o nó a ao pixel q e por último uma aresta interligando o nó auxiliar ao nó terminal α. O conjunto de arestas que pertencem ao grafo é dado em 2-21 sendo formada pela Equação 2-20 mais as tríplices arestas dos nós auxiliares. A Figura 2.17 exemplifica a abordagem utilizada em [Boykov, Veksler e Zabih 2001]. ε α = { p P{(t p α ),(tp α )}, e {p,q}, {p,q} N, f p = f q {p,q} N ε {p,q} } (2-21)

45 2.3 Computação estéreo 44 Figura 2.17: Exemplo de grafo para uma imagem 1D. Retirado de [Boykov, Veksler e Zabih 2001] Na Figura 2.17, Os quadrados p,q,r e s representam os pixels da imagem, P 1,P 2 e P α são as rotulações existentes em um dado momento. Dessa forma, os pixels q e r pertencem à P 2 e os pixels p e s pertencem à P 1 e P α respectivamente. Quando pixels adjacentes possuem rótulos distintos, como é o caso dos pixels p e q o nó auxiliar a {p,q} é criado. Em 2004 Kolmogorov and Zabih, [Kolmogorov e Zabih 2004], propuseram uma nova forma de modelar o grafo para o problema de correspondência estéreo. Essa nova abordagem não leva em consideração a criação de nós auxiliares e segundo os autores produz um grafo menor, e assim, o corte mínimo pode ser calculado mais rapidamente. Nessa abordagem um grafo é gerado para cada termo da Equação 2-8 separadamente. Dessa forma, gera-se um grafo para o termo de dados, 2-10, e um grafo para o termo de suavização, Assim, os grafos são fundidos em um só. Isso é possível graças ao teorema de adição que diz que, como os dois grafos compartilham do mesmo conjunto de vértices, a junção destes é feita simplesmente pela soma dos pesos das duas funções [Kolmogorov e Zabih 2004]. Ao final tem-se um grafo que representa a soma das duas funções. O conjunto de todos os vértice é dado pela expressão ν α = {α,α,p} (2-22) onde, o conjunto de vértices é dado pela união dos pixels e os nós terminais. Cada pixel pode assumir dois rótulos f p = 0 ou f p = 1, representando o uso do rótulo α e o uso de qualquer outro rótulo, respectivamente. Ao contrário do que acontece em [Boykov, Veksler e Zabih 2001] não existe um conjunto de arestas fixas nessa abordagem. Para cada termo da energia E uma ou mais arestas são adicionadas. Dado a função D p do termo E data, vide Equação 2-10, que depende apenas do valor do rótulo f p, duas configurações são possíveis: D p (0) < D p (1) e D p (1) < D p (0).

46 2.3 Computação estéreo 45 Quando o primeiro caso acontece a aresta (t α p ) é adicionada com peso D p (1) D p (0), agora, quando o segundo caso acontece a aresta adicionada é (t α p ) com peso igual a D p (0) D p (1). As Figuras 2.18(a) e 2.18(b) mostram essas duas possibilidades. (a) Exemplo aresta t α p. (b) Exemplo aresta t α p. (c) Exemplo aresta e {p,q}. (d) Exemplo de grafo completo. Figura 2.18: Possíveis pesos para as arestas do termo de Dados. Na Figura 2.18(a) D p (0) < D p (1). Na Figura 2.18(b) D p (0) < D p (1). Na Figura 2.18(c) uma terceira aresta é adicionada entre os nós não terminais v i e v j. Na Figura 2.18(d) exemplo de um grafo completo para o caso em que C > A e C > D Para a função V p,q do termo E smooth, dado pela Equação 2-11, existem duas variáveis f p e f q, representando os rótulos atribuído aos pixels p e q, respectivamente. Logo há quatro possibilidades, os dois rótulos podem ser iguais a α, ou os dois rótulos podem ser diferentes de α, ou o primeiro rótulo pode ser igual a α e o segundo diferente, ou então, o segundo rótulo ser igual a α e o primeiro diferente. Tais possibilidades são mostradas em Como trata-se de duas variáveis dois nós, p e q, são necessários (além dos vértices terminais α e α). O conjunto de arestas que formam o grafo para o termo de suavização é composto pelas três ligações dadas abaixo:

47 2.3 Computação estéreo aresta(p,v p,q (1,0) V p,q (0,0)); 2. aresta(q,v p,q (1,1) V p,q (1,0)); 3. (p,q) com peso π(e). onde π(e) é dado pela Equação 2-23, disponível em [Kolmogorov e Zabih 2004]. π(e) = (Π 2 i=1( 1) f i )E smooth ( f p, f q ) (2-23) f p {0,1}, f q {0,1} E smooth = V p,q(0,0) V p,q (0,1) V p,q (1,0) V p,q (1,1) = A B C D (2-24) Um corte C = S,T em um grafo G α = ν α,ε α particiona os vértices ν em dois conjuntos s e t de forma que {s t = /0 p s,q t}. O custo de um corte é dado pela Equação 2-15, e é o somatório dos pesos das arestas que particionam os conjuntos s e t. Um corte C deve, necessariamente, mapear um nó terminal para todos os pixels da imagem. A Equação 2-25 mostra a relação entre o corte realizado e o rótulo atribuído. O rótulo α é atribuido ao pixel p quando o corte C separa p do nó terminal α ou p mantém seu rótulo atual f p quando C separa p de α. A Figura 2.15 ilustra como é feito o corte no grafo. α se (α, p) C, fp C = f p se (p,α) C. (2-25) Embora o presente algoritmo tenha sido modelado de forma binária, dois terminais por vez, é possível adaptá-lo para multway cut (corte multiponto) onde um corte corresponde a uma rotulação única de pixels na imagem, conforme feito em [Boykov e Veksler 2006] Teoria Gestalt Conhecida como Psicologia da Forma, busca entender como os seres humanos percebem as coisas. Embora descrita há mais de cem anos, o termo Gestalt ainda não possui uma tradução aceita universalmente. No trabalho de [Jakel et al. 2016] explica-se que trata de um termo alemão de difícil tradução para o inglês, o consenso entre os autores é de que o termo provavelmente signifique "configuração". A teoria Gestalt busca compreender as partes, para então compreender o todo, porém nunca o processo inverso, pois a percepção não é apenas a soma das partes que a compõe. A explicação dada em [Jakel et al. 2016], diz que, na verdade a percepção é mais do que um agregado de suas partes, pois incorpora características próprias, uma vez que

48 2.3 Computação estéreo 47 a disposição de como os elementos unitários são apresentados pode alterar o sentido de percepção. Embora bastante empregada na área de visão computacional, Geman et al., [Geman et al. 2008], lembram que a visão computacional não é a única linha de pesquisa a utilizar os resultados da teoria Gestalt e cita a neurociência e a robótica como pioneiras. Dentro da área de visão computacional tal teoria já foi utilizada, por exemplo, para fazer reconhecimento e classificação de construções em ambientes urbanos como feito em [Wang et al. 2015] e busca por correspondência em duas imagens da mesma cena [Kuk-Jin e In-So 2005], além de outras aplicações. Para a teoria Gestalt no cérebro humano existe uma busca por fechamento, simetria e regularidade. Dessa forma, quando um objeto é encontrado, logo este é classificado em algum grupo. Buscando formalizar tal propriedade a teoria Gestalt postula leis de agrupamento. Algumas são: vizinhança, similaridade, continuidade de direção, simetria e experiência. Dentre estas, as regras Gestálticas de similaridade e vizinhança, segundo Kuk-Jin and In-So, [Kuk-Jin e In-So 2005], são as mais importantes e empregadas dentro de visão computacional. A regra de similaridade afirma que objetos semelhantes tendem a se agrupar. Essa similaridade se dá por meio de características como, cor, textura, formato e outras. No âmbito de imagens digitais a similaridade pode ser medida por meio das cores. Dessa forma, regiões conectadas (pixels) onde a cor não varia fortemente provavelmente representam um mesmo objeto. Para medir a similaridade entre dois pixels p e q, a informação de cor é utilizada. Quanto maior a diferença entre as cores, menor é a dissimilaridade entre os pixels. A medida de dissimilaridade entre as cores c p = [R p G p B p ] e c q = [R q G q B q ] dos pixels p e q, pode ser obtida pela equação 2-26, δc pq = (R p R q ) 2 + (G p G q ) 2 + (B p B q ) 2 (2-26) onde R,G e B correspondem às intensidades dos canais RGB. A força do agrupamento pela similaridade das cores é definido na Equação ( f s (δc pq ) = exp δc ) pq γc (2-27) onde, γc é uma constante escolhida experimentalmente, no trabalho de [Kuk-Jin e In-So 2005] o valor adotado foi 7, enquanto que no trabalho de [Yoon e Kweon 2006] γc recebeu valor 5. Dado o pixel p destacado em vermelho na Figura 2.19(a), a função f s (δc pq ) é calculada para cada pixel vizinho q. O resultado é mostrado na Figura 2.19(b), os pixels vizinhos que possuem cores mais próximas ao pixel em destaque aparecem em tons mais

49 2.3 Computação estéreo 48 claros. (a) Imagem original. (b) Similaridade f s (δc pq ) para o pixel destacado. Figura 2.19: Agrupamento por similaridade de cor. Pixels com cores próximas ou idênticas espalhados em regiões distintas não representam um mesmo objeto. Dessa forma, uma outra regra Gestáltica precisa ser empregada para formar a percepção visual de objetos. A combinação das regras de similaridade e proximidade é muito utilizada em visão computacional. Os trabalhos de [Yoon e Kweon 2006], [Kuk-Jin e In-So 2005] e [Wang et al. 2015] são apenas alguns exemplos em que tais regras foram usadas em conjunto. A regra da proximidade agrupa elementos de acordo com a distância entre eles. Elementos que se encontram mais perto uns dos outros numa região tendem a ser percebidos como um grupo, mais do que se estivessem distantes dos seus similares. A distância entre pixels é obtida pela distância euclidiana entre eles e é dada na Equação 2-28, ) δd pq = ( (u p u q ) 2 + (v p v q ) 2 onde [u p v p ] e [u q v q ] são as coordenadas dos pixels p e q respectivamente. (2-28) A força do agrupamento por proximidade entre os pixels é dada pela Equação 2-29, onde γ p é definido empiricamente, usualmente seu valor é igual a metade da dimensão da janela de vizinhança. ( f p (δd pq ) = exp δp ) pq γ p (2-29) De acordo com a Equação 2-29, o peso de agrupamento de um pixel diminui à medida que este se afasta do pixel de interesse. A Figura 2.20 mostra a matriz de pesos para a janela da imagem original, vide Figura 2.19(a). Os pontos mais claros evidenciam pesos de suporte maiores.

50 2.3 Computação estéreo 49 Figura 2.20: Máscara de proximidade para o pixel do meio da janela. Com as forças de agrupamento por similaridade e por proximidade computadas é possível definir a matriz de pesos de suporte completa. Tal matriz leva em consideração a distancia espacial e semelhança de cor dos pixels vizinhos q, e é feita conforme Equação vizinhos q. w(p,q) = f p (δd pq ). f s (δc pq ) (2-30) onde w(p,q) é a janela de suporte que guarda os pesos para o pixel p e seus

51 Algoritmo de Correspondência CAPÍTULO 3 No capítulo anterior, foram apresentadas algumas abordagens utilizadas na busca por correspondência de imagens. A abordagem local embora, computacionalmente mais barata, sofre com distorções e ambiguidades. Uma vez que a análise das correspondências é feita de forma estritamente local ou por meio de janelas de pixels, o algoritmo se torna sensível a ruídos e regiões homogêneas. Uma forma de se atenuar tais problemas é adotando uma abordagem global. Estratégias globais realizam a correspondência de características através da eleição das melhores disparidades considerando o comportamento global das correspondências geradas por técnicas locais, no entanto são computacionalmente caras, sendo em alguns casos, onde a dimensionalidade dos dados é alta, inviável. Abordagens híbridas têm ganhado destaque, uma vez, que aproveitam as técnicas de otimização locais e globais [Yue, Ma e Cao 2017]. O algoritmo proposto nesta dissertação possuí uma modelagem híbrida que utiliza algumas leis da teoria Gestalt para a construção do espaço de possibilidades e cortes de grafo para a gerar o mapa de disparidades. O uso das leis Gestálticas de proximidade geométrica e similaridade por cor na construção do Espaço de Disparidades da Imagem (EDI) tem ganhado adeptos, dentre eles, Yang and Ahuja, [Yang e Ahuja 2012], chegam a afirmar se tratar de uma das melhores técnicas locais para a geração do EDI. Tais leis alcançam um EDI mais preciso, pois conseguem simular a percepção humana por meio de matrizes de agregação que armazenam os pesos referentes a cada pixel da janela de suporte de acordo com a proximidade espacial e similaridade de cor. Dessa forma, tal técnica consegue preservar as descontinuidades presentes nas bordas dos objetos, além de trabalhar bem em regiões homogêneas, sendo bem robusta para tamanhos variados de janela (desde que o parâmetro γ p se adapte ao tamanho da janela). Apesar de alguns problemas serem resolvidos com essa metodologia, ela continua propensa aos minimos encontrados apenas dentro da faixa de busca na imagem alvo. Partindo da suposição de que pixels pertencentes a um mesmo objeto variam de forma suave e de que pixels fronteiriços possuem diferenças abruptas. É necessário uma abordagem que respeite a integridade dos objetos dispostos na cena, no entanto, sem super

52 3.1 Descrição da abordagem proposta 51 penalizar as descontinuidades. Uma possível formulação para resolver essas dificuldades é por meio de minimização de energias. Desse modo modela-se o problema em termos de energia, e busca-se minimizá-la. Uma das formas adotadas é por meio de grafos. O corte de grafos é uma das técnicas globais de otimização mais utilizadas, [Wang et al. 2015], [Yang et al. 2009], [Delong et al. 2012], na atualidade. Quando se delineia o problema na forma de um grafo especializado é possível minimizar a energia deste através do seu corte mínimo. Neste sentido, os nós do grafo são os pixels, e os pesos das arestas os custos de se atribuir rótulos aos pixels. Nós acima do corte recebem um determinado rótulo, enquanto que nós abaixo do corte permanecem com seus respectivos rótulos. Para se aproximar do ground-truth (mapa de disparidade verdadeiro), o mapa gerado precisa trabalhar sob oclusões, ambiguidades, ruídos e demais obstáculos já discutidos na seção 2.1. O espaço de disparidades da imagem, que é a base para se gerar mapas de disparidade é construído usando leis da Teoria Gestalt. E finalmente, as disparidades são selecionadas para compor o mapa de disparidades utilizando cortes de grafo. Maiores detalhes de implementação e metodologia estão descritos na seção Descrição da abordagem proposta A abordagem proposta foi baseada nas teorias explicada pelas seções e A linguagem de programação utilizada foi o (MATrix LABoratory - Matlab) na sua versão A figura 3.1 traz a estrutura geral da abordagem utilizada para se gerar mapas de disparidades nesta dissertação. O processo se inicia doravante um par de imagens estéreos retificadas, vide letra a). Tais imagens são oferecidas gratuitamente pela base de dados disponível em [Scharstein e Szeliski 2002]. Conhecidas como, imagem de referência e imagem alvo elas representam diferentes pontos de vista de uma mesma cena. Na fase de Estimativa inicial b) o par de imagens gera o EDI que é o espaço com as possíveis disparidades. O EDI é uma matriz tridimensional EDI(y,x,d), onde y são as linhas, x as colunas, e d o intervalo de disparidades. A construção de um EDI genérico é apresentada em 2.1. O EDI desta dissertação foi elaborado tendo como inspiração leis da Teoria Gestalt. Ao invés de janelas de suporte de tamanho adaptativo, como acontece em alguns trabalhos, usa-se uma matriz de pesos de suporte da mesma dimensão da janela de pixels. Dessa forma cada pixel da janela possuí um peso atrelado. Esse peso é calculado de acordo com a similaridade de intensidade e proximidade geométrica entre os pixels, a esses cálculos dão-se os nomes de força de agrupamento por similaridade e força de agrupamento por proximidade e estão disponíveis nas equações 2-27 e 2-29,

53 3.1 Descrição da abordagem proposta 52 Figura 3.1: Esquema da metodologia adotada. respectivamente. A matriz de pesos finalmente é computada pela equação 2-30, que leva em consideração as forças de agrupamento por similaridade e proximidade. O custo de correspondência entre os pixels é medido pela agregação do custo bruto de correspondência com os pesos de suporte. O custo bruto de correspondência é dado pela equação 3-1, ele é computado usando a Soma das Diferenças Absolutas

54 3.1 Descrição da abordagem proposta 53 Truncada para os três canais de cores da janela. e(q, q d ) = min { c {r,g,b} Ic (q) I c( qd )) },T (3-1) onde, e(q, q d ) é o custo bruto de correspondência entre as intensidades I c da banda c de cor dos pixels q e q d, e T é o valor de truncamento que limita o custo de correspondência. A agregação do custo bruto de correspondência com os pesos de suporte, ou seja o custo total da disparidade entre o pixel p e p d, E(p, p d ) é feito de acordo com a equação 3-2. E(p, p d ) = q N p, q d N pd w(p,q)w( p d, q d )e(q, q d ) q Np, q d N pd w(p,q)w( p d, q d ) (3-2) onde, p d e q d são os pixels correspondentes da imagem alvo quando os pixels p e q na imagem de referencia tem o valor de disparidade d. Além do EDI utilizando as leis gestálticas citadas acima, construiu-se mais quatro EDI s utilizando outras métricas afim de comparações, são elas: SQD, SAD, OSAD e CCN, todas discutidas na seção Com o EDI pronto chega-se o momento de selecionar as disparidades que compõe o mapa de disparidades. Uma forma simples de selecioná-las é usando o método WTA, melhor explicado na equação 2-2, no entanto ele é altamente propenso a ambiguidades e oclusões. Uma solução global produz mapas mais suaves. Contudo, realizar tal busca não é uma tarefa trivial, uma vez, que se trata de um problema NP-hard [Boykov, Veksler e Zabih 2001]. Uma alternativa segundo Boykov and Veksler [Boykov e Veksler 2006] são os cortes de grafo, visto que conseguem encontrar uma resposta dentro de um fator 2 da resposta ótima. A partir do EDI um mapa de disparidades inicial é gerado pelo argumento do valor mínimo do custo de similaridade. Essa rotulação serve de entrada para o algoritmo al pha expansion, que modela o problema na forma de um grafo, aqui denominado de G α. A modelagem do grafo depende da forma exata do termo de suavização E smooth ( f ) e do número de rótulos [Boykov e Veksler 2006]. A exemplo de Boykov et, al.,[boykov, Veksler e Zabih 2001], duas funções de suavização foram adotadas, o Modelo de Potts, vide equação 2-17, e a Distância L2 truncada, vide equação O grafo modelado é composto por vértices ν e arestas ε, os vértices representam os pixels da imagem e os vértices terminais (s,t) representam todos os possíveis rótulos. Os pesos das arestas entre os vértices não-terminais são definidos pelo termo de suavidade E smooth ( f ), enquanto os pesos entre os vértices terminais e não-terminais são definidos pelo termo de dados E data ( f ), mais especificamente o EDI computado acima. Para maiores informações de como os pesos das arestas são computados consultar a seção

55 3.1 Descrição da abordagem proposta O al pha expansion permite aos pixels receberem o rótulo α ou manter o rótulo atual através de um corte de grafo, a figura 2.16 traz um exemplo do movimento permitido pelo algoritmo. Um corte C = S,T sobre G α mapeia uma rotulação f qualquer sobre o conjunto de vértices ν {s,t} para {0,1}, de forma que f v = 0 significa que v S, e f v = 1 significa que v T. Assim, tem-se um problema sobre variáveis binárias, mesmo que o conjunto de rótulos seja maior do que dois (L > 2). Formalmente, qualquer rotulação f gerada pelo al pha expansion sobre uma rotulação inicial f, pode ser codificada por um vetor binário x = { x p p P }, onde f p = f p se x p = 0 e f p = α se x p = 1. Cada corte realizado sobre G α possuí um custo C que é o somatório dos pesos das arestas que vão de S a T, conforme equação Dessa forma, G α representa o mapeamento da função de energia de todos os cortes. O algoritmo trabalha sobre o conjunto de rótulos L, em cada ciclo os pixels podem trocar seus rótulos para α. Quando a energia não diminui durante um ciclo, o processo termina, pois dessa forma, não houve nenhuma melhora na minimização da energia E.

56 Resultados CAPÍTULO 4 Nesse capítulo são apresentadas as bases de dados utilizadas, os resultados obtidos e suas respectivas discussões. As imagens utilizadas para gerar os resultados são disponibilizadas pelo sítio oficial do Colégio Universitário de Middleburry 1. O banco de imagens é formado por pares de imagens estéreos devidamente retificadas, acompanhadas do Ground-truth que é o mapa de disparidades real, além do mapa que apresenta os pontos oclusos de cada par. Quatro pares de imagens foram selecionadas para a realização dos experimentos, são elas: Tsukuba e Venus, disponível em [Scharstein e Szeliski 2002], Teddy e Cones, disponível em [Scharstein e Szeliski 2003], apresentadas nas Figuras 4.1, 4.2, 4.3 e 4.4 respectivamente. Tais imagens foram escolhidas pois vários trabalhos as usam em seus experimentos, isso permite uma possibilidade maior de comparação com outras técnicas do estado da arte de visão estéreo. Todos os quatro pares possuem dificuldades comumente encontradas em cenas do mundo real como, oclusões, regiões com pouca textura e regiões ambíguas. No entanto, cada par de imagens possui suas particularidades. A tabela 4.1 mostra alguma delas. Na coluna Nome está identificado o par de imagens; a coluna Escala exibe os valores de escala para cada par estéreo usado na avaliação do mapa de disparidades criado. A coluna Faixa de Disparidades apresenta o intervalo de valores de disparidades que são explorados pelo algoritmo. Ela indica o valor mínimo e máximo do deslocamento feito pela janela de correspondência. A coluna Tamanho traz a dimensão do par de imagens e por fim, a coluna Natureza que aponta qual foi o processo de formação da imagem, como por exemplo, cenas do mundo real. 4.1 Considerações sobre a avaliação dos resultados O Ground-truth representa o mapa real, portanto quanto mais o mapa de disparidades gerado se aproximar dele mais preciso será o resultado. A avaliação se dá com- 1

57 4.1 Considerações sobre a avaliação dos resultados 56 (a) Imagem da esquerda. (b) Imagem da direita (c) Ground-truth (d) Mapa de oclusão. Figura 4.1: Par estéreo Tsukuba. (a) Imagem da esquerda. (b) Imagem da direita (c) Ground-truth (d) Mapa de oclusão. Figura 4.2: Par estéreo Venus.

58 4.1 Considerações sobre a avaliação dos resultados 57 (a) Imagem da esquerda. (b) Imagem da direita (c) Ground-truth (d) Mapa de oclusão. Figura 4.3: Par estéreo Teddy. (a) Imagem da esquerda. (b) Imagem da direita (c) Ground-truth (d) Mapa de oclusão. Figura 4.4: Par estéreo Cones.

59 4.1 Considerações sobre a avaliação dos resultados 58 Tabela 4.1: Particularidades dos pares estéreos. Nome Escala Faixa de Disparidades Tamanho Natureza Tsukuba [288 x 384] Real Venus [383 x 434] Sintética Cones [375 x 450] Real Teddy [375 x 450] Real parando ponto a ponto os dois mapas. Para avaliar a performance do método proposto algumas métricas de qualidade são adotadas, a principal delas se baseia na porcentagem de disparidades errôneas conhecida como bad pixels, dada pela equação 4-1. B = 1 N x,y ( d C (x,y) d T (x,y) > δ d ) (4-1) onde, N é o número total de pixels, d C é o mapa de disparidades computado, d T é o Ground-truth, e δ d é um treshold que funciona como um erro de tolerância. Todos os resultados exibidos na seção 4.2 usaram δ d = 1. Além do cálculo de B (bad pixels) que dá a porcentagem de disparidades erradas sobre toda a imagem, também foram computadas as porcentagens de disparidades erradas excluindo determinadas áreas da imagem. A equação 4-2 dá a porcentagem do erro sobre a imagem apenas para pontos não oclusos B nonocc, enquanto a equação 4-3 revela a porcentagem do erro apenas para áreas próximas de descontinuidade B disc. Essas taxas são obtidas com o uso de máscaras oferecidas no sítio de avaliação do Middleburry, as Figuras 4.1(d), 4.2(d), 4.3(d) e 4.4(d) ilustram os mapas dos pontos oclusos, enquanto as figuras 4.5(a), 4.5(b), 4.5(c) e 4.5(d) trazem os mapas de descontinuidades dos pares estéreos Tsukuba, Venus, Teddy e Cones, respectivamente. B nonocc = 1 N nonocc ( d C (x,y) d Tnonocc (x,y) > δ d ) (4-2) x,y onde, N nonocc é o número total de pixels que não estão oclusos e d Tnonocc é o ground-truth com a máscara de oclusão sobreposta. B disc = 1 N disc ( d C (x,y) d Tdisc (x,y) > δ d ) (4-3) x,y onde, N disc é o número total dos pontos que aparecem na cor branca na máscara de descontinuidades e d Tdisc é o ground-truth com a máscara sobreposta. Nos mapas de oclusão, as regiões em preto representam as oclusões e portanto devem ser desconsideradas. Nos mapas de descontinuidade, as bordas são indicadas na cor preta, regiões próximas das descontinuidades estão na cor branca e outras regiões são retratadas pela cor cinza. Em ambas as máscaras apenas as regiões na cor branca são

60 4.2 Resultados e discussão 59 (a) Mapa de descontinuidades - Tsukuba (b) Mapa de descontinuidades - Venus (c) Mapa de descontinuidades - Teddy (d) Mapa de descontinuidades - Cones Figura 4.5: Mapas de descontinuidades para os pares estéreo Tsukuba, Venus, Teddy e Cones, respectivamente. levadas em consideração para a computação da taxa de erro. 4.2 Resultados e discussão Essa seção traz os resultados gerados durante a execução de alguns experimentos. Porém, antes de abordá-los, é conveniente apresentar alguns dos parâmetros utilizados. A tabela 4.2 exibe o nome do parâmetro na primeira coluna e uma pequena descrição na segunda coluna. Nome métrica nv γ c γ p δ d Tabela 4.2: Principais parâmetros Descrição métrica de similaridade tamanho da janela de correspondência constante - agrupamento por cor constante - agrupamento por distância erro de tolerância O primeiro experimento teve por objetivo avaliar a métrica utilizada nesta dissertação para gerar o espaço de disparidades da imagem. Para tanto, além do EDI construído pelas leis da teoria Gestalt, foram construídos mais quatro EDI s a partir de

61 4.2 Resultados e discussão 60 métricas diferentes. A Figura 4.6 mostra os diferentes mapas de disparidades gerados usando o WTA nos EDI s construídos com as seguintes métricas: SAD, OSAD, CCN, SQD e TG (teoria Gestalt). O método utilizado para selecionar as disparidades foi o argumento do valor mínimo do custo de similaridade e o tamanho da janela de correspondência foi configurado como nv = 13. (a) SAD (b) OSAD (c) CCN (d) SQD (e) Teoria Gestalt - TG Figura 4.6: Mapas de disparidades gerados a partir de diferentes métricas na construção do EDI. O método utilizado para selecionar as disparidades foi o argumento do valor mínimo do custo de similaridade e o tamanho da janela de correspondência foi configurado como nv = 13. Tabela 4.3: Porcentagem de bad pixels para diferentes construções do EDI. EDI Bad pixels - B SQD 19.2 SAD 18.6 OSAD 18.4 CCN 6.02 TG 4.16 É possível perceber que, visualmente falando, o resultado obtido pela teoria gestalt, vide Figura 4.6(e), em comparação com os demais apresentados na Figura 4.6 é a que mais se aproxima do ground-truth. Esse aspecto se confirma quando a porcentagem de bad pixels do mapa é analisada, conforme mostra a tabela 4.3. A primeira coluna traz a métrica utilizada para fazer a correspondência entre as janelas, e a segunda coluna traz a porcentagem das disparidades erradas com erro de tolerância δ d = 1. O presente resultado

62 4.2 Resultados e discussão 61 é o ponto inicial da suposição feita de que um EDI que melhor represente a base de dados tende a gerar mapas de disparidades mais próximos do real. Para observar o comportamento de alguns parâmetros na geração de um EDI que utilize como métrica de similaridades leis da teoria Gestalt foi adotado um segundo experimento. Além do par estéreo, é necessário oferecer ao algoritmo a faixa de disparidades, o tamanho da janela de vizinhança nv, e as constantes γ c e γ p. Para cada par de imagens, existe a informação da faixa de disparidade adequada. No entanto, os três último parâmetros são livres. O objetivo deste experimento é encontrar os valores que melhor se adaptem para essas variáveis, como melhor valor entende-se a medida que irá minimizar a taxa de erro do mapa de disparidades. Nesse experimento, o parâmetro γ p foi definido como sendo a metade do tamanho da janela de vizinhança nv, dessa forma γ p = (nv + 1)/2, e a força de agrupamento por cor γ c variou no intervalo de 1 a 20. Tendo em vista que o tamanho da janela de vizinhança tem grande influência sobre o mapa de disparidades gerado, pois janelas grandes aglomeram muitos pixels dessa forma possuem mais informações para diferenciar as regiões. No entanto o custo computacional é maior. Foram definidos nove tamanhos diferentes para nv gerando as seguintes janelas: [9x9], [11x11], [15x15], [19x19], [23x23], [27x27], [31x31], [35x35] e [39x39]; As Figuras 4.7, 4.8, 4.9 e 4.10 exibem os gráficos que relacionam a taxa de erro e a constante de similaridade por cor γ c para cada tamanho de janela de vizinhança para os quatro pares de imagens estéreo. A análise dos gráficos revela uma predileção por janelas maiores para os quatro pares estéreos. De uma forma geral, o tamanho da janela variou entre [35x35] e [39x39], sendo que a taxa de erro atingiu seu menor índice quando o maior tamanho de janela (39) foi empregado. Isso prova que janelas maiores consideram mais informações sobre a vizinhança do pixel de interesse, aumentando o poder de diferenciação das regiões, logo a taxa de erro tende a valores menores. Quanto a constante de similaridade por cor γ c, os melhores valores ficaram dentro do intervalo de 7 a 13. Os pares de imagens Tsukuba e Venus convergiram para o valor 8, enquanto que as bases Teddy e Cones preferiram os valores 7 e 13, respectivamente. É interessante perceber que ao se ultrapassar tais valores tidos como ótimos, a taxa de erro tende a se estabilizar ou mesmo a aumentar. A Tabela 4.4 exibe os valores ótimos encontrados para os parâmetros nos quatro pares estéreo. A primeira coluna define o nome do par estéreo e as demais apresentam os melhores valores para os parâmetros nv, γ c e γ p, respectivamente. Em uma análise rápida identifica-se que todas os pares estéreos escolheram o mesmo tamanho de janela, ora pois trata-se do maior tamanho disponível no experimento realizado. Por consequencia o parâmetro γ p também é o mesmo para todos, uma vez que sua configuração está diretamente ligada com o valor de nv.

63 4.2 Resultados e discussão 62 Figura 4.7: Gráfico da taxa de erro para o par Tsukuba Tabela 4.4: Valores ótimos para os estéreos Tsukuba, Venus, Teddy e Cones. Par de imagens nv γ c γ p Tsukuba Venus Teddy Cones

64 4.2 Resultados e discussão 63 Figura 4.8: Gráfico da taxa de erro para o par Venus

65 4.2 Resultados e discussão 64 Figura 4.9: Gráfico da taxa de erro para o par Teddy

66 4.2 Resultados e discussão 65 Figura 4.10: Gráfico da taxa de erro para o par Cones

67 4.2 Resultados e discussão 66 Os EDI s gerados utilizando os parâmetros apresentados na Tabela 4.4 foram otimizados pelo algoritmo alpha-expansion e são exibidos na Figura 4.11 ao lado de seus respectivos mapas de erro. Nesses os erros são representados pela cor preta quando a diferença de intensidade entre os mapas é superior a 1. Os mapas gerados condizem com o ground-truth e, de uma forma geral, a distribuição das intensidades de cinza foram preservadas. Com intuito de mostrar a validade da abordagem proposta os resultados das técnicas utilizadas em separado são comparados com os obtidos. A Tabela 4.5 apresenta os resultados obtidos em [Yoon e Kweon 2006], que foi a técnica utilizada para se gerar o EDI, os resultados obtidos com a técnica de corte de grafos disponível em [Boykov, Veksler e Zabih 2001], e os resultados obtidos com o método aqui proposto. Quanto ao trabalho que dá origem ao algoritmo utilizado para otimizar o EDI, disponível em [Boykov, Veksler e Zabih 2001]. Infelizmente, não há a disponibilização das taxas de erro encontradas para cada base de dados. Para suprir essa deficiência realizou-se um experimento com a técnica de cortes de grafo aplicada a um EDI gerado pela métrica de similaridade SAD. As colunas da Tabela 4.5 representam os pares estéreos, Tsukuba, Venus, Teddy e Cones, respectivamente. Nas linhas estão apresentados os resultados dos métodos, na primeira linha lê-se o resultado de [Yoon e Kweon 2006], na última linha o resultado gerado a partir de [Boykov, Veksler e Zabih 2001] e na penúltima linha estão exibidos os resultados do método proposto. Tabela 4.5: Comparação do método proposto com as técnicas que o compõem em separado. Tsukuba Venus Teddy Cones nocc all disc nocc all disc nocc all disc nocc all disc Pesos adap Met. prop G C Afim de comparar os resultados obtidos com outras técnicas do estado da arte de visão estéreo, foram selecionadas quatro técnicas diferentes. As Figura 4.13, 4.12 trazem a comparação visual dos mapas utilizando o par de imagens Teddy e Venus, respectivamente. As Figuras 4.12(a) e 4.13(a) apresentam os mapas gerados com programação dinâmica para otimizar o EDI, para os pares de imagem Teddy e Venus, respectivamente. Enquanto nas Figuras 4.12(b) e 4.13(b) são exibidos os mapas de disparidades dos pares Teddy e Venus obtidos atráves de corte de grafos, mais precisamente do algoritmo α β swap. Esse último mapa se diferencia do mapa proposto por essa dissertação pelo algoritmo utilizado, α β swap em vez de α expansion. Essas duas técnicas estão disponíveis em [Scharstein e Szeliski 2002].

68 4.2 Resultados e discussão 67 (a) Tsukuba (b) Mapa de erro (c) Venus (d) Mapa de erro (e) Teddy (f) Mapa de erro (g) Cones (h) Mapa de erro Figura 4.11: Mapas de disparidades gerados pelo algoritmo α expansion e teoria Gestalt junto com os erros (intensidade em preto) obtidos.

69 4.2 Resultados e discussão 68 Nos mapas das Figuras 4.12(c) e 4.13(c) foi utilizada a propagação de crenças para selecionar as disparidades para os pares de imagem Teddy e Venus, tais mapas foram gerados no trabalho de Yang et al., [Yang et al. 2006]. Nas Figura 4.12(d) e 4.13(d), está uma das técnicas geradora de mapas de disparidades mais bem avaliados na atualidade para o par de imagens Teddy e Venus, tal avaliação está disponível no sítio do Colégio de Middleburry que oferece um benchmark para as técnicas estéreo. Tais mapas foram gerados usando corte de grafos e compartilhamento local de rótulos, que é uma nova abordagem que permite a propagação espacial dos rótulos por região, disponível em [Taniai, Matsushita e Naemura 2014]. E por fim nas Figura 4.12(e) e 4.13(e) estão os mapas resultantes desta disssertação para os pares de imagem Teddy e Venus. (a) Programação Dinâmica (b) Corte de grafos (c) Propagação de Crenças (d) GC + compartilhamento de rótulos (e) Método Proposto Figura 4.12: Comparação entre mapas de disparidades com o par de imagens Teddy. As Tabela 4.6 e 4.7 trazem os valores de erro das técnicas citadas. Em ambas as tabelas, a primeira coluna apresenta o nome da técnica, a segunda coluna exibe o erro

70 4.2 Resultados e discussão 69 (a) Programação Dinâmica (b) Corte de grafos (c) Propagação de Crenças (d) GC + compartilhamento de rótulos (e) Método Proposto Figura 4.13: Comparação entre mapas de disparidades para o par de imagens Venus. computado apenas para os pontos não oclusos, a terceira coluna aponta a taxa de erro para toda a imagem, e por último, a quarta coluna indica a taxa de erro apenas para as regiões próximas de bordas (descontinuidades). Tabela 4.6: Erros para o par Teddy. Técnica nonocc all disc Programação dinâmica Corte de grafos Propagação de crenças Gc + comp. de rótulos Método proposto Os resultados demonstram o desempenho do mapa gerado pela abordagem proposta. Nas duas base de dados apresentadas, Teddy e Venus, a taxa de erro se aproximou

71 4.2 Resultados e discussão 70 Tabela 4.7: Erros para o par Venus. Técnica nonocc all disc Programação dinâmica Corte de grafos Propagação de crenças Gc + comp. de rótulos Método proposto dentro das técnicas selecionadas para comparação da mais bem avaliada no benchmark Middleburry, disponível em [Taniai, Matsushita e Naemura 2014]. Com o objetivo de avaliar a escolha do termo de suavização na construção do mapa de disparidades. Duas funções de suavização foram empregadas, o modelo de Potts e a distância L 2 truncada, disponíveis nas equações 2-17 e 2-18, respectivamente. Nas Figuras 4.14 e 4.15 são apresentados os resultado obtidos com os pares de imagens Tsukuba e Teddy. Nas figuras 4.14(a) e 4.15(a) estão os mapas de disparidades utilizando o modelo de Potts, nas Figuras 4.14(b) e 4.15(b) os mapas gerados empregando a função de distância L 2 truncada e nas Figuras 4.14(c) e 4.15(c) os mapa esperados, Ground-truth. (a) Modelo de Potts (b) Distância L 2 truncada (c) Ground-truth Figura 4.14: Resultados dos mapas de disparidades usando funções de suavização distintas para o par de imagens Tsukuba.

72 4.2 Resultados e discussão 71 (a) Modelo de Potts (b) Distância L 2 truncada (c) Ground-truth Figura 4.15: Resultados dos mapas de disparidades usando funções de suavização distintas para o par de imagens Teddy. Nesse experimento o EDI foi construído com a métrica TG. Os mapas gerados com o modelo de Potts como função de suavização ficam mais propensos à ruídos, pois não ponderam as diferenças entre os rótulos vizinhos, enquanto que, mapas gerados tendo como função de suavização a distância L 2 são mais suaves, pois atribuem penalidades de acordo com a diferença encontrada nos rótulos atribuídos aos pixels vizinhos p e q. Então a função de suavização L 2 tende a se aproximar mais dos mapas reais, pois esta gera mapas que variam em partes suaves.

RECONHECIMENTO FACIAL UTILIZANDO EIGENFACES

RECONHECIMENTO FACIAL UTILIZANDO EIGENFACES Universidade Federal do Rio de Janeiro Instituto Alberto Luiz Coimbra de Pós-Graduação e Pesquisa de Engenharia Programa de Engenharia de Sistemas e Computação Rio de Janeiro, RJ Brasil RECONHECIMENTO

Leia mais

FILTROS ESPACIAIS PASSA-BAIXA

FILTROS ESPACIAIS PASSA-BAIXA UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL PROGRAMA DE PÓS-GRADUAÇÃO EM COMPUTAÇÃO CMP65 - INTRODUÇÃO AO PROCESSAMENTO DE IMAGENS PROFESSOR JACOB SCARCHANSKI FILTROS ESPACIAIS PASSA-BAIXA POR DANIEL NEHME

Leia mais

PMR2560 ELEMENTOS DE ROBÓTICA 2016 TRABALHO DE VISÃO COMPUTACIONAL CALIBRAÇÃO DE CÂMERAS E VISÃO ESTÉREO

PMR2560 ELEMENTOS DE ROBÓTICA 2016 TRABALHO DE VISÃO COMPUTACIONAL CALIBRAÇÃO DE CÂMERAS E VISÃO ESTÉREO PMR2560 ELEMENTOS DE ROBÓTICA 2016 TRABALHO DE VISÃO COMPUTACIONAL CALIBRAÇÃO DE CÂMERAS E VISÃO ESTÉREO Esse trabalho consiste de três partes. Na primeira parte do trabalho você vai calibrar duas câmeras

Leia mais

Processamento Digital de Imagens

Processamento Digital de Imagens Ciência da Computação Processamento Digital de Imagens Prof. Sergio Ribeiro Tópicos Introdução Espectro Eletromagnético Aquisição e Digitalização de Imagens Efeitos da Digitalização Digitalização Sensoriamento

Leia mais

Pontifícia Universidade Católica do Rio de Janeiro. Departamento de Informática. Fundamentos de Computação Gráfica

Pontifícia Universidade Católica do Rio de Janeiro. Departamento de Informática. Fundamentos de Computação Gráfica 1. Imagens sísmicas Pontifícia Universidade Católica do Rio de Janeiro Departamento de Informática Fundamentos de Computação Gráfica Aluno: Stelmo Magalhães Barros Netto Relatório do trabalho Imagens Sísmicas

Leia mais

3 Estimação e Compensação de movimento na codificação de vídeo

3 Estimação e Compensação de movimento na codificação de vídeo Estimação e Compensação de movimento na codificação de vídeo 36 3 Estimação e Compensação de movimento na codificação de vídeo O objetivo do modelo temporal (que engloba as fases de estimação e compensação

Leia mais

CAPÍTULO V 5 CONCLUSÕES E RECOMENDAÇÕES 5.1 SÍNTESE DO TRABALHO DESENVOLVIDO

CAPÍTULO V 5 CONCLUSÕES E RECOMENDAÇÕES 5.1 SÍNTESE DO TRABALHO DESENVOLVIDO 182 CAPÍTULO V 5 CONCLUSÕES E RECOMENDAÇÕES 5.1 SÍNTESE DO TRABALHO DESENVOLVIDO Neste trabalho foi proposta uma metodologia para a automação da resseção espacial de imagens digitais baseada no uso hipóteses

Leia mais

RECONHECIMENTO IDENTIFICAÇÃO BASEADA EM APARÊNCIA

RECONHECIMENTO IDENTIFICAÇÃO BASEADA EM APARÊNCIA RECONHECIMENTO IDENTIFICAÇÃO BASEADA EM APARÊNCIA Envolve a pergunta: É esta parte da imagem uma parte do objeto X? (modelo dado, região da imagem dada) Utiliza imagens ao invés de características como

Leia mais

Processamento digital de imagens

Processamento digital de imagens Processamento digital de imagens Agostinho Brito Departamento de Engenharia da Computação e Automação Universidade Federal do Rio Grande do Norte 11 de novembro de 2016 Fluxo óptico Usado para estimar

Leia mais

Processamento de Imagem. Convolução Filtragem no Domínio da Frequência (Fourier) Professora Sheila Cáceres

Processamento de Imagem. Convolução Filtragem no Domínio da Frequência (Fourier) Professora Sheila Cáceres Processamento de Imagem Convolução Filtragem no Domínio da Frequência (Fourier) Professora Sheila Cáceres Lembrando Filtragem Correlação A correlação e a convolução sãos dois conceitos relacionados a filtragem.

Leia mais

Processamento de Imagem. Prof. MSc. André Yoshimi Kusumoto

Processamento de Imagem. Prof. MSc. André Yoshimi Kusumoto Processamento de Imagem Prof. MSc. André Yoshimi Kusumoto andrekusumoto.unip@gmail.com Filtragem de Imagens A utilização de filtros tem como objetivo melhorar a qualidade das imagens através da: ampliação

Leia mais

Visão computacional. Juliana Patrícia Detroz Orientador: André Tavares Silva

Visão computacional. Juliana Patrícia Detroz Orientador: André Tavares Silva Visão computacional Juliana Patrícia Detroz Orientador: André Tavares Silva Visão computacional Tentativa de replicar a habilidade humana da visão através da percepção e entendimento de uma imagem; Fazer

Leia mais

4 Detecção de Silhueta

4 Detecção de Silhueta 4 Detecção de Silhueta No decorrer deste capítulo é proposto um modelo de detecção da silhueta da mão capaz de lidar com os erros da segmentação e ruídos na sua morfologia. Num primeiro passo são considerados

Leia mais

Capítulo III Processamento de Imagem

Capítulo III Processamento de Imagem Capítulo III Processamento de Imagem Proc. Sinal e Imagem Mestrado em Informática Médica Miguel Tavares Coimbra Resumo 1. Manipulação ponto a ponto 2. Filtros espaciais 3. Extracção de estruturas geométricas

Leia mais

Introdução ao Processamento de Imagens Digitais Aula 01

Introdução ao Processamento de Imagens Digitais Aula 01 Introdução ao Processamento de Imagens Digitais Aula 01 Douglas Farias Cordeiro Universidade Federal de Goiás 06 de julho de 2015 Mini-currículo Professor do curso Gestão da Informação Formação: Graduação

Leia mais

1.1. Trabalhos Realizados na Área

1.1. Trabalhos Realizados na Área 1 1 Introdução Várias formas de tratamento de lesões de úlceras de perna têm sido empregadas hoje em dia. O método de tratamento dependerá da origem da úlcera bem como de seu estado patológico. Com o objetivo

Leia mais

Processamento de Imagem. Filtragem no Domínio Espacial Professora Sheila Cáceres

Processamento de Imagem. Filtragem no Domínio Espacial Professora Sheila Cáceres Processamento de Imagem Filtragem no Domínio Espacial Professora Sheila Cáceres Filtragem A filtragem de imagens pode ser realizada no domínio do espaço e da frequência Operadores de filtragem são classificados

Leia mais

Tatiana Waintraub. Modelagem da calçada de Copacabana. Dissertação de Mestrado

Tatiana Waintraub. Modelagem da calçada de Copacabana. Dissertação de Mestrado Tatiana Waintraub Modelagem da calçada de Copacabana Dissertação de Mestrado Dissertação apresentada como requisito parcial para a obtenção do grau de Mestre pelo Programa de Pós-graduação em Informática

Leia mais

Universidade Federal do Rio de Janeiro - IM/DCC & NCE

Universidade Federal do Rio de Janeiro - IM/DCC & NCE Universidade Federal do Rio de Janeiro - IM/DCC & NCE Processamento de Imagens Segmentação Antonio G. Thomé thome@nce.ufrj.br Sala AEP/133 Conceituação Segmentação é uma tarefa básica no processo de análise

Leia mais

Algoritmos geométricos

Algoritmos geométricos Algoritmos geométricos introdução a conceitos básicos de geometria computacional que serão abordados de forma mais avançada na disciplina Computação Gráfica disciplina de computação gráfica arquitetura

Leia mais

Exercício Área - SPRING

Exercício Área - SPRING Exercício Área - SPRING Figura 01 - Visualização dos dados contidos no projeto ativo. Comentários - Nesta etapa foi aberto o banco de dados, neste caso denominado São Paulo e foi definido o projeto, também

Leia mais

Extração de características de imagens. Descritores de cor

Extração de características de imagens. Descritores de cor Extração de características de imagens Descritores de cor Descritores de imagens Problema: computar, de forma eficiente, valores que descrevam uma imagem (ou parte dela) Vetores de características (feature

Leia mais

Transformada de Discreta de Co senos DCT

Transformada de Discreta de Co senos DCT Transformada de Discreta de Co senos DCT O primeiro passo, na maioria dos sistemas de compressão de imagens e vídeo, é identificar a presença de redundância espacial (semelhança entre um pixel e os pixels

Leia mais

Computação Gráfica - 09

Computação Gráfica - 09 Universidade Federal do Vale do São Francisco Curso de Engenharia da Computação Computação Gráfica - 9 jorge.cavalcanti@univasf.edu.br www.univasf.edu.br/~jorge.cavalcanti www.twitter.com/jorgecav Objetos

Leia mais

PMR2560 Visão Computacional Detecção de bordas. Prof. Eduardo L. L. Cabral

PMR2560 Visão Computacional Detecção de bordas. Prof. Eduardo L. L. Cabral PMR56 Visão Computacional Detecção de bordas Prof. Eduardo L. L. Cabral Objetivos Processamento de imagens: Características; Detecção de bordas. Características Tipos de características: Bordas; Cantos;

Leia mais

Ordenar ou identificar a localização de números racionais na reta numérica.

Ordenar ou identificar a localização de números racionais na reta numérica. Ordenar ou identificar a localização de números racionais na reta numérica. Estabelecer relações entre representações fracionárias e decimais dos números racionais. Resolver situação-problema utilizando

Leia mais

Processamento digital de imagens

Processamento digital de imagens Processamento digital de imagens Agostinho Brito Departamento de Engenharia da Computação e Automação Universidade Federal do Rio Grande do Norte 3 de março de 2016 Transformação e filtragem de imagens

Leia mais

Detecção e Correção Automáticas de Olhos Vermelhos

Detecção e Correção Automáticas de Olhos Vermelhos Setor de Tecnologia da Universidade Federal do Paraná Curso de Engenharia Elétrica TE 072 Processamento Digital de Sinais Detecção e Correção Automáticas de Olhos Vermelhos Trabalho elaborado pelo aluno

Leia mais

O reconhecimento facial é dividido em três etapas: i) detecção da face, ii) extração de características e iii) reconhecimento da face.

O reconhecimento facial é dividido em três etapas: i) detecção da face, ii) extração de características e iii) reconhecimento da face. ESTUDO SOBRE MÉTODOS DE RECONHECIMENTO FACIAL EM FOTOGRAFIAS DIGITAIS Ana Elisa SCHMIDT¹, Elvis Cordeiro NOGUEIRA² ¹ Orientadora e docente do IFC-Campus Camboriú; ² Aluno do curso de Bacharelado em Sistemas

Leia mais

5 Análise Experimental

5 Análise Experimental 5 Análise Experimental 5.1. Base de dados para testes Foram gravados diversos vídeos que serviram para realizar os testes realizados nesta dissertação. Cada um dos vídeos gerados para medir qualidade da

Leia mais

INTERPOLAÇÃO LINEAR E BILINEAR: APLICAÇÃO EM TRANSFORMAÇÕES GEOMÉTRICAS DE IMAGEM INTRODUÇÃO

INTERPOLAÇÃO LINEAR E BILINEAR: APLICAÇÃO EM TRANSFORMAÇÕES GEOMÉTRICAS DE IMAGEM INTRODUÇÃO INTERPOLAÇÃO LINEAR E BILINEAR: APLICAÇÃO EM TRANSFORMAÇÕES GEOMÉTRICAS DE IMAGEM Autores: Giulia Denise Kujat VIEIRA; Milene Karine GUBETTI. Identificação autores: Estudantes do Curso Técnico em Informática

Leia mais

CAPÍTULO 4 SEGMENTAÇÃO DE IMAGENS SAR

CAPÍTULO 4 SEGMENTAÇÃO DE IMAGENS SAR CAPÍTULO 4 SEGMENTAÇÃO DE IMAGENS SAR Segundo Gonzales e Wintz (1987), um dos primeiros passos do processo de análise de uma imagem digital consiste em particioná-la em seus elementos constituintes. O

Leia mais

MATRIZ DE REFERÊNCIA DE MATEMÁTICA - SADEAM 3 ANO DO ENSINO FUNDAMENTAL

MATRIZ DE REFERÊNCIA DE MATEMÁTICA - SADEAM 3 ANO DO ENSINO FUNDAMENTAL 3 ANO DO ENSINO FUNDAMENTAL ESPAÇO E FORMA Identificar a localização/movimentação de objeto ou pessoa em mapa, croqui e outras representações gráficas. Identificar propriedades comuns e diferenças entre

Leia mais

PMR2560 Visão Computacional Conversão e Limiarização. Prof. Eduardo L. L. Cabral

PMR2560 Visão Computacional Conversão e Limiarização. Prof. Eduardo L. L. Cabral PMR2560 Visão Computacional Conversão e Limiarização Prof. Eduardo L. L. Cabral Objetivos Processamento de imagens: Conversão de imagens; Histograma; Limiarização. Imagem digital Uma imagem é uma matriz

Leia mais

4 Extração direta das PELs

4 Extração direta das PELs 4 Extração direta das PELs A detecção de arestas em imagens está relacionada à extração de feições, sendo uma ferramenta fundamental em processamento de imagens e visão computacional. Essa detecção visa

Leia mais

VERSÃO RESPOSTAS PROVA DE MÉTODOS QUANTITATIVOS

VERSÃO RESPOSTAS PROVA DE MÉTODOS QUANTITATIVOS UNIVERSIDADE DE SÃO PAULO FACULDADE DE ECONOMIA, ADMINISTRAÇÃO E CONTABILIDADE DE RIBEIRÃO PRETO PROGRAMA DE PÓS-GRADUAÇÃO EM ADMINISTRAÇÃO DE ORGANIZAÇÕES PROCESSO SELETIVO MESTRADO - TURMA 2012 PROVA

Leia mais

[2CTA121] Processamento de Imagens em Alimentos: Conceitos e Aplicações

[2CTA121] Processamento de Imagens em Alimentos: Conceitos e Aplicações [2CTA121] Processamento de Imagens em Alimentos: Conceitos e Aplicações Dr. Sylvio Barbon Junior PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DE ALIMENTOS - UEL 2016 Assunto Aula 4 Segmentação de Imagens 2 de

Leia mais

PLANO DE ENSINO Disciplina: Matemática 8 a série Professor: Fábio Girão. Competências Habilidades Conteúdos. I Etapa

PLANO DE ENSINO Disciplina: Matemática 8 a série Professor: Fábio Girão. Competências Habilidades Conteúdos. I Etapa PLANO DE ENSINO 2015 Disciplina: Matemática 8 a série Professor: Fábio Girão I Etapa Competências Habilidades Conteúdos Construir significados e ampliar os já existentes para os números naturais, inteiros,

Leia mais

Buscas Informadas ou Heurísticas - Parte II

Buscas Informadas ou Heurísticas - Parte II Buscas Informadas ou Heurísticas - Parte II Prof. Cedric Luiz de Carvalho Instituto de Informática - UFG Graduação em Ciência da Computação / 2006 FUNÇÕES HEURÍSTICAS - 1/7 FUNÇÕES HEURÍSTICAS - 2/7 Solução

Leia mais

4 Testes e experimentos realizados 4.1. Implementação e banco de dados

4 Testes e experimentos realizados 4.1. Implementação e banco de dados 32 4 Testes e experimentos realizados 4.1. Implementação e banco de dados Devido à própria natureza dos sites de redes sociais, é normal que a maior parte deles possua uma grande quantidade de usuários

Leia mais

2 Reconhecimento Facial

2 Reconhecimento Facial 2 Reconhecimento Facial Em termos gerais, o reconhecimento facial é o processo pelo qual se mede o grau de similaridade entre duas imagens faciais com o proposito de identificar a um indivíduo ou de verificar

Leia mais

O Problema de Visibilidade. Computação Gráfica Recorte. Onde Acontece? O que é Recorte? Renato Ferreira

O Problema de Visibilidade. Computação Gráfica Recorte. Onde Acontece? O que é Recorte? Renato Ferreira O Problema de Visibilidade Computação Gráfica Recorte Renato Ferreira Numa cena tri-dimensional, normalmente não é possível ver todas as superfícies de todos os objetos Queremos descartar objetos ou partes

Leia mais

2.1. Construção da Pista

2.1. Construção da Pista 2 Malha de Controle Para que se possa controlar um dado sistema é necessário observar e medir suas variáveis de saída para determinar o sinal de controle, que deve ser aplicado ao sistema a cada instante.

Leia mais

A SIMPLIFIED GRAVITATIONAL MODEL TO ANALYZE TEXTURE ROUGHNESS

A SIMPLIFIED GRAVITATIONAL MODEL TO ANALYZE TEXTURE ROUGHNESS A SIMPLIFIED GRAVITATIONAL MODEL TO ANALYZE TEXTURE ROUGHNESS Introdução Um padrão de textura é definido como uma função da variação espacial nas intensidades dos pixels Um dos mais importantes atributos

Leia mais

CAPÍTULO 5 RESULTADOS. São apresentados neste Capítulo os resultados obtidos através do programa Classific, para

CAPÍTULO 5 RESULTADOS. São apresentados neste Capítulo os resultados obtidos através do programa Classific, para CAPÍTULO 5 RESULTADOS São apresentados neste Capítulo os resultados obtidos através do programa Classific, para as imagens coletadas no verão II, período iniciado em 18/01 e finalizado em 01/03 de 1999,

Leia mais

4 as Jornadas Politécnicas de Engenharia

4 as Jornadas Politécnicas de Engenharia 4 as Jornadas Politécnicas de Engenharia Imagens de Faces: Exemplos de Metodologias e Aplicações Fernando Carvalho, João Manuel R. S. Tavares Aplicação Metodologias Modelos Conclusões Trabalho Futuro Introdução:

Leia mais

Processamento de Imagem. Prof. MSc. André Yoshimi Kusumoto

Processamento de Imagem. Prof. MSc. André Yoshimi Kusumoto Processamento de Imagem Prof. MSc. André Yoshimi Kusumoto andrekusumoto.unip@gmail.com Filtragem de Imagens A utilização de filtros tem como objetivo melhorar a qualidade das imagens através da: ampliação

Leia mais

Instituto de Computação Bacharelado em Ciência da Computação Disciplina: Computação Gráfica Primeira lista de exercícios

Instituto de Computação Bacharelado em Ciência da Computação Disciplina: Computação Gráfica Primeira lista de exercícios Instituto de Computação Bacharelado em Ciência da Computação Disciplina: Computação Gráfica Primeira lista de exercícios - 2013.1 Conceitos fundamentais 1) A Computação Gráfica é dividida em diversas sub-áreas.

Leia mais

Descritores de Matemática 4ª série (5º ano)

Descritores de Matemática 4ª série (5º ano) Descritores de Matemática 4ª série (5º ano) Prova Brasil Matemática São 28 descritores subdivididos em 04 temas. Tema I - Espaço e Forma. D1 - Identificar a localização /movimentação de objeto em mapas,

Leia mais

Introdução ao Processamento Digital de Imagens. Aula 6 Propriedades da Transformada de Fourier

Introdução ao Processamento Digital de Imagens. Aula 6 Propriedades da Transformada de Fourier Introdução ao Processamento Digital de Imagens Aula 6 Propriedades da Transformada de Fourier Prof. Dr. Marcelo Andrade da Costa Vieira mvieira@sc.usp.br Uma linha de uma imagem formada por uma sequência

Leia mais

Departamento de Matemática

Departamento de Matemática Computação Gráfica - Evolução de Curvas e Superfícies Aluno: Vinícius Segura Orientador: Sinésio Pesco Introdução Nas últimas décadas atravessamos uma verdadeira revolução tecnológica, devido ao avanço

Leia mais

Algoritmos de Recorte em 2D

Algoritmos de Recorte em 2D Algoritmos de Recorte em 2D Computação Gráfica DCC065 Prof. Rodrigo Luis de Souza da Silva, D.Sc. Sumário Conceito de Recorte (Clipping) Introdução Algoritmo simples (Força Bruta) Algoritmo de Cohen-Sutherland

Leia mais

PLANIFICAÇÃO ANUAL. Documento(s) Orientador(es): Programa de Matemática dos Cursos Profissionais

PLANIFICAÇÃO ANUAL. Documento(s) Orientador(es): Programa de Matemática dos Cursos Profissionais TÉCNICO DE GESTÃO E PROGRAMAÇÃO DE SISTEMAS INFORMÁTICOS Ano Letivo 2015/2016 Ciclo de Formação: 2015-2018 Nº DO PROJETO: Clique aqui para introduzir o número do projeto. MATEMÁTICA 10ºANO PLANIFICAÇÃO

Leia mais

1. Introdução. 1.1.Objetivo

1. Introdução. 1.1.Objetivo 1. Introdução 1.1.Objetivo O objetivo desta dissertação é desenvolver um sistema de controle por aprendizado acelerado e Neuro-Fuzzy baseado em técnicas de inteligência computacional para sistemas servo-hidráulicos

Leia mais

Algoritmos Genéticos. Estéfane G. M. de Lacerda DCA/UFRN Outubro/2008

Algoritmos Genéticos. Estéfane G. M. de Lacerda DCA/UFRN Outubro/2008 Estéfane G. M. de Lacerda DCA/UFRN Outubro/2008 Introdução São técnicas de busca e otimização. É a metáfora da teoria da evolução das espécies iniciada pelo Fisiologista e Naturalista inglês Charles Darwin.

Leia mais

3 a Lista de Exercícios

3 a Lista de Exercícios Universidade Federal de Santa Catarina Departamento de Informática e Estatística Bacharelado em Ciências da Computação INE 5406 - Sistemas Digitais - semestre 2010/2 Prof. José Luís Güntzel guntzel@inf.ufsc.br

Leia mais

3 Trabalhando com imagens digitais

3 Trabalhando com imagens digitais 3 Trabalhando com imagens digitais Neste capítulo, é apresentada a importância da utilização de imagens digitais em aplicações de computação gráfica. Se o objetivo destas aplicações for criar uma cena

Leia mais

Image Descriptors: color

Image Descriptors: color Image Descriptors: color Image Processing scc0251 www.icmc.usp.br/ moacir moacir@icmc.usp.br ICMC/USP São Carlos, SP, Brazil 2011 Moacir Ponti Jr. (ICMCUSP) Image Descriptors: color 2011 1 / 29 Agenda

Leia mais

Novos métodos de Sintonia de Controladores PID

Novos métodos de Sintonia de Controladores PID Novos métodos de Sintonia de Controladores PID. Introdução Existem diversas questões que devem ser consideradas no projeto de controladores PID, como por exemplo: Resposta a distúrbios de carga; Resposta

Leia mais

SOLUÇÃO ANALÍTICA E NUMÉRICA DA EQUAÇÃO DE LAPLACE

SOLUÇÃO ANALÍTICA E NUMÉRICA DA EQUAÇÃO DE LAPLACE 15 16 SOLUÇÃO ANALÍTICA E NUMÉRICA DA EQUAÇÃO DE LAPLACE 3. Todos os dispositivos elétricos funcionam baseados na ação de campos elétricos, produzidos por cargas elétricas, e campos magnéticos, produzidos

Leia mais

Aplicação de Tags em Objetos de Sistemas de Visualização em Tempo Real

Aplicação de Tags em Objetos de Sistemas de Visualização em Tempo Real Fundamentos de Computação Gráfica Aplicação de Tags em Objetos de Sistemas de Visualização em Tempo Real Renato Deris Prado Tópicos principais 1. Introdução e Objetivos Sistemas de visualização em tempo

Leia mais

1 Introdução. I know because I must know. It's my purpose. It's the reason I'm here. (The Matrix) 1.1 Objetivos do trabalho

1 Introdução. I know because I must know. It's my purpose. It's the reason I'm here. (The Matrix) 1.1 Objetivos do trabalho 1 Introdução I know because I must know. It's my purpose. It's the reason I'm here. (The Matrix) 1.1 Objetivos do trabalho Os hardwares gráficos atualmente podem ser considerados como verdadeiros processadores

Leia mais

Inteligência Artificial

Inteligência Artificial Inteligência Artificial Aula 6 Algoritmos Genéticos M.e Guylerme Velasco Roteiro Introdução Otimização Algoritmos Genéticos Representação Seleção Operadores Geneticos Aplicação Caixeiro Viajante Introdução

Leia mais

Processamento de Malhas Poligonais

Processamento de Malhas Poligonais Processamento de Malhas Poligonais Tópicos Avançados em Computação Visual e Interfaces I Prof.: Marcos Lage www.ic.uff.br/~mlage mlage@ic.uff.br Conteúdo: Notas de Aula Curvas 06/09/2015 Processamento

Leia mais

DCBD. Avaliação de modelos. Métricas para avaliação de desempenho. Avaliação de modelos. Métricas para avaliação de desempenho...

DCBD. Avaliação de modelos. Métricas para avaliação de desempenho. Avaliação de modelos. Métricas para avaliação de desempenho... DCBD Métricas para avaliação de desempenho Como avaliar o desempenho de um modelo? Métodos para avaliação de desempenho Como obter estimativas confiáveis? Métodos para comparação de modelos Como comparar

Leia mais

VISÃO COMPUTACIONAL. Marcelo Henrique dos Santos

VISÃO COMPUTACIONAL. Marcelo Henrique dos Santos VISÃO COMPUTACIONAL Marcelo Henrique dos Santos marcelosantos@outlook.com São Paulo SP, Agosto/2013 INTRODUÇÃO Processamento de imagens é um processo onde a entrada do sistema é uma imagem e a saída é

Leia mais

UNIVERSIDADE FEDERAL FLUMINENSE Pedro Martins Menezes. Um estudo dos estágios dos pipelines gráficos

UNIVERSIDADE FEDERAL FLUMINENSE Pedro Martins Menezes. Um estudo dos estágios dos pipelines gráficos UNIVERSIDADE FEDERAL FLUMINENSE Pedro Martins Menezes Um estudo dos estágios dos pipelines gráficos Niterói 2008 Pedro Martins Menezes Um estudo dos estágios dos pipelines gráficos Trabalho de Conclusão

Leia mais

Apostila de Metrologia (parcial)

Apostila de Metrologia (parcial) Apostila de Metrologia (parcial) Introdução A medição é uma operação muito antiga e de fundamental importância para diversas atividades do ser humano. As medições foram precursoras de grandes teorias clássicas

Leia mais

MATEMÁTICA 5º ANO UNIDADE 1. 1 NÚMEROS, PROBLEMAS E SOLUÇÕES Sistema de numeração Operações com números grandes

MATEMÁTICA 5º ANO UNIDADE 1. 1 NÚMEROS, PROBLEMAS E SOLUÇÕES Sistema de numeração Operações com números grandes MATEMÁTICA 5º ANO UNIDADE 1 CAPÍTULOS 1 NÚMEROS, PROBLEMAS E SOLUÇÕES Sistema de numeração Operações com números grandes 2 IMAGENS E FORMAS Ângulos Ponto, retas e planos Polígono Diferenciar o significado

Leia mais

A terceira dimensão. Modelagem tridimensional Elaboração tridimensional Realidade virtual

A terceira dimensão. Modelagem tridimensional Elaboração tridimensional Realidade virtual A terceira dimensão A terceira dimensão Modelagem tridimensional Elaboração tridimensional Realidade virtual 2 Modelagem tridimensional Métodos de representação tridimensional: modelos geométricos; superfícies

Leia mais

MPEG-4 & H.264. Dissertação, entendimento e comparativo entre e com o MPEG-2

MPEG-4 & H.264. Dissertação, entendimento e comparativo entre e com o MPEG-2 MPEG-4 & H.264 Dissertação, entendimento e comparativo entre e com o MPEG-2 UFF Departamento de Engenharia de Telecomunicações 2005/1 Mestrado em Eng. de Telecomunicações Professora Debora Christina Muchaluat

Leia mais

Introdução Geral a Computação Gráfica. Universidade Católica de Pelotas Curso de Engenharia da Computação Disciplina de Computação Gráfica

Introdução Geral a Computação Gráfica. Universidade Católica de Pelotas Curso de Engenharia da Computação Disciplina de Computação Gráfica Introdução Geral a Computação Gráfica Universidade Católica de Pelotas Curso de Engenharia da Computação Disciplina de 2 Introdução Geral a O que é CG? Áreas de Atuação Definição, Arte e Matemática Mercado

Leia mais

AGRUPAMENTO DE ESCOLAS ANSELMO DE ANDRADE

AGRUPAMENTO DE ESCOLAS ANSELMO DE ANDRADE AGRUPAMENTO DE ESCOLAS ANSELMO DE ANDRADE DEPARTAMENTO DE MATEMÁTICA E CIÊNCIAS EXPERIMENTAIS - Grupo 500 Planificação Anual /Critérios de avaliação Disciplina: Matemática _ 7º ano 2016/2017 Início Fim

Leia mais

Pipeline de Visualização 3D

Pipeline de Visualização 3D Pipeline de Visualização 3D André Tavares da Silva andre.silva@udesc.br Capítulo 5 de Foley Capítulo 2 de Azevedo e Conci Processo de Visualização https://www.youtube.com/watch?v=ogqam2mykng Processo de

Leia mais

Geometria Computacional

Geometria Computacional Geometria Computacional Claudio Esperança Paulo Roma Cavalcanti Estrutura do Curso Aspectos teóricos e práticos Construção e análise de algoritmos e estruturas de dados para a solucionar problemas geométricos

Leia mais

Circuitos Sequenciais

Circuitos Sequenciais Circuitos Sequenciais Tópicos: Contadores Memórias Circuitos Sequenciais Teoremas DeMorgan Mapas de Karnaugh Multiplexadores Flip Flops Flip Flop Os flip flops são unidades básicas de memória. Cada circuito

Leia mais

FILTRAGEM NO DOMÍNIO ESPACIAL. Daniel C. Zanotta 10/06/2016

FILTRAGEM NO DOMÍNIO ESPACIAL. Daniel C. Zanotta 10/06/2016 FILTRAGEM NO DOMÍNIO ESPACIAL Daniel C. Zanotta 10/06/2016 Passa-Baixas O efeito visual de um filtro passa-baixa é o de suavização da imagem e a diminuição de mudanças abruptas de níveis de cinza. As altas

Leia mais

Matriz de Referência de Matemática* SAEPI Temas e seus Descritores 5º ano do Ensino Fundamental

Matriz de Referência de Matemática* SAEPI Temas e seus Descritores 5º ano do Ensino Fundamental MATEMÁTICA - 5º EF Matriz de Referência de Matemática* SAEPI Temas e seus Descritores 5º ano do Ensino Fundamental Identificar a localização/movimentação de objeto em mapas, croquis e outras representações

Leia mais

Alinhamento de Estruturas em Imagens Médicas: Estudo, Desenvolvimento e Aplicação

Alinhamento de Estruturas em Imagens Médicas: Estudo, Desenvolvimento e Aplicação Alinhamento de Estruturas em Imagens Médicas: Estudo, Desenvolvimento e Aplicação Orientador: Prof. João Manuel R. S. Tavares FEUP/DEMec Co-orientador: Dra. Ana Mafalda Reis Hospital Pedro Hispano 26 de

Leia mais

7. Projeções Geométricas e Visualização 3D

7. Projeções Geométricas e Visualização 3D 7. Projeções Geométricas e Visualização 3D Aprendemos a criar e transformar geometricamente objetos 3D, no entanto, nossa janela de visualização é apenas bi-dimensional. Assim, necessitamos desenvolver

Leia mais

5ª Lista de Exercícios de Programação I

5ª Lista de Exercícios de Programação I 5ª Lista de Exercícios de Programação I Instrução As questões devem ser implementadas em C. Questões que envolvam leitura de matrizes, a construção dessas matrizes pode ser realizada através da geração

Leia mais

PROCESSAMENTO DE IMAGENS

PROCESSAMENTO DE IMAGENS PROCESSAMENTO DE IMAGENS Introdução Conceitos básicos Pré-processamento Realce Classificação PROCESSAMENTO DE IMAGENS- aula de 25/5/10 Introdução Conceitos básicos Pré-processamento Realce Classificação

Leia mais

FOTOGRAMETRIA E FOTOINTERPRETAÇÃO

FOTOGRAMETRIA E FOTOINTERPRETAÇÃO FOTOGRAMETRIA E FOTOINTERPRETAÇÃO GENERALIDADES Fotogrametria => é o processo de derivação de informação métrica de um objeto através de medições feitas em fotografias desse objeto Foto-interpretação =>

Leia mais

Figura 1.1: Um reservatório natural de petróleo típico: dificuldade para investigar áreas de interesse.

Figura 1.1: Um reservatório natural de petróleo típico: dificuldade para investigar áreas de interesse. 1 Introdução Técnicas de realidade virtual são ferramentas valiosas para a criação, manipulação e investigação de estruturas reais. Elas provêem um ambiente seguro para que os profissionais envolvidos

Leia mais

VISÃO COMPUTACIONAL PARA RECONHECIMENTO DE FACES APLICADO NA IDENTIFICAÇÃO E AUTENTICAÇÃO DE USUÁRIOS NA WEB. Márcio Koch

VISÃO COMPUTACIONAL PARA RECONHECIMENTO DE FACES APLICADO NA IDENTIFICAÇÃO E AUTENTICAÇÃO DE USUÁRIOS NA WEB. Márcio Koch VISÃO COMPUTACIONAL PARA RECONHECIMENTO DE FACES APLICADO NA IDENTIFICAÇÃO E AUTENTICAÇÃO DE USUÁRIOS NA WEB Márcio Koch Orientador: Jacques Robert Heckmann ROTEIRO Introdução Objetivos do trabalho Fundamentação

Leia mais

Ainda, de acordo com BAUMRIND & FRANTZ6, no ano 1971, os erros nas medidas angulares e lineares são de três tipos: 1) erros de projeção; 2) erros de localização dos pontos cefalométricos, e 3) erros mecânicos

Leia mais

Renata Thomaz Lins do Nascimento. Visualização por Imagens Auto-animadas de Campos Vetoriais Baseada na sua Topologia. Dissertação de Mestrado

Renata Thomaz Lins do Nascimento. Visualização por Imagens Auto-animadas de Campos Vetoriais Baseada na sua Topologia. Dissertação de Mestrado Renata Thomaz Lins do Nascimento Visualização por Imagens Auto-animadas de Campos Vetoriais Baseada na sua Topologia Dissertação de Mestrado Dissertação apresentada como requisito parcial para obtenção

Leia mais

étodos uméricos AJUSTE DE FUNÇÕES Prof. Erivelton Geraldo Nepomuceno PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA

étodos uméricos AJUSTE DE FUNÇÕES Prof. Erivelton Geraldo Nepomuceno PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA étodos uméricos AJUSTE DE FUNÇÕES Prof. Erivelton Geraldo Nepomuceno PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA UNIVERSIDADE DE JOÃO DEL-REI PRÓ-REITORIA DE PESQUISA CENTRO FEDERAL DE EDUCAÇÃO TECNOLÓGICA

Leia mais

Reconstrução Geométrica a Partir de Imagens TIC /TCC

Reconstrução Geométrica a Partir de Imagens TIC /TCC Reconstrução Geométrica a Partir de Imagens TIC-00.243/TCC-00.241 Aula 1 Conteúdo Apresentação da Disciplina Professor Leandro Augusto Frata Fernandes laffernandes@ic.uff.br Material disponível em http://www.ic.uff.br/~laffernandes/teaching/2014.2/tic-00.243

Leia mais

Propriedades da Imagem Amostragem & Quantização (Quantificação) Histograma Imagem Colorida x Imagem Monocromática. Propriedades da Imagem

Propriedades da Imagem Amostragem & Quantização (Quantificação) Histograma Imagem Colorida x Imagem Monocromática. Propriedades da Imagem Proc. Imagem Prof. Júlio C. Klafke [1] TÓPICOS DESENVOLVIDOS NESTE MÓDULO PROCESSAMENTO DE IMAGEM #02 Propriedades da Imagem Amostragem & Quantização (Quantificação) Histograma Imagem Colorida x Imagem

Leia mais

AGRUPAMENTO DE ESCOLAS DR. VIEIRA DE CARVALHO DEPARTAMENTO DE MATEMÁTICA E CIÊNCIAS EXPERIMENTAIS MATEMÁTICA PLANIFICAÇÃO ANUAL 5.

AGRUPAMENTO DE ESCOLAS DR. VIEIRA DE CARVALHO DEPARTAMENTO DE MATEMÁTICA E CIÊNCIAS EXPERIMENTAIS MATEMÁTICA PLANIFICAÇÃO ANUAL 5. AGRUPAMENTO DE ESCOLAS DR. VIEIRA DE CARVALHO DEPARTAMENTO DE MATEMÁTICA E CIÊNCIAS EXPERIMENTAIS MATEMÁTICA PLANIFICAÇÃO ANUAL 5.º ANO ANO LECTIVO 2008/2009 1.º PERÍODO Avaliação diagnóstica. Poliedros

Leia mais

Busca com informação e exploração. Capítulo 4 Russell & Norvig Seção 4.2 e 4.3

Busca com informação e exploração. Capítulo 4 Russell & Norvig Seção 4.2 e 4.3 Busca com informação e exploração Capítulo 4 Russell & Norvig Seção 4.2 e 4.3 1 Revisão da aula passada: Busca A * Idéia: evitar expandir caminhos que já são caros Função de avaliação f(n) = g(n) + h(n)

Leia mais

Interpolação de Curvas de Nível por Difusão de Calor

Interpolação de Curvas de Nível por Difusão de Calor Interpolação de Curvas de Nível por Difusão de Calor Roberto de Beauclair Seixas Luiz Henrique de Figueiredo Cláudio Antonio da Silva {tron,lhf,cads}@visgraf.impa.br Motivação Identificação de um método

Leia mais

Professor: Computação Gráfica I. Anselmo Montenegro Conteúdo: - Objetos gráficos planares. Instituto de Computação - UFF

Professor: Computação Gráfica I. Anselmo Montenegro  Conteúdo: - Objetos gráficos planares. Instituto de Computação - UFF Computação Gráfica I Professor: Anselmo Montenegro www.ic.uff.br/~anselmo Conteúdo: - Objetos gráficos planares 1 Objetos gráficos: conceitos O conceito de objeto gráfico é fundamental para a Computação

Leia mais

2 Teoria da Informação

2 Teoria da Informação 2 Teoria da Informação Neste capítulo apresentamos alguns conceitos básicos sobre Teoria da Informação que utilizaremos durante este trabalho. 2.1 Alfabeto, texto, letras e caracteres Um alfabeto Σ = (σ

Leia mais

Redes de Computadores

Redes de Computadores Introdução Inst tituto de Info ormátic ca - UF FRGS Redes de Computadores Introdução ao roteamento Aula 20 Inter-rede TCP/IP (Internet) é composta por um conjunto de redes interligadas por roteadores Roteador

Leia mais

3ª Igor/ Eduardo. Competência Objeto de aprendizagem Habilidade

3ª Igor/ Eduardo. Competência Objeto de aprendizagem Habilidade Matemática 3ª Igor/ Eduardo 9º Ano E.F. Competência Objeto de aprendizagem Habilidade C3 - Espaço e forma Números racionais. Números irracionais. Números reais. Relações métricas nos triângulos retângulos.

Leia mais

Algoritmo Genético. Inteligência Artificial. Professor: Rosalvo Ferreira de Oliveira Neto

Algoritmo Genético. Inteligência Artificial. Professor: Rosalvo Ferreira de Oliveira Neto Algoritmo Genético Inteligência Artificial Professor: Rosalvo Ferreira de Oliveira Neto Estrutura 1. Introdução 2. Conceitos Básicos 3. Aplicações 4. Algoritmo 5. Exemplo Introdução São técnicas de busca

Leia mais

1. INTRODUÇÃO AO PLANEJAMENTO DE EXPERIMENTOS

1. INTRODUÇÃO AO PLANEJAMENTO DE EXPERIMENTOS 1. INTRODUÇÃO AO PLANEJAMENTO DE EXPERIMENTOS A metodologia conhecida como projeto de experimentos foi introduzida por Fischer em 1935 e inicialmente aplicada a experimentos de agricultura. Posteriormente,

Leia mais

Goiás. Tabela 1: Indicadores selecionados: mediana, 1º e 3º quartis nos municípios do estado de Goiás (1991, 2000 e 2010)

Goiás. Tabela 1: Indicadores selecionados: mediana, 1º e 3º quartis nos municípios do estado de Goiás (1991, 2000 e 2010) Goiás Em, no estado de Goiás (GO), moravam 6, milhões de pessoas, onde parcela relevante (6,3%, 375,2 mil habitantes) tinha 65 ou mais anos de idade. O estado era composto de 246 municípios, dos quais

Leia mais