Evaluation of Keypoint Detectors and Descriptors

Evaluation of Kepoint Detectors and Descriptors Francisco Assis da Silva 1, Maria Stela V. de Paiva 1 Universidade do Oeste Paulista Unoeste/FPP Presidente Prudente/SP, Brasil Escola de Engenharia de São Carlos Universidade de São Paulo USP, São Carlos/SP chico@unoeste.br, mstela@sc.usp.br Almir Olivette Artero, Marco Antonio Piteri Universidade Estadual Paulista Unesp Faculdade de Ciências e Tecnologia FCT Presidente Prudente/SP, Brasil {almir, piteri}@fct.unesp.br Abstract This paper presents a comparative stud using different combinations of kepoint detectors and descriptors, applied in pairs of digital images (Object/Scene) in which the scene images were degraded b: blurring, scale, lighting, rotation, noise and all these degradations at the same time. All combinations were analzed using the detectors: SFT, SURF, FAST, STAR, MSER, GFTT (with Harris), GFTT and ORB; and the descriptors: SFT, SURF, BREF and ORB. The parameters observed in this stud are processing time, number of inliers and generating of homographic matrix capable to accomplish satisfactoril the matching between object and scene images. The results of this stud can be of great importance for the choice of these techniques in applications that require high precision or low processing time, or even treatment of images that have been degraded in a previousl known wa. Kewords object recognition, local features, kepoint detectors; kepoint descriptors.. NTRODUÇÃO A identificação de pontos de interesse em imagens e a sua descrição têm sido usadas em uma grande variedade de aplicações, podendo-se citar: o reconhecimento de objetos [1] [][3][4], a construção de mosaicos de imagens [5], o mapeamento visual [6], a reconstrução 3D [3], a recuperação de imagem [] e a localização de câmera [3]. Por conta disto, ao longo dos últimos anos, surgiram várias propostas para resolver este problema. Em geral, essa tarefa é realizada em dois passos, sendo inicialmente usado um detector de pontos chaves da imagem e, no passo seguinte, usado um descritor, capaz de gerar atributos capazes de descrever os pontos chaves. A inclusão dos algoritmos mais relevantes na biblioteca OpenCV [7] tem facilitado bastante a implementação de sistemas que usam estes recursos. Entretanto, a escolha de um deles nem sempre é uma tarefa simples, por causa da falta de informações a respeito de suas vantagens e desvantagens. Assim, neste artigo, é apresentada uma análise da qualidade de diferentes combinações detector / descritor destes operadores mais conhecidos. Um dos propósitos dos descritores locais invariantes é prover uma representação que permita a correspondência de estruturas locais entre imagens, o que é feito a partir da obtenção de um conjunto de medidas locais que capturam a essência das imagens [4]. Durante os últimos anos, métodos usando descritores locais se tornaram os preferidos em diferentes campos de Visão de Computacional. Mudanças de escala, orientação, pontos de vista, ou distorções como borramentos, alterações de iluminação ou oclusão torna a tarefa de reconhecimento de objetos ainda mais difícil. nvestigações recentes [][4][8][17] sugerem que o uso de descritores locais é um bom caminho a seguir. Descritores locais correspondem à informação que é provida pela área em torno de um conjunto de pontos chave, que são distintos e têm elevado conteúdo de informação. A comparação de dois descritores locais é feita usando uma medida de distância, como a distância Euclidiana, Hamming ou outra [8]. As demais seções deste artigo estão organizadas da seguinte maneira: na Seção são apresentados os principais detectores e descritores de pontos chave; na Seção é apresentado um estudo comparativo, usando estes descritores em imagens que sofreram degradações; por fim, são apresentadas as conclusões e trabalhos futuros.. REVSÃO BBLOGRÁFCA Nessa seção é apresentada uma revisão dos principais algoritmos detectores e descritores de pontos chave, disponíveis na biblioteca de Visão Computacional OpenCV [7]. Os algoritmos investigados neste trabalho são: Detectores e Descritores: SFT, SURF, ORB; Descritor: BREF; Detectores: FAST, STAR, MSER, GFTT (com Harris ou CornerMinEigenVal Autovalores). A. SFT O algoritmo SFT (Scale nvariant Feature Transform), proposto por Lowe [1] consegue identificar e descrever pontos chave em imagens, o que é feito através de um mapeamento com diferentes vistas de um objeto ou cena, resultando em um vetor com 18 valores que descrevem cada ponto chave da imagem. O algoritmo consiste nas seguintes etapas: Detecção de extremos no espaço-escala: os pontos chave são detectados aplicando um filtro em cascata que identifica os candidatos, que são invariantes à escala, usando uma função que procura por descritores estáveis ao longo de diferentes escalas. O espaço-escala é definido com a função L(x,,σ) na Equação 1, com uma imagem de entrada (x,) [9].

L(x,,σ) = G(x,,σ) * (x,) (1) onde * é a convolução com a Gaussiana G(x,,σ) na Equação. G( x,, σ ) 1 πσ ( x + )/ σ = e () Para detectar localização de pontos chave estáveis no espaço-escala, Lowe [10] propôs o uso da função de diferença Gaussiana (DoG) no espaço-escala convoluída com a imagem (x,), resultando em D(x,,σ), a qual pode ser calculada a partir de duas escalas próximas separadas por um fator multiplicativo constante k, como na Equação 3. D(x,,σ) = (G(x,,kσ) G(x,,σ)) * (x,) (3) Detecção de extremos locais: a partir de D(x,,σ), Lowe [1] sugere que os máximos e mínimos locais devem ser detectados pela comparação de cada pixel com os seus oito vizinhos na imagem corrente e nove vizinhos nas escalas superior e inferior (6 vizinhos). Atribuição de orientação: a escala do ponto chave é usada para selecionar a imagem suavizada pela Gaussiana L, com a escala mais próxima, de modo que toda a computação seja realizada de modo invariante à escala. O gradiente de magnitude m(x,) é obtido com a Equação 4. m ) = x + (4) onde x = L(x + 1, ) L(x 1, ) e = L(x, + 1) L(x, 1). A orientação θ(x,) é calculada pela Equação 5. θ ) = arctan( / x) (5) Descrição dos pontos chave: calcula um descritor para cada região da imagem local, que é distinta e invariante a variações adicionais, tais como mudanças na iluminação ou ponto de vista 3D. B. SURF SURF (Speeded Up Robust Features Algorithm) [11] é um detector e descritor de pontos chave invariante a rotação e a escala, que é computacionalmente muito rápido. O detector de descritores SURF é baseado na matriz Hessiana. O determinante da matriz Hessiana é usado para determinar a localização e escala do descritor. Dado um ponto p = (x,) na imagem, a matriz Hessiana H(x,σ) em p na escala σ é definida como segue: Lxx σ ) Lx σ ) H σ ) = (6) Lx σ ) L σ ) onde L xx σ ) é a convolução da derivada de segunda ordem da Gaussiana g( σ ) com a imagem no ponto p, e x similarmente para L x σ ) e σ ). A matriz de determinantes Hessianos é escrita como: det H ) = D D (0.9D ) (7) L ( approx xx x Para localizar pontos de interesse sobre escalas, é aplicada uma supressão não máxima em uma vizinhança 3x3x3. O descritor SURF é extraído em duas etapas: a primeira etapa é a atribuição de uma orientação com base nas informações de uma região circular em torno dos pontos de interesse detectados. A orientação é computada usando respostas Haar-wavelet, nas direções x e, que são pesadas com uma Gaussiana (σ = 3.3s) centrada no ponto de interesse a fim de aumentar a robustez às deformações geométricas, e respostas Wavelet em direções d x horizontal e vertical d são adicionadas em cada sub-região. Os valores absolutos d x e d são somados a fim de obter informação sobre a polaridade das alterações da intensidade da imagem. Portanto, cada subregião tem um vetor v de descritor de quatro dimensões. ( d d, d d ) x V,, (8) = x sso resulta em um vetor de descritores para todas as subregiões 4x4 de tamanho 64. C. BREF Binar Robust ndependent Elementar Features (BREF) [1] é um eficiente descritor binário com base em testes de diferença de intensidade, que visa ser eficiente em memória e rápido para calcular e realizar a correspondência. Ao contrário do SFT ou SURF, não calcula uma orientação do ponto chave e, portanto, não é invariante às rotações de imagem. Com base em uma distribuição gaussiana com média µ = 0 e desvio padrão 1 σ = S, um conjunto de n pares de pontos é usado 5 para calcular o teste de intensidade τ em uma região p de tamanho SxS como: 1 if p(x) < p( ), τ (p; x, ) = (9) 0 caso contrário Para construir um descritor BREF, um conjunto de comparações pré-definidas de pixel é realizado. Este teste padrão é um conjunto de n d pares de coordenadas de pixels (x,) que devem ser comparados em cada região da imagem. Um descritor é então definido como uma sequência de bits n d -dimensional: f i 1 n ( p) = τ(p; x d i, i ) (10) 1 i nd D. ORB Baseado no descritor BREF, o descritor ORB [13] tenta cobrir a variância de rotação e escala do BREF. O ORB usa a abordagem FAST-9 como detector. Após a detecção dos descritores em uma pirâmide de escala, todos os pontos chave são classificados em uma linha com base no descritor de cantos de Harris e, somente os N pontos da parte superior são escolhidos. Uma métrica chamada centróide de intensidade C é calculada com m momentos na região: onde: m pq = x, m 10 m01 C =, (11) m00 m 00 p q x ( x, )

A orientação de um vetor a partir do centro da região para o centróide de intensidade é dada por: θ = arctan ( m 01, m 10) (1) Usando a orientação θ da região e a correspondente matriz de rotação R θ para rotacionar os descritores da região, então o descritor BREF é aplicado aos descritores rotacionados e registra a sequência binária como descritor ORB. O descritor ORB é muito rápido por causa da natureza binária, além disso, é invariante em relação à rotação e escala. E. FAST O detector de cantos FAST (Features from Accelerated Segment Test) [14] consiste em dois passos. No primeiro, um teste de segmentos é aplicado em cada canto candidato P. Dezesseis pixels em torno de P são considerados nesse teste de segmentos. Sendo que p denota o brilho de P e t um valor limiar configurável, se n pixels contíguos no círculo são todos mais brilhantes do que p + t, ou mais escuros do que p t, o candidato P é definido como um canto. A Fig. 1 ilustra doze pontos de teste de segmentos da detecção de cantos em uma região da imagem. Fig. 1. Doze pontos de teste de segmentos da detecção de cantos usando o FAST [14] (pixels pertencentes ao arco na imagem linha tracejada). É demonstrado que os melhores resultados são obtidos quando n = 9, daí o nome FAST-9 [14]. A ordem para o teste dos pixels vizinhos no círculo é obtida com o algoritmo D3. Como o teste de segmentos produz muitas respostas adjacentes ao redor do ponto de interesse, utiliza-se uma supressão não máxima com uma função de pontuação V, que é definida como: V = max p x p t, p p x t (13) x Sbright x S dark aplicada para remover cantos que têm um canto adjacente com V maior. Por causa de sua eficiência [15], o FAST se tornou um dos mais utilizados em aplicações em tempo real [16][17]. F. STAR O detector STAR é derivado do detector CenSurE (Center Surround Extrema) [18]. Assim como o SURF, o CenSurE é baseado em filtros invariantes à rotação. A resposta do filtro é calculada para sete escalas e cada pixel da imagem. Em contraste com SFT e SURF o tamanho da amostra é constante em cada escala e conduz a uma resolução espacial completa em todas as escalas. Etapas de pós-processamento são feitas usando a supressão não máxima e supressão de linhas. Descritores que se encontram ao longo de uma borda ou linha são detectados devido à matriz Gradiente. G. MSER O detector MSER (Maximall-Stable Extremal Region Extractor) [19] foi projetado para detectar subconjuntos invariantes afins de máximos estáveis de regiões extremas. MSER são detectados por binarização consecutiva em uma imagem, usando um limiar, que é aplicado considerando o valor mínimo e máximo de intensidade na imagem. Em cada passo um conjunto de regiões Φ é calculado por análise de componentes conectados. A resposta do filtro para cada região i é definida como: qi = Φi+ /Φi / Φi (14) onde denota a cardinalidade e i± a região no nésimo limiar inferior ou superior. Os MSER são identificados pelo mínimo local de q. H. GFTT O método GFTT (Good Features To Track Detector) [0] foi projetado para detectar padrões de cantos. A matriz de gradiente G é computada para cada pixel como: Ω x x G = (15) x com o valor de intensidade (x, ) de uma imagem em tons de cinza e derivadas espaciais x, para uma região especificada Ω. A matriz de gradiente é implementada por meio de imagens integrais para, x e x. Devido ao uso de imagens integrais, a complexidade computacional da matriz de gradiente é constante e independe do tamanho de Ω. Um bom descritor pode ser identificado pelo máximo de λ(x, ), o menor autovalor de G. Certamente cantos fortes aparecem nas bordas do objeto, onde múltiplos movimentos são muito prováveis. Em seguida, é aplicada uma supressão não máxima seguida de uma limiarização com q.max(λ(x, )), sendo q a qualidade constante dos cantos.. RANSAC O algoritmo RANSAC (RANdom SAmple Consensus) [1] é um método de estimação robusto projetado para extração dos inliers 1 e outliers do conjunto de pontos chave. Tem sido muito usado para o reconhecimento de objetos [][3], pois permite encontrar correspondências geometricamente consistentes para resolver o problema de junção de pares de imagens, mesmo em condições extremas, ou com algum tipo de outlier. 1 inliers: pontos de dados que se ajustam com um determinado modelo desejado dentro de uma certa tolerância de erro; outliers: pontos de dados que não se ajustam ao modelo correspondente ao objeto desejado, estão fora de uma certa tolerância de erro.

Ao contrário das técnicas convencionais que usam grande quantidade de dados para obter uma solução inicial, e em seguida eliminar os outliers, o RANSAC usa um conjunto com um número mínimo de pontos para uma primeira estimativa e continua o processo, aumentando o conjunto de pontos de dados consistentes [1].. EXPERMENTOS Os experimentos apresentados nesta seção consistem na degradação de uma imagem (mudança de iluminação, mudança de escala, rotação, adição de ruído e borramento) e, em seguida, comparar o desempenho das diferentes combinações dos principais detectores e descritores implementados no OpenCV. As combinações avaliadas são todas aquelas possíveis, usando os detectores: SFT, SURF, FAST, STAR, MSER, GFTT (com Harris), GFTT (CornerMinEigenVal Autovalores) e ORB; e os descritores: SFT, SURF, BREF e ORB. Apenas as combinações SFT-ORB e ORB-SFT não foram avaliadas. A máquina usada nos experimentos possui um processador ntel Core i3 M330.13 GHz e memória de 4 GB de RAM. Os parâmetros observados no experimento são: TT Tempo de Processamento tempo necessário para processar as duas imagens (Detecção, Descrição, Correspondência e RANSAC em milissegundos); Nn Número de inliers, ou seja, pontos chave com correspondência validadas pelo RANSAC; DM Distância Euclidiana media entre os pontos nliers, obtida após aplicar as transformações necessárias para a correspondência entre imagem original e transformada; QDMH Quantidade de determinações da matriz homográfica, ou seja, cada vez que os pontos chave detectados permitem calcular adequadamente a matriz de transformação entre a imagem original e a imagem transformada. A Fig. apresenta o resultado do detector/descritor SFT SFT na imagem da Lena, após passar por um processo de degradação composto por: borramento (Gaussiana), mudança de escala (50%), rotação (30º), iluminação (escurecimento) e ruído Gaussiano (10%). Observa-se neste caso que foram obtidos 8 inliers, que foram suficientes para a obtenção da matriz homográfica de transformação, pois a imagem original transformada pela matriz homográfica (retângulo verde em ) apresenta um bom encaixe sobre a imagem cena em. Em (c), os círculos pretos indicam as posições dos inliers da imagem degradada, enquanto que os círculos brancos indicam as posições dos inliers da imagem original, após a transformação usando a matriz homográfica. Neste caso, nota-se um bom encaixe entre eles, com uma distância média entre os pontos inliers DM = 0,7443 e um tempo de processamento TT = 1.559 ms. Fig.. nliers btidos com detector/descritor SFT SFT; a) magem original (objeto); b) magem transformada (cena); c) magem original transformada pela matriz homográfica, destacando as distância entre os pontos original e trasnformado. A Fig. 3 apresenta o resultado do detector/descritor ORB ORB na imagem da Lena, após passar pela mesma degradação anterior. Fig. 3. nliers obtidos com detector/descritor ORB ORB; a) magem original (objeto); b) magem transformada (cena); c) magem original transformada pela matriz homográfica, destacando as distância entre os pontos original e transformado. (c) (c)

Neste caso foram obtidos 117 inliers, que propiciaram um resultado totalmente satisfatório para a obtenção da matriz homográfica de transformação, pois a imagem original transformada pela matriz homográfica (retângulo verde em ) apresenta um bom encaixe sobre a imagem cena em. Em (c), os círculos pretos indicam as posições dos inliers da imagem degradada, enquanto que os círculos brancos indicam as posições dos inliers da imagem original, após a transformação usando a matriz homográfica. Novamente, notase um bom encaixe entre eles, com uma distância média entre os pontos inliers DM = 1,93 pixels e tempo de processamento TT = 546 ms. A Fig. 4 apresenta o resultado do detector/descritor SURF SURF na imagem da Lena, após passar pela mesma degradação anterior. tempo de processamento também foi obtida com a combinação ORB ORB (TT=81 ms). Para a imagem que sofreu apenas uma rotação, esta combinação também foi a que apresentou o menor tempo de processamento (TT=359 ms). O menor tempo de processamento obtido com a imagem acrescida de ruído foi obtido com a combinação STAR ORB (TT=17 ms). Os valores em azul indicam que as matrizes homográficas foram obtidas com sucesso nestas duas combinações, significando que as imagens objeto e cena apresentaram correspondência satisfatória. Para a imagem que passou por todas as degradações (borramento, escala, iluminação, rotação e ruído) a combinação que obteve o menor tempo de processamento foi obtido pela combinação STAR ORB (TT=516 ms), porém, não foi capaz de gerar a matriz homográfica adequada para fazer a correspondência das imagens. A combinação que apresentou o menor tempo de processamento e obteve a matriz satisfatória foi ORB ORB (TT=546 ms). TABELA. TEMPOS DE PROCESSAMENTO Fig. 4. nliers obtidos com detector/descritor SURF SURF; a) magem original (objeto); b) magem transformada (cena); c) magem original transformada pela matriz homográfica, destacando as distância entre os pontos original e trasnformado. Neste caso foram obtidos 33 inliers, que não foram suficientes para a obtenção da matriz homográfica de transformação. Portanto, não ocorrendo um encaixe entre eles, embora o tempo de processamento TT=1.388 ms seja razoável. Os tempos de processamento com todas as combinações são apresentados na Tabela. Nota-se que o menor tempo de processamento obtido com a imagem apenas borrada foi alcançado pelas combinações ORB BREF e ORB ORB (detecção usando ORB e descrição usando BREF e ORB) (TT=37 ms). Para a imagem que sofreu apenas a mudança de escala, o menor tempo de processamento foi obtido com a combinação ORB ORB (TT=358 ms). Para a imagem que passou por uma alteração apenas na sua iluminação, a combinação que obteve o menor (c) Borramento Escala luminação Rotação Ruído Todos QDMH SFT SFT 1653 134 1560 043 1778 1559 6 SFT SURF 101 889 86 1435 101 983 4 SFT BREF 780 87 749 134 87 874 3 SURF SFT 9859 8689 9641 147 16989 8597 4 SURF SURF 1498 164 1357 309 1966 1388 4 SURF BREF 70 874 671 1170 890 87 3 SURF ORB 733 796 607 95 687 811 4 FAST SFT 9000 995 1090 16458 5799 14540 5 FAST SURF 1653 637 433 4478 1591 5055 1 FAST BREF 1544 075 1591 3089 9016 360 3 FAST ORB 1498 1638 134 683 65 35 STAR SFT 65 1981 31 356 84 1794 3 STAR SURF 56 515 578 640 38 530 1 STAR BREF 546 530 546 608 187 530 3 STAR ORB 515 483 531 593 17 516 3 MSER SFT 9563 7535 9111 1933 1344 7753 4 MSER SURF 1373 1015 116 1700 1654 10 4 MSER BREF 11 1061 936 1357 117 114 3 MSER ORB 1187 1046 95 1061 1170 1140 4 GFTT H SFT 4591 9063 44664 6508 44834 331 4 GFTT H SURF 44476 8533 43976 6438 4453 3807 1 GFTT H BREF 4411 8469 44149 64491 4430 379 3 GFTT H ORB 44101 8440 43945 647 44070 3636 GFTT SFT 45364 9936 45178 6499 4587 3488 4 GFTT SURF 45006 966 44631 64568 4498 33571 1 GFTT BREF 44538 904 44461 63555 4463 33587 4 GFTT ORB 44336 8986 44007 63414 44195 331 3 ORB SURF 168 1871 185 590 16 418 4 ORB BREF 37 701 311 734 343 641 4 ORB ORB 37 358 81 359 37 546 6 As quantidades de inliers obtidas com todas as combinações são apresentadas na Tabela. A maior quantidade de inliers, obtida com a imagem apenas borrada foi alcançada com a combinação GFTT SFT (Nn=465). Entretanto, o tempo de processamento desta combinação foi muito alto (TT=45.364 ms). As melhores razões Nn/TT foram obtidas com as combinações ORB BREF (0,7859) e ORB ORB (0,64). Para a imagem que sofreu apenas a mudança de escala, o maior número de inliers foi obtido com a combinação FAST SFT (Nn=40). O tempo de processamento desta combinação foi razoavelmente alto (TT=9.95 ms). A melhor razão Nn/TT foi obtida com a combinação SURF SURF (0,1511). Para a imagem que passou por uma alteração apenas na sua iluminação, a combinação que obteve o maior número de inliers foi FAST SFT (Nn=.68).

O tempo de processamento desta combinação também foi razoavelmente alto (TT=1.090 ms). As melhores razões Nn/TT foram obtidas com as combinações ORB BREF (1,4180), ORB ORB (1,3737) e FAST ORB (1,3458). Para a imagem que sofreu apenas uma rotação, a combinação que obteve o maior número de inliers foi ORB ORB (Nn=3), além disso, esta foi a combinação que obteve o menor tempo de processamento (TT=359 ms). O maior número de inliers, obtido com a imagem que teve apenas o acréscimo de ruído, foi alcançado com a combinação FAST SFT (Nn=.498). Entretanto, o tempo de processamento desta combinação foi extremamente alto (o maior de todos). As melhores razões Nn/TT foram obtidas com as combinações ORB BREF (1,041) e ORB ORB (1,1040). Para a imagem que passou por todas as degradações a combinação que obteve o maior número de inliers foi ORB ORB (Nn=117), que é a combinação que obteve o tempo de processamento mais baixo e, que ainda conseguiu obter a matriz homográfica. TABELA. QUANTDADE DE NLERS Borramento Escala luminação Rotação Ruído Todos QDMH SFT SFT 137 76 160 11 167 8 6 SFT SURF 86 71 14 13 31 0 4 SFT BREF 131 153 1 150 4 3 SURF SFT 73 185 67 54 419 101 4 SURF SURF 66 191 69 13 33 33 4 SURF BREF 65 19 74 14 45 5 3 SURF ORB 15 50 174 91 0 4 FAST SFT 34 40 68 69 498 71 5 FAST SURF 75 9 1707 15 4 33 1 FAST BREF 131 54 1909 6 188 45 3 FAST ORB 53 35 1806 18 159 18 STAR SFT 1 19 9 11 135 45 3 STAR SURF 15 15 14 10 54 4 1 STAR BREF 31 15 8 8 135 3 3 STAR ORB 0 0 9 8 15 1 3 MSER SFT 50 71 79 6 93 60 4 MSER SURF 50 67 73 14 90 5 4 MSER BREF 4 16 61 11 58 7 3 MSER ORB 3 14 61 65 64 4 4 GFTT H SFT 19 105 38 16 433 67 4 GFTT H SURF 18 17 37 15 11 51 1 GFTT H BREF 179 3 306 383 60 3 GFTT H ORB 174 3 95 18 354 63 GFTT SFT 465 66 877 19 465 18 4 GFTT SURF 14 15 694 13 1 18 1 GFTT BREF 399 18 81 19 478 5 4 GFTT ORB 66 19 788 17 35 3 ORB SURF 64 35 414 38 363 61 4 ORB BREF 57 61 441 3 413 5 4 ORB ORB 10 154 386 3 361 117 6 CONCLUSÕES Os resultados obtidos neste estudo podem ser de grande importância para a escolha destas técnicas em aplicações que demandam maior precisão ou menor tempo de processamento, ou ainda no tratamento de imagens que sofreram algum tipo de degradação. Neste artigo foi estabelecida a razão Nn/TT como um parâmetro razoável para medir a qualidade de uma solução, entretanto, em trabalhos futuros deverão ser investigadas outras alternativas para esta medida de qualidade. Também deverão ser investigadas as aplicações destas combinações de detectores e descritores em imagens de diferentes naturezas, como: paisagens, desenhos, mapas, entre outros. Entre as combinações avaliadas, apenas SFT SFT e ORB ORB foram capazes de obter os pontos chave que permitiram calcular adequadamente a matriz de transformação entre a imagem original e as seis imagens degradadas. REFERÊNCAS [1] D.G. Lowe, Distinctive image features from scale-invariant kepoints, ntern. Journal of Computer Vision, Vol. 60, No., pp. 91 110, 004. [] A. Collet, D. Berenson, S. S. Srinivasa and D. Ferguson, Object recognition and full pose registration from a single image for robotic manipulation, n: EEE nternational Conference on Robotics and Automation, CRA'09, pp. 48 55, 009. [3] T. Okabe and Y. Sato, Object recognition based on photometric alignment using RANSAC, n Proceedings of Computer Societ Conf. on Computer Vision and Pattern Recognition. pp.1-8, 003. [4] K, Grauman and B. Leibe, Visual object recognition: snthesis lectures on artificial intelligence and machine learning, Morgan & Clapool Publishers, 011, 163 p. [5] M. Brown and D. G. Lowe, Automatic panoramic image stitching using invariant features, nternational Journal of Computer Vision, Vol. 74, Nol. 1, pp. 59 73, 007. [6] S. Se, D. Lowe, and J. Little, Mobile robot localization and mapping with uncertaint using scale-invariant visual landmarks, nternational Journal of Robotic Research, 1:735 758, August 00. [7] G.R. Bradsk, V. Pisarevsk and J. Bouguet, Learning OpenCV: computer vision with the OpenCV librar, Springer, 008. [8] C. Bulla, Local features for object recognition, in nternational Student Conference on Electrical Engineering POSTER '1, (Prague, Czech Republic), Ma 01. [9] T. Lindeberg, Scale-space theor: A basic tool for analzing structures at different scales, Journal of Applied Statistics, 1:4 70, 1994. [10] D.G. Lowe, Object recognition from local scale-invariant features. n: ntern. Conf. on Computer Vision, Corfu, Greece, pp. 1150 1157, 1999. [11] H. Ba, T. Tutelaars, and L.V. Gool, SURF: speeded up robust features, n: 9th European Conf. Computer Vision, pp. 404 417, 006. [1] M. Calonder, V. Lepetit, C. Strecha, and P. Fua, Brief: binar robust independent elementar features. n Proceedings of the 11th European conference on Computer vision: Part V, ECCV 10, pp. 778 79, Berlin, Heidelberg, 010. Springer-Verlag. [13] E. Rublee, V. Rabaud, K. Konolige, and G. R. Bradski, ORB: an efficient alternative to SFT or SURF, n D. N. Metaxas, L. Quan, A. Sanfeliu, L. J. V. Gool, editors, CCV, pp. 564 571. EEE, 011. [14] E. Rosten and T. Drummond, Machine learning for high-speed corner detection, n n European Conference on Computer Vision, volume 1, pp. 430 443. 006. [15] E. Rosten, R. Porter, T. Drummond, Faster and better: a machine learning approach to corner detection, Pattern Analsis and Machine ntelligence, EEE Transactions on, Vol. 3, No. 1, pp. 105 119, 008. [16] G. Klein and D. Murra, Parallel tracking and mapping for small AR Workspaces, n Proc. Sixth EEE and ACM nternational Smposium on Mixed and Augmented Realit (SMAR 07). Nara, Japan, 007. [17] S. Talor, E. Rosten and T. Drummond, Robust feature matching in.3ms, n EEE CVPR Workshop on Feature Detectors and Descriptors: The State Of The Art and Beond. 009. URL http://mi.eng.cam.ac.uk/~sjt59/papers/talor_009_robust.pdf. [18] Agrawal, M., Konolige, K., and Blas, M, Censure: center surround extremas for realtime feature detection and matching, n European Conf. on Computer Vision (ECCV 008), pp. 10 115, 008. [19] Matas, J., Chum, O., Urban, M., and Pajdla, T, Robust wide baseline stereo from maximall stable extremal regions, n British Machine Vision Conference (BMVC 00), pp. 384 393, 00. [0] Shi, J. and Tomasi, C, Good features to track, n Computer Vision and Pattern Recognition (CVPR 1994), pp. 593 600, 1994 [1] M. A. Fischler and R. C. Bolles, Random sample consensus: a paradigm for model fitting with applications to image analsis and automated cartograph, Communications of the ACM, Vol 4, pp. 381 395, 1981.