Análise de Técnicas de Visualização e Sistemas aplicados a Coleções de Imagens

Análise de Técnicas de Visualização e Sistemas aplicados a Coleções de Imagens Laura Florian Cruz Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo, São Carlos/SP, Brasil Resumo Técnicas de visualização de imagens são frequentemente utilizadas para possibilitar ao usuário a análise e exploração entre as imagens. Em uma representação visual, as técnicas de visualização permitem aos usuários buscar informações de maneira mais eficiente. Uma das alternativas para esta forma de representação é a utilização de projeções e outra mencionada neste trabalho é o uso de estruturas em árvore, onde uma hierarquia é imposta aos dados, baseada no mesmo critério da projeção. Em primeiro lugar, a análise de imagens e aplicações de processamento de imagens é usada para calcular os vetores de características nestas. Estos conjuntos de dados são projetados são os posicionados, como pontos, num plano onde proximidade entre eles sugere similaridade. Uma dificuldade comum é o grande número de características que definem um espaço de alta dimensão que afeta fortemente o desempenho na análise visual. Lidar com esse problema normalmente exige redução de dimensão. Existem ferramentas desenvolvidas para a visualização aplicadas a coleções de imagens, como as técnicas baseadas em projeção: MDS, PCA, FastMap, Isomap, LSP e Neighboor Joining. Até agora existem muitos sistemas para a exploração, onde o objetivo principal é fornecer ao usuário uma maneira boa de explorar a visualização. Assim, a área de visualização de informação centra-se no estudo como exibir essas coleções de informações, como das imagens, ao usuário em uma representação visual e permitem que os usuários procurem informações de maneira mais eficiente. Por exemplo, Moghaddam et al. [1] mostram que é possível utilizar técnicas de visualização de informação, para proporcionar maneiras de revelar informações escondidas (relações complexas) em uma representação visual e permitem que os usuários procurem informações de maneira mais eficiente, e graças à capacidade visual humano para o aprendizagem e identificação de padrões, a visualização é uma boa alternativa para lidar com este tipo de problemas. No entanto, a visualização em si é um problema difícil, um dos principais desafios é como encontrar de baixa dimensionalidade, representações simples que representam fielmente o conjunto de dados completo e as relações entre os objetos de dados I. INTRODUÇÃO Pesquisas atuais mostram como técnicas de visualização e mineração de dados podem ajudar na exploração dessas bases de dados, que busca informações potencialmente úteis. Os tópicos que são desenvolvidos neste trabalho são: os métodos de projeção e exploração. A projeção estudada a partir da maneira sobre como reduzir as altas dimensionalidades das imagens originais em espaços de baixa dimensão preservando sua estrutura original, mostrando as técnicas de visualização aplicadas em coleções de imagens. E a

exploração que se concentra em como fornecer ao usuário uma maneira de explorar a visualização, citando os sistemas desenvolvidos em visualização de imagens. II. VISUALIZAÇÃO DE IMAGENS Atualmente, técnicas de visualização de imagens fornecem uma boa alternativa de geração de representações compactas duma coleção de imagens digitais que têm informações relevantes. Figura 1. Etapas de processamento para visualizar a coleção de imagens. A estrutura do sistema proposto para a visualização de grandes coleções de imagens é mostrada na Figura 1. Primeiro, um processo de extração de características é realizado em conjunto de dados e algumas características de baixo nível são extraídas. Assim, cada imagem na coleção corresponde a um ponto em um espaço de alta dimensão. Em segundo lugar, para cada característica, uma métrica é selecionada, a fim de comparar as imagens com base nessa característica, essa comparação fornece um número real que define como as imagens são semelhantes (função de similaridade). Em terceiro lugar, uma matriz de similaridade entre todas as imagens é construída e é transformada em uma matriz de distância. Finalmente, um algoritmo de projeção considera só as k dimensões baseada na matriz de distância obtida anteriormente. Neste caso, k é definido como 2eas duas dimensões são usadas como coordenadas (x, y) para a visualização de cada imagem num espaço 2D [2]. A. Representação das imagens A principal característica do processo de extração é identificar e extrair informações relevantes a partir da imagem que permite a discriminação de classes diferentes da imagem, onde cada imagem I da coleção é representada por um vetor de características f(i); por exemplo, histograma do cor ou textura. As imagens são tipicamente caracterizadas por atributos intrínsecos de imagens, tais como cor, textura e forma como é mencionado por diversos autores [3], [4], [5], etc.. As características de baixo nível, tais como a cor e a textura são freqüentemente utilizadas para representar o conteúdo visual das imagens, sendo os correlogramas de cor, momentos de cor e histogramas de cor as características mais usadas [6]. Outros descrevem cada imagem pela mediana de sua cor como faz [7], [8]. Por outro lado, in Visual Image Browsing and Exploration (Vibe) feito por Grant et al. [9] usa a correlação de cores gradiente das imagens. Assim, como as waveletes Gabor são um exemplo de textura, mas existem muitos métodos de análise de textura disponíveis, e estas podem ser aplicadas tanto para realizar a segmentação da imagem, ou extrair as propriedades de textura das regiões segmentadas ou de toda a imagem. As características de textura fornecem mais informações espaciais ou relacionais do que as características de cor a fim de saber mais sobre o conteúdo de uma imagem, portanto uma imagem pode ser representada através da combinação de características de cor e textura como é explorado em [4].

Simplesmente, a recuperação de imagens baseada em conteúdo (CBIR) é automaticamente a tarefa de encontrar imagens que se assemelham à imagem de consulta do usuário a partir de grandes conjuntos de dados usando as características visuais inerentes à própria imagem[8]. No domínio dos sistemas CBIR, tem-se as seguintes fases[11]: Figura 2. Técnica de segmentação automática. Figura 3. Ferramenta de rotulagem. A Figura 2 citada por Yang et al. [5] usa uma imagem segmentada de baixo nível para obter as regiões homogêneas da imagem sobre a cor ou textura, usando uma técnica de segmentação automática da imagem. Por outro lado, Fan et al. [10] usa uma ferramenta onde uma imagem é rotulada pela supervisão do usuário como uma forma de representar o conceito da imagem, além é utilizado para o reconhecimento e detecção de objetos, os principais objetos na imagem são extraídos automaticamente, mostrados na Figura 3. B. Recuperação de Imagens por conteúdo Um número de sistemas de recuperação de imagens foi desenvolvido ao longo dos últimos anos, como importante forma de entender o que implica a recuperação de imagens relevantes. 1) Encontrar técnicas adequadas para codificar o conteúdo duma imagem. A maioria dos atuais sistemas CBIR para fins gerais usam características primitivas, ou seja, cor, textura e forma. 2) Depois de selecionar uma imagem de consulta pelo usuário, o sistema calcula o vetor de características correspondentes e compará-lo com todos os vetores de características relacionadas com as imagens no banco de dados. 3) Imagens com a distância mínima, com a imagem de consulta serão apresentados em ordem decrescente. Portanto, os sistemas de CBIR (Content Based Image Retrieval) conseguem determinar relações de similaridade entre imagens em uma determinada coleção. Porém, se os usuários destes sistemas possuem acesso a uma interface visual na qual as relações de similaridade podem ser facilmente visualizadas como distâncias em um plano ou espaço tridimensional, então eles podem se beneficiar com estes sistemas. C. Mineração Visual de Imagens Uma parte importante na visualização de imagens é que depois de fazer a projeção, este é analisado, a fim de revelar informações úteis para os usuários, como a extração de conhecimento implícito, o relacionamento de dados, ou outros padrões que não explicitamente está armazenados nas imagens[12]. Infelizmente, é difícil ou mesmo impossível para o ser

Figura 4. A proyeção conseguiu separar bem os quatro grupos, empregando PCA. humano descobrir o conhecimento subjacente e padrões na imagem ao trabalhar com uma grande coleção de imagens. Uma atividade importante relacionada ao processo de mineração de conjuntos de imagens é a classificação ou categorização. Esse processo consiste em separar as imagens de uma coleção, colocando-as em grupos previamente definidos, representando assim uma maneira de extrair informação em imagens para reconhecer padrões e objetos homogêneos. Diversas técnicas de agrupamento podem ser encontradas, tais como K-médias, Mapas auto-organizáveis (Self- Organizing Maps)[9], modelos de Markov e algoritmos de agrupamento hierárquico, dentre outras. Um exemplo é mostrado, na Figura 4. Figura 5. Árvore de similaridade. Uma alternativa ao mapeamento de dados baseado em projeções é a imposição de uma hierarquia sobre algum relacionamento significativo sobre os dados, como, por exemplo, a similaridade calculada sobre as coordenadas da representação vetorial. A hierarquia extraída deste processo é refletida na forma de uma árvore (daí o termo árvore de similaridades ), que é visualizada através de algoritmos apropriados de apresentação de árvores. III. TÉCNICAS DE VISUALIZAÇÃO APLICADAS A COLEÇÕES DE IMAGEM Para gerar uma visualização multidimensional através de projeções, em geral os dados são convertidos num espaço vetorial, onde cada item de dados (indivíduo) é descrito por um conjunto de atributos ou características, que define suas coordenadas neste espaço. Sobre esses dados é possível extrair relacionamentos, como, por exemplo, relacionamentos de similaridade entre os indivíduos. Projeções realizam alguma forma de processamento que mapeia os dados em 2D ou 3D (espaços visuais) de forma que a proximidade dos itens de dados nesses espaços indica alta correção de conteúdo. A classe de técnicas englobando as duas estratégias (projeções e árvores de similaridade), as quais representam cada indivíduo como um símbolo no plano, identificando suas relações (principalmente de similaridade) por proximidade ou por algum outro artifício visual (como os ramos da árvore, por exemplo), chamado aqui coletivamente de visualização por mapeamento de pontos no plano. A Figura 5, apresenta visualizações baseadas em árvores de similaridade na figura 6 de uma coleção de imagens médicas.

Figura 6. Projeção. A. Visualização baseada em Projeção Existem diferentes métodos para reduzir a dimensionalidade de um conjunto de dados. Geralmente, estes métodos selecionam as dimensões que melhor preservem a informação original. Métodos como Escalonamento Multidimensional (MDS) [13], Análise de Componentes Principais (PCA) [14], Sammon Mapping [15], Fastmap [16], Feature Isometric Mapping (Isomap)[17] e Projeção de mínimos quadrados (LSP) [18], têm sido úteis para esta tarefa de projeção. MDS é uma técnica que se concentra em encontrar o subespaço que melhor preserva as distâncias entre os pontos e usa álgebra linear para solucionar o problema. O processo envolve o cálculo de autovalores e autovetores de uma matriz produto escalar e uma matriz de proximidade. A entrada é uma matriz de distância de imagens em um espaço de alta dimensão, e o resultado é um conjunto de coordenadas que representam as imagens em um espaço de baixa dimensionalidade[19], [5]. A complexidade obtida éde O(n 2 ). Uma melhoria nessa abordagem foi proposta por [20] que conseguiram reduzir a complexidade total do algoritmo para O(n 5 4 ). PCA éummétodo Eigenvector também foi concebido para modelar variabilidades lineares em dados de alta dimensão. Ométodo calcula as projeções lineares de maior variação de os autovetores da matriz de covariância. Em MDS, a incorporação de baixa dimensionalidade é calculada de tal forma que melhor preserva as distâncias entre pares de objetos. Se estas distâncias correspondem a distâncias euclidianas, os resultados do MDS métricas são equivalentes a PCA[21]. A principal desvantagem é a determinação do número correto de dimensões. Se o número é pequeno tende-se a perder características importantes dos dados. Se onúmero é grande, se capturam características importantes, mas a representação visual é difícil. Outra desvantagem é o custo computacional, O(m 2 n) (m número de dimensões), que é inaceitável quando o número de elementos dos conjuntos de dados é muito grande, por exemplo, a partir de mil vetores. Por exemplo, o Personal Digital Historian project [1] usa PCA a fim de visualizar imagens, do mesmo modo, [8]. Além disso, em [22], usam o kernel principal component analysis (KPCA), onde as imagens são representados com base em suas projeções sobre os dois componentes principais. Atécnica Sammon Mapping [15] procura preservar os dados de um espaço multidimensional num espaço de dimensão inferior, aplicando uma função de otimização para minimizar a quantidade de informação perdida durante o processo do cálculo das similaridades entre itens dos dados. Essa função é otimizada aplicando procedimentos não-lineares de busca local em direção do gradiente da função. O custo computacional da técnica, O(n 2 ), representa uma desvantagem em relação as técnica de projeção mais rápidas que são descritas mais adiante. ISOMAP usa um grafo baseado no calculo da distância, a fim de medir a distância ao longo das estruturas locais. A técnica cria o grafo de vizinhança usando k-vizinhos mais próximos, logo, usa o algoritmo de Dijkstra para encontrar os caminhos mais curtos entre cada par de pontos

no grafo, assim a distância para cada par é atribuído o comprimento deste caminho mais curto e, finalmente, quando as distâncias são aferidas, o MDS é aplicado à distância nova matriz[23][24]. Sua complexidade é também de O(n 2 ). A técnica Fastmap [16] projeta pontos de um espaço n dimensional em um espaço m-dimensional (n > m), visando preservar as relações de distância no espaço original. Em primeiro lugar, no Fastmap são selecionados dois pontos que estejam o mais distante possível, denominados pivôs, que definem uma reta no espaço n-dimensional e um hiperplano perpendicular à dita reta, num espaço (n 1) dimensional. Posteriormente, os pontos restantes são projetados nesse hiperplano. Esse processo continua até que se atinja o número de dimensões desejadas. O custo computacional da Fastmap é O(n), mas é pouco efetivo quando se trata de revelar estruturas não-lineares. Finalmente, a técnica projeção de mínimos quadrados foi desenvolvida por Paulovich et al. [18], com o objetivo de criar uma superfície onde os dados estejam agrupados por relações de proximidade para que o usuário possa inferir as relações existentes no conjunto de dados. A LSP foi baseada no estudo feito por [25] o qual aplica mínimos quadrados na recuperação e edição de malhas (least-square meshes). A reconstrução geométrica da malha é feita a partir do cálculo da distância entre um grupo de pontos representativos, denominados pontos-de-controle, onde são aplicados cálculos de distância para preservar as relações de vizinhança entre todos os pontos. A técnica LSP realiza dois processos principais: no primeiro, são escolhidos um sub-conjunto de pontos (pontosde-controle), resultantes de aplicar a técnica de agrupamento k-medoids. Em seguida, esses pontos são projetados fazendo uso de qualquer técnica de projeção convencional. No segundo passo, se constrói um sistema linear baseado nas relações de vizinhança dos pontos em seu espaço original R n e nas coordenas cartesianas dos pontos-de-controle no espaço reduzido R m. A complexidade computacional é determinada pelo número de agrupamentos. Para n agrupamentos será O(n n) [18]. A LSP possui a melhor precisão com relação às demais no que se refere à reconstrução de vizinhanças do espaço origial. B. Visualização baseada em Grafos Ométodo neighbor joining constrói uma árvore sem raiz a partir de uma matriz de distâncias evolutivas, adaptando o critério de evolução mínima 5.Aidéia central da técnica é identificar pares de objetos mais próximos. Esses pares de objetos, conhecidos comumente como vizinhos, são conectados por um nó interno em uma árvore bifurcada. A técnica NJ começa com uma árvore estrela, em seguida, escolhe-se o primeiro par de objetos para serem unidos, aplicando o critério da evolução mínima. Entre esses possíveis pares de objetos escolhemos aqueles que tenham o menor valor no cálculo da soma das distâncias entre os ramos. Uma vez escolhido o par de objetos vizinhos a serem agrupados em um novo nó. O algoritmo tem uma complexidade computacional do NJ é O(n 3 ). O método NJ é amplamente usado na construção de filogenias. Existem vários trabalhos de pesquisa que usaram o algoritmo NJ para ser comparado, segundo vários critérios, com outros métodos de reconstrução de árvores filogenéticas. Os resultados mostraram que o NJ recupera árvores apropriadas e sua velocidade foi melhor que todos os outros métodos avaliados. 5 O critério de evolução mínima tenta minimizar a soma dos tamanhos de todos os nós da árvore.

Em [26], foi apresentado um algoritmo que melhora a velocidade do método NJ com o objetivo de ser aplicado a grandes conjuntos de dados. O algoritmo constrói a mesma árvore filogenética que o NJ, mas tenta diminuir o tempo de busca para encontrar o par de vizinhos que formarão um novo nó usando a estrutura Quad-tree. O algoritmo somente consegue melhorar o tempo de execução para o melhor caso ((O(n 2 )), deixando o pior caso O(n 3 ). Outro trabalho destinado a melhorar a velocidade do NJ foi realizado por [27], aqui o tempo de processamento é O(n 2 logn) conseguindo gerar árvores da mesma qualidade das geradas pelo algoritmo NJ e sem usar algum espaço adicional para realizar os cálculos. A maior vantagem do método neighbor joining com respeito a outros métodos é que ele constrói árvores com maior eficiência. Além disso, o método é considerado muito rápido em relação a outros métodos usados na construção de árvores filogenéticas, tal como é mostrado por Saitou e Nei (1987). No contexto de visualização de informação, a NJ foi testada em termos de precisão, e comparada positivamente em relação a projeções multidimensionais, que trabalham com conceitos de redução de dimensionalidade e similaridade por proximidade no plano de projeção. A principal idéia das técnicas de redução de dimensionalidade é posicionar um conjunto de dados num espaço de baixa dimensionalidade preservando o máximo possível as relações de similaridade existentes entre eles. Dessa forma dados multidimensionais representados em espaços de baixa dimensionalidade podem fazer uso da visualização e classificação de forma mais eficiente, revelando algumas características interessantes, como agrupamentos, tendências e anomalias. Em contrapartida, o NJ identifica os objetos vizinhos que seqüencialmente minimizam o tamanho da árvore e é definido por três componentes: 1) O critério usado para selecionar pares de objetos, 2) a fórmula usada para reduzir a matriz de distâncias a cada passo 3) a fórmula para obter o comprimento dos ramos. O NJ, além de construir a topologia para uma árvore sem raiz, também fornece o valor do comprimento dos ramos da árvore resultante. A interpretação depende dos ramos mas, permite que se analise os dados em forma de grupos identificados pelos ramos externos da árvore. Ela ocupa melhor o espaço que uma projeção, pois é possível expandir o desenho da árvore de forma a reduzir significativamente, ou eliminar, sobreposições. No entanto, a árvore NJ gera um grande número de nós intermediários (ou virtuais) o que, para conjuntos grande de dados, toma um espaço visualmente que pode interferir no número de itens do dado que podem ser apresentados de uma só vez. Isso contrasta com a capacidade das árvores de similaridade de permitirem análises globais e locais usando o mesmo tipo de layout, ou seja, a análise global pode ficar prejudicada em configurações específicas da árvore. C. Outros C. Chen et al. [3] apresentam sua aplicação GSA, a qual trabalha com redes Pathfinder para visualizar a forte interrelação de proximidade em dados de imagens, baseadas em três características distintas para extração como cor, layout e informação de textura. Uma rede Pathfinder consta de todas as conexões mais fortes entre os vértices, enquanto a que a condição de desigualdade triangular não será violada. Os nós nas redes são conectados a refletir proximidade e similaridade entre pares de imagem, preservando apenas as conexões mais importantes. Tal como mostra a Figura 7, as imagens são ligadas

Figura 7. Red Pathfinder de InfoViz banco de imagens por modelos do histograma de cores. Figura 8. Visualização bidimensional HELD das 1000 imagens. através de ligações deste tipo. Pode-se simplesmente estimar a similaridade calculada entre duas imagens, estimando o número mínimo de ligações. Wang et al.[28] propõe um método, High-Entropy Layout Distributions (HELD). O método descrito neste artigo resolve as deficiências enquanto a dados ocluídos o regiões vazias ou apenas escassamente povoadas. Este aproxima as distribuições dos dados através da otimização com uma medida de entropia de layout. HELD visualização usa uma região de layout circular é mostrada na Figura 8. Assim, Fan et al. [10] apresentam um sistema com visualização hiperbólica. Neste trabalho, uma estrutura de Figura 9. Visualização hiperbólica conceito de ontologia. classificação hierárquica incorpora o conceito de ontologia, onde cada nó da estrutura representa um conceito de imagem em um certo nível semântico, desenvolvendo um esquema novo para gerar o conceito orientado a sumarização de coleções de imagens em grande escala. Em outras palavras, classifica as imagens com base em anotações automáticas. A classificação é realizada com Support Vector Machines. Como é apresentada na Figura 9, os vértices com os conceptos de cada imagem são projetados para um plano hiperbólico de acordo com suas relações contextuais e cada projeção pode exatamente preservar as relações entre o contexto original e os conceitos das imagens. Kernel PCA é utilizada para agrupar semanticamente as imagens similares, assim mesmo com a visualização hiperbólica os usuários têm permissão para manipular não só as imagens, mas também as suas relações de similaridade visual. Do mesmo modo, Torres et al. [29] propõe a utilização de um método baseado em espiral,uma versão alternativa baseada em anéis concêntricos. Exemplos de visualização utilizando estes modelos são mostrados na Figura 10. IV. SISTEMAS DE VISUALIZAÇÃO DE IMAGENS Diversas aplicações podem-se beneficiar com o uso de técnicas de visualização de informação aplicada a imagens. Por exemplo, Moghaddam et al. [1] mostram que é possível

Figura 11. Mesa digitalizadora do PDH. Figura 10. Exemplos de modelos gerados através da utilização das técnicas Espiral e Círculos Concêntricos, respectivamente. Figura 12. Sistema PhotoMesa. utilizar técnicas de visualização para melhorar o compartilhamento e exibição de fotos pessoais através de uma sequência temporal ou relacional apresentadas na Figura 11. Utilizando a técnica PCA otimizada para redução de sobreposição em um sistema de visualização e layout de fotos pessoais chamado PERSONAL DIGITAL HISTO- RIAN (PDH 1 ), com o objetivo de simular o compartilhamento informal de fotos entre pessoas. A Figura 11 mostra a organização de imagens montadas pelo sistema. Além no ano 2001, B. Bederson apresentou PhotoMesa [30], que coloca o grupo de imagens em sub-regiões do espaço de exposição, aplicando a técnica de visualização de dados hierárquicos chamada Quantum Treemap. Mostrada 1 http://www.merl.com/projects/pdh/ em Figura 12. Isto é, Quantum Treemaps é uma variação nos algoritmos treemap que são projetados para que as imagens ou outros objetos de tamanho indivisível(quantum). Apóia o algoritmo Treemap ordenado, mas garante que cada retângulo gerado terá uma largura e altura que são um múltiplo inteiro do tamanho de um objeto de entrada. Além disso, Shiitani et al. [31] mostram o sistema MI- RACLES, que trabalha com coleções de dados que representam conjuntos de informações (mídias) associadas entre si, coletadas de bancos de dados locais ou da Internet. A principal funcionalidade de exploração é chamada pop-up, e permite ao usuário informar uma ou algumas palavraschave, reorganizar e refinar a coleção exibida. Um exemplo

Figura 14. ImIk. Figura 13. Tela do sistema MIRACLES, com destaque para algumas imagens da coleção. é essencial para a interação entre o usuário e as imagens exibidas. Usam as técnicas como MDS, ISOMAP, SNE, LLE, ISOSNE e ISOLLE para fazer a visualização. Na Figura 14 a tela principal mostra o sistema de visualização com o conjunto representativo de imagens do. O canto superior esquerdo mostra toda a coleção como um ponto de ajuste com o vermelho (ou cinza na impressão não-cor) os pontos que representam o atual conjunto de projeção. O canto inferior esquerdo mostra uma versão ampliada da miniatura selecionada. O retângulo desenhado na tela éum exemplo de uma seleção de usuário de um grupo de imagens, arrastando o mouse. de como determinadas imagens de uma coleção podem ser destacadas para auxiliar na construção de conhecimento é mostrado na Figura 13. In [23], [24] os autores apresentam ImIk, um sistema que fornece ao usuário uma melhor maneira de acessar interativamente uma coleção de imagens e enfatiza em encontrar as melhores posições ideais de imagens no espaço de visualização. Para eles é de muita importância a sobreposição de imagens e preservação de sua projeção. A sobreposição entre as imagens influenciam a qualidade de uma ferramenta de visualização, então a sobreposição de imagens e preservação da estrutura émínima. A visibilidade Do mesmo modo, Eler et al. [32] apresentam o software Pex- Image 2,umframework visual que suporta todo o processo de análise e exploração visual de coleções de imagens e textos associados. Pex-Image implementa diversas técnicas projeção de coleções de imagens que enfatizam a similaridade entre estas imagens, além de oferecer funcionalidades complementares para ajudar na exploração dos dados. O software permite que seja feita uma coordenação entre várias projeções de uma mesma coleção de imagens (Figura 15, de forma que o usuário pode selecionar uma ou várias imagens em uma projeção, e visualizar ou a posição destas imagens em outra projeção (identity coordination), ou visualizar os 2 http://infoserver.lcad.icmc.usp.br/infovis2/peximage

Figura 15. Coordenação entre duas projeções realizadas pelo Pex-Image. Figura 17. Visualizador de imagens 3D Miaow. Figura 16. Janela principal do Sistema VISRET. k vizinhos mais próximos desta seleção em outra projeção (distance coordination), instantaneamente. Recentemente Kovacs et al. [33] apresentam um sistema VISRET, para visualizar imagens do vídeo, como mostra a Figura 16. Também, Gomi et al[34] no ano 2010 propõe Miaow (Memorized Image Album Organized by When/Where), um visualizador de imagens em 3D que representa fotografias hierarquicamente classificadas com base em suas posições (eixos X e Y) e o tempos (eixo Z), data das fotos, aninhados em regiões retangulares. A Figura 17, mostra uma navegação de fotografias usando Miaow. Incluindo projeção em 3D, Nakazato e Huang [35] propõem o 3DMars 3, um sistema interativo de visualização de conjuntos de imagens, em um ambiente virtual 3D, como mostra a Figura 18, onde a Figura de abaixo representa o 3 http://www.ifp.illinois.edu/ nakazato/3dmars/ Figura 18. Visualização do resultado de uma consulta no 3DMars. resultado da imagem-consulta do usuário. Ademais, em [1] emprega um espaço de visualização

detecta tendências e características particulares que seriam extremamente difíceis de serem detectadas caso ele analisasse imagem por imagem. Além disso, a principal característica do processo de visualização é a extração com o fim de identificar e extrair informações relevantes a partir da imagem que permita a discriminação de classes diferentes da imagem, onde cada imagem da coleção é representada por um vetor de características feito por exemplo, por seus atributos intrínsecos, tais como cor, textura e forma. Figura 19. Espaço de visualização esférico. esférico, mostrado na Figura 19, as imagens são projetadas na superfície do globo localizadas próximas umas das outras. A navegação é feita simplesmente girando e inclinando a esfera de navegação e as imagens são organizadas em forma de grade que permite uma navegação mais rápida do que os métodos onde as imagens se sobrepõem. E para lidar com grandes bases de imagens, empregam uma abordagem hierarquizada, onde o usuário pode aplicar zoom em uma área particular e do sistema, por sua vez traz mais imagens visuais relevantes. Além, devido ao espaço limitado no plano de visualização minimiza a sobreposição entre as imagens, para isso emprega-se uma estrutura de árvore hierárquica. Também Quadrianto et al.[4] usa esferas, grids, hierarquias. V. CONCLUSÃO Os avanços na visualização de informação e técnicas de mineração de dados em imagens já permitem aos usuários uma maneira de revelar informações escondidas, de modo que se estudam as relações de similaridades entre imagens. Técnicas de visualização de informação, uma ferramenta importante para garantir a interação por parte do usuário, de onde ele recupera uma ou varias imagens desejadas, ou Com efeito, os usuários de sistemas CBIR possuem acesso a uma interface visual na qual as relações de similaridade podem ser facilmente visualizadas a partir de uma consulta mas não podem avaliar todas as imagem de maneira geral. O usuário se torna um agente ativo no processo de mineração das informações, pois consegue, alem de visualizar as relações entre os dados, interagir com o modelo, tendo uma visão geral dos dados, ou concentrando-se em fenômenos particulares. Esta é uma parte importante na visualização de imagens é que depois de fazer a projeção, esta é analisada, a fim de revelar informações úteis para os usuários, donde o relacionamento de dados esta no processo de mineração expressado na classificação ou categorização. Incluindo, as técnicas de visualização aplicadas a coleções de imagens, como os métodos de projeção é visto a partir da maneira sobre como reduzir as altas dimensionalidades das imagens originais em espaços de baixa dimensão preservando sua estrutura original. E os baseados em conexão de grafos, no qual as imagens são visualizadas por um grafo com conexões traçadas de acordo com as relações entre as imagens da coleção. Assim, a parte exploratória da visualização de imagens, se concentra em como fornecer ao usuário uma maneira de

explorar os dados visualizados; para esso agora existem muitos sistemas que desenvolvem uma boa interação com o usuário, já sea em um ambiente de 2 ou 3 dimensões. REFERÊNCIAS [1] C. S. B.Moghaddam, N.Lesh and T. Huang, Visualization & layout for personal photo libraries, 2001. [2] F. G. Jorge Camargo and R. Torres, Visualization of large collection of medical images, 2008. [3] G. G. C. Chen and P. Rosin, Similarity-based image browsing, pp. 206 213, 2000. [4] T. T. N. Quadrianto, K. Kersting and W. Buntine, Beyond 2dgrids: a dependence maximization view on image browsing, International conference on Multimedia information retrieval, 2010. [5] D. H. J. Yang, J. Fan and Y. Gao, Semantic image browser: Bridging information visualization with automated intelligent image analysis, Visual Analytics Science And Technology, 2009. [6] M. N. R. Stehling and A. Falcão, A compact and efficient image retrieval approach based on border/interior pixel classification, Proceedings of the eleventh international conference on Information and knowledge management, 2002. [7] G. Schaefer, A next generation browsing environment for large image repositories, Multimedia Tools Applications, vol. 47, no. 1, pp. 105 120, 2010. [8] G. Hu and Q. Gao, An interactive image feature visualization system for supporting cbir study, International Conference on Image Analysis and Recognition, 2009. [9] O. H. G. Strong and M. Gong, Visual image browsing and exploration (vibe): User evaluations of image search tasks, ACTIVE MEDIA TECHNOLOGY, 2010. [10] Y. G. J. Fan and H.Luo, Hierarchical classification for automatic image annotation, in Proceedings XXX ACM International Conference on Research and Development in Information Retrieval. New York, USA: ACM Press, 2007, pp. 111 118. [11] E. F. A. Ahmadian and F. Sayadian, Image indexing and retrieval using gabor wavelet and legendre moments, Proceedings of the 25th Annual International Conference of the IEEE, 2003. [12] M. L. L. Wynne Hsu and J. Zhang, Image mining: Trends and developments, Intelligent Information Systems, 2002. [13] W. Torgerson, Multidimensional scaling: I. theory and method, Psychometrika, no. 4, pp. 401 419, 1952. [14] I.Jolliffe, Principal Component Analysis, 2nd ed. Springer, 2002. [15] J. Sammon, A nonlinear mapping for data structure analysis, IEEE Computer Society, vol. C-18, no. 5, pp. 401 409, 1969. [16] C. Faloutsos and K. Lin, Fastmap: A fast algorithm for indexing, datamining and visualization of traditional and multimedia databases, in Proceedings of International Conference on Management of Data: ACM SIGMOD, M. J. Carey and D. A. Schneider, Eds. San Jose, California: ACM Press: New York, 1995, pp. 163 174. [17] V. d. S. J. Tenenbaum and J. Langford, A global geometric framework for nonlinear dimensionality reduction, Science, vol. 290, no. 5500, pp. 2319 2323, 2000. [18] F. V. Paulovich, L. G. Nonato, R. Minghim, and H. Levkowitz, Least square projection: a fast high precision multidimensional projection technique and its application to document mapping, IEEE Transactions on Visualization and Computer Graphics, vol. 14, pp. 564 575, 2008. [19] J. Zhang, Visualization for Information Retrieval, 1st ed. Springer, 2008.

[20] A. Morrison, G. Ross, and M. Chalmers, A hybrid layout algorithm for sub-quadratic multidimensional scaling, INFO- VIS02: Proceedings of the IEEE Symposium on Information Visualization, p. 152, 2002. [31] S. E. S.huichi Shiitani, T. Baba and S. Nagata, Interactive video retrieval system integrating visual search with textual search, Symposium on Intelligent Multimedia Knowledge Management, 2003. [21] S. T. Roweis and L. K. Saul, Nonlinear dimensionality reduction by locally linear embedding, Science, vol. 290, no. 5500, pp. 2323 2326, 2000. [22] A. C. J. Camargo, J. Caicedo and F. Gonzalez, A kernelbased strategy for exploratory image collection search, Content-Based Multimedia Indexing, 2010. [23] G. Nguyen and M. Worring, Interactive access to large image collections using similarity-based visualization, Journal of Visual Languages and Computing, 2006. [24], Similarity based visualization of image collections, Journal of Visual Languages and Computing, 2008. [25] O. Sorkine and D. Cohen-Or, Least-squares meshes, in Proceedings of Shape Modeling International. IEEE Computer Society Press, 2004, pp. 191 199. [32] D. M. Eler, M. Y. Nakazaki, F. V. Paulovich, D. P. Santos, M. C. F. Oliveira, a. E. S. B. Neto, Jo and R. Minghim, Multidimensional visualization to support analysis of image collections, in SIBGRAPI 08: Proceedings of the 2008 XXI Brazilian Symposium on Computer Graphics and Image Processing. Washington, DC, USA: IEEE Computer Society, 2008, pp. 289 296. [33] A. U. Levente Kovacs and T. Sziranyi, Visret a content based annotation, retrieval and visualization toolchain, ADVAN- CED CONCEPTS FOR INTELLIGENT VISION SYSTEMS, 2009. [34] A. Gomi and T. Itoh, Miaow: a 3d image browser applying a location- and time-based hierarchical data visualization technique, International Conference on Advanced Visual Interfaces, 2010. [26] T. Mailund, G. Brodal, R. Fagerberg, C. Pedersen, and D. Phillips, Recrafting the neighbor-joining method, BMC Bioinformatics, vol. 7, p. 29, 2006. [27] J. Evans, L. Sheneman, and J. Foster, Relaxed neighbor joining: A fast distance-based phylogenetic tree construction method, Journal of Molecular Evolution, vol. 62, no. 6, pp. 785 792, 2006. [35] M. Nakazato and T. Huang, 3d mars: Immersive virtual reality for content-based image retrieval, Multimedia and Expo, 2001. ICME 2001. IEEE International Conference, 2001. [28] J. H. R. Wang, S. McKenna and A. Ward, Visualizing image collections using high-entropy layout distributions, IEEE Transactions on Multimedia, 2010. [29] C. M. R. Torres, C. Silva and H. Rocha, Visual structures for image browsing, Proceedings of the twelfth international conference on Information and knowledge management, no. 4, 2003. [30] B. Bederson, Quantum treemaps and bubblemaps for a zoomable image browser, Symposium on User Interface Software and Technology, 2001.