Relatório do Seminário sobre Data Mining em Imagens Alunos: Fabio Ariati Fernando Almeida Luis Eduardo Martins Rayse Kiane Introdução A mineração de dados em bancos de imagens propõe técnicas para extrair conhecimento não explícito a partir de acervos de imagens. Humanos tem melhor compreenção de imagens que computadores. Encontrar padrões em grandes bancos de dados é uma área de pesquisa muito ativa com aplicações em diversas áreas. Investigação Criminal O uso de mineração de imagens em videos e fotos pode ser utilizado para encontrar evidência em casos em que a quantidade de dados é excessiva (como em casos em que a metragem de uma grande quantidade de cameras deve ser analizada), com os algoritmos certos é possível usar softwares de data mining em imagens para encontrar pessoas ou objetos em quadros individuais de cada video, facilitando o trabalho dos investigadores.
Imagiologia Médica Cresce o consenso entre especialistas clinicos de que o uso de CAD (Computer Aided Diagnosis) pode melhorar a performance de um radiologista. A proposição é fazer o uso de CAD como um segundo leitor em conjunto com o radiologista, o radiologista primeiro faz a sua interpretação das imagens por conta própria, e em seguida usa o CAD para ter certeza que nenhum detalhe passou despercebido, a interpretação final das imagens ainda fica por conta do radiologista. Vigilância Militar Detecção automática de intrusões, localização de bases inimigas e identificação de pessoal são as maiores aplicações de mineração de imagens na area militar, já existem ferramentas capazes de realizar tais tarefas no mercado como o Artemis da CACI MTL Systems (empresa que possui clientes como NASA e DARPA entre outros orgãos do governo americano). Detecção de fenômenos atmosféricos Mineração de imagens é usado tambem na meteorologia para identificar formações como possiveis ciclones, tufões e tempestades atravez de imagens de satélites em tempo real, uma aplicação capaz de fazer isso é o ADaM da NASA. Detecção de violações e crimes ambientais Um dos maiores usos da mineração de imagens para o Brasil é a detecção de crimes e violações ambientais, principalmente em relação ao desmatamento da amazônia, existem atualmente projetos que permitem localizar areas desmatadas com grande clareza, essas areas após localizadas pelos aplicativos e sistemas analizando imagens aereas ou de satélites são investigadas por equipes de campo que avaliam a situação de perto, muitas vezes confirmando os crimes identificados pelos softwares de mineração. ADaM ADaM (Algorithm Development and Mining System) é um projeto da NASA que aplica tecnologias de data mining em dados de sensoriamento remoto e outros dados
científicos. ADaM é composto de mais de 100 componentes que podem ser configurados para criar vários processos customizados de mineiração de dados, processamento e análise. Os componentes do ADaM são leves e autonomos, e podem ser usados em conjunto com outras ferramentas de data mining como WEKA e Orange Diferença entre mineração convencional e em bancos de imagens Valores relativos e valores absolutos: Um campo numérico numa tabela de banco de dados possui um valor estanque, ao passo que em uma imagem depende dos valores que estão próximos, tendo um significado semântico diferente. Informação espacial: Para a interpretação de imagens a informação espacial é crítica, o mesmo não ocorre em banco de dados relacionais. Utiliza se a extração de características independentes de posição em cada imagem (metadados, anotações, etc.) antes da mineração de padrões espaciais (objetos, seus relacionamentos, etc), para minimizar este problema. Interpretação unica e interpretação multipla: Uma imagem pode possuir interpretações multiplas dos mesmos padões visuais. Enquanto que um dado como endereço ou nome, não apresenta esse problema. Representação de padrões: a representação deve saber tratar justamente do contexto e das informações espaciais. Seleção de características: é preciso saber escolher quais são as características mais significativas. Visualização de padrões: é preciso criar novas formas de visualização dos padrões encontrados. Alguns outros aspectos que devem ser observados na análise de imagens são: Textura numa imagem, cada elemento (pixel) está muito relacionado com seus vizinhos, muitas vezes fazendo parte de uma região homogênea. Se tratarmos os elementos de imagens como entidades isoladas, perdemos a capacidade de capturar a informação de textura presente no contexto.
Processamento em vários níveis estudos clássicos sobre a visão humana (Marr, 1982) mostram que o processamento visual ocorre em vários níveis. A princípio ocorre a detecção de bordas, geometrias e estruturas dos objetos, até chegar à identificação de objetos na cena, contextualizando os de acordo com as intenções e conhecimento do observador, associando os elementos perceptuais (borda, geometria, estrutura) a padrões, protótipos e eventos segundo a cognição do indivíduo. Ambigüidade de interpretação diferentes observadores podem interpretar a mesma imagem de forma distinta, dependo da natureza do estudo e dos métodos de análise empregados. O nível de conhecimento e experiência do intérprete influenciam diretamente na compreensão e avaliação dos elementos retratados. Dependência de domínio cenários e atividades do mundo real pertencentes a determinado domínio possuem características e elementos específicos. A identificação dos elementos, suas classes e relacionamentos está ligada ao contexto em si, podendo uma mesma imagem possuir informações distintas e inerentes a diferentes domínios em questão. Processo de Mineração de Imagens:
O item 4 mostrado na imagens, extração de características. é exclusiva da mineração de imagens. Na extração, não há interesse em trabalhar diretamente com pixels e sim com uma representação intermediária. Esta abordagem trabalham com características de baixo nível como cor, forma e textura, representadas através de vetores de características. Em, afirma se que os métodos para extração de características se dividem em dois grupos básicos: os que preservam a informação espacial (como CSS ou Curvature Scale Space) e aqueles que não a preservam (como histogramas). Técnicas de Mineração de Imagens Reconhecimento de objetos Modelos de objetos permitem que um sistema de reconhecimento encontre objetos do mundo real em imagens. Algoritmos de aprendizagem de máquina e extratores de informação dependem da identificação e reconhecimento de objetos pelo sistema. Estes sistemas consistem basicamente de um banco de modelo, que contém os próprios modelos e suas características relevantes, detector de características, que avalia e associa características
relevantes aos objetos, hipotetizador, que atribui probabilidades aos objetos na imagem e verificador de hipóteses que avalia as hipóteses através dos modelos e relaciona o objeto detectado com o modelo mais parecido existente na base de dados. Indexação, Classificação e agrupamento de imagens Quando trabalhando com uma grande quantidade de imagens, é vital prover suporte a busca de imagens com um esquema rápido e eficiente de indexação, usando as características internas das imagens para criar um sistema de indexação que reduza o tempo de cada busca. A classificação e o agrupamento de imagens efetuam, respectivamente, a classificação supervisionada e não supervisionada de imagens em grupos. Na classificação supervisionada, é fornecida uma coleção de imagens rotuladas (conjunto de treinamento), e o problema é rotular um novo conjunto de imagens ainda não classificadas. O conjunto de treinamento é utilizado para treinar o algoritmo de aprendizagem de máquina segundo a classe definida para a rotulação das novas imagens. Já a classificação não supervisionada (agrupamento ou clustering) visa agrupar uma coleção de imagens não rotuladas em grupos (clusters) significativos, de acordo com o conteúdo de cada imagem, sem qualquer conhecimento ou rótulo prévio. A classificação inteligente de imagens a partir do seu conteúdo é um meio importante de minerar informações valiosas de grandes coleções de imagens, já que os usuários possuem grande interesse em determinar classes ou agrupamentos de todo um acervo, ora com conhecimento a priori, ora sem ele. Mineração de regras de associação A mineração de regras de associação é freqüentemente utilizada para extrair tendências interessantes, padrões e regras em bancos de dados (quando a classe de uma tarefa de mineração não é determinada como no caso da classificação supervisionada). Associações entre valores dos atributos são geradas na forma de regras, tendo o algoritmo sua ênfase no compromisso entre precisão e cobertura. Para imagens existem duas abordagens principais: na primeira realiza se a mineração a partir de acervos de imagens, um uso dessa abordagem seria a detecção de padrões na estrura de cidades semelhantes, e na segunda a tarefa é realizada tomando se uma combinação de imagens e dados alfanuméricos associados, que poderia ser usado na area médica aonde imagens de radiografias estão relacionadas com os dados de um paciente. Redes Neurais Uma rede neural é um processador paralelo massivamente distribuído, composto de unidades básicas de processamento, onde cada uma tende ao armazenamento de conhecimento experimental, tornando tal conhecimento disponível para o uso. Alguns dos pontos fortes destas redes são o reconhecimento de padrões, a previsão de tendências e a construção de modelos de dados, tudo isso com forte tolerância a falhas. Um projeto relevante, baseado em redes neurais, avalia e detecta mudanças em séries temporais de imagens. Quando treinadas corretamente as redes neurais possuem a capacidade de identificar detalhes e padrões
específicos em imagens como por exemplo os rios em uma paisagem, ou até irregularidades em uma radiografia. Assuntos diversos O processo de mineração de dados em imagens é apresentado na Figura 4.1. As imagens de um acervo (banco de imagens) são recuperadas segundo critérios inerentes à aplicação. A seguir, uma fase de pré processamento aumenta a qualidade dos dados, os quais são então submetidos a uma série de transformações e de extração de características que geram importantes informações a respeito das imagens. A partir destas informações, a mineração pode ser realizada através de técnicas específicas, com o intuito de descobrir padrões significativos. Os padrões resultantes são então avaliados e interpretados para a obtenção do conhecimento final, que pode ser aplicado no entendimento de problemas, na tomada de decisões ou outras aplicações estratégicas [ZHL2002]. Conclusão A mineração de dados em bancos de imagens é um processo multidisciplinar e complexo, o qual o domínio das metodologias e o poder das ferramentas muitas vezes não é suficiente para extrair boa parte do conhecimento escondido nos grandes acervos de imagens. Parte do problema reside na própria natureza do domínio, uma vez que imagens possuem alto grau de subjetividade, a qual deve ser somada (ou multiplicada) aos desafios da subjetividade da interpretação da informação, a qual visa a obtenção do conhecimento.
Referências http://dspace.c3sl.ufpr.br/dspace/bitstream/handle/1884/25120/d%20 %20VIEIRA,%20EVERTO N%20VIDAL.pdf?sequence=1 http://eprints.usq.edu.au/5630/1/hsu_lee_zhang_jiis_v19n1_av.pdf