Avaliação do uso de agrupamento semissupervisionado na segmentação do disco óptico em imagens de retina



Documentos relacionados
5 Extraindo listas de produtos em sites de comércio eletrônico

Processamento de Imagem. Prof. MSc. André Yoshimi Kusumoto

29/08/2011. Radiologia Digital. Princípios Físicos da Imagem Digital 1. Mapeamento não-linear. Unidade de Aprendizagem Radiológica

PALAVRAS-CHAVE: Massas Nodulares, Classificação de Padrões, Redes Multi- Layer Perceptron.

Verificação de Qualidade de Imagens de Fundo de Olho a Partir de Descritores Baseados em Histogramas. Marina Silva Fouto - Reconhecimento de Padrões

Sistemas Operacionais e Introdução à Programação. Vetores e matrizes

GARANTIA DA QUALIDADE DE SOFTWARE

Protocolo em Rampa Manual de Referência Rápida

ISO/IEC 12207: Gerência de Configuração

MINERAÇÃO DE DADOS APLICADA. Pedro Henrique Bragioni Las Casas

Detecção e Rastreamento de Objetos coloridos em vídeo utilizando o OpenCV

SEGMENTAÇÃO DE IMAGENS EM PLACAS AUTOMOTIVAS

Trabalho 2 Fundamentos de computação Gráfica

Cálculo de volume de objetos utilizando câmeras RGB-D

3 Classificação Resumo do algoritmo proposto

Classificação da imagem (ou reconhecimento de padrões): objectivos Métodos de reconhecimento de padrões

Aprendizagem de Máquina

CAPÍTULO 3 - TIPOS DE DADOS E IDENTIFICADORES

Análise e visualização de dados utilizando redes neurais artificiais auto-organizáveis

Aprendizagem de Máquina

Segmentação de Imagens

Introdução ao Processamento de Imagens com o IRIS Por Rodolfo Barros

Universidade Tecnológica Federal do Paraná UTFPR Programa de Pós-Graduação em Computação Aplicada Disciplina de Mineração de Dados

Orientação a Objetos

FATEC Cruzeiro José da Silva. Ferramenta CRM como estratégia de negócios

INF 1771 Inteligência Artificial

PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIRO DEPARTAMENTO DE INFORMÁTICA PÓS GRADUAÇÃO EM INFORMÁTICA

Comparação entre as Técnicas de Agrupamento K-Means e Fuzzy C-Means para Segmentação de Imagens Coloridas

ADM041 / EPR806 Sistemas de Informação

Conteúdo. Disciplina: INF Engenharia de Software. Monalessa Perini Barcellos

Trabalho 7 Fila de prioridade usando heap para simulação de atendimento

2 Classificação de Imagens de Sensoriamento Remoto

Login Integrado (Quiosque / Visão Descentralizada TOTVS 11)

VCA Treinamento em Algoritmo

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU

INTELIGÊNCIA ARTIFICIAL Data Mining (DM): um pouco de prática. (1) Data Mining Conceitos apresentados por

Figura 01: Aplicações do Filtro Espacial Passa-Baixa.

DOCBASE. 1. Conceitos gerais. 2. Estrutura da pasta de associações. 3. A área de documentos reservados. 4. Associação de Imagens

Chave de Acesso Remoto Manual do cliente:

Manual Processamento de Imagem. João L. Vilaça

Demonstração dos Fluxos De Caixa. (DFC)

Utilização de Análise de Características Dinâmicas em analises estáticas.

Descritores de textura na análise de imagens de microtomografia computadorizada

Informática Aplicada a Radiologia

MÓDULO 8 ARQUITETURA DOS SISTEMAS DE BANCO DE DADOS

Curva ROC. George Darmiton da Cunha Cavalcanti Tsang Ing Ren CIn/UFPE

Luz, olho humano e óculos Capítulo 12 (pág. 219)

CONCURSO PÚBLICO ANALISTA DE SISTEMA ÊNFASE GOVERNANÇA DE TI ANALISTA DE GESTÃO RESPOSTAS ESPERADAS PRELIMINARES

TÉCNICA DE MARFRAN PARA CÁLCULO DE CONSTANTES

UFGD FCA PROF. OMAR DANIEL BLOCO 6 CLASSIFICAÇÃO DE IMAGENS

CSF FasTest SOLUÇÕES DE OUTPUT DE PAGAMENTO

UNIVERSIDADE FEDERAL DE SANTA CATARINA GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA DATA MINING EM VÍDEOS

AULA 2 Planos, Vistas e Temas

CONCEITOS E MÉTODOS PARA GESTÃO DE SAÚDE POPULACIONAL

Projeto de Redes Neurais e MATLAB

Programação Orientada a Objeto

Thales Trigo. Formatos de arquivos digitais

Tema UFPel 2.0 WP Institucional Guia de Opções de Personalização

TOPOLOGIA DA IMAGEM DIGITAL

Manual Sistema MLBC. Manual do Sistema do Módulo Administrativo

Sistema Banco de Preços Manual do Usuário OBSERVATÓRIO

Análise do uso de diferentes bandas de cores na detecção do disco óptico em imagens de retina

Sistemas Operacionais

4 Segmentação Algoritmo proposto

3 Metodologia de Previsão de Padrões de Falha

Desenvolvimento do Módulo de Pré-processamento e Geração de Imagens de. Imagens de Teste do Sistema DTCOURO

Curso de Data Mining

Seção 2/E Monitoramento, Avaliação e Aprendizagem

O Windows 7 é um sistema operacional desenvolvido pela Microsoft.

SESSÃO 5: DECLINAÇÃO SOLAR AO LONGO DO ANO

Noções de. Microsoft SQL Server. Microsoft SQL Server

Exercícios resolvidos sobre Definição de Probabilidade

Testes de Usabilidade

Capítulo 7 Medidas de dispersão

6. Geometria, Primitivas e Transformações 3D

Podemos encontrar uma figura interessante no PMBOK (Capítulo 7) sobre a necessidade de organizarmos o fluxo de caixa em um projeto.

CorelDRAW UM PROGRAMA DE DESIGN

Estudo de Casos Estudo de Caso 1: Velocidade Intervalar e Espessura da Camada

Construtor de sites SoftPixel GUIA RÁPIDO - 1 -

MLP (Multi Layer Perceptron)

Sistemas Distribuídos

O Windows 7 é um sistema operacional desenvolvido pela Microsoft.

1. Sistema de cadastramento para empresas NÃO cadastradas (cadastro inicial) 1.1. Links de acesso direto na área de cadastro

Pesquisa com Professores de Escolas e com Alunos da Graduação em Matemática

ORGANIZAÇÃO DE COMPUTADORES MÓDULO 10

1 Introdução maligno metástase

Análise e Desenvolvimento de Sistemas ADS Programação Orientada a Obejeto POO 3º Semestre AULA 03 - INTRODUÇÃO À PROGRAMAÇÃO ORIENTADA A OBJETO (POO)

PROF. DR. JACQUES FACON

COMO USAR DOIS MONITORES NO WINDOWS 8

Fundamentos de Hardware

Agrupamento de dados

Disciplina: Unidade III: Prof.: Período:

Projetos. Universidade Federal do Espírito Santo - UFES. Mestrado em Informática 2004/1. O Projeto. 1. Introdução. 2.

Modelagemde Software Orientadaa Objetos com UML

Casos de teste semânticos. Casos de teste valorados. Determinar resultados esperados. Gerar script de teste automatizado.

MANUAL DE UTILIZAÇÃO SISTEMA DE CADASTRO INTRANET

Ciclo de Vida de Projetos. Notas de aula exclusivas Proibido a reprodução total ou parcial sem consentimentos

Redes de Computadores

Transcrição:

Avaliação do uso de agrupamento semissupervisionado na segmentação do disco óptico em imagens de retina Luis G. T. dos Santos 1, Marcos A. de S. Frazão 1, Rodrigo de M. S. Veras 1 1 Departamento de Computação, Universidade Federal do Piauí, Teresina-PI luisguilherme.ufpi@gmail.com, frazaomarcos@yahoo.com.br, rveras@ufpi.edu.br. Abstract. This paper aims to evaluate the semi-supervised clustering in segmentation task of Optical Disc (OD) in retinal color images. The analysis of these images is important to assist the specialist in the detection of eye diseases as glaucoma. However, the segmentation of images follows a lineage of supervised and unsupervised clustering. Unlike the other clustering methods, we evaluated the segmentation to find out the algorithms that perform better results for retinal background. Resumo. Este trabalho tem como objetivo avaliar o agrupamento semissupervisionado na tarefa de segmentação do Disco Óptico (DO) em imagens coloridas de retina. A análise destas imagens constitui uma tarefa relevante para auxiliar o especialista na detecção de doenças oculares assim como o glaucoma. Contudo, a segmentação de imagens segue uma linhagem do agrupamento supervisionado e não-supervisionado. Diferente de outros agrupamentos, fizemos essa avaliação na segmentação do DO para saber quais dos algoritmos apresentam um melhor desempenho com imagens de retina. 1. Introdução Recentes avanços na aquisição de imagem digitais e poder computacional tornaram possível usar os dados fornecidos a partir de imagens médicas de maneiras novas e revolucionárias. Isso levou a um considerável interesse no desenvolvimento de sistemas automáticos de diagnóstico médico. Conhecidos como sistemas de Diagnóstico Auxiliado por Computador (CAD - Computer Aided Diagnosis). Estudos sobre sistemas CAD mostram que eles podem auxiliar os médicos em diversas tarefas, como medir estruturas anatômicas, monitorar as mudanças pela comparação de imagens sequenciais, diagnosticar e planejar o tratamento. Eles também aliviam o trabalho repetitivo, prevenindo erros por fadiga e aumentando a eficiência no trabalho. As aplicações de CAD mais estabelecidas em áreas médicas envolvem uso de sistemas automatizados em mamografias, tomografias computadorizadas de tórax e radiografias [Gonzalez e Woods 2011]. A detecção automática da posição do disco óptico (DO) é um passo importante para a análise automática de imagens de retina. A correta detecção das coordenadas do centro e raio do DO, poderão ser utilizadas para analisar a gravidade de algumas doenças, tais como o glaucoma. Aproximadamente 66,8 milhões de pessoas são portadoras de glaucoma primário de ângulo aberto e aproximadamente 10% desta população tornarse-á cega de ambos os olhos devido a esta doença [Quigley e Broman 2006]. Por isso a

necessidade de um diagnóstico mais rápido e preciso para a sua detecção em seus estágios iniciais [Dawn et al. 2015]. Uma forma de auxiliar o diagnóstico do glaucoma é a segmentação do DO em imagens de retina e, posteriormente, o cálculo relacionado a proporção da Escavação (parte mais interna) e do contorno do DO (parte mais externa e que engloba a escavação), como mostra a Figura 1. Segundo Póvoa et al. [Póvoa et al. 2001], quando essa proporção (Escavação/DO) chega a 0,7 suspeita-se que o paciente tenha glaucoma. Figura 1. Exemplo de retina e detalhe no DO com marcação da verdade terrestre. Segundo Muramatsu et al. [Muramatsu et al. 2011] os três principais métodos utilizados para segmentação do DO são modelos de contorno ativos, redes neurais artificiais e algoritmos de agrupamento (clustering). Partindo dessa ideia, analisamos algoritmos de agrupamento semissupervisionados com a finalidade de que o mesmo aprenda a partir de exemplos rotulados e não rotulados. A grande motivação para se estudar esse tipo de aprendizado se dá pelo fato de exemplos não rotulados existirem em abundância e exemplos rotulados serem geralmente escassos [Basu et al. 2002]. No futuro, pretendemos criar um software capaz de auxiliar o médico especialista. Ele marcará alguns pontos pertencentes a cada uma das regiões e o sistema segmentará e calculará a proporção da Escavação e do contorno do DO (CDR) automaticamente. Segundo Muramatsu et al. [Muramatsu et al. 2011] o agrupamento não supervisionado pode ser vantajoso na minimização do efeito de overtrainning (perda da capacidade de generalização). 2. Algoritmos de Agrupamentos Avaliados 2.1. Base de Imagens A base DRISHTI é composta por 101 imagens de retina. Todas as imagens foram tiradas com centro no DO, com um "campo de visão" de 30 e dimensões 2896 x 1944 pixels. Apenas 50 desse total possuem informações sobre suas verdades terrestres. 2.2. K-means O algoritmo K-means é um método de agrupamento particional, primeiramente apresentando por Macqueen [Macqueen 1967]. O objetivo é particionar os dados em k grupos mutualmente exclusivos e indicar a qual grupo cada elemento pertence. Este método utiliza uma medida de similaridade para encontrar os elementos pertencentes a cada grupo. 2.3. Seeded K-means Esse algoritmo, proposto por Basu et al. [Basu et al. 2002], é um variante do K-means, e também particiona o conjunto de dados em k grupos. A diferença mais característica

é o fato do Seeded K-means utilizar exemplos, inicialmente, rotulados como centroides inicias dos grupos, isto é, as sementes (Seed, em inglês), e não escolhê-los aleatoriamente. Uma exigência do algoritmo é que para cada grupo seja atribuído no mínimo uma semente. Dado um conjunto de exemplos E, toma-se um subconjunto S E como sendo o conjunto de sementes. Na inicialização do algoritmo, o usuário é responsável por atribuir cada exemplo x i S a um dos k grupos a serem encontrados, dividindo o conjunto S em k subconjuntos S l, de tal forma que S = U k l=1s l. 2.4. Constrained K-means Assim como o Seeded K-means, o Constrained K-means também tem na inicialização dos centroides a utilização de sementes. A modificação principal feita por Wagstaff et al. [Wagstaff et al. 2001] ao Seeded K-means foi no momento da atualização dos centroides. O algoritmo garante que nenhuma das restrições antes especificadas são violadas, ou seja, o elemento que faz parte do conjunto do cálculo dos centroides iniciais não pode ter a classe que lhe foi dada alterada, garantindo assim que tais elementos não serão rotulados erroneamente. 2.5. K-means ki O algoritmo K-means ki é uma abordagem semissupervisionada baseada no algoritmo Seeded K-means proposta em Sanches [Sanches 2003]. Assim como o Seeded K-means, o K-means ki também se utiliza de exemplos rotulados, assim a sua diferença se dá no processo de clustering propriamente dito. Quando o Seeded K-means é utilizado, cada elemento é associado ao cluster (centroide) mais próximo. No caso do K-means ki é estipulado a priori um threshold (limiar) t. Esse threshold será o responsável pela associação exemplo/cluster, ou seja, o exemplo somente poderá ser associado a um dado cluster caso esteja a uma distância menor ou igual a t de seu respectivo centroide. Esse valor de t não é um valor absoluto, mas sim relativo. O valor absoluto do limiar é baseado em um vetor ordenado v contendo todas as distâncias entre todos os centroides (exemplos rotulados) e todos os exemplos não rotulados [Sanches 2003]. 3. Experimentos 3.1. Metodologia de Avaliação Para avaliar o desempenho dos algoritmos foram utilizadas as métricas Sobreposição, Sensibilidade, Especificidade e Acurácia, todas essas métricas são calculadas com base no valores VP, FP, VN e FN, representadas nas equações de 1 a 4. A Sobreposição é a interseção da região segmentada com a real, a Sensibilidade representa a proporção de verdadeiros positivos, ou seja, avalia a capacidade do algoritmo predizer que um elemento pertence a um grupo quando ele realmente pertence a tal. A Especificidade reflete a proporção de verdadeiros negativos, isto é, avalia a capacidade do algoritmo predizer que um elemento não pertence a um grupo dado que ele realmente não pertence. Por fim, a acurácia é a proporção de predições corretas, sem considerar o que é positivo e o que é negativo e sim o acerto total. Sobreposição = V P V P + F P + F N (1)

V P Sensibilidade = V P + F N V N Especificidade = V N + F P V P + V N Acurácia = V P + F P + F N + V N (2) (3) (4) Cada algoritmo foi executado 5 vezes, e em cada inicialização as sementes utilizadas foram diferentes. No grupo dos rotulados foi usado 1% dos dados da imagem original como sementes iniciais, e 99% nos conjunto dos não rotulados. Particularmente no K-means ki, utilizamos um limiar igual a 0,5%. Em todas as execuções, foi utilizado um vetor de atributos como entrada para os algoritmos. Esse vetor contém o valor dos componentes: R (red - vermelho), G (green - verde), B (blue - azul), H (hue - matiz), S (saturation - saturação), V (value - valor do brilho), I (intensity - intensidade) e Luv de cada pixel da imagem. 3.2. Resultados e Discussão A Figura 2 apresenta o resultado da segmentação para uma das imagens da base DRISHTI. Os pixels marcados de vermelho correspondem a região da Escavação, os marcados de verde correspondem ao Disco Óptico, os que foram marcados de azul correspondem ao fundo. Na Figura 2(d) a cor preta é a região em que não foi possível rotular, já que o K-means ki só agrupa um dado elemento quando tem um grau de certeza (definido previamente), ou seja, se ao tentar agrupar algum elemento e o mesmo não estiver dentro do limiar, ficará sem rótulo. Na Figura 2(b) e 2(c), podemos ver a diferença entre as imagens geradas após o agrupamento feito pelo Seeded K-means e Constrained K-means, que a olho nu fica imperceptível a sua distinção. Por isso, em cada uma das duas imagens foi feito uma marcação (círculo) no mesmo ponto, exemplificando as diferenças de pixels referentes aos centroides iniciais que não poderiam mudar de classe. A Tabela 1 apresenta o resultado da avaliação dos algoritmos. Como pode ser visto, o algoritmo K-means ki se sobressaiu no cálculo das taxas de Especificidade e Acurácia. Já nas taxas de Sobreposição e Sensibilidade, os melhores resultados ficaram divididos entre K-means e Constrained K-means. O K-means ki se destacou na Especificidade e Acurácia, justamente nos dois parâmetros de desempenho mais importantes, pois a Especificidade é basicamente o cálculo da taxa de acerto referente aquele grupo, que neste caso são dois (Escavação e DO), e a Acurácia é a proporção de acertos no agrupamento geral de todas as classes. 4. Conclusão e Trabalhos Futuros Com o objetivo de segmentar as regiões do disco óptico, implementamos 4 algoritmos de agrupamento e utilizamos 50 imagens de retina como forma de avaliar seus desempenhos, contudo, em todos os algoritmos o desvio padrão obtido foi baixo. Em alguns parâmetros, o K-means ki se sobressaiu e obteve desvio menor ou similar quando comparado ao restante, somente na Sobreposição e na Sensibilidade que ele não obteve êxito em nenhuma das taxas. Com isso, percebemos que tais métodos avaliados mantém sempre uma saída semelhante, o que os tornam algoritmos estáveis.

(a) K-means (b) Seeded K-means (c) Constrained K-means (d) K-means ki Figura 2. Resultado da segmentação dos quatro algoritmos avaliados. K-means ki Tabela 1. Avaliação de desempenho dos métodos. Escavação Contorno do DO Métodos Taxa Máx Min Média Desvio Máx Min Média Desvio (%) (%) (%) (%) (%) (%) (%) (%) Sobreposição 55,20 53,97 54,57 0,0058 26,85 23,55 25,68 0,0125 K-means Sensibilidade 81,74 78,75 80,40 0,011 53,17 50,02 51,87 0,0114 Especificidade 90,67 89,65 90,20 0,0036 73,75 71,67 72,93 0,008 Acurácia 87,32 86,78 87,07 0,0025 69,83 67,46 68,63 0,0118 Sobreposição 53,27 53,27 53,27 0 33,55 33,14 33,29 0,0015 Seeded K-means Sensibilidade 72,81 72,54 72,69 0,0009 60,61 60,32 60,42 0,0011 Especificidade 92,67 92,59 92,62 0,0003 78,77 78,35 78,48 0,0017 Acurácia 87,53 87,49 87,51 0,0001 75,18 74,78 74,90 0,0016 Sobreposição 53,85 53,81 53,83 0,0001 33,91 33,83 33,87 0,0003 Constrained K-means Sensibilidade 73,11 73,0 73,05 0,0004 61,11 60,98 61,04 0,0005 Especificidade 92,77 92,73 92,75 0,0001 79,03 78,94 78,98 0,0004 Acurácia 87,74 87,73 87,73 0 75,47 75,41 75,43 0,0002 Sensibilidade 55,09 54,77 54,88 0,0013 27,41 27,11 27,22 0,0012 Especificidade 99,95 99,94 99,95 0 99,89 99,88 98,89 0 Sobreposição 55,01 54,68 54,79 0,0013 27,27 26,98 27,09 0,0012 Acurácia 92,05 91,98 92,03 0,0002 87,87 87,81 87,84 0,0002

Foi percebido que a presença dos vasos dificulta a diferenciação das regiões da Escavação e DO, visto que em algumas imagens esses vasos são segmentados, ora como Escavação, ora com Disco Óptico. Os bons resultados do K-means ki se deram justamente porque o algoritmo só agrupa o elemento quando ele está com um grau de certeza dentro do limiar, ou seja, se as distâncias de um elemento que seja vaso está muito confusa, tanto próximo aos centroides da Escavação como do DO, o algoritmo não rotula. Com relação aos trabalhos futuros, pretende-se realizar um pré-processamento para todas as regiões segmentadas, tornando-as mais homogêneas, além de remover ruídos e os vasos presentes na imagem, portanto, apresentando uma avaliação da localização das bordas das regiões obtidas. Referências Basu, S., Barnejee, A., e Mooney, R. (2002). Semi-supervised clustering by seeding. In Proceedings of the Nineteenth International Conference on Machine Learning, pp 19 26, Austrália. Dawn, S., Pearse, K., Adnan, T., Catherine, E., Lloyd, A., e Paolo, S. (2015). Automated retinal image analysis for diabetic retinopathy in telemedicine. Current Diabetes Reports. Gonzalez, R. C. e Woods, R. E. (2011). Processamento Digital De Imagens. Pearson Education, 3 edição. Macqueen, J. (1967). Some methods for classfication and analysis of multivariate observations. In Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability, pp 17 33, University of California Press. Muramatsu, C., Nakagawa, T., Sawada, A., Hatanaka, Y., Hara, T., Yamamoto, T., e Fujita, H. (2011). Automated segmentation of optic disc region on retinal fundus photographs: Comparison of contour modeling and pixel classification method. Computer Methods and Programs in Biomedicine, 101(1):23 32. Póvoa, C. A., Nicolela, M. T., Valle, A. L. S. L., de Siqueira Gomes, L. E., e Neustein, I. (2001). Prevalência de glaucoma identificada em campanha de detecção em são paulo. Arq Bras Oftalmol., 64:303 307. Quigley, H. A. e Broman, A. T. (2006). The number of people with glaucoma worldwide in 2010 and 2020. British Jornal de ophthalmology, 90:262 267. Sanches, M. K. (2003). Aprendizado de máquina semi-supervisionado: proposta de um algoritmo para rotular exemplos a partir de poucos exemplos rotulados. Dissertação de Mestrado, Universidade de São Paulo. Wagstaff, K., Cardie, C., S, R., e Schroedl, S. (2001). Constrained k-means clustering with background knowledge. In Proceedings of the Eighteenth Internacional Conference on Machine Learning, volume 18, pp 577 584.