Implementação e investigação de algoritmos computacionais paralelos para caracterização de imagens radiológicas de mamografias

Transcrição

1 Implementação e investigação de algoritmos computacionais paralelos para caracterização de imagens radiológicas de mamografias Matheu A. Batista dos Santos, Pedro Lima Oliveira, Marcelo Ossamu Honda Departamento de Ciências Exatas e Tecnológicas Universidade Estadual de Santa Cruz (UESC) Ilhéus, BA Brasil {matheubatista,pedrock1991}@gmail.com, mohonda@uesc.br Abstract. This paper describes the implementation and research of parallel computing algorithms using the concept of co ocurrence for extracting results in radiological mammography images, of the Haralick s texture attributes. The implementation of the algorithms is made in OpenCL, an architecture for heterogeneous platforms, and CUDA, programing model created by NVIDIA and implemented for their GPUs. Enabling research about the performance of implementation on different architecture, analyzing and studying performance and accuracy of the co occurrence matrix and texture attributes for characterization of radiological images. Resumo. Este artigo descreve a implementação e a investigação de algoritmos computacionais paralelos utilizando o conceito de matrizes de coocorrência para a extração, nas imagens radiológicas de mamografias, dos atributos de texturas de Haralick. É feita a implementação dos algoritmos em OpenCL, uma arquitetura para plataformas heterogêneas, e CUDA, modelo de programação criada pela NVIDIA e implementada para suas GPUs. Possibilitando a investigação sobre o desempenho das implementações em diferentes arquiteturas, analisando e estudando performance e precisão da matriz de coocorrência e dos atributos de textura para caracterização de imagens radiológicas. 1. Introdução Para auxiliar o médico no diagnóstico de doenças que só são encontradas a partir de imagens médicas, vem sendo realizadas várias pesquisas para o desenvolvimento de sistemas de apoio ao diagnóstico, CAD Computer aided diagnosis. Diagnóstico auxiliado por computador (CAD) é um diagnóstico feito por um médico qual utiliza se de resultados realizado por um computador, no caso do câncer de mama, através da análise da imagem médica como uma segunda opinião, seja para detecção das lesões ou na tomada de decisões de diagnóstico, entretanto é importante enfatizar, que o diagnóstico final sempre será o do médico [Giger e Kupinski 2000]. O CAD surgiu para ajudar o médico no diagnóstico de diversas doenças e para isso ocorrer é necessário a elaboração de programas precisos e rápidos. Durante os últimos anos as GPUs Graphics Processing Unit vem sendo usadas por diversos

2 pesquisadores para calcular grandes massas de dados, por possuir ferramentas e arquitetura que permitem isso. Nessas pesquisas se destacam pela sua avançada programação, a linguagem paralela OpenCL [Gaster et al. 2012] e a linguagem exclusiva para arquiteturas NVIDIA CUDA [Sanders e Kandrot 2010]. A pesquisa realizada desenvolveu algoritmos em ambas linguagens, analisando e estudando desempenho e precisão da matriz de coocorrência e dos atributos de textura para caracterização de imagens radiológicas, a qual é levado em conta quando se faz um diagnóstico médico. Para isso foi utilizado o que se estava acessível em nível de computador pessoal e de computação de alto desempenho para o processamento e manipulação dos dados. O objetivo desta pesquisa é a implementação e a investigação de algoritmos computacionais com tecnologia de computação paralela, quais possam em projetos futuros ser utilizados na caracterização de imagens radiológicas de mamografia para o desenvolvimento de sistemas computadorizados de auxílio ao diagnóstico. 2. Materiais e Métodos Primeiro descreveremos o trabalho antes da análise dos atributos de textura de Haralick, [Haralick et al. 1973], introduzindo as ferramentas e tecnologias abordadas. Na próxima seção falaremos sobre a matriz de coocorrência e em seguinte os atributos de textura utilizados para caracterizar as imagens radiológicas. Logo após falaremos sobre aspectos do algoritmo serial, algumas otimizações de código e implementação paralela Plataforma de Desenvolvimento Os testes foram realizados em um Desktop com processador AMD FX 4100 Quad Core 3,30 GHz, 4 GB de RAM DDR3 e equipado com uma Geforce GT GB 96 CUDA Cores e em um nó do cluster CACAU (Centro de Armazenamento de dados e Computação Avançada da UESC) equipado com dois processadores Intel Xeon E GHz, 48 GB de RAM DDR3 e duas GPUs Tesla K20 5GB GDDD CUDA Cores, sendo somente usado uma delas para executar os algoritmos paralelos. Os sistemas operacionais instalados foram OpenSUSE bits e Red Hat Enterprise Linux Server release bits respectivamente. Ambos com CUDA Toolkit 6.5 (possui as bibliotecas OpenCL para GPUs NVIDIA) CUDA e OpenCL Alguns modelos de programação paralela não possuem mecanismos apropriados para trabalhar estruturas hierárquicas específicas de memória ou paralelismo massivo de dados. Já os modelos para arquiteturas heterogêneas baseados em CPU e GPU tem desempenhado um papel fundamental, pois apresentam ferramentas específicas para gerenciar estruturas complexas de memória e execução de SIMD (Single instruction, multiple data). A NVIDIA oferece uma plataforma de computação paralela e modelo de programação acessível ao desenvolvedor por meio de uma extensão à linguagem de programação C chamada Compute Unified Device Architecture (CUDA), utilizada exclusivamente em suas GPUs. As GPUs evoluíram em sistemas multicores altamente

3 paralelos tornado se mais eficientes que as CPUs de propósito geral ao lidar com algoritmos que processam grandes quantidades de dados em paralelo [Kirk e Hwu 2010], como algoritmos de ordenação e redução. OpenCL permite um gerenciamento de plataformas mais elaborado e garante portabilidade para múltiplos fornecedores de hardware [Khronos Group 2015]. Já estando disponíveis implementações de OpenCL para GPUs da AMD, NVIDIA e ATI bem como para CPUs da AMD, ARM, IBM e Intel Matriz de Coocorrência A extração dos atributos de textura proposto por Haralick são extraídos através da matriz de coocorrência de níveis de cinza. A matriz de coocorrência é uma matriz de frequências no qual dois pixels, em dada distância, ocorrem na imagem, [Haralick 1979]. Na fase inicial de estudos optamos por trabalhar com matrizes geradas randomicamente, sendo representação de uma imagem de 3000 x 3000 pixels de 12 bits de níveis de cinza (4096 diferentes níveis de cinza). A informação estatística obtida da imagem resulta em uma matriz de coocorrência esparsa de dimensão 4096 x O espaço ocupado é de 4096 x 4096 x 4 bytes = 64 MBytes na memória. As GPUs na qual realizamos os testes possuem 1 GB (Gforce GT 430) e 5 GB (Tesla K20) de memória. São extraídas matrizes de coocorrência para as direções 0º, 45º, 90º e 135º com distância 1, levando em consideração os sentidos da direita para esquerda e de baixo para cima abrangido as direções 180º, 225º, 270º e 315º, totalizando oito matrizes de coocorrência para uma mesma imagem (Figura 1). Após a etapa de extração, somamos as matrizes e normalizamos o resultado obtendo uma matriz de coocorrência resultante de duplo ponto flutuante. A partir dela são feitas os cálculos dos atributos de textura. Figura 1. Oito direções para extração da Matriz de Coocorrência Atributos de Texturas Haralick propôs quatorze atributos de texturas a serem extraídos da matriz de coocorrência de níveis de cinza [Haralick, et al. 1973]. Dos quatorze atributos implementamos dez. Os atributos implementados são: Segunda Momento Angular Também conhecido como energia. Ele mede a uniformidade da imagem.

4 Contraste f 1 = (P (i, j) ) 2 i=1 j=1 Contraste é uma estimativa da intensidade ou a variação dos níveis de cinza entre pares de pontos da imagem. Variância Ng 1 f 2 = n=0 i=1 j=1 i j =n n 2 { P (i, j) } É um indicador da variação da tonalidade de fundo da imagem. f 3 = (i μ) 2 P (i, j ) i =1 j =1 Momento da Diferença Inversa Mede a homogeneidade local da imagem. Ele é alto quando o nível de cinza local é uniforme e inversa quando a matriz de coocorrência de níveis de cinza é alta. Média da Soma f 4 = i=1 j=1 1 1+(i j) 2 P (i, j) É um indicador de pequenas mudanças e texturas sutis. Variância da Soma Soma da Entropia Entropia 2 Ng f 5 = k P x+ y (k) k =2 2 Ng f 6 = (k f 5 ) 2 P x+ y (k) k =2 2 Ng f 7 = P x+ y (k)log {P x+ y (k)} k =2 É o indicador de quantidade de informação propiciado pelas interações entre os pixels da imagem. f 8 = P (i, j ) log( P (i, j ) ) i =1 j =1 Variância da Diferença Ng f 9 = i =1 Diferença da Entropia Ng [ P x y (k)(k P x y ) 2 ] l=1

5 Ng f 10 = P x y (k) log{p x y (k)} k=1 A segui as definições dos atributos de texturas de Haralick. P x + y (k)= P (i, j) i =1 j =1 k=i+ j k =2,3,..2 Ng 2 P x y (k)= P (i, j ) i=1 j=1 k= i j k=0,1,2.. Ng 2 Ng P (i) = P (i, j) j =1 Ng μ= g p (g) g = Implementação dos algoritmos Para a implementação do código serial foi usado a linguagem C++, por ser imperativa e possuir recursos de linguagem orientada a objeto ao mesmo tempo proporcionando facilidades para manipulação de memória de baixo nível, além da compatibilidade com o CUDA e OpenCL. Iniciado a divisão e estudo dos atributos, foi implementado o código serial de cada método proposto, fazendo análise de tempo em cada arquitetura abordada para que mais tarde seja feita uma comparação de desempenho com o código paralelo para GPU. O código serial da matriz de coocorrência é calculado nas quatro direções (0º, 45º, 90º, 135º) em ambos os sentidos como abordado em 2.3 abrangendo os ângulos 180º, 225º, 270º e 315º, sendo usado quatro laços para calcular as oito direções, resultando em quatro matrizes. Cada matriz é normalizada e então tiramos a média, ao final obtemos uma matriz de coocorrência de níveis de cinza normalizada. Implementado os atributos de Haralick é feita uma análise de tempo individual a cada atributo, com a chamada de cada método que compõem suas equações, pois alguns deles possuem métodos comuns uns aos outros como P x + y (k) e P x y (k). O mesmo é feito ao obter o tempo para o código paralelo, visto que temos como objetivos a investigação e análise de cada algoritmo dos atributos. No código paralelo usando CUDA o programador deve criar funções denominadas kernels que são partes de código executadas na GPU. Os kernels geram um grande número de threads para poder explorar o paralelismo de dados. Na estrutura do CUDA estas threads são dívidas por blocos, compartilhando uma memória (geralmente 48 KBytes) de alta velocidade. Para o calculo da matriz de coocorrência com o CUDA separamos o problema em duas etapas. A primeira temos um kernel para calcular as matrizes nas oito direções seguindo sequencialmente um a um e somando os resultados em uma matriz final. Na segunda parte tempos o segundo kernel responsável

6 pela normalização. Ambos os kernels são chamados uma única vez. Para o código OpenCL o programador deve criar funções de kernels dentro de um aquivo nomeado com extensão.cl. Por ser uma linguagem multiplataforma fica a trabalho do programador, no código principal, apontar a plataforma, o dispositivo, criar o controlador do kernel e o contexto de execução [Kowalik e Puźniakowski 2012]. Para o calculo da matriz de coocorrência com OpenCL, primeiro temos um kernel para calcular as matrizes nas oito direções, mas pela versão atual não possuir suporte para operações atômicas com ponto flutuante, a normalização e feita na CPU. Por o OpenCL exigir o trabalho de identificação da plataforma e dispositivo, os testes apresentados foram realizados apenas na máquina com o AMD FX Diferente do CUDA que é atrelado as GPUs NVIDIA o OpenCL pode ser executado tanto na CPU quanto na GPU sendo necessário o fornecimento dos drivers pelas fabricantes. Para os testes na GPU Tesla K20 seriam necessários alterações no seu código fonte, alterações essas que serão realizadas nos próximos trabalho. Nos atributos de Haralick se segue a mesma ideia, as equações são dívidas em várias partes paralelizáveis e é construído um CUDA kernel para cada parte. Já quanto ao OpenCL não foi possível a implementação do código paralelo para os atributos de Haralick visto que a matriz de coocorrência é de duplo ponto flutuante e em todas as equações é necessário a realização de operações atômicas com double, ainda não suporta na versão 2.0 do OpenCL. 3. Resultados Todos os testes consistiram na avaliação de tempo para cada algoritmo individualmente. Na matriz de coocorrências, obtidos os tempos calculamos o speedup em comparação a cada caso (Tabela 1). Nos resultado ficou expressivo o ótimo desempenho do código para GPU com o uso do CUDA, chegando a onze vezes mais rápido em comparação ao pior caso. Tabela 1. Tempo de execução e comparação de speedup para todas as implementações da matriz de coocorrência normalizada. Tempo de Execução (s) Speedup Caso 1. Speedup Caso 2. Speedup Caso 3. Speedup Caso Serial para CPU (AMD FX 4100) 2. Serial para CPU (Intel Xeon E5 2440) 3. GPU OpenCL (GT 430) 4. GPU CUDA (GT 430) 5. GPU CUDA (Tesla K20) 5,04 2,11 2,39x 2,09 2,41 1x 1,10 4,56x 1,91x 1,9x 0,44 11,38x 4,77x 4,75x 2,50x

7 Nos cálculos dos atributos de Haralik (Tabela 2) o código paralelo se mostrou sempre melhor que o serial executado no processador AMD, já quando fazemos a comparação com o Intel Xeon as equações f 1, f 2, f 3 tiveram melhores resultados que as GPUs chegando a duas vezes mias rápido para a variância, f 3. Em alguns casos para o paralelo rodado na GPU GT 430 ouve pouca diferença em relação ao serial na Intel Xeon, na qual podemos levar em conta de que a placa Gforce GT 430 é um modelo que podemos considerar antigo. Já o paralelo executado Tesla K20 tivemos tempos em até quatorze vezes mais rápido. Está é uma GPU que tem como um dos propósitos os cálculos científicos. Tabela 2. Tempo de execução em segundos do programa para cada atributos de texturas de Haralick. Serial CPU (AMD FX 4100) Serial CPU (Xeon E5 2440) Paralelo GPU CUDA (GT 430) Paralelo GPU CUDA (Tesla K20) f 1 0,195 0,024 0,059 0,403 f 2 0,121 0,039 0,070 0,062 f 3 0,174 0,048 1,574 2,279 f 4 0,140 0,154 0,083 0,062 f 5 389, , ,697 14,9 f 6 762, , ,937 14,945 f 7 389, , ,234 14,9 f 8 0,623 0,599 0,209 0,08 f 9 615,96 213, ,093 22,579 f ,454 97,277 50,642 7, Conclusão O uso do OpenCL nos permitiu somente a calculo da matriz de coocorrência, por trabalhamos com operações inteiras, sendo necessária fazer a normalização na CPU. Todos as operações para calcular os atributos de texturas de Haralick são dependentes da matriz de coocorrência, em que seu resultado é em duplo ponto flutuante, não permitindo inicialmente as implementações dos atributos, pois o OpenCL ainda não possui, na versão atual, suporte para operações atômicas de duplo ponto flutuante. Este problema pode ser parcialmente resolvido com a conversão dos dados de double para long long int, alternativa que abordaremos nós próximos trabalhos. O CUDA demostrou uma ótima ferramenta para os cálculos da matriz de coocorrência chegando a onze vezes mais rápido em comparação ao pior caso. Para os atributos de textura obteve resultados de até sete vezes na GT 430, uma GPU simples, e quatorze vezes na Tesla K20, uma GPU própria para realização de cálculos científicos. Esta ferramenta se encontra se bem consolidada no mercado para lidar com massivas quantidades de dados a serem processados, se tornando uma boa alternativa para

8 biólogos e para medicina no processamento de imagens. Nos próximos trabalhos começaremos a realizar os testes com imagens médicas obtidas no DDSM: Digital Database for Screening Mammography, da University of South Florida, no endereço [Bowyer at al. 1996], também vamos implementar a versão paralela para CPU, com o uso do OpenMP (Open Multi-Processing), e uma implementação híbrida com o MPI (Message Passing Interface). 5. Referências Giger, M. L., Huo, Z., e Kupinski, M. A. (2000); Carl J Vyborny, Computer-Aided Diagnosis in Mammography, in Handbook of Medical Imaging, Volume 2. Medical Image Processing and Analysis, M. Sonka and J. M. Fitzpatrick, Eds th Street, Bellingham, WA USA: SPIE. Gaster, B., Howes, L., Kaeli, D. R., Mistry, P., Schaa, D. (2012), Heterogeneous Computing with OpenCL: Revised OpenCL 1.2 Edition, Elsevier Science. Sanders, J., Kandrot, E. (2010). CUDA by Example: An Introduction to General Purpose GPU Programming, Addison Wesley. Haralick, R. M., Shanmugam, K. e Dinstein, Its'Hak. (1973). Textural Features for Image Classification. IEEE Transactions on Systems Man and Cybernetics SMC, p Kowalik, J., Puźniakowski, T. (2012). Using OpenCL: Programming Massively Parallel Computers, IOS Press. Haralick, R. M. (1979). Statistical and structural approaches to texture. Proceeding of the IEEE, p Kirk, D. B., Hwu, W. W. (2010), Programming Massively Parallel Processores: A Hands on Approach, p Published by Elsevier Inc. Khronos Group, The open standard for parallel programming of heterogeneous systems. Disponível em: < Acesso em 27 de fev K. Bowyer, D. Kopans, W. P. Kegelmeyer, R. Moore, M. Sallam, K. Chang, and K. Woods, (1996) The Digital Database for Screening Mammography, 1996.