Aluna: Luana Peixoto Annibal Orientador: Prof. Dr. Ricardo Rodrigues Ciferri Co-orientador: Prof. Dr. Joaquim Cezar Felipe (FFCLRP-USP) Colaboradora: Profa. Dra. Cristina Dutra de Aguiar Ciferri(ICMC-USP)
Agenda Introdução Fundamentação Teórica Trabalhos Correlatos Proposta de Dissertação Referências Bibliográficas 2
Introdução Motivação Evolução e qualidade na área médica Pesquisas e gestão de recursos Análise e manipulação de dados Um Data Warehouse (DW) Auxilia na tomada de decisão de modo ágil e organizado Pesquisas estatísticas sobre a eficácia de um tratamento Análises de política pública para a compra de medicamentos Qual a quantidade de imagens, que são similares de acordo com um critério a uma determinada imagem de câncer de mama, ocorreram no ano de 2? Armazenamento dos dados multimídia no cubo de dados Realização de operações OLAP 3/total
Introdução - Objetivo Investigar o armazenamento e a manipulação de imagens médicas em aplicações de DW Questões a serem investigadas: Como as imagens deverão ser armazenadas no cubo de dados? Como as imagens poderão ser tratadas como medidas em um cubo de dados? E quais as consultas que são respondidas? Como as imagens poderão ser tratadas em dimensões de um cubo de dados? E quais as consultas que são respondidas? Quais funções de agregação devem ser propostas para gerar os níveis de agregação? Como é possível executar uma operação OLAP baseada em imagens, por exemplo, uma operação de drill-down em uma imagem ou em um conjunto de imagens? 4
Agenda Introdução Fundamentação Teórica Trabalhos Correlatos Proposta de Dissertação Referências Bibliográficas 5
Fundamentação Teórica Ambiente de Data Warehousing (DWing) Coleções de tecnologias que integra dados originários de fontes heterogêneas em um único repositório (DW), mantidos por um longo período de tempo Introdução Fundamentação Teórica Trabalhos Correlatos Detalhamento do trabalho Referências Bibliográficas 6
Fundamentação Teórica Data Warehouse coleção de dados orientados a assunto, integrados, nãovoláteis e históricos, utilizado em processos de tomada de decisão (Inmon, 25) Modelagem dos dados em espaço multidimensional Esquema estrela Esquema floco-de-neve Operações OLAP Drill-down, roll-up, slice-and-dice, pivot, drill-across Introdução Fundamentação Teórica Trabalhos Correlatos Detalhamento do trabalho Referências Bibliográficas 7
Fundamentação Teórica Sistema de Recuperação Baseada em Similaridade (CBIR) Organiza arquivos de imagens digitais utilizando seu conteúdo intrínseco Introdução Fundamentação Teórica Trabalhos Correlatos Detalhamento do trabalho Referências Bibliográficas 8
Fundamentação Teórica Método de mensurar a similaridade Espaço métrico {S,d()} S = Domínio dos dados d() = Função de distância Simetria d(s,s2) = d(s2,s) Não-negatividade < d(s,s2) < se s s2 Desigualdade triangular d(s,s2) d(s,s3) + d(s3, s2) Algoritmos de consulta K-vizinhos mais próximos Consulta por abrangência Introdução Fundamentação Teórica Trabalhos Correlatos Detalhamento do trabalho Referências Bibliográficas 9
Multimedia Data Warehouse Multimídia = dados não estruturados Descritores baseados em conteúdo e em descrição Introdução Fundamentação Teórica Trabalhos Correlatos Detalhamento do trabalho Referências Bibliográficas
Agenda Introdução Fundamentação Teórica Trabalhos Correlatos Proposta de Dissertação Referências Bibliográficas
Trabalhos Correlatos - MAM Método de acesso métrico melhoram o desempenho do processamento de consultas por similaridade VP-tree (YIANILOS, 993), a MVP-tree (BOZKAYA; OZSOYOGLU, 999), a GNAT (BRIN, 995), a M-tree, a Slim-tree, a Família-Omni, a DBM-tree e a Onion-tree Não enfocam características intrínsecas de aplicações de DWing Multi-dimensionalidade dos dados Organização dos dados do DW em diferentes níveis de agregação Suporte as operações OLAP típicas Qual a quantidade de imagens similares a uma certa imagem de consulta ocorreram em //27 no estado de SP para pacientes do sexo masculino? Não são prontamente atendidas por um MAM Incorporar em cada entrada do índice atributos referentes às dimensões do cubo de dados Imagens por dia por estado e por sexo do paciente Imagens por mês, por região e por idade do paciente 2
Trabalhos Correlatos - MDW Zaïane et. al., 998 Dedica as funcionalidades de MDW para a aplicação de métodos de mineração de dados Multimídia imagens e vídeos da internet Não foram detalhados: Modelo de dados; quais e como consultas são executáveis pelo sistema; e organização hierárquica dos atributos 3
Trabalhos Correlatos - MDW You et. al., 24 Dedica as funcionalidades de MDW para aplicação de métodos de reconhecimento e classificação de multimídia Multimídia texto, aúdio, vídeo, imagem e gráfico Esquema starflake Características de imagem são armazenadas nas dimensões cor, textura e forma Características estão distribuídas entre os níveis de dimensão Não executa funções de agregação e operações OLAP Adaptações: Mecanismo que construa vetores de características a partir dos atributos distribuídos nas dimensões e suas sub-dimensões Adaptações para o cálculo da dissimilaridade, para que não seja realizada durante a consulta 4
Trabalhos Correlatos - MDW Wong et. al., 24 Dedica as funcionalidades de MDW para estudos clínicos e científicos Auxílio a tomada de decisão Multimídia texto, imagens, gráficos e vídeos Realiza consultas complexas Não foram detalhados: Modelo de dados; como consultas são executáveis pelo sistema; funções de agregação Comparação de desempenho do NIDS com sistemas concorrentes Torna-se inadequado a proposta de adaptações para que o NIDS atinja aos objetivos do icube 5
Trabalhos Correlatos - MDW Arigon; Tchounikine; Miquel, 26 Dedica as funcionalidades de MDW para estudos científicos Auxílio a tomada de decisão Multimídia gráficos e imagem Esquema floco-de-neve Características da imagem e do gráfico são armazenadas nas dimensões Características estão distribuídas entre as dimensão normalizadas Executa funções de agregação (ECG-count, ECG-list, Average-ECG) e operações OLAP Adaptações: Construção de um esquema estrela (eliminação de redundâncias citadas no artigo) Adaptações para o cálculo da dissimilaridade, para que não seja totalmente realizada durante a consulta 6
Trabalhos Correlatos - MDW Chen et. al., 28 Dedica as funcionalidades de MDW para recuperação de dados multimídia Multimídia vídeos Esquema estrela Uma dimensão dedicada as características intrínsecas dos vídeos e armazenam frames líderes de categorias Não foram detalhados: Execução de consultas complexa, nem operações OLAP Adaptações Adaptar a estrutura para dados de imagens Avaliar o desempenho do sistema realizado sobre categorias de imagens Caso não seja adequado realizar adaptações para explorar outras categorias Construção de uma função de agregação e realização de operação OLAP sobre as imagens 7
Trabalhos Correlatos - MDW Wah; Sim, 29 Dedica as funcionalidades de MDW para estudos científicos Auxílio a tomada de decisão Multimídia não especificado Não foram detalhados: Modelo de dados; quais e como consultas são executáveis pelo sistema; e as características de conteúdo que foram utilizadas Torna-se inadequado a proposta de adaptações para que essa proposta atinja aos objetivos do icube 8
Agenda Introdução Fundamentação Teórica Trabalhos Correlatos Proposta de Dissertação Referências Bibliográficas 9
Detalhamento Proposta de execução da consulta Qual a quantidade de imagens que são similares a uma determinada imagem de câncer de mama e que ocorreram no ano de 2 na cidade de Ribeirão Preto para pacientes com idade entre 3 e 4 anos? Imagens representadas em uma dimensão Imagem extraídas as características de conteúdo Adaptação de algum sistema CBIR apresentado em literatura 2
Modelo de dados Qual a quantidade de imagens que são similares a uma determinada imagem de câncer de mama e que ocorreram no ano de 2 na cidade de Ribeirão Preto para pacientes com idade entre 3 e 4 anos? Imagem extraídas as características de conteúdo Paciente Imagem Id_paciente idade sexo... Local Id_local Hospital Bairro Cidade Região... Registro Id_local (FK) Id_imagem (FK) Id_data (FK) Id_paciente (FK) Quantidade Id_imagem Vetor de Caract. Distância_Repres roxo Distância_Repres verde... Data Id_data Dia Mês Anos Dia/Mês... 2
Detalhamento - ETL Quantas imagens que são similares... Extração de características Módulo de extração de características Vetor de características Vetores de caract. BD temp. Identificação de imagens representantes 2 3 Vetor de caract. de representantes Calculo das distâncias Distâncias Módulo de HF (Omni) Metadado Módulo calculo de distância icube 22
Detalhamento - ETL Quantas imagens que são similares... Extração de características Vetor de caract. Módulo de extração de características BD temp. 23
Detalhamento - ETL Quantas imagens que são similares... Extração de características Módulo de extração de características Vetor de características Vetores de caract. BD temp. Identificação de imagens representantes 2 3 Vetor de caract. de representantes Calculo das distâncias Distâncias Módulo de HF (Omni) Metadado Módulo calculo de distância icube 24
Detalhamento Quantas de imagens que são similares... Vetor de caract. de cada imagem do DW 3 Vetor de caract. de cada representante Calculo das distâncias Distâncias Módulo calculo de distância 25
Detalhamento Dimensão imagem Vetor de característica para comparação baseado na densidade da mama 65 descritores (Kinoshita et. al. 27) IdImag Vetor_carac. DistRep DistRep2 DistRep3... 56,57 6,7289 2 56,57 62,827 3 6,73 62,8 4 5,65 42,9 5,5662 5 34,6 33,589 36,8788 6 43,8 7,88854 47,438 7 39,6 34,493 3,62278 8 6,96 4,236 25,5993 9 52,95 63,65532 34,2 39,83 3,5............ 26
Detalhamento da consulta 27
Estratégia de Consulta Qual a quantidade de imagens que são similares... A identificação de imagens similares é uma operação custosa Calcular a distância (dissimetria) entre as imagens várias vezes Se um dos problemas dessa operação é a quantidade de vezes que o cálculo é feito Qual a estratégia que você admitiria para reduzir o custo dessa operação? Reduziria a quantidade de comparações (cálculo de distância) Como? Dados convencionais Filtros de similaridade (Omni) 28
Execução da Consulta 2 Extração de características Vetor de características Módulo de extração de características Metadado Vetor de caract. de representantes Calculo das distâncias Módulo calculo de distância 3 Dist. dos representantes 4 Seleção por distância dos representantes Imagens próximas Seleção por similaridade 5 Imagens similares Contagem 6 Quantidade icube Seleção por dimensões convencionais Módulo de seleção convencional Módulo de seleção pelo conceito Omni Imagens selecionadas por dimensões convencionais Módulo calculo de similaridade Módulo de agregação 29
Detalhamento - Consulta Redução da quantidade de comparações Eliminação de cálculos desnecessários por: Condições sobre dados em dimensões convencionais Qual a quantidade de imagens que são similares a uma determinada imagem de câncer de mama ocorreram no ano de 2 na cidade de Ribeirão Preto para pacientes com idade entre 3 e 4 anos? 3
IdImagem Idade Cidade Ano 54 Ribeirão Preto 2 2 33 São Paulo 2 Detalhamento 3 39 Ribeirão Preto 2 4 32 Ribeirão Preto 2 5 45 Ribeirão Preto 2 6 33 Piracicaba 2 7 38 Ribeirão Preto 2 8 44 Ribeirão Preto 2 9 33 Ribeirão Preto 2 3 Ribeirão Preto 2 32 Ribeirão Preto 29 2 35 Ribeirão Preto 2 3 4 São Paulo 2 4 39 Ribeirão Preto 28 5 37 Ribeirão Preto 2 6 32 Ribeirão Preto 2 7 3 Ribeirão Preto 2 8 34 Ribeirão Preto 2 9 35 Ribeirão Preto 2 2 Introdução 32 Ribeirão Preto Fundamentação Teórica 2 Trabalhos Correlatos Proposta de dissertação Referências bibliográficas 3
Detalhamento - Consulta Redução da quantidade de comparações Eliminação de cálculos desnecessários por: Condições sobre dados em dimensões convencionais Remoção pelas condições: Idade entre [3,4] e Cidade Ribeirão Preto e ano 2 idimagem Ano Cidade Idade 3 2 Ribeirão Preto 39 4 2 Ribeirão Preto 32 7 2 Ribeirão Preto 38 9 2 Ribeirão Preto 33 2 Ribeirão Preto 3 2 2 Ribeirão Preto 35 5 2 Ribeirão Preto 37 6 2 Ribeirão Preto 32 7 2 Ribeirão Preto 3 8 2 Ribeirão Preto 34 9 2 Ribeirão Preto 35 2 2 Ribeirão Preto 32 32
Fundamentação Teórica Redução da quantidade de comparações Conceito Omni Estabelecimento de vizinhança de imagens similares Distância da imagem de consulta ao representante d Raio de abrangência r d Rep ImagC r r 33
Fundamentação Teórica Conceito Omni Distância da imagem do repositório ao representante d + r Rep d - r ImagC r r I j = {imag k (d j r ou ) <= x j <= d j + r, imag k Є cjto de representantes} j I j Número de representantes = (dimensão intrínseca + ) 34
Detalhamento Conceito Omni r = d imagcons,repres = 43,28 I = [33,28; 53,28] d imagcons,repres2 = 3,48 I 2 = [2,48; 4,48] d imagcons,repres3 = 33,54 I 3 = [23,54; 43,54] IdImagem Repr Repr2 Repr3 3 6,73 62,8 4 5,65 42, 5,6 7 39,6 34,4 3,62 9 52,95 63,66 34,2 39,83 3,5 2 66,22 33,24 38, 5 28,46 5,7 32,28 6 45,22 26,7 37,22 j I j IdImagem Repr Repr2 Repr3 7 39,6 34,4 3,62 34,2 39,83 3,5 6 45,22 26,7 37,22 7 46,86 29,73 33,29 2 46,4 2,93 4,34 7 46,86 29,73 33,29 8 53,23 7 46, 9 32,4 24,52 56,75 2 46,4 2,93 4,34 35
Detalhamento Consulta por similaridade sobre o resultado das etapas anteriores 7 6 5 IdImagem Dist. da imagem de consulta 4 7 5 3 2 7 7 6 2 2,4 6 4,47 7 3,6 2 8,6 2 3 4 5 6 7 36
Aperfeiçoamento 37
Aperfeiçoamento Propor um índice bitmap Distância para cada representante Definição de intervalos de distância Dimensão Local Índice em cidade Dimensão Paciente Definição de intervalos de idade Dimensão Data Índice em ano Execução da consulta Intersecção dos índices 38
IdImagem DistRep 2 56,57 3 6,73 4 5,65 5 34,6 6 43,8 7 39,6 8 6,96 9 52,95 34,2 72,35 2 66,22 3 44,28 4 54,59 5 28,46 6 45,22 7 46,86 8 53,23 9 32,4 2 46,4 Aperfeiçoamento [-) [-2) Mais de 6 [2-3) [3-4) [4-5) [5-6) I = [33,28; 53,28]
Aperfeiçoamento IdImagem DistRep [33,48-4) [4-5) [5-53,48] 2 56,56854 3 6,7289 4 5,65248 5 34,5877 6 43,832 7 39,59798 8 6,959 U U = 9 52,9528 4 72,34639 2 66,2933 3 44,2838 4 54,58938 5 28,465 6 45,2268 7 46,865 8 53,22593 9 32,432 2 46,49 33,48-53,48
Aperfeiçoamento Rep3-23,54; 43,54 Rep2-2,48; 4,48 Rep- 33,28; 53,28 2 Rib Idd3-4 = Result 4
Atividades futuras Cronograma Atividade : Defesa da qualificação de mestrado; Atividade 2: Revisão do estado da arte na literatura Atividade 3: Estudo e identificação de descritores e características significativas para o domínio das consultas; Atividade 4: Projeto do icube quanto a forma de armazenamento das imagens no esquema estrela e o detalhamento da estratégia de processamento de consultas OLAP; Atividade 5: Investigação de funções de agregação para o icube e investigação de operações OLAP; Atividade 6: Desenvolvimento e codificação de protótipo do icube; 42
Atividades futuras Cronograma Atividade 7: Implementação de trabalhos correlatos Atividade 8: Realização de testes e validação do icube por meio de comparação com trabalhos correlatos; Atividade 9: Planejamento de aperfeiçoamentos para o icube e codificação dessas melhorias em função dos resultados da atividade 8; Atividade : Redação e submissão de artigos a eventos e periódicos nacionais e internacionais; Atividade : Escrita da monografia da dissertação de mestrado; Atividade 2: Preparação para a defesa da dissertação de mestrado; e Atividade 3: Defesa da dissertação de mestrado. 43
Agenda Introdução Fundamentação Teórica Trabalhos Correlatos Proposta de Dissertação Referências Bibliográficas 44
Referência Bibliográfica ARIGON, A.M., TCHOUNIKINE, A., MIQUEL, M. Handling Multiple Points of View in a Multimedia Data Warehouse. ACM Transactions on Multimedia Computing, Communications and Applications, v. 2. August 26, p: 99-28. ARIGON, A.M., MIQUEL, M., TCHOUNIKINE, A. Multimedia Data Warehouses: A Multiversion Model and a Medical Application. Journal of Multimedia Tools and Applications. Springer Netherlands. v. 35, 9-8. 27. DOI -.7/s42-7-8-7. BOZKAYA, T.; OZSOYOGLU, M. Indexing large metric spaces for similarity search queries. ACM Transactions On Database Systems, v. 24, n. 3, p. 36-44, 999. BRIN, S. Near Neighbor Search in Large Metric Spaces. The VLDB Journal, p. 574-584, 995. CARÉLO, C. C. M., POLA, I. R. V., CIFERRI, R. R., TRAINA, A. J. M., TRAINA Jr., C., CIFERRI, C. D. A. The Onion-Tree: Quick Indexing of Complex Data in the Main Memory. Lecture Notes in Computer Science. Springer Berlin, Heidelberg. v. 5739/29, p. 235-252. 29. CHAUDHURI, S. and DAYAL, U. An overview of data warehousing and OLAP technology. SIGMOD Record. 26():65-74. 998. CHEN, M., SONG, Y., SUN, Z., CHEN, H., SANG, A. Multimedia Database Retrieval Based on Data Cube. International Conference on Audio, Language and Image Processing. Shanghai. 265-269. July 28. DOI -.9/ICALIP.28.45937. CIACCIA, P.; PATELLA, M. Searching in metric spaces with user-defined and approximate distances. ACM Transactions On Database Systems, v. 27, n. 4, p. 398-437, 22. FELIPE, J. C., TRAINA, A. J. M, e TRAINA Jr., C. Global warp metric distance: Boosting content-based image retrieval through histograms. In IEEE International Symposium on Multimedia (ISM 25), Irvine, CA, USA, 25. FILHO, R. F. S. et al. Similarity search without tears: the OMNI-family of all-purpose access methods. In: INTERNATIONAL CONFERENCE ON DATA ENGINEERING, 7th 2, Proceedings... 2. p. 623-63. GAEDE, V.; GÜNTHER, O. Multidimensional Access Methods. ACM Computing Surveys, v.3, n.2, p. 7-23, June, 998. 45
Referências Bibliográficas GONZALEZ, R. C., WOODS, R. E. Digital Image Processing. 3 rd Ed. Upper Saddle River, New Jersey. 28 INMON, W.H. Building the Data Warehouse. 4 nd Ed. Indianapolis: Wiley Computer Publishing, 25. KIMBALL, R., ROSS, M. The Data Warehouse Toolkit. 2 nd Ed. New York: Wiley Computer Publishing, 22. MURPHY, S. Data Warehousing for Clinical Research. Encyclopedia of Database Systems. Springer US. Eds: Liu, L.; Özsu, M. T. p. 747-752, 29. SONG, I.Y. Data Warehousing Systems: Foundations and Architectures. Encyclopedia of Database Systems. Springer US. Eds: Liu, L.; Özsu, M. T. 29. WAH, T. Y., SIM, O. S. Development of a Data Warehouse for Lymphoma Cancer Diagnosis and Treatment Decision Support. WSEAS Transactions on Information Science and Application. v. 6, 53-543. March-29. WONG, S. T., HOO JR, K. S., CAO, X., TJANDRA, D., FU, J. C., DILLON, W. P. A Neuroinformatics Database System for Disease-Oriented Neuroimaging Research. Academic Radiology, v., issue 3, 345-358. 24. DOI -.6/S76-6332(3)676-7. YOU, J. J., CHEUNG, K. H., LIU, J., GUO, L. On Hierarquical Content-based Image Retrieval by Dynamic and Guided Search. Lecture Notes in Computer Science,v. 537, 559-57. 24. DOI -.7/2.529. ZAÏANE, O. R., HAN, J., LI, Z.N., CHEE, S.H., CHIANG, J.Y. MultiMediaMiner: A System Prototype for Multimedia Data Mining. ACM SIGMOD International Conference on Management of Data. Seattle, United State. 58-583. 998 46