Ambiente de Data Warehouse Para Imagens Médicas Baseado Em Similaridade

Documentos relacionados
Consultas por Similaridade em Domínios de Dados Complexos

Proposta de um Cubo de Dados para Imagens Médicas Baseado em Similaridade

3.2 Espaços Métricos e Consultas por Similaridade

ImageDW-index: Uma estratégia de indexação voltada ao processamento de imagens em data warehouses

Índice Bitmap. Aluno: Carlos Henrique Villa Pinto Orientador: Ricardo Rodrigues Ciferri Colaboradora: Renata Miwa Tsuruda

Modelagem Multidimensional - Nível Lógico -

Índice Bitmap e Indexação de Ambientes de Data Warehousing

Banco de Dados Profa. Dra. Cristina Dutra de Aguiar Ciferri. Banco de Dados Processamento e Otimização de Consultas

Tipos de Dados Biológicos e Multimídia

Modelagem Multidimensional - Nível Físico -

Descritores de Imagens

TABELA ENTIDADE LINHA OCORRÊNCIA DA ENTIDADE COLUNA ATRIBUTO DA ENTIDADE

Aula 02. Evandro Deliberal

Modelagem Multidimensional

SQL. Processamento Analítico de Dados Profa. Dra. Cristina Dutra de Aguiar Ciferri Prof. Dr. Ricardo Rodrigues Ciferri

Descritores de Imagem (exemplos)

23/05/12. Consulta distribuída. Consulta distribuída. Objetivos do processamento de consultas distribuídas

Modelagem Multidimensional - Nível Físico -

SQL. Processamento Analítico de Dados Profa. Dra. Cristina Dutra de Aguiar Ciferri Prof. Dr. Ricardo Rodrigues Ciferri

ÁLGEBRA E CÁLCULO RELACIONAL

Modelagem Multidimensional - Nível Físico -

Arquivos invertidos 39

Banco de Dados Espaciais

Aula 6 Mineração Streams Representação dos Dados. Profa. Elaine Faria UFU

Rápida revisão do Modelo Relacional

Processo de Criação de um Esquema Estrela

Arquitetura de um Ambiente de Data Warehousing

Aprendizado de Máquina (Machine Learning)

Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Abordagens automáticas

Banco de dados Brasil

ANÁLISE E PROJETO DE BANCO DE DADOS

Motivação Por que estudar?

Diego Martin Mancini Orientador: Prof. Paulo A. V. de Miranda Instituto de Matemática e Estatística Universidade de São Paulo

Capítulo 7. Expressões e Sentenças de Atribuição

Uso de Índices na Otimização e Processamento de Consultas. Otimização e Processamento de Consultas. Otimização e Processamento de Consultas

Processamento de Consultas. Simone Dominico Orientador: Dr. Eduardo Cunha de Almeida PPGINF - UFPR

SB-index: Um Índice Espacial baseado em Bitmap para Data Warehouse Geográfico

Introdução a Ciência da Computação Estrutura e Organização das Informações PROFESSORA CINTIA CAETANO

Data Warehouse. Debora Marrach Renata Miwa Tsuruda

Hashing Externo. SCC-503 Algoritmos e Estruturas de Dados II. Thiago A. S. Pardo M.C.F. de Oliveira Cristina Ciferri

Identificação de Pontos Perceptualmente Importantes (PIP) em séries temporais de tópicos extraídos de dados textuais

Processamento de Imagens Coloridas. 35M34 Sala 3D5 Bruno Motta de Carvalho DIMAp Sala 15 Ramal 227

Linguagem de Maquina II. Visão Geral

Prof. Fernando V. Paulovich 3 de agosto de SCC Computação Gráca

BANCO DE DADOS I/MODELAGEM DE DADOS Prof. Ricardo Rodrigues Barcelar

Álgebra Relacional e SQL operações de interesse

VISÃO COMPUTACIONAL. Marcelo Henrique dos Santos

Sistemas especialistas Fuzzy

23/05/12. Agenda. Introdução. Introdução. Introdução. Álgebra. Relacional. Cálculo. Relacional

Modelo Booleano Wendel Melo

Mineração de Dados. Arthur Emanuel de O. Carosia Cristina Dutra de Aguiar Ciferri

Modelagem Multidimensional

I-Preproc: uma ferramenta para pré-processamento e indexação incremental de documentos

Arquitetura de um Ambiente de Data Warehousing

Universidade Federal da Paraíba CCEN Departamento de Informática Disciplina: Banco de Dados. Aula 1 Introdução a Banco de Dados

Seleção e Otimização de Fontes

Processamento De Imagem. Descritores de Cor

Imagem Digital. Claudio Carvilhe

Autor(es) HARLEI MIGUEL DE ARRUDA LEITE. Orientador(es) MARINA TERESA PIRES VIEIRA. Apoio Financeiro PIBIC/CNPQ. 1. Introdução

MAPEAMENTO OBJETO RELACIONAL

Conceitos Básicos. Processamento Analítico de Dados Profa. Dra. Cristina Dutra de Aguiar Ciferri Prof. Dr. Ricardo Rodrigues Ciferri

Modelagem Multidimensional - Nível Físico -

Introdução à Computação

Busca de imagens baseada no conteúdo: Aplicação em imagens médicas

Arquitetura de um Ambiente de Data Warehousing

Motivação e Conceitos Básicos

Programação de Computadores I Dados, Operadores e Expressões PROFESSORA CINTIA CAETANO

Padrões de Projeto de Software

Busca por Similaridade no CassandraDB. Antonio Mourão, Rafael Pasquini, Rodolfo Villaça, Lasaro Camargos

Banco de dados. Conteúdo: Modelo relacional Prof. Patrícia Lucas

Hashing. Hashing. Hashing versus Indexação. Hashing. Hashing convencional... Exemplo de espalhamento. Revisão...

Revisando Banco de Dados. Modelo Relacional

Modelo Relacional - Manipulação

Métodos Computacionais. Operadores, Expressões Aritméticas e Entrada/Saída de Dados

Álgebra Relacional e SQL

Algoritmos Genéticos

Imagem ou Desenhos e Gráficos vetorial ou raster?

Algoritmos de bulk-loading para o método de acesso métrico Onion-tree

Instruções, dados e expressões

Processamento Digital de Imagens

Processamento Digital de Imagens

Banco de Dados I Álgebra Relacional

Sistema de Banco de Dados. UNIDADE 1 Introdução aos Sistemas de Bancos de Dados Professor: Armando Hage

Sistemas de Informação Geográficos. Informação na Organização. O Valor da Informação. Sistemas de Informação Tradicionais. O Valor da Informação

Hashing: conceitos. Hashing

Bancos de Dados IV. Data Warehouse Conceitos. Rogério Costa

GESTÃO DE DADOS NAS ORGANIZAÇÕES. Prof. Robson Almeida

3 Extração de Regras Simbólicas a partir de Máquinas de Vetores Suporte 3.1 Introdução

Os efeitos do paralelismo e relações de thesaurus em uma ferramenta de busca em bases textuais

Raciocínio Baseado em Casos. Baseado no material do prof. Luis Otavio Alvares

Resultados da Segmentação

IMPLEMENTAÇÃO DE ALGORITMO PARA IDENTIFICAÇÃO DE IMPRESSÕES DIGITAIS

Hashing convencional...

Práticas de Contagem. - Data Warehouse. - Workflow. - Mudança de tipo. - Drop-down. - Mudança de tamanho de campo. - Mudança de domínio

Determinação de vícios refrativos oculares utilizando Support Vector Machines

P R O J E T O: C A R N A V A L. 2. Informações Básicas sobre o Sistema a ser Desenvolvido

Mapa Mental de Data Warehouse Definições e Características

Introdução à Computação

Transcrição:

Universidade de São Paulo - USP Instituto de Ciências Matemáticas e de Computação - ICMC Programa de Pós-Graduação em Ciências da Computação e Matemática Computacional Ambiente de Data Warehouse Para Imagens Médicas Baseado Em Similaridade Luis Marcelo Bortolotti

O imagedwe 2

imagedwe imagedwe, proposto por Teixeira et al. (2015) Armazenamento em conjunto de dados convencionais e de dados imagens Extensão do esquema estrela para englobar tabelas dimensão projetadas para armazenar dados de imagens Diminuição do gap semântico com o uso do conceito de camadas perceptuais (perceptual layers) 3

imagedwe imagedwe, proposto por Teixeira et al. (2015) Extensão do processo de ETL, para suportar imagens. São gerados dados para as camadas perceptuais armazenadas no imagedw Extensão do processamento de consultas OLAP, integrando a execução de consultas por similaridade às consultas OLAP convencionais Introdução de uma técnica de indexação, que contempla a especificação de um índice e a definição de diferentes estratégias de processamento de consultas 4

O imagedwe 5

O imagedw O imagedw é modelado segundo o esquema estrela Tabela fato contém medidas numéricas e chaves estrangeiras para as tabelas dimensão; mantém a relação entre cada imagem e seus dados convencionais Tabelas dimensão convencionais contém a chave primária e vários atributos descritivos Tabelas dimensão de imagens contém os dados intrínsecos das imagens e suportam a definição de várias camadas perceptuais 6

Camada Perceptual e Tabelas Dimensão de Imagens Uma Camada Perceptual é a representação de conjunto de imagens de acordo com um descritor de características de forma a permitir a busca por similaridade As imagens são representadas por: Seus vetores de características, gerados de acordo com um descritor de características específico e; Seus dados de similaridade, geradas de acordo com um espaço métrico específico 7

O imagedw Tabela Fato 8

O imagedw Tabelas Dimensão Convencionais 9

O imagedw Tabela Dimensão de Imagem Primária vetores de características 10

O imagedw Tabelas Dimensão de Imagem Secundárias atributos para busca por similaridade (distâncias de uma imagem até as representativas, de acordo com a técnica Omni) 11

O Processo ETL Estendido Extração e armazenamento de características de imagens As etapas se repetem para cada camada perceptual 12

O Processo ETL Estendido Extração das características e criação dos vetores de características 13

O Processo ETL Estendido Definição das imagens representativas 14

O Processo ETL Estendido Cálculo das distâncias para cada elemento do conjunto 15

O Processamento de Consultas OLAP Estendido Extensão das consultas OLAP, incorporando a execução de consultas por similaridade Atributos convencionais são comparados pelos operadores relacionais tradicionais Os predicados de busca por similaridade estão associados às características intrínsecas das imagens, dando suporte a uma ou mais camadas perceptuais 16

O Processamento de Consultas OLAP Estendido Divididas em seis etapas: a. Seleção via predicados convencionais b. Extração de características c. Cálculo das distâncias d. Filtro pelas distâncias até as imagens representativas e. Refinamento pelas distâncias até imagens selecionadas f. Cálculo da resposta 17

O Processamento de Consultas OLAP Estendido Acontece em 6 etapas 18

O Processamento de Consultas OLAP Estendido (a) Seleção via predicados convencionais Filtra o conjunto de resultados possíveis com base em dados alfanuméricos tradicionais 19

O Processamento de Consultas OLAP Estendido (b) Extração de características Extrai as características da imagem de busca de acordo com os descritores utilizados nas camadas perceptuais 20

O Processamento de Consultas OLAP Estendido (c) Cálculo das distâncias Calcula a distância da imagem de busca até as imagens representativas de cada camada perceptual, utilizando a mesma função distância do processo ETL estendido 21

O Processamento de Consultas OLAP Estendido (d) Filtro pelas distâncias até as imagens representativas As imagens selecionadas na etapa (a) são filtradas de acordo com os predicados de busca por similaridade 22

O Processamento de Consultas OLAP Estendido (e) Refinamento pelas distâncias até imagens selecionadas Com base nas distâncias entre a imagem de busca e as imagens resultantes da etapa (d); são eliminados os falsos positivos 23

O Processamento de Consultas OLAP Estendido (f) Cálculo da resposta Usa as imagens similares encontradas na etapa (e), para calcular a resposta 24

O Processamento de Consultas OLAP Estendido Exemplo: consultas OLAP estendidas Considere a consulta definida por um especialista Quantas imagens são similares a uma dada imagem de mamografia (imagem de consulta), de acordo com as camadas perceptuais de Histograma de Cores (ColorHistogram) e Zernike e dentro do raio de busca r q, que ocorreram no estado de Nova York, na faixa etária de 30 a 40 anos, nos anos de 1993 a 1994, nos hospitais da macrorregião do Estado de Nova York 25

O Processamento de Consultas OLAP Estendido a. Seleção via predicados convencionais As imagens são filtradas de acordo com o ano em que foram geradas, com a macrorregião onde estão localizados os hospitais, com o estado onde os pacientes estão e, sua idade na datas em que foram realizados os exames b. Extração de características São gerados dois vetores de características, um para o Histograma de Cores e outro para Zernike c. Cálculo das distâncias São calculadas três distâncias para as imagens representativas da camada perceptual de Histograma de Cores, e outras três para a camada perceptual de Zernike 26

O Processamento de Consultas OLAP Estendido d. Filtro pelas distâncias até as imagens representativas Com as distâncias calculadas na etapa (c) e um raio de busca r q, calcular a mbor da consulta para cada camada perceptual; filtrar apenas as imagens presentes em todas as mbor e. Refinamento pelas distâncias até imagens selecionadas São eliminados os falsos positivos f. Cálculo da resposta Usa funções de agregação para determinar a quantidade de imagens retornadas 27

O imagesjbindex É um índice star-join bitmap que indexa a distância entre as imagens do conjunto de dados e as imagens representativas, de acordo com cada camada perceptual É uma matriz m x n onde m é o número de vetores, de forma que exista pelo menos um vetor para cada imagem representativa de cada camada perceptual, e n é a quantidade de tuplas indexadas Utiliza binning Cada vetor binário representa um intervalo de valores, ao invés de valores discretos 28

O imagesjbindex Exemplo: imagesjbindex para o esquema estrela do imagedw 29

O imagesjbindex O imagesjbindex modifica a etapa (d) do Processamento de Consultas OLAP Estendido: Filtro pelas distâncias até as imagens representativas São indexadas as distâncias entre as imagens armazenadas e as imagens representativas Não há necessidade de acessar o imagedw As imagens pertencentes à mbor através de operações bit a bit 30

O imagesjbindex Uso do imagesjbindex Considere o predicado de busca por similaridade do exemplo 3: Quantas imagens são similares a uma dada imagem de mamografia (imagem de consulta), de acordo com as camadas perceptuais de Histograma de Cores (ColorHistogram) e Zernike e dentro do raio de busca r q =1 As distâncias calculadas para os representantes de cada camada perceptual (o intervalo é dado por r q ): Distância entre a imagem de busca e as imagens representativas da camada perceptual do Histograma de Cores Distância entre a imagem de busca e as imagens representativas da camada perceptual do Zernike 31

O imagesjbindex Uso do imagesjbindex Primeiro, na etapa (d) melhorada é feita a intersecção do imagesjbindex com os intervalos calculados da imagem de busca 32

O imagesjbindex Uso do imagesjbindex Primeiro, na etapa (d) melhorada é feita a intersecção do imagesjbindex com os intervalos calculados da imagem de busca Imagem de busca 33

O imagesjbindex Uso do imagesjbindex Primeiro, na etapa (d) melhorada é feita a intersecção do imagesjbindex com os intervalos calculados da imagem de busca Imagem de busca 34

O imagesjbindex Uso do imagesjbindex Como são selecionados dois bins para CHDISTRep_1 e dois para CHDISTRep_2, é realizada uma operação OR entre os bins Por fim, é aplicado uma operação AND entre os bins e o resultado da etapa (d) melhorada é obtido 35

Estratégias de Processamento de Consultas 36

Estratégias de Processamento de Consultas A estratégias de processamento de consultas visam usar o imagesjbindex no processamento de consultas OLAP por similaridade As estratégias são baseadas em dois aspectos: I - indexação opcional utilizando o imagesjbindex dos dados convencionais e vetores de características II - Análise em diferentes ordens dos predicados de busca convencionais e de similaridade usando o imagesjbindex 37

I - indexação opcional utilizando o imagesjbindex Determina se os vetores de características serão indexados ou não utilizando o imagesjbindex Quando os vetores de características são indexados não existe a necessidade de acessar o imagedw para o processamento de consultas Utilizadas apenas em vetores de características de baixa dimensionalidade, devido aos altos custos envolvidos no processamento de consultas com dados de alta dimensionalidade 38

II - Análise em diferentes ordens dos predicados de busca Utilizando o imagesjbindex, são definidas duas abordagens para determinar qual a ordem de análise dos predicados de busca convencionais e de similaridade: dividida (split) e combinada (combined) 39

II - Análise em diferentes ordens dos predicados de busca Na abordagem dividida, primeiro são filtradas as imagens utilizando os predicados de similaridade usando o imagesjbindex e, depois filtra as imagens utilizando os predicados convencionais Apresenta melhor suporte para consultas utilizando apenas os predicados de similaridade 40

II - Análise em diferentes ordens dos predicados de busca Na abordagem combinada, os predicados convencionais e de similaridades são filtrados juntos, utilizando o imagesjbindex Ambos predicados devem estar indexados pelo imagesjbindex Maior eficiência em consultas que utilizam ambos os predicados convencionais e de similaridade 41

Estratégias de Processamento de Consultas A combinação das duas abordagens de processamento de predicados, é possível determinar 4 estratégias diferente de processamento de consultas splitnotindexfv splitindexfv combinednotindexfv combinedindexfv 42

splitnotindexfv É a junção das abordagens dividida (split) com a de não indexar os vetores de características 43

splitnotindexfv As imagens são filtradas primeiro pelo pelo predicado de similaridade e, após, pelo predicado convencional imagesjbindex distâncias entre entre as imagens armazenadas e as imagens representativas 44

splitindexfv É a junção das abordagens dividida (split) com a de indexar os vetores de características 45

splitindexfv As imagens são filtradas primeiro pelo pelos predicados de similaridade e, após, pelos predicados convencionais imagesjbindex distâncias entre entre as imagens armazenadas e as imagens representativas e vetores de características das imagens 46

combinednotindexfv É a junção das abordagens combinada (combined) com a de não indexar os vetores de características 47

combinednotindexfv imagens são filtradas pelos predicados convencionais e os de consulta por similaridade juntos imagesjbindex distâncias entre as imagens armazenadas e as representativas e predicados convencionais 48

combinedindexfv É a junção das abordagens combinada (combined) com a de indexar os vetores de características 49

combinedindexfv As imagens são filtradas pelos predicados convencionais e os de consulta por similaridade juntos imagesjbindex todos os dados armazenados no imagedw 50

Comparação das Estratégias de Processamento Estratégia Predicado de Busca por Similaridade Dados Indexados Predicado Convencional Vetor de Características Acesso ao imagedw splitnotindexfv Sim Não Não Sim splitindexfv Sim Não Sim Sim combinednotindexfv Sim Sim Não Sim combinedindexfv Sim Sim Sim Não Ordem de Processamento (d) melhorado (a) (e) (d) melhorado (e) (a) (a) + (d) melhorado (e) (a) + (d) melhorado (e) Fonte: Adaptado de Teixeira et al. (2015) 51

Resultados 52

Resultados As estratégias splitnotindexfv e splitindexfv são mais adequadas para consultas que contém apenas o predicado de similaridade splitnotindexfv é adequada para vetores de características com altas dimensionalidades splitindexfv é adequada para vetores de características com baixa dimensionalidade 53

Resultados Para consultas que envolvem também predicados convencionais, as estratégias combinednotindexfv e combinedindexfv são as mais adequadas combinednotindexfv apresentou melhor desempenhos para vetores de de características com alta dimensionalidade combinedindexfv apresentou melhor desempenhos para vetores de de características com baixa dimensionalidade Apresentaram melhor desempenho quando o predicado convencional é menos seletivo 54

Resultados A estratégia básica de processamento se mostrou mais adequada para para consultas envolvendo predicados convencionais e de imagem, quando o predicado convencional é mais seletivo 55

Referências Teixeira, J. W., Annibal, L. P., Felipe, J. C., Ciferri R. R., and Ciferri, C. D. de A. A similarity-based data warehousing environment for medical images. Comput. Biol. Med. 66, C (November 2015), 190-208. 56