Faculdade de Ciências e Tecnologia Departamento de Matemática e Computação Bacharelado em Ciência da Computação Visualização de Informação: Processo, Técnicas e Ferramentas Prof. Dr. (rogerio@fct.unesp.br) Roteiro Introdução Conceitos Básicos Classificação Dados Visualização Exploratória Classificação das Técnicas Aplicação e Ferramentas Origem dos Dados Alguns Resultados Considerações Finais 2 1
Introdução Por que visualização? 3 Introdução Mas cuidado... 4 2
Visualização Visualização Científica Visualização de Informação Visualização de Software 5 Contextualização Grande volume de dados Apoio ao processo de análise e interpretação Representações Visuais X Dados Abstratos 6 3
Visualização Metáforas visuais fazem parte do processo cognitivo humano... Cognição: a aquisição ou o uso de conhecimento Definição "Tradicional" "Construir mentalmente uma representação visual" (Shorter Oxford English Dictionary) Definições "Contemporâneas" "O uso de representações visuais de dados interativas e apoiadas por computador, para ampliar a cognição (Card et al., Readings in Information Visualization) 7 Visualização A visualização torna-se útil na medida que amplia a capacidade humana de executar tarefas cognitivas 8 4
Visualização de Informação Apresentação Suporte à Decisão Análise Confirmatória Análise Exploratória 9 Visualização de Informação Apresentação Ponto de partida: fatos a serem apresentados fixos a priori Processo: escolha de uma forma de apresentação apropriada Resultado: visualização de boa qualidade, que apresenta os fatos 10 5
Visualização de Informação Suporte à Decisão Ponto de partida: resultados de um processo de investigação Processo: busca (em geral, colaborativa) por modelos, descrições, conclusões Resultado: visualizações capazes de apoiar a investigação dos modelos de dados e do espaço de decisões 11 Visualização de Informação Análise Confirmatória Ponto de partida: hipóteses sobre os dados Processo: verificação das hipóteses (busca direcionada) Resultado: visualizações dos dados que permitem a confirmação (ou não) das hipóteses 12 6
Visualização de Informação Análise Exploratória Ponto de partida: dados brutos, nenhuma hipótese Processo: busca interativa, usualmente não direcionada, por estruturas, padrões, correlações, tendências, etc. Resultado: visualizações dos dados que sugerem hipóteses 13 Visualização de Informação Por que Visualização Habilidade de expressar muita informação Percepção de propriedades não antecipadas Facilita a percepção simultânea de características dos dados em grande e pequena escala Apoio a processos de formação de hipóteses Apoio a tarefas de pré-processamento dos dados Detecção de problemas, limpeza, seleção,... 14 7
Definição Uso de representações visuais de dados abstratos, apoiado por computador e interativo para amplificar a cognição [CAR99] 15 O Processo Visualização Multidimensional, Visualização Exploratória Metáforas visuais para ajudar pessoas a explorar dados Dados: tabelas de registros com múltiplos atributos (numéricos e categóricos) Modelos gráficos acoplados a estratégias de interação processos dinâmicos de exploração 16 8
Os Dados Dados Brutos Formato qualquer... em geral, é necessário transformar esses dados em um conjunto organizado de relações, para facilitar o processo de mapeamento em estruturas visuais Tabelas de Dados Conjunto de registros (itens de dados, ou instâncias) com múltiplos atributos (dimensões, variáveis) metadados: informação descritiva sobre as instâncias 17 Os Dados Dimensionalidade dos dados O número de atributos (dimensões), dos itens de dados... Diferente da dimensionalidade espacial de uma estrutura visual! Tabelas de dados: Instâncias independentes (flat data), em geral... Cada instância representa uma única relação Se o problema em estudo envolve relacionamentos entre instâncias, elas não são independentes... Relações entre instâncias tipicamente são descritas por estruturas como hierarquias (árvores) e redes 18 9
Os Dados Relações hierárquicas podem ser reorganizadas em um conjunto de instâncias "independentes" de forma a obter um "flat file" nesse caso, um ou mais atributos registra(m) o(s) relacionamento(s) de interesse entre os itens de dados "denormalization " Ou podem ser descritas por arquivos estruturados e visualizadas por técnicas específicas para dados hierárquicos 19 João Ana Júlia Flávio Maria Marcelo Luísa Ian Fábio Bruno 20 Lia Nicolau Pessoa1 Pai-P1 Mãe-P1 Pessoa2 Pai-P2 Mãe-P2 Irmão-de Maria João Ana Marcelo João Ana Sim Marcelo João Ana Luísa João Ana Sim Luísa João Ana Maria João Ana Sim Ian Júlia Flávio Fábio Júlia Flávio Sim Fábio Júlia Flávio Bruno Júlia Flávio Sim Bruno Júlia Flávio Ian Júlia Flávio Sim Lia Luísa Ian Nicolau Luísa Ian Sim 10
Tipo de Dados Tipo Nominal (discreto, enumerado) Categórico: conjunto de valores distintos, sem relação de ordem Exemplos: "verde", "vermelho", "azul "GM", "Fiat", "Volksvagen", "Ford" Ordinal: conjunto de valores distintos, com relação de ordem Exemplos: "segunda", "terça", "quarta",... "básico", "intermediário", "avançado" 21 Tipo de Dados Tipo Quantitativo (numérico, contínuo) Intervalo: valores ordenados, medidos em unidades fixas e iguais. Exemplo: anos Razão: valores ordenados em uma escala de medidas na qual é definido inerentemente um valor de referência zero. Exemplo: distâncias Sub-tipos: datas, horas, coordenadas espaciais 22 11
Dados FREITAS, C. M. D. S.; CHUBACHI, O. M.; LUZZARDI, P. R. G. ; CAVA, R. A. Introdução à Visualização de Informações. RITA, v. VII, n.2, 2001 23 Formato Em Mineração de Dados, existem alguns formatos padrão ARFF, C5.0 Em visualização Tipicamente, arquivos texto com um registro por linha, atributos separados por vírgula (.csv), <tab>, espaços,... Ou suporte a gerenciadores de bases de dados externos 24 12
Visualização Exploratória Uso de técnicas de visualização de informação como apoio a processos de extração de informação; Usam a habilidade humana de detectar padrões mesmo em cenas complexas, relacionando atributos visuais. 25 Técnicas de Exploração Visual Orientadas a Pixel Projeção Geométrica Iconográficas Hierárquicas 26 13
Orientadas a Pixel Cor = Valor Subjanela = atributo (dimensão) Questões de Projeto Mapeamento da cor do pixel Arranjo dos pixels dentro de uma subjanela Formato das subjanelas Ordenação das subjanelas 27 Fonte: (1) - (Adaptado de) Daniel A. Keim & Hans-Peter Kriegel, 1996 Orientadas a Pixel Arranjo dos Pixels Depende dos dados e da tarefa na visualização Manter proximidade entre pixels (itens) relacionados (temporal e resultado de consulta: 2 tipos de problemas) Bom arranjo facilita a descoberta de agrupamentos e correlações entre os atributos 28 14
Orientadas a Pixel Arranjo dos Pixels Dependente ou não de consulta Apresentar os itens mais relevantes no centro Valor do pixel: distância entre o item e o resultado de consulta (depende do tipo de dado e aplicação) Distância individual e global 29 Orientadas a Pixel 30 15
Orientada a Pixel 31 Visualização por pixels de um conjunto de dados aleatório em que cada item tem 9 atributos, usando dois arranjos distintos para a disposição dos itens (espiral, à esquerda, e por eixos, à direita). Fonte: [Kei97]. Orientadas a Pixel Formato das Subjanelas Facilitar a percepção de relacionamentos entre atributos pela proximidade dos itens nas subjanelas correspondentes (em retangular, a distância é grande) Retangular aproveita bem o espaço da tela 32 16
Orientadas a Pixel Formato das Subjanelas Círculos Segmentados Arranjo Organização 33 Orientadas a Pixel Formato das Subjanelas Círculos Segmentados 34 Exemplo 17
Orientadas a Pixel 35 Projeção Geométrica Coordenadas Paralelas Inselberg (1985) geometria computacional Espaço n-dimensional Display de 2 dimensões n-eixos igualmente espaçados, paralelos a um dos eixos do display Eixos linearmente escalados, do menor ao maior valor, com a faixa de valores de dados Item de dados representados por linhas poligonais que intersectam cada um dos eixos 36 18
Projeção Geométrica 37 Projeção Geométrica Visualização por Coordenadas Paralelas de sete atributos dos itens de um conjunto de dados com aproximadamente 5.800 itens. Cada eixo é rotulado com os menores e os maiores valores de dados e o nome do atributo correspondente. 38 19
Projeção Geométrica 39 Projeção Geométrica RadViz (Hoffman 1997) Normalização Valores maiores atraem os pontos Diferentes configurações dos eixos produzem diferentes projeções (outras técnicas) Dados com proporção relativa (eleição) 40 20
Projeção Geométrica 41 Projeção Geométrica Matriz de Scatterplots Correlação Limitação da quantidade de dados 42 21
Técnicas Iconográficas Duas dimensões dos dados são mapeadas para as duas dimensões da tela, e as demais dimensões são mapeadas para propriedades visuais de um ícone Percepção de textura aponta certas características nos dados 2 dimensões da tela Ícone formado por outras dimensões (ângulos ou comprimento) Poucas dimensões 43 Técnicas Iconográficas 44 22
Técnica Hierárquica Operam subdividindo um espaço k-dimensional e exibindo subespaços de forma hierárquica. Exemplos representativos dessa estratégia no contexto de visualização de informação são as técnicas denominadas n-vision 45 Técnica Hierárquica 46 23
Técnicas Baseadas em Grafos 47 Múltiplas Projeções 48 24
Múltiplas Visões Coordenadas 49 Snap modelo conceitual 50 25
Snap modelo de dados 51 Snap arquitetura 52 26
Arquitetura - Pattison e Phillips 53 Coordenação Boukhelifa e Rodgers 54 27
KDD e Mineração de Dados Descoberta de conhecimento novo e potencialmente útil; A Mineração é uma das etapas do processo de KDD [Fay96]; A participação do ser humano no processo de mineração é de extrema importância [Kei96]; 55 Principais Etapas do KDD 56 28
Técnicas de Mineração Regras de Associação; Generalização, Sumário e Caracterização de Dados; Classificação de Dados; Agrupamento de Dados (Clustering). 57 Visual Data Mining "Mineração Visual de Dados (VDM) é um passo no processo de extração de conhecimento (KDD) que utiliza a visualização como um canal de comunicação entre computador e usuário para apoiar a identificação de padrões novos e interpretáveis" Posicionamento nas duas últimas fases do processo: mineração de dados e avaliação Identifica três categorias de VDM 58 29
Visual Data Mining Visualização dos dados Usuário tem total controle sobre a busca no espaço de busca Focalizar/delimitar espaço de busca Visualização dos resultados de uma mineração Para apoiar a interpretação dos modelos extraídos Visualização dos resultados intermediários de uma mineração Direcionar a busca Fornecer conhecimento sobre o domínio, por exemplo, para adaptar um núcleo genérico (para diferentes aplicações) com a intervenção do usuário 59 Visual Data Mining 60 Visualização Anterior Visualização Posterior Visualização Fortemente Integrada 30
Visual Data Mining Fracamente acoplada Visualização "intercalada" com estratégias analíticas de mineração Apoiar pré-processamento, interpretação de resultados,... Abordagem limitada: reforça limitações de uma e de outra... Fortemente acoplada Visualização "integrada" em estratégias analíticas de mineração Dar ao usuário maior controle e entendimento sobre o processo analítico, apoiando a tomada de decisões necessárias Criação de representações visuais do espaço de busca 61 Visual Data Mining Integra Mineração de Dados com técnicas interativas de Visualização; Explora a capacidade humana de identificar padrões por meio visual; Pode apoiar diversas etapas do processo de KDD; Apoiado por ferramentas. 62 31
Ferramentas de Apoio ao VDM Mine Set; SeeIT; XGobi e Ggobi XmdvTool OpenDX SpotFire. 63 SpotFire 64 32
Exemplo 65 Exemplo 66 33
Exemplo 67 Exemplo 68 34
XmdvTool 69 Exemplo 70 35
Exemplo 71 Exemplo 72 36
73 Padrão OKC 7 392 MPG Cylinders(2,10) Horsepower Weight Acceleration Year(70,90) Origin(1,3,'USA','Japan','Europe') 8. 50. 4 2.8 8.2 4 40. 250. 4 1500. 5500. 4 5. 30. 4 69.5 82.5 4.8 3.2 3 18.000000 8.000000 130.000000 3504.000000 12.000000 70.000000 1.000000 15.000000 8.000000 165.000000 3693.000000 11.500000 70.000000 1.000000 18.000000 8.000000 150.000000 3436.000000 11.000000 70.000000 1.000000 16.000000 8.000000 150.000000 3433.000000 12.000000 70.000000 1.000000 17.000000 8.000000 140.000000 3449.000000 10.500000 70.000000 1.000000 15.000000 8.000000 198.000000 4341.000000 10.000000 70.000000 1.000000 14.000000 8.000000 220.000000 4354.000000 9.000000 70.000000 1.000000 14.000000 8.000000 215.000000 4312.000000 8.500000 70.000000 1.000000 14.000000 8.000000 225.000000 4425.000000 10.000000 70.000000 1.000000 15.000000 8.000000 190.000000 3850.000000 8.500000 70.000000 1.000000 15.000000 8.000000 170.000000 3563.000000 10.000000 70.000000 1.000000 Mineração em Texto usando CMV 74 37
Visualização de Software 75 SoftVisOAH 76 38
SoftVisOAH 77 SoftVisOAH 78 39
SoftVisOAH 79 SoftVis4AspectMining 80 40
SoftVis4AspectMining 81 SoftVis4AspectMining 82 41
SoftVis4AspectMining 83 SoftVis4AspectMining 84 42
SoftVis4AspectMining 85 SoftVis4AspectMining 86 43
SoftVis4AspectMining 87 88 Considerações Finais Abordagem alternativa Baseada no usuário Interação é importante Problemas: Escalabilidade Oclusão de representação visual Tratamento de dados Adequação da técnica à exploração Oportunidade de desenvolvimento 44
UFA!!! Obrigado pela atenção! 89 Bibliografia ANKERST, M.; BERCHTOLD, S.; KEIM, D. A. Similarity clustering of dimensions for an enhanced visualization of multidimensional data. In: INFOVIS 98: Proceedings of the IEEE Symposium on Information Visualization, Washington, DC, USA: IEEE Computer Society, 1998, p. 52 60. CARD, S. K.; MACKINLAY, J.; SHNEIDERMAN, B. Readings in information visualization: Using vision to think. San Francisco, CA: Morgan Kaufmann Publishers, 1999. D ARCE, A. F.; GARCIA, R. E.; CORREIA, R. C. M.; ELER, D. M. Coordination Model to Support Visualization of Aspect-Oriented Programs. In: Proceedings of the 24th International Conference on Software Engineering and Knowledge Engineering (SEKE 12), 2012, p. 168 173. DELFIM, F. M. ; GARCIA, R. E.. Multiple Coordinated Views to Support Aspect Mining Using Program Slicing. In: International Conference on Software Engineering and Knowledge Engineering, 2013, Boston. Proceedings of the 25th International Conference on Software Engineering and Knowledge Engineering. Skokie, Illinois, USA: Knowledge Systems Institute, 2013. v. 1. p. 531-536. DELFIM, F. M. ; GARCIA, R. E.. Uma Proposta de Múltiplas Visões Coordenadas para Apoiar Análise de Impacto de Mudança. In: Workshop de Manutenção de Software Moderna - - Simpósio Brasileiro de Qualidade de de Software, 2013, Salvador-BA. Proc. X Workshop de Manutenção de Software Moderna, 2013. DOSHI, P. R.; RUNDENSTEINER, E. A.; WARD, M. O. Prefetching for visual data exploration. In: Database Systems for Advanced Applications (DASFAA), 2003. ELER, D. M.; PRATES, J. M.; GARCIA, R. E.; MINGHIM, R. Coordinated Multiple Views to Support Image Retrieval. In: 18th International Conference Information Visualisation, University of Paris Descartes, Paris, France, 2014. 90 45
Bibliografia FAYYAD, U. M.; PIATETSKY-SHAPIRO, G.; SMYTH, P. Advances in knowledge discovery and data mining, cáp. From data mining to knowledge discovery: An overview Menlo Park (CA): AAAI/MIT Press, p. 1 34, 1996a. FAYYAD, U. M.; PIATETSKY-SHAPIRO, G.; SMYTH, P. Knowledge discovery and data mining: Towards a unifying framework. In: Knowledge Discovery and Data Mining, 1996c, p. 82 88. FUA, Y.-H.; WARD, M. O.; RUNDENSTEINER, E. A. Structure-based brushes: A mechanism for navigating hierarchically organized data and information spaces. In: IEEE Trans. On Visualization and Computer Graphics, 2000, p. 150 159. GARCIA, R. E.; DE OLIVEIRA, M. C. F.; MALDONADO, J. C.; MENDONÇA, M. Visual analysis of data from empirical studies. In: Proceedings of the 2004 International Conference of Distributed Multimedia Systems International Workshop on Visual Languages and Computing, San Francisco: Knowledge Systems Institute Visual Computing Lab, UT-Dallas, 2004. INSELBERG, A.; DIMSDALE, B. Parallel coordinates: A tool for visualizing multidimensional geometry. In: Proceedings of IEEE Visualization 90, Los Alamitos-CA: IEEE Computer Society Press, 1990, p. 360 375. KEIM, D. A. Pixel-oriented visualization techniques for exploring very large databases. Jounal of Computational and Graphical Statistics, v. 5, n. 1, p. 58 77, 1996. KEIM, D. A. Visual database exploration techniques. In: Proc. Tutorial KDD 97 Int. Conf. on Knowledge Discovery and Data Mining, Newport Beach, CA, 1997. KEIM, D. A. Designing pixel-oriented visualization techniques: Theory and applications. IEEE Transactions on Visualization and Computer Graphics, v. 6, n. 5, p. 59 78, 2000. 91 Bibliografia KEIM, D. A. Information visualization and visual data mining. IEEE Transactions on Visualization And Computers Graphics, v. 7, n. 1, p. 100 107, 2002. KEIM, D. A.; KRIEGEL, H.-P. Visualization techniques for mining large databases: A comparison. IEEE Transactions on Knowledge and Data Engineering, v. 8, n. 6, p. 923 938, 1996. NORTH, C.; SHNEIDERMAN, B. Snap-together visualization: can users construct and operate coordinated visualizations? International Journal of Human-Computer Studies, v. 53, n. 5, 2000. DE OLIVEIRA, M. C. F.; LEVKOWITZ, H. Visual data exploration and mining: A survey. IEEE Transactions on Visualization and Computer Graphics, v. 9, n. 3, p. 378 394, 2003. PRATES, J. M.; SCATALON, L. P.; GARCIA, R. E.; ELER, D. M. Coordinating multiple views using an ontology-based semantic mapping. In: 17th International Conference Information Visualisation, University of London, London, UK: IEEE Computer Society, 2013, p. 192-197. PRATES, J. M.; SCATALON, L. P.; GARCIA, R. E.; ELER, D. M. Ontologies to coordinate multiple views: exploring document collections. In: 16th International Conference on Artificial Intelligence, Las Vegas, USA, 2014. SHNEIDERMAN, B. Tree visualization with treemaps: A 2d space-filling approach. ACM Trans. Graphics, v. 11, n. 1, p. 92 99, 1992. WARE, C. Information visualization: Perception for design. Second edition ed. Morgan Kaufmann Publishers, 2000. WEGMAN, E. J. Hyperdimensional data analysis using parallel coordinates. Journal of American Statistical Association, v. 85, n. 411, 1990. 92 46