Universidade de Aveiro Departamento de Electrónica, Telecomunicações e Informática Características dos Dados Beatriz Sousa Santos, Universidade de Aveiro, 2013
Os dados a visualizar podem ter diversas formas e têm-se desenvolvido muitas técnicas e sistemas para os visualizar BSS41 É vantajoso estabelecer uma classificação dos dados por várias razões: - para poder prever que técnicas de Visualização serão adequadas - para facilitar a comunicação sobre os dados - para permitir progresso na visualização de dados multidimensionais - para permitir uma abordagem sistemática à Visualização BSS42. 2
Slide 2 BSS41 BSS42 Uma classificação é sempre uma boa forma de começar a organizar o estudo de qualquer corpo de conhecimentos; no entanto todas as classificações são de alguma forma redutoras; há sempre casos que não são facilmente classificados. No entanto isto não tem importância e devemos aceitar que existem em geral várias classificações possíveis. Nas disciplinas que ainda são emergentes e não estão bem estabelecidas, como a Visualização, até mesmo a terminologia pode variar bastante de autor para autor. Beatriz; 20-10-2005 Sendo uma disciplina emergente, ainda não existe uma teoria sólida subjacente; também não existem ainda abordagens sistemáticas como existem em disciplinas mais bem estabelecidas. uma sistematização dos tipos de dados que se podem visualizar, contribui certamente para o estabelecimente de uma tal abordagem Beatriz; 20-10-2005
BSS43 Uma classificação geral dos dados BSS44 Nível de representação dos dados: - Qualitativos (ou categóricos) - Quantitativos (ou numéricos) Natureza dos dados: - Contínuos - Discretos BSS45 Escala de medida: - Nominal - Ordinal - De intervalo - De razão 3
Slide 3 BSS43 no livro Schroeder et al., 1998 parte-se do princípio que os dados são discretos pois são digitalizados; embora isto seja evidente, não se possa ignorar a natureza dos dados originais. Podemos estar a estudar um fenómeno físico que envolve a variação de uma variável contínua, por exemplo a temperatura do ar numa sala, a absorção aos raios X de um corpo, etc Vamos utilizar uma abordagem mais geral e considerar vários aspectos que é necessário conhecer antes de iniciar um processo de visualização. BSS45 BSS44 Esta classificação mais geral serve também situações em que não temos dados numéricos, mais comuns em Visualização de Informação. Beatriz; 20-10-2005 As escalas de intervalo e de razão são usadas para dados quantitativos. Beatriz; 12-03-2009 Embora todos os dados que chegam ao sistema de visualização sejam discretos, o facto de originalmente serem contínuos ou discretos tem reflecte-se nas técnicas de Visualização que podem ser usadas; por exemplo, se os dados não forem contínuos e quantitativos não faz sentido usar contornos; técnica que é muito usada para visualizar dados 2D contínuos como a pressão e temperatura da atmosfera Beatriz; 20-10-2005
exemplo de escalas: nominal --> marcas de automóveis, sexo, tipos de animais ordinal --> dias da semana, preferências (1º, 2º...) de intervalo --> data, QI, temperaturas em ºC de razão --> temperaturas em ºK, peso, altura a escala de razão representa o nível mais elevado da representação, tem um zero não arbitrário (ao contrário da escala de intervalo) Esta classificação é geral; serve também para escolha de técnicas estatísticas a aplicar aos dados 4
Modelo, estrutura e formato dos dados a Visualizar Considere-se um conjunto de dados com três colunas: latitude longitude d Qual é a forma mais apropriada de visualizar estes dados? Se d for profundidade, é provável que a técnica de visualização escolhida envolva interpolação (ex: contornos) Se os dados representarem localização e nº de mortes em acidentes de viação, usar contornos não faz sentido Conhecer a estrutura dos dados não é suficiente! É necessário conhecer o fenómeno que está por trás! 5
Cada conjunto de dados tem um campo subjacente (underlying field) Diferentes nos dois exemplos anteriores A obtenção de um modelo empírico faz parte do processo de Visualização Deve ser guiado por um especialista do domínio de aplicação Os dados vão tendo formatos diferentes: - underlying field - dados de entrada para o processo de Visualização - modelo empírico - abstract visualization object 6
BSS51 Funções de muitas variáveis Podemos usar uma função F(X) para caracterizar o underlying field (o fenómeno): X pode representar muitas variáveis independentes (x 1, x 2,.., x n ) F pode representar muitas funções (f 1, f 2,., f n ) Assim, para caracterizar um conjunto de dados é necessário identificar e caracterizar variáveis dependentes e independentes 7
Slide 7 BSS51 vejamos agora o conceito de variável, distinguindo entre variáveis independentes e dependentes, que é muito importante quando estamos perante um caso de visualização de dados (por oposição a informação) em que se pode identificar uma ou mais funções de várias variáveis. Beatriz; 20-10-2005
Exemplos: muito simples: X - ponto 2D F - temperatura Campo 3D de fluxo variável no tempo numa reacção química: X - ponto 3D; tempo F - velocidade do fluxo; temperatura; concentração de cada reagente Campo magnético: X - ponto 3D F - campo magnético vectorial; identificador do material Profundidade do oceano: X - ponto 2D F - profundidade Acidentes de tráfego n. de mortes e localização: X - identificador F - latitude; longitude; mortes 8
Exemplo Quatro variáveis independentes (cidade, lat., long., tempo) Duas variáveis dependentes (tráfego iniciado e recebido) Tráfego telefónico: A- normal B- depois do tremor de terra Altura do rectângulo n. de chamadas feitas Largura do rectângulo n. de chamadas recebidas Cor redundante (vermelho - recebeu mais chamadas do que efectuou) (Keller e Keller, 1993) 9
BSS54 Três variáveis independentes (latitude, longitude, tempo) Três variáveis dependentes (poluentes) small multiple (Tufte, 1990) 10
Slide 10 BSS54 Note-se que existe uma diferença entre os casos - Muitas variáveis dependentes - Muitas variáveis independentes Beatriz; 16-10-2005
Outras características importantes: Origem Formato Compressão Transformações 11
Estruturas de Dados Para desenvolver esquemas de representação adequados para os dados a visualizar torna-se necessário conhecer o tipo de dados que podemos encontrar É ainda necessário ter em mente os objectivos do projecto para obter estruturas de dados eficientes As características mais importantes dos dados são: Natureza discreta Estrutura regular ou irregular Dimensão 12
Dados Discretos e interpolação Os dados a visualizar são discretos, mesmo quando o fenómeno é contínuo Mas pretende-se visualizar nos intervalos Este problema trata-se através da interpolação, Podem usar-se vários tipos de funções: Lineares Quadráticas Cúbicas Splines. 13
Critérios de Design Na escolha da forma de representar os dados, devem usar-se os seguintes critérios de design: Os esquemas de armazenamento devem ser compactos BSS1 O acesso aos dados tem que ser eficiente Deve ser fácil a conversão entre os dados externos e as representações internas e entre estas e as primitivas gráficas Deve existir um conjunto mínimo de representações de dados que assegure eficiência sem aumentar demasiado o nº de tipos de dados BSS2 Um design simples é sempre preferível pois é mais simples de compreender e portanto de optimizar 16
Slide 16 BSS1 BSS2 pois os conjuntos de dados costumam ser extensos Beatriz; 09-10-2005 caso contrário sofremos a sobrecarga da inflexibilidade do S/W ou processos de conversão complexos Beatriz; 09-10-2005
Principal Bibliografia Schroeder, W., K. Martin, B. Lorensen. The Visualization Toolkit, An Object Oriented Approach to 3D Graphics, 2nd ed., Prentice Hall, 1998 Brodlie, K., et. Al., Scientific Visualization, Techniques and Applications, Springer-Verlag, 1992 Gallop, J., Underlying data models and structures for Visualization, in: Rosenblum, L., R. Earnshaw, J. Encarnação, H. Hagen, A. Kaufman, S. Klimenko, G. Nielson, F. Post, D. Thalmannn (eds.),scientific Visualization, Advances and Challenges, IEEE Computer Society Press, Academic Press, 1994 Spence, R., Information Visualization, ACM Press Books, Addison Wesley, 2001 38