Armazenamento, Visualização & Representação



Documentos relacionados
Introdução à aprendizagem

Prof. Júlio Cesar Nievola Data Mining PPGIa PUCPR

FERRAMENTAS DA QUALIDADE

Análise de componentes independentes aplicada à avaliação de imagens radiográficas de sementes

Pré processamento de dados II. Mineração de Dados 2012

Classificação da imagem (ou reconhecimento de padrões): objectivos Métodos de reconhecimento de padrões

OUTLIERS Conceitos básicos

Métodos de mapeamento para fenômenos qualitativos e quantitativos

OUTLIERS E SOFTWARE DE ANÁLISE ES- TATÍSTICA

Capítulo 5 Representações gráficas para variáveis quantitativas

Algoritmos de Agrupamento - Aprendizado Não Supervisionado. Fabrício Jailson Barth

PROGRAMA DO CURSO DE FORMAÇÃO ANÁLISE ESTATÍSTICA DE DADOS COM SPSS (ISSSP, )

Cadeira de Tecnologias de Informação. Conceitos fundamentais de sistemas e tecnologias de informação e de gestão do conhecimento.

Características dos Dados

Projeto de Redes Neurais e MATLAB

Dossiês Didácticos LUÍSA CANTO E CASTRO LOURA MARIA EUGÉNIA GRAÇA MARTINS

Rede de Elementos Caóticos Acoplados Globalmente

Reconhecimento de Padrões. Reconhecimento de Padrões

REPRESENTAÇÃO GRÁFICA DAS VARIÁVEIS QUANTITATIVAS E QUALITATIVAS

Processamento digital de imagens. introdução

Jogos vs. Problemas de Procura

UMC Cotas em desenho técnico (Módulo 2) Componentes gráficos de uma cota: Linha de cota Linha de chamada Setas de cota

Planejamento Estratégico de TI. Prof.: Fernando Ascani

Ferramentas da Qualidade. Professor: Leandro Zvirtes UDESC/CCT

Planejamento - 7. Planejamento do Gerenciamento do Risco Identificação dos riscos. Mauricio Lyra, PMP

4Distribuição de. freqüência

Exemplo Considere novamente os dados sobre a dureza do alumínio. Fonte: Hoaglin, Mosteller e Tukey, 1983, apud Morettin & Bussab,

"SISTEMAS DE COTAGEM"

Estatística descritiva. Também designada Análise exploratória de dados ou Análise preliminar de dados

Sessão Saber profundo Contribuição dos xs (

Gestão do Conhecimento

ESTATÍSTICAS DEMOGRÁFICAS DISTRITO DE VIANA DO CASTELO E SEUS CONCELHOS. F e v e r e i r o d e

Introdução. Capítulo. 1.1 Considerações Iniciais

Capítulo 3 Modelos Estatísticos

SEMINÁRIOS AVANÇADOS GESTÃO DE PROJECTOS

Microsoft Excel. O que é? Para que serve? É um poderoso programa de folha de cálculo.

Energia Eólica. Atividade de Aprendizagem 3. Eixo(s) temático(s) Ciência e tecnologia / vida e ambiente

4.1. UML Diagramas de casos de uso

INTERPRETAÇÃO GRÁFICA DOS SISTEMAS LINEARES UTILIZANDO O SOFTWARE WINPLOT

Sistemas de Informação para a Sociedade da Informação e do Conhecimento. Luís Manuel Borges Gouveia lmbg@ufp.pt

QUESTIONÁRIO. 1.) Nome: b. Esta residência é a mesma antes da sua emigração? c. Esta residência é a mesma da sua terra natal?

Facturação Guia do Utilizador

Topografia Levantamentos Topográficos. Sistema de Referência. Coordenadas Geodésicas (j, l, h) Projecção Cartográfica

Estatística Descritiva

Planejamento Anual. Componente Curricular: Matemática Ano: 6º ano Ano Letivo: 2015 OBJETIVO GERAL

UNIVERSIDADE LUSÍADA DE LISBOA. Programa da Unidade Curricular ESTATÍSTICA Ano Lectivo 2013/2014

MATEMÁTICA. Recenseamento/Sondagem ESTATÍSTICA

Análise e visualização de dados utilizando redes neurais artificiais auto-organizáveis

MODELAGEM DE SISTEMA Apresentação

3º Ano do Ensino Médio. Aula nº10 Prof. Daniel Szente

Imagem e Gráficos. vetorial ou raster?

Encontrando a Linha Divisória: Detecção de Bordas

Desenhando perspectiva isométrica

Curva ROC. George Darmiton da Cunha Cavalcanti Tsang Ing Ren CIn/UFPE

Medições e suas incertezas

Apresentação de Dados em Tabelas e Gráficos

3. Metodologia 3.1. Análise exploratória de dados

Curvas em coordenadas polares

Norma Interpretativa 2 Uso de Técnicas de Valor Presente para mensurar o Valor de Uso

Cálculo Numérico Faculdade de Engenharia, Arquiteturas e Urbanismo FEAU

EXAME NACIONAL DO ENSINO SECUNDÁRIO VERSÃO 1

Testedegeradoresde. Parte X. 38 Testes de Ajuste à Distribuição Teste Chi-Quadrado

Reconhecimento de Padrões Utilizando Filtros Casados

A gestão da implementação

Gráficos. Incluindo gráficos

Pesquisa Estatística. Estatística Descritiva. Gestão Ambiental Prof. Luiz Rogério Mantelli

Modelagem Digital do Terreno

Histogramas. 12 de Fevereiro de 2015

Técnicas de Computação Paralela Capítulo III Design de Algoritmos Paralelos

Funcionalidades. Mantenha a sua equipa totalmente coordenada

Optimização de um Mundo Virtual

O Problema da Projecção. Antonio L. Bajuelos Departamento de Matemática Universidade de Aveiro

INQUÉRITO ÀS ENTIDADES GESTORAS NORMA ISO OBJECTIVO DO INQUÉRITO 2 CONSTITUIÇÃO DO INQUÉRITO RELATÓRIO FINAL

Programa Integrado de Monitoria Remota de Fragmentos Florestais e Crescimento Urbano no Rio de Janeiro

PROPOSTA DE FORMAÇÃO FORMAÇÃO NÍVEL I

Expansão de Imagem #2

CASO DE ESTUDO SOBRE SIG

Capítulo 9: Análise de Projectos de Investimento A dimensão temporal e o cálculo financeiro

Escola Secundária de Jácome Ratton

ESTATÍSTICA BÁSICA COM ANÁLISE E TRATAMENTO ESTATÍSTICO DE DADOS EM SPSS

Toleranciamento Geométrico João Manuel R. S. Tavares

Planificação de. Aplicações Informáticas B

Gráficos estatísticos: histograma. Série Software ferramenta

3. FORMAÇÃO DA IMAGEM

Aprender com o scratch. E.B. 2,3 José Afonso, Alhos Vedros Filomena Benavente e Ricardo Costa 5.º ano matemática

ESTATÍSTICAS, O ABECEDÁRIO DO FUTURO

PLANO DIRETOR DE INFORMÁTICA. Alexandre Painhas

SPSS for Windows Conceitos Básicos Prof. Estevam Martins

EXERCÍCIO - ROMA : Modelar Capitel de uma Coluna Clássica

Algoritmo. Iniciação do Sistema e Estimativa do consumo. Perfil do utilizador. Recolha de dados

Transcrição:

Victor Lobo Armazenamento, Visualização & Representação Mestrado em Estatística e Gestão de Informação Uma imagem são mil palavras Nº de pessoas Campanha da Rússia 6 variáveis diferentes! Rendimento 1

Casos notáveis Surto de cólera em Londres, em 1854 Gráfico da distribuição de ocorrências de casos Suspeita que algo no centro provocava a doença Provou-se que a doença tinha origem num poço de água inquinado In Visual and Statistical Thinking: Displays of evidence for making decisions Para quê visualizar? Apoiar a exploração interactiva dos dados Analisar os resultados Apresentação e comunicação dos resultados Compreender os dados, ter uma perspectiva sobre eles O olho humano é melhor sistema de clustering Desvantagens Requerem olhos humanos É uma análise subjectiva Podem ser enganadores 2

Mentir com Gráficos Gráfico com um eixo Y enganador Year Sales Sales 1999 2000 2001 2002 2003 2110 2105 2120 2121 2124 2130 2125 2120 2115 2110 2105 2100 2095 Sales 1999 2000 2001 2002 2003 O eixo dos Y dá uma falsa sensação de grande mudança Melhor Year Sales Sales 1999 2110 3000 2000 2001 2105 2120 2500 2000 1500 Sales 2002 2003 2121 2124 1000 500 0 1999 2000 2001 2002 2003 O eixo entre o 0 e os 2000 dá uma leitura correcta de pequenas alterações 3

Lie Factor=14.8 (E.R. Tufte, The Visual Display of Quantitative Information, 2nd edition) Lie Factor Lie Factor = size of effect shown in graphic size of effect in data = = (5.3 0.6) 0.6 (27.5 18.0) 18 = 7.833 0.528 = 14.8 Tufte requirement: 0.95<Lie Factor<1.05 (E.R. Tufte, The Visual Display of Quantitative Information, 2nd edition) 4

Visualização de dados e dimensões 1 dimensão Trivial Listas, Histogramas 2 dimensões Fácil Tabelas de contingência, scatterplots, 3 dimensões Complicado Gráficos 3D, waterfall, contourplots Multidimensionais Projecções para dimensões menores Coordenadas paralelas, radarplots, caras de chernoff, stick figs. Dados com interesse são quase sempre multidimensionais!!! Dados Univariados (1-D) Representações Fáceis de interpretar Completas Problema da divisão em bins 7 5 3 Histograma baixo Tukey box plot 50% alto 1 Mediana 0 20 5

Dados Univariados (1-D) Dados Univariados (1-D) 12 6

Dados Univariados (1-D) Dados Bivariados (2-D) Gráfico de dispersão, ou scatterplots 7

Dados Bivariados (2-D) Multiplos scatterplots Dados Uni ou Bivariados (2-D) 1.5 1 120 90 0.5 0.4 60 0.5 150 0.3 0.2 30 0 0.1-0.5 180 0-1 0.35 210 330 0.3-1.5-2.5-2 -1.5-1 -0.5 0 0.5 1 1.5 2 2.5 240 270 300 0.25 0.2 Box-plot 0.15 Polar 0.1 0.05 0-0.05-0.1-0.15 0 0.5 1 1.5 2 2.5 3 3.5 4 Stem plot 8

Histograma a 2 dimensões (Tabela de contingência a 3D) Patch graph Dados 3-D Scatter plot 10 5 0-5 -10 30 Surface Plot + Scatter plot 20 10 0 0 5 10 15 20 25 Surface Plot 9

Dados 3-D Construção de Countour plots Countour plots, com curvas de nível Countour plots, com cores Dados multidimensionais Visualizações directas são impossíveis Alternativas: Múltiplos gráficos Coordenadas alternativas Características não espaciais Múltiplos eixos espaciais Projecções sobre dimensões mais reduzidas 10

Múltiplos Gráficos Dar a cada variável a seu gráfico 1 A B C D E 1 4 1 8 3 5 2 6 3 4 2 1 3 5 7 2 4 3 4 2 6 3 1 5 Problema: não mostra as correlações A B C D E 2 3 4 Matriz de gráficos de dispersão Representar cada um dos possíveis pares de variáveis com o diagrama de dispersão correspondente Q: Utilidade? A: Correlações lineares Q: Ponto fraco? A: efeitos multivariados 11

Coordenadas Paralelas Codificar as variáveis ao longo de um eixo horizontal As linhas verticais especificam os valores Invented by Alfred Inselberg while at IBM, 1985 Dados em coordenada Cartesianas Os mesmos dados em coordenadas paralelas Exemplo: visualizar o iris dataset A flor Iris tem várias variantes, 3 das quais são: 1 -Iris Setosa 2 -Iris Versicolour 3 -Iris Virginica Para 50 flores de cada uma das variantes foram medidas 4 características (medidas em cm) Largura da pétala Comprimento da pétala Largura da Sépala Comprimento da Sépala ( Questão típica) É possível determinar a variante a partir desses 4 parâmetros? Iris Setosa 12

Sepal Length 5.1 Sepal Length Sepal Width 3.5 5.1 26 13

Sepal Length Sepal Width Petal length 3.5 5.1 1.4 27 Sepal Length Sepal Width Petal length Petal Width 3.5 5.1 1.4 0.2 28 14

3.5 5.1 1.4 0.2 29 Star plots (ou radar, ou spider) Por os diversos eixos numa roda x1 x2 x3 15

Trilinear Graphs Quando a soma de 3 variáveis é constante x1 x3 x2 Caras de Chernoff As dimensões correspondem a características da face Até 11 dimensões facilmente reconhecíveis. A posição da cara num gráfico 2 ou 3D acrescenta ainda mais dimensões. A escolha das características pode ser polémica 16

Exemplos de visualizações com caras de Chernoff Dados demográficos sobre portugal Largura da face: taxa de fecundidade de nados-vivos por 1 000 mulheres em idade fecunda: 15-49anos) Largura do nariz: índice de envelhecimento (n. de residentes com 65 e mais anos por 100 residentes com menos de 15 anos) Comprimento do nariz: taxa de mortalidade (numero de óbitos por 1 000 habitantes) Curvatura da boca: taxa de natalidade (numera de nados-vtvos por 1 000 habitantes) Comprimento da boca: nados-vivos fora do casamento (nados-vivos fora do casamento por 100 nados-vivos) Tamanho das orelhas: taxa de nupcialidade (numero de casamentos por 1 000 habitantes Ângulo das sobrancelhas: taxa de divorcio (numero de div6rcios por 1 000 habitantes) [Silva 06] Cartogramas Quando se quer realçar uma característica sobre um mapa geográfico ± New York California POP2001 495345-2112980 2112981-4081550 4081551-7203904 7203905-12520522 12520523-21355648 21355649-34516624 Texas Florida 17

Outros Andrew s curves Cada variável corresponde a uma frequência [Andrew 72] Wireframe, contour, circular, bubble graph, high-low-close graph, Vector, surface, pictograms. Software para visualização Genéricos Excel, Matlab, Mathcad, SPSS,etc Dedicados Tableau Software www.tableausoftware.com tem demos, trials, e videos Applets disponíveis na net http://www.hesketh.com/schampe o/projects/faces/interactive.html 18

Bibliografia Edward R.Tufte, Visual Explanations, Graphics Press, 1997 Edward R.Tufte, The Visual Display of Quantitative Information, Graphics Press, 1983 Robert L. Harris, Information Graphics A comprehensive ilustrated reference, Oxford University Press, 1999 Gene Zelazny, Say it with charts- The executive s guide to Visual Communication, McGraw-Hill, 2000 Fayyad, Usama; Grinstein, Georges; Wierse, Andreas; Information Visualization in Data Mining and Knowledge Discovery, Morgan Kaufmann, 2002 Ana Alexandrino da Silva, Gráficos e Mapas, Lidel, 2006 Statsoft Textbooks http://www.statsoft.com/textbook/stathome.html Projecções para 2 dimensões 19

Projecções sobre espaços visualizáveis Ideia geral: Mapear os dados para um espaço de 1 ou 2 dimensões Mapear para espaços de 1 dimensão Permite definir uma ordenação Mapear para espaços de 2 dimensões Permite visualizar a distribuição dos dados (semelhanças, diferenças, clusters) Exemplos 20

Problemas com as projecções Perdem informação Podem perder MUITA informação e dar uma imagem errada Medidas para saber o que não estamos a ver Variância explicada Stress Outros erros (erro de quantização, topológico,etc) Dimensão intrínseca Dimensão do sub-espaço dos dados Pode ou não haver um mapeamento linear Estimativas da dimensão intrínseca Com PCA Verificar a diminuição dos V.P. Basicamente, medir a variância explicada Com medidas de stress (em MDS) Com medidas de erro 21

Seleccionar componentes mais relevantes para visualização Será sempre uma boa escolha? Dados originais multidimensinais Dados transformados Componentes a visualizar Quais as componentes mais importantes para compreender o fenómeno? PCA ICA outros Componentes ordenadas segundo algum critério PCA Principal Component Analysis Principal Component Analysis Análise de componente principais Transformada (discreta) de Karhunen-Loève Transformada linear para o espaço definido pelos vectores próprios da martriz de covariância dos dados. Não é mais que uma mudança de coordenadas (eixos) Eixos ordenados pelos valores próprios Utiliza-se normalmente SVD 22

Componentes principais Mudança de eixos Os novos eixos estão alinhados com as direcções de maior de variação Continuam a ser eixos perpendiculares Podem esconder aspectos importantes A 2ª componente é que separa! A dimensão intínseca é 1! Problemas com ACP Corre bem! Menos bem! Mal! 23

Componentes Independentes ICA Indepenant Component Analysys Maximizam a independência estatística (minimizam a informação mútua) Diferenças em relação a PCA PCA ICA Componentes Independentes Bom comportamento para clustering Muitas vezes melhor que PCA por espalhar melhor os dados Bom para blind source separation Separar causas independentes que se manifestam no mesmo fenómeno Disponibilidade Técnica recente ainda pouco divulgadada Boas implementações em Matlab e C Livro de referencia (embora não a ref.original): Hyvärinen, A., J. Karhunen, et al. (2001). Independent Component Analysis, Wiley-Interscience. 24

Referências sobre ICA Primeiras referências B.Ans, J.Herault, C.Jutten, Adaptative Neural architectures: Detection of primitives, COGNITIVA 85, Paris, France, 1985 P.Comon, Independant Component Analysis, a new concept?, Signal Processing, vol36,n3,pp278-283, July 1994 Algoritmo mais usado. FastICA Hyvärinen, A., J. Karhunen, et al. (2001). Independent Component Analysis, Wiley- Interscience. V.Zarzoso, P.Comon, How Fast is FastICA?, Proc.European Signal Processing Conf., Florence, Italy, Setember 2006 Recensão recente A.Kachenoura et al., ICA: A Potential Tool for BCI Systems, IEEE Signal processing Magazine, vol25, n.1, pp 57-68, January 2008 Código freeware e material de apoio FastICA para Matlab, R, C++, Python, e muitos apontadores para informação http://www.cis.hut.fi/projects/ica/fastica/ MDS MultiDimensional Scaling Objectivo Representação gráfica a 2D que preserva as distâncias originais entre objectos Vários algoritmos (e por vezes nomes diferentes) Sammon Mapping (1968) Também conhecido como Perceptual Mapping É um processo iterativo Não é, rigorosamente, um mapeamento Stress Mede a distorção que não foi possível eliminar Stress = ( d ij ( d ij dˆ ij ) d ) 2 2 d ij = distância dˆ = distância d = média das no verdadeira grafico distâncias 2 d 25

Exemplos de MDS Exemplo com países do mundo caracterizados por indicadores socio-económicos Nota: Ao acrescentar mais um dado é necessário recalcular tudo! Transformações tempo/frequência Transformada de Fourier É uma mudança de referencial! Projecta um espaço sobre outro Transformadas tempo/frequência Wavelets Wigner-Ville Identificam a ocorrência (localizada no tempo) de fenómenos que se vêm melhor na frequência 26

Transformada de Fourier Aplicações Análise de séries temporais Análise de imagens Análise de dados com dependências periódicas entre eles Permite: Invariância a tempo Invariância a posição O que é: Um decomposição em senos e cosenos Uma projecção do espaço original sobre um espaço de funções Transformada de Fourier O que é a decomposição? x(t)= = + + Com o que é que fico? Com o que quiser Com as amplitudes de cada frequência Com os valores das 2 frequências mais fortes Notas: Para não perder informação N-pontos geram N-pontos Posso calcular a transformada mesmo que faltem valores 27

Curvas principais, SOM, etc Curvas principais Hastie 1989 Define-se parametricamente a família de curvas sobre o qual os dados são projectados SOM Kohonen 1982 Serão discutidas mais tarde Bibliografia Sammon, J. W., Jr (1969). "A Nonlinear Mapping for Data Structure Analysis." IEEE Transactions on Computers C-18(5) Hastie, T. and W. Stuetzle (1989). "Principal curves." Journal of the American Statistical Association 84(406): 502-516. Hyvarinen, A. and E. Oja (2000). "Independant component analysis: algorithms and applications." Neural Networks 13: 411-430 Hyvärinen, A., J. Karhunen, et al. (2001). Independent Component Analysis, Wiley-Interscience. 28

Exemplo prático (TPC opcional 1) Numa escola universitária são realizados inquéritos aos alunos sobre as características dos professores. É necessário promover um dos professores auxiliares a associado. Os profs catedráticos gostariam de conhecer o mais possível as características dos professores auxiliares para escolher o melhor. Gostariam de contar com o input dos alunos sobre o desempenho pedagógico. Usando os dados disponibilizados pelos inquéritos, prepare uma apresentação 1 minuto (60segundos) para esses professores, deixando-lhes depois uma folha A4 com o que fôr mais importante. Pré-Processamento dos dados 29

Porquê pré-processar os dados Valores omissos (missing values) Factores de escala Invariância a factores irrelevantes Crucial! Eliminar dados contraditórios Eliminar dados redundantes Discretizar ou tornar contínuo Introduzir conhecimento à priori Garbage in / Garbage out Reduzir a praga da dimensionalidade Facilitar o processamento posterior Valores omissos Usar técnicas que lidem bem com eles Substitui-los Por valores neutros Por valores médios (média, mediana, moda, etc) Por valores do vizinho mais próximo K-vizinhos, parzen, etc Interpolações Lineares, com splines, com Fourier, etc. Com um estimador inteligente Usar os restantes dados para fazer a previsão 30

Alternativa: Eliminar valores omissos Eliminar registos Podemos ficar com poucos dados? Inputs? (neste caso 3 em 10) Eliminar variáveis Registos??????? Podemos ficar com poucas características (neste caso 4 em 9) Abordagem iterativa Usar primeiro uma aproximação grosseira Eliminar registos / variáveis Usar simplesmente valores médios Observar os resultados Conseguem-se boas previsões? Resultados são realistas? Abordagem mais fina Estimar valores para os omissos Usar clusters para definir médias 31

Normalização dos dados Nomalização Efeitos de mudanças de escala O que é perto do quê? 32

Porquê normalizar Para cada variável individual Para não comparar alhos com bugalhos! Entre variáveis Para que métodos que dependem de distâncias (logo de escala) não fiquem trancados numa única característica Para que as diferentes características tenham importâncias proporcionais. Porquê normalizar Entre indivíduos Para insensibilizar a factores de escala Para identificar prefis em vez de valores absolutos Inputs Registos????????? Normlizar indivíduos (por linhas) Normlizar características ou variáveis (por colunas) 33

Objectivos possíveis Aproximar a distribuição de uniforme Espalha maximamente os dados Aproximar a distribuição normal Identifica bem os extremos e deixa que estes sejam muito diferentes Ter maior resolução na zona de interesse Pré-processamento Algumas normalizações mais comuns Min-Max y min y' = y [0,1] max min Z-score y centrado em 0 com σ=1 y' = y média DesvioPadr ão Percentis Distribuição final sigmoidal Sigmoidal (logística) y com maior resoução no centro y =nº de ordem 1 e y' = 1+ e α α 34

Normalização sigmoidal Diferencia a zona de transição 1.0000 0.9000 0.8000 0.7000 0.6000 0.5000 0.4000 0.3000 0.2000 Pequena diferenciação Grande diferenciação 0.1000 0.0000-9 -8-7 -6-5 -4-3 -2-1 0 1 2 3 4 5 6 7 8 9 Outros problemas de pré-processamento 35

Eliminar outliers Efeito de alavanca dos outliers Efeito de esmagamento dos outliers Eliminar outliers Estatística (baseado em σ) Problema dos inliers Métodos detectores de outliers Com k-médias Com SOM Conversões entre tipos de dados Nominal / Binário 1 bit para cada valor possível Ordinal / Numérico Respeitar ou não a escala? Numérico / Ordinal Como discretizar? 36

Outras transformações Médias para reduzir ruído Ratios para insensibilizar a escala Combinar dados É introdução de conhecimento à priori Quanto pré-processamento? Mais pré-processamento Maior incorporação de conhecimento à priori Mais trabalho inicial, tarefas mais fáceis e fiáveis mais tarde Menos pré-processamento Maior esforço mais tarde Maior pressão sobre sistema de classificação/ previsão / clustering Princípio: garbage in garbage out 37