Projeções Multi-dimensionais

Documentos relacionados
Fundamentos dos Dados

Técnicas de Visualização para Dados Multivariados

Fundamentos dos Dados

Modelagem Computacional. Parte 8 2

Modelagem Computacional. Parte 7 2

Consultas por Similaridade em Domínios de Dados Complexos

Aula 7 Medidas de Distância. Profa. Elaine Faria UFU

ÁLGEBRA LINEAR I - MAT0032

Interpolação polinomial: Diferenças divididas de Newton

Mapas Auto-Organizáveis de Kohonen (SOM) SOM é uma rede neural artificial (Kohonen (1995))

Laboratório de Simulação Matemática. Parte 6 2

Laboratório de Simulação Matemática. Parte 7 2

3.6 Erro de truncamento da interp. polinomial.

MÉTODOS MULTIVARIADOS. Rodrigo A. Scarpel

Modelagem Computacional. Parte 6 2

FUNDAMENTOS DE SISTEMAS LINEARES PARTE 1

Parte 0: Normas de Vetor e Matriz

Resolução de Sistemas Lineares. Ana Paula

2 Processo de Agrupamentos

INSTITUTO SUPERIOR TÉCNICO Mestrado Integrado em Engenharia Física Tecnológica Ano Lectivo: 2007/2008 Semestre: 1 o

Resolução de sistemas de equações lineares: Fatorações de matrizes

SME0300 Cálculo Numérico Aula 6

Resolução de sistemas de equações lineares: Fatorações de matrizes

5. Seja A uma matriz qualquer. Assinale a afirmativa

Cálculo Numérico. Resumo e Exercícios P1

SISTEMAS LINEARES PROF. EDÉZIO

Cálculo Numérico BCC760

SUPPORT VECTOR MACHINE - SVM

2 Núcleos: suas propriedades e classificações

Apontamentos III. Espaços euclidianos. Álgebra Linear aulas teóricas. Lina Oliveira Departamento de Matemática, Instituto Superior Técnico

1 Álgebra linear matricial

Introdução aos Métodos Numéricos

Método de restrições ativas para minimização com restrições lineares

Introdução aos Métodos Numéricos

SCC0173 Mineração de Dados Biológicos

Introdução às Redes Neurais Artificiais

Determinação numérica de autovalores e autovetores: Método das Potências Inversas

INSTITUTO SUPERIOR TÉCNICO Licenciatura em Engenharia Física Tecnológica Licenciatura em Engenharia e Gestão Industrial Ano Lectivo: 2002/

UNIVERSIDADE FEDERAL DO ABC

Sistemas de equações lineares

Resolução de Sistemas Lineares. Ana Paula

Estatística: Aplicação ao Sensoriamento Remoto SER ANO Análise de Agrupamento

Resolvendo algebricamente um PPL

Sistemas de equações lineares

Método de restrições ativas para minimização em caixas

ESTATÍSTICA COMPUTACIONAL

Nota importante: U é a matriz condensada obtida no processo de condensação da matriz

Interpolação polinomial: Diferenças divididas de Newton

Aula 8 - Reconhecimento e Interpretação. Prof. Adilson Gonzaga

Reconstrução de Geometria a Partir da Conectividade 27

G3 de Álgebra Linear I

Transformação de Coordenadas

4 Visualização por pontos

O teorema do ponto fixo de Banach e algumas aplicações

Método de Newton truncado

Prova tipo A. Gabarito. Data: 8 de outubro de ) Decida se cada afirmação a seguir é verdadeira ou falsa. 1.a) Considere os vetores de R 3

G2 de Álgebra Linear I

Exercícios de Mínimos Quadrados

Ajuste de dados por mínimos quadrados

Departamento de Matemática da Universidade de Coimbra. Licenciatura em Matemática. e B =

Noções de Álgebra Linear

Marina Andretta. 02 de agosto de 2010

A = Utilizando ponto flutuante com 2 algarismos significativos, 2 = 0, x (0)

Método de Newton modificado

Programa Princípios Gerais Forças, vetores e operações vetoriais

3 Extração de Regras Simbólicas a partir de Máquinas de Vetores Suporte 3.1 Introdução

BCC465 - TÉCNICAS DE MULTI-OBJETIVO. Gladston Juliano Prates Moreira 22 de novembro de 2017

Autovalores e Autovetores

Técnicas de Visualização para Árvores, Grafos e Redes

ÁLGEBRA LINEAR I - MAT0032

Notas para o Curso de Algebra Linear Il Dayse Haime Pastore 20 de fevereiro de 2009

Algoritmos Numéricos 2 a edição

MAP Métodos Numéricos e Aplicações Escola Politécnica 1 Semestre de 2017 EPREC - Entrega em 27 de julho de 2017

Pré processamento de dados II. Mineração de Dados 2012

Interpolação polinomial: Polinômio de Lagrange

SEL-0339 Introdução à Visão Computacional. Aula 7 Reconhecimento de Objetos

Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação

MAP CÁLCULO NUMÉRICO (POLI) Lista de Exercícios sobre o Método dos Mínimos Quadrados

Mineração de Dados em Biologia Molecular

Resolução de sistemas de equações lineares: Fatorações de matrizes

Sistemas de Equações Lineares Algébricas

Quarto projeto computacional (data de entrega: 05/06/17)

EXERCICIOS RESOLVIDOS - INT-POLIN - MMQ - INT-NUMERICA - EDO

UNIVERSIDADE FEDERAL DE PERNAMBUCO Lista de Exercícios / Cálculo Numérico 1ª Unidade

Matrizes e Linearidade

ÁLGEBRA LINEAR - MAT0024

Determinação numérica de autovalores e autovetores: Método das Potências Inversas

EXERCÍCIOS DE MATEMÁTICA COMPUTACIONAL: PRIMEIRO BIMESTRE: EDGARD JAMHOUR. QUESTÃO 1: Indique as afirmativas verdadeiras.

Algebra Linear. 1. Espaços Vetoriais Lineares. 2. Coordenadas em Espaços Lineares. 3. Operadores Lineares. 4. Transformação de Similaridade

Métodos Numéricos - Notas de Aula

CC-226 Introdução à Análise de Padrões

Técnicas de Visualização para Dados Multivariados

Aula 19: Lifting e matrizes ideais

Modelagem Computacional. Parte 2 2

Funções Geradoras de Variáveis Aleatórias. Simulação Discreta de Sistemas - Prof. Paulo Freitas - UFSC/CTC/INE

SME602 - Cálculo Numérico - - Prof. Murilo F. Tomé. Solução Numérica de Sistema Lineares A = MÉTODOS DIRETOS. x y z

Exercícios de ANÁLISE E SIMULAÇÃO NUMÉRICA

Álgebra Linear Exercícios Resolvidos

Redes Neurais e Sistemas Fuzzy

Transcrição:

Prof. Fernando V. Paulovich http://www.icmc.usp.br/~paulovic paulovic@icmc.usp.br Instituto de Ciências Matemáticas e de Computação (ICMC) Universidade de São Paulo (USP) 23 de setembro de 2010

Introdução Sumário 1 Introdução 2 Distâncias, Similaridades e Transformação dos Dados Distâncias e Similaridades Transformação dos Dados 3 Force-Directed Placement Decomposição Espectral Redução de Dimensionalidade

Introdução Sumário 1 Introdução 2 Distâncias, Similaridades e Transformação dos Dados Distâncias e Similaridades Transformação dos Dados 3 Force-Directed Placement Decomposição Espectral Redução de Dimensionalidade

Introdução Introdução Projeção Multi-dimensional Tipicamente mapeia dados m-dimensionais em um espaço p-dimensional com p = {1, 2, 3}, preservando alguma informação sobre as relações de distância entre as instâncias O resultado é um conjunto de pontos no plano se pontos forem proximamente posicionados isso indica que os objetos que esses representam são similares e se pontos forem projetados distantes isso significa que os objetos que os mesmos representam são dissimilares

Introdução Introdução Projeção Multi-dimensional Seja X um conjunto de objetos em R m com δ : R m R m R um critério de proximidade entre objetos em R m, e Y um conjunto de pontos em R p para p = {1, 2, 3} e d : R p R p R um critério de proximidade em R p. Uma técnica de projeção multi-dimensional pode ser descrita como uma função f : X Y que visa tornar δ(x i, x j ) d(f(x i ), f(x j )) o mais próximo possível de zero, x i, x j X.

Introdução Projeção Multi-dimensional

Introdução Projeção Multi-dimensional δ : x i, x j R, x i, x j X

Introdução Projeção Multi-dimensional δ : x i, x j R, x i, x j X d : y i, y j R, y i, y j Y

Introdução Projeção Multi-dimensional δ : x i, x j R, x i, x j X d : y i, y j R, y i, y j Y f : X Y, δ(x i, x j ) d(f(x i ), f(x j )) 0, x i, x j X

Introdução Projeção Multi-dimensional IDH/ONU de 2006 (http://hdr.undp.org/hdr2006/statistics/) http://infoserver.lcad.icmc.usp.br/

Introdução Introdução Símbolo X m x i Y p y i n δ(x i, x j ) d(y i, y j ) Significado conjunto de objetos no espaço original m-dimensional. dimensão do espaço original. i-ésimo objeto do espaço original. Quando esse admitir uma representação vetorial, x i = (x i1, x i2,..., x im ) representam suas coordenadas. conjunto de pontos no espaço projetado p-dimensional. dimensão do espaço projetado. i-ésimo ponto do espaço projetado. Quando esse admitir uma representação vetorial, y i = (y i1, y i2,..., y ip ) representam suas coordenadas. número de objetos no espaço original e pontos no projetado. dissimilaridade entre os objetos i e j no espaço original. distância entre os pontos i e j no espaço projetado. Tabela: Símbolos mais freqüentes e seus significados.

Distâncias, Similaridades e Transformação dos Dados Sumário 1 Introdução 2 Distâncias, Similaridades e Transformação dos Dados Distâncias e Similaridades Transformação dos Dados 3 Force-Directed Placement Decomposição Espectral Redução de Dimensionalidade

Distâncias, Similaridades e Transformação dos Dados Distâncias e Similaridades Sumário 1 Introdução 2 Distâncias, Similaridades e Transformação dos Dados Distâncias e Similaridades Transformação dos Dados 3 Force-Directed Placement Decomposição Espectral Redução de Dimensionalidade

Distâncias, Similaridades e Transformação dos Dados Distâncias e Similaridades Distâncias A forma como a distância (δ(x i, x j )) entre os objetos multi-dimensionais X é calculada desempenha papel central Distância de Minkowski família de métricas de distância denominadas normas L p m L p (x i, x j ) = ( x ik x jk p ) 1 p (1) k=1 Com p = 1 obtém-se a distância Manhattan (City Block) Com p = 2 tem-se a distância Euclideana Com p = obtém-se a distância do infinito (L (x i, x j ) = max m k=1 x ik x jk )

Distâncias, Similaridades e Transformação dos Dados Distâncias e Similaridades Distâncias Propriedades de uma Métrica (Distância) 1 Não-Negatividade: x i, x j X, δ(x i, x j ) 0 2 Identidade: x i, x j X, x i = x j δ(x i, x j ) = 0 3 Simetria: x i, x j X, δ(x i, x j ) = δ(x j, x i ) 4 Desigualdade Triangular: x i, x j, x k X, δ(x i, x k ) δ(x i, x j ) + δ(x j, x k )

Distâncias, Similaridades e Transformação dos Dados Distâncias e Similaridades Distâncias Nem toda dissimilaridade é uma distância (métrica) não precisa obedecer as propriedades métricas Uma dissimilaridade pode ser o inverso de uma similaridade s(x i, x j ) δ(x i, x j) = 1 s(x i,x j )+1 δ(x i, x j) = e s(x i,x j ) δ(x i, x j) = 1 s (x i, x j) com s (x i, x j ) = s(x i,x j ) s min s max s min Exemplo conhecido: dissimilaridade do cosseno 1 cos(x i, x j)

Distâncias, Similaridades e Transformação dos Dados Transformação dos Dados Sumário 1 Introdução 2 Distâncias, Similaridades e Transformação dos Dados Distâncias e Similaridades Transformação dos Dados 3 Force-Directed Placement Decomposição Espectral Redução de Dimensionalidade

Distâncias, Similaridades e Transformação dos Dados Transformação dos Dados Introdução Problema No cálculo das dissimilaridades (ou similaridades), dois diferentes cenários podem distorcer os resultados ou torná-los tendenciosos Quando os vetores x i têm normas Euclideanas muito diferentes Quando uma (ou mais) coordenadas dos vetores está em uma escala diferente das outras coordenadas

Distâncias, Similaridades e Transformação dos Dados Transformação dos Dados Normalização e Padronização Normalização Para se evitar o primeiro cenário pode-se aplicar a normalização tornando os vetores unitário x ij = x ij/ x i para 1 j m Padronização O segundo cenário pode ser evitado aplicando-se um processo conhecido como standardization Se x j = 1 n n i=1 xij é a média da coordenada j e 1 σ j = n n i=1 (xij xj)2 seu desvio padrão, essa transformação é obtida fazendo-se x ij = (x ij x j)/σ j para 1 i n e 1 j m, criando novas coordenadas que têm média igual a 0 e desvio padrão igual a 1

Sumário 1 Introdução 2 Distâncias, Similaridades e Transformação dos Dados Distâncias e Similaridades Transformação dos Dados 3 Force-Directed Placement Decomposição Espectral Redução de Dimensionalidade

Introdução Aqui apresentaremos as técnicas de projeção mais relevantes para visualização, divididas em três grandes grupos baseadas em força (Force-Direct Placement (FDP)) de decomposição espectral de redução de dimensionalidade

Force-Directed Placement Sumário 1 Introdução 2 Distâncias, Similaridades e Transformação dos Dados Distâncias e Similaridades Transformação dos Dados 3 Force-Directed Placement Decomposição Espectral Redução de Dimensionalidade

Force-Directed Placement Introdução Force-Directed Placement São as técnicas de projeção mais simples, baseadas em Modelos de Molas Tenta levar um sistema de objetos conectados por molas a um estado de equilíbrio Sistema iterativo que usa as forças geradas pelas molas para puxar ou empurrar os objetos até se atingir uma posição de equilíbrio As forças no sistema são calculadas proporcionais a diferença entre as dissimilaridades δ(x i, x j) e as distâncias d(y i, y j)

Force-Directed Placement Modelo de Molas Os objetos são modelados como partículas ponto-massa ligadas entre si por meio de molas conjunto de partículas está sujeito às leis de Newton f = m a (2) Resolve-se um sistema de equação diferenciais ordinárias de segunda ordem { v = a = f/m p = v (3)

Force-Directed Placement Abordagem de Chalmers Uma aproximação do Modelo de Molas Para cada instância x i duas listas são criadas V i armazena as referências aos objetos vizinhos de x i mantida do começo ao fim das iterações S i armazenas objetos escolhidos aleatoriamente que não pertençam a V i construida a cada iteração Em uma iteração se a distância de algum elemento de S i for menor que a maior distância para os elementos de V i, esse elemento é adicionado à V i As forças são calculadas considerando os elementos presentes em S i e V i

Force-Directed Placement Modelo Híbrido Primeiro uma amostragem aleatória S de n objetos é projetada no plano usando-se o método de Chalmers Então os objetos restantes são interpolados Para cada n n objetos restantes é comparado com a amostra S a fim de determinar o objeto mais próximo Essa informação é então usada para se realizar a interpolação Essa abordagem é acelerada empregando uma abordagem de árvore métrica, onde pivôs são usados para diminuir a quantidade de cálculos de distância Acomplexidade do algoritmo é reduzida de O(n 3 2 ) para O(n 5 4 )

Force-Directed Placement Force Scheme Force Scheme é uma abordagem mais precisa, mas com custo computacional alto, O(n 2 ) 1: para n=1 até k faça 2: para todo y i Y faça 3: para todo y j Y com y j y i faça 4: Calcular v como sendo o vetor de y i para y j. 5: Mover y j em direção de v uma fração de. 6: fim para 7: fim para 8: Normalizar as coordenadas da projeção na faixa [0, 1] em ambas as dimensões. 9: fim para = δ(x i, x j ) δ min δ max δ min d(y i, y j ) (4)

Force-Directed Placement Sammon s Mapping Minimiza a seguinte função de perda 1 S = i<j δ(x i, x j ) i<j (d(y i, y j ) δ(x i, x j )) 2 δ(x i, x j ) (5) Essa função é minimizada usando um método iterativo que emprega seu gradiente para se encontrar um mínimo local A m-ésima iteração desse método é definida como y pq (m + 1) = y pq (m) MF pq (m) (6) Onde y pq denota a coordenada q do ponto p, pq (m) = S(m) / 2 S(m) y pq (m) ypq(m) 2 (7)

Decomposição Espectral Sumário 1 Introdução 2 Distâncias, Similaridades e Transformação dos Dados Distâncias e Similaridades Transformação dos Dados 3 Force-Directed Placement Decomposição Espectral Redução de Dimensionalidade

Decomposição Espectral Classical Scaling Sejam x i (i = 1,..., n) as coordenadas de n pontos em um espaço Euclideano m-dimensional, onde x i = (x i1,..., x im ) T, e seja B a matrix do produto interno entre vetores, [B] ij = b ij = x T i x j Com distância Euclideana entre os pontos i e j dada por ˆδ(x i, x j ) = (x i x j ) T (x i x j ) (8) A partir de uma matriz da distâncias {ˆδ(x i, x j )}, encontrar a matriz do produto interno B, e a partir de B calcular as coordenadas dos pontos

Decomposição Espectral Classical Scaling A matrix B pode ser reescrita como A é a matrix [A] ij = a ij = 1 2 ˆδ(x i, x j ) H é a matrix de centragem B = HAH (9) Usando decomposição espectral, B pode ser escrita em como B = VΛV T Como B = XX T, a matrix de coordenadas X é dada por X = V 1 Λ 1 2 1,

Decomposição Espectral Isometric Feature Mapping (ISOMAP) Ao invés de empregar distâncias Euclideanas (ou outra dissimilaridade δ(x i, x j )) entre os objetos multi-dimensionais, emprega-se distâncias geodésicas Então a Classical Scaling é aplicada considerando essas distâncias geodésicas

Redução de Dimensionalidade Sumário 1 Introdução 2 Distâncias, Similaridades e Transformação dos Dados Distâncias e Similaridades Transformação dos Dados 3 Force-Directed Placement Decomposição Espectral Redução de Dimensionalidade

Redução de Dimensionalidade de Redução Definição para redução de dimensionalidade buscam encontrar uma representação de menor dimensão que capture o conteúdo original dos dados de acordo com algum critério Redução de Dimensionalidade Linear Uma técnica de redução de dimensionalidade f : X Y é dita ser linear se f(αx i + βx j ) = αf(x i ) + βf(x j ) para todo x i, x j X e α, β R

Redução de Dimensionalidade Principal Component Analysis PCA é uma técnica de redução linear Consegue capturar a maior parte da variabilidade com poucas dimensões Elimina grande parte do ruído existente, etc. Primeiro a matriz de covariância C m m dos atributos é criada, com c ij = cov(a i, a j ) Então decomposição espectral é aplicada encontrando A redução por fim é encontrada fazendo C = UΛU T, (10) S = X [u 1, u 2,..., u p ] (11)

Sumário 1 Introdução 2 Distâncias, Similaridades e Transformação dos Dados Distâncias e Similaridades Transformação dos Dados 3 Force-Directed Placement Decomposição Espectral Redução de Dimensionalidade

Primeiro, um subconjunto de objetos multi-dimensionais, chamados de pontos de controle, é escolhido e projetado no R p Fazendo-se uso das relações de vizinhança dos objetos no R m é construído um sistema linear cuja solução é a projeção dos objetos restantes no fecho convexo de seus k vizinhos mais próximos

Seja V i = {p i1,..., p iki } um conjunto k i pontos em uma vizinhança de um ponto p i e p i sejam as coordenadas de p i no R d Suponha que p i sejam dadas pela seguinte equação p i p j V i α ij p j = 0 0 α ij 1; α ij = 1 (12) Quando α ij = 1 k i teremos p i no centróide dos pontos em V i

A partir dessa equação um conjunto de sistemas lineares é definido Lx 1 = 0, Lx 2 = 0, Lx d = 0 (13) Onde x 1, x 2,..., x d são os vetores contendo as coordenadas cartesianas dos pontos e L é a matriz n n cuja as entradas são dadas por 1 i = j l ij = α ij p j V i 0 caso contrário

Os pontos de controle são inseridos no sistema como novas linhas na matrix Assim, dado um conjunto de pontos de controle S c = {p c1,..., p cnc }, é possível re-escrever o sistema Ax = b (14) Onde A é uma matrix retangular (n + nc) n dada por ( ) { L 1 xj é um ponto de controle A =, c C ij = 0 caso contrário E b é o vetor: { 0 i n b i = n < i n + nc x ic

(a) Grafo de vizinhança. (b) Matrix Laplaciana.

O sistema linear com os pontos de controle apresenta rank-completo e pode ser resolvido aplicando-se mínimos quadrados Encontrar x que minimize Ax b 2, isto é, x = (A T A) 1 A T b