Análise de componentes principais (PCA)

Documentos relacionados

Análise de Componente Principais (PCA) Wagner Oliveira de Araujo

INTRODUÇÃO AOS MÉTODOS FACTORIAIS

Este apêndice resume os conceitos de álgebra matricial, inclusive da álgebra de probabilidade,

Pré processamento de dados II. Mineração de Dados 2012

Correlação e Regressão

7.4 As nuvens de perfis

a 1 x a n x n = b,

IMES Catanduva. Probabilidades e Estatística. no Excel. Matemática. Bertolo, L.A.

O ESPAÇO NULO DE A: RESOLVENDO AX = 0 3.2

2 Matrizes. 3 Definição Soma de duas matrizes, e ( ) 4 Propriedades Propriedades da soma de matrizes ( )

Álgebra Linear. Mauri C. Nascimento Departamento de Matemática UNESP/Bauru. 19 de fevereiro de 2013

UNIVERSIDADE FEDERAL DO ESPÍRITO SANTO PROGRAMA DE EDUCAÇÃO TUTORIAL - MATEMÁTICA PROJETO FUNDAMENTOS DE MATEMÁTICA ELEMENTAR

Factor Analysis (FACAN) Abrir o arquivo ven_car.sav. Clique Extraction. Utilizar as 10 variáveis a partir de Vehicle Type.

Correlação Canônica. Outubro / Versão preliminar. Fabio Vessoni. fabio@mv2.com.br (011) MV2 Sistemas de Informação

25 a 30 de novembro de 2013

TRATAMENTO MULTIVARIADO DE DADOS POR ANÁLISE DE CORRESPONDÊNCIA E ANÁLISE DE AGRUPAMENTOS

6. Geometria, Primitivas e Transformações 3D

Mestrado Profissional em Administração. Disciplina: Análise Multivariada Professor: Hedibert Freitas Lopes 1º trimestre de 2015

ExemResumo parcial da última Quinta-feira, 28 de fevereiro. Os preços-sombra podem ser encontrados ao se examinar os quadros inicial e final!

Mestrado Profissional em Administração. Disciplina: Análise Multivariada Professor: Hedibert Freitas Lopes 1º trimestre de 2015

ficha 3 espaços lineares

TRANSFORMAÇÕES LINEARES. Álgebra Linear e Geometria Analítica Prof. Aline Paliga

TÉCNICAS EXPERIMENTAIS APLICADAS EM CIÊNCIA DO SOLO

UNIDADE 4 - ESTRUTURA CRISTALINA

APLICAÇÕES DE ALGUMAS TÉCNICAS MULTIVARIADAS (Componentes Principais, Variáveis Canônicas e Correlações Canônicas)

DEPARTAMENTO DE MESTRADO EM ENGENHARIA ELÉTRICA DA FEI 18/5/2006 SEMINÁRIOS DA FEI

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU

NOÇÕES DE ÁLGEBRA LINEAR

Título: Sistemas Lineares no CAp UFRJ: Interpretações Algébrica e Gráfica

Workshop: Como usar o software estatístico DAD?

Bem, produto interno serve para determinar ângulos e distâncias entre vetores e é representado por produto interno de v com w).

GLOSSÁRIO: UM DICIONÁRIO PARA ÁLGEBRA LINEAR

4.2 Produto Vetorial. Orientação sobre uma reta r

Um sistema de equações lineares (sistema linear) é um conjunto finito de equações lineares da forma:

5 Transformações Lineares e Matrizes

QUADRADO MÁGICO - ORDEM 4

Métodos Matemáticos para Gestão da Informação

ROTEIRO DE ESTUDO VP4 MATEMÁTICA 3 a ETAPA 6 o ao 9º Ano INTEGRAL ENSINO FUNDAMENTAL 1º E 2º ANOS INTEGRAIS ENSINO MÉDIO

A Análise de Componentes Principais sobre dados dependentes.

Trabalho 2 Fundamentos de computação Gráfica

Prof. Júlio Cesar Nievola Data Mining PPGIa PUCPR

G4 de Álgebra Linear I

Tutorial de Matlab Francesco Franco

11/07/2012. Professor Leonardo Gonsioroski FUNDAÇÃO EDSON QUEIROZ UNIVERSIDADE DE FORTALEZA DEPARTAMENTO DE ENGENHARIA ELÉTRICA.

Recordamos que Q M n n (R) diz-se ortogonal se Q T Q = I.

G3 de Álgebra Linear I

1 Módulo ou norma de um vetor

Método de Eliminação de Gauss. Eduardo Camponogara

Álgebra Linear I - Aula Matrizes simultaneamente ortogonais e simétricas

Álgebra Linear I Solução da 5ª Lista de Exercícios

Gobooks.com.br. PucQuePariu.com.br

Análise de Regressão. Tópicos Avançados em Avaliação de Desempenho. Cleber Moura Edson Samuel Jr

Curso de Computação Gráfica (CG) 2014/2- Unidade 1- Modelagem de objetos. Exercício 1 (individual) - Entrega: quarta 13/08

FILTRAGEM ESPACIAL. Filtros Digitais no domínio do espaço

MATLAB Avançado. Melissa Weber Mendonça

Sistemas Lineares e Escalonamento

DESENVOLVIMENTO DE UMA FUNÇÃO NO R PARA ANÁLISE DE TRILHA

EXCEL Público Alvo: Arquitetos Engenheiros Civis Técnicos em Edificações Projetistas Estudantes das áreas de Arquitetura, Decoração e Engenharia

textos documentos semi-estruturado

PÓLOS NA REPRESENTAÇÃO DO ESPAÇO DOS ESTADOS

Scale-Invariant Feature Transform

Medidas de Variação ou Dispersão

Ivan Guilhon Mitoso Rocha. As grandezas fundamentais que serão adotadas por nós daqui em frente:

INTELIGÊNCIA ARTIFICIAL Data Mining (DM): um pouco de prática. (1) Data Mining Conceitos apresentados por

Grupo C Vetores e Matrizes

Universidade Federal de Viçosa Centro de Ciências Exatas Departamento de Matemática 3 a Lista - MAT Introdução à Álgebra Linear 2013/I

11 a LISTA DE PROBLEMAS DE ÁLGEBRA LINEAR LEIC-Taguspark, LERCI, LEGI, LEE 1 o semestre 2003/04 - semana de

APLICAÇÃO DA ANÁLISE DE CORRESPONDÊNCIA À AVALIAÇÃO INSTITUCIONAL DA FECILCAM

P4 de Álgebra Linear I de junho de 2005 Gabarito

Introdução à Informática Aulas 9 e 10

Lista 1: Vetores -Turma L

DESENVOLVIMENTO DE UMA FUNÇÃO NO R PARA ANÁLISE DE TRILHA RESUMO

Vetores. Definição geométrica de vetores

Correlação e Regressão Linear

ANÁLISE MULTIVARIADA DA TEORIA À PRÁTICA

Faculdade Sagrada Família

G3 de Álgebra Linear I

Investigação Operacional- 2009/10 - Programas Lineares 3 PROGRAMAS LINEARES

O modelo espaço de vetores. vetorial. Marcelo Keese Albertini. Faculdade de Computação - UFU. O modelo de espaço vetorial 1 / 25

Capítulo 3. Cálculo Vetorial. 3.1 Segmentos Orientados

Universidade Federal de Alagoas UFAL Centro de Tecnologia - CTEC Programa de Pós-Graduação em Engenharia Civil - PPGEC

3. REDES DE CAMADA ÚNICA

Capítulo 1. x > y ou x < y ou x = y

RESUMO 2 - FÍSICA III

Álgebra linear algorítmica

Tópico 11. Aula Teórica/Prática: O Método dos Mínimos Quadrados e Linearização de Funções

PROPRIEDADES DOS DETERMINANTES E O CÁLCULO DA ÁREA DE TRIÂN- GULOS: EXEMPLOS SIGNIFICATIVOS

UTILIZAÇÃO DA ANÁLISE DE COMPONENTES PRINCIPAIS PARA MEDIDA DE SIMILARIDADE ENTRE IMAGENS ESTUDO DE CASO

Retorno e risco de carteiras de investimento

Modelagem no Domínio do Tempo. Carlos Alexandre Mello. Carlos Alexandre Mello 1

PROCESSAMENTO DIGITAL DE IMAGENS

Conceitos: A fração como coeficiente. A fração e a sua representação gráfica. Termos que compõem uma fração. Fração unidade. Fração de um número.

UNIVERSIDADE LUSÍADA DE LISBOA. Programa da Unidade Curricular ESTATÍSTICA MULTIVARIADA Ano Lectivo 2014/2015

Variantes sobre o método Simplex: Método do grande M

Tratamento de Dados Utilizando o SciDAVis Tutorial Parte 1 Como construir um gráfico e fazer um ajuste linear

Aplicações de Combinatória e Geometria na Teoria dos Números

Imagem e Gráficos. vetorial ou raster?

AULAS 13, 14 E 15 Correlação e Regressão

Manual do Usuário. Plano de Corte

Transcrição:

Análise de componentes principais (PCA)

Redução de dados Sumarizar os dados que contém muitas variáveis (p) por um conjunto menor de (k) variáveis compostas derivadas a partir do conjunto original. p k n A n X

Data Reduction Variação residual são informações contidas em A que não estão presentes em X. Compromisso entre: redução do tamanho, representação mais compacta supersimplificação: perda de informação relevante.

Análise de componentes principais (PCA) Provavelmente o método multivariado mais usado e conhecido de redução de dados Inventado por Pearson (1901) e Hotelling (1933)

Principal Component Analysis (PCA) usa uma conjunto de dados representado por uma matriz de n registros por p atributos, que podem estar correlacionados, e sumariza esse conjunto por eixos não correlacionados (componentes principais) que são uma combinação linear das p variáveis originais as primeiras k componentes contém a maior quantidade de variação dos dados

Raciocínio geométrico da PCA Objetos são representados por uma nuvem de n pontos em um espaço multidimensional, com um eixo para cada uma dos p atributos o centroide dos pontos é definido pela média de cada atributo a variância de cada atributo é média dos quadrados da diferença dos n pontos com relação a média de cada atributo V i = 1 n 1 n ( X X ) 2 im i m =1

Raciocínio geométrico da PCA Grau com que cada variável é linearmente correlacionado é representado pela sua covariância. Covariance of variables i and j Sum over all n objects Value of variable i in object m Mean of variable i Value of variable j in object m Mean of variable j

Interpretação geométrica da PCA O objetivo da PCA é rotacionar rigidamente os eixos desse espaço p- dimensional para nova posições (eixos principais) que tem a seguinte propriedade: Ordenado de tal maneira que o eixo principal 1 tem a maior variância, o eixo 2 tem a próxima maior variância,..., e o último eixo tem a menor variância Covariância entre cada par de eixos é zero (os eixos principais não são correlacionados).

2D Example of PCA variáveis X 1 and X 2 tem covariância positiva e cada uma delas têm variância similar.

Os dados são centralizados Cada variável é ajustada para ter média zero (subtraindo a média para cada valor).

Componentes principais são calculadas PC 1 tem a maior variância possível (9.88) PC 2 tem variância de 3.03 PC 1 e PC 2 tem covariância zero.

A medida dedissimilaridade usada na PCA é a distância euclidiana PCA usa a distância euclidiana calculada a partir dos p atributos como uma medida de dissimilaridade entre os n objetos PCA calcula as k melhores possíveis dimensões (k < p) representandos a distância euclidiana entre os objetos

Generalização para p-dimensões Na prática, PCA não é usada com somente 2 variables A algebra para encontrar os eixos pode ser facilmente extendida para p variáveis PC 1 é a direção de maior variação na nuvem p-dimensional de pontos PC 2 está na direção da próxima maior variância, condiciodicionada a zero covariânciancia com PC 1.

Generalização para p-dimensões PC 3 está na direção da próxima maior covariância, condidionada com zero covariância entre PC 1 e PC 2 e assim por diante... até PC p

cada eixo principal é uma combinação linear das variáveis originais PC j = a i1 Y 1 + a i2 Y 2 + a in Y n a ij s são os coeficiente para o fator i, multiplicado pela dimensão da variável j PC 1 PC 2

os PC eixos são rotações rígidas das variáveis originais PC 1 é simultaneamente a direção de maior variâcia e simultaneamente melhor reta ajustada que minimiza a distância média entre os pontos e PC1 PC 1 PC 2

Generalização para p-dimensões se tomarmos as primeiras k components, eles definem um hiperplano k-dimensional que melhor se ajusta à nuvem de pontos Da variância total dos p atributos: PCs 1 até k representam a proporção máximo possivel de variância que pode ser mostrada em k dimensões

Covariancia vs Correlação usar covariância entre variáveis somente faz sentido se elas estão representadas na mesma unidade Mesmo assim, variáveis com alta variância vão dominar as componentes principais Esses problemas são geralmente contornados normalizando os atributos Média de i Desvio padrão de i

Covariance vs Correlation covariancias entre variáveis normalizadas são correlações correlações Depois da normalização, cada variável tem variância 1 Correlações também podem ser calculadas a paritr de variâncias e covariâncias: Correlation between variables i and j Variance of variable i Covariance of variables i and j Variance of variable j

Algebra do PCA O primeiro passo é calcular a matriz de produto vetorial de variâncias e covariâncias (ou correlações) entre cada par dos p atributos Matriz quadrada e assimétrica Diagonais são covariâncias, fora, covariâncias. X1 X2 X1 X2 X1 6.6707 3.4170 X2 3.4170 6.2384 Variance-covariance Matrix X1 1.0000 0.5297 X2 0.5297 1.0000 Correlation Matrix

Algebra da PCA Em notação matricial: onde X é a matriz n x p de dados, com cada variável centralizada X1 X2 X1 X2 X1 6.6707 3.4170 X2 3.4170 6.2384 Variance-covariance Matrix X1 1.0000 0.5297 X2 0.5297 1.0000 Correlation Matrix

Manipulação de Matrizes Transposição: inverte linhas e colunas X = 10 0 4 7 1 2 Multiplica as matrizes X = 10 7 0 1 4 2

Algebra do PCA Soma dos elementos diagonais da matriz de variância-covariância é chamado traço Ele representaa variância total dos dados É a distância média quadrada entre cada ponto e o centro no espaço p-dimensional. X1 X2 X1 X2 X1 6.6707 3.4170 X2 3.4170 6.2384 X1 1.0000 0.5297 X2 0.5297 1.0000 Trace = 12.9091 Trace = 2.0000

Algebra do PCA Encontrar os eixos principais envolve encontrar os auto-vetores da matriz de produto vetorial (S) The auto-valores de S são soluções (λ) da equação característica

Algebra do PCA os auto-valores, λ 1, λ 2,... λ p correspondem à variância representada em cada componete principal A soma de todos os p auto-valores é igual ao traço de S. X1 X2 X1 6.6707 3.4170 X2 3.4170 6.2384 Trace = 12.9091 λ 1 = 9.8783 λ 2 = 3.0308 Note: λ 1 +λ 2 =12.9091

Algebra do PCA Cada auto-vetor consiste nos p valores que representam a contribuição de cada atributo para a componente principal Autovetores são não correlacionaods (ortogonal) Seus produtos-internos são zero. Auto-vetores u1 u2 X1 0.7291-0.6844 X2 0.6844 0.7291 0.7291*(-0.6844) + 0.6844*0.7291 = 0

Algebra do PCA As coordenadas de cada objeto i na k esimo eixo principal, chamada de escores na PC k, são computadas como one Z é a matriz n x k de PC escores, X é a n x p matriz centralizada de daos e U é a p x k matriz de autovetores.

Algebra da PCA variancia dos scores em cada PC é proporcional ao auto-valor correspondente para aquele eixo O autovalor representa a variância mostrada ( explicada or extraida ) pelo eixo k A soma dos primeiros k autovalores é proporcional ao total de variância explicada pelas primeiras k-dimensões da transformação

λ 1 = 9.8783 λ 2 = 3.0308 Trace = 12.9091 PC 1 mostra ( explica ) 9.8783/12.9091 = 76.5% of the total variance

Algebra da PCA A matriz do produto vetorial calculada usando as p componentes principais tem uma forma simples: Todos os elementos for a da diagonal tem valores zero A diagonal contém os auto-valores. PC1 PC2 PC1 9.8783 0.0000 PC2 0.0000 3.0308 Variance-covariance Matrix of the PC axes