Análise de componentes principais (PCA)
Redução de dados Sumarizar os dados que contém muitas variáveis (p) por um conjunto menor de (k) variáveis compostas derivadas a partir do conjunto original. p k n A n X
Data Reduction Variação residual são informações contidas em A que não estão presentes em X. Compromisso entre: redução do tamanho, representação mais compacta supersimplificação: perda de informação relevante.
Análise de componentes principais (PCA) Provavelmente o método multivariado mais usado e conhecido de redução de dados Inventado por Pearson (1901) e Hotelling (1933)
Principal Component Analysis (PCA) usa uma conjunto de dados representado por uma matriz de n registros por p atributos, que podem estar correlacionados, e sumariza esse conjunto por eixos não correlacionados (componentes principais) que são uma combinação linear das p variáveis originais as primeiras k componentes contém a maior quantidade de variação dos dados
Raciocínio geométrico da PCA Objetos são representados por uma nuvem de n pontos em um espaço multidimensional, com um eixo para cada uma dos p atributos o centroide dos pontos é definido pela média de cada atributo a variância de cada atributo é média dos quadrados da diferença dos n pontos com relação a média de cada atributo V i = 1 n 1 n ( X X ) 2 im i m =1
Raciocínio geométrico da PCA Grau com que cada variável é linearmente correlacionado é representado pela sua covariância. Covariance of variables i and j Sum over all n objects Value of variable i in object m Mean of variable i Value of variable j in object m Mean of variable j
Interpretação geométrica da PCA O objetivo da PCA é rotacionar rigidamente os eixos desse espaço p- dimensional para nova posições (eixos principais) que tem a seguinte propriedade: Ordenado de tal maneira que o eixo principal 1 tem a maior variância, o eixo 2 tem a próxima maior variância,..., e o último eixo tem a menor variância Covariância entre cada par de eixos é zero (os eixos principais não são correlacionados).
2D Example of PCA variáveis X 1 and X 2 tem covariância positiva e cada uma delas têm variância similar.
Os dados são centralizados Cada variável é ajustada para ter média zero (subtraindo a média para cada valor).
Componentes principais são calculadas PC 1 tem a maior variância possível (9.88) PC 2 tem variância de 3.03 PC 1 e PC 2 tem covariância zero.
A medida dedissimilaridade usada na PCA é a distância euclidiana PCA usa a distância euclidiana calculada a partir dos p atributos como uma medida de dissimilaridade entre os n objetos PCA calcula as k melhores possíveis dimensões (k < p) representandos a distância euclidiana entre os objetos
Generalização para p-dimensões Na prática, PCA não é usada com somente 2 variables A algebra para encontrar os eixos pode ser facilmente extendida para p variáveis PC 1 é a direção de maior variação na nuvem p-dimensional de pontos PC 2 está na direção da próxima maior variância, condiciodicionada a zero covariânciancia com PC 1.
Generalização para p-dimensões PC 3 está na direção da próxima maior covariância, condidionada com zero covariância entre PC 1 e PC 2 e assim por diante... até PC p
cada eixo principal é uma combinação linear das variáveis originais PC j = a i1 Y 1 + a i2 Y 2 + a in Y n a ij s são os coeficiente para o fator i, multiplicado pela dimensão da variável j PC 1 PC 2
os PC eixos são rotações rígidas das variáveis originais PC 1 é simultaneamente a direção de maior variâcia e simultaneamente melhor reta ajustada que minimiza a distância média entre os pontos e PC1 PC 1 PC 2
Generalização para p-dimensões se tomarmos as primeiras k components, eles definem um hiperplano k-dimensional que melhor se ajusta à nuvem de pontos Da variância total dos p atributos: PCs 1 até k representam a proporção máximo possivel de variância que pode ser mostrada em k dimensões
Covariancia vs Correlação usar covariância entre variáveis somente faz sentido se elas estão representadas na mesma unidade Mesmo assim, variáveis com alta variância vão dominar as componentes principais Esses problemas são geralmente contornados normalizando os atributos Média de i Desvio padrão de i
Covariance vs Correlation covariancias entre variáveis normalizadas são correlações correlações Depois da normalização, cada variável tem variância 1 Correlações também podem ser calculadas a paritr de variâncias e covariâncias: Correlation between variables i and j Variance of variable i Covariance of variables i and j Variance of variable j
Algebra do PCA O primeiro passo é calcular a matriz de produto vetorial de variâncias e covariâncias (ou correlações) entre cada par dos p atributos Matriz quadrada e assimétrica Diagonais são covariâncias, fora, covariâncias. X1 X2 X1 X2 X1 6.6707 3.4170 X2 3.4170 6.2384 Variance-covariance Matrix X1 1.0000 0.5297 X2 0.5297 1.0000 Correlation Matrix
Algebra da PCA Em notação matricial: onde X é a matriz n x p de dados, com cada variável centralizada X1 X2 X1 X2 X1 6.6707 3.4170 X2 3.4170 6.2384 Variance-covariance Matrix X1 1.0000 0.5297 X2 0.5297 1.0000 Correlation Matrix
Manipulação de Matrizes Transposição: inverte linhas e colunas X = 10 0 4 7 1 2 Multiplica as matrizes X = 10 7 0 1 4 2
Algebra do PCA Soma dos elementos diagonais da matriz de variância-covariância é chamado traço Ele representaa variância total dos dados É a distância média quadrada entre cada ponto e o centro no espaço p-dimensional. X1 X2 X1 X2 X1 6.6707 3.4170 X2 3.4170 6.2384 X1 1.0000 0.5297 X2 0.5297 1.0000 Trace = 12.9091 Trace = 2.0000
Algebra do PCA Encontrar os eixos principais envolve encontrar os auto-vetores da matriz de produto vetorial (S) The auto-valores de S são soluções (λ) da equação característica
Algebra do PCA os auto-valores, λ 1, λ 2,... λ p correspondem à variância representada em cada componete principal A soma de todos os p auto-valores é igual ao traço de S. X1 X2 X1 6.6707 3.4170 X2 3.4170 6.2384 Trace = 12.9091 λ 1 = 9.8783 λ 2 = 3.0308 Note: λ 1 +λ 2 =12.9091
Algebra do PCA Cada auto-vetor consiste nos p valores que representam a contribuição de cada atributo para a componente principal Autovetores são não correlacionaods (ortogonal) Seus produtos-internos são zero. Auto-vetores u1 u2 X1 0.7291-0.6844 X2 0.6844 0.7291 0.7291*(-0.6844) + 0.6844*0.7291 = 0
Algebra do PCA As coordenadas de cada objeto i na k esimo eixo principal, chamada de escores na PC k, são computadas como one Z é a matriz n x k de PC escores, X é a n x p matriz centralizada de daos e U é a p x k matriz de autovetores.
Algebra da PCA variancia dos scores em cada PC é proporcional ao auto-valor correspondente para aquele eixo O autovalor representa a variância mostrada ( explicada or extraida ) pelo eixo k A soma dos primeiros k autovalores é proporcional ao total de variância explicada pelas primeiras k-dimensões da transformação
λ 1 = 9.8783 λ 2 = 3.0308 Trace = 12.9091 PC 1 mostra ( explica ) 9.8783/12.9091 = 76.5% of the total variance
Algebra da PCA A matriz do produto vetorial calculada usando as p componentes principais tem uma forma simples: Todos os elementos for a da diagonal tem valores zero A diagonal contém os auto-valores. PC1 PC2 PC1 9.8783 0.0000 PC2 0.0000 3.0308 Variance-covariance Matrix of the PC axes