Análise Fatorial e Componentes Principais Aplicadas na Engenharia de Avaliações

Documentos relacionados
Estatística Aplicada à Administração II. Tópico. Análise de Componentes Principais

Análise Multivariada Aplicada à Contabilidade

ANÁLISE DE COMPONENTES PRINCIPAIS/PCA ou ACP

29 e 30 de julho de 2013

Mestrado Profissional em Administração. Disciplina: Análise Multivariada Professor: Hedibert Freitas Lopes 1º trimestre de 2015

GPDI Grupo de Profissionais de Dados e Inteligência

G3 de Álgebra Linear I

ANÁLISE DE COMPONENTES PRINCIPAIS/PCA ou ACP

Aula 25: Análise Fatorial. Prof. Eduardo A. Haddad

8. Análise em Componentes Principais - ACP

Métodos Quantitativos Aplicados

Estatística: Aplicação ao Sensoriamento Remoto SER ANO Componentes Principais

Estudo dirigido de Análise Multivariada

Análise Fatorial. Matriz R de coeficientes de correlação: Não confundir análise de componentes principais com análise fatorial!

Sensoriamento Remoto II

Avaliação climatológica da cidade de Uberlândia por meio da Análise de Componentes Principais

Técnicas Multivariadas em Saúde

INTRODUÇÃO AO PROCESSAMENTO DIGITAL DE IMAGENS SENSORIAMENTO REMOTO

Análise de Componentes Principais (PCA)

Álgebra Linear I - Aula 22

GAAL - Terceira Prova - 15/junho/2013. Questão 1: Analise se a afirmação abaixo é falsa ou verdadeira:

Reconhecimento de Padrões. Principal Component Analysis (PCA) Análise dos Componentes Principais

Universidade Federal do Paraná Departamento de Informática. Reconhecimento de Padrões PCA. Luiz Eduardo S. Oliveira, Ph.D.

Técnicas Multivariadas em Saúde. Vetores Aleatórios. Métodos Multivariados em Saúde Roteiro. Definições Principais. Vetores aleatórios:

Multicolinariedade e Autocorrelação

Álgebra Linear I - Aula Forma diagonal de uma matriz diagonalizável

5. Seja R : R 3 R 3 uma rotação em torno do eixo gerado por (0, 0, 1). Suponha que R mande o vetor

G4 de Álgebra Linear I

5 a Lista de Exercícios de Introdução à Álgebra Linear IMPA - Verão Encontre os autovalores, os autovetores e a exponencial e At para

Autovalores e Autovetores

4 ANÁLISE DE DADOS. Erro do balanço iônico (%) = Σ cátions - Σ ânions x 100 Σ (cátions + ânions) (1)

Análise multivariada

Palavras-Chave: Autovalores, Matriz, Método de Jacobi. (1)

Exemplo 1: Variáveis padronizadas Z t = ( Z 1 (1), Z 2 (1), Z 1 (2), Z 2 Z 1 (1) Z (1) = Z (2) = Z 2. Matriz de correlações:

A2 - ANÁLISE FATORIAL

Produto Interno - Mauri C. Nascimento - Depto. de Matemática - FC UNESP Bauru

- identificar operadores ortogonais e unitários e conhecer as suas propriedades;

Formas Quádricas Cônicas hlcs

NOTAS DE AULA DA DISCIPLINA CE076

G3 de Álgebra Linear I

PROCESSAMENTO DE IMAGENS

Matrizes. Lino Marcos da Silva

Transformação dos dados. Analise de Componentes Principais - PCA

OTIMIZAÇÃO DE PONTOS AMOSTRAIS DE QUALIDADE DE ÁGUA EM RESERVATÓRIOS

Autovalores e Autovetores

étodos uméricos SISTEMAS DE EQUAÇÕES LINEARES (Continuação) Prof. Erivelton Geraldo Nepomuceno PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA

P4 de Álgebra Linear I de junho de 2005 Gabarito

10 a Lista de Exercícios

Análise Fatorial Hierárquica do Sigma Test. Por Hindemburg Melão Jr.

5. Seja A uma matriz qualquer. Assinale a afirmativa

Álgebra Linear I - Aula Bases Ortonormais e Matrizes Ortogonais

Chamamos de grandezas coisas que podem ser medidas. Por exemplo, tempo, área, volume, temperatura, velocidade, aceleração, força, etc..

SCC0173 Mineração de Dados Biológicos

Análise de Regressão Linear Múltipla III

Determinação numérica de autovalores e autovetores: Método de Jacobi

(d) p(λ) = λ(λ + 1) (b) 4 (c) 1 (d) Seja A uma matriz n n. Assinale a alternativa FALSA:

Análise de Regressão Linear Simples e

Dadas as observações x 1, x 2,..., x n p-variadas, a AF busca responder a seguinte questão.

APLICAÇÃO DE TÉCNICAS MULTIVARIADAS NA SELEÇÃO DE GENÓTIPOS DE PLANTAS PARA GRAMADOS RESISTENTES A INSETOS

Análise Fatorial. Matriz R de coeficientes de correlação: Não confundir análise de componentes principais com análise fatorial!

MAT Álgebra Linear para Engenharia II

MAT2458 ÁLGEBRA LINEAR PARA ENGENHARIA II 2 a Prova - 2 o semestre de T ( p(x) ) = p(x + 1) p(x), (a) 8, (b) 5, (c) 0, (d) 3, (e) 4.

Universidade Federal da Paraíba Departamento de Matemática. Álgebra Linear e Geometria Analítica

Descomposição de Cholesky

G3 de Álgebra Linear I

Representação esquemática de estruturas de dados

Modelagem Computacional. Parte 7 2

3 a. Lista de Exercícios

(b) A não será diagonalizável sobre C e A será diagonalizável sobre R se, e

Teorema da Triangularização de Schur e Diagonalização de Matrizes Normais

CORRELAÇÃO. Flávia F. Feitosa

Faculdade de Economia, Administração e Contabilidade da Universidade de São Paulo. Disciplina: EAD 351. Técnicas Estatísticas de Agrupamento

(a) (1,5) Obtenha os autovalores e autovetores de L. (b) (1,0) A matriz de L em relação à base canônica de M 2 2 é diagonalizável? Explique.

Geometria (X 6 ) Português (X 3 ) Álgebra (X 4 )

Geometria Analítica e Álgebra Linear

MAP Métodos Numéricos e Aplicações Escola Politécnica 1 Semestre de 2017 EPREC - Entrega em 27 de julho de 2017

ANÁLISE FATORIAL EXPLORATÓRIA APLICADA A DADOS DE AVALIAÇÃO DO ESTADO NUTRICIONAL DE IDOSOS. Elen Daniele Paulino

Álgebra Linear II - Poli - Gabarito Prova SUB-tipo 00

. Repare que ao multiplicar os vetores (-1,1) e

Marcelo M. Santos DM-IMECC-UNICAMP msantos/

Sumário e Objectivos. Mecânica dos Sólidos não Linear Capítulo 2. Lúcia Dinis 2005/2006

G2 de Álgebra Linear I

EXERCÍCIOS DE ELEMENTOS DE MATEMÁTICA II (BQ, CTA, EFQ, Q) 2002/2003. Funções reais de várias variáveis

Análise Fatorial. Da Álgebra matricial, sabemos que uma transformação. (ou reflexão) dos eixos coordenados em relação

Função prcomp. 1. Introdução

CSE-020 Revisão de Métodos Matemáticos para Engenharia

Distância Estatística

G4 de Álgebra Linear I

1. Conceitos básicos de estatística Níveis de medição Medidas características de distribuições univariadas 21

Universidade Federal de Alagoas UFAL Centro de Tecnologia - CTEC Programa de Pós-Graduação em Engenharia Civil - PPGEC

1. Entre as funções dadas abaixo, verifique quais são transformações lineares: x y z

Determinação numérica de autovalores e autovetores: Método das Potências Inversas

Lista de Álgebra Linear Aplicada

8 JÚLIO CESAR R. PEREIRA

Álgebra Linear /2 Turma 11852

Álgebra Linear (MAT-27) Ronaldo Rodrigues Pelá. 21 de outubro de 2011

Álgebra abstrata aplicada: alguém duvida?

Caros Alunos, segue a resolução das questões de Estatística aplicadas na prova para o cargo de Auditor Fiscal da Receita Municipal de Teresina.

Nota importante: U é a matriz condensada obtida no processo de condensação da matriz

Transcrição:

Análise Fatorial e Componentes Principais Aplicadas na Engenharia de Avaliações Diogo de Carvalho Bezerra Universidade Federal de Pernambuco Núcleo de Gestão e-mail:dicbezerra@hotmail.com SOBREA Sociedade Brasileira de Engenharia de Avaliações IV Simpósio, Recife, Novembro de 2014.

Outline 1 Apresentação 2 Análise dos Componentes Principais 3 Análise de Fatores 4 Aplicação dos Componentes Principais 5 Conclusão

Considerações Na análise estatística, normalmente, se trabalha com variáveis que não são independentes uma das outras. Análise de componentes principais é elaborada para reduzir o número de variáveis que necessitam ser consideradas a um número menor de índices (chamados componentes principais) os quais são combinações lineares das variáveis originais. Análise de Fatores também tem como objetivo estudar a variação em uma quantidade de variáveis originais usando um número menor de variáveis índices ou fatores.

Representação Uma representação de possíveis componentes é dada por: I 1 = X 1 + X 2 + X 3 + X 4 + X 5 Outro Índice: I 1 = X 1 + X 2 + X 3 X 4 X 5 O segundo índice poderia ser responsável por representar outra dimensão.

Aspectos Hitóricos e Objetivo Historicamente, a análise dos principais componentes foi descrita por Karl Pearson (1901). É um dos métodos de análise multivariada mais simples? não estatístico. O objetivo é tonar p variáveis X 1,... X p e encontrar combinações destas para produzir índices Z 1,..., Z p que sejam não correlacionados na ordem de importância, e que descrevam a variância da maioria dos índices. A ordem dos índices é tal que VAR(Z 1 ) VAR(Z 2 ) VAR(Z p )

Procedimento 1 Codificando as variáveis para terem médias zero e variâncias unitárias. Isto é usual, mas é omitido em alguns casos em que se assume que a importância das vaiáveis é refletida em suas variâncias; 2 Calcular a matriz de covariância, ou de correlação se o passo 1 for feito; 3 Encontrar os autovetores e autovalores. 4 Descarte quaisquer componentes que explicam somente uma pequena proporção da variação nos dados.

Procedimento Inicialmente, tem-se dados de p variáveis para n indivíduos. O primeiro componente principal, pode ser representado como a combinação linear das p variáveis: Z 1 = a 11 X 1 + a 12 X 2 + a 13 X 3 +... a 1p X p Que vai variar tanto quanto possível para os indivíduos, sujeitos à condição de que a 2 11 + a2 12 + a2 13 +... a2 1p = 1 A restrição é imposta para garantir que a variância de Z 1 não aumente indefinidamente.

Procedimento Repete o procedimento para o segundo componente principal: Z 2 = a 21 X 1 + a 22 X 2 + a 23 X 3 +... a 2p X p Que vai variar tanto quanto possível para os indivíduos, sujeitos à condição de que a 2 21 + a2 22 + a2 23 +... a2 2p = 1 Além de que Z 1 e Z 2 tenham correlação zero para os dados. Segue-se então a construção dos p componentes principais de forma a garantir uma maior representação da variância ordenadas dos indivíduos. Porém, a forma de cálculo da determinação dos componentes principais é irrelevante. O que se precisa é o cálculo dos autovalores e autovetores da matriz de covariância (ou correlação).

Procedimento Repete o procedimento para o segundo componente principal: Z 2 = a 21 X 1 + a 22 X 2 + a 23 X 3 +... a 2p X p Que vai variar tanto quanto possível para os indivíduos, sujeitos à condição de que a 2 21 + a2 22 + a2 23 +... a2 2p = 1 Além de que Z 1 e Z 2 tenham correlação zero para os dados. Segue-se então a construção dos p componentes principais de forma a garantir uma maior representação da variância ordenadas dos indivíduos. Porém, a forma de cálculo da determinação dos componentes principais é irrelevante. O que se precisa é o cálculo dos autovalores e autovetores da matriz de covariância (ou correlação).

Procedimento A matriz de covariância das p variáveis é representado por c 11 c 12... c 1p c 21 c 22... c 2p C =...... c p1 c p2... c pp onde c ij é a covariância entre X i e X j. Codificando as variáveis C representa a matriz de correlação. A variância dos componentes principais são os autovalores da matriz C. Os autovetores correspondentes ao autovalor λ i definem os valores de (a i1, a i2, a i3,..., a ip ). Uma propriedade importante dos autovalores é λ 1 + λ 2 + + λ p = c 11 + c 22 + + c pp

Objetivo A análise de fatores tem o objetivo semelhante ao da análise de componentes principais. A diferença principal é que o método de análise de fator é baseado em um modelo estatístico. Desenvolvido inicialmente por Charles Spearman em 1904. Spearman observou em uma matriz de correlação entre escores de testes para meninos de uma escola preparatória a seguinte relação: que quaisquer duas linhas eram quase proporcionais se as diagonais fossem ignoradas.

Representação Spearman sugeriu que os escores fossem descritos pela equação X i = a i F i + e i onde X i é o i ésimo escore depois ter sido padronizado; a i é uma contante; F é um fator com média zero e variância 1; e e 1 é a pare de X i que é especifica para o i ésimo teste somente.

Resultados É fácil verificar que: Var(X i ) = Var(a i F + e i ) = Var(a i F) + Var(e i ) = a 2 i Vaf (F) + Var(e i) Tem-se, ainda, que = a 2 i + Var(e i ) 1 = a 2 i + Var(e i )

Resultados Pode-se, concluir que a i, chamada de carga do fator, é tal que seu quadrado é a proporção da variância de X i que está contida no fator. Spearman formulou sua teoria de dois fatores de testes mentais. De acordo com esta teoria, cada resultado do teste é composto de duas partes, uma que é comum a todos os testes (inteligência geral), e outras que é especifica para o teste.

Generalização O modelo de análise de fatores geral estabelece X i = a i1 F 1 + a i2 F 2 + + a im F m + e i onde F 1 a F m são fatores comuns não correlacionados, cada um com média zero e variância unitária.

Procedimento O procedimento para uma análise de fatores é descrito em termos de três estágios: Primeiro, cargas de fator provisórias são determinadas através do método de componentes principais. Segundo, as cargas são modificadas através de um método de rotação para facilitar a interpretação dos dados. Terceiro, escores de fator são calculados, os quais são fatores para os indivíduos que possuem os valores de X conhecidos.

Procedimento Na segunda etapa a rotação de fatores pode ser ortogonal (para dar fatores não correlacionados) ou oblíqua (para dar fatores correlacionados)

Avaliação da Venda de Terrenos - Sergipe Apesar da base de dados apresentar um n = 4401. A maioria das vaiáveis não são pelo menos ordinal. A aplicação a nível de ilustração será com cinco variáveis: 1 Renda média do chefe de família em salários mínimos; 2 Coordenada UTM X; 3 Coordenada UTM Y; 4 Infraestrutura (Agregação de serviços como: guias e sarjetas; iluminação; rede de energia; telefone; água potável; esgotamento; galeria de águas pluviais; e pavimentação.) 5 Frente.

Avaliação da Venda de Terrenos - Sergipe Apesar da base de dados apresentar um n = 4401. A maioria das vaiáveis não são pelo menos ordinal. A aplicação a nível de ilustração será com cinco variáveis: 1 Renda média do chefe de família em salários mínimos; 2 Coordenada UTM X; 3 Coordenada UTM Y; 4 Infraestrutura (Agregação de serviços como: guias e sarjetas; iluminação; rede de energia; telefone; água potável; esgotamento; galeria de águas pluviais; e pavimentação.) 5 Frente. A análise foi realizada com base na correlação.

Table: Autovalor CP Autovalor % Variância Autovalor % Acumulativo Total Acumulativo Z1 2,0179 40,3584 2,0179 40,3584 Z2 1,2159 24,3181 3,2338 64,6764 Z3 0,9868 19,7365 4,2206 84,4129 Z4 0,7792 15,5837 4,9998 99,9966 Z5 0,0002 0,0034 5,0000 100,0000

Table: Autovetores Z1 Z2 Z3 Z4 Z5 Renda (SM) - 0,0290 0,7094-0,0002 0,7042-0,0048 coordx - 0,7011 0,0317 0,0669-0,0559 0,7070 coordy - 0,7013 0,0201 0,0697-0,0540-0,7071 INFRA 0,0607 0,6905-0,1970-0,6933-0,0070 Frente 0,1104 0,1359 0,9756-0,1321 0,0007

Table: Contribuição da Variável baseado na correlação. Z1 Z2 Z3 Z4 Z5 Renda (SM) 0,0008 0,5033 0,0000 0,4959 0,0000 coordx 0,4915 0,0010 0,0045 0,0031 0,4999 coordy 0,4918 0,0004 0,0049 0,0029 0,5000 INFRA 0,0037 0,4768 0,0388 0,4806 0,0000 Frente 0,0122 0,0185 0,9519 0,0175 0,0000

O objetivo de redução do número de variáveis é possível. A importância dos métodos analisados se faz quando o número de variáveis é ainda maior, próximo de vinte, porém o número de fatores pode ser reduzido a três.