NOTAS DE AULA DA DISCIPLINA CE076

Documentos relacionados
Exemplo 1: Variáveis padronizadas Z t = ( Z 1 (1), Z 2 (1), Z 1 (2), Z 2 Z 1 (1) Z (1) = Z (2) = Z 2. Matriz de correlações:

GPDI Grupo de Profissionais de Dados e Inteligência

G3 de Álgebra Linear I

ANÁLISE DE COMPONENTES PRINCIPAIS/PCA ou ACP

Técnicas Multivariadas em Saúde. Vetores Aleatórios. Métodos Multivariados em Saúde Roteiro. Definições Principais. Vetores aleatórios:

Ralph S. Silva

Estatística: Aplicação ao Sensoriamento Remoto SER ANO Componentes Principais

Multicolinariedade e Autocorrelação

Análise Fatorial e Componentes Principais Aplicadas na Engenharia de Avaliações

G3 de Álgebra Linear I

8. Análise em Componentes Principais - ACP

Análise de Regressão Linear Múltipla III

Segunda Lista de Exercícios Cálculo de Probabilidades II Prof. Michel H. Montoril

Mestrado Profissional em Administração. Disciplina: Análise Multivariada Professor: Hedibert Freitas Lopes 1º trimestre de 2015

Técnicas Multivariadas em Saúde

ANÁLISE DE CORRELAÇÕES CANÓNICAS. Identificar e quantificar a associação entre dois conjuntos de variáveis.

Comunicaçõ. ções Digitais II. Texto original por Prof. Dr. Ivan Roberto Santana Casella

G4 de Álgebra Linear I

Estudo dirigido de Análise Multivariada

G4 de Álgebra Linear I

Influência dos Fatores Sociais e Econômicos no Acesso do Aluno à Universidade

Aula 2 Uma breve revisão sobre modelos lineares

ANÁLISE DE COMPONENTES PRINCIPAIS/PCA ou ACP

Ralph S. Silva

2 Processo de Agrupamentos

Álgebra Linear I - Aula Matriz de uma transformação linear em uma base. Exemplo e motivação

Tópicos para a resolução do exame de Álgebra de 11 de Janeiro de 2000 (1ª Chamada)

Análise de Regressão Linear Simples e

Redes de Computadores sem Fio

29 e 30 de julho de 2013

G3 de Álgebra Linear I

Avaliação Monte Carlo do teste para comparação de duas matrizes de covariâncias normais na presença de correlação

Diagonalização de Operadores. Teorema Autovetores associados a autovalores distintos de um operador linear T : V V são linearmente independentes.

Modelo de Regressão Múltipla

Sensoriamento Remoto II

Técnicas Multivariadas em Saúde

INFERÊNCIA EM MODELOS LINEARES GENERALIZADOS ANÁLISE DE DEVIANCE

Seminário de Análise Multivariada

Estatística CORRELAÇÃO E REGRESSÃO LINEAR. Prof. Walter Sousa

3 3. Variáveis Aleatórias

Introdução. São duas técnicas estreitamente relacionadas, que visa estimar uma relação que possa existir entre duas variáveis na população.

MOQ-13 PROBABILIDADE E ESTATÍSTICA. Professor: Rodrigo A. Scarpel

Análise de regressão linear simples. Diagrama de dispersão

Álgebra Linear I - Aula Matrizes simultaneamente ortogonais e simétricas

ESTATÍSTICA NÃO-PARAMÉTRICA Aula 5

MOQ 13 PROBABILIDADE E ESTATÍSTICA. Professor: Rodrigo A. Scarpel

Estatística Aplicada à Administração II. Tópico. Análise de Componentes Principais

P4 de Álgebra Linear I de junho de 2005 Gabarito

Álgebra Linear I - Aula Forma diagonal de uma matriz diagonalizável

Algebra Linear. 1. Revisitando autovalores e autovetores. 2. Forma Diagonal e Forma de Jordan. 2.1 Autovalores distintos. 2.2 Autovalores complexos

5 Análise de Sensibilidade

MBA em Finanças e Controladoria. Disciplina: Avaliação de Empresas Valuation Tópico 06 Risco e Retorno

Álgebra Linear I - Aula 20

Revisões de Matemática e Estatística

GAAL - Terceira Prova - 15/junho/2013. Questão 1: Analise se a afirmação abaixo é falsa ou verdadeira:

Definição Há correlação entre duas variáveis quando os valores de uma variável estão relacionados, de alguma maneira, com os valores da outra variável

Álgebra Linear I - Aula 22

Universidade Federal do Paraná Departamento de Informática. Reconhecimento de Padrões PCA. Luiz Eduardo S. Oliveira, Ph.D.

Estatística Descritiva

CF372 Mecânica Quântica I Segunda Lista de Exercícios - Capítulo II. q exp( q 2 ) ( 2 π. 2 (2q 2 1) exp( q 2 )

)XQGDPHQWRVGHSUREDELOLGDGHHHVWDWtVWLFD

Departamento de Estatística

Motivação. VA n-dimensional. Distribuições Multivariadas VADB

Chamamos de grandezas coisas que podem ser medidas. Por exemplo, tempo, área, volume, temperatura, velocidade, aceleração, força, etc..

P4 de Álgebra Linear I

Álgebra Linear I - Aula 19

Estatística 1. Resumo Teórico

VERIFICAÇÃO DA ADEQUAÇÃO DO MODELO DE ANÁLISE DE VARIÂNCIA ANÁLISE DE RESÍDUOS

PESQUISA EM MERCADO DE CAPITAIS. Prof. Patricia Maria Bortolon, D. Sc.

Capítulo 4 Inferência Estatística

MOQ-12: PROBABILIDADES E PROCESSOS ESTOCÁSTICOS. VA s e Distribuições

SCC0173 Mineração de Dados Biológicos

ANÁLISE DOS RESÍDUOS. Na análise de regressão linear, assumimos que os erros E 1, E 2,, E n satisfazem os seguintes pressupostos:

Módulo 1 FUNDAMENTOS DE ESTATÍSTICA

Autovalores e Autovetores

P3 de Álgebra Linear I

Econometria II. Notas de bolso! Propriedades da E(.), Var(.) e Cov(.) Temos que (a,b) são constantes e (X,Y) são variáveis aleatórias.

Séries Temporais e Modelos Dinâmicos. Econometria. Marcelo C. Medeiros. Aula 12

Preparatório CEA. Módulo 6 Fundamentos de Estatística

TESTES DE HIPÓTESES E INTERVALOS DE CONFIANÇA EM MODELOS LINEARES GENERALIZADOS

Capítulo 3: Elementos de Estatística e Probabilidades aplicados à Hidrologia

Probabilidade e Estatística

FUNDAMENTOS DE SISTEMAS LINEARES PARTE 1

Gabarito P2. Álgebra Linear I ) Decida se cada afirmação a seguir é verdadeira ou falsa.

Stela Adami Vayego DEST/UFPR

5. Seja A uma matriz qualquer. Assinale a afirmativa

5 Análise dos resultados

Risco de Carteira. O Desvio Padrão de uma carteira constituída por dois ativos (X e Y) pode ser obtido a partir de:

Transformação dos dados. Analise de Componentes Principais - PCA

1 Vetores no Plano e no Espaço

(a) (1,5) Obtenha os autovalores e autovetores de L. (b) (1,0) A matriz de L em relação à base canônica de M 2 2 é diagonalizável? Explique.

Técnicas Computacionais em Probabilidade e Estatística I

Álgebra Linear I - Lista 11. Autovalores e autovetores. Respostas. 1) Calcule os autovalores e autovetores das matrizes abaixo.

Distância Estatística

Análise Fatorial. Matriz R de coeficientes de correlação: Não confundir análise de componentes principais com análise fatorial!

Álgebra Linear I - Lista 12. Matrizes semelhantes. Diagonalização. Respostas

Exercícios. Finanças Benjamin M. Tabak

PREVISÃO. Prever o que irá. acontecer. boas decisões com impacto no futuro. Informação disponível. -quantitativa: dados.

Bioestatística e Computação I

Transcrição:

7. ANÁISE DE CORREAÇÃO CANÔNICA 7. INTRODUÇÃO A Análise de Correlação Canônica foi desenvolvida por Hotelling (935) com obetivo de Identificar e quantificar as associações ou relações entre dois conuntos de variáveis. Eemplos: Um pesquisador educacional desea determinar a relação entre três medidas de habilidade escolar com cinco medidas de sucesso na escola. Um sociólogo desea investigar a relação entre dois preditores de mobilidade social baseado em entrevistas, com a mobilidade social atual medida por quatro diferentes indicadores. (3) Um pesquisador médico desea estudar a relação entre vários fatores de risco para o desenvolvimento de um grupo de sintomas. (4) Um pesquisador da área de comportamento desea estudar a relação entre a natureza do trabalho e a satisfação do trabalhador em um grande grupo de eecutivos. Desenvolvimento: Determinar o par de combinações lineares com maior correlação. Determinar outro par de combinações lineares com maior correlação sendo não correlacionado com o par determinado inicialmente. (3) O procedimento continua. Denominações: Variáveis Canônicas: são os pares de combinações lineares. Correlações Canônicas: são as correlações entres esses pares de combinações lineares. 7. CORREAÇÃO CANÔNICA POPUACIONA Considere: O primeiro grupo de p variáveis dado pelo vetor aleatório (p): O segundo grupo de q variáveis dado pelo vetor aleatório (q): (3) Os dois grupos tais que: p q. (4) Para os dois vetores aleatórios e tem-se que: E( ) µ e Cov( ) Σ E( ) µ e Cov( ) Σ Cov(, ) Σ Σ Página

(5) Considerando e conuntamente (p+ q) M ( ) p M ( ) q com média (p E( ) µ µ E( ) + q) E( ) µ e matriz covariância Σ (p+ q) (p+ q) Σ (p p) E ( µ)( µ )' Σ (q p) Σ (p q) Σ (q q) (6) As covariâncias entre os pares de variáveis dos diferentes conuntos uma variável de e outra de são contempladas em Σ ou Σ. Isto é, os p.q elementos de Σ medem a associação entre os dois conuntos. Quando p e q são relativamente grandes, a interpretação dos elementos de Σ conuntamente é impraticável, sendo então introduzidas as combinações lineares que permitirão as interpretações deseadas. (7) Considere as combinações lineares: U a e V b, então: V(U) Cov(U,V) a'cov( ) a a' Σ a, V(V) b'cov( ) b b' Σ b e a'cov(, ) b a' Σ b. Devemos encontrar os coeficientes a e b tais que: a' Σ b Corr(U,V) (7.) sea maior possível. a' Σ a b' Σ b (8) Define-se: - o primeiro par de variáveis canônicas como o par de combinações lineares U e V tendo variâncias unitárias, que maimiza a correlação acima (7.); - O segundo par de variáveis canônicas como o par de combinações lineares U e V tendo variâncias unitárias, que maimizam a correlação (7.) entre todas aquelas que são não-correlacionadas com o primeiro par de variáveis canônicas; Página

- Na -ésima etapa: o -ésimo par de variáveis canônicas como o par de combinações lineares U e V tendo variâncias unitárias, que maimizam a correlação (7.) entre todas aquelas que são não-correlacionadas com os - primeiros pares de variáveis canônicas. A correlação entre o -ésimo par de variáveis canônicas é chamada de -ésima correlação canônica. Resultado. Suponha p q e seam os vetores aleatórios e tendo Cov( ) Σ, ( p p) Cov( ) Σ ( q q) e Cov(, ) Σ. ( p q) Considere as combinações lineares U a e V b. Então ma a,b Corr(U,V) ρ* é satisfeita pela combinação linear (primeiro par de variável canônica) U a ' e ' Σ / e V b' f ' Σ/ O -ésimo par de variáveis canônicas,, 3,..., p, U a' e ' Σ/ e V b' f ' Σ/ Maimiza Corr(U,V ) ρ* entre aquelas combinações lineares não-correlacionadas com as precedentes,,..., - variáveis canônicas. Aqui * ρ ρ*... ρ * p são os autovalores de Σ / Σ Σ Σ Σ / e e, e,..., e p são os (p ) autovetores associados. (As quantidades ρ *, * ρ,..., ρ* p são também os p autovalores da matriz Σ / Σ Σ Σ Σ / com os correspondentes q autovetores f, f,..., f p. Cada f i é proporcional a Σ / Σ Σ / e ). i As variáveis canônicas têm as propriedades: Para, l,,..., p. Cov(U,U l ) Corr(U,U l ) 0, l Cov(V,V l ) Corr(V,V l ) 0, l Cov(U,V l ) Corr(U,V l ) 0, l Página 3

(9) Para variáveis padronizadas: [,,..., ( ) p ]' e [,,..., ]' q, as variáveis canônicas são da forma: U a' e ' / ρ e V b' f ' ρ/ onde: Cov( ) ρ, Cov( ) ρ, Cov(, ) ρ ρ' e e e f são os autovetores de ρ / ρ ρ ρ ρ / e ρ /ρ ρ ρ ρ /, respectivamente. As correlações canônicas ρ* satisfazem Corr(U,V ) ρ*,,,..., p onde: ρ* * ρ... ρ * p são os autovalores não-nulos da matriz ρ / ρ ρ ρ ρ / (ou, equivalentemente, da ρ / ρ ρ ρ ρ / ). 7.3 VARIÁVEIS CANÔNICAS AMOSTRAIS E CORREAÇÕES CANÔNICAS AMOSTRAIS Uma amostra aleatória de n observações das variáveis : p e : q pode ser resumida em uma matriz de dados n (p+q): M n M n M n p p M ( ) np M n M n q q M ) ( nq Página 4

onde Os vetores de médias amostrais podem ser resumidos como (p+ onde: n e n q) n n A matriz covariância amostral pode ser representada como S (p p) S (p+ q) (p+ q) S (q p) S (p q) S (q q) onde n S ( () () )( (l) (l) )',, l, l n As combinações lineares: Û a' ˆ e Vˆ b' ˆ têm correlação amostral: aˆ's bˆ r (7.) Û,Vˆ aˆ's aˆ b ˆ'S bˆ O primeiro par variáveis canônicas amostral é o par de combinações lineares Û tendo variância amostral unitária que maimiza a razão (7.).,Vˆ Em geral: o -ésimo par de variáveis canônicas é a combinação linear Û,Vˆ tendo variância amostral que maimiza a razão (9.) entre aquelas combinações lineares não-correlacionadas com as - variáveis amostrais canônicas anteriores. A correlação canônica amostral entre Û e Vˆ é chamada de -ésima correlação canônica amostral. Página 5

Resultado. Seam ρˆ * ρˆ *... ρˆ * p os p autovalores ordenados de S / S S S S/ com os correspondentes autovetores eˆ,eˆ, K,eˆ p, onde p q. Seam fˆ,fˆ. K,fˆ q os autovetores de S / S S S S/. O -ésima par da variável canônica amostral é Û aˆ' eˆ' S/ e Vˆ bˆ ' f ˆ ' S/ onde e são os valores das variáveis e para um eperimento particular. O primeiro par de variável canônica amostral tem correlação amostral máima Para o -ésimo par r Û Vˆ ρˆ *. r Û Vˆ ρˆ* e essa correlação é a maior possível entre as combinações lineares não correlacionadas com as precedentes - variáveis canônicas amostrais. As quantidades ρˆ *, ρˆ *,..., ρˆ * p são as correlações canônicas amostrais. 7.4 INTERPRETAÇÕES DAS VARIÁVEIS CANÔNICAS AMOSTRAIS A interpretação de Û e Vˆ pode ser auiliada pelo cálculo das correlações entre as variáveis canônicas e as variáveis nos conunto e. Definindo as matrizes [ˆ ˆ ˆ ]' ( p  a,a p), K,a p ; Bˆ [ˆ b,bˆ, K,bˆ ]' ( q q) q cuas linhas são os vetores coeficientes das variáveis canônicas amostrais, então: ˆ  (p U ) ; ˆ Bˆ (q V ) e podemos definir (7.4.) sendo R matriz das correlações amostrais de Û com U ˆ, R matriz das correlações amostrais de Vˆ com V ˆ, R matriz das correlações amostrais de Û com U ˆ, R matriz das correlações amostrais de Vˆ com V ˆ, Página 6

R U, ˆ R V, ˆ R U, ˆ R V, ˆ ÂS D/ Bˆ S D/ ÂS D/ Bˆ S D/ onde: D / é a matriz diagonal (p p) cuo i-ésimo elemento diagonal amostral / corresponde a V( ) e D / i é a matriz diagonal (q q) cuo i-ésimo / elemento diagonal amostral corresponde a V( ). i Se as observações são padronizadas, a matriz de dados torna-se z z M z n com z z z e as variáveis canônicas amostrais tornam-se iguais a Û Â ÂD/ z z z (p ) e Vˆ Bˆ Bˆ D / z z z (q ) As correlações canônicas amostrais não são afetadas pela padronização. As correlações dadas em (7.4.) permanecem inalteradas e podem ser calculadas, para as observações padronizadas, substituindo-se  por Â, Bˆ por Bˆ e R por S. Note que z z D / I e D/ I para as observações padronizadas. (p p) (q q) Página 7

Eemplo. Suponha que [ ] padronizadas. Sea ] e ] [ [ e são variáveis ρ Cov( ) ρ.0 ρ 0.4 ρ 0.5 0.6 0.4.0 0.3 0.4 0.5 0.3.0 0. 0.6 0.4 0..0 Calcule os pares de variáveis canônicas e as correlações correspondentes. SOUÇÃO: primeiro par de variáveis canônicas é dado por: U 0,856 + 0,77 V 0,545 + 0,737 - A correlação entre as variáveis canônicas do 0. par é: 0,5458 0,74 indicando uma forte associação entre os dois conuntos de variáveis, note que o primeiro par é sempre o mais importante; - A correlação entre as variáveis canônicas do 0. par é: 0,0009 0,03 indicando uma fraca associação entre os dois conuntos de variáveis; - As correlações entre as variáveis originais do primeiro conunto, [ ] com a variável canônica U são [0,97 0,6] e as correlações entre as variáveis originais do segundo conunto, [ ] com a segunda variável canônica são [0,69 0,85]. Isto indica que as variáveis e são mais importantes do que as outras. Da mesma forma pode-se ter as correlações de U com as variáveis de que são: [0,5 0,63] e de V com que são: [0,7 0,46]. Eemplo. Como parte de um grande estudo dos efeitos da estrutura organizacional sobre a satisfação no trabalho, Dunham investigou até que ponto as medidas de satisfação no trabalho estão relacionadas com as características do trabalho. Usando como instrumento de pesquisa a entrevista, Dunham obteve as medidas de p 5 variáveis relacionadas com as características do trabalho e q 7 variáveis relacionadas com a satisfação no trabalho para n 784 eecutivos de uma grande corporação ligada a merchandizing. As medidas de satisfação no trabalho estão associadas com as características do trabalho? A resposta deve ter implicações no replaneamento do trabalho. As variáveis originais características do trabalho,, e satisfação no trabalho,, foram definidas como: Página 8

treinamento função impor tan te 3 tarefas variadas 4 identificação com a tarefa 5 autonomia satisfação com o supervisor satisfação com o futuro da carreira 3 satisfação financeira 4 satisfação com a carga de trabalho 5 identificação com a companhia 6 satisfação com o tipo de trabalho ( ) satisfação geral 7 As respostas para as variáveis e foram obtidas em uma escala que foi padronizada. A matriz de correlação amostral baseada nas 784 respostas é: R R R R R.0 0.49 0.53 0.49 0.5 0.33 0.3 0.0 0.9 0.30 0.37 0..0 0.57 0.46 0.53 0.30 0. 0.6 0.08 0.7 0.35 0.0.0 0.48 0.57 0.3 0.3 0.4 0.07 0.4 0.37 0.8.0 0.57 0.4 0. 0. 0.9 0. 0.9 0.6.0 0.38 0.3 0.7 0.3 0.3 0.36 0.7 0.33 0.30 0.3 0.4 0.38.0 0.43 0.7 0.4 0.34 0.37 0.40 0.3 0. 0.3 0. 0.3.0 0.33 0.6 0.54 0.3 0.58 0.0 0.6 0.4 0. 0.7.0 0.5 0.46 0.9 0.45 0.9 0.08 0.07 0.9 0.3.0 0.8 0.30 0.7 0.30 0.7 0.4 0. 0.3.0 0.35 0.59 0.37 0.35 0.37 0.9 0.36.0 0.3 0. 0.0 0.8 0.6 0.7.0 O min(p,q) min(5, 7) 5 correlações canônicas amostrais e coeficientes das variáveis canônicas amostrais estão na tabela seguinte: Página 9

Assim, o primeiro par de variável canônica amostral é dado por Û 0.4z + 0.z + 0.7z 0.0z + 3 4 0.44z 5 Vˆ 0.4z + 0.z 0.03z + 0.0z + 0.9z 3 4 5 com correlação canônica amostral ρ ˆ * 0. 55. + 0.5z 6 0.z 7 CORREAÇÕES AMOSTRAIS ENTRE AS VARIÁVEIS ORIGINAIS E AS VARIÁVEIS CANÔNICAS Variável Û Variáveis canônicas amostrais Vˆ Variável Û.Treinamento 0.83 0.46.Satisfação com o supervisor. Função 0.74 0.4.Satisfação com importante o futuro da 3.Tarefas variadas 4.Identificação com a tarefa carreira 0.75 0.4 3.Satisfação financeira 0.6 0.34 4.Satisfação com a carga de trabalho 5.Autonomia 0.85 0.48 5.Identificação com a companhia 6.Satisfação com o tipo de trabalho 7.Satisfação geral Variáveis canônicas amostrais Vˆ 0.4 0.75 0.35 0.65 0. 0.39 0. 0.37 0.36 0.65 0.44 0.80 0.8 0.50 As cinco variáveis das características do trabalho têm aproimadamente mesmas correlações com a primeira variável canônica. Essa variável pode ser interpretada como uma variável índice das características do trabalho. O outro membro do primeiro par de variável canônica, Vˆ, dá a impressão de representar, primeiramente, satisfação com o supervisor, satisfação com o futuro da carreira, identificação com a companhia e satisfação com o tipo de trabalho. Como essas variáveis sugerem, parece considerar o índice de satisfação no trabalho-identificação com a companhia. A correlação amostral entre os dois índices Û e Vˆ é ρ ˆ * 0. 55. Û Vˆ, Página 0

As proporções das variâncias total (padronizada) amostral eplicada pelas r primeiras variáveis canônicas são: r p No primeiro conunto por Û,Û,,Û K r r ) i Û i z( p r q r No segundo conunto por Vˆ,Vˆ,,Vˆ K r i z ( ) Vˆ i q Essas medidas descritivas proporcionam indicações de como as variáveis canônicas representam seus respectivos conuntos. Para o eemplo : No primeiro conunto por Û 5 r (0.83) + (0.74) + + (0.85) K 0.58 5 Û z 5 No segundo conunto por 7 Vˆ 7 r (0.75) (0.65) + + K + (0.50) Vˆ z 7 A primeira variável canônica amostral, 0.37 Û, do conunto de características do trabalho é responsável por 58% da variação total desse conunto. A primeira variável canônica,, do conunto de satisfação com o trabalho eplica 37% do total desse Vˆ conunto amostral. Podemos inferir que que Vˆ é no seu. Û é mais representativa no seu conunto do Página