NOTAS DE AULA DA DISCIPLINA CE076

7. ANÁISE DE CORREAÇÃO CANÔNICA 7. INTRODUÇÃO A Análise de Correlação Canônica foi desenvolvida por Hotelling (935) com obetivo de Identificar e quantificar as associações ou relações entre dois conuntos de variáveis. Eemplos: Um pesquisador educacional desea determinar a relação entre três medidas de habilidade escolar com cinco medidas de sucesso na escola. Um sociólogo desea investigar a relação entre dois preditores de mobilidade social baseado em entrevistas, com a mobilidade social atual medida por quatro diferentes indicadores. (3) Um pesquisador médico desea estudar a relação entre vários fatores de risco para o desenvolvimento de um grupo de sintomas. (4) Um pesquisador da área de comportamento desea estudar a relação entre a natureza do trabalho e a satisfação do trabalhador em um grande grupo de eecutivos. Desenvolvimento: Determinar o par de combinações lineares com maior correlação. Determinar outro par de combinações lineares com maior correlação sendo não correlacionado com o par determinado inicialmente. (3) O procedimento continua. Denominações: Variáveis Canônicas: são os pares de combinações lineares. Correlações Canônicas: são as correlações entres esses pares de combinações lineares. 7. CORREAÇÃO CANÔNICA POPUACIONA Considere: O primeiro grupo de p variáveis dado pelo vetor aleatório (p): O segundo grupo de q variáveis dado pelo vetor aleatório (q): (3) Os dois grupos tais que: p q. (4) Para os dois vetores aleatórios e tem-se que: E( ) µ e Cov( ) Σ E( ) µ e Cov( ) Σ Cov(, ) Σ Σ Página

(5) Considerando e conuntamente (p+ q) M ( ) p M ( ) q com média (p E( ) µ µ E( ) + q) E( ) µ e matriz covariância Σ (p+ q) (p+ q) Σ (p p) E ( µ)( µ )' Σ (q p) Σ (p q) Σ (q q) (6) As covariâncias entre os pares de variáveis dos diferentes conuntos uma variável de e outra de são contempladas em Σ ou Σ. Isto é, os p.q elementos de Σ medem a associação entre os dois conuntos. Quando p e q são relativamente grandes, a interpretação dos elementos de Σ conuntamente é impraticável, sendo então introduzidas as combinações lineares que permitirão as interpretações deseadas. (7) Considere as combinações lineares: U a e V b, então: V(U) Cov(U,V) a'cov( ) a a' Σ a, V(V) b'cov( ) b b' Σ b e a'cov(, ) b a' Σ b. Devemos encontrar os coeficientes a e b tais que: a' Σ b Corr(U,V) (7.) sea maior possível. a' Σ a b' Σ b (8) Define-se: - o primeiro par de variáveis canônicas como o par de combinações lineares U e V tendo variâncias unitárias, que maimiza a correlação acima (7.); - O segundo par de variáveis canônicas como o par de combinações lineares U e V tendo variâncias unitárias, que maimizam a correlação (7.) entre todas aquelas que são não-correlacionadas com o primeiro par de variáveis canônicas; Página

- Na -ésima etapa: o -ésimo par de variáveis canônicas como o par de combinações lineares U e V tendo variâncias unitárias, que maimizam a correlação (7.) entre todas aquelas que são não-correlacionadas com os - primeiros pares de variáveis canônicas. A correlação entre o -ésimo par de variáveis canônicas é chamada de -ésima correlação canônica. Resultado. Suponha p q e seam os vetores aleatórios e tendo Cov( ) Σ, ( p p) Cov( ) Σ ( q q) e Cov(, ) Σ. ( p q) Considere as combinações lineares U a e V b. Então ma a,b Corr(U,V) ρ* é satisfeita pela combinação linear (primeiro par de variável canônica) U a ' e ' Σ / e V b' f ' Σ/ O -ésimo par de variáveis canônicas,, 3,..., p, U a' e ' Σ/ e V b' f ' Σ/ Maimiza Corr(U,V ) ρ* entre aquelas combinações lineares não-correlacionadas com as precedentes,,..., - variáveis canônicas. Aqui * ρ ρ*... ρ * p são os autovalores de Σ / Σ Σ Σ Σ / e e, e,..., e p são os (p ) autovetores associados. (As quantidades ρ *, * ρ,..., ρ* p são também os p autovalores da matriz Σ / Σ Σ Σ Σ / com os correspondentes q autovetores f, f,..., f p. Cada f i é proporcional a Σ / Σ Σ / e ). i As variáveis canônicas têm as propriedades: Para, l,,..., p. Cov(U,U l ) Corr(U,U l ) 0, l Cov(V,V l ) Corr(V,V l ) 0, l Cov(U,V l ) Corr(U,V l ) 0, l Página 3

(9) Para variáveis padronizadas: [,,..., ( ) p ]' e [,,..., ]' q, as variáveis canônicas são da forma: U a' e ' / ρ e V b' f ' ρ/ onde: Cov( ) ρ, Cov( ) ρ, Cov(, ) ρ ρ' e e e f são os autovetores de ρ / ρ ρ ρ ρ / e ρ /ρ ρ ρ ρ /, respectivamente. As correlações canônicas ρ* satisfazem Corr(U,V ) ρ*,,,..., p onde: ρ* * ρ... ρ * p são os autovalores não-nulos da matriz ρ / ρ ρ ρ ρ / (ou, equivalentemente, da ρ / ρ ρ ρ ρ / ). 7.3 VARIÁVEIS CANÔNICAS AMOSTRAIS E CORREAÇÕES CANÔNICAS AMOSTRAIS Uma amostra aleatória de n observações das variáveis : p e : q pode ser resumida em uma matriz de dados n (p+q): M n M n M n p p M ( ) np M n M n q q M ) ( nq Página 4

onde Os vetores de médias amostrais podem ser resumidos como (p+ onde: n e n q) n n A matriz covariância amostral pode ser representada como S (p p) S (p+ q) (p+ q) S (q p) S (p q) S (q q) onde n S ( () () )( (l) (l) )',, l, l n As combinações lineares: Û a' ˆ e Vˆ b' ˆ têm correlação amostral: aˆ's bˆ r (7.) Û,Vˆ aˆ's aˆ b ˆ'S bˆ O primeiro par variáveis canônicas amostral é o par de combinações lineares Û tendo variância amostral unitária que maimiza a razão (7.).,Vˆ Em geral: o -ésimo par de variáveis canônicas é a combinação linear Û,Vˆ tendo variância amostral que maimiza a razão (9.) entre aquelas combinações lineares não-correlacionadas com as - variáveis amostrais canônicas anteriores. A correlação canônica amostral entre Û e Vˆ é chamada de -ésima correlação canônica amostral. Página 5

Resultado. Seam ρˆ * ρˆ *... ρˆ * p os p autovalores ordenados de S / S S S S/ com os correspondentes autovetores eˆ,eˆ, K,eˆ p, onde p q. Seam fˆ,fˆ. K,fˆ q os autovetores de S / S S S S/. O -ésima par da variável canônica amostral é Û aˆ' eˆ' S/ e Vˆ bˆ ' f ˆ ' S/ onde e são os valores das variáveis e para um eperimento particular. O primeiro par de variável canônica amostral tem correlação amostral máima Para o -ésimo par r Û Vˆ ρˆ *. r Û Vˆ ρˆ* e essa correlação é a maior possível entre as combinações lineares não correlacionadas com as precedentes - variáveis canônicas amostrais. As quantidades ρˆ *, ρˆ *,..., ρˆ * p são as correlações canônicas amostrais. 7.4 INTERPRETAÇÕES DAS VARIÁVEIS CANÔNICAS AMOSTRAIS A interpretação de Û e Vˆ pode ser auiliada pelo cálculo das correlações entre as variáveis canônicas e as variáveis nos conunto e. Definindo as matrizes [ˆ ˆ ˆ ]' ( p Â a,a p), K,a p ; Bˆ [ˆ b,bˆ, K,bˆ ]' ( q q) q cuas linhas são os vetores coeficientes das variáveis canônicas amostrais, então: ˆ Â (p U ) ; ˆ Bˆ (q V ) e podemos definir (7.4.) sendo R matriz das correlações amostrais de Û com U ˆ, R matriz das correlações amostrais de Vˆ com V ˆ, R matriz das correlações amostrais de Û com U ˆ, R matriz das correlações amostrais de Vˆ com V ˆ, Página 6

R U, ˆ R V, ˆ R U, ˆ R V, ˆ ÂS D/ Bˆ S D/ ÂS D/ Bˆ S D/ onde: D / é a matriz diagonal (p p) cuo i-ésimo elemento diagonal amostral / corresponde a V( ) e D / i é a matriz diagonal (q q) cuo i-ésimo / elemento diagonal amostral corresponde a V( ). i Se as observações são padronizadas, a matriz de dados torna-se z z M z n com z z z e as variáveis canônicas amostrais tornam-se iguais a Û Â ÂD/ z z z (p ) e Vˆ Bˆ Bˆ D / z z z (q ) As correlações canônicas amostrais não são afetadas pela padronização. As correlações dadas em (7.4.) permanecem inalteradas e podem ser calculadas, para as observações padronizadas, substituindo-se Â por Â, Bˆ por Bˆ e R por S. Note que z z D / I e D/ I para as observações padronizadas. (p p) (q q) Página 7

Eemplo. Suponha que [ ] padronizadas. Sea ] e ] [ [ e são variáveis ρ Cov( ) ρ.0 ρ 0.4 ρ 0.5 0.6 0.4.0 0.3 0.4 0.5 0.3.0 0. 0.6 0.4 0..0 Calcule os pares de variáveis canônicas e as correlações correspondentes. SOUÇÃO: primeiro par de variáveis canônicas é dado por: U 0,856 + 0,77 V 0,545 + 0,737 - A correlação entre as variáveis canônicas do 0. par é: 0,5458 0,74 indicando uma forte associação entre os dois conuntos de variáveis, note que o primeiro par é sempre o mais importante; - A correlação entre as variáveis canônicas do 0. par é: 0,0009 0,03 indicando uma fraca associação entre os dois conuntos de variáveis; - As correlações entre as variáveis originais do primeiro conunto, [ ] com a variável canônica U são [0,97 0,6] e as correlações entre as variáveis originais do segundo conunto, [ ] com a segunda variável canônica são [0,69 0,85]. Isto indica que as variáveis e são mais importantes do que as outras. Da mesma forma pode-se ter as correlações de U com as variáveis de que são: [0,5 0,63] e de V com que são: [0,7 0,46]. Eemplo. Como parte de um grande estudo dos efeitos da estrutura organizacional sobre a satisfação no trabalho, Dunham investigou até que ponto as medidas de satisfação no trabalho estão relacionadas com as características do trabalho. Usando como instrumento de pesquisa a entrevista, Dunham obteve as medidas de p 5 variáveis relacionadas com as características do trabalho e q 7 variáveis relacionadas com a satisfação no trabalho para n 784 eecutivos de uma grande corporação ligada a merchandizing. As medidas de satisfação no trabalho estão associadas com as características do trabalho? A resposta deve ter implicações no replaneamento do trabalho. As variáveis originais características do trabalho,, e satisfação no trabalho,, foram definidas como: Página 8

treinamento função impor tan te 3 tarefas variadas 4 identificação com a tarefa 5 autonomia satisfação com o supervisor satisfação com o futuro da carreira 3 satisfação financeira 4 satisfação com a carga de trabalho 5 identificação com a companhia 6 satisfação com o tipo de trabalho ( ) satisfação geral 7 As respostas para as variáveis e foram obtidas em uma escala que foi padronizada. A matriz de correlação amostral baseada nas 784 respostas é: R R R R R.0 0.49 0.53 0.49 0.5 0.33 0.3 0.0 0.9 0.30 0.37 0..0 0.57 0.46 0.53 0.30 0. 0.6 0.08 0.7 0.35 0.0.0 0.48 0.57 0.3 0.3 0.4 0.07 0.4 0.37 0.8.0 0.57 0.4 0. 0. 0.9 0. 0.9 0.6.0 0.38 0.3 0.7 0.3 0.3 0.36 0.7 0.33 0.30 0.3 0.4 0.38.0 0.43 0.7 0.4 0.34 0.37 0.40 0.3 0. 0.3 0. 0.3.0 0.33 0.6 0.54 0.3 0.58 0.0 0.6 0.4 0. 0.7.0 0.5 0.46 0.9 0.45 0.9 0.08 0.07 0.9 0.3.0 0.8 0.30 0.7 0.30 0.7 0.4 0. 0.3.0 0.35 0.59 0.37 0.35 0.37 0.9 0.36.0 0.3 0. 0.0 0.8 0.6 0.7.0 O min(p,q) min(5, 7) 5 correlações canônicas amostrais e coeficientes das variáveis canônicas amostrais estão na tabela seguinte: Página 9

Assim, o primeiro par de variável canônica amostral é dado por Û 0.4z + 0.z + 0.7z 0.0z + 3 4 0.44z 5 Vˆ 0.4z + 0.z 0.03z + 0.0z + 0.9z 3 4 5 com correlação canônica amostral ρ ˆ * 0. 55. + 0.5z 6 0.z 7 CORREAÇÕES AMOSTRAIS ENTRE AS VARIÁVEIS ORIGINAIS E AS VARIÁVEIS CANÔNICAS Variável Û Variáveis canônicas amostrais Vˆ Variável Û.Treinamento 0.83 0.46.Satisfação com o supervisor. Função 0.74 0.4.Satisfação com importante o futuro da 3.Tarefas variadas 4.Identificação com a tarefa carreira 0.75 0.4 3.Satisfação financeira 0.6 0.34 4.Satisfação com a carga de trabalho 5.Autonomia 0.85 0.48 5.Identificação com a companhia 6.Satisfação com o tipo de trabalho 7.Satisfação geral Variáveis canônicas amostrais Vˆ 0.4 0.75 0.35 0.65 0. 0.39 0. 0.37 0.36 0.65 0.44 0.80 0.8 0.50 As cinco variáveis das características do trabalho têm aproimadamente mesmas correlações com a primeira variável canônica. Essa variável pode ser interpretada como uma variável índice das características do trabalho. O outro membro do primeiro par de variável canônica, Vˆ, dá a impressão de representar, primeiramente, satisfação com o supervisor, satisfação com o futuro da carreira, identificação com a companhia e satisfação com o tipo de trabalho. Como essas variáveis sugerem, parece considerar o índice de satisfação no trabalho-identificação com a companhia. A correlação amostral entre os dois índices Û e Vˆ é ρ ˆ * 0. 55. Û Vˆ, Página 0

As proporções das variâncias total (padronizada) amostral eplicada pelas r primeiras variáveis canônicas são: r p No primeiro conunto por Û,Û,,Û K r r ) i Û i z( p r q r No segundo conunto por Vˆ,Vˆ,,Vˆ K r i z ( ) Vˆ i q Essas medidas descritivas proporcionam indicações de como as variáveis canônicas representam seus respectivos conuntos. Para o eemplo : No primeiro conunto por Û 5 r (0.83) + (0.74) + + (0.85) K 0.58 5 Û z 5 No segundo conunto por 7 Vˆ 7 r (0.75) (0.65) + + K + (0.50) Vˆ z 7 A primeira variável canônica amostral, 0.37 Û, do conunto de características do trabalho é responsável por 58% da variação total desse conunto. A primeira variável canônica,, do conunto de satisfação com o trabalho eplica 37% do total desse Vˆ conunto amostral. Podemos inferir que que Vˆ é no seu. Û é mais representativa no seu conunto do Página