OBJECTIVO Identificar e quantificar a associação entre dois conjuntos de variáveis. Identificar duas combinações lineares das variáveis, num e noutro conjunto, que tenham a maior correlação possível. Identificar outro par de combinações lineares, num e noutro conjunto, não correlacionadas com o par anterior, que tenham entre si a maior correlação possível. etc. Os sucessivos pares de combinações lineares não designados por variáveis canónicas e as respectivas correlações são designadas por correlações canónicas. Estas constituem uma medida da associação entre os dois conjuntos de variáveis. UTAD 995 - ANÁLIE MULTIDIMENIONAL - F. WOLFANGO DE MACEDO G
Conjuntos de variáveis ( ) ( ) x x : p x : q x :( p q) x + p q Estatísticas x x = ( ) x :( p + q) ( ) 2 = 2 :( p + q) ( p + q) 2 22 ( i ) ( ) = cov ( x, x ) i, =, 2 Combinações lineares de variáveis i u = a x v = b x ( ) Correlações amostrais c = corr ( u, v) = a b 2 a a b b 22 () UTAD 995 - ANÁLIE MULTIDIMENIONAL - F. WOLFANGO DE MACEDO G2
DEFINIÇÃO O primeiro par de variáveis canónicas (amostrais) é o par de combinações lineares u = a x ( ) 2, v = b x ( ), com variâncias, que maximizam (). O i-ésimo par de variáveis canónicas (amostrais) é o par de combinações lineares u = a x ( ), v = b x ( 2 ), com variâncias, não correlacionadas com as anteriores variáveis canónicas, que maximizam (). etc. As correlações c = corr ( u, v ), =,, p entre variáveis canónicas, são as correlações canónicas. UTAD 995 - ANÁLIE MULTIDIMENIONAL - F. WOLFANGO DE MACEDO G3
TEOREMA ) eja M = 2 22 ( p p) 2 2 2 com valores próprios e vectores próprios 2 2 2 r r2 r p 2) eja com vectores próprios g, g,, g 2 N = 22 2 2 22 2 2 f, f,, f 2 Os primeiros p vectores próprios de N podem calcular-se pelas expressões q p f = 22 2 g = r 2 2,, p 3) O i-ésimo par de variáveis canónicas (amostrais) é : u = g 2 x v = f 2 x ( ) 22 a b 4) As correlações canónicas (amostrais são): c = corr ( u, v ) = r UTAD 995 - ANÁLIE MULTIDIMENIONAL - F. WOLFANGO DE MACEDO G4
Correlações entre as variáveis canónicas e as variáveis originais var ( u ) = var ( v ) = =,, p corr ( u, u ) = corr ( v, v ) = l l l corr ( u, v ) = l l Façamos A = [ a, a 2,, a p] B = [ b, b,, bq] ( p p) u ( p ) Tem-se ( q q) ( ) = A x v = B x ( q ) 2 R corr ( u, ( ) x ) A D u, x ( = = ) R corr ( u, x ) A D u, x ( 2 = = ) 2 22 UTAD 995 - ANÁLIE MULTIDIMENIONAL - F. WOLFANGO DE MACEDO G5
R corr ( v, ( ) x ) B D v, x ( = = ) 2 R corr ( v, x ) B D v, x ( 2 = = ) em que 22 22 ( ) D i = diag ( s ) i =,, p D 22 j Variáveis padronizadas = diag ( s ) j =,, q Z HX Z = ( ) Z = HX ( ) D D 22 u = A D Z ( p ) ( ) v = B D Z ( q ) 22 As correlações canónicas não se alteram com a padronização das variáveis. UTAD 995 - ANÁLIE MULTIDIMENIONAL - F. WOLFANGO DE MACEDO G6
EXEMPLO eja ( ) ( ) x x2 x x2 = 2 =. 95 2 22. 95 Tem-se neste caso 2 =. 95 2 2 95 =. 22 22 2 = 22 M =. 925 N =. 925 Valores próprios Vectores próprios M. 925 g g 2 N. 925 f f 2 UTAD 995 - ANÁLIE MULTIDIMENIONAL - F. WOLFANGO DE MACEDO G7
EXEMPLO Variáveis e correlações canónicas u = a x ( ) v = b x correlações canónicas ( ) x 2 x.95 ( ) 2. x. x 2 A = B =.. Correlações entre as variáveis canónicas e as variáveis originais D D 22 D D 22 R u, x ( ) R u x,. 95 R v x, ( ) R v, x. 95 UTAD 995 - ANÁLIE MULTIDIMENIONAL - F. WOLFANGO DE MACEDO G8
EXERCÍCIO Considere a matriz IRI de dados relativos à variedade Iris setosa, que contém medições do seguinte conjunto de variáveis: x sepal length ( ) x x 2 sepal width x = = ( ) x x3 petal length x4 petal width Execute os cálculos necessários a uma análise de correlações canónicas. a) Poderemos considerar as variáveis canónicas u e v como índices de forma das sépalas e das pétalas, repectivamente? No caso afirmativo, calcule os valores de u e v para cada uma das flores Iris setosa b) Com base nas variáveis canónicas u e v, classifique as sépalas e as pétalas. Qual o grau de coincidência entre as duas classificações? Interprete esse grau de coincidência em termos de corr ( u, v ) c) Represente graficamente o par de variáveis canónicas ( u, v ) Que conclui, analisando o gráfico?. UTAD 995 - ANÁLIE MULTIDIMENIONAL - F. WOLFANGO DE MACEDO G9