Faculdade de Ecoomia da Uiveridade de Coimbra Etatítica Multivariada Aplicada Pedro Lope Ferreira 000
ii
Sumário Itrodução à etatítica multivariada -----------------------------------------------. A orgaização do dado ---------------------------------------------------. Etatítica decritiva ------------------------------------------------------.3 Ditâcia ----------------------------------------------------------------------- 6 Álgebra matricial e vectore aleatório -------------------------------------------- 3. Algu coceito báico --------------------------------------------------- 3. Matrize defiida poitiva ------------------------------------------------ 7.3 Média e covariâcia de combiaçõe lieare --------------------- 3 Geometria amotral e amotragem aleatória ------------------------------------ 3 3. Geometria da amotra ------------------------------------------------------- 3 3. Amotragem aleatória ------------------------------------------------------- 8 3.3 Variâcia geeralizada ------------------------------------------------------ 9 4 Ditribuição ormal multivariada ---------------------------------------------------- 37 4. A deidade ormal multivariada ----------------------------------------- 37 4. Propriedade da ditribuição ormal ------------------------------------- 4 4.3 A forma amotral da ditribuição ormal multivariada --------------- 44 4.4 Ditribuição amotral de X e S ------------------------------------------ 45 5 Iferêcia acerca do vector média -------------------------------------------------- 47 5. T de Hotellig ---------------------------------------------------------------- 47 5. Regiõe de cofiaça -------------------------------------------------------- 50 5.3 Iferêcia para grade amotra -------------------------------------- 56 6 Comparação etre dua média multivariada --------------------------------- 59 6. Comparaçõe emparelhada ---------------------------------------------- 59 6. Comparaçõe em deeho de medida repetida ------------------ 65 6.3 Comparaçõe etre dua populaçõe ----------------------------------- 70 iii
7 Aálie de compoete pricipai e aálie factorial --------------------- 75 7. Itrodução ---------------------------------------------------------------------- 75 7. Compoete pricipai ---------------------------------------------------- 78 7.3 Aálie factorial --------------------------------------------------------------- 86 8 Aálie de agrupameto (cluter) ----------------------------------------------- 99 8. Itrodução ---------------------------------------------------------------------- 99 8. Medida de emelhaça ---------------------------------------------------- 99 8.. Medida de ditâcia ----------------------------------------------- 00 8.. Medida de aociação -------------------------------------------- 0 8.3 Critério de agregação e deagregação -------------------------------- 05 8.3. Critério do viziho mai próimo (igle likage) ----------- 06 8.3. Critério do viziho mai afatado (complete likage) ------ 06 8.3.3 Critério da média do grupo (average likage) ---------------- 07 8.3.4 Critério do cetróide ------------------------------------------------ 07 8.3.5 Critério de Ward ----------------------------------------------------- 07 Referêcia bibliográfica ------------------------------------------------------------- 09 iv
Itrodução à aálie multivariada. A orgaização do dado Sedo ete um curo de etatítica multivariada, iremo aaliar mediçõe feita em vária variávei ou caracterítica. Eta mediçõe (dado) ão ormalmete apreetada quer graficamete, quer ob a forma matricial. Aim, e coiderarmo mediçõe em p variávei, ij repreetará a medição da variável j o item i. A ua repreetação matricial erá X =. i.. i. j j. ij. j p p. ip. p Eta matriz X cotém o dado de toda a obervaçõe em toda a variávei. Eemplo.: Pretede-e etudar a veda do livro de uma livraria e, para io, recolheu-e uma amotra de 4 recibo, idicado cada um dele o úmero de livro vedido e o total gato (em cetea de ecudo). Numa forma tabular temo o eguite dado: Variável Nome Total 4 5 48 58 No. livro 4 5 4 3
Repreetado uma forma matricial obtemo a matriz X com dua liha (variávei) e quatro colua (ite): X = 4 4 5 5 48 4 58 3 ' o. Etatítica decritiva Se coiderarmo j, j,, ij,, j como repreetado a mediçõe feita a variável j (colua j da matriz X), podemo deomiar por da variável j j a média amotral j = i= ij j =,,,p dada por Do memo modo, a medida de diperão variâcia amotral da variável i é i = ii = ( ij j) i= i =,,,p A raiz quadrada da variâcia amotral, jj é deomiada devio padrão amotral. Podemo também etar itereado em determiar o grau de aociação liear etre dua variávei j e k. Ito coegue-e atravé da covariâcia amotral repreetada pela média do produto do devio em relação à repectiva média ik = ki = i= ( ij j) ( ik ) k i =,,,p ; k =,,,p
Se valore alto de uma variável foram obervado cojutamete com valore alto de outra variável, e valore pequeo também ocorrerem cojutamete, jk erá poitiva. Se valore alto de uma variável ocorrerem com valore pequeo de outra variável, jk erá egativa. Cao ão eita aociação etre o valore de amba a varávei, jk erá aproimadamete ula. Fialmete, coideremo o coeficiete de correlação amotral de Pearo, uma medida de aociação liear etre dua variávei, idepedete da uidade de medida e com valore etre - e +. r jk = r kj = jj jk kk = i= i= ( ( ij ij ) i j ) ( i= ik ( ik k ) ) k para i =,,,p e k =,,,p. Eta última medida cotitui, como facilmete e pode obervar, uma verão etadardizada da covariâcia amotral. De otar que, e ubtituirmo o valore origiai ij e ik pelo correpodete valore etadardizado ( ij - j ) / jj e ( ik - k ) / kk coeficiete de correlação amotral r jk pode er vito como a covariâcia amotral. Apó a etadardização, amba a variávei podem er comparada, poi paam a etar a mema uidade., o Voltado, de ovo, à apreetação matricial, baeado-o a matriz X com mediçõe (liha) em p variávei (colua), a média amotrai ão repreetada por 3
4 = p a variâcia e covariâcia amotrai por S = pp p p p p... e a correlaçõe amotrai por R =... p p p p r r r r r r Reparar que a matrize S e R ão matrize imétrica de ordem p. Eemplo. (cot): Pegado de ovo a matriz X = ' 3 4 5 4 58 48 5 4 podemo determiar o vector _ e a matrize S e R. Aim, _ = = 4 4 i i = ) 58 48 5 (4 4 + + + = 50
4 _ = i = (4 + 5 + 4 + 3) = 4 4 4 i= e etão, _ 50 = = 4 Do memo modo, = 4 4 i= = [(4 50) + (5 50) + (48 50) + (58 50) ] ( i ) 4 = 34 = 4 4 i= ( i = [(4 4) + (5 4) + (4 4) + (3 4) ] ) 4 =.5 = 4 4 i= ( ) = i ( i ) 4 = [(4 50)(4 4) + (5 50)(5 4) + (48 50)(4 4) + (58 50)(3 4) ] = -.5 S = 34.5.5.5 Fialmete, a correlação amotral é dada por r = r = =.5 = -.36 34.5 R =.36.36 o 5
.3 Ditâcia A maioria da técica multivariada ão baeada o coceito imple de ditâcia. Se coiderarmo um plao e um poto P = (, ) ee plao, a ditâcia d(o,p) etre a origem e ee poto é dada por P d(o,p) = + O Figura. Teorema de Pitágora Num cao mai geral, e o poto tiverem p coordeada, etão P = (,,, p ), O=(0,0,,0) e d(o,p) = + + p + Deta última equação, e elevado ao quadrado ambo o termo, podemo dizer que todo o poto (,,, p ) que etejam a uma mema ditâcia quadrada da origem, atifazem a equação d (O,P) = + + + p Se e tratar de um epaço ode p=, eta equação ão é mai do que a equação de uma circuferêcia de cetro (0,0) e raio d(0,p). A ditâcia em liha recta etre doi poto quaiquer P e Q com coordeada P=(,,, p ) e Q=(y,y,,y p ) é dada por d(p,q) = ( y) + ( y) + + ( p y p ) 6
Ora também aqui e faz etir o evetual problema da vária dimeõe terem uidade de medida ditita. Mai aida, a mediçõe da divera coordeada podem etar ujeita a variaçõe aleatória com iteidade diferete. Por io, uma ditâcia baeada uma liha recta, ou euclideaa, ão é a mai apropriada. Neceitamo etão de um outro tipo de medição de ditâcia e, porque ete ovo tipo de ditâcia vai ter em cota a difereça de variação, deomia-laemo ditâcia etatítica. Para ilutrar o coceito de ditâcia etatítica, upohamo que temo pare de mediçõe em dua variávei idepedete e. Além dio, upohamo também que a variação da mediçõe da variável é maior do que a da mediçõe em. Figura. Diagrama de poto Nete cao, a olução paa, de ovo, pela etadardização da coordeada, dividido cada uma dela pelo repectivo devio padrão amotral. Aim, uma ditâcia etatítica do poto P=(, ) à origem O=(0,0) é dada por d(o,p) = + = + Se compararmo eta equação com a ateriormete apreetada, podemo cocluir que a difereça reide a aplicação de peo k = / e k = /, 7
repectivamete, a e. Também aqui todo o poto de coordeada (, ) a uma ditâcia quadrada cotate c da origem devem atifazer a + = c Eta última equação ão é mai do que a equação de uma elipe cetrada a origem com o eio pricipai a coicidirem com o eio do itema de coordeada. c P 0 c Figura.3 Elipe cetrada a origem Eemplo.: Supohamo que temo dua variávei idepedete com média _ = _ = 0 e com variâcia = 4 e =. A ditâcia de um qualquer poto P=(, ) à origem O=(0,0) é dada, ete cao por Figura.4 Elipe d (O,P) = 4 + 8
Todo o poto (, ) que etão a uma ditâcia cotate da origem atifazem a equação 4 + = correpodedo à equação da elipe cetrada em (0,0), com o eio pricipai egudo o eio e e com meia ditâcia iguai a 4 = e =, repectivamete. o Geeralizado para p variávei, podemo determiar a ditâcia etatítica etre doi poto P=(,,, p ) e Q=(y,y,,y p ) atravé da equação d(p,q) = ( y y p y ) ( ( ) + + + pp p ) com,,, pp a variâcia cotruída a partir da mediçõe a variávei,,, p, repectivamete. Todo o poto P a uma ditâcia quadrada de Q etão colocado um hiperelipóide cetrado em Q com o eio pricipai paralelo ao eio do itema de coordeada. Obviamete, e toda a variâcia foem iguai, ecotramo a ditâcia euclideaa já atrá apreetada. Temo até agora aaliado a ituação em que o eio da elipe do dado coicidem com o eio do itema de coordeada. Ora, há ituaçõe ode ito ão acotece, ito é, em que a variável ão varia idepedetemete da variável e, ete cao, o coeficiete de correlação amotral ão é ulo. 9
~ Da figura ao lado vemo que bata ~ rodarmo o itema origial de eio de um θ âgulo θ para termo uma ituação emelhate à ateriore. Figura.5 Elipe com âgulo θ Ito correpode a paarmo a uar a ova variávei ~ = co(θ) + i(θ) ~ = - i(θ) + co(θ) A ditâcia etre o poto P=(~, ~ ) e a origem O=(0,0) é etão defiida como d(o,p) = ~ ~ ~ + ~ = + a a a + Neta fae ão é vital abermo como determiar o valore dete a. O que é importate é vermo que eite um termo de produto cruzado idicador da correlação r ão ula. Mai aida, quado olhamo para a equação correpodete à dua variávei idepedete, vemo que a = a = a = 0 De uma maeira geral, a ditâcia etatítica do poto P=(, ) ao poto fio Q=(y,y ) para variávei correlacioada é dada por d(p,q) = a ( y) + a ( y)( y ) + a ( y ) 0
A coordeada de todo o poto P=(, ) que etejam a uma ditâcia quadrada cotate c de Q, defiem uma elipe cetrada em Q. A geeralização da fórmula ateriore para p dimeõe é imediata.
Álgebra matricial e vectore aleatório. Algu coceito báico Vejamo algu coceito que o irão er útei mai tarde. Sedo dado um vector = [,,, ] com compoete, defiimo comprimeto dete vector como edo o valor dado por L = + + + Aim, pré-multiplicado pelo ivero do eu comprimeto, L, obtém-e o vector uitário (com comprimeto ) e com a mema direcção de. Um outro coceito também importate é o de âgulo. Se tivermo doi vectore um plao com um âgulo θ etre ele, podemo coiderar que θ = θ - θ, edo θ e θ o âgulo que, repectivamete, e y fazem com a primeira coordeada (ver Figura.). Aim, abedo que co (θ ) = co (θ ) = L y L y 3
i (θ ) = i (θ ) = L y L y e que co (θ) = co (θ - θ ) = co (θ ) co (θ ) + i (θ ) i (θ ) y y θ y θ θ Figura. Difereça etre âgulo obtemo co (θ) = co (θ - θ) = y + y Ly L Ly L = y + y L L y Como o produto itero de doi vectore é dado por y = y + y podemo re-ecrever a equaçõe referete a L e a co (θ) da eguite maeira: L = e co (θ) = y L L y = y y y Dete modo, dizemo que e y ão perpediculare quado y = 0. Eemplo.: Sedo dado o vectore = [, 3, ] e y = [ -,, - ], determiar o valor do comprimeto de e de y e o âgulo que ele fazem etre i. 4
Como = + 3 + = 4 y y = (-) + + (-) = 6 y = (-) + 3() + (-) = - etão L = = 4 = 3.74 L y = y y = 6 =.45 co (θ) = y L L y = - (3.74) (.45) = -.09, dode, θ = 96.3 o Diz-e que um cojuto de vectore,,, k é liearmete depedete e eitirem a cotate c, c,, c k, ão toda ula, tal que c + c + + c k k = 0 Eemplo.: Determiar a depedêcia liear do vectore = [,, ], = [, 0, - ] e 3 = [, -, ]. A equação c + c + c 3 3 = 0 implica o itema c + c + c 3 = 0 c - c 3 = 0 c - c + c 3 = 0 que poui uma úica olução c = c = c 3 = 0. 5
Nete cao, dizemo que o vectore, e 3 ão liearmete idepedete. o θ y Figura. Projecção de em y A projecção (ou ombra) de um vector um vector y é dada por y y = y y y L y L y y tedo L y y, o comprimeto uitário. O comprimeto deta projecção é y = L L y y L L y = L co(θ) O último coceito muito uado a etatítica multivariada é o de valor próprio e vector próprio. Uma matriz quadrada A tem um valor próprio λ com o correpodete vector próprio 0 e A = λ Ito é, o valore próprio ão a raíze da equação caracterítica A - λ I = 0. Eemplo.3: Determiar o valore e vectore próprio da matriz A = 5 5 A - λ I = 0 λ 5 5 = 0 ( - λ) - 5 = 0 λ=6 ou λ=-4 λ 6
5 e e Para λ=6, A e = λ e = 6 5 e e e 5e 5e + e = 6e = 6e e e = = e = é um vector próprio ormalizado correpodete ao valor próprio λ=6. De modo idêtico e ecotra e = como edo o vector próprio correpodete a λ = -4. o. Matrize defiida poitiva Doi do pilare fudametai da etatítica multivariada ão o coceito de ditâcia e o preupoto de que o dado etão ditribuído egudo uma ditribuição ormal multivariada. O produto de matrize reultate da combiação dete coceito ão deomiado forma quadrática. Aim, ete capítulo iremo falar em particular obre a forma quadrática ão egativa e a matrize defiida poitiva aociada. Muita veze, também, o reultado que evolvem forma quadrática e matrize imétrica ão coequêcia directa do que e deomia decompoição epectral defiida uma matriz imétrica A k k defiida como 7
A = λ e e + λ e e + + λ k e k e k (k k) (k ) ( k) (k )( k) (k )( k) ode λ, λ,, λ k ão o valore próprio de A e e, e,, e k o correpodete vectore próprio ormalizado, ito é, e i e i = (i =,,, k) e e i e j = 0 (i j). Eemplo.4: Sedo dada a matriz A = 3 3, obtêm-e o valore próprio λ = 4 e λ =. O vector próprio correpodete ao primeiro valor próprio é e = Toramo-lo úico, ormalizado-o (comprimeto igual à uidade), ito é, dividido cada elemeto do vector por e e + = + = Ecotra-e e =. Do memo modo e obtiha e =. Reparar que e e, ito é, e e = 0. Verificado a decompoição epectral, 3 3 = 4 + = 8
= 4 + 3 = + = 3 o Sempre que a matriz A (k k) imétrica eja tal que A eja empre maior ou igual a zero, qualquer que eja o vector = [ ] [ 0 0 ] 0, deomiamo-la defiida ão-egativa ou emi-defiida poitiva. A é chamada defiida poitiva e A > 0 para todo o vector 0. À compoete A damo o ome de forma quadrática. Para k =, a a A = [ ] = [ ] a a a a + a + a = a + a + a + a = a + a + a = d(0,) = c Pela decompoição epectral; A = λ e e + λ e e e etão A = λ ( e ) + λ ( e ). Aim; c = λ y + λ y é uma elipe em y = e e y = e / Facilmete e verifica que = c λ e atifaz A = λ (c λ / e e ) = c 9
e = c λ / e o dá a ditâcia a direcção e Dete modo o poto ituado a uma ditâcia c fazem parte de uma elipe cujo eio ão dado pelo vectore próprio de A com comprimeto proporcioai ao ivero da raíze quadrada do valore próprio. A cotate de proporcioalidade é c. Eta cocluão é ilutrada a figura abaio. e c λ e c λ Figura.3 Elipe de ditâcia cotate Com p >, o poto = [ ] p a uma ditâcia cotate c = A da origem ecotram-e o elipóide c = λ ( e ) + + λ p ( e p ) cujo eio ão dado pelo vectore próprio de A. A meia ditâcia a direcção de e i é igual a c λi, i =,,, p, ode λ, λ,, λ p, ão o valore próprio de A. 0
.3 Média e covariâcia de combiaçõe lieare Um vector aleatório é um vector cujo elemeto ão variávei aleatória. Do memo modo, uma matriz aleatória é uma matriz cujo elemeto ão variávei aleatória. A combiação liear c X = c X + + c p X p tem média E(c X) = c µ e variâcia Var(c X) = c c ode µ = E(X) e = Cov(X) = E [( X μ) ( X μ) ] ' Eemplo.5: Coideremo a matriz X = 3 5 ' 0 A média deta matriz é µ = e a matriz da covariâcia é = / 3 / 3 / 3 6 / 3 3 3, 5 0 Aim, a combiação liear Y = 3 X + X, ito é, [ ] 3 = 8 terá a média E(Y X) = [ ] / 3 / 3 3 3 = 48.67 / 3 6 / 3 e a variâcia Var(Y X) = [ ] o
Além do reultado ateriore podemo também afirmar que, edo dado dua combiaçõe lieare a X e b X, a covariâcia etre ela é dada por Cov(a X,b X) = a' b
3 3 Geometria amotral e amotragem aleatória Nete capítulo iremo aaliar a iterpretaçõe geométrica da etatítica decritiva amotrai _, S e R. Será também itroduzido o coceito de variâcia geeralizada para decrever a variabilidade. 3. Geometria da amotra Tal como já atrá vimo, a obervaçõe em p variávei podem er dipota uma matriz p X = p p p......... =... ode cada liha repreeta uma obervação multivariada (vector i, i=, ). Aim, a variabilidade ocorre em vária direcçõe e é quatificada atravé da matriz S da variâcia. Um valor umérico deta variabilidade é dado pelo determiate de S.
4 Eemplo 3.: Determiar o vector média _ da matriz X = ' 5 3 3 4, apreete o = 3 poto um epaço a p = dimeõe e localize _. _ = + + + 3 5 3 3 3 4 = 3 O gráfico de poto correpodete erá, X 3 X X Figura 3. Repreetação do poto,, 3 e médio o Em alterativa a eta iterpretação geométrica, podemo coiderar o dado como edo p poto um epaço a dimeõe. X = p p p......... = [y y y p ] - - 0 3 4 5 6 - - 0 3 4 5 6
Neta ova iterpretação, a coordeada do i-éimo poto y i = [ i, i,, i ] ão a mediçõe da i-éima variável. Eemplo 3.: Uado a mema matriz do eemplo aterior, repreetar o vectore y e y. y = [ 4-3 ] y = [ 3 5 ] O gráfico de poto correpodete erá, 3 6 5 4 3 y y 5 4 3 3 4 5 6 6 Figura 3. Repreetação do vectore y e y o Também é poível dar-e uma iterpretação geométrica ao proceo de determiação da média amotral. Para io começamo por defiir o vector = = [ ] que, por defiição, forma âgulo iguai com cada uma da coordeada. 5
6 Dete modo, tem comprimeto uitário e direcção do âgulo igualitário. A projecção de y i o vector uitário é dada por y i = i i i + + + = i _ ito é, a média amotral i _ = y i / correpode ao múltiplo de eceário para obter a projecção de y i a liha determiada por. Além dio, para cada y j podemo determiar o vector devio d j, devio etre y j e i. d j = y j - j = i i i i i i 0 Figura 3.3 Difereça etre vectore Eemplo 3.3: Aida com a mema matriz X, _ = _ = 3 3 3 Coequetemete, d = y - _ = 3 4 - = 3 d = y - _ = 5 3-3 3 3 = 0 y
Figura 3.4 Vectore devio 3 o y d y d É fácil ver que L d = d i i d i = ( ij j ) i= ito é, o quadrado do comprimeto do vector devio é igual à oma do quadrado do devio. Do memo modo, d i d k = ( ij i ) ( kj k ) = L j= L di k d co(θ ik ) e etão, r ik = ii ik kk = co(θ ik ) O coeo do âgulo é o coeficiete de correlação amotral. Aim, e doi vectore tiverem aproimadamete a mema orietação, a correlação amotral erá próima da uidade. Se ete doi vectore forem quae perpediculare, a 7
correlação amotral é quae ula. Se o doi vectore etiverem orietado aproimadamete em direcçõe opota, a correlação amotral erá próima de -. Eemplo 3.4: Com o reultado do eemplo ateriore, d 3 3 = 4 = 3 d = [ ] d 0 0 = 8 = 3 d = [ ] d 3 0 = - = 3 d = [ ] S = 4 3 3 3 8 3 r = = 3 4 3 8 3 = -.89 R =.89.89 3. Amotragem aleatória Para etudarmo a variabilidade amotral de _ e S e para podermo iferir o reultado para toda a população, temo de etabelecer algu preupoto relativamete à variávei que cotituem o cojuto da obervaçõe. 8
9 Dada a matriz X = p p p......... =... dizemo que,,, formam uma amotra aleatória e cotituírem obervaçõe idepedete, pouido uma ditribuição cojuta f() = f( ) f( ) f( ). Se µ e repreetarem, repectivamete, o vector média e a matriz de variâcia da amotra aleatória,,,, etão _ é um etimador ão evieado de µ [E( _ ) = µ] e S = S é um etimador ão evieado de, ito é, E( S ) =. A matriz amotral ão evieada da variâcia é S = S = = j j j ' ) ( ) ( 3.3 Variâcia geeralizada A variâcia é ormalmete decrita pela matriz da variâcia
S =...... p p. =.. p jk = ( i= ij j ) ( ik k ) Um úico valor umérico que repreeta toda a variação eprea em S é a variâcia amotral geeralizada dada pelo determiate de S. Variâcia amotral geeralizada = S 4808 43 Eemplo 3.5: Coideremo a matriz S = 43 5538 A variâcia geeralizada é dada por S = (4808) (5538) - (43) (43) = 8.08 0 6. Vejamo de eguida uma iterpretação geométrica para S. Coideremo etão a área gerada pelo doi vectore devio d = y - _ e d = y - _ d θ L d i θ d Área = [ L i( θ )] = L d L d d L d co θ = ( - ) ( ) r Figura 3.5 Área gerada pelo devio 30
Por outro lado, S = = r r = - r = ( - r ) Dete doi último reultado, podemo cocluir que S = área ( ) = ( - ) - área Geeralizado para um p-epaço obtemo Variâcia amotral geeralizada = S = ( - ) -p (volume) ito é, para um determiado cojuto de dado, a variâcia amotral geeralizada é proporcioal ao quadrado do volume gerado pelo p vectore devio. A dua figura abaio repreetam, repectivamete, uma grade e uma pequea variâcia amotral geeralizada para p = 3 o epaço da obervaçõe. 3 3 d d 3 d d d 3 d Figura 3.6 - Repreetação geométrica da variâcia geeralizada 3
A variâcia geeralizada tem também iterpretação o gráfico de poto um p-epaço. Coideremo, para io, a média amotral _ = [ _, _,, p _ ]. A coordeada =[, ;, p ] do poto a uma ditâcia cotate c de _ atifazem ( - _ ) S - ( - _ ) = c que defie uma elipe (p = ) cetrada em _. Uado o cálculo itegral, podemo verificar que o volume do hiper-elipóide etá relacioado com o valor de S Volume de { : ( ) S ( ) = c } = k p S / c p ou (volume do elipóide) = (cotate) (variâcia amotral geeralizada) Apear da ua iterpretação geométrica, a variâcia amotral geeralizada é limitada como idicador decritivo de uma matriz amotral de variâcia. Para ilutrar ito vejamo o eemplo que e egue. Eemplo 3.6: Coideremo a matrize S = 5 4 4 5 S = 5 4 4 5 S = 3 0 0 3 3
toda ela com a mema variâcia geeralizada S = 9 ma com ditito coeficiete de correlação, repectivamete,.8, -.8 e 0. o Ora, prova-e que o determiate de uma qualquer matriz A p p pode er ecrito como o produto do eu valore próprio λ, λ,, λ p, ito é, A = λ i. Aim, o valore próprio podem dar-o iformação referete à variabilidade em toda a direcçõe uma repreetação p-epacial e, por io, é útil ão ó aaliarmo o valore idividuai aim como o eu produto. p i= A variâcia geeralizada é ula quado e apea quado pelo meo um vector devio etiver o hiperplao formado por toda a combiaçõe lieare do outro, ito é, quado a liha de uma matriz de devio forem liearmete depedete. Eemplo 3.7: Dada a matriz X = 5 4 6 4 0, 4 a matriz da média é _ = [ 3,, 5 ] e etão X - _ = 0 0. O devio reiduai ão d =, d = 0 e d 3 = 0. Como d 3 = d + d, há degeerecêcia a liha e S = 0, poi o volume a trê dimeõe formado pelo trê vectore é ulo. o 33
S = 0 igifica, em termo matemático, que a mediçõe em alguma variávei podem er retirada do etudo. Por outro lado S também erá ulo e o tamaho da amotra for meor ou igual ao úmero de variávei, ito é, p. Se etivermo a trabalhar com variávei etadardizada, podemo dizer que a variâcia amotral geeralizada é dada pelo determiate de R: Variâcia amotral geeralizada da variávei etadardizada = R = ( - ) -p (volume) Como S e R etão relacioada por S = ( pp ) R, podemo ecrever ( - ) p S = ( - ) p ( pp ) R Eemplo 3.8: Sedo dada a matriz S = 4 3 3 9, = 4; = 9 e 33 =. Além dio, R = 3 7. Como S = 4 e R =, cofirma-e que 3 8 7 4 = S = 33 R = (4) (9) () = 4 8 o Cocluímo eta dicuão apreetado o coceito de variâcia amotral total cujo valor correpode ao valor do traço da matriz S, ito é, à oma do elemeto da ua diagoal. 34
Variâcia amotral total = + + + pp 4808 43 Eemplo 3.9: A variâcia amotral total da matriz S = é 43 5538 + = 4808 + 5538 = 30346. A variâcia amotral total da matriz S = 3 3 0 3 0 é + + 33 = 3 + + = 5. o Geometricamete, a variâcia amotral total correpode à oma do quadrado do comprimeto do p vectore reiduai d = y - _,, dp = y p - p _ dividida por -. 35
36
4 Ditribuição ormal multivariada A geeralização da tão cohecida curva ormal para vária dimeõe deempeha um papel fudametal a aálie multivariada. 4. A deidade ormal multivariada A deidade ormal multivariada coite uma geeralização, para p, da deidade da curva ormal f() = πσ e - [( µ ) / σ ] / - < < O termo µ σ = ( - µ) (σ ) - ( - µ) o epoete da fução deidade ão é mai do que a ditâcia quadrada de a µ em uidade etadardizada de devio. Geeralizado para um vector de dimeão p, podemo ecrever ( - µ) - ( - µ) ode o vector µ repreeta o valor eperado do vector aleatório e a matriz p p é a matriz da variâcia. 37
A fução deidade ormal p-dimeioal N p (µ, ) para o vector aleatório = [X, X,, Xp] é f() = (π ) p / Σ / e - (/) ( - µ) - ( - µ) ode - < i <, i =,,, p. Eemplo 4.: Coideremo o epaço p =. Nete epaço µ = µ e = µ Calculado a ivera da matriz de variâcia, obtemo - = σ σ σ σ σ σ σ Aim, a ditâcia quadrada ( - µ) - ( - µ) fica igual a ρ μ μ σ ρ σ σ = [ μ μ ] σ σ σ σ σ σ = σ ( μ ) + σ ( μ ) ρ σ σ ( μ )( μ) ) σ σ ( ρ = μ σ + μ σ μ σ μ σ ρ ρ Dete modo, 38
f(,) = π σ σ ( ρ ) ep μ + ρ ( ) ρ σ σ σ σ μ μ μ Olhado para eta última equação, podemo dizer que e ρ = 0, a deidade cojuta pode er ecrita como um produto de dua deidade ormai uivariada, ito é, e X e X ão etão correlacioada, f(,) = f() f(), ito é, X e X ão idepedete. o Do que atrá ficou dito, podemo cocluir que a deidade ormal multivariada é cotate a uperfície ode a ditâcia quadrada ( - µ) - ( - µ) for cotate. O eio de cada elipóide de cotate deidade têm a direcção do vectore próprio de - e o comprimeto proporcioai ao ivero da raíze quadrada do valore próprio de. Uma vez que e = λ e - e = λ e, o valore próprio de - podem er determiado atravé do valore próprio de. Dete modo, podemo afirmar que o cotoro de deidade cotate da ditribuição ormal p-dimeioal cotituem elipóide defiido por tal que ( - µ) - ( - µ) = c. Ete elipóide ão cetrado em µ e pouem eio com comprimeto ± c λi ei, ode ei = λi ei, i=,, p. 39
Eemplo 4.: Coideremo o cao em que σ = σ. Σ λ Ι = 0 σ λ σ σ σ = 0 λ (λ - σ - σ ) (λ - σ + σ ) = 0 f(, ) 0 (a) f(, ) 0 (b) Figura 4. Dua ditribuiçõe ormai bivariada (a) σ = σ e ρ = 0 (b) σ = σ e ρ =.75 40
Etão, o valore próprio ão λ = σ + σ e λ = σ - σ. O vector próprio e correpodete ao valor próprio λ é dado por e e e = (σ + σ) e e = e e = De modo idêtico e = e e = c σ + σ c σ - σ μ μ Figura 4. - Cotoro de deidade cotate para uma ditribuição ormal bivariada com σ = σ e σ > 0 (ou ρ > 0) Quado σ > 0, λ = σ + σ é o maior valor próprio e o correpodete vector próprio ' e =, ] itua-e a recta a 45º que paa por µ = [µ, µ]. Como o eio da elipe de deidade cotate ão dado por ± c λe e 4
± c λ e, com cada vector próprio de comprimeto uitário, o maior eio etá aociado ao maior do valore próprio. o A deidade ormal p-variada f() = p / / (π ) Σ e - (/) ( - µ) - ( - µ) tem um valor máimo quado a ditâcia quadrada ( - µ) - ( - µ) for ula, ito é, quado =µ. Dete modo, µ é o poto de deidade máima, ou moda, ao memo tempo que cotitui o valor eperado de X, ou média. 4. Propriedade da ditribuição ormal Vejamo, de eguida, alguma propriedade da ditribuição ormal. Aim, edo dado o vector aleatório com uma ditribuição ormal multivariada, ~ N p (µ, ), Combiaçõe lieare da compoete de X ão ormalmete ditribuída. a X = a X + a X + + ap Xp ~ N(a µ, a a) a A X a = ( q p) ( p ) a q X X X + + +............ + + + a a a p p qp Xp Xp ~ N q (Aµ, A A ) Xp 4
X d + ( p ) ( p ) ~ N p (µ, d ) Todo o ubcojuto da compoete de X eguem uma ditribuição ormal multivariada. Se dividirmo X, µ e X X ( q ) = p ) X (( p q) ) ( μ μ ( q ) = p ) μ (( p q) ) ( Σ Σ ( q q) = p p) Σ (( p q) q) Σ ( q ( p q)) Σ (( p q) ( p q)) ( etão, por eemplo, X ~ N q (µ, ). Se X (q ) e X (q ) forem idepedete, etão Cov(X,X) = 0, edo 0 uma matriz (q q ) de zero. A ditribuiçõe codicioai da compoete ão ormai multivariada. Se X = X X ~ N p (µ, ) com µ = µ µ, = Σ _ Σ _ _ Σ Σ e > 0, etão a ditribuição codicioal de X dado X = é ormal com a média = µ + Σ ( - µ) e covariâcia = - Σ. Notar que a covariâcia ão depede do valor de da variável codicioate. 43
Se > 0, etão ( - µ) - ( - µ) ~ χ p, uma ditribuição de qui-quadrado com p grau de liberdade. A ditribuição N p (µ, ) atribui uma probabilidade - α ao elipóide { : ( µ ) Σ ( µ ) = ( α) } χ p edo χ p (α) o percetil de ordem (00α) da ditribuição χ p. 4.3 A forma amotral da ditribuição ormal multivariada Sedo dado,,, uma amotra aleatória de uma população ormal com média µ e covariâcia, o etimadore de máima veroimilhaça para µ e ão dado, repectivamete, por µˆ = X ˆ = ( X j X)( X j X) = j= S Notar que o etimador X é um vector aleatório e que o etimador ˆ é uma matriz aleatória. Ete etimadore de máima veroimilhaça pouem a propriedade da ivariâcia. Ito igifica, por eemplo, que o etimador de máima veroimilhaça de ˆ µ Σ µ é µˆ Σ µˆ e que o etimador de máima veroimilhaça de jj σ ˆ, σ é jj 44
com σ ˆ jj = i= ( X ij X j) como edo o etimador de máima veroimilhaça de σ jj = Var(X j ). Tratado-e de populaçõe ormai, toda a iformação amotral da matriz de dado X etá cotida em X e S; qualquer que eja o tamaho da amotra. Como eta afirmação ão é eceariamete verdadeira para populaçõe ão ormai, é empre coveiete tetar o preupoto da ormal multivariada. 4.4 Ditribuição amotral de X e S No cao uivariado (p = ) abemo que X egue uma ditribuição ormal com média µ e variâcia σ. O reultado para o cao multivariado (p ) é idêtico. X egue uma ditribuição ormal com média µ e matriz de covariâcia. Ora, como é decohecida, a ditribuição de X ão pode er uada directamete para iferir acerca de µ. Cotudo, S idepedete de µ forece-o iformação uficiete acerca de. À medida que o tamaho da amotra crece, X e S ão regido por alguma propriedade idepedetemete da caracterítica da população-pai. O úico requiito que eite é que eta população-pai, qualquer que eja a ua forma, teha uma média µ e uma covariâcia fiita. Pela Lei do Grade Número e empre que o tamaho da amotra eja grade, eite uma grade probabilidade de que X e aproime de µ e que S e 45
aproime de. Preciado um pouco mai (Teorema do Limite Cetral), ejam X, X,, X uma obervação idepedete de uma qualquer população com média µ e covariâcia fiita. Etão, para amotra grade ( deve er grade relativamete a p), ( X - µ) aproimadamete egue uma ditribuição N p (0, ). Quado X ~ N p (µ, ) ou eja, quado ( X - µ) ~ N p (0; ), pode também demotrar-e que ( X - µ) - ( X - µ) ~ χ p. Reparar, fialmete, que, para grade e muito maior do que p, ubtituir Σ por S - ão afecta eriamete a aproimação. 46
5 Iferêcia acerca do vector média No capítulo ateriore apreetaram-e o coceito báico para uma melhor compreeão da etatítica multivariada. Nete capítulo iremo aaliar a iferêcia (tete e regiõe de cofiaça) referete ao vector média de uma população ormal. 5. T de Hotellig Uma geeralização atural da ditâcia quadrada t = ( X µ ) o / = ( X - µ o ) ( ) - (X - µ o ) é a correpodete multivariada T = ( X - µ o ) - S ( X - µo ) = ( X - µ o ) S - ( X - µ o ) ode X = ( p ) j= X j S = ( p p) j= ( X X )( X X ) ' j j μ μ 0 μ = ( p ) M μ p 0 0 0 e S repreeta a matriz etimada da covariâcia de X. 47
A etatítica T é deomiada T de Hotellig em homeagem a Harold Hotellig, pioeiro da etatítica multivariada. Se a ditâcia geeralizada obervada T for grade, ito é; e _ etiver muito loge de µ0, a hipótee H0: µ = µ0 erá rejeitada. Ora, para podermo ter uma ideia da gradeza da ditâcia T, utilizamo o cohecimeto que temo da ua ditribuição. De facto, T ~ ( ) p F ( p) p, -p ode F p,-p idica uma variável aleatória com uma ditribuição F com p e -p grau de liberdade. N p (µ, ), Coiderado etão a amotra aleatória X, X,, X de uma população α = P ( ) p ( ) p T > F p, p ( α) = ( X µ ) S ( X µ ) > F p, p ( α) ( p) ( p) quaiquer que ejam o valore verdadeiro de µ e, com F p,-p (α) a repreetar o percetil de ordem (00α) da ditribuição F p,-p. O que já foi dito é uficiete para tetar H0: µ = µ0 cotra H: µ µ0. A um ível de igificâcia α, rejeitamo H0 em favor de H e T = ( _ - µ 0 ) S - ( _ - µ 0 ) > ( ) p F ( p) p,-p (α) Eemplo 5.: Aaliou-e a trapiração de 0 mulhere audávei, tedo ido uada a trê variávei X = taa de trapiração, X = coteúdo de ódio e 48
X3 = coteúdo de potáio. O valore ecotrado levaram ao eguite reultado: 4.640 X = 45.400 9.965 S =.879 0.00.80 0.00 99.798 5.67.80 5.67 3.68 e S - =.586.0.58.0.006.00.58.00.40 Tetar a hipótee H0: µ = [ 4, 50, 0 ] cotra H: µ [ 4, 50, 0 ] a um ível de cofiaça de α =.0. Ora T = ( X - µ0) S - ( X - µ0) = 0 [4.640-4 ; 45.400-50 ; 9.965-0].586.0.58.0.006.00.58 4.640 4.00 45.400 50.40 9.965 0 = 0 [.640 ; -4.600 ; -.035 ].467.04 = 9,74.60 Comparado o valor obervado T com o valor crítico ( ) p F ( p) p,-p (.0) = 9(3) F 7 3,7 (.0) = (3.353) (.44) = 8,8 podemo cocluir que T = 9.74 > 8.8 e, portato, rejeitamo H0 ao ível de cofiaça de 90%. o 49
5. Regiõe de cofiaça Seja X = [X X X ] a matriz de dado e θ um vector de parâmetro decohecido de uma população. A região R(X) é chamada região 00(-α)% cofiaça e, ate da amotra er eleccioada, P[R(X) icluir o verdadeiro valor para θ] = - α Adaptado ete coceito à média µ, obtemo P ( ) p X µ ) S ( X µ ) ( p) ( F p, p ( α) = - α Por outra palavra, ( ) p X etará a uma ditâcia F p, p ( α) de µ, com ( p) probabilidade - α, dede que a ditâcia eja defiida em termo de - S. Para e aber e um qualquer valor µ 0 pertece à região de cofiaça, eceitamo de determiar o valor da ditâcia quadrada geeralizada ( _ - µo) S - ( _ - µo) e compará-la com o valor de ( ) p F ( p) p,-p (α). Cao a ditâcia eja maior do que ete último valor, µ 0 ão pertecerá à região de cofiaça. 50
O eio do elipóide de cofiaça e o eu repectivo comprimeto podem er determiado atravé do próprio valore próprio λ i e do vectore próprio e i de S. Cetrado em _, o eio do elipóide ( _ - µ) S - ( _ - µ) c = ( ) p F ( p) p,-p (α) ( ) p ão ± λi F p, p ( α) e ( p) i ; ode Se i = λ i e i, i =,,, p. Eemplo 5.: Num etudo de 4 aparelho de microoda, foram medida a radiaçõe emitida pelo aparelho, repectivamete, com a porta fechada (X) e com a porta aberta (X). Para o 4 pare de obervaçõe, ecotrou-e.564 X =.603 S =.044.07.07.046 e S - 03.08 63.39 = 63.39 00.8 O pare de valore próprio e vectore próprio para S ão λ =.06 e = [.704,.70 ] λ =.00 e = [ -.70,.704 ] A elipe a 95% de cofiaça para µ coite em todo o valore (µ, µ ) que atifazem a iequação 03.08 63.39.564 µ (4) 4 [.564 - µ ;.603 - µ ] F 63.39 00.8.603 µ 40,40 (.05) Como F,40 (.05) = 3.3, obtém-e, 5
4(03.08)(.564-µ ) + 4(00.8)(.603-µ ) - 84(63.39)(.564-µ )(.603-µ ) 6.6 Para determiar e µ = [.56,.589 ] pertece à região de cofiaça, calculamo a epreão aterior para µ =.56 e µ =.589, ecotrado-e o valor.30 6.6. Cocluímo etão que e itua a região de cofiaça. Do memo modo, um tete de H0: µ =.56 ão erá rejeitado em favor de H:.589.56 µ a um ível de igificâcia α =.05..589 O elipóide de cofiaça cojuta etá cetrado em.564 X = e,.603 repectivamete, com metade do eio maior e meor iguai a ( ) p (4) λ F p, p ( α) =. 06 (3.3) =.064 ( p) 4(40) ( ) p (4) e λ F p, p ( α) =. 00 (3.3) =.08 ( p) 4(40) Ete eio ecotram-e egudo e = [.704,.70 ] e e = [ -.70,.704 ]. Pode-e facilmete ver que o eio maior é cerca de 3.6 veze maior do que o eio meor. o Coideremo agora X ~ Np(µ, ) e a combiação liear Z = c X = c X + c X + + cp Xp. Etão, para c fio e σ z decohecido, um itervalo de cofiaça a 00( - α)% para µz = c µ é dado por c - t-(α/) c Sc c µ c + t-(α/) c Sc 5
ode t-(α/) é o percetil uperior de ordem 00(α/) de uma ditribuição t com - grau de liberdade. Eta deigualdade pode er iterpretada como uma afirmação em relação à compoete do vector média µ. Por eemplo, com c = [, 0,, 0 ], c µ = µ tora-e o itervalo de cofiaça já por ó cohecido para a média de uma população ormal, edo c Sc =. Podemo dete modo cotruir vário itervalo de cofiaça para o compoete de µ, cada um dele aociado a um coeficiete de cofiaça de -α. Bata para io ecolher o vectore c apropriado. Cotudo, a cofiaça aociada a todo o itervalo quado tomado em cojuto ão é igual a -α. Sedo dada a amotra aleatória X, X,, X de uma população N p (µ, ), com defiida poitiva, para todo o c imultaeamete, o itervalo c X p( ) F ( p) p( ) +, p ( α) c' Sc ; c X Fp p ( α) c' Sc ( p) p, cotém c µ com probabilidade -α. Ete itervalo imultâeo ão, por veze, deomiado, itervalo T poi a probabilidade de cobertura é determiada pela ditribuição de T. A ecolha c = [, 0,, 0 ], c = [ 0,,, 0 ],, c = [ 0, 0,, ] permitem-o cocluir que todo o itervalo - p( ) F ( p) p, p ( α) µ + p( ) F ( p) p, p ( α) 53
- p( ) F ( p) α p, p ( ) µ + p( ) F ( p) α p, p ( ) p - p( ) F ( p) p, p ( α) pp µp p + p( ) F ( p) p, p ( α) pp e verificam com um coeficiete de cofiaça de -α. Reparar que, por eemplo, para e obter um itervalo de cofiaça para µi - µk bata uar-e ci = ck = o vector c = [ 0,, ci, 0,, -ck,, 0 ] a que correpode c Sc = ii - ik + kk, obtedo-e o itervalo i - k ± p( ) F ( p) ( p, p α ) ii ik + kk Eemplo 5.3: 87 aluo de um liceu obtiveram claificaçõe em trê eame epeciai: X = ciêcia ociai, X = verbal e X3 = ciêcia eacta. O reultado obtido foram: 57.74 X = 54.69 e S = 5.3 569.34 600.5 7.5 600.5 6.05 3.37 7.5 3.37 3. Para ecotrar o itervalo imultâeo de cofiaça a 95% para µ, µ e µ3 eceitamo calcular o valor p( ) F ( p) p,-p (α) = 3(87 ) 3(86) F (87 3) 3,84 (.05) = (.7) = 8.9 84 obtedo aim o itervalo 54
57.74-569.34 8.9 µ 57.74 + 87 569.34 8.9 504.45 µ 55.03 87 54.69-6.05 8.9 µ 54.69 + 87 6.05 8.9 5. µ 58.6 87 5.3-3. 8.9 µ3 5.3 + 87 3. 8.9 3.65 µ3 6.6 87 o Se o úmero m de média µi ou de combiaçõe lieare c µ = cµ + cµ + + cpµp for pequeo, o itervalo de cofiaça imultâeo podem er obtido de uma forma mai precia. Tai itervalo de cofiaça, deomiado de Boferroi, ão baeado o itervalo t idividuai _ i ± t- α i ii i =,,, m com αi = α/m. Aim, para um ível de cofiaça global maior ou igual a - α, podemo obter m = p itervalo: - t- α p µ + t- α p - t- α p µ + t- α p _ p - t- α p pp µp _ p + t- α p pp 55
Eemplo 5.4: Voltado ao dado da trapiração, podemo obter o itervalo de cofiaça de Boferroi a 95% para µ, µ e µ3 correpodete à ecolha de αi =.05/3, i=,, 3. Como = 0 e t9(.05/(3)) = t9(.0083) =.65, temo _ ± t9 (.0083) = 4.64 ±.65.879 0 3.64 µ 5.64 _ ± t9 (.0083) = 45.4 ±.65 99.798 0 37.0 µ 53.70 _ 3 ± t9 (.0083) 33 = 9.965 ±.65 3.68 0 8.85 µ3.08 o 5.3 Iferêcia para grade amotra Quado o tamaho da amotra é grade, o tete de hipótee e a regiõe de cofiaça para µ podem er cotruído em o preupoto da eitêcia de uma população ormal, memo tratado-e de ditribuiçõe dicreta. Toda a iferêcia de amotra grade ão baeada a ditribuição χ. ( X - µ) S - ( X - µ) = ( X - µ) S - ( X - µ) é aproimadamete χ com p grau de liberdade e, etão, P [ ( X µ ) S ( X µ ) ( α) ] χ p = - α 56
ode χ p ( α) é o percetil uperior de ordem (00α) da ditribuição χ p. Seja X, X,, X uma amotra aleatória de uma população com média µ e matriz de covariâcia defiida poitiva. Quado - p for grade, a hipótee H0: µ = µ0 é rejeitada em favor de H: µ µ0, a um ível de igificâcia aproimadamete α e ( _ - µo) S - ( _ - µo) > χ ( α) p c X ± χ p ( α) c Sc cotém c µ, para todo c, com probabilidade aproimadamete -α. Coequetemete, o itervalo de cofiaça imultâeo a 00(-α)% _ ± χ p (α) cotém µ _ ± χ p (α) cotém µ _ p ± α pp χ p ( ) cotém µp Além dio, para todo o pare (µi, µk), i, k =,,, p, a elipe amotrai cetrada a média [ _ i - µ i ; _ k - µ k ] ii ik ik kk - _ i µ _ k µ i k χ p ( α) cotém (µi, µk) 57
58
6 Comparação etre dua média multivariada Nete capítulo iremo eteder o cohecimeto à comparação etre doi vectore média. Mai uma vez iremo partir de procedimeto uivariado e geeralizaremo para o cao multivariado. 6. Comparaçõe emparelhada Por veze, a mediçõe ão feita em codiçõe eperimetai divera, com o objectivo de tetar e a repota diferem igificativamete. É o cao, por eemplo, de um tete de eficácia de um ovo medicameto que requer que haja mediçõe ate e apó um determiado tratameto. A repota emparelhada podem er comparada aaliado a repectiva difereça. No cao uivariado, e coiderado Xj e Xj, repectivamete, a mediçõe "ate" e "apó", o efeito ão repreetado pela difereça dj = j - j, j=,,,. Partido do preupoto de que a difereça Dj repreetam obervaçõe idepedete de uma ditribuição N(δ, σ d ), a variável t = ( D δ ) ; d / 59
ode D = j= grau de liberdade. D j e d = ( D j D), egue uma ditribuição t com - j= Coequetemete, a um ível α, o tete H0: δ = 0 cotra H0: δ 0 pode er coduzido comparado t com t - (α/). Do memo modo, um itervalo de cofiaça a 00(-α)% para a difereça média δ = E(Xj - Xj) pode er obtido pela epreão d - t- (α/) d δ d + t - (α/) d Ao geeralizar para o cao multivariado, vamo eceitar de ditiguir etre p repota, tratameto e uidade eperimetai. Obtemo aim a p variávei aleatória de difereça Dj = Xj - Xj Dj = Xj - Xj Dpj = Xpj - Xpj ou, em forma matricial, X X p X X... - X p X p X X p X X... = X p X p D. D p D D. p D. D p Coiderado D j = [ D D D ] ( j =,,, ), j j pj 60
E(Dj) = δ = δ δ L δ p e cov(dj)= d. d), etão Se, além dio, D, D,, D forem vectore aleatório idepedete N p (δ, T = ( D - δ) S ( D δ ) d ode D = D j e Sd = ( D j= j= j D) ( D j D) é ditribuído como uma variável aleatória ( ) p F ( p) p,-p. Se ambo e -p forem grade, T é aproimadamete ditribuída como χ p, idepedetemete da forma da população ubjacete da difereça. Sedo obervada a difereça d j = [ d d d ] ( j =,,, ), rejeitamo H0: j j pj δ = 0 cotra H: δ 0 a um ível α para uma população N p (δ, d) e o valor obervado T = d S - d d > ( ) p F ( p) p,-p (α) ode F p;-p (α) é o valor do percetil de ordem 00α de uma ditribuição F com p e - p grau de liberdade. 6
Uma região de cofiaça a 00(-α)% para δ é formado por todo o δ tal que ( d - δ) S - d ( d - d) ( ) p F ( p) p,-p (α) O itervalo imultâeo de cofiaça a (-α)% para δ i ão dado por δ i : ( ) p d i ± di Fp, p ( α) ( p) ode d i é o elemeto de ordem i de d e di é o i-éimo elemeto da diagoal de Sd. Para -p grade; ( ) p F ( p) p,-p (α) aproima-e da ditribuição χ p ( α), e a ormalidade ão é mai eceária. O itervalo de cofiaça imultâeo de Boferroi a 00(-α)% para a média idividuai de difereça, δ i, ão δ i : α d d i ± t-p i p ode t -p α p é o percetil de ordem 00(α/p) de uma ditribuição t com -p grau de liberdade. 6
Eemplo 6.: Um cojuto de amotra de água foi eviado a doi laboratório para a aálie da eceidade oigéio bioquímico (NOB) e de ólido upeo (SS). O dado ão apreetado a eguir: Laboratório Laboratório Amotra j j (NOB) j (SS) j (NOB) j (SS) 6 7 5 5 6 3 8 33 3 8 64 36 4 8 44 35 9 5 30 5 3 6 34 75 44 64 7 8 6 4 30 8 7 4 54 64 9 43 54 34 56 0 33 30 9 0 0 4 39 Será que o reultado proveiete do doi laboratório coicidem? Se eitir difereça, de que tipo é? A etatítica T para o tete H0: δ = [ δ, δ ] = [ 0, 0 ] cotra H0: δ 0 é cotruída a partir da obervaçõe de difereça: dj = j - j -9 - -8-7 -4-0 -4 7 9 4-9 dj = j - j 0 4 5 - - 4 60-0 -7 63
Etão, d 9.36 99.6 88.38 d = = ; Sd = d 3.7 e 88.38 48.6 T = [-9.36; 3.7].0055.00.00 9.36 = 3.6.006 3.7 Com α =.05; ecotramo ( ) p ( p) F p;-p (.05) = (0) 9 F ;9 (.05) = 9.47 Como T = 3.6 > 9.47, rejeitamo H0 e cocluímo que eite uma difereça média ão ula etre a mediçõe do doi laboratório. Do dado parece evidete que o primeiro laboratório tede a produzir mediçõe mai baia para NOB e mai alta para SS do que o egudo laboratório. O itervalo de cofiaça imultâeo a 95% para a média da difereça δ e δ ão, repectivamete, d ( ) p ± d Fp, p ( α) ( p) = -9.36 ± 99.6 9.47 ou (-.46 ; 3.74) d ( ) p ± d Fp, p ( α) ( p) = 3.7 ± 48.6 9.47 ou (-5.7 ; 3.5) O itervalo de cofiaça imultâeo a 95% iclui o valor zero e, o etato, como vimo, a hipótee H0: δ = 0 foi rejeitada. De facto, o poto δ = 0 ecotra-e fora da região de cofiaça a 95%, o que é coitete com o tete T. O itervalo de cofiaça imultâeo dizem repeito ao cojuto de todo o cojuto de itervalo que podem er cotruído a partir da poívei combiaçõe cδ + cδ, de que o itervalo calculado 64
correpodem à ecolha (c =, c = 0) e (c = 0, c = ). Ete itervalo cotêm o valor zero; o etato, outra ecolha para ce c produzem itervalo imultâeo que ão cotêm zero. Sabemo, im, que e a hipótee H0: δ = 0 ão tivee ido rejeitada, todo o itervalo imultâeo icluiriam zero. O itervalo de Boferroi também cobrem o valor zero. o 6. Comparaçõe em deeho de medida repetida Outra geeralização da etatítica t uivariada coite o cao de q tratameto erem comparado relativamete a uma úica variável de repota. Cada idivíduo ou uidade eperimetal recebe o tratameto uma vez em vário período de tempo. A obervação de ordem j é X j = X X... X j j qj j =,,, ode Xij correpode ao tratameto de ordem i o idivíduo ou uidade eperimetal j. Repreetado por C a matriz de cotrate ode a q- liha ão liearmete idepedete, podemo formular a hipótee de que ão há difereça o tratameto (igualdade da média do tratameto) fazedo Cµ = 0, qualquer que eja a ecolha da matriz de cotrate C. Coiderado uma população N p (µ, ), uma matriz de cotrate C e um ível α, a hipótee H0: Cµ = 0 é rejeitada em relação à hipótee H: Cµ 0 e 65
T _ = (C ) (CSC ) - _ C > ( )( q ) F ( q + ) q-,-q+ (α) ode F q-,-q+ (α) é o percetil de ordem 00α de uma ditribuição F, com q- e - q+ grau de liberdade. A região de cofiaça para o cotrate Cµ é determiada pelo cojuto de todo o Cµ tal que (C _ - Cµ) (CSC ) - (C _ - Cµ) ( )( q ) F ( q + ) q-,-q+ (α) Coequetemete, o itervalo imultâeo de cofiaça a 00(-α)% para um úico cotrate c µ é dado por c µ : _ c ± ( )( q ) F ( q + ) q, q+ ( α) ' c Sc Eemplo 6.: Num tete de eficácia de um ovo aetéico, foi ecolhida uma amotra de 9 cãe ao quai foi admiitrado dióido de carboo (CO) a doi ívei de preão (alto e baio), eguido da adição de halotao (H) e da repetição de dióido de carboo. Preete Halotao Auete Baio Alto CO 66
tratameto = CO alto em H tratameto 3 = CO alto com H tratameto = CO baio em H tratameto 4 = CO baio com H O dado referete ao miliegudo etre batida do coração etão apreetado a eguir: Tratameto Cão 3 4 46 609 556 600 53 36 39 395 3 359 433 349 357 4 43 43 5 600 5 405 46 53 53 6 34 438 507 539 7 30 3 40 456 8 36 36 350 504 9 375 447 547 548 0 56 86 403 4 349 38 473 497 49 40 488 547 3 348 377 447 54 4 4 473 47 446 5 347 36 455 468 6 434 458 637 54 7 364 367 43 469 8 40 395 508 53 9 397 556 645 65 Com bae ete deeho de medida repetida, vamo aaliar o efeito aetéico da preão de CO e do halotao. Repreetado por µ, µ, µ3, e µ4, repectivamete, a repota média o tratameto,, 3 e 4, etamo itereado o eguite trê cotrate de tratameto: 67
(µ3 + µ4) - (µ + µ) cotrate halotao, repreetado a difereça etre a preeça e a auêcia do halotao (µ + µ3) - (µ + µ4) cotrate CO, repreetado a difereça etre a preõe baia e alta de CO (µ + µ4) - (µ + µ3) cotrate iteracção, repreetado a ifluêcia do halotao a difereça de preão de CO Com µ = [ µ µ µ3 µ4 ], a matriz de cotrate é C = _ Do dado acima, = 368. 404.63 e S = 479.6 50.89 89.9 3568.4 943.49 95.35. 7963.4 5303.98 4065.44.. 685.3 4499.63... 4878.99 _ Etão; C = 09.3 60.05, CSC =.79 943.3 098.9 97.6 098.9 595.84 94.54 97.6 94.54 7557.44 e T _ = (C ) (CSC ) - _ (C ) = 9 (6.) = 6. Com α =.05, ( )( q ) F ( q + ) q-;-q+ (α) = 8(3) 6 8(3) F 3;6 ( 5) = (3.4) = 0.94. 6 Como T = 6 > 0.94, rejeitamo H0: Cµ = 0 (ão há efeito do tratameto). Para detectarmo quai o cotrate repoávei pela rejeição de H0, cotruímo o itervalo imultâeo de cofiaça a 95% para ete cotrate. Aim, a ifluêcia de halotao é etimada pelo itervalo 68
(3 + 4 ) - ( + ) ± 8 (3) c 6 F 3,6 (.05) Sc 9 = 09.3 ± 943.3 0.94 = 09.3 ± 73.70 9 Do memo modo, o cotrate retate ão etimado por ifluêcia da preão CO = (µ + µ3) - (µ + µ4): = -60.05 ± 595.84 0.94 = -60.05 ± 54.70 9 iteracção H - CO = (µ + µ4) - (µ + µ34): = -.79 ± 7557.44 0.94 = -.79 ± 65.97 9 Podemo ver, do primeiro itervalo, que eite um efeito do halotao. A preeça do halotao produz tempo mai logo etre batida do coração, o que acotece a ambo o ívei de preão de CO (poi o cotrate de iteracção ão é igificativamete diferete de zero). O egudo itervalo de cofiaça também idica que há um efeito devido à preão de CO, provocado a baia preõe maiore tempo etre batida. Há, o etato, que referir que ete reultado devem er ecarado com algum cuidado, uma vez que a eperiêcia com halotao tem eceariamete de er realizada apó a eperiêcia em halotao. Aim, o efeito ecotrado derivado à preeça do halotao pode também er derivado ao factor tempo. o 69
6.3 Comparaçõe etre dua populaçõe É também poível compararmo a repota obtida em dua populaçõe. Coideremo uma amotra aleatória de tamaho de uma população e uma amotra de tamaho de uma população. A obervaçõe em p variávei ão tai que: Amotra Etatítica População = j S = (,,, j= j= j )( j ) População = j S = (,,, j= j= j )( j ) Pretedemo iferir acerca da difereça etre o vectore média de amba a populaçõe (µ - µ). Será que µ = µ (ito é, µ - µ = 0)? E e µ - µ 0, que média ão diferete? Para e repoder a eta quetõe, há que e partir de algu preupoto. Aim, A amotra X, X,, X é aleatória de comprimeto de uma população p-variada com vector média µ e matriz de covariâcia. A amotra X, X,, X é aleatória de comprimeto de uma população p-variada com vector média µ e matriz de covariâcia. X, X,, X ão idepedete de X, X,, X. 70
Além dito, quado e ão pequeo, Amba a populaçõe ão ormai multivariada. Igual matriz de covariâcia ( = = ). Nete último cao há, portato eceidade de etimar a covariâcia comum, fazedo Scomum = j= ( j )( j ) + + j= ( j )( j ) = ( ) S + ( + ) S Como Scomum etima, podemo afirmar que + Scomum é um etimador de Cov(X - X ). Sedo dado o tete H0: µ - µ = δ0 cotra H: µ - µ δ0; rejeitamo H0 e T = ( - - δ0) S + comum - ( - - δ0) > c ode c = ( + ) p F ( + p ) p, +-p- (α). 7
Eemplo 6.3: 50 barra de abão ão fabricada de cada um de doi proceo e dua caracterítica X = epuma e X = uavidade ão medida. Foram obtida a eguite etatítica: _ 8.3 = 4. S = 6 _ 0. = 3.9 S = 4 Obter uma região de cofiaça a 95% para µ - µ. Como S e S ão aproimadamete iguai, faz etido ecotrar-e uma matriz comum de covariâcia: Scomum = ( 50 ) S + (50 ) S 50 + 50 = 5 Como -.9 =, a elipe de cofiaça etá cetrada em [-.9;.], edo. o valore e vectore próprio de Scomum obtido atravé da equação l 0 = S comum λi = = λ - 7λ + 9. 5 l Dete modo; λ = 5.303 e = [.90;.957 ] λ =.697 e = [.957; -.90 ] Além dio; + c = (98)() + F 50 50 (97),97 (.05) =.5 7
A elipe de cofiaça etede-e i c λ + = λi. 5 uidade egudo o vector próprio e i ; ito é;.5 uidade a direcção de e e.65 uidade a direcção de e. É óbvio que µ - µ = 0 ão pertece à elipe edo, portato, poível cocluirmo que o doi método de fabricação de abão produzem reultado diferete. Parece que o doi tipo de abão têm a mema uavidade, produzido o egudo maior epuma. o 73
74
7 Aálie de compoete pricipai e aálie factorial 7. Itrodução O ome que compõem o título dete capítulo ão frequetemete uado de uma maeira meo precia, chegado memo a acotecer que ivetigadore afirmem que etão a levar a cabo uma aálie factorial quado, de facto, etão a proceder a uma aálie de compoete pricipai. Coideremo a variávei 'temperatura' e 'hora de ol' uma determiada região. O valor 0.9 de coeficiete de correlação etre amba a variávei pode er repreetado pelo âgulo etre eta variávei, quado repreetada vectorialmete. A quetão que a aálie factorial pretede repoder é a eguite Podem ete doi vectore er ubtituído por um úico vector de referêcia, deomiado factor, de tal modo que reteha a maior parte da iformação repeitate à correlação eitete etre a variávei origiai? Ituitivamete parece que o melhor vector de referêcia é o que divide ao meio o âgulo de 5 etre o doi vectore. Na Figura 7.. a variável 'temperatura' é repreetada por T, a 'hora de ol' por S e o vector de referêcia por F. Ete vector faz um âgulo de.5 com T e com S. O coeo de.5, igual a 0.976, repreeta a correlação etre T e F e etre S e F. Na liguagem da aálie factorial, a correlação etre uma variável e um factor é deomiada peo (loadig) da variável o factor. 75
Também já vimo que o quadrado do coeficiete de correlação, R, repreeta a T F S quatidade da variâcia partilhada por amba a variávei. No oo cao, a quatidade de variâcia partilhada por T e F é (0.976) = 0.95, também chamada variâcia do factor comum. a ˆ b ˆ A variâcia eplicada pelo factor F atravé de T e de S é obtida pela oma do quadrado do peo de T e de S em F, ito é, (0.976) +(0.976) =.9. Figura 7. Diagrama vectorial repreetado o primeiro vector de referêcia F (â = ^b =.5 ) Como a variâcia total de cada uma da variávei T e S é, a variâcia máima que pode er etraída por F é igual a + = e, portato, a percetagem da variâcia etraída por F é.9 00 = 95. Ito já o dá 95% da repreetação da relação etre amba. No etato, para obter a imagem completa, temo de deehar o outro vector F, fazedo um âgulo recto (ou ortogoal) com F. T F S â bˆ F Figura 7. Diagrama vectorial repreetado doi vectore de referêcia F e F 76
(â = 0.5 ; ^b = 77.5 ) O âgulo formado por T e S com F ão, repectivamete, 0.5 e 77.5, correpodedo ao peo co(0.5 ) = -0.6 e co(77.5 ) = 0.6. A variâcia etraída por F é (-0.6) + (0.6) = 0. e a percetagem de variâcia etraída é 5%. Ete reultado podem er reumido a eguite tabela: Variávei Factore Comualidade T 0.976-0.6.0 S 0.976 0.6.0 Variâcia etraída.9 0..0 Percetagem da variâcia 95 5 00 A última colua, a comualidade, é ecotrada pela oma da variâcia do factor comum. Aim, por eemplo para T, temo (0.976) + (-0.6) =.0 que correpode à quatidade de variâcia que é partilhada com a outra variávei. 7. Compoete pricipai Com a aálie da compoete pricipai pretede-e eplicar a etrutura da variâcia-covariâcia atravé de alguma combiaçõe lieare da variávei origiai. Embora a p compoete ejam eceária para reproduzir toda a variabilidade do itema, ormalmete grade parte deta variabilidade pode er 77
atribuída a um úmero meor k de compoete pricipai. Eitirá, aim, quae tata iformação quata a eitete com a p variávei origiai. A k compoete pricipai podem ubtituir a p variávei e o cojuto iicial de dado, com mediçõe em p variávei, pode etão er reduzido um cojuto de mediçõe em k variávei. A aálie da compoete pricipai é utilizada mai como um meio do que como um fim, cotituido um pao itermédio para ivetigaçõe mai etea, como por eemplo, a baeada em regreõe ou aálie de agrupameto (cluter). Algebricamete, a compoete pricipai ão combiaçõe lieare da p variávei aleatória X, X,, Xp e correpodem geometricamete à elecção de um ovo itema de coordeada. Sedo apea depedete da matriz de covariâcia (ou da matriz ρ de correlaçõe) a compoete pricipai ão eceitam, para a ua cotrução, do preupoto da ormalidade multivariada. Sedo dada a matriz de covariâcia aociada ao vector aleatório X' = [ X, X,, Xp ] e o pare de valore-vectore próprio (λ, e), (λ, e),, (λp, ep), ode λ λ λp ão todo ão ulo, a compoete pricipal de ordem i é dada por Yi = ei, ' X = ei X + ei X + + epi Xp i =,,, p A compoete pricipai ão ão correlacioada [ Cor(Yi, Yk) = ei ' ek = 0 (i k)] e têm variâcia iguai ao valore próprio de [ Var(Yi) = ei ' ei = λi (i =,,, p) ]. 78
Além dio, e Y = e ' X, Y = e ' X,, Yp = ep ' X forem a compoete pricipai, p σ + σ + + σpp = Var( X i ) = λ + λ + + λp = Var( j= p j= Y i ) Variâcia total da população = σ + σ + + σpp = λ + λ + + λp Proporção da variâcia total da população devida à compoete pricipal de ordem k k =, k =,,, p λ + λ + + λ λ p O coeficiete de correlação etre a compoete Yi e a variávei Xk (i, k =,,, p) ão dado por ρ Y i, Xk = σ kk e ki λi Eemplo 7.: Supohamo que a variávei X, X e X3 pouem a eguite matriz de covariâcia: = 0 5 0 0 0 Pode er verificado que o pare valore-vectore próprio ão: λ = 5.83 e ' = [.383; -.94; 0 ] λ =.00 e ' = [ 0; 0; ] λ3 = 0.7 e3 ' = [.94;.383; 0 ] 79
A compoete pricipai ão etão, Y = e ' X =.383 X -.94 X Y = e ' X = X3 Y3 = e3 ' X =.94 X -.383 X Facilmete e vê, por eemplo, que Var(Y) = Var(.383 X -.94 X) = (.383) Var(X) + (-.94) Var(X) - (.383)(-.94) Cov(X, X) = 5.83 = λ Cov(Y, Y) = Cov(.383 X -.94 X, X3) =.383 Cov(X, X3) -.94 Cov(X, X3) = 0 Verifica-e também que σ + σ + σ33 = + 5 + = λ + λ + λ3 = 5.83 +.00 +.7 = 8 A proporção da variâcia total devida à primeira compoete pricipal é λ λ + λ + λ 3 5.83 = =.73 8 80
5,83 + e a primeira dua compoete pricipai ão repoávei por = 98% da variâcia da população. Nete cao a compoete Y e Y podem ubtituir a trê variávei origiai com pouca perda de iformação. 8 Fialmete, como ρ Y, X = σ e l =.383 5.83 =.95 e ρ Y, X = σ l =.94 5.83 = -.998 5 podemo cocluir que X e X ão, cada um, igualmete importate para a primeira compoete pricipal. Além dito, ρ Y, X = ρ Y, X = 0 e ρ Y, X3 = σ 33 e 3 l = = A retate correlaçõe podem er deprezada uma vez que a terceira compoete ão é importate. o A compoete pricipai y = e ', y = e ',, yp = ep ' poicioam-e a direcçõe do eio do elipóide de deidade cotate. Aim, qualquer poto o eio de ordem i do elipóide tem coordeada proporcioai a ei ' = [ ei, ei,, epi ] e, eceariamete, coordeada da compoete pricipai da forma [ 0,, 0, yi, 0,, 0 ]. A Figura 7.3 é uma elipe de deidade cotate e a compoete pricipai para um vector aleatório ormal bivariado com µ = 0 e ρ =.75. Podemo ver que a 8
compoete pricipai ão obtida rodado o itema iicial de coordeada de um âgulo θ até coicidir com o eio da elipe de deidade cotate. O memo é válido para p >. y y θ Figura 7.3 - Elipe de deidade cotate e a compoete pricipai y e y Embora ão eceariamete iguai à obtida ateriormete, podemo também ecotrar a compoete pricipai para a variávei etadardizada. A compoete pricipal de ordem i da variávei etadardizada Z' = [ Z, Z,, Zp ] com Cov (Z) = ρ é dada por Yi = ei ' Z = ei ' (V / ) - (X - µ), i =,,, p Além dito, edo (λ, e), (λ, e),, (λp, ep) o pare valore-vectore próprio de ρ com λ λ λp 0, p Var( Y i ) = Var( Z i ) = p j= p j= ρ Y i; Zk = e ki λ ( i, k =,,, p) i 8
Proporção da variâcia total da população etadardizada devida à compoete pricipal de ordem k λ k =, k =,,, p p 4 Eemplo 7.: Coideremo a matriz de covariâcia = e a 4 00 correpodete matriz de correlaçõe ρ =.4.4 O pare valore-vectore próprio de ão λ = 00.6 e ' = [.040;.999 ] λ =.84 e ' = [.999. -.040 ] e, para ρ, λ = + ρ =.4 e ' = [.707..707 ] λ = - ρ =.6 e ' = [.707; -.707 ] A correpodete compoete pricipai ão etão, para : Y =.040 X +.999 X Y =.999 X -.040 X e para ρ: Y =.707 Z+.707 Z =.707 X µ X +.707 µ =.707 (X - µ) +.0707 (X - µ) 0 Y =.707 Z -.707 Z =.707 X µ X -.707 µ =.707 (X - µ) -.0707 (X - µ) 0 83
Devido à ua maior variâcia, X domia completamete a primeira compoete pricipal obtida a partir de. Eta primeira compoete pricipal eplica 00.6 =.99 da variâcia total da população. 0 λ λ + λ = Cotudo, quado a variávei X e X ão etadardizada, a variávei reultate cotribuem de modo idêtico para a compoete pricipai obtida de ρ. Aim, como ρ Y, Z = e λ =.707.4 =.837 e ρ Y, Z = e λ =.707.4 =.837 λ. a primeira compoete pricipal eplica = =.7 da variâcia total da p 4 população etadardizada. o Do eemplo aterior pode cocluir-e que a compoete pricipai obtida de ão diferete da obtida de ρ. Além dio, um cojuto de compoete pricipai ão é uma fução imple do outro, dado, portato valor à etadardização. Eemplo 7.3: Sejam,, 3, 4 e 5 obervaçõe emaai da taa de retoro da acçõe de cico emprea (Allied Chemical, DuPot, Uio Carbide, Eo e Teaco). Apó 00 emaa coecutiva, obteve-e _ ' = [.0054;.0048;.0057;.0063;.0037 ] 84
e R =.000.577.509.387.46.577.000.599.389.3.509.599.000.436.46.387.389.436.000.53.46.3.46.53.000 O valore próprio e o correpodete vectore próprio ormalizado de R ão λ =.857 e ' = [.464,.457,.470,.4,.4 ] λ =.809 e ' = [.40,.509,.60, -.56, -.58 ] λ3 =.540 e3 ' = [ -.6,.78,.335,.54, -.435 ] λ4 =.45 e4 ' = [.387,.06, -.66,.47, -.38 ] λ5 =.343 e5 ' = [ -.45,.676, -.400, -.76,.385 ] Uado a variávei etadardizada, obtermo a primeira dua compoete pricipai y = e ' z =.464 z +.457 z +.470 z3 +.4 z4 +.4 z5 Y = e ' z =.40 z +.509 z +.60 z3 -.56 z4 +.58 z5 Eta compoete, que eplicam + p λ λ.857 +.809 00% = 00% = 73% têm 5 uma iterpretação itereate. A primeira compoete coite um ídice da cico acçõe e pode er chamada 'compoete de mercado'. A eguda compoete repreeta um cotrate etre a acçõe de emprea química (Allied Chemical, DuPot e Uio Carbide) e a acçõe da emprea petrolífera (Eo e Teaco) podedo er deomiado compoete idutrial. 85
A retate compoete, de difícil iterpretação, repreetam o eu cojuto a variação provavelmete epecífica de cada acção. o 7.3 Aálie factorial O objectivo eecial da aálie factorial é decrever, e poível, a relaçõe de covariâcia etre a vária variávei em termo de um úmero reduzido de quatidade aleatória ubjacete, ma ão obervávei, chamada factore. A aálie factorial pode er vita como uma eteão da aálie da compoete pricipai, uma vez que amba podem er ecarada como aproimaçõe à matriz da covariâcia. Cotudo, a aproimação feita pelo modelo da aálie factorial é mai elaborada e cetra-e a aálie da coitêcia do dado com uma etrutura pré-defiida. Coiderado o vector aleatório X de dado obervado, com p compoete, média µ e matriz de covariâcia, o modelo factorial parte do coceito de que X é liearmete depedete de alguma variávei ão obervávei F, F,, Fm, chamado factore comu, e p fote de variação ε, ε,, εm, chamado erro ou factore epecífico. Numa forma matricial, o modelo de aálie factorial é X μ L F ε = + ( p ) ( p m) ( m ) ( p ) ou eja, X - µ = l F + l F + + lm Fm + ε 86
X - µ = l F + l F + + lm Fm + ε Xp - µp = lp F + lp F + + lpm Fm + εp ode µi repreeta a média da variável i, εi o factor epecífico de ordem i, Fi o factor comum de ordem i e lij o peo (loadig) da variável i o factor j. Além dio, a variávei aleatória F, F,, Fm, aim como o erro ε, ε,, εm ão ão obervávei, o que permite ditiguir ete modelo da repreetação liear ode o X idepedete podem er obervado. Para ete modelo partimo do preupoto que E(F) = 0 ; Cov(F) = E[FF'] = ( m ) Ι ( m m) E(ε) = 0 ; Cov(ε) = E[εε'] = ( p ) Ψ = ( p p) Ψ 0. 0 0 Ψ. 0 Ψ 0 0. p F e ε ão idepedete; ito é; Cov(ε; F) = E(ε F') = 0 ( p m) Como já atrá vimo, comualidade repreeta a parte da variâcia da variável i devida ao m factore comu. Dete modo, a variâcia de Xi pode er dada por Var(Xi) = comualidade hi + variâcia epecífica ψ i 87
σii = [ l i l i + + l i ] + + ψi Eemplo 7.4: Coideremo a matriz de covariâcia = 9 30 30 57 5 3 5 38 47 3 47 68 A igualdade = L L' + Ψ, ou eja, 9 30 30 57 5 3 5 38 47 4 3 = 7 4 7 47 6 6 8 68 8 + 0 0 0 0 4 0 0 0 0 0 0 0 0 3 pode er verificada pela álgebra matricial. Dete modo, tem a etrutura produzida por um modelo factorial ortogoal com m=. Sedo L = l l l 3 l 4 l l l 3 l 4 = 4 7 e Ψ = 6 8 Ψ 0 0 0 0 Ψ 0 0 0 0 Ψ3 0 Ψ 0 0 = 0 4 0 0 0 0 4 0 0 0 0 0 0 0 0 3 a comualidade de X é h = l + l = 4 + = 7 e a variâcia de X pode er decompota da eguite maeira σ = h + ψ = 7 + = 9 A retate variávei podem er decompota de maeira aáloga. o 88
Ifelizmete, quado o úmero m de factore é muito meor do que o úmero p de variávei, a maioria da matrize de covariâcia ão podem er factorizada da forma L L' + Ψ. Há, ete cao, eceidade de e utilizarem método de etimação apropriado para L e Ψ e e proceder previamete a alguma traformaçõe ortogoai, abedo ó de atemão que, quer o peo, quer a comualidade, ão ão alterado por qualquer traformação ortogoal. Comecemo pela etimação. A matriz de covariâcia amotral S é um etimador da matriz de covariâcia decohecida da população. Se o elemeto fora da diagoal de S ão pequeo (ou o correpodete valore em R eecialmete ulo), a variávei ão etão relacioada e a aálie factorial ão e apreeta de muita utilidade, uma vez que, ete cao, o factore epecífico deempeham um papel fudametal, ão fazedo etido a cotrução do factore comu. Se e devia igificativamete de uma matriz diagoal, etão faz etido uar-e um modelo factorial, edo primeiramete eceário etimar-e o peo l e a variâcia epecífica ψ. De etre o método eitete para a etimação dete parâmetro, uaremo, ete capítulo, apea o método da compoete pricipai, que paaremo a epor. A oluçõe ecotrada poderão etão er rodada (atravé de traformaçõe) com vita a uma melhor iterpretação. A aálie factorial de compoete pricipai da matriz amotral S de covariâcia, uado uma decompoição epectral, é epecificada em termo do 89
eu pare de valore-vectore próprio etimado ( lˆ, ê ); ( lˆ, ê ),, ( lˆ p, ê p) ode lˆ lˆ lˆ p. Sedo m < p o úmero do factore comu; a matriz do peo factoriai etimado { l ~ ij} é dada por L ~ = l ˆ ˆ ˆl ˆ lˆ e e m e ˆ m A variâcia epecífica etimada ão forecida pelo elemeto da diagoal da matriz S - L ~ L ~ '; Ψ ~ = ψ ~ 0 0 0 ψ ~ 0... 0 0 ψ ~ p m com ψ ~ i = ii - j= ~ l ij e a comualidade ão etimada da forma que e egue ~ h i = l~ i + l~ i + + l~ im Há que otar que a aálie factorial da compoete pricipai da matriz amotral de correlaçõe é obtida de maeira idêtica, começado pela matriz R em vez de S. Além dio, o peo factoriai etimado para um determiado factor ão ão alterado quado o úmero de factore aumeta. A proporção da variâcia amotral total devida ao factor j é dada por: para uma aálie factorial de S: Proporção da variâcia amotral total devida ao factor j = ˆλ j + + + pp 90
para uma aálie factorial de R: Proporção da variâcia amotral total devida ao factor j = λˆ j p Eemplo 7.5: Voltado ao Eemplo 8.3 referete à =00 obervaçõe emaai da taa de retoro da acçõe de p=5 emprea química e ode e ecotraram a primeira dua compoete pricipai obtida a partir de R, é fácil determiar a oluçõe da compoete pricipai para o modelo ortogoal com m= e m=. Aim, para ecotrar o peo factoriai etimado bata multiplicar o coeficiete da compoete pricipai amotrai (vectore próprio de R) pela raíze quadrada do correpodete valore próprio. A eguir, ão apreetado o peo factoriai etimado F, a comualidade, a variâcia epecífica e a proporção da variâcia total (etadardizada) amotral eplicada por cada factor, para a oluçõe com m= e com m=. Variável Solução factor Solução factore Peo factoriai Variâcia Peo factoriai Variâcia etimado epecífica etimado epecífica ~ ~ ~ ~ F Ψ i = h i F F Ψi = h i. Allied Chemical.783.39.783 -.7.34. DuPot.773.40.773 -.458.9 3. Uio Carbide.794.37.794 -.34.3 4. Eo.73.49.73.47.7 5. Teaco.7.49.7.54. Proporção da variâcia total (etadardizada) amotral eplicada.57.57.733 A matriz reidual correpodete à olução para m= factore é 9
R - L ~ L ~ ' - Ψ ~ = 0.7.64.069.07.7 0..055 0.64. 0.09.07.069.055.09 0.3.07.0.07.3 0 A proporção da variâcia total eplicada pela olução com doi factore é apreciavelmete maior do que a correpodete à olução com apea um factor. Mai uma vez e vê que o primeiro factor F repreeta codiçõe ecoómica gerai e pode er chamado factor de mercado, toda a acçõe têm um peo alto e todo o peo ão mai ou meo iguai. O egudo factor, que permite a eparação da emprea química com acçõe de petróleo da emprea química em acçõe de petróleo, pode er deomiado factor de idútria. o Como já vimo ateriormete, todo o peo factoriai obtido pelo peo iiciai atravé de uma traformação ortogoal têm idêtica capacidade de produzir a matriz de covariâcia (ou de correlação). Ora, pela álgebra matricial abemo que uma traformação ortogoal correpode a uma rotação rígida do eio coordeado. Por eta razão, a uma traformação ortogoal do peo factoriai damo o ome de rotação factorial. Se Lˆ é uma matriz p m de peo factoriai etimado obtido por um qualquer método, etão Lˆ * = Lˆ T (ode TT' = T'T = I) é a matriz p m de peo apó rotação. Como coequêcia directa da rotação, a matriz reidual matêm-e ialterada, aim como a variâcia epecífica Ψˆ i i e a comualidade ĥ i. Ito igifica que, ob o poto de vita matemático, é imaterial uarmo Lˆ ou Lˆ *. 9
Eemplo 7.6: Coideremo a eguite matriz de correlaçõe referete à ota em p=6 área de =0 aluo de uma ecola: Port Frac Hit Aritm Álgeb Geomet R =.0.439.0.40.35.0.88.354.64.0.39.30.90.595.0.48.39.8.470.464.0 A olução para m= factore comu é apreetada a eguir: Factore rodado Comualidade F F h ˆi. Portuguê. Fracê 3. Hitória 4. Aritmética 5. Álgebra 6. Geometria.553.568.39.740.74.595.49.88.450 -.73 -. -.3.490.406.356.63.569.37 Toda a variávei têm peo poitivo o primeiro factor, factor geral de iteligêcia. No etato, em relação ao egudo factor, há bipolarização etre a ~ ~ diciplia matemática e a ão-matemática. O pare ( l ; l ) de peo factoria etão apreetado a Figura 7.4. i i 93
F 0.5 0.4 0.3 0. 0. Hitória Portuguê Iglê 0-0. -0. -0.3 F 0 0. 0.4 0.6 0.8 Geometria Álgebra Aritmética Figura 7.4 Peo factoriai Rodado o itema de eio de θ = 0º, fazemo com que o traformado do eio F pae pelo poto ( ~ l 4 ; l~ 4 ), como o repreetado a Figura 7.5. 0.5 0.4 0.3 0. 0. F F * Hitória Portuguê Iglê 0-0. -0. -0.3 θ 0 0. 0.4 0.6 0.8 Geometria F Álgebra Aritmética * F Figura 7.5 Rotação factorial 94
Quado ito é feito todo o poto e ecotram o primeiro quadrate (todo o peo factoriai ão poitivo) e o doi grupo de variávei ão evideciado. Ito correpode à eguite tabela de peo etimado apó rotação. Peo factoriai etimado apó rotação Comualidade Variável F * F * h* ˆ i = ĥ i. Portuguê.369.594.490. Fracê.433.467.406 3. Hitória..558.356 4. Aritmética.789.00.63 5. Álgebra.75.054.569 6. Geometria.604.083.37 Como e pode verificar; a comualidade ão e alteraram. Ora, eta rotação pode er coeguida aaliticamete, por eemplo atravé do o critério varima. Coiderado ~ l * ij = l ˆ* ij ĥ * i, o procedimeto varima eleccioa a traformação ortogoal T tal que maimiza V = p m j= p i= ~* l 4 ij - p ~* l ij i= p É importate alietar-e que a rotaçõe ortogoai ão apropriada para modelo factoriai ode e preupõe que o factore ão idepedete. Cao io e ão verifique eitem rotaçõe oblíqua (ão ortogoai), ma que ão e regem pelo modelo atrá idicado. 95
For fim, falta aida debruçarmo-o um pouco obre um problema prático referete ao úmero de factore a ecolher e a utilizar uma aálie epecífica. Um do critério mai vulgare é reter apea factore com valore próprio maiore do que, quado uada a matriz de correlaçõe. Outra alterativa é aaliar o gráfico do valore próprio e parar a aálie o poto ode a liha dete gráfico começa a er quae paralela com o eio horizotal. Ete última alterativa; deomiada tete de bae de motaha (cree tet) etá ilutrada a Figura 7.6. 4 3 0 0 4 6 8 0 Factor Figura 7.6 Eemplo de um tete de bae de motaha Segudo ete gráfico o ivetigador cocluiria que ão deveriam er etraído mai de cico factore. 96
97
8 Aálie de agrupameto (cluter) 8. Itrodução Uma outra técica eploratória de dado é aquela que pequia a eitêcia de grupo aturai de idivíduo ou de variávei. A aplicação deta técica ão preupõe qualquer caracterítica da etrutura do agrupameto; apea e baeia em medida de emelhaça ou de ditâcia etre objecto e a ecolha de critério de agregação. De uma maeira geral, eta aálie paa pela eguite fae:. Selecção da amotra de idivíduo a agrupar;. Defiição de variávei para permitir o agrupameto do idivíduo; 3. Defiição de uma medida de emelhaça ou de ditâcia; 4. Ecolha de um critério de agregação ou deagregação 5. Validação do reultado ecotrado. 8. Medida de emelhaça A ecolha da medida de emelhaça evolve empre uma grade compoete de ubjectividade para além da caracterítica da variávei e da ecala uada para a medição. Normalmete o idivíduo ão agrupado à cuta 98
de ditâcia. A variávei podem, por eemplo, er agrupada com bae o coeficiete de correlação. 8.. Medida de ditâcia De etre a vária medida ormalmete utilizada para determiar a ditâcia etre elemeto de uma matriz de dado, detacam-e a eguite:. Ditâcia Euclideaa a ditâcia etre doi idivíduo i e j é a raiz quadrada do omatório do quadrado da difereça etre o valore de i e j para toda a variávei: d ij p =. ( ik jk ) k =. Quadrado da ditâcia Euclideaa a ditâcia etre doi idivíduo i e j é o omatório do quadrado da difereça etre o valore de i e j para toda a variávei: d ij p =. ( ik jk ) k = 3. Ditâcia aboluta (city block) a ditâcia etre doi idivíduo i e j é o omatório do valore aboluto da difereça etre o valore de i e j para toda a variávei: d ij = p k = ik jk. 4. Ditâcia de Mikowki geeralização da ditâcia aboluta (para m=) e da ditâcia Euclideaa (para m=): 99
d ij p = k = ik jk m m 5. Ditâcia geeralizada (de Mahalaobi) medida que utiliza a matriz da variâcia: d ij = ' ( ) ( ) i j i j Para eemplificar a utilização deta medida coideremo a eguite matriz de 5 obervaçõe em 3 variávei: X X X 3,06 9, 5,0 9, 45 3,34 3,0 68 4,43 5,4 3 5,6,7 04 dado. A matrize a eguir apreetam a mediçõe da ditâcia para a matriz de Ditâcia Euclideaa 3 4 94,0 3 7,4 77, 4 38,5 3, 55,0 5 47, 4,0 64,0 9,7 Quadrado da ditâcia Euclideaa 3 4 8836,0 3 303,5 5943,5 4 48,6 746,5 3030,8 5 5,3 9887,3 4097,7 94,8 Ditâcia aboluta (city block) 3 4 94,0 3, 8,0 4 44,6 38,5 57,5 00
5 49,6 43,6 65,5 3,0 Ditâcia geeralizada (de Mahalaobi) 3 4 36,6 3,4 34,0 4 40,0 35,5 9,0 5, 33,8 40,0 8,8 Como e pode ver, pricipalmete quado a ditâcia geeralizada é comparada com a outra, a variávei que apreetam variaçõe e uidade de medida elevada tedem a aular o efeito da outra variávei. 8.. Medida de aociação Por outro lado, toda eta variávei ão quatitativa. No etato, também a variávei qualitativa podem er itroduzida ete tipo de aálie à cuta da ua traformação em variávei biária, com o valor o cao da preeça de uma determiada caracterítica de iteree e 0 o cao cotrário. Coiderado o idivíduo i e j, medido atravé de p variávei biária, cotrói-e a tabela eguite Idivíduo j Totai Idivíduo i 0 a b a + b 0 c d c + d Totai a + c b + d ode a correpode ao úmero de caracterítica eitete (valor ) em ambo o idivíduo, d ao úmero de caracterítica auete (valor 0) em ambo o idivíduo, 0
b ao úmero de caracterítica preete em i e auete em j, e c ao úmero de caracterítica auete em i e preete em j. Algu do coeficiete de emparelhameto e de emelhaça ão o apreetado a eguir: a + d a + b + c + d ( a + d) ( a + d) + b + c a + d 3 a + d + ( b + c) a 4 a + b + c a 5 a + ( b + c) a 6 b + c Igual peo à a preeça e a auêcia imultâea; Peo duplo à preeça e auêcia imultâea; Peo duplo à ituaçõe dicordate; icluão da auêcia imultâea Peo duplo à preeça auêcia imultâea; ecluão da auêcia imultâea. Peo duplo a ituaçõe dicordate; ecluão da auêcia imultâea. Quociete etre preeça imultâea e ituaçõe dicordate; ecluão da auêcia imultâea. Supohamo agora outro cico idivíduo com a eguite caracterítica: Idivíduo Altura (cm) Peo (Kg) Olho Cabelo Cahoto Seo 73 64 Verde Louro Não Fem 85 84 Cataho Cataho Não Mac 3 70 75 Azui Louro Não Mac 4 63 54 Cataho Cataho Não Fem 5 93 95 Cataho Cataho Sim Mac Defiamo a ei variávei biária X, X, X 3, X 4, X 5, e X 6 do eguite modo: X = 0 altura 83cm altura < 83cm X 4 = 0 cabelolouro cabelo âo louro 0
X = 0 peo 68 Kg peo < 68 Kg X 5 = 0 ão cahoto cahoto X 3 = 0 cabelo ca tah o cabelo ão ca tah o X 6 = 0 eo fe mi io eo maculio A potuaçõe para o idivíduo e para a 6 variávei ão Idivíduo X X X 3 X 4 X 5 X 6 0 0 0 0 0 E o úmero de coicidêcia ão idicada pela tabela de dua etrada: Idivíduo Totai Idivíduo 0 3 0 3 0 3 Totai 4 6 Utilizado o primeiro coeficiete de emelhaça, obtemo a + d a + b + c + d + 0 = 6 = 6 e, cotiuado, a eguite matriz: 03
3 4 5 6 3 4 6 4 4 6 5 0 3 6 3 6 5 6 6 6 6 o que demotra que o idivíduo e 5 ão mai emelhate etre i e que o idivíduo e 5 ão meo emelhate etre i. O doi ubgrupo que e podiam criar eram ( 3 5) e ( 5). Todo ete coeficiete de emelhaça ij podem variar etre 0 e e a ua relação com a ditâcia d ij permite a ua cotrução atravé da fórmula: ij = + dij 8.3 Critério de agregação e deagregação No proceo de agrupameto há eceidade de etimar a ditâcia etre o grupo já formado e outro grupo ou idivíduo. Também aqui ão eite o melhor método de deagregação, tedo o ivetigador que utilizar vário critério e comparar o reultado. De etre o critério de agregação mai utilizado podemo citar o critério do viziho mai próimo (igle likage), o critério do viziho mai afatado (complete likage), o critério da média do grupo (average likage), o critério do cetróide e o critério de Ward 04
8.3. Critério do viziho mai próimo (igle likage) Dado doi grupo (i,j) e (k), a ditacia etre ele é igual à meor ditâcia etre o elemeto do doi grupo, ito é, d = mi{ d ; d ( i, j) k ik jk } Com ete critério, cada idivíduo terá mai tedêcia para e agrupar a um grupo já defiido do que para formar o úcleo de um ovo grupo. Ito cotitui uma devatagem, pricipal repoável pela fraca utilização dete critério. 8.3. Critério do viziho mai afatado (complete likage) Dado doi grupo (i,j) e (k), a ditacia etre ele é igual à maior ditâcia etre o elemeto do doi grupo, ito é, d = ma{ d ; d ( i, j) k ik jk } Com ete critério, cada grupo paa a er defiido como o cojuto do idivíduo em que cada um é mai emelhate a todo o outro do grupo do que a qualquer outro elemeto. O grupo aim criado ão mai compacto 05
8.3.3 Critério da média do grupo (average likage) Dado doi grupo (i,j) e (k), a ditacia etre ele é a média etre todo o pare de idivíduo cotituído por todo o elemeto do doi grupo. Cotitui-e como uma etratégia itermédia da retate. 8.3.4 Critério do cetróide Dado doi grupo, a ditacia etre ele é a ditâcia etre o repectivo cetróide, média da variávei caracterizadora do idivíduo de cada grupo. 8.3.5 Critério de Ward Ete critério baeia-e a comparação etre a aplicação da medida da oma do quadrado do devio da obervaçõe em relação à média do grupo. Primeiro ão calculada a média da variávei de cada grupo; em eguida, é calculado o quadrado da ditâcia Euclideaa etre ea média e o valore da variávei para cada idivíduo. Por fim, omam-e a ditâcia para todo o idivíduo e optimiza-e a variâcia míima detro do grupo. 06
07
Referêcia bibliográfica Aldeferfer MS, Blahfield RK. Cluter aalyi. Sage uiverity paper erie o quatitative applicatio i the ocial ciece, 07-044. Beverly Hill: Sage, 984. Alt M. Eplorig hyperpace. A o-mathematical eplaatio of multivariate aalyi. Lodo: McGraw-Hill, 990. Bryma A, Cramer D. Aálie de dado em ciêcia ociai: itrodução à técica utilizado o SPSS. Oeira: Celta Editora, 99. Dutema GH. Pricipal compoete aalyi. Sage uiverity paper erie o quatitative applicatio i the ocial ciece, 07-069. Beverly Hill: Sage, 989. Hair JF, Adero RE, Tatham RL, Black WC. Multivariate data aalyi. Eglewood Clif: Pretice-Hall, 995. Jobo JD. Applied multivariate aalyi. Volume II: Categorical ad multivariate method. New York: Spriger-Verlag, 99. Joho RA, Wicher D. applied multivariate aalyi. Eglewood Cliff, NJ: Pretice-Hall, 988. Kim J-O, Mueller C. Itroductio to factor aalyi. Sage uiverity paper erie o quatitative applicatio i the ocial ciece, 07-03. Beverly Hill: Sage, 978. 08
Kim J-O, Mueller C. Factor aalyi. Statitical method ad practical iue. Sage uiverity paper erie o quatitative applicatio i the ocial ciece, 07-04. Beverly Hill: Sage, 978. 09