Análise de agrupamentos e Análise das componentes principais Ambas as análises são técnicas de redução de dados. ANÁLISE DISCRIMINANTE Objetivo da análise de agrupamentos é formar grupos, reduzindo o número original de elementos a poucos grupos. Objetivo da análise das componentes principais é reduzir o número original de variáveis. Ambas as análises fornecem os mesmos resultados. 1 Análise discriminante Na análise discriminante os grupos ja são conhecidos à priori. Supõe-se que as observações estão corretamente classificadas Função discriminante Objetivo: Verificar se os grupos estão discriminados Classificar observações desconhecidas Verificar quais variáveis são as mais importantes para a discriminação entre os grupos. 3 Região de recobrimento 4 Limites lineares Análise Discriminante Linear Decidir à qual de dois grupos pertenceriam indivíduos Substituir o conjunto original das mensurações por um único valor Di, definido como uma combinação linear Razão mínima entre a diferença entre pares de médias multivariadas e variância multivariada dentro dos dois grupos. Para a aplicação de testes de significância: observações em cada grupo escolhidas ao acaso; probabilidade de um indivíduo desconhecido pertencer a um dos grupos ser a mesma; variáveis com distribuição normal; matrizes de variância dos grupos de mesmo tamanho; observações usadas para o cálculo das funções discriminantes classificadas sem erro. 5 Quando matrizes de variâncias e covariâncias são diferentes escolher função discriminante quadrática. 6 1
7 8 D i = 1 1 + + 3 3 +... p p cálculo das funções discriminantes lineares por regressão linear, onde a variável dependente consiste no vetor de diferenças entre as médias multivariadas de dois grupos e as variáveis independentes matriz de variâncias covariâncias das variáveis em estudo A solução do sistema de equações lineares resultante pode ser resolvido, por cálculo matricial, a partir de: [p]=[vp ]-1 [Rp] Para o cálculo dos coeficientes p, que irão constituir a equação da função discriminante, determina-se o inverso da matriz da variâncias e covariâncias combinadas e em seguida multiplica essa matriz pelo vetor de diferenças entre médias: 9 O valor central do grupo A é determinado por D A = A A1 + A + A3 +... A Ap e do grupo B por D B = B B1 + B B + B B3 +... B Bp O índice discriminante,, ou seja, o ponto na linha descrita pela função discriminante situado eatamente na metade da distância entre os centros dos grupos A e B, é encontrado segundo: D λ ( 0 1 A1 B1 ) λ ( A B )...λ ( p Ap Bp ) 10 Para testar a significância da função encontrada, ou seja, verificar se os dois grupos considerados pertencem a uma única população ou à duas distintas populações, calcula-se a distância entre as duas médias multivariadas. Esta medida de distância é conhecida como distância generalizada de Mehalanobis, ou D², e mede a separação entre as duas médias multivariadas epressa em unidades de variâncias combinadas. D = D A -D B D² é usada na seguinte epressão para ser testada pela distribuição F: (com "p" graus de liberdade para o numerador e " " para o denominador) A contribuição relativa, em percentagem, de cada variável para o distanciamento entre os dois grupos é fornecida pela epressão: C p =[(prp)/d ]*100 na nb p 1 nanb F* D (na nb )p nan B A hipótese nula a ser testada, estabelece que as duas médias multivariadas são iguais, ou que a distância entre ambos os grupos é igual a zero significando que se trata de um único grupo. Cp mede apenas a contribuição direta da variável, sem levar em consideração o seu inter-relacionamento com as demais eistentes. 11 1
Funções discriminantes multigrupos Discriminar entre mais de dois grupos Análise de variância da matriz inicial parcializada em categorias ou grupos Soma de quadrados entre grupos [E] mais a soma de quadrados dentro dos grupos [D] é igual à soma total de quadrados [T]: [T] = [E] + [D] Razão [E]/[D] com alto valor: médias dos grupos bem diferentes entre si e os valores dentro de cada grupo bem concentrados ao redor dos respectivos centroides Encontrar um conjunto de pesos lineares para as variáveis que tornem essa razão máima Distâncias dentro dos grupos são minimizadas Distâncias entre grupos são maimizadas 13 14 Se o conjunto de pesos for o vetor [A1], a análise discriminante pode ser efetuada ao encontrar os valores dos elementos de [A1] de modo que a epressão {[A1] [E] [A1]}/{[A1] [D] [A1]}, seja maimiza Restrição para denominador igual a 1: [A1] [D] [A1] = 1 Razão maimizada quando [A1] for o autovetor correspondente ao maior autovalor de [D]-1 [E] Encontrar,como na análise fatorial, eios ortogonais [A], [A3], etc., funções discriminantes em sucessão decrescente 15 Observações projetadas no espaço definido pelos eios discriminantes: [Z] = [A] [X], onde [X] é a matriz inicial de dados [N p] e [A] a matriz [p t] cujas colunas t são os maiores autovetores a serem usados nas funções discriminantes. Os centroides dos g grupos podem ser projetados no espaço discriminante por [Zmk] = [A1] [Xmk], onde [Xmk] contem as médias de todas as variáveis para cada grupo. Escolher as duas funções discriminantes de maior peso para servir como eios ortogonais para uma distribuição das observações dos diversos grupos e os respectivos centróides. Uma observação multidimensional de origem desconhecida pode ser projetada nesse diagrama pela sua multiplicação 16 pelo transposto de [A] e verificada sua distância aos diversos centróides Eemplo de análise discriminante entre dois grupos Eemplo de análise discriminante entre dois grupos P:Zona mineralizada E: Zona estéril X:? 17 18 3
Análise discriminante multigrupos. O petróleo tanto pode ter origem em carbonatos (C) e folhelhos (F) de origem marinha, como em ambientes deltaicos (D) e para eplicar a sua gênese são utilizadas diversas variáveis em conjunto. 19 São fornecidos dados referentes a 63 amostras de petróleo, nas quais foram obtidas as seguintes variáveis: API = densidade em unidades API S= porcentágem de enofre Pr/Ph= razão pristâneo/fitâneo S/A= razão entre hidrocarbonetos saturados e aromáticos PCIR= razão isotópica de carbono(1c/13c) no petroleo GCIR= razão isotópica de carbono na fração gasolina G-R= diferença entre as razoes isotópicas na fração gasolina e no resíduo 0 Aplicando, inicialmente, análise de agrupamentos (modelo Q, método Ward, distância euclidiana e variáveis não padronizadas) verificar se esse conjunto de amostras pode ser subdividido em grupos e se esses grupos estão de acordo com os ambientes C, F e D. 1 Aplicando a análise de agrupamentos (modelo Q, método Ward, distância euclidiana e variáveis padronizadas) verificar se esse conjunto de amostras pode ser subdividido em grupos e se esses grupos estão de acordo com os ambientes C, F e D. 3 4 4
Variáveis padronizadas: (i ) zi s 5 6 Com a padronização das variáveis os três grupos encontrados agrupam amostras segundo os ambientes carbonatos (C), folhelhos (F) e deltaicos (D). Em seguida, aplicando análise discriminante, verificar se os grupos encontrados estão significativamente separados, segundo ambientes de deposição, e quais as variáveis mais importantes para essa discriminação. 7 8 Para verificar a relação entre amostras e variáveis e, portanto, a influência das variáveis na discriminação entre grupos sobrepor os gráficos 9 30 5
Análise de Componentes Principais Análise Discriminante: XLStat Medidas cranianas foram obtidas em 7 espécies fósseis de oreodontes (mamífero do Eoceno-Oligoceno dos Estados Unidos da América). As afinidades taonômicas entre essas espécies estão no gráfico abaio: 31 Subdesmatochoerus sp. (Su), Megoreodon gigas loomisi (Me), O. osborni (Oo), Psuedodesmatochoerus (Ps), Desmatochoerus hatcheri (De), M. culbertsoni (Mc) e Prodesmatochoerus. meeki (Pr). 3 33 34 BC-W: largura da caia craniana na altura da região parietal-escamosal TR-L: comprimento máimo dos dentes molariformes Bu-L: comprimento máimo da bulla timpânica Bu-HP: comprimento máimo da bulla timpânica medida do bordo dorsal até o processo paroipital. Espécie BC-W TR-L Bu-L Bu-HP Su 47.0 99.0 6.0 15.0 Su 4.0 93.0 6.0 16.0 Su 40.0 90.0.0 13.0 Su 46.0 100.0.0 11.0 Su 46.0 96.0 4.0 16.0 Su 4.0 88.0 6.0 15.0 Su 43.0 89.0 3.0 14.0 Su 44.0 78.0 3.0 13.0 Su 44.0 90.0 5.0 11.0 Su 47.0 99.0 7.0 15.0 Su 47.0 9.0 7.0 13.0 Me 78.0 165.0 35.0 18.0 Me 77.0 165.0 37.0 19.0 35 36 6
37 38 4 grupos indicados pela Análise Discriminante: 1: Prodesmatochoerus meeki + Merychoidodon culbertsoni + O. osborni : Subdesmatochoerus sp 3: Desmatochoerus hatcheri + Psuedodesmatochoerus 4: Megoreodon gigas loomisi 39 40 7