UNIVERSIDADE FEDERAL FLUMINENSE Programa de Mestrado e Doutorado em Engenharia de Produção Disciplina: Estatística Multivariada Aula: Análise Discriminante Professor: Valdecy Pereira, D. Sc. email: valdecy.pereira@gmail.com 2015-2
MVDA Aula 01) Introdução a MVDA e Revisão de Estatística. Aula 02) Pesquisa e Metodologia Científica. Aula 03) Análise Fatorial Exploratória. Aula 04) Escalonamento Multidimensional. Aula 05) Análise de Correspondência. Aula 06) Análise Discriminante. Aula 07) Regressão Linear Múltipla. Aula 08) Regressão Logística Binária. Aula 09) Regressão Logística Multinomial. Aula 10) Análise Fatorial Confirmatória.
Agenda 1. Introdução a DA & MDA 2. Funções Discriminantes 3. Premissas 4. Diagnóstico 5. SPSS 6. Referências 3
MVDA - Análise Discriminante A Análise Discriminante (DA Discrimant Analysis) é uma técnica usada para analisar as relações entre uma variável dependente não-métrica e variáveis independentes métricas ou dicotômicas. A DA usa as variáveis independentes métricas para poder distinguir os clusters (grupos ou categorias) da variável dependente não-métrica, ou seja, a técnica possui o objetivo de classificar objetos (casos) aos clusters com a ajuda das variáveis independentes. Quando a variável dependente não-métrica possui 2 clusters (grupos ou categorias) usamos a Análise Discriminante Simples, quando a variável dependente nãométrica possui 3 ou mais clusters (grupos ou categorias) usamos a Análise Discriminante Múltipla (MDA Multiple Discrimant Analysis). 4
MVDA - Análise Discriminante PREMISSAS Normalidade Multivariada: A Estatística é melhorada se as variáveis independentes possuírem normalidade multivariada ou a maior parte das variáveis independentes possuírem normalidade univariada. Multicolinearidade: A Estatística é melhorada se as variáveis independentes possuírem correlações com valores baixos. Valores altos de correlação indicam que as variáveis independentes são redundantes e uma delas deve ser descartada. Relação entre casos e clusters: n 20 pelo menos 20 casos (n) para cada g cluster (g). Relaxamento: 20 casos (n) por cada variável independente k. Homogeneidada da variância dos clusters: A Estatística é melhorada se os cluster possuírem variâncias parecidas. Se um dos clusters possuir uma maior variância do que outros, os casos (objetos) tenderão a ser classificados nele. Outliers: A Estatística é comprometida na presença de valores discrepantes para cada variável independente. 5
MVDA - Análise Discriminante A DA gera m funções discriminantes (Z m ) - combinações lineares das variáveis independentes - que ampliam a discriminação dos clusters da variável dependente não-métrica. Nem toda função discriminante é significativa, geralmente as duas primeiras são as mais importantes, e uma função discriminante é sempre ortogonal em relação as anteriores. O número máximo (M) mas apenas m são significativas de funções discriminantes é cálculado por: min = g 1; k g = Número de clusters da variável dependente não-métrica; k = Número total de variáveis independentes métricas ou dicotômicas. A função discriminante é definida por: Z m = B m0 + B m1 X 1 + + B mk X k B 0 = Constante; X k = Variável independente k (Preditor k) métrica ou dicotômica; B mk = m-ésimo Coeficiente da Discrimante da variável independente k que maximiza a distância entre as médias dos clusters e minimiza a variância dentro dos mesmos. 6
MVDA - Análise Discriminante Seja: T = B + W T = Matriz da Soma dos Quadrados Total das Variáveis Independentes e Produto Cruzado; B = Matriz da Soma dos Quadrados entre os Clusters das Variáveis Independentes e Produto Cruzado; W = Matriz da Soma dos Quadrados dentro dos Clusters das Variáveis Independentes e Produto Cruzado. Seja também: W 1 BV = λv W 1 B λi V = 0 λ = Autovalor. Cada um é encontrado resolvendo-se o sistema W 1 B λi = 0; I = Matriz Identidade; V = Matriz de valores discriminantes intemediários. 7
MVDA - Análise Discriminante A valores discriminantes intemediários da matriz V possuem o formato: Onde: V m = v m0 + v m1 X 1 + + v mk X k v m0 = k v mk X k A matriz V possui para cada autovalor infinitas soluções. No entanto os coeficientes discriminantes intermediários que originam os coeficientes da função discriminante são encontrados quando a razão entre soma dos quadrados entre clusters e soma dos quadrados dentro dos clusters é máxima. 8
MVDA - Análise Discriminante Finalmente os coeficientes discriminantes intermediários são calculados como: B mk = v mk n g e B m0 = k B mk X k n = Tamanho da amostra; X k = Média dos valores da variável independente k; g = Número de clusters. 9
MVDA - Análise Discriminante O centróide (coordenada central) do cluster g é obtido quando utilizamos a média de cada variável independentes k que pertença ao cluster g em cada função discriminante: Z gm = B m0 + B m1 X 1 + + B mk X k ou Z gm = Z m Z m g Onde: Z gm = M-ésima coordenada do centróide g; Z m = Média dos valores da função discriminante para os casos de X k que pertençam a g; X k = Média da variável independente k (Preditor k) métrica ou dicotômica. 10
MVDA - Análise Discriminante DIAGNÓSTICO Lambda de Wilks para variáveis independentes (Λ k ) ou Estatística-U: A Estatística- U varia entre 0 e 1, e para cada variável independente ele verifica a existência da diferença de médias entre grupos. Quanto mais próximo de0, mais discriminante é a variável independente. Seu valor pode ser transformado para distribuição conhecida (Distribuição F), sendo possível então testar a seguinte hipótese: É calculado como: H 0 : A média dos clusters é igual H a : A média dos clusters não é igual Λ k = SS wk SS wk + SS bk SS wk = Soma dos quadrados (variação) dentro dos cluster da variável independente k. SS bk = Soma dos quadrados (variação) entre os cluster da variável independente k. 11
MVDA - Análise Discriminante DIAGNÓSTICO Situações em que Lambda de Wilks para variáveis independentes (Λ k ) apresenta uma Distribuição F: Variáveis Independentes (k) Clusters (g) Tranformação Graus de Liberdade (g. l) k 2 1 Λ k n k 1 Λ k k k 3 1 Λ k n k 2 Λ k k 1 Qualquer 1 Λ k Λ k n g g 2 Qualquer 1 Λ k n g 1 Λ k g k; n k 1 2k; 2(n k 1) g 1; n g 2 g 1 ; 2(n g 1) 12
MVDA - Análise Discriminante DIAGNÓSTICO Autovalor (λ z ): O autovalor indica para cada função discriminante o percentual total de variância explicada para cada função, ou seja, o quão importante é a função para que se consiga discriminar os clusters. Pode ser calculado como: λ z = SS bz SS wz SS bz = Soma dos quadrados (variação) entre os cluster da m-ésima função discriminante Z m. SS wz = Soma dos quadrados (variação) dentro dos cluster da m-ésima função discriminante Z m. 13
MVDA - Análise Discriminante DIAGNÓSTICO Correlação Canônica (R cz ou R z ): A correlação canônica mede a correlação entre cada função discriminante e os clusters. Quanto mais próximo de 1 é o valor da correlação canônica, mais discriminadora é a função. O quadrado da correlação canônica é análogo ao coeficiente de determinação e indica o total de variância explicada pela função discriminante. É calculada como: R cz = SS bz SS wz + SS bz 14
MVDA - Análise Discriminante DIAGNÓSTICO Teste χ 2 de Lambda de Wilks (Λ z ): O Teste χ 2 de Lambda de Wilks testa globalmente as funções discriminantes, e a cada etapa se retira uma função até que reste apenas a última (Ex: Para 3 funções discriminantes, testam-se as funções de 1 a 3, depois de 2 a 3, e finalmente só a 3), através da seguinte hipótese, com k(g 1) graus de liberdade (g. l): H 0 : A s função ões não é são significante s para discriminar os clusters H a : A s função ões é são significante s para discriminar os clusters A rejeição do teste de hipótese global indica que pelo menos a primeira função discriminante é significante. Quanto mais próximo de 0 é o valor do Lambda de Wilks, mais discriminadora é a função. É calculado como: 1 Λ z = 1 + λ z e χ 2 = n k + g 2 1 ln(λ z ) 15
MVDA - Análise Discriminante DIAGNÓSTICO Teste M de Box (Box s M): O teste M de Box verifica se a matriz de variânciacovariância de cada cluster é igual, através do seguinte teste de hipótese: H 0 : As matrizes de variância covariância são iguais H a : Pelo menos 1 matriz de variância covariância é diferente Seja a matriz de variância-covariância em pool (S pool ) das variáveis independentes calculada como: S pool = 1 g n g g (n g 1) S g 1 ; S g = E E n g k 1 ; S Total = E E n 1 S g = Matriz de variância-covariância do cluster g; S Total = Matriz de variância-covariância de todas as variáveis independentes k; E = Matriz dos valores das variáveis independentes menos o seu valor esperado. 16
MVDA - Análise Discriminante DIAGNÓSTICO O Teste M de Box (M Box ) é calculado como: e Onde: M Box = 1 c c = g g g (n g 1) ln S pool 1 n g 1 M Box ~χ 2 g. l ; g. l = g g 2k 2 + 3k 1 6 k + 1 (g 1) (n g 1) ln S g k k + 1 (g 1) 2 A aceitação da hipótese nula indica que a variância de cada cluster é homogênea. 17
MVDA - Análise Discriminante DIAGNÓSTICO O Teste M de Box não é considerado robusto e pode ser substituído pela Tabela de Determinante de Log, que indica a homogeneidade se os valores do determinante para cada cluster e do pool forem similares. Os valores são calculados como: LD g = ln S g 18
MVDA - Análise Discriminante DIAGNÓSTICO Coeficientes Discrimantes Padronizados (w mk ): Os Coeficientes Discriminantes Padronizados (μ = 0; σ = 1) permitem verficar a importância relativa (pesos) de cada variável independente. É calculado como: 2 w mk = B mk σ k Onde: = Coeficiente Discriminante Padronizado (μ = 0; σ = 1). w mk σ k 2 = Variância da variável independente k da matriz de variância-covariância em pool. 19
MVDA - Análise Discriminante DIAGNÓSTICO Matriz de Estruturas (ι km ): A Matriz de Estruturas fornece informações análogas as cargas fatoriais da Análise Fatorial Exploratória. Somente os valores 0,30 devem ser interpretados. É calculada como: Seja: ι mk = r ij w mk φ = S pool n g e r ij = φ ij i j φ ii φ jj 1 i = j ι km = Matriz de Correlação Estrutural da variável k com a função discriminante m (análogo a carga fatorial da Análise Fatorial Exploratória); φ = Matriz de transformação; r kl = Matriz de Correlação em pool das variáveis independentes k. 20
MVDA - Análise Discriminante DIAGNÓSTICO A Matriz de Correlação em pool (r kl ) também pode ser calcula como: r ij = D 1 S pool D 1 Seja: D 1 = 1 S poolii i j 0 i = j D 1 = Inversa da matriz diagonal da matriz de covariância. 21
MVDA - Análise Discriminante No processo de classificação a DA realiza a previsão de classificação gerando funções discriminantes lineares (C) que calculam para os objetos (casos), uma pontuação para cada cluster. O objeto é alocado para o cluster que possuir maior pontuação. A função discriminante linear - para cluster de tamanhos n g similares - é definida por: C gi = P g0 + P g1 X i1 + + P gk X ik i = Cada caso de uma amostra de tamanho n; P g0 = Constante do cluster g; C gi = Pontuação de cada cluster g pra cada caso i; X ik = Valor da variável independente k (Preditor k) métrica ou dicotômica para o caso i; P gk = Peso k do cluster g da variável independente X k. A função discriminante linear corrigida é utilizada para cluster de tamanhos n g diferentes: C gi = P g0 + P g1 X i1 + + P gk X ik + ln( n g n ) 22
MVDA - Análise Discriminante Os pesos da função discriminante linear (exceto a constante) é calculada como: P = X S pool 1 P = Matriz dos pesos (P gk ) da função discriminante linear (com exceção da constante P g0 ), onde as linhas são os pesos para cada variável independente k e as colunas são os clusters g; X = Matriz das médias dos clusters, onde as linhas são os clusters g e as colunas são as médias das variáveis independentes k ( x gk ). A constante (P g0 ) de cada função discriminante linear é calculada como: P g0 = ln n g n 1 2 x gk P gk 23
14 12 10 8 6 4 2 0 0 2 4 6 8 10 12 14 24
14 12 10 8 6 4 2 0 0 2 4 6 8 10 12 14 25
14 12 10 8 6 4 2 0 0 2 4 6 8 10 12 14 26
14 12 10 8 6 4 2 0 0 2 4 6 8 10 12 14 27
14 12 10 8 6 4 2 0 0 2 4 6 8 10 12 14 28
14 12 10 8 6 4 2 0 0 2 4 6 8 10 12 14 29
14 12 10 8 6 4 2 0 0 2 4 6 8 10 12 14 30
14 12 10 8 6 4 2 0 0 2 4 6 8 10 12 14 31
14 12 10 8 6 4 2 0 0 2 4 6 8 10 12 14 32
14 12 10 8 6 4 2 0 0 2 4 6 8 10 12 14 33
14 12 10 8 6 4 2 0 0 2 4 6 8 10 12 14 34
14 12 10 8 6 4 2 0 0 2 4 6 8 10 12 14 35
14 12 10 8 6 4 2 0 0 2 4 6 8 10 12 14 36
14 12 10 8 6 4 2 0 0 2 4 6 8 10 12 14 37
14 3 12 2 10 1 8 6 0-8 -6-4 -2 0 2 4 6 8 10 4-1 2-2 0 0 2 4 6 8 10 12 14-3 38
3 2 1 0-8 -6-4 -2 0 2 4 6 8 10-1 -2-3 39
3 2 1 0-8 -6-4 -2 0 2 4 6 8 10-1 -2-3 40
3 2 1 0-8 -6-4 -2 0 2 4 6 8 10-1 -2-3 41
3 2 1 0-8 -6-4 -2 0 2 4 6 8 10-1 -2-3 42
3 2 1 0-8 -6-4 -2 0 2 4 6 8 10-1 -2-3 43
3 2 1 0-8 -6-4 -2 0 2 4 6 8 10-1 -2-3 44
3 2 1 0-8 -6-4 -2 0 2 4 6 8 10-1 -2-3 45
3 2 1 0-8 -6-4 -2 0 2 4 6 8 10-1 -2-3 46
3 2 1 0-8 -6-4 -2 0 2 4 6 8 10-1 -2-3 47
3 2 1 0-8 -6-4 -2 0 2 4 6 8 10-1 -2-3 48
3 2 1 0-8 -6-4 -2 0 2 4 6 8 10-1 -2-3 49
3 2 1 0-8 -6-4 -2 0 2 4 6 8 10-1 -2-3 50
3 2 1 0-8 -6-4 -2 0 2 4 6 8 10-1 -2-3 51
MVDA - Análise Discriminante 52
X2 4000 3500 3000 2500 2000 1500 1000 500 0 0 500 1000 1500 2000 2500 3000 3500 4000 4500 X1 53
54
O SPSS fornece dois métodos para incluir variáveis: Insira independents juntos (analisa todas as variáveis de uma só vez) e Usar método stepwise (analisa a entrada e saída de variáveis independentes de acordo com uma regra). É necessário indicar o número que corresponde ao primeiro (Mínimo) e ao último (Máximo) grupo. O intervalo é discreto. 55
Médias: Apresenta a média e desvio padrão de cada variável independente e para cada cluster e o total. ANOVAs de apenas uma variável: Realiza o teste de Lambda de Wilks para as variáveis independentes e o F-ratio. M de Box: Realiza o teste Box s M e apresenta a Tabela de Determinante Log. Coeficientes de Fisher: Apresenta os Coeficientes Discriminantes Lineares de Fisher (classificadores). Coeficientes Não padronizados: Apresenta os Coeficientes Discriminantes de cada função discriminante significativa. Correlação dentro de grupos: Apresenta a correlação em pool das variáveis independentes. Covariância dentro de grupos: Apresenta a covariância em pool das variáveis independentes. Covariância de grupos separados: Apresenta a covariância das variáveis independentes dentro de cada cluster. Covariância Total: Apresenta a covariância total das variáveis independentes. 56
Lambda de Wilks: Seleciona as variáveis que entram se elas minimizarem, significantemente, o Lambda de Wilks do modelo. Variância inexplicada: Seleciona as variáveis que entram se elas minimizarem, significantemente, a variância inexplicada entre clusters. Distância de Mahalanobis: Seleciona as variáveis que entram baseadas nos casos de cada uma. Variáveis com muitos casos com valores discrepantes são excluídas. Menor razão F: Seleciona variáveis que a maximizam a menor razão F para a distância de Mahalanobis. V de Rao: Também conhecido como Traço de Lawley-Hotelling e que mede a distância entre clusters. Uma varável é selecionada se aumentar significantemente o valor de V de Rao. Usar valor F: O valor da entrada deve ser maior do que o valor da remoção. Uma variável é selecionada para um valor maior ou igual ao valor de entrada e excluída para um valor menor ou igual ao valor de remoção. Usar probailidade F: O valor de significância de entrada deve ser maior do que valor de significância remoção. Uma variável é selecionada para um valor menor ou igual a significância de entrada e excluída para um valor maior ou57igual a significância de remoção.
Todos os grupos iguais: Selecione essa opção caso os clusters possuam tamanhos iguais. Calcular a partir de tamanhos de grupo: Selecione essa opção caso os clusters possuam tamanhos diferentes, para que a classificação seja ajustada. Resultado por caso: Apresenta a classificação para cada caso. Tabela Resumo: Apresenta o Hit Ratio ou Matriz de Confusão (Percentual de erros e acertos). Classificação com exclusão de um item: Classificação do caso se o mesmo fosse excluído pelo modelo e depois previsto (Validação Cruzada). Dentro de grupos: A matriz de covariância em pool é utilizada. Grupos separados: A matriz de covariância das funções discriminantes de cada cluster é utilizada (utilize essa opção se os clusters não forem homogêneos). Grupos combinados: Apresenta o gráfico com todos os clusters para as primeiras duas funções discriminantes. Grupos separados: Apresenta o gráfico individual de cada cluster para as primeiras duas funções discriminantes. 58 Mapa territorial: Apresenta o mapa territorial, quando a variável dependente possui 3 clusters o mais.
Associação de grupo prevista: Indica a qual cluster o caso pretence. Pontuações de discriminante: Apresenta o valor de cada função discriminante para cada caso. Probabilidades de associação do grupo: Apresenta a probabilidade de um caso pertencer a um cluster, baseado no valor da função discriminante linear. 59
60
MVDA - Análise Discriminante 61
62
63
64
A Posição indica o número de variáveis independentes. 65
66
67
68
69
70
71
72
73
74
75
76
77
X2 4000 3500 3000 2500 2000 1500 1000 500 0 0 500 1000 1500 2000 2500 3000 3500 4000 4500 X1 78
79
Referências BRUNI, A. L. SPSS Aplicado à Pesquisa Acadêmica. ATLAS, 2009. CORRAR, L.J.; PAULO, E.; DIAS FILHO, J. M. Análise Multivariada para Cursos de Administração, Ciências Contábeis e Economia. ATLAS, 2009. FÁVERO, L. P.; BELFIORE, P.; SILVA, F. L.; CHAN, B. Análise de Dados: Modelagem Multivariada para Tomada de Decisões. CAMPUS, 2009. HAIR, J. F.; BLACK, W. C.; BABIN, B. J.; ANDERSON, R. E.; TATHAM, R. L. Análise Multivariada de Dados. BOOKMAN, 2009. LATTIN, J.; CARROLL, J. D.; GREEN, P. E. Análise de Dados Multivariados. CENGAGE Learning, 2011. LEVINE, D. M.; STEPHAN, D. F.; KREHBIEL, T. C.; BERENSON, M. L. Estatística - Teoria e Aplicações - Usando Microsoft Excel. LTC, 2012.