Universidade Técnica de Lisboa INSTITUTO SUPERIOR DE ECONOMIA E GESTÃO Informática e Sistemas de Informação Aplicados em Economia Análise Discriminante Análise Discriminante 1
Análise discriminante - A análise discriminante - Verificação de pressupostos - Determinação de funções discriminantes - Variáveis a considerar na análise - Determinação de funções de classificação - Classificação Análise Discriminante 2
Análise discriminante Método estatístico multivariado que se emprega para descobrir as características que distinguem os membros de um grupo dos de outro, de modo que, conhecidas as características de um novo indivíduo, se possa prever a que grupo pertence. Foi originalmente desenvolvida na botânica tendo por objectivo fazer a distinção de grupos de plantas com base no tamanho e no tipo de folhas o que tornaria possível, posteriormente classificar as novas espécies encontradas. Em 1936, Fisher foi o responsável pelo desenvolvimento da análise para dois grupos. Análise Discriminante 3
Passos da análise Início Verificação de Pressupostos Continua? S Determinação de funções discriminantes N Classifica? N S Geração de Funções de Classificação Fim Classificação Análise Discriminante 4
Verificação de pressupostos - Remoção de outliers - Testes de normalidade às variáveis - Homogeneidade das matrizes de variância-covariância - Existência de diferenças significativas entre os grupos Acção: Executar todos os testes de validade e interpretar Análise Discriminante 5
Remoção de outliers Uma análise discriminante é altamente sensível à presença de outliers ou valores extremos de variáveis que têm um largo impacto nas médias e também aumentam as variâncias podendo erroneamente resultar em significância estatística. Assim, os outliers devem ser identificados e removidos antes da análise. Análise Discriminante 6
Testes de normalidade às variáveis Assume-se que os dados representam uma distribuição normal multivariada. O exame da sua distribuição em termos gráficos através de histogramas permite visualizar se são ou não normalmente distribuídas. Todavia as violações de normalidade, neste particular, não são usualmente fatais o que significa que os testes de significância resultantes são fidedignos. Análise Discriminante 7
Homogeneidade das matrizes de variância-covariância Assume-se que as matrizes de variância/covariância são homogénas entre os grupos. Também neste caso, desvios menores são pouco importantes pelo que é possível uma decisão para prosseguir a análise apesar da violação do pressuposto. Análise Discriminante 8
Existência de diferenças significativas entre os grupos A estatística Λ de Wilks é uma medida inversa do grau de diferenciação entre os grupos: quanto menor o seu valor, maior esse grau de diferenciação Λ = W T = W B + W Determinante de W: medida da variabilidade dentro dos grupos. Determinante de T: medida da variabilidade total. Quanto maior for a semelhança entre os dois determinantes, menores serão as diferenças entre os grupos e mais o valor do Lambda de Wilks se aproximará de 1. Análise Discriminante 9
Determinação de funções discriminantes O número máximo de funções discriminantes é igual ao número de grupos menos um, ou ao número de variáveis discriminantes, sendo o critério de escolha baseado no menor destes dois valores. No caso de dois grupos, a função discriminante é uma função linear do tipo: Y = a + b 1 *x 1 + b 2 *x 2 +...+b m *x m onde a é uma constante e b 1..b m são um conjunto de coeficientes cujo valor representa o seu grau de contribuição para a predição do grupo a que pertence. Análise Discriminante 10
Determinação de funções discriminantes No caso de mais de dois grupos, pode ser estimada mais do que uma função discriminante como a anterior e o significado dos coeficientes é idêntico. No entanto, estes coeficientes não nos dizem entre que grupos as respectivas funções discriminam podendo tal interpretação ser obtida a partir de uma representação gráfica ou do exame das médias das funções entre grupos. Análise Discriminante 11
Variáveis a considerar numa análise Em muitos estudos, um investigador pode querer considerar todas as variáveis no modelo. No entanto, em muitas aplicações, um objectivo chave é identificar um subconjunto útil de variáveis para concretizar a predição. Alguns produtos, como o SPSS, fornecem métodos para construir um modelo de um modo passo a passo (stepwise discriminant analysis): fazendo entrar ou removendo em cada passo uma variável do modelo. Análise Discriminante 12
Método Stepwise O método começa por determinar a variável para a qual a média é mais diferente e continua, passo a passo, a juntar a próxima melhor variável. Reis (1997) apresenta várias estatísticas de apoio à determinação de variáveis a integrar ou remover do modelo, designadamente, o lambda de Wilks, a distância de Mahalanobis, o rácio do F mais pequeno, o V de Rao e a soma da variância não explicada. Análise Discriminante 13
Determinação de funções de classificação As funções de classificação podem ser utilizadas para determinar a que grupo cada caso pertence. Há tantas funções de classificação quantos os grupos. Cada função permite-nos calcular scores de classificação para cada caso em cada grupo aplicando a expressão: S i = c i +w i1 *x 1 + w i2 *x 2 +...+w im *x m onde i representa o grupo respectivo, 1,2,... m as variáveis, c i um valor constante para o gupo i, w ij o peso da variável j no cálculo do scores do grupo i, x j o valor observado do caso respectivo para a variável j. Análise Discriminante 14
Classificação Dispondo das funções de classificação associadas a cada grupo, todos os casos são relacionados com cada uma das funções de classificação. Considera-se que um caso determinado pertence ao grupo para o qual se encontrou o score mais elevado. É possível ter uma avaliação do rigor da predição através da elaboração de uma matriz de classificação onde se mostra para cada grupo o número de casos correctamente classificados e o número de casos mal classificados. Análise Discriminante 15