ESTTÍSTIC MULTIVRID 2º SEMESTRE 2010 / 11 EXERCÍCIOS PRÁTICOS - CDERNO 6 nálise Discriminante
6. NÁLISE DISCRIMINNTE 6.1. Considere uma variável X com distribuição normal univariada com variância. Se X for da população a sua média é 10. Se X for da população a sua média é 1. ssuma que são iguais as probabilidades a priori para os acontecimentos = "X pertence a " e = "X pertence a ". Vai construir uma regra de classificação para X por forma que se X m o considera pertencente à população e pertencente à população se for X > m. Designando por R e R estes dois resultados da sua regra de classificação, construa uma tabela em que para diferentes valores de m calcula as probabilidades de uma má classificação, P(R ), P(R ), P(R ), P(R ), P(Erro) e ECM (Custo esperado de má classificação). Será uma tabela do tipo: m P(R ) P(R ) P(R ) P(R ) P(Erro) ECM 10 1 a) Na hipótese de serem iguais os custos de má classificação de X, c ( ) e c ( ), por exemplo iguais a 10. Esperava este resultado? b) Na hipótese de serem iguais as probabilidades a priori de pertença a uma das populações, mas de ser superior o custo de classificar um elemento de como sendo de, por exemplo assumindo c ( ) = 15 e c ( ) = 5. Esperava este resultado? c) E se forem iguais os custos dos dois tipos de erro mas for P() = 0.25 e P() = 0.75? 16-05-11 6.2
6.2 dmita 2 grupos de objectos para os quais se recolheram observações para as variáveis X 1 e X 2 : Grupo : 3 2 7 7 Grupo : 6 2 9 7 8 a) Represente graficamente estes objectos e procure estabelecer, também graficamente, uma função discriminante linear. b) Calcule a função discriminante linear que minimiza o valor esperado do erro de uma má classificação no pressuposto de que os custos de erros de uma má classificação são iguais e de as probabilidades a priori de um objecto de pertencer a um dos grupos são iguais. c) E se o custo de classificar um objecto como sendo do grupo quando ele é do grupo for o dobro do de classificar um objecto como sendo do grupo quando ele é do grupo? d) E se a probabilidade de um objecto ser do grupo for o triplo da probabilidade de um objecto ser do grupo? e) Classifique o objecto [ 2 7 ] na hipótese de b). 6.3. Considere que numa recolha de 23 observações das variáveis X 1 e X 2 para outros tantos indivíduos que manifestam (o que aconteceu em 12 casos), ou não o atributo. Numa tentativa de usar estas duas variáveis como discriminantes, calcularam-se as médias amostrais para cada um dos grupos e a variabilidade (para o conjunto dos dois grupos), obtendo-se: 2 1 1 1.8 S 1.1 1.1 7.3 a) Teste a possibilidade dos dois grupos terem diferentes vectores de médias usando o T 2 de Hotteling (com =0.05). b) Construa a função discriminante linear de Fisher e repita o teste com os valores médios (para cada grupo) desta função. c) Qual a sua previsão quanto à possibilidade do indivíduo [ 0 1 ] ter ou não o atributo? 16-05-11 6.3
6.. Recolheram-se 3 observações para as variáveis X 1 e X 2 de indivíduos que se considerou pertencerem ao grupo e outras tantas e das mesmas variáveis de indivíduos do grupo : Indivíduos que mostraram ser do grupo : 2 3 12 10 8 3 10 ˆ 1 1 1 Indivíduos que mostraram ser do grupo : 5 3 7 9 5 X 7 ˆ 1 1 1 a) Calcule a função discriminante linear de Fisher para a informação disponível, teste a hipótese de igualdade de médias dos dois grupos e calcule a taxa aparente de erro (PER). b) Qual a sua estimativa para a taxa efectiva de erro (ER) com base no método de "holdout" de Lachenbruch? Compare com a PER. 6.5. Suponha as populações e caracterizadas por distribuições normais multivariadas com: População : 10 15 18 12 12 32 População : 10 25 20 7 7 5 ssuma que as probabilidades a priori para cada uma das populações são iguais e que quer discriminar por forma a minimizar a probabilidade total de erro (TPM). a) Calcule a função discriminante e o respectivo valor para os pontos [10, 15], [12, 17],, [30, 35]. dmita agora que conhece os custos associados aos erros de classificação que são c ( ) = 73.89 e c ( ) = 10 pelo que o seu objectivo passa a ser a minimização do valor esperado do custo de erro. b) Reveja os cálculos da questão a). c) Represente, num gráfico para X 1 e X 2, as médias de cada uma das populações, as regiões R e R e os 11 pontos classificados. 16-05-11 6.
X2 (GMT) 6.6. O responsável pelas admissões a um programa de M de uma usiness School americana quer construir um índice a partir da nota média de graduação (GP - Graduate grade point average) e da nota obtida pelo candidato no GMT (Graduate management aptitude test) com o objectivo de o ajudar decidir da admissão de cada candidato. Dos 85 candidatos deste ano, 31 foram admitidos (grupo ), 28 foram rejeitados (grupo ) e os restantes 26 aguardam uma decisão (grupo C). Designando por X 1 a GP e por X 2 a nota do GMT, obtiveram-se as seguintes estimativas: 3.0 561.23 X 2.8 7.07 X C 2.99 6.23 e.0361 S 2.0188 2.0188 3655.9011 ssuma que as probabilidades a priori e as matrizes de variâncias covariâncias para cada um dos grupos são iguais e ainda que são iguais os custos dos erros de classificação. a) Calcule as variáveis discriminantes que lhe permitem classificar um candidato num dos três grupos e utilize-as para classificar um candidato com as notas X 0 ' = [3.21 97]. b) partir dos resultados anteriores divida o quadrante X 1, X 2 em três regiões consoante as decisões de afectação de um indivíduo a cada grupo e coloque nele X 0 '. 700 600 500 00 GRUPO guarda decisão Não admitido 300 2.0 2.5 3.0 3.5.0 dmitido X1 (GP) 16-05-11 6.5