Estimação e Testes de Hipóteses 1
Estatísticas sticas e parâmetros Valores calculados por expressões matemáticas que resumem dados relativos a uma característica mensurável: Parâmetros: medidas numéricas descritivas calculadas a partir de dados sobre toda a população. Estatísticas: medidas numéricas correspondentes às anteriores, mas calculadas sobre uma amostra. 15-10-2008 2 2
Principais Parâmetros µ σ 2 σ π A MÉDIA M A VARIÂNCIA O DESVIO PADRÃO A PROPORÇÃO 3
PRINCIPAIS ESTIMADORES X S 2 S P A MÉDIA A VARIÂNCIA O DESVIO PADRÃO A PROPORÇÃO Estimativas: Uma estimativa é um valor particular de um estimador. 4
ESTIMAÇÃO A estimação tem por objetivo fornecer informações sobre parâmetros populacionais, tendo como base uma amostra aleatória extraída da população de interesse. 5
ESTIMAÇÃO θ AMOSTRA POPULAÇÃO θˆ 6
ESTIMAÇÃO POR PONTO A estimativa por ponto é feita através de um único valor. ESTIMAÇÃO POR INTERVALO A estimativa por intervalo, fornece um conjunto de valores. 7
DISTRIBUIÇÕES AMOSTRAIS θˆ1 Amostra 1 POPULAÇÃO θˆ2 Amostra 2 θ... θˆ k Amostra k 8
DISTRIBUIÇÕES AMOSTRAIS A distribuição de probabilidade de um estimador (variável aleatória) é denominada de distribuição amostral desse estimador. 9
Distribuição Amostral da MédiaM (Distribuição de Médias Amostrais) Suponhamos que a variável X assuma os valores 1, 2, 3, 4, 5. Vamos considerar todas as amostras possíveis, com reposição, de dimensão n=2, e depois calcular as médias (aritméticas) relativas a todas as amostras. Sorteio 2 Sorteio 1 1 2 3 4 5 1 1,0 1,5 2,0 2,5 3,0 2 1,5 2 2,5 3 3,5 3 2,0 2,5 3,0 3,5 4,0 4 2,5 3,0 3,5 4,0 4,5 5 3,0 3,5 4,0 4,5 5,0 10
Observação: O conjunto de valores 1, 2, 3, 4 e 5 constitui a população (π), de onde foram extraídas 25 amostras de dimensão n=2. Exercício: Determine, usando o Excel: i) a média e a variância populacionais. ii) a média das médias amostrais. iii) a variância das variâncias amostrais. 11
Teorema do Limite Central À medida que n (dimensão das amostras) aumenta, a distribuição das médias amostrais vai progressivamente tendendo para a Distribuição Normal. Com n 30 a aproximação é já muito boa. Mesmo para n=2, a curva já lembra uma Normal. 12
A média das médias amostrais é igual à média populacional. X σ = µ ( ) σ ( X ) X = n Para calcularmos o Erro Padrão da Média (que, na verdade é o desvio padrão da distribuição de médias amostrais), podemos usar duas fórmulas: σ ( ) ( X ) ( ) S( X ) X = σ e S X = n Quando a variância populacional é conhecida Erro Padrão da Média n S(x)- Desvio padrão da amostra Quando a variância populacional é desconhecida e n 30. 13
X ~ N ( µ, σ 2 / n) X σ / µ n ~ N (0,1) Se x 1, x 2,, x n constituem uma amostra aleatória de uma população com média µ e variância σ 2 finita, a distribuição limite de X µ Z = σ/ n à medida que n é a distribuição normal padrão. 14
Testes de Hipóteses Muitas situações práticas requerem que em função dos valores observados se tomem decisões acerca dos parâmetros (ou de outros aspectos) da população. Exemplo: Máquina de encher pacotes de açúcar. O peso de cada pacote deve ser 8g (isto é, µ = 8). Será que a máquina está a funcionar correctamente? 15
Uma hipótese estatística é qualquer conjectura sobre aspectos desconhecidos da população (que podem ser parâmetros ou mesmo a forma da distribuição). Um teste de hipóteses é um procedimento que conduz a uma decisão acerca das hipóteses (com base numa amostra). 16
Testes Paramétricos A distribuição da população tem de ser conhecida à priori; Especificam condições sobre os parâmetros da população; Testam-se parâmetros em número finito; Os dados são medidos, normalmente em escala de intervalos; Trabalham directamente com observações recolhidas; São mais potentes desde que sejam satisfeitas as suposições. 17
Testes Não Paramétricos O conhecimento da distribuição da população não é necessário; Especificam condições, mas em menor número que os testes paramétricos; Os dados podem ser medidos em escalas ordinais e em certos casos em escalas nominais; Trabalham com a ordem das observações; Quando se tem amostras de pequenas dimensões e não se conhece exactamente a forma da distribuição da população só se podem utilizar estes testes. 18
Testes de Hipóteses Paramétricos São testes em que as hipóteses envolvidas são paramétricas (dizem respeito ao(s) parâmetros(s), supondo conhecida, pelo menos aprox., a forma da distribuição.) 19
Definição das Hipóteses Hipótese Nula ou H 0 Hipótese que é considerada verdadeira até prova em contrário (caso em que é rejeitada e se aceita como válida H 1 ). Contém sempre uma igualdade (=,, ), apenas se testando a situação de = por ser a que mais se aproxima de H 1. 20
Definição das Hipóteses (Cont) Hipótese Alternativa ou H 1 Hipótese que traduz uma conjectura que se pretende verificar. Contém sempre uma desigualdade (> ou <) ou uma nãoigualdade ( ) e nunca uma Igualdade (=). 21
Exemplo (cont.): temos duas hipóteses: a máquina funciona correctamente (µ= 8) ou a máquina não funciona correctamente (µ 8): H 0 : µ = 8 versus H 1 : µ 8 (hipótese nula) (hipótese alternativa) Hipótese simples: é especificado apenas um valor para o parâmetro. Hipótese composta: é especificado mais de um valor para o parâmetro. 22
Vamos considerar sempre H 0 como hipótese simples. A hipótese alternativa (H 1 ) é, em geral, uma das três seguintes: H 1 :µ 8 Teste bilateral H 1 : µ > 8 Teste unilateral à direita H 1 : µ < 8 Teste unilateral à esquerda Nota: os valores especificados nas hipóteses não devem ter nada a ver com valores observados na amostra. 23
A resposta num teste de hipóteses é dada na forma Rejeitar H 0 - significa que os dados observados testemunham fortemente contra H 0 - neste caso será adoptada a hipótese H 1 ou Não rejeitar H 0 - significa que não há evidência estatística suficiente para rejeitar H 0. 24
P(erro de 1ª espécie)=p(rejeitar H 0 H 0 verdadeira)= α α- nível de significância P(erro erro de 2ª espécie)=p(não rejeitar H 0 H 0 falsa ) =β 25
Chama-se potência do teste à probabilidade de rejeitar a hipótese nula quando a hipótese alternativa é verdadeira ( = 1-β ). 1- β= P(rejeitar H 0 H 0 falsa ) =P(rejeitar H 0 H 1 verdadeira) 26
Fases da construção de um teste de Hipóteses Paramétrico 1. Formulação das hipóteses; 2. Fixação do nível de significância α; 3. Escolher uma variável aleatória, estatística do teste, com distribuição conhecida; 4. Definir a região de rejeição ou região crítica RC (conjunto de valores da estatística que nos levam a rejeitar H 0 ). 27
Fases da construção de um teste de Hipóteses Paramétrico (Cont) 5. Calcular o valor da estatística do teste, para a amostra observada.: 6. Regra de Decisão: Se o valor calculado RC rejeita-se H 0 Se o valor calculado RC não se rejeita H 0 28
Rejeitar H 0 significa que os dados testemunham fortemente contra H 0. Costuma atribuir-se um valor muito baixo à probabilidade do erro de 1ª espécie, por exemplo: α = 0.05 ou 0.01 ou 0.1. 29
Teste de hipóteses para a média populacional. Teste de hipóteses para a proporção populacional. Testes de hipóteses para a diferença entre duas médias populacionais. Teste de hipóteses para a diferença entre duas proporções populacionais. Testes de homogeneidade de variâncias e de normalidade. Testes de ajustamento. Teste do Qui-quadrado de homogeneidade e independência. Teste U de Mann-Whitney. Testes de sinais e de Wilcoxon. Medidas de associação não paramétrica e seus testes de significância: Coeficiente de correlação ordinal de Spearman, coeficiente de correlação V de Cramer e coeficiente fi. 30
Verificação do Ajustamento à Normal Teste de Aderência de Kolmogorov-Smirnov à Normalidade: teste mais potente e muito mais usado do que o teste de ajustamento do Qui-quadrado de Pearson; H 0 : A amostra provém de uma população Normal H 1 : A amostra não provém de uma população Normal Pretende-se observar o grau de concordância entre a função de distribuição teórica (F0(.)), especificada na hipótese nula, e a distribuição de frequências relativas acumuladas observada de valores amostrais (Função de distribuição empírica, (Sn(.)). Considera-se o ponto em que as duas distribuições acusam maior divergência, sendo então a estatística do teste: 31
Interpretação do Output do SPSS Most Extreme Diferences: (Cálculo das diferenças extremas entre as funções de distribuição empírica e teórica). Absolute (seria o valor do teste calculado manualmente). Kolmogorov-Smirnov Z (valor da estatística de teste em termos de Z (e não de D) fazendo aproximação à Normal. Asymp. Sig. (2-tailed) (Probabilidade associada ao valor do teste (p-value)). Tomada de decisão: Com um α pré-fixado, tem-se: Se p-value > α - não se rejeita H0. Se p-value α - rejeita-se H0. 32
Exemplo O quadro pode ser interpretado do seguinte modo: O valor do teste é de 1.201, tendo associada uma probabilidade, se H 0 for verdadeira, de 0.112. Trata-se de uma probabilidade superior a 0.05, o que conduz a que não se rejeite a hipótese nula. Portanto não há evidência estatística para rejeitar a hipótese da amostra provir de uma população Normal. 33
Verificação do Ajustamento à Normal Teste não paramétrico de Shapiro-Wilk: apenas pode ser utilizado para averiguar se um dado conjunto de observações se pode considerar proveniente de uma população com distribuição normal é um teste não paramétrico de normalidade. Este teste tem-se revelado ser um dos mais potentes. Se X é a característica em estudo: / H 0 : X tem distribuição normal H 1 : X não tem distribuição normal a estatística do teste é: W ( ) n a x = n i= 1 i= 1 ( x x) Valores pequenos de W indicam fraco ajustamento à normal. Este teste é mais potente do que o teste de Kolmogorov-Smirnov para amostras de dimensão inferior a 30. i i i 2 2 constantes conhecidas e calculadas segundo a distribuição o SPSS produz resultados para este teste se n<51 34
Média de uma População Normal Seja X 1,...,X n uma amostra aleatória de uma população com distribuição N(µ,σ 2 ), com σ 2 conhecido: para o teste: H 0 : µ = c (ou ou ) H 1 :µ c (ou < ou >) a estatística do teste é: Z H X µ X c 0 = ~ N(0,1) Z0 = ~ N(0,1) σ / n σ / n mas, normalmente a variância da população não é conhecida, pelo que a estatística do teste passa a ser T comparação de uma amostra com uma constante distribuição t-student X = n 1 S / c n H 0 ~ t 35
Teste para uma Proporção populacional H 0 : π (ou )p ou π = p 0 0 H 1 : π < (ou >) p ou π p 0 0 A estatística do teste é a diferença entre a proporção observada e a esperada: p p 0 ~ Bin (n, π) No caso de n > 20 e np > 7 pode-se aplicar (assimptoticamente) o Teorema do Limite Central usando-se agora a estatística: p p a 0 ~ N(0,1) p(1 p) / n a hipótese nula deve conter a igualdade valor a testar estatística com distribuição conhecida que permite avaliar o teste nas condições da hipótese nula π = p 0 O SPSS faz estes cálculos pelas duas estatísticas e calcula a probabilidade de significância do teste com ou sem correcção de continuidade 36
Teste de Homogeneidade de Variâncias Teste de Levene é um dos mais potentes e dos mais utilizados. pode ser usado para duas ou mais amostras, pelo que as hipóteses a testar são: H 0 : σ 12 = σ 22 =...= σ k 2 H 1 : i,j σ i2 σ j 2 assim, a estatística do teste é: W existem versões para variáveis com distribuição aproximadamente normal (nesse caso Z é o módulo da variável original menos a média) e para não normais (usa-se a mediana) ou para a existência de observações atípicas (usa-se a média aparada). ( N k) = ( k 1) k i= 1 k n i= 1 i= 1 ( Z soma das dimensões das amostras para as várias variáveis i ( Z Z ) ij 2 Z i ) 2 a ~ F( k 1, N o SPSS produz resultados para a média, mediana e média aparada 37 - k)