Estimação parâmetros e teste de hipóteses. Prof. Dr. Alberto Franke (48)

Estimação parâmetros e teste de hipóteses Prof. Dr. Alberto Franke (48) 91471041

Intervalo de confiança para média É um intervalo em que haja probabilidade do verdadeiro valor desconhecido do parâmetro estar contido. Limites do intervalo de confiança = (estimativa ± erro) Onde: = erro t = valor tabelado (distribuição de Student) em função dos graus de liberdade (gl) e nível de significância (α) pré-estabelecido = média da amostra (estimativa) S = desvio padrão n = tamanho da amostra O que é Graus de liberdade e nível de significância?

O que é Graus de liberdade e nível de significância? Graus de Liberdade (gl) É o número de determinações independentes (tamanho da amostra) menos o número de parâmetros estatísticos a serem avaliados na população. Ex.: Variância (n-1): quando estamos avaliando elementos da amostra Nível de significância (α) É o limite que se toma como base para afirmar que um certo desvio (erro) é decorrente ao acaso ou não. Deve ser estabelecido antes do experimento ser realizado e corresponde ao risco que se corre de rejeitar uma hipótese verdadeira ou aceitar uma hipótese falsa A significância de um resultado também é denominado de valor-p (p-value) Exemplo: Determine o diâmetro médio e o intervalo de confiança para o nível de significância de (α = 5%) das árvores de uma floresta em que se coletou a amostra de cinco árvores. A={247, 206, 229, 230, 235 mm}

Exemplos de intervalo de confiança para média Exemplo 1: Determine o diâmetro médio e o intervalo de confiança para o nível de significância de (α = 5%) das árvores de uma floresta em que se coletou a amostra de cinco árvores. A = {247, 206, 229, 230, 235 mm} x = 229,4 mm S = 14,91 mm t tab = 2,78 [x t S ]... [229,4 (2,78x14,91)]... 229,4 18,54 [201,86 ; 247,94] n 5 Exemplo 2: Determine o intervalo de confiança da altura média, para o nível de significância de (α = 5%), dos alunos do sexo masculino do CFH da UFSC. Uma amostragem conduzida com 61 indivíduos obteve-se altura Média = 176,5 cm e desvio padrão = 7,3 cm x = 176,5 cm S = 7,3 cm t tab = 2,0 [x t S 7,3 ]... [176,5 (2,0x )]... 176,5 1,869 [174,63 ; 178,37] n 61

Exemplos de intervalo de confiança para média Exemplo 3: Determine o intervalo de confiança da altura média, para o nível de significância de (α = 5%), dos alunos do sexo feminino do CFH da UFSC. Uma amostragem conduzida com 31 indivíduos obteve-se altura Média = 164,2 cm e desvio padrão = 6,2 cm x = 164,2 cm S = 6,2 cm t tab = 2,04 [x t S 6,2 ]... [164,2 (2,04x )]... 164,2 2,27 [161,93 ; 166,47] n 31 Intervalo de confiança para média: [161,93 ; 166,47]

Tabela da distribuição t (Student)

Estimação e teste de hipóteses 1. Teste de hipóteses Tem início com base em alguma teoria, declaração ou afirmativa, em relação a determinado parâmetro da população. Tais hipóteses, após formuladas, devem ser testadas para serem aceitas ou rejeitadas. 1.1 Hipótese nula Uma hipótese nula é sempre aquela que diz respeito ao status quo, ou que corresponde a nenhuma diferença. É identificada pelo símbolo (H o ). 1.2 Hipótese alternativa Representa o oposto da hipótese nula, (H 1 ). Exemplo: seja uma variável X N(,) com desconhecido H o : = 8 H 1 : 8

Estimação e teste de hipóteses 1.3 Metodologia do teste de hipóteses É projetada de forma que: A rejeição da hipótese nula seja baseada em evidências a partir da amostra. A hipótese alternativa tenha probabilidade bem mais alta de ser verdadeira. Obs.: Não rejeitar a hipótese nula não significa que ela seja verdadeira; visto que é baseada na amostra e não na população. Ao deixarmos de rejeitar a hipótese nula podemos apenas concluir que não existem evidências suficientes para garantir sua rejeição.

Estimação e teste de hipóteses 1.4 - Regiões de rejeição e não rejeição A distribuição da estatística do teste de hipóteses é dividida em duas regiões. A região de rejeição consiste em valores que são improváveis de ocorre, caso a hipótese nula seja verdadeira. No entanto, estes valores são mais prováveis de ocorrer, caso a hipótese nula seja falsa. Se um valor se posicionar dentro da área de rejeição, a hipótese nula é rejeitada, uma vez que este valor é improvável, caso a hipótese nula seja verdadeira.

Estimação e teste de hipóteses 1.5 - Valor crítico da estatística do teste de hipóteses Faz a divisão entre a região de não rejeição e região de rejeição. Este valor depende do tamanho da região de rejeição. O tamanho da região de rejeição está diretamente relacionada aos riscos envolvidos ao serem utilizadas somente evidências da amostra para tomar decisões em relação à população. Ou seja, depende do nível de significância, α. 1.6 Nível de significância () É a probabilidade da hipótese nula, (H o ), ser rejeitada quando, de fato, ela é verdadeira e não deveria ser rejeitada. Ou seja, o risco de tomar uma conclusão incorreta. Tradicionalmente, usam-se níveis de 0,01; 0,05; 0,10

Estimação e teste de hipóteses 1.6 Aplicação de testes estatísticos Formulada uma pergunta ou hipótese, o pesquisador precisa planejar a coleta de dados e aplicar um teste estatístico adequado à situação. Na aplicação de um teste estatístico, devemos saber: Formular H o e H 1 em termos de parâmetros populacionais? o Como obter a estatística do teste? o Qual a distribuição de referência adequada para calcular o valor-p? ou o Qual o valor crítico tabelado, em função do nível de significância adotado a priori? o Quais as suposições básicas para uso do teste escolhido? A decisão do teste estatístico é feita pela comparação do valor p com o nível de significância preestabelecido Na abordagem clássica, a decisão é tomada comparando o valor da estatística do teste, calculado com base na amostra observada, com o valor crítico tabelado.

Estimação e teste de hipóteses 2. Teste Z de hipóteses para média Caso o desvio-padrão (), seja conhecido, a distribuição de amostragem da média aritmética segue a distribuição normal, resultando na estatística Z. Onde: Z = valor do teste = média aritmética da amostra = média esperada = desvio-padrão n = tamanho da amostra Exemplo: Queremos saber se o número médio de idas às compras semanais feitas pelas famílias do bairro específico é diferente de 3,1, que é a média correspondente de toda área urbana. Numa amostragem de 100 famílias encontramos média amostral 4,2 idas às compras por semana com desvio padrão igual 5,0. Utilize nível de significância 5%. As hipóteses podem ser formuladas: H o = = 3,1 H 1 = 3,1

Estimação e teste de hipóteses Pela abordagem clássica: O processo segue o esquema abaixo Nível de significância Obtenção do valor crítico Z crit pela tabela normal padrão Cálculo do valor Z com base na amostra Após a formulação das hipóteses e fixado o nível de significância, podemos construir a regra de decisão Fonte: Barbetta et al., 2010

Estimação e teste de hipóteses Pela abordagem clássica: 1 passo: determinar o valor crítico para o teste. Tamanho da região de rejeição é 0,05 (0,025 para cauda superior e inferior) e a não rejeição é de 0,95 (0,475 para cada lado da média) Com este valor procuro no miolo da tabela de distribuição normal padronizada os valores críticos que dividem a região de rejeição e não rejeição 2 passo: calcular o valor da estatística Z 3 passo: concluir em relação às hipóteses Rejeitar hipótese nula? Por quê? Há evidências de que o número médio semanal de idas às compras seja estatisticamente diferente de 3,1 vezes.

Estimação e teste de hipóteses Pela abordagem do p-valor: O p-valor é conhecido como nível observado de significância, que representa o menor nível a partir do qual H o pode ser rejeitada para um determinado conjunto de dados. O processo pode ser mostrado abaixo Amostra Cálculo do Z Com a tabela normal padrão, obtemos a área acima de Z Obtenção de p pela tabela normal padrão Fonte: Barbetta et al., 2010 A regra de decisão para rejeitar H o é:

Estimação e teste de hipóteses Pela abordagem do valor-p: 1 passo: cálculo da estatística do teste. 2 passo: usando a tabela normal padrão, com z = +2,2 encontramos a área da cauda superior igual a (0,5-0,4861) =0,0139 Como o teste é bilateral, a probabilidade de significância é o dobro deste valor [p = 2 x 0,0139 = 0,0278] 3 passo: concluir em relação às hipóteses Como o valor-p é menor que nível de significância ( = 0,05) se rejeita H o Portanto... Há evidências de que o número médio semanal de idas às compras seja estatisticamente diferente de 3,1 vezes.

Estimação e teste de hipóteses Exemplo: Uma indústria produz cerâmicas com peso médio de 368 g. Para avaliar o processo produtivo foram coletadas 25 amostras aleatórias que tiveram peso médio de 372,5 g, e o desvio-padrão da população, =15 g. Utilize = 0,05. O processo produtivo está bom? As hipóteses podem ser formuladas: H o = = 368 H 1 = 368 Conclusão: Como a estatística Z = 1,5 é menor que o valor crítico do teste, ao nível de 5% de significância, não se rejeita a hipóteses nula, ou seja, o processo produtivo está bom estatisticamente.

4. Teste t da média Estimação e teste de hipóteses Quando a variância da população é desconhecida e o tamanho da amostra é pequeno, a distribuição não é mais a normal. Então, usa-se a distribuição t (Student), com n-1 graus de liberdade (gl). Os (gl) podem ser visto como o número de observações menos o numero de quantidades estimadas. O verdadeiro desvio-padrão da população é estimado através do calculo do S (desvio-padrão da amostra). Onde: t = estatística do teste, com n-1 graus de liberdade. = média aritmética da amostra = média esperada S = desvio-padrão n = tamanho da amostra

Estimação e teste de hipóteses Exemplo: Se no exemplo do nº compras semanais tivéssemos entrevistado apenas n=20 pessoas em vez de 100 e encontrássemos = 4,5 e S = 5,5 e o nível de significância adotado foi 0,05. =3,1. Hipóteses: Ho: = 3,1 H1: 3,1 A estatística t é: Conclusão: como a estatística do teste t cai na região de aceitação, não se deve rejeitar Ho, ou seja, a amostra provém do mesma população. Graus de liberdade (n-1): 20 1 = 19 = 0,05 (5%) t crit (0,05;19) = 2,09

Estimação e teste de hipóteses Exemplo 21: Mediu-se o eixo maior de 9 grãos de quartzo, em uma lâmina de arenito. Deseja-se testar a hipótese nula de que essa amostra provém de um mesmo corpo arenoso (população cuja média () = 0,5mm. Sabe-se que a = 1,5 mm e S = 0,3 e o nível de significância adotado foi 0,05. Graus de liberdade (n-1): 9 1 = 8 = 0,05 (5%) t crit (0,05;8) = 2,31 Conclusão: como a estatística do teste t cai na região de rejeição, deve-se rejeitar Ho, ou seja, a amostra não provém do mesmo corpo arenoso.

Estimação e teste de hipóteses 5. Comparação entre duas médias O teste t também é apropriado para testar a hipóteses de que duas amostras casuais provêm de uma mesma população. Condições: As duas amostras, com tamanho n 1 e n 2 foram sorteadas independentemente. Provêm de uma população normal com média e variância ² Onde: = média aritmética da amostra extraída da população 1; = média aritmética da amostra extraída da população 2; = variância da amostra extraída da população 1; = variância da amostra extraída da população 2; n = tamanho da amostra

Estimação e teste de hipóteses 5. Comparação entre duas médias Exemplo 24: presença de estratificação na granulometria de arenitos. Estratos Base (b) Topo (t) 1 2,81 3,13 2 3,95 4,13 3 3,75 3,88 4 2,68 2,91 5 3,25 3,65 6 3,90 4,20 7 3,30 3,12 soma 23,64 25,02 Média variância Use sua calculadora e calcule as estatísticas média e variância

Estimação e teste de hipóteses 5. Comparação entre duas médias Exemplo 24: presença de estratificação na granulometria de arenitos. Estratos Base (b) Topo (t) 1 2,81 3,13 2 3,95 4,13 t calc = 2 3,37 3,57 0,2617 + 0,2741 7 1 = 0, 669 3 3,75 3,88 4 2,68 2,91 t crit = 2,45 5 3,25 3,65 6 3,90 4,20 7 3,30 3,12 soma 23,64 25,02 Média 3,37 3,57 variância 0,2617 0,2741 Conclusão: Como o tcal < tcrit, conclui-se pela não rejeição de Ho, ao nível de 5% de significância, ou seja, as duas amostras (topo e base) podem ser consideradas provenientes de uma mesma população