Determinação do tamanho amostral: uma abordagem genuinamente Bayesiana

Documentos relacionados
Universidade Federal de Pernambuco Departamento de Estatística Inferência Estatística 2 (ET593) Fases de uma Análise Estatística

Testes de Hipóteses. Ricardo Ehlers Departamento de Matemática Aplicada e Estatística Universidade de São Paulo

1 Teoria da Decisão Estatística

Estatística e Modelos Probabilísticos - COE241

Testes de Hipóteses. Ricardo Ehlers Departamento de Matemática Aplicada e Estatística Universidade de São Paulo

Monotonicidade em testes de hipóteses. Gustavo Miranda da Silva

Princípios de Bioestatística Teste de Hipóteses

DE ESPECIALIZAÇÃO EM ESTATÍSTICA APLICADA)

Conceitos e aplicações de Estatística em pesquisa cientíca utilizando o R

Estimação parâmetros e teste de hipóteses. Prof. Dr. Alberto Franke (48)

TESTES DE HIPÓTESES. Conceitos, Testes de 1 proporção, Testes de 1 média

CONHECIMENTOS ESPECÍFICOS

Análise Bayesiana de Dados - Aula 1 -

Introdução a Inferência Bayesiana

AULA 05 Teste de Hipótese

Márcio Augusto da Cruz Almeida. Uso do FBST no Teste de Homogeneidade em. Misturas Finitas: Caso Normal e Poisson

Teste de Hipóteses. Enrico A. Colosimo/UFMG enricoc/ Depto. Estatística - ICEx - UFMG 1/24

Testes de Hipóteses Paramétricos

Testes de Hipóteses Paramétricos

Prof. Lorí Viali, Dr.

Inferência Bayesiana - Aula 3 -

Escola Superior de Agricultura "Luiz de Queiroz", Departamento de Ciências Exatas. Modelo Normal. Cristian Villegas

Uma medida de evidência alternativa para testar hipóteses gerais

1 Probabilidade - Modelos Probabilísticos

Escola Superior de Agricultura "Luiz de Queiroz", Departamento de Ciências Exatas. Modelo Normal. Cristian Villegas

TESTES DE HIPÓTESES. Lucas Santana da Cunha Universidade Estadual de Londrina

Análise de Dados e Simulação

Distribuição Normal. Prof. Eduardo Bezerra. (CEFET/RJ) - BCC - Inferência Estatística. 25 de agosto de 2017

Tiago Viana Flor de Santana

Testes de Hipóteses I

AULA 04 Teste de hipótese

Tratamento de dados em Física

Uma medida de evidência alternativa para testar hipóteses gerais

Capítulo 2. Variáveis Aleatórias e Distribuições

ESTATÍSTICA COMPUTACIONAL

Testes de Hipótese para uma única Amostra - parte I

Objetivos. Testes não-paramétricos

Inferência Bayesiana - Aula 1 -

Uma Introdução à Lógica da Modelagem Estatística

CC-226 Aula 07 - Estimação de Parâmetros

Probabilidades e Estatística MEEC, LEIC-A, LEGM

Técnicas computacionais em probabilidade e estatística II

(Hipótese alternativa unilateral)

Estimação e Testes de Hipóteses

Inferência Bayesiana na distribuição Normal

Tiago Viana Flor de Santana

TESTES DE HIPÓTESES Notas de aula. Prof.: Idemauro Antonio Rodrigues de Lara

c.c. É a função que associa a cada x X(S) um número f(x) que deve satisfazer as seguintes propriedades:

3. Estimação pontual USP-ICMC-SME. USP-ICMC-SME () 3. Estimação pontual / 25

TESTE DE HIPÓTESE. Introdução

Lucas Santana da Cunha 12 de julho de 2017

rio de Guerra Eletrônica EENEM 2008 Estatística stica e Probabilidade Aleatórias nuas

6. NOÇÕES DE INFERÊNCIA ESTATÍSTICA

Estatística Não Paramétrica. Como construir testes de aderência

Lucas Santana da Cunha de junho de 2018 Londrina

Teste de Hipótese e Intervalo de Confiança

Aula 7. Testes de Hipóteses Paramétricos (II)

Aula 5. Teste de Hipóteses II. Capítulo 12, Bussab&Morettin Estatística Básica 7ª Edição

PODER DO TESTE. Poder do Teste e Tamanho de Amostra para Testes de Hipóteses

Fundamentos da Teoria da Probabilidade

UM ESTUDO DO ERRO TIPO II EM UM TESTE DE HIPÓTESES PARA A MÉDIA

Universidade Federal de Viçosa Departamento de Estatística

Aula 7. Testes de Hipóteses Paramétricos (II)

Enrico A. Colosimo Depto. Estatística UFMG

Testes de hipóteses. Wagner H. Bonat Fernando P. Mayer Elias T. Krainski

Funções Geradoras de Variáveis Aleatórias. Simulação Discreta de Sistemas - Prof. Paulo Freitas - UFSC/CTC/INE

Automatização da criação de regiões de credibilidade HPD e do Teste de Significância Genuinamente Bayesiano FBST

Simulação com Modelos Teóricos de Probabilidade

Princípios de Modelagem Matemática Aula 10

ESTATÍSTICA COMPUTACIONAL

José Aparecido da Silva Gama¹. ¹Professor do Instituto Federal de Educação, Ciência e Tecnologia de Alagoas.

PHD 5742 Estatística Aplicada ao Gerenciamento dos Recursos Hídricos. 6 a aula Testes de Hipóteses

Solução: A distribuição normal. Representação gráfica. Cálculo de probabilidades. A normal padrão. σ Será uma N(0; 1).

Inferência via abordagens computacionalmente intensivas. Walmes Zeviani

MIEEC Probabilidades e Estatística 1 a Chamada 10/01/2008. Parte Prática

7 Teste de Hipóteses

Teste de Hipóteses Paramétricos

Distribuições Contínuas de Probabilidade

Testes de Hipóteses: Média e proporção

1. (a) Lembre-se que a média de uma variável aleatória discreta é uma média ponderada de seus valores, com as probabilidades sendo os pesos.

AULA 11 Teste de Hipótese

Lucas Santana da Cunha de junho de 2018 Londrina

Testes t para comparação de médias de dois grupos independentes

MOQ-13 PROBABILIDADE E ESTATÍSTICA. Professor: Rodrigo A. Scarpel

UFPE - Universidade Federal de Pernambuco Curso: Economia Disciplina: Estatística Econômica Professor: Waldemar Araújo de S. Cruz Oliveira Júnior

Ricardo Ehlers Departamento de Matemática Aplicada e Estatística Universidade de São Paulo

TESTE DE KOLMOGOROV-SMIRNOV. Professor Ewaldo Santana Universidade Estadual do Maranhão - UEMA

Final exam June 25, 2007 Statistics II

p(x) Note que 1/p(x), que não depende de θ, funciona como uma constante normalizadora

PE-MEEC 1S 09/ Capítulo 7 - Estimação por intervalos. 7.2 Intervalos de. confiança para. média de uma. normal 7.

Estatística Bayesiana EST047

PROJETO E ANÁLISES DE EXPERIMENTOS (PAE) INTRODUÇÃO AOS MÉTODOS ESTATÍSTICOS EM ENGENHARIA

Teste de hipóteses para proporção populacional p

Estatística (MAD231) Turma: IGA. Período: 2018/2

Modelagem e Análise de Sistemas - COS767

Variáveis Aleatórias Discretas 1/1

Transcrição:

Determinação do tamanho amostral: uma abordagem genuinamente Bayesiana Edney Luís Oliveira Fernandes, Maria Regina Madruga Tavares, Programa de Pós-Graduação em Matemática e Estatística, ICEN, UFPA, 66610-190, Belém, PA E-mail: edneyluis@yahoo..br, madruga@ufpa.br. 1 Introdução A determinação do tamanho amostral (n) é um dos problemas mais simples e mais estudado em Teste de Hipóteses, sendo largamente estudado nas abordagens Clássica e Bayesiana. Na abordagem Bayesiana, alguns autores [Weiss (1997), De Santis (2004), Adcock (1997) e Joseph e Bélisle (1997)] avaliam a determinação do tamanho amostral sob vários aspectos. Por exemplo, Weiss (1997) baseia-se na função poder bayesiana que é obtida utilizando o logaritmo do Fator de Bayes, Adcock (1997) baseiase nos Intervalos de Credibilidade Posterior, De Santis (2004) baseia-se no Fator de Bayes para determinar o tamanho amostral e Joseph e Bélisle (1997) utilizam os métodos de Adcock (1997) para determinar o tamanho amostral nos casos envolvendo a distribuição Normal variância conhecida e variância desconhecida. O objetivo deste trabalho é determinar o tamanho amostral usando a medida de evidência Bayesiana proposta Pereira e Stern (1999) que considera, em favor da hipótese nula precisa (hipótese dimensão estritamente menor que a dimensão do espaço paramétrico), todos os pontos do espaço paramétrico (Θ) cujos valores da densidade posterior são, no máximo, tão grandes quanto seu supremo no subconjunto que define a hipótese nula. O critério de determinação do valor de n segue a proposta de De Santis (2004), através da sugestão de Royall (1997, 2000), de considerar o procedimento de teste em duas fases: Fase pré-experimental e Fase pós-experimental. Na fase pré-experimental obtém-se n, o menor valor de n, tal que a probabilidade de obter uma evidência decisiva e correta em favor da hipótese verdadeira seja suficientemente grande, e na fase pósexperimental coleta-se a amostra de tamanho n e, base na evidência obtida, toma-se a decisão de rejeitar ou aceitar a hipótese nula. 2 Teste de Hipóteses Bayesiano O problema estatístico de Teste de Hipóteses, no contexto Bayesiano, acerca do valor de um parâmetro desconhecido, θ Θ, consiste em decidir sobre a rejeição ou não de uma hipótese base na informação trazida pela amostra. Sejam H 0 : θ Θ 0 e H 1 : θ Θ 1 as hipóteses a serem testadas Θ 0 Θ 1 = Θ, Θ 0 Θ 1 =, Θ 0 e Θ 1 onde H 0 é denominada Hipótese nula e H 1 é denominada Hipótese alternativa. O pesquisador necessita, ao final de um Teste de Hipóteses, obter uma medida de evidência em favor de H 0. Na abordagem Clássica é muito usada uma medida de evidência conhecida o p-value (cujo cálculo baseia-se na distribuição amostral da estatística do teste). Na abordagem Bayesiana, as medidas de evidência usuais para teste de hipóteses são o Fator de Bayes e a Probabilidade Posterior de H 0. No caso em que Θ 0 = θ 0 } diz-se que H 0 é simples. Caso contrário, diz-se que H 0 é posta. O mesmo vale para a hipótese alternativa H 1. 3 Medida de Evidência Bayesiana Berger e Selke (1987) e Berger e Delampady (1987) apresentam e discutem os conflitos entre o p-value e as medidas Bayesianas usuais, aler-

tando para o fato de que em algumas situações o p-value pode não ser uma boa medida de evidência para uma hipótese estatística precisa. Devido a esses conflitos, Pereira e Stern (1999) criaram uma medida de evidência Bayesiana em favor de uma hipótese precisa definida a seguir: Definição 1 Considere um modelo estatístico paramétrico, i.e., uma quíntupla (X, A, F, Θ, π), onde X é um espaço amostral, A é uma sigma-álgebra conveniente de subconjuntos de X, F é uma classe de distribuições de probabilidade em A indexadas no espaço paramétrico Θ e π é uma densidade a priori em (uma sigma-álgebra de) Θ. Suponha que um subconjunto Θ 0 de Θ tendo medida de Lebesgue nula ( respeito a Θ) é de interesse. Seja π(θ x) uma densidade posterior de θ, dada a observação amostral x, e T (x) = θ Θ : π(θ x) > sup Θ0 π(θ x)}. A medida de evidência de Pereira-Stern é definida o EV (Θ 0 ; x) = 1 P [θ T (x) x] e um teste (ou procedimento) de Pereira- Stern é aceitar Θ 0 sempre que EV (Θ 0, x) é grande. A medida de evidência Bayesiana de Pereira- Stern considera todos os pontos que são menos prováveis do que algum ponto em Θ 0. Um valor grande da evidência significa que o subconjunto Θ 0 cai em uma região do espaço paramétrico de alta densidade posterior, tanto os dados favorecem a hipótese nula. Por outro lado, um valor pequeno da evidência levaria à rejeição da hipótese nula. Uma vantagem desta medida é que ela contorna a dificuldade de tratar uma hipótese precisa, pois não há necessidade de introduzir uma probabilidade a priori o no teste Bayesiano padrão (Jeffreys (1961)). Pereira e Stern (1999) defendem que o uso da EV (Θ 0, x) para avaliar a evidência trazida pelos dados para Θ 0 é um procedimento Bayesiano, uma vez que apenas a densidade posterior está envolvida. Baseando-se nas idéias de De Santis (2004), pode-se estabelecer uma escala de evidência em termos da EV (Θ 0 ; x). Portanto, se EV (Θ 0 ; x) < ω 1, rejeita-se H 0 (evidência decisiva) se ω 1 EV (Θ 0 ; x) ω 0, não decisão (evidência fraca) se EV (Θ 0 ; x) > ω 0, aceita-se H 0 (evidência decisiva) ω i [0; 1] e i = 0; 1. 3.1 Implementação da EV (Θ 0 ; x) Para determinar esta medida é necessário duas etapas descritas a seguir: 1 a Etapa - Etapa de Otimização: Consiste em maximizar a densidade posterior π(θ x) sob H 0, em outras palavras, consiste em obter o valor θ que maximiza a densidade posterior, π(θ x) = sup θ Θ 0 π(θ x). 2 a Etapa - Etapa de Integração: Consiste em integrar a densidade posterior π(θ x) sob o conjunto T c (x), I = π(θ x)dθ. T c (x) Com T c (x) = θ Θ : π(θ x) π(θ x)}. 4 Determinação do tamanho amostral O interesse é controlar a probabilidade dos seguintes eventos: Evidência Enganosa: ocorre quando a medida de evidência Bayesiana de Pereira- Stern está em favor da hipótese incorreta. Evidência Fraca: ocorre quando a medida de evidência Bayesiana de Pereira -Stern não favorece nenhuma das hipóteses. Evidência Decisiva e Correta: ocorre quando a medida de evidência Bayesiana de Pereira-Stern está em favor da hipótese correta. Sejam os subconjuntos do espaço amostral, R 0 (ω 0, n) e R 1 (ω 1, n), onde R 0 (ω 0, n) = x : EV (Θ 0 ; x) > ω 0 }

é o subconjunto dos pontos do espaço amostral que produz uma evidência Bayesiana em favor da hipótese H 0 e R 1 (ω 1, n) = x : EV (Θ 0 ; x) < ω 1 } é o subconjunto dos pontos do espaço amostral que produz uma evidência Bayesiana em favor da hipótese H 1. Com isso, quando H i (i = 0; 1) é verdadeira, define-se a probabilidade do experimento produzir uma Evidência Decisiva e Correta dada i (ω i, n) = p(x H i )dx. R i (ω i,n) Onde p(x H i ) é a distribuição de probabilidade marginal dos dados amostrais sob H i, p(x H i ) = L(x θ)π i (θ)dθ Θ i onde L(x θ) e π i (θ) representam, respectivamente, a Função de Verossimilhança e a Distribuição a priori sob a hipótese H i. Pode-se também definir a probabilidade de obter uma Evidência Decisiva e Correta dada (ω 0, ω 1, n) = Π 0 0 (ω 0, n)+π 1 1 (ω 1, n). A intenção é determinar o menor tamanho amostral tal que (ω 0, ω 1, n) seja suficientemente grande. Portanto, De Santis (2004) sugere o seguinte procedimento dado em duas fases: 1 a Fase - Fase pré-experimental: Escolhidos ζ [0; 1] e ω i [0; 1], determinar n tal que n = minn N : (ω 0, ω 1, n) ζ}. 2 a Fase - Fase pós-experimental: Coletar a amostra de tamanho n e realizar o Teste de Hipóteses as seguintes regras de decisão: se EV (Θ 0 ; x) < ω 1, rejeita-se H 0 se ω 1 EV (Θ 0 ; x) ω 0, não decisão se EV (Θ 0 ; x) > ω 0, aceita-se H 0. 5 Resultados 5.1 Teste da média da distribuição Normal Seja x = (x 1,..., x n ) uma amostra aleatória de tamanho n da variável aleatória X tendo distribuição Normal média θ desconhecida e variância σ 2 conhecida, X N(θ; σ 2 ), o interesse é testar H 0 : θ = θ 0 contra H 1 : θ θ 0. Neste caso, e Θ 0 = θ Θ : θ = θ 0 } Θ = θ Θ : θ R}. A função de verosssimilhança de x é dada ( ) 1 n L(x θ) = σ exp 1 } 2π 2σ 2 [δ 1 + δ 2 ] (1) δ 1 = (n 1)S 2, δ 2 = n(θ x) 2, σ > 0, S 2 = (1/(n 1)) n i=1 (x i x) 2 representando a variância amostral e x = (1/n) n i=1 x i representando a média amostral. De acordo o Critério da Fatoração de Neyman para a obtenção da estatística suficiente, pode-se notar que, de acordo (1), a estatística suficiente é dada pela média amostral, X. Mas, a distribuição de X é Normal média θ e variância σ 2 /n, ou seja, X N(θ; σ 2 /n) e sua função densidade de probabilidade (f.d.p) é dada f(x θ) = σ 2π exp n 2σ 2 (x θ)2}. (2) Suponha que, sob H 1, θ tem distribuição a priori dada θ H 1 N(µ; cσ 2 ) f.d.p dada 1 π(θ) = σ c 2π exp 1 } (θ µ)2 (3) 2cσ2 µ R e c > 0. Tem-se que a distribuição posterior π(θ x) é procional ao produto da função de verossimilhança a distribuição a priori, π(θ x) exp 1 + nc } 2cσ 2 (θ c ) 2 representando o núcleo (parte da distribuição que depende somente de θ) de uma distribuição

Normal média c e variância cσ 2 /(1 + nc), ( θ x N c cσ 2 ) ; 1 + nc c = (µ + ncx)/(1 + nc). Construção da EV (Θ 0 ; x): Primeiramente, maximixa-se a distribuição posterior π(θ x) sob a hipótese nula, obtendo π(θ 0 x) exp 1 + nc } 2cσ 2 (θ 0 c ) 2. Em seguida, integra-se π(θ x) sob o conjunto T c (x) = θ Θ : π(θ x) π(θ 0 x)}, I = π(θ x)dθ T c (x) Em seguida, determina-se a probabilidade do experimento produzir uma Evidência Decisiva e Correta em favor da hipótese H 0, dada 0 (ω 0, n) = Φ[A] Φ[B] A = z ω 0 /2σ c(1 + nc) + θ 0 µ, B = z ω 0 /2σ c(1 + nc) + θ 0 µ e z α representando o α-nível percentílico da distribuição Normal Padrão. Também determinase a probabilidade do experimento produzir uma Evidência Decisiva e Correta em favor da hipótese H 1, dada T c (x) = θ Θ : θ 2c θ 0 ou θ θ 0 }. Logo, a medida de evidência Bayesiana é dada EV (Θ 0 ; x) = P [θ 2c θ 0 x] + P [θ θ 0 x] [ cσu ] n + µ θ 0 = 2Φ σ e c(1 + nc) u = (x θ 0 )/σ e Φ[ ] representando a função de distribuição acumulada (f.d.a.) da distribuição Normal Padrão. Determinação do tamanho amostral: Para a determinação do tamanho amostral, primeiramente determinam-se as distribuições de probabilidade marginais da média amostral sob as hipóteses H 0 e H 1 dadas, respectivamente, p(x H 0 ) = σ 2π exp n 2σ 2 (x θ 0) 2}, x H 0 N(θ 0 ; σ 2 /n) e } p(x H 1 ) = k n exp 2σ 2 (x µ)2 (1 + nc) k = x H 1 N σ 1 + nc 2π, ( ) µ; σ2 (1 + nc). n 1 (ω 1, n) = Φ[C] + 1 Φ[D] C = z ω 1 /2σ c (µ θ 0 ) 1 + nc D = z ω 1 /2σ c (µ θ 0 ) 1 + nc. A probabilidade (ω 0, ω 1, n) depende de n, ω 0, ω 1, σ, c, θ 0 e µ. As Tabelas 1 e 2 mostram valores de n obtidos adotando σ = 1, θ 0 = 0, Π 0 = Π 1 = 0, 5, ζ = 0, 8 e vários valores para ω 0, ω 1, c e µ. ω 0 = 0, 2 e ω 1 = 0, 1 c = 1 c = 2 µ n n -2 5 4-1,5 7 7-1 15 13-0,5 31 18 0 40 20 0,5 31 18 1 15 13 1,5 7 7 2 5 4 Tabela 1: Valores do tamanho amostral para o teste bilateral, adotando ω 0 = 0, 2, ω 1 = 0, 1, σ = 1, θ 0 = 0, Π 0 = Π 1 = 0, 5 e ζ = 0, 8. Observa-se nas Tabelas 1 e 2 que os valores do tamanho amostral n tam-se dentro

ω 0 = 0, 3 e ω 1 = 0, 2 c = 1 c = 2 µ n n -2 11 9-1,5 16 17-1 38 31-0,5 77 44 0 99 50 0,5 77 44 1 38 31 1,5 16 17 2 11 9 Tabela 2: Valores do tamanho amostral para o teste bilateral, adotando ω 0 = 0, 3, ω 1 = 0, 2, σ = 1, θ 0 = 0, Π 0 = Π 1 = 0, 5 e ζ = 0, 8. do esperado, uma vez que foram obtidos valores menores para n quando a média da priori, µ, estava distante do valor testado sob H 0, θ 0, e valores maiores quando a média da priori foi igual ou muito próxima do valor testado. A Figura 1 mostra (ω 0, ω 1, n) em função de n, adotando ω 0 = 0, 2, ω 1 = 0, 1, σ = 1, c = 1, θ 0 = µ = 0, Π 0 = Π 1 = 0, 5 e ζ = 0, 8. probabilidade 0.9 0.85 0.8 0.75 0.7 0.65 0.6 0.55 283. [2] J. O. Berger e T. Selke, Testing a Point Null Hypothesis: The Irreconcilability of P values and Evidence, Journal of the American Statistical Association, 82 (1987) 112-139. [3] J. O. Berger e M. Delampady, Testing Precise Hypotheses, Statistical Science, 2 (1987) 317-352. [4] F. De Santis, Statistical evidence and sample size determination for Bayesian hypothesis testing, Journal of the Statistical Planning and Inference, 124 (2004) 121-144. [5] H. Jeffreys, Theory of Probability, University Press, Oxford, 1961. [6] L. Joseph e P. Bélisle, Bayesian sample size determination for normal means and differences between normal means, The Statistician, 2 (1997) 209-226. [7] C. A. de B. Pereira e J. Stern, Evidence and Credibility: a full Bayesian test of precise hypothesis, Entropy, 1 (1999) 99-110. [8] M. R. Royall, On the Probability of Observing Misleading Statistical Evidence, Journal of the American Statistical Association, 451 (2000) 760-780. [9] R. Weiss, Bayesian sample size calculations for hypothesis testing, The Statistician, 2 (1997) 185-191. 0.5 0 10 20 30 40 50 60 70 80 90 100 tamanho amostral Figura 1: Probabilidade (ω 0, ω 1, n) adotando ω 0 = 0, 2, ω 1 = 0, 1, σ = c = 1, θ 0 = µ = 0, Π 0 = Π 1 = 0, 5 e ζ = 0, 8. Neste caso, n = 40. Tais resultados indicam que a prosposta de De Santis (2004) adequou-se bem a medida de evidência Bayesiana proposta Pereira e Stern (1999), fornecendo resultados satisfatórios. Referências [1] C. J. Adcock, Sample size determination: a review, The Statistician, 2 (1997) 261-