Inferência estatística

Documentos relacionados
Universidade Federal de Lavras

Testes de Hipóteses Paramétricos

Testes de Hipóteses Paramétricos

Testes de Hipóteses. Ricardo Ehlers Departamento de Matemática Aplicada e Estatística Universidade de São Paulo

1 Probabilidade - Modelos Probabilísticos

Testes de Hipóteses I

Teoria da Estimação. Fabricio Goecking Avelar. junho Universidade Federal de Alfenas - Instituto de Ciências Exatas

Inferência Estatística:

Testes de Hipóteses para. uma Única Amostra. Objetivos de Aprendizagem. 9.1 Teste de Hipóteses. UFMG-ICEx-EST-027/031 07/06/ :07

Testes de Hipóteses: Média e proporção

AULA 11 - Normalidade e Inferência em Regressão Múltipla - Parte 1

1.1. Definições importantes

Introdução a Estatística

Testes de Hipóteses. Ricardo Ehlers Departamento de Matemática Aplicada e Estatística Universidade de São Paulo

Professora Ana Hermínia Andrade. Universidade Federal do Amazonas Faculdade de Estudos Sociais Departamento de Economia e Análise. Período 2017.

6. NOÇÕES DE INFERÊNCIA ESTATÍSTICA

Tomada de Decisão para uma Única Amostra

Probabilidade e Estatística. Estimação de Parâmetros Intervalo de Confiança

TESTES DE HIPÓTESES. Lucas Santana da Cunha Universidade Estadual de Londrina

TESTE DE HIPÓTESE. Introdução

6. NOÇÕES DE INFERÊNCIA ESTATÍSTICA

1 Teoria da Decisão Estatística

Aula 3 - Revisão de Probabilidade e Estatística: Esclarecimento de Dúvidas

AULA 03 Estimativas e tamanhos amostrais

Estimação e Testes de Hipóteses

Testes de Hipótese para uma única Amostra - parte I

Teste de Hipóteses. Enrico A. Colosimo/UFMG enricoc/ Depto. Estatística - ICEx - UFMG 1/24

Estimação: (A) Propriedades e Distribuições Amostrais

Capítulo 4 Inferência Estatística

Inferência Estatistica

Professora Ana Hermínia Andrade. Período

Introdução à Bioestatística Turma Nutrição

x, x < 1 f(x) = 0, x 1 (a) Diga o que entende por amostra aleatória. Determine a função densidade de probabilidade

Introdução ao Planejamento e Análise Estatística de Experimentos 1º Semestre de 2013 Capítulo 3 Introdução à Probabilidade e à Inferência Estatística

Cap. 8 - Intervalos Estatísticos para uma Única Amostra

3. Estimação pontual USP-ICMC-SME. USP-ICMC-SME () 3. Estimação pontual / 25

Testes de Hipóteses. Professor: Josimar Vasconcelos Contato: ou

Distribuições Amostrais e Estimação Pontual de Parâmetros

Cálculo das Probabilidades e Estatística I

DISTRIBUIÇÃO AMOSTRAL E ESTIMAÇÃO PONTUAL INTRODUÇÃO ROTEIRO POPULAÇÃO E AMOSTRA. Estatística Aplicada à Engenharia

DE ESPECIALIZAÇÃO EM ESTATÍSTICA APLICADA)

TESTES DE HIPÓTESES - Generalidades

Estatística Inferencial

7 Teste de Hipóteses

Inferência Estatística. Teoria da Estimação

Professora Ana Hermínia Andrade. Período

Inferência. 1 Estimativa pontual de uma média 2 Estimativa intervalar de uma média. Renata Souza

Unidade IV Inferência estatística

BIOESTATÍSTICA. Parte 5 Testes de Hipóteses

AULA 05 Teste de Hipótese

Testes de Hipótese para uma única Amostra - parte II

Testes de Hipótese para uma única Amostra - parte II

Intervalos de Confiança - Amostras Pequenas

Lista de Exercícios #8 Assunto: Teste de Hipóteses

Cap. 4 - Estimação por Intervalo

AULA 04 Teste de hipótese

Unidade IV Inferência estatística

6. NOÇÕES DE INFERÊNCIA ESTATÍSTICA

Intervalos de Confiança

PE-MEEC 1S 09/ Capítulo 7 - Estimação por intervalos. 7.2 Intervalos de. confiança para. média de uma. normal 7.

4.1 Conceitos Básicos em Reamostragem

Testes de hipóteses. Wagner H. Bonat Fernando P. Mayer Elias T. Krainski

Inferência Estatística

AULA 7 - Inferência em MQO: ICs e Testes de

INFERÊNCIA ESTATÍSTICA. ESTIMAÇÃO PARA A PROPORÇÃO POPULACIONAL p

Bioestatística e Computação I

MAE0212 Introdução à Probabilidade e Estatística II

Inferência Estatística

TESTE DE HIPÓTESES ELISETE AUBIN E MONICA SANDOVAL - IME

TOMADA DE DECISÃO PARA UMA AMOSTRA. Estatística Aplicada à Engenharia 1

ESTATÍSTICA COMPUTACIONAL

ESTIMAÇÃO DE PARÂMETROS

Inferência. 1 Estimativa pontual de uma média 2 Estimativa intervalar de uma média. Renata Souza

Objetivos. Testes não-paramétricos

Princípios de Bioestatística Teste de Hipóteses

Teste de Hipóteses Paramétricos

Estimação parâmetros e teste de hipóteses. Prof. Dr. Alberto Franke (48)

Nosso objetivo agora é apresentar procedimentos estatísticos simples para verificar se um conjunto de dados amostrais dá ou não suporte à uma

Prof. Adriano Mendonça Souza, Dr. Departamento de Estatística PPGEMQ / PPGEP - UFSM

Inferência Estatística:

TESTES DE HIPÓTESES Notas de aula. Prof.: Idemauro Antonio Rodrigues de Lara

Razão para rejeitar H 0

Teste de hipóteses para proporção populacional p

Probabilidade e Estatística

Intervalos Estatísticos para uma única Amostra - parte I

Definição. Os valores assumidos pelos estimadores denomina-se estimativas pontuais ou simplesmente estimativas.

Avaliando Hipóteses. George Darmiton da Cunha Cavalcanti Tsang Ing Ren CIn/UFPE

TESTES DE HIPÓTESES. HIPÓTESES: São suposições que fazemos para testar a fixação de decisões, que poderão ser verdadeiras ou não.

Lista de Exercicios 1. Medidas Resumo. Estimação. Distribuições Amostrais

Aula 6. Testes de Hipóteses Paramétricos (I)

Transcrição:

Inferência estatística Susana Barbosa Mestrado em Ciências Geofísicas 2013-2014

Inferência estatística Obtenção de conclusões sobre propriedades da população a partir das propriedades de uma amostra aleatória estimativa pontual estimativa intervalar (intervalo de confiança) teste de hipóteses

Estimação Seja X- v.a. com função densidade de probabilidade f (x, θ) e X 1, X 2,..., X n uma amostra aleatória O parâmetro θ representa uma característica numérica da população A estatística ˆθ representa uma característica numérica da amostra A função ˆθ = h(x 1,..., X n ) diz-se um estimador para θ. A distribuição de probabilidade de ˆθ designa-se por distribuição de amostragem Um valor numérico particular de ˆθ para uma amostra específica diz-se uma estimativa

Exemplo X - v.a. altura de homens portugueses X N (µ, σ 2 ) Amostra aleatória de tamanho n = 5 1.67 1.92 1.75 1.69 1.72 Estimador do parâmetro µ: média amostral (estatística) ˆµ = n i=1 X i n Distribuição amostral (TLC) ˆµ N(µ, σ 2 /n) Estimativa ˆµ = (1.67 + 1.92 + 1.75 + 1.69 + 1.72)/5 = 1.75

Estimadores Em geral o parâmetro de uma população pode ser estimado de várias maneiras diferentes, utilizando diferentes estatísticas da amostra (estimadores) Exemplo 1.67 1.92 1.75 1.69 1.72 média amostral: X = 1.75 mediana: M = 1.72

Métodos de estimação Método dos momentos ν k = E[X] k desvantagem: estatísticas pouco resistentes à presença de outliers na amostra Estatísticas de ordem exemplo: mediana Maxima verosimilhança vantagem: óptimas propriedades assimptóticas

Propriedades dos estimadores Centricidade Um estimador ˆθ de θ é cêntrico se E[ˆθ] = θ (o valor esperado da distribuição amostral de ˆθ é θ) Consistência Um estimador ˆθ de θ é consistente se lim n P( ˆθ θ < ε) = 1

Exemplos de estimadores cêntricos Média amostral X = n i=1 x i n X é uma estimador cêntrico da média da população (µ) Variância amostral S 2 = 1 n n 1 i=1 (X i X) 2 S 2 é um estimador cêntrico da variância da população σ 2

Erro médio quadrático (MSE) O erro quadrático médio de um estimador ˆθ é por definição MSE(ˆθ) = E[(ˆθ θ) 2 ] O erro quadrático médio pode escrever-se como MSE(ˆθ) = E[(ˆθ θ) 2 ] = E[(ˆθ E[ˆθ]) 2 ]+(θ E[ˆθ]) 2 = V [ˆθ]+(θ E[ˆθ]) 2 ie como a variância do estimador mais o quadrado do seu enviezamento Um estimador cêntrico é consistente se a sua variância tende para 0 quando o tamanhho da amostra aumenta

Enviezamento vs precisão Enviezamento: desvio no valor da estatística em relação ao valor do parâmetro, sempre no mesmo sentido [amostragem] Precisão: variabilidade no valor da estatística (desvio padrão do estimador) [dimensão da amostra]

Estimação intervalar Um intervalo de confiança para θ é um intervalo [L i, L s ] de valores possíveis para θ. Os limites inferior (L i ) e superior (L s ) designam-se por limites de confiança. Ao intervalo é associada uma confiança (1 α)%, fixa à partida, de que contenha θ. 1 α é o nivel de confiança do intervalo Interpretação: a probabilidade de o intervalo incluir o valor verdadeiro do parâmetro é igual a 1 α, i.e. se fossem calculados intervalos de confiança para várias amostras, 1 α desses intervalos conteriam o valor do parâmetro na população (interpretação frequencista)

Estimação intervalar

Nível de confiança e dimensão da amostra Quanto maior fôr o nível de confiança 1 α, maior é a amplitude do intervalo de confiança A precisão da estimativa é dada pela amplitude do intervalo A dimensão n da amostra deve ser de modo a aumentar a precisão (diminuir a amplitude do intervalo) sem perder confiança

Intervalo de confiança para a média (variância conhecida) ˆµ = n i=1 X i/n N (µ, σ 2 /n) = ˆµ µ σ/ N (0, 1) n IC a (1 α)100% para µ P( q α/2 < ˆµ µ σ/ n < q α/2) = 1 α P(ˆµ q α/2 σ n < µ < ˆµ + q α/2 σ n ) = 1 α ˆµ q α/2 σ n < µ < ˆµ + q α/2 σ n

Exemplo X - v.a. altura de homens portugueses X N (µ, σ 2 = 0.1 2 ) Amostra aleatória de tamanho n = 5 1.67 1.92 1.75 1.69 1.72 Estimativa pontual ˆµ = 1.75 IC a 95% para µ α = 0.05, q α/2 = 1.96 (qnorm(0.975)) 1.75 1.96 0.1/ 5 < µ < 1.75 + 1.96 0.1/ 5 [1.66, 1.84]

Intervalo de confiança para a média (variância desconhecida) X N (µ, σ 2 ) Amostra aleatória X 1,..., X n de tamanho n X - média amostral X µ S/ n t n 1 IC a (1 α)100% para µ S 2 - variância amostral P( q α/2 < ˆµ µ s/ n < q α/2) = 1 α P(ˆµ q α/2 s n < µ < ˆµ + q α/2 s n ) = 1 α s s ˆµ q α/2 n < µ < ˆµ + q α/2 n

Exemplo X - v.a. altura de homens portugueses X N (µ, σ 2 ) Amostra aleatória de tamanho n = 5 1.67 1.92 1.75 1.69 1.72 X = 1.75 S 2 = 1/4 5 i=1 (X i X) = 0.00995 IC a 95% para µ α = 0.05, q α/2 = 2.78 (qt(0.975,4)) 1.75 2.78 0.00995/ 5 < µ < 1.75 + 2.78 0.00995/ 5 [1.74, 1.76]

Intervalo de confiança para a proporção X v.a. nº de ocorrências na população de uma dada característica X Bi(n, p) p - parâmetro proporção de ocorrências na população ˆp - estatística proporção na amostra ˆp N (p, p(1 p)/n)(distribuição amostral) [n 30] IC a 100(1 α)% para p ˆp q α/2 ˆp(1 ˆp) n p ˆp + q α/2 ˆp(1 ˆp) n

Exemplo Num ano (365 dias) observaram-se 220 dias sem chuva ˆp = 220/365 = 0.6 IC a 95% para p α = 0.05, q α/2 = 1.96 (qnorm(1-0.025)) 0.6 0.4 0.6 1.96 365 < µ < 0.6 + 1.96 [0.55, 0.65] IC a 99% para p α = 0.01, q α/2 = 2.58 (qnorm(1-0.005)) 0.6 0.4 0.6 2.58 365 < µ < 0.6 + 2.58 [0.53, 0.67] 0.6 0.4 365 0.6 0.4 365

Amostras emparelhadas Amostras da mesma variavel aleatoria em duas situações diferentes Exemplo: amostras dos mesmos individuos antes e depois de uma dieta Como as amostras não são independentes, deve-se considerar uma única variável aleatória correspondente à diferença entre as duas situações D N (µ D, σ 2 ) Se o IC para µ D incluir o valor 0, não há uma diferença significativa entre as duas situações

Hipóteses estatísticas Uma hipótese estatística é uma afirmação sobre a distribuição de probabilidade de uma variável aleatória Frequentemente uma hipótese estatística é uma afirmação sobre os parâmetros da distribuição de uma variável aleatória H 0 : hipótese nula H 1 : hipótese alternativa Testar a hipótese é rejeitar (ou não rejeitar) H 0, com base numa amostra de observações - verificar quão provável é uma dada amostra, assumindo que a hipótese nula é verdadeira

Exemplo H 0 : o suspeito de um crime é inocente H 1 : o suspeito é culpado A hipótese é testada procurando factos inconsistentes com H 0 Por exemplo, se são encontradas provas incriminatórias, H 0 é rejeitada, e o suspeito é condenado. Na ausência de provas, não é possivel concluir que o suspeito não é inocente (pode ser culpado, mas não há provas...)

Importante A hipótese nula deve ser formulada antes da amostragem A hipótese nula nunca pode ser provada A hipótese nula pode ser rejeitada ou não rejeitada A hipótese alternativa nunca é aceite

Erros tipo I e tipo II Rejeitar H 0 Não rejeitar H 0 H 0 Verdadeira erro Tipo I H 0 Falsa erro Tipo II P(erro Tipo I)=α P(erro Tipo II)=β α é o nível de significância do teste (fixado) β é a potência do teste (depende da dimensão da amostra)

Procedimento de decisão X 1, X 2,..., X n - amostra de tamanho n da população T - estatística do teste Formular a hipótese nula H 0 Especificar o nível de significância do teste α Calcular o valor da estatística assumindo que H 0 é verdadeira Calcular o valor-p do teste = P( T T 0 ) (probabilidade de a estatística do teste tomar um valor pelo menos tão extremo quanto o observado, assumindo que H 0 é V) Rejeitar H 0 se o valor-p é inferior a α (as observações não são consistentes com a hipótese nula para o nível de significância α)

Procedimento de decisão X 1, X 2,..., X n - amostra de tamanho n da população T - estatística do teste Formular a hipótese nula H 0 Especificar o nível de significância do teste α Calcular o valor da estatística assumindo que H 0 é verdadeira Calcular o valor-p do teste = P( T T 0 ) (probabilidade de a estatística do teste tomar um valor pelo menos tão extremo quanto o observado, assumindo que H 0 é V) Rejeitar H 0 se o valor-p é inferior a α (as observações não são consistentes com a hipótese nula para o nível de significância α)

Procedimento de decisão X 1, X 2,..., X n - amostra de tamanho n da população T - estatística do teste Formular a hipótese nula H 0 Especificar o nível de significância do teste α Calcular o valor da estatística assumindo que H 0 é verdadeira Calcular o valor-p do teste = P( T T 0 ) (probabilidade de a estatística do teste tomar um valor pelo menos tão extremo quanto o observado, assumindo que H 0 é V) Rejeitar H 0 se o valor-p é inferior a α (as observações não são consistentes com a hipótese nula para o nível de significância α)

Procedimento de decisão X 1, X 2,..., X n - amostra de tamanho n da população T - estatística do teste Formular a hipótese nula H 0 Especificar o nível de significância do teste α Calcular o valor da estatística assumindo que H 0 é verdadeira Calcular o valor-p do teste = P( T T 0 ) (probabilidade de a estatística do teste tomar um valor pelo menos tão extremo quanto o observado, assumindo que H 0 é V) Rejeitar H 0 se o valor-p é inferior a α (as observações não são consistentes com a hipótese nula para o nível de significância α)

Procedimento de decisão X 1, X 2,..., X n - amostra de tamanho n da população T - estatística do teste Formular a hipótese nula H 0 Especificar o nível de significância do teste α Calcular o valor da estatística assumindo que H 0 é verdadeira Calcular o valor-p do teste = P( T T 0 ) (probabilidade de a estatística do teste tomar um valor pelo menos tão extremo quanto o observado, assumindo que H 0 é V) Rejeitar H 0 se o valor-p é inferior a α (as observações não são consistentes com a hipótese nula para o nível de significância α)

Procedimento de decisão X 1, X 2,..., X n - amostra de tamanho n da população T - estatística do teste Formular a hipótese nula H 0 Especificar o nível de significância do teste α Calcular o valor da estatística assumindo que H 0 é verdadeira Calcular o valor-p do teste = P( T T 0 ) (probabilidade de a estatística do teste tomar um valor pelo menos tão extremo quanto o observado, assumindo que H 0 é V) Rejeitar H 0 se o valor-p é inferior a α (as observações não são consistentes com a hipótese nula para o nível de significância α)

Valor-p Probabilidade de a estatística do teste (T ) tomar um valor pelo menos tão extremo quanto o observado assumindo que H 0 é V (T 0 ) Teste bilateral H 0 : θ = θ 0 p-val=p( T T 0 ) = 2 [1 P(T < T 0 )] Teste unilateral H 0 : θ θ 0 p-val=p(t > T 0 ) H 0 : θ θ 0 p-val=p(t < T 0 )

Teste de hipóteses para a média (variância conhecida) X N (µ, σ 2 ), σ 2 conhecido X 1,..., X n amostra aleatória de tamanho n Estatistica T : X = n i=1 X i n N (µ, σ 2 /n) H 0 : µ = µ 0 H 1 : µ µ 0 Se H 0 é verdadeira, T 0 = X µ 0 σ/ N (0, 1) n P( q α/2 X µ 0 σ/ n q α/2) = 1 α i.e. α% das amostras terão valores T 0 fora desta região. É cometido um erro de tipo I (rejeitar H 0 quando H o é verdadeira) com probabilidade α

Exemplo X - v.a. altura de homens portugueses X N (µ, σ 2 ) Amostra aleatória de tamanho n = 5 X = 1.75 σ 2 = 0.1 2 1.67 1.92 1.75 1.69 1.72 H 0 : µ = 1.8 H 1 : µ 1.8 α = 0.05 T 0 = X µ 0 σ/ n = 1.75 1.8 0.1/ 5 = 1.12 valor-p = P( T > T 0 ) = 2 [1 P(T < T 0 )] = 0.26 valor-p > α = não rejeição H 0

Exemplo H 0 : µ = 2 H 1 : µ 2 α = 0.05 T 0 = X µ 0 σ/ n = 1.75 2 0.1/ 5 = 5.6 valor-p = P( T > T 0 ) = 2 [1 P(T < T 0 )] = 2 10 8 valor-p < α = rejeição H 0

Teste de hipóteses para a média (variância desconhecida) X N (µ, σ 2 ), σ 2 desconhecido X 1,..., X n amostra aleatória de tamanho n Estatistica T : X = n i=1 X i n N (µ, σ 2 /n) H 0 : µ = µ 0 H 1 : µ µ 0 Se H 0 é verdadeira, T 0 = X µ 0 S/ n t n 1 P( q α/2 X µ 0 S/ n q α/2) = 1 α

Teste de hipóteses para a correlação entre variáveis ρ correlação (população) r correlação amostral H 0 : ρ = 0 H 1 : ρ 0 Estatística T = r n 2 1 r 2 t n 2

Bootstrap A técnica de bootstrap permite examinar as propriedades de um estimador a partir de reamostragem da distribuição amostral Princípio: inferência a partir de amostras obtidas por re-amostragem com reposição das observações originais

Bootstrap - vantagens simplicidade permite inferência quando a distribuição da estatística é desconhecida ou complexa permite inferência quando a dimensão da amostra é insuficiente

Bootstrap - limitações Séries temporais autocorrelação dificuldade em manter na re-amostragem com repetição a estrutura de dependência temporal... Alternativas: bootstrap por blocos ME (maximum entropy) boostrap...

Obtenção de IC a partir da distribuição bootstrap percentil -os limites do IC a 95% são os percentis 2.5 e 97.5 da distribuição bootstrap - é aplicável a qualquer estatística - adequado quando a distribuição boostrap é simétrica e centrada BC (Bias-Corrected) Bootstrap corrige o enviezamento (bias) entre a distribuição bootstrap e a amostra observada BCa (Bias-Corrected and accelerated) bootstrap corrige o enviezamento e assimetria entre a distribuição bootstrap e a amostra observada