DISTRIBUIÇÃO AMOSTRAL E ESTIMAÇÃO PONTUAL INTRODUÇÃO ROTEIRO POPULAÇÃO E AMOSTRA. Estatística Aplicada à Engenharia

ROTEIRO 1. Introdução; DISTRIBUIÇÃO AMOSTRAL E ESTIMAÇÃO PONTUAL. Teorema Central do Limite; 3. Conceitos de estimação pontual; 4. Métodos de estimação pontual; 5. Referências. 1 POPULAÇÃO E AMOSTRA População: Conjunto de elementos que apresentam pelo menos uma característica em comum; INTRODUÇÃO 3 População Alvo: População de interesse da pesquisa; Amostra: Qualquer subconjunto não vazio da população; 4 Prof. Lupércio F. Bessegato - UFJF 1

TÉCNICAS DE AMOSTRAGEM População CARACTERÍSTICAS DA POPULAÇÃO Procedimento a ser adotado na seleção dos elementos da amostra; INFERÊNCIA ESTATÍSTICA O objetivo central é obter uma amostra representativa; Amostra que representa toda a população da melhor maneira possível. EXTRAÇÃO DE AMOSTRAS ALEATÓRIAS Amostra ESTATÍSTICA DESCRITIVA PROBABILIDADE CARACTERÍSTICAS DA AMOSTRA A representatividade depende de: Metodologia adotada para seleção da amostra; Tamanho da amostra. 5 6 PROBLEMA FUNDAMENTAL DA ESTATÍSTICA PLANEJANDO UM EXPERIMENTO Identificar seu objetivo; A partir da observação de amostras, COMO podemos tirar CONCLUSÕES sobre a POPULAÇÃO? Coletar dados amostrais; Usar procedimento aleatório para evitar vício; Analisar dados e tirar conclusões. 7 8 Prof. Lupércio F. Bessegato - UFJF

ERRO AMOSTRAL ERRO NÃO AMOSTRAL Diferença entre um resultado amostral e o verdadeiro resultado populacional são resultantes de flutuações amostrais aleatórias. Incorreção na coleta, registro ou análise de dados amostrais; Exemplos: Coleta tendenciosa de amostra; Utilização de instrumento descalibrado; Registro incorreto de dados amostrais. 9 10 INFERÊNCIA ESTATÍSTICA ESTIMAÇÃO DE PARÂMETROS Definição: Estimação Pontual; Procedimentos para generalizar características de uma população a partir da informação contida na amostra. Estimação Intervalar; Intervalos de Confiança Baseia-se na Teoria de Probabilidades; Áreas: Estimação de parâmetros; Testes de hipóteses. 11 1 Prof. Lupércio F. Bessegato - UFJF 3

TESTE DE HIPÓTESES CONCEITOS Hipótese: Afirmação (alegação) sobre característica populacional Teste de Hipóteses: Procedimento padrão para se testar uma afirmativa sobre característica populacional Amostra aleatória: As variáveis aleatórias X 1, X,..., X n são uma amostra aleatória de tamanho n, se: Forem independentes; Cada X i tiver mesma distribuição de probabilidades. Parâmetro: Quantidades de interesse da população; Em geral, desconhecidas Média de uma população (µ); Desvio-padrão de uma população (σ); Representadas por letras gregas; Notação para um parâmetro qualquer: θ 13 14 CONCEITOS CONCEITOS Estatística: Qualquer função da amostra; Estimador: Qualquer função da amostra que não dependa de parâmetros desconhecidos; Exemplo: Alguns estimadores da amostra aleatória X 1, X,..., X n, X (1) = mín(x 1, X,..., X n ) X n = X (n) = máx(x 1, X,..., X n ) n X i i=1 n S = n i=1 ( X i X) n 1 Distribuição amostral: Distribuição de probabilidades de um estimador; Exemplo: Distribuição amostral da média; Parâmetros da distribuição amostral da média; E( X n ) = µ X Var ( X n ) = σ X n 15 16 Prof. Lupércio F. Bessegato - UFJF 4

CONCEITOS CONCEITOS Espaço paramétrico (Θ) Conjunto de possíveis valores que o parâmetroθpode assumir; Estimador de θ: Qualquer estimador que assuma valores em Θ. Notação: θˆ Exemplo: Seja a amostra aleatória X 1, X,..., X n de X ~ N(µ, σ ) Se σ = 1, então θ = µ é o parâmetro desconhecido e Θ = {µ, < µ < } Se µ = 0, então θ = σ é o parâmetro desconhecido e Θ = {σ, σ > 0} Exemplo: Alguns estimadores para a média µ de uma população Média da amostra; Mediana da amostra; X 1. 17 18 CONCEITOS Estimativa de parâmetro populacional: É um valor específico, ou um intervalo de valores, usado para estimar parâmetro populacional θˆ ; Estimativa pontual: é um único valor numérico de um estimador. TEOREMA CENTRAL DO LIMITE (TCL) 0 19 Prof. Lupércio F. Bessegato - UFJF 5

TEOREMA CENTRAL DO LIMITE Seja X 1, X,..., X n uma amostra aleatória de tamanho n de uma população (finita ou infinita), com média µ e variância finita σ. Então quando n. Z = X µ n ~ N(0,1) σ / n TEOREMA CENTRAL DO LIMITE A aproximação normal para a média amostral depende do tamanho da amostra; Com população contínua, unimodal e simétrica, na maioria dos casos, o TCL trabalha bem para pequenas amostras (n = 4, 5); Em muitos casos de interesse prático, a aproximação normal será satisfatória para n 30; Se n < 30, o TCL funcionará se a distribuição da população não for muito diferente da normal. 1 EXEMPLO SIMULAÇÃO Amostra n =1 População exponencial com média 1; λ = 1; > mean(amostra); sd(amostra) [1] 0.9990838 [1] 1.010478 Geração de 10.000 valores dessa população; Amostra de tamanho 1 (n = 1); 3 4 Prof. Lupércio F. Bessegato - UFJF 6

Amostra n = Amostras de tamanhos, 4, 10 e 0 > mean(media_n); sd(media_n) [1] 1.01711 [1] 0.719089 n_ n_4 n_10 n_0 n.000 4.000 10.000 0.000 media 0.995 1.000 0.996 0.999 dp 0.704 0.50 0.319 0. 5 6 EXEMPLO SIMULAÇÃO Amostra n =1 População com densidade em U; f(x) = 1 (x 0,5), 0 < x < 1; > mean(amostra); sd(amostra) [1] 0.5061657 [1] 0.387759 Geração de 10.000 valores dessa população; Amostra de tamanho 1 (n = 1); 7 8 Prof. Lupércio F. Bessegato - UFJF 7

Amostras de tamanhos, 4, 10 e 0 COMPARAÇÃO DE POPULAÇÕES n.000 4.000 10.000 0.000 media 0.50 0.499 0.499 0.499 Dp 0.74 0.196 0.1 0.086 Considere duas populações: População 1: média µ 1 e variância σ 1 ; População : média µ e variância σ ; Amostras aleatórias das duas populações? Amostra da população 1 de tamanho n 1 : X 1 Amostra da população de tamanho n : X 9 30 COMPARAÇÃO DE POPULAÇÕES COMPARAÇÃO DE POPULAÇÕES Caso 1: As duas populações são normais independentes Distribuição amostral da diferença X 1 X ~ N(µ dif,σ dif ) Média da diferença de médias amostrais: Caso : populações não normais com tamanhos amostrais maiores que 30; Pode-se usar o TCL para aproximar a distribuição amostral da diferença: ( ) = E ( X 1) E ( X ) = µ µ 1 µ dif = E X 1 X Variância da diferença de médias amostrais: σ dif = Var X 1 X ( ) = Var ( X 1) + Var ( X ) = σ 1 n 1 + σ n 31 3 Prof. Lupércio F. Bessegato - UFJF 8

DISTRIBUIÇÃO AMOSTRAL APROXIMADA DE DIFERENÇA DE MÉDIAS AMOSTRAIS Suponha: Duas populações independentes, com médias µ 1 e µ e variâncias σ 1 e σ Amostras aleatórias independentes de tamanhos n 1 e n dessas populações, tem-se aproximadamente ( ) ( µ µ 1 ) Z = X 1 X σ 1 se as condições do TCL se aplicarem. n 1 + σ n ~ N(0,1) EXEMPLO VIDA DE MOTOR A vida efetiva de um componente usado no motor de uma turbina de um avião a jato é uma variável aleatória com média 5000 horas e desvio-padrão 40 horas. Suponha normalidade e independência onde necessário. O fabricante do motor introduz uma melhoria no processo de fabricação desse componente, que aumenta a vida média para 5050 horas e diminui o desvio-padrão para 30 horas. Uma amostra aleatória de 16 componentes é selecionada do processo antigo e outra de 5 elementos é selecionada após a melhoria. Qual a probabilidade de que a diferença das média amostrais seja no mínimo de 5 horas? 33 34 PROPRIEDADES DE UM ESTIMADOR Alguma propriedades importantes: Vício ESTIMAÇÃO PONTUAL CONCEITOS 35 Consistência Eficiência 36 Prof. Lupércio F. Bessegato - UFJF 9

VÍCIO VÍCIO Vício de um estimador: Vicio ˆθ ( ) = E( ˆθ θ) = E ( ˆθ ) θ; Um estimador θˆ é não viciado (não viesado, não tendencioso) para um parâmetro θ se ( ) = θ; E ˆθ Exemplos: A média amostral é não viciada para estimar a média populacional: E( X n ) = µ X X 1 (primeiro item coletado da amostra) é não viciado para estimar a média populacional: A esperança de um estimador está relacionada com sua exatidão E( X 1 ) = µ X 37 38 VÍCIO VARIÂNCIA DE ESTIMADOR A variância amostral S = 1 n 1 n i=1 ( X i X) θˆ 1 e θ ˆ estimadores não viciados para θ Variâncias diferentes é não viciada para estimar a variância populacional (σ )? Em outras palavras, verifique se Var ( ˆθ 1 ) < Var ( ˆθ ) E(S )= σ. É mais provável que θ 1 produza uma estimativa mais próxima de θ. 39 40 Prof. Lupércio F. Bessegato - UFJF 10

ESTIMADOR DE VARIÂNCIA MÍNIMA ERRO-PADRÃO Se considerarmos todos os estimadores não tendenciosos para θ, aquele com a menor variância será chamado de estimador não tendencioso de variância mínima; é o seu desvio- O erro-padrão de um estimador padrão σ ˆθ = Var ( ˆθ ) ; θˆ Esse estimador é o mais provável, dentre todos os não viciados, para produzir uma estimativa que seja mais próxima do valor verdadeiro. O erro-padrão do estimador está relacionado com sua precisão; 41 4 ERRO-PADRÃO ERRO-PADRÃO Se o erro-padrão envolver parâmetros desconhecidos que possam ser estimados, então a substituição daqueles valores produz um erro-padrão estimado O erro-padrão da média amostral será σ X = σ ; n Se não conhecermos σ, substituímos pelo desviopadrão amostral. O erro-padrão estimado da média amostral será ˆσ X = S ; n 43 Quando o estimador seguir uma distribuição normal, podemos estar confiantes que o valor verdadeiro do parâmetro estará entre dois erros-padrão da estimativa Esse resultado é muito útil para grandes valores de n Nos casos em que o estimador é não viciado e não normalmente distribuído Estimativa do parâmetro desviará do valor verdadeiro em mais de 4 erros-padrão no máximo 6% das vezes 44 Prof. Lupércio F. Bessegato - UFJF 11

PRECISÃO VS. EXATIDÃO CONSISTÊNCIA Quadro comparativo: Definição: Um estimador θˆ é consistente se, à medida em que o tamanho amostral aumenta, seu valor esperado converge para o parâmetro de interesse e sua variância converge para zero. O estimador é consistente se lime ˆθ n ( ) = θ e lim n Var ( ˆθ ) = 0; Consistência é uma propriedade assintótica (grandes amostras); 45 46 CONSISTÊNCIA ERRO QUADRÁTICO MÉDIO Exemplos: A média amostral é consistente para estimar a média populacional; O primeiro item coletado da amostra não é consistente para estimar a média populacional. O erro quadrático médio de um estimador θˆ parâmetro θ é definido como EQM ˆθ EQM Vício e erro-padrão ( ) = E( ˆθ θ) ; EQM ( ˆθ ) = Var ( ˆθ ) + Vicio ( ˆθ ) ; para o O EQM é um critério importante para comparar dois estimadores; 47 48 Prof. Lupércio F. Bessegato - UFJF 1

ERRO QUADRÁTICO MÉDIO Estimadores tendenciosos podem ser preferíveis a estimadores não viciados se tiverem um menor EQM; Estimativa baseada em θ 1 estaria provavelmente mais próxima do valor verdadeiro do que a baseada em θ ; ERRO QUADRÁTICO MÉDIO Estimador ótimo para θ: Tem EQM menor ou igual ao EQM de qualquer outro estimador, para todos os valores de θ no espaço paramétrico; Estimadores ótimos raramente existem; 49 50 ERRO QUADRÁTICO MÉDIO EFICIÊNCIA No caso em que θˆ é um estimador não viciado para um parâmetro θ, então Dados dois estimadores θˆ 1 e θ ˆ, não viciados para um parâmetro θ, dizemos que θ1 ˆ é mais eficiente que ˆ se θ EQM ( ˆθ ) = Var ( ˆθ ). Var ( ˆθ 1 ) < Var ( ˆθ ). 51 5 Prof. Lupércio F. Bessegato - UFJF 13

EFICIÊNCIA Exemplo: No caso de amostra proveniente de distribuição Normal. Média amostral e mediana amostral são não viciadas para estimar a média populacional: E X ( ) = µ e E ( X! ) = µ; Média amostral e mediana amostral são consistentes para estimar a média verdadeira: σ Var X ( ) = σ n e Var! X ( ) = π n ; A média amostral é mais eficiente que a mediana amostral para estimar a média populacional Var ( X ) σ = n = 0,64 <1; Var ( X! ) π σ π n 53 REFERÊNCIAS 54 BIBLIOGRAFIA RECOMENDADA Montgomery, D. C. (LTC) Estatística Aplicada e Probabilidade para Engenheiros Pinheiro, J. I. D et al. (Campus) Probabilidade e Estatística: Quantificando a Incerteza 55 Prof. Lupércio F. Bessegato - UFJF 14