6. Amostragem e estimação pontual Definição 6.1: População é um conjunto cujos elementos possuem qualquer característica em comum. Definição 6.2: Amostra é um subconjunto da população. Exemplo 6.1: Um partido encomenda uma sondagem sobre a intenção de voto nele nas próximas eleições. Por exemplo, a sondagem poderá ser baseada numa amostra (aleatória) da população de interesse de dimensão 10000 em 100000 votantes. Note-se que há uma v.a. para cada eleitor, i.e., { 1, se o eleitor i tenciona votar no partido; X i = 0, c.c., podendo p = P(X i = 1) = 1 P(X i = 0) (desconhecido) ser estimado pelo número de votantes sondados que tencionam votar a favor do partido. NOTAS DE PROBABILIDADES E ESTATÍSTICA 96/200 Estatística descritiva e Inferência Estatística. Estatística descritiva: Parte da Estatística que visa sumariar e interpretar conjuntos de dados numa análise exploratória. Inferência Estatística: Parte da Estatística que visa fazer induções sobre características de uma população a partir de uma amostra da mesma. O estudo de uma população centra-se usualmente em uma ou mais variáveis aleatórias. Em geral, a distribuição de probabilidade destas quantidades não é completamente conhecida e, portanto, com base em uma informação por amostragem, pode-se inferir estatisticamente sobre os seus aspectos desconhecidos, e.g., Estimação pontual ou intervalar de parâmetros distribucionais. Testes de hipóteses sobre o valor de parâmetros ou sobre o próprio tipo distribucional daquelas variáveis aleatórias. NOTAS DE PROBABILIDADES E ESTATÍSTICA 97/200
Amostragem aleatória. Importantes questões relativamente ao processo de amostragem: Como recolher a amostra? Qual a informação pertinente a retirar da amostra? Como se comporta esta informação quando a amostra tende para a população? Alguns tipos de amostragem: Amostragem aleatória simples: Todos os elementos da população têm a mesma probabilidade de serem seleccionados. Amostragem por conglomerados: A população está dividida em pequenos grupos (e.g., bairros, quarteirões, etc.), chamados conglomerados, que são amostrados aleatoriamente. NOTAS DE PROBABILIDADES E ESTATÍSTICA 98/200 Amostragem estratificada: A população encontra-se dividida em subpopulações ou estratos (e.g., classes sociais, graus de instrução, etc.), agrupados por alguma característica em comum, de cada um dos quais se amostra aleatoriamente alguns dos seus elementos. Estes tipos de amostragem têm em comum a recolha aleatória dos elementos da amostra. Todavia, há outros métodos de amostragem não aleatórios, e.g., quando os elementos da amostra são voluntários (ensaios clínicos) ou são os únicos disponíveis. Definição 6.3: Dada uma população a que está associada uma variável aleatória X com uma certa distribuição de probabilidade, uma amostra aleatória (a.a.) de tamanho n dessa população é uma sequência de n variáveis aleatórias X 1...,X n independentes e identicamente distribuídas (i.i.d.). NOTAS DE PROBABILIDADES E ESTATÍSTICA 99/200
Definição 6.4: Dada uma amostra aleatória (X 1...,X n ) de uma população X com f.m.p. (f.d.p.) f X (x), a distribuição de probabilidade amostral (f.m.p. ou f.d.p. conjunta) é dada por n n f(x 1,...,x n ) = f Xi (x i ) = f X (x i ). Exemplo 6.1a: Uma a.a. da população de votantes no partido com n elementos reporta-se a n v.a. X 1...,X n i.i.d., tal que { 1, se o eleitor i tenciona votar no partido; X i = 0, c.c., sendo p = P(X i = 1) = 1 P(X i = 0), i = 1,...,n. Consequentemente, a respectiva distribuição de probabilidade amostral é dada por n f(x 1,...,x n ) = p x i (1 p) 1 x i = p i x i (1 p) n i x i. NOTAS DE PROBABILIDADES E ESTATÍSTICA 100/200 Estatísticas. Definição 6.5: Dada uma amostra (X 1...,X n ) de uma população X, uma estatística T é uma variável aleatória (vector aleatório) função da amostra, i.e., T = T(X 1,...,X n ). As estatísticas mais comuns são: Média amostral: X = 1 n n X i. Variância amostral (corrigida): S 2 = 1 n 1 n (X i X) 2. Mínimo amostral: X (1) = min(x 1,...,X n ). Máximo amostral: X (n) = max(x 1,...,X n ). Amplitude amostral: R = X (n) X (1). NOTAS DE PROBABILIDADES E ESTATÍSTICA 101/200
Definição 6.6: Um parâmetro é uma medida usada para descrever uma característica da população. Notação usual de parâmetros e estatísticas: Amostra Medida População aleatória concreta média µ X x variância σ 2 S 2 s 2 número de elementos N n n proporção p X x Se (X 1...,X n ) é uma a.a. de uma população X, então média populacional: µ = E(X), média amostral: X = (X1 + + X n )/n. NOTAS DE PROBABILIDADES E ESTATÍSTICA 102/200 Estimação pontual: estimador e estimativa. Definição 6.7: Seja (X 1...,X n ) uma amostra aleatória de uma população X indexada pelo parâmetro θ. Um estimador de θ é uma estatística T = T(X 1,...,X n ) usada para estimar θ. Definição 6.8: O valor observado de um estimador em cada amostra concreta t = T(x 1,...,x n ) é conhecido por estimativa. Exemplo 6.1b: Numa amostra aleatória de n = 100000 eleitores, observaram-se 38900 eleitores com intenção de voto no partido em causa. Neste cenário, X 1,...,X n são v.a. i.i.d. com distribuição de Bernoulli (p), onde p é a proporção (populacional) de votantes no partido. O parâmetro p pode ser estimado pela média amostral X, i.e., a proporção amostral de votantes no partido, cujo estimativa é x = 38900/100000 = 0.389 ou 38.9%. NOTAS DE PROBABILIDADES E ESTATÍSTICA 103/200
Propriedades dos estimadores. Exemplo 6.2: A fim de estudar a exactidão e precisão de 4 jogadores (A,B,C,D) de tiro ao alvo, foram-lhes dadas 6 possibilidades de acertar ao alvo. O resultado dessa experiência encontra-se a seguir. A C B D NOTAS DE PROBABILIDADES E ESTATÍSTICA 104/200 Um resumo da qualidade (exactidão e precisão) dos jogadores: Jogador A: muita exactidão e pouca precisão; Jogador B: pouca exactidão e pouca precisão; Jogador C: muita exactidão e muita precisão; Jogador D: pouca exactidão e muita precisão. Exactidão = concordância das observações com o valor visado. Precisão = concordância das observações entre si. A exactidão (accuracy) está associada aos erros sistemáticos, e.g., deficiências de instrumentos de medição, enquanto a precisão (precision) se reporta aos erros aleatórios que são responsáveis por pequenas variações imprevisíveis nas medições realizadas, cujas causas não são completamente conhecidas. NOTAS DE PROBABILIDADES E ESTATÍSTICA 105/200
Definição 6.9: Seja (X 1...,X n ) uma a.a. de X com distribuição indexada pelo parâmetro θ. O estimador T = T(X 1,...,X n ) é dito ser um estimador centrado (não enviesado) de θ se E(T) = θ. Exemplo 6.3: Seja (X 1...,X n ) uma a.a. de X com E(X) = µ e V ar(x) = σ 2. Será n (X i X) 2 um estimador centrado de σ 2? Se X 1,...,X n são v.a. i.i.d. com E(X i ) = µ e V ar(x i ) = σ 2, i = 1,...,n, então E( X) = µ e V ar( X) = σ 2 /n. Logo, E( n (X i X) 2 ) = E( i X2 i 2 X i X i + n X 2 ) = n [ E(X 2 ) E( X 2 ) ] = n [(σ 2 + µ 2 ) (σ 2 /n + µ 2 )] = (n 1)σ 2 Não, mas S 2 = 1 n 1 n (X i X) 2 é um estimador centrado de σ 2. NOTAS DE PROBABILIDADES E ESTATÍSTICA 106/200 Definição 6.10: Seja T = T(X 1,...,X n ) um estimador do parâmetro θ. Chama-se viés (enviesamento) de T como estimador de θ à quantidade E(T) θ. Note-se que o viés é nulo se e somente se T é um estimador centrado de θ. Definição 6.11: Seja T = T(X 1,...,X n ) um estimador do parâmetro θ. Uma medida de precisão do estimador T é o erro quadrático médio (EQM), dado por EQM(T) E((T θ) 2 ) = V ar(t) + (E(T) θ) 2. Definição 6.12: Sejam T = T(X 1,...,X n ) e U = U(X 1,...,X n ) dois estimadores do parâmetro θ. Diz-se que T é mais eficiente do que U, se EQM(T) EQM(U), θ com desigualdade estrita para algum θ. NOTAS DE PROBABILIDADES E ESTATÍSTICA 107/200
Se T e U são estimadores centrados do parâmetro θ, então T é mais eficiente do que U se V ar(t) V ar(u), θ com desigualdade estrita para algum θ. Exemplo 6.4: Seja (X 1...,X n ) uma a.a. de X Bernoulli(p). Considere ainda X 1 e X como dois estimadores de p. Qual dos dois é o estimador mais eficiente? Sendo X i s v.a. i.i.d. Bernoulli (p), n X i Binomial (n,p), E(X 1 ) = p e E( X) = n 1 E( n X i) = n 1 np = p. X 1 e X são estimadores centrados de p. V ar(x 1 ) = p(1 p) e V ar( X) = n 2 V ar( n V ar( X) = 1 V ar(x 1 ) n X i) = n 1 p (1 p) < 1, n > 1. X é mais eficiente do que X 1 na estimação de p. NOTAS DE PROBABILIDADES E ESTATÍSTICA 108/200 Exemplo 6.3a: Seja (X 1...,X n ) uma a.a. de uma população X Normal com E(X) = µ e V ar(x) = σ 2. Será a variância amostral (corrigida) S 2 = (n 1) 1 n (X i X) 2 mais eficiente do que ˆσ 2 = n 1 n (X i X) 2 na estimação de σ 2? Como E( n (X i X) 2 ) = (n 1)σ 2, E(S 2 ) = σ 2 e E(ˆσ 2 ) = n 1 n σ2. V ar( n (X i X) 2 ) = 2(n 1)σ 4, EQM(S 2 ) = V ar(s 2 ) + (E(S 2 ) σ 2 ) 2 = 2(n 1) 1 σ 4, EQM(ˆσ 2 ) = V ar(ˆσ 2 ) + (E(ˆσ 2 ) σ 2 ) 2 = (2n 1)n 2 σ 4, EQM(S2 ) EQM(ˆσ 2 ) = 2n 2 (n 1)(2n 1) > 1, n > 1. ˆσ 2 é mais eficiente do que S 2 (n > 1) na estimação de σ 2. NOTAS DE PROBABILIDADES E ESTATÍSTICA 109/200
Definição 6.13: Seja (X 1...,X n ) uma a.a. de uma população X indexada pelo parâmetro θ. Uma sucessão {T n } de estimadores de θ é consistente se lim n P( T n θ > ǫ) = 0, ǫ > 0, o que é garantido por i) lim n E(T n ) = θ, ii) lim n V ar(t n ) = 0. Exemplo 6.4a: Seja (X 1...,X n ) uma a.a. de X Bernoulli(p). Será X um estimador consistente de p? Sendo X i s v.a. i.i.d. Bernoulli (p), n X i Binomial (n,p), E( X) = E( n X i)/n = p. X é um estimador centrado de p. Condição i) logicamente satisfeita. V ar( X) = V ar( n X i)/n 2 = p (1 p)/n. Por conseguinte, lim n V ar( X) p(1 p) = lim n = 0. Condição ii) satisfeita. n Portanto, X é um estimador consistente de p. NOTAS DE PROBABILIDADES E ESTATÍSTICA 110/200 Método da máxima verosimilhança. Definição 6.14: Dada uma a.a. (X 1...,X n ) de uma população X com f.m.p. ou f.d.p. f X (x) indexada pelo parâmetro (desconhecido) θ, a função de verosimilhança de θ relativa à amostra (x 1,...,x n ), denotada por L(θ x 1,...,x n ), é a função de θ que é numericamente idêntica à distribuição de probabilidade amostral avaliada em (x 1,...,x n ), i.e., n L(θ x 1,...,x n ) f(x 1,...,x n θ) = f X (x i θ). O método de máxima verosimilhança consiste em maximizar a função de verosimilhança para obter o valor mais verosímil de θ, denominado estimativa de máxima verosimilhança de θ. Ao determinar o valor que maximiza θ, usa-se frequentemente o facto de que L(θ x 1,...,x n ) e log L(θ x 1,...,x n ) têm o seu máximo no mesmo valor de θ. NOTAS DE PROBABILIDADES E ESTATÍSTICA 111/200
Exemplo 6.5: Seja (X 1...,X n ) uma a.a. de uma população X Poisson(λ). Qual o estimador de máxima verosimilhança (EMV) de λ? A função de verosimilhança de λ, dado (x 1,...,x n ), é n e λ λ x i L(λ x 1,...,x n ) =. x i! n Seja L λ log L(λ x 1,...,x n ) = nλ + log λ x i log dl λ dλ = n + λ 1 n x i = 0 λ = 1 n n x i = x d2 L λ dλ 2 = λ 2 n x i < 0, λ. n x i!. x é a estimativa de máxima verosimilhança de λ e o EMV de λ é ˆλ = X = 1 n X i. n NOTAS DE PROBABILIDADES E ESTATÍSTICA 112/200 Teorema 6.1: Se ˆθ é o estimador de máxima verosimilhança de um parâmetro θ, então g(ˆθ) é o estimador de máxima verosimilhança de g(θ) (propriedade de invariância). Exemplo 6.6: Seja (X 1...,X n ) uma a.a. de X Uniforme(0,θ]. Qual o EMV de log θ? A função de verosimilhança de θ, dado x 1,...,x n, é L(θ x 1,...,x n ) = n 1 I θ (0,θ](x i ) = 1 θ n I [x(n), )(θ) 1 x (n) L(θ) x (n) θ X (n) = max(x 1,...,X n ) é o EMV de θ. Pela propriedade de invariância dos estimadores de máxima verosimilhança, log X (n) é o EMV de log θ. NOTAS DE PROBABILIDADES E ESTATÍSTICA 113/200
Momentos da média amostral e de variâncias amostrais. Exemplo 6.7: Suponha uma população com v.a. X de distribuição uniforme em {2, 4, 6} da qual se retira (com reposição) uma amostra de tamanho 2. Qual o valor esperado da média e da variância amostrais? Como os elementos da população X são equiprováveis, E(X) = x xf X(x) = 1 (2 + 4 + 6) = 4. 3 E(X 2 ) = x x2 f X (x) = 1 (4 + 16 + 36) = 56/3 3 V ar(x) = E(X 2 ) (E(X)) 2 = 56/3 16 = 8/3. Seja X i o resultado da extracção i,,...,n (n=2). Recorde-se que a média amostral e a variância amostral são, respectivamente, X = n 1 n X i e S 2 = (n 1) 1 n (X i X) 2. NOTAS DE PROBABILIDADES E ESTATÍSTICA 114/200 A distribuição de probabilidade conjunta de (X 1,X 2 ) é dada por X 1 \X 2 2 4 6 2 1/9 1/9 1/9 4 1/9 1/9 1/9 6 1/9 1/9 1/9 A distribuição amostral da estatística X = (X 1 + X 2 )/2 é X 2 3 4 5 6 P( X = x) 1/9 2/9 3/9 2/9 1/9 E( X) = u up( X =u) = 2 1 9 + + 6 1 9 = 36 9 = 4 E( X) = E(X). NOTAS DE PROBABILIDADES E ESTATÍSTICA 115/200
E( X 2 ) = u u2 P( X =u) = 4 1 9 + + 36 1 9 = 156 9 V ar( X) = E( X 2 ) (E( X) 2 = 156 9 16 = 12 9 = 4 3 V ar( X) = V ar(x)/n. A distribuição amostral da estatística S 2 = 2 (X i X) 2 é S 2 0 2 8 P(S 2 = s 2 ) 3/9 4/9 2/9 E(S 2 ) = v v P(S 2 =v) = 0 3 9 + 2 4 9 + 8 2 9 = 24 9 = 8 3 E(S 2 ) = V ar(x). NOTAS DE PROBABILIDADES E ESTATÍSTICA 116/200 Distribuições amostrais da média e variância numa população normal. Para melhor avaliar a estimação de um parâmetro θ a partir de uma estatística T = T(X 1,...,X n ), deve-se conhecer a distribuição de T. A distribuição da estatística T, conhecida como distribuição amostral de T, tem em conta todos os valores possíveis da amostra (X 1...,X n ). Teorema 6.2: Se (X 1...,X n ) é uma a.a. de uma população X com E(X) = µ e V ar(x) = σ 2, então o valor esperado e variância da média amostral X são, respectivamente, E( X) = n 1 i E(X i) = n 1 nµ = µ; V ar( X) = n 2 i V ar(x i) = n 2 nσ 2 = σ 2 /n. NOTAS DE PROBABILIDADES E ESTATÍSTICA 117/200
Teorema 6.3: Seja (X 1...,X n ) uma a.a. de uma população X com E(X) = µ e V ar(x) = σ 2, 0 < σ 2 <. Pelo Teorema do Limite Central, a distribuição amostral de X é aproximada pela distribuição Normal com média µ e variância σ 2 /n, para n suficientemente grande. Corolário 6.1: Se (X 1...,X n ) é uma a.a. de uma população X N(µ,σ 2 ), 0 < σ 2 <, então Z = X µ σ/ n N(0, 1). Exemplo 6.8: Seja (X 1...,X n ) uma a.a. de X Bernoulli(p). Qual a distribuição aproximada da proporção amostral X = n 1 n X i? Sabendo que E(X) = p e V ar(x) = p(1 p), pelo Teorema 6.3 ( ) X p a N(0, 1) X a p(1 p) N p,. p(1 p)/n n NOTAS DE PROBABILIDADES E ESTATÍSTICA 118/200 Distribuição qui-quadrado. Definição 6.15: Se X 1,...,X k são v.a. i.i.d. com distribuição N(0, 1), Q = X 2 1 + + X 2 k é dito ter uma distribuição qui-quadrado com k graus de liberdade, denotada por χ 2 (k), cuja f.d.p. é dada por f Q (q) = onde Γ(a) = 0 x a 1 e x dx, a > 0. 1 2 k 2 Γ( k 2 )q k 2 1 e q 2, q > 0, O valor esperado e a variância de uma v.a. Q χ 2 (k) são: E(Q) = k; V ar(q) = 2k. NOTAS DE PROBABILIDADES E ESTATÍSTICA 119/200
Função Densidade de Probabilidade Qui quadrado f(x) 0.00 0.05 0.10 0.15 0.20 k=1 k=5 k=10 0 5 10 15 20 25 30 x NOTAS DE PROBABILIDADES E ESTATÍSTICA 120/200 Distribuição t-student. Definição 6.16: Se Z e Q são v.a. independentes com Z N(0, 1) e Q χ 2 (k), então T = Z Q/k é dito ter uma distribuição t-student com k graus de liberdade, denotada por t (k), cuja f.d.p. é dada por f T (t) = 1 Γ( k 1) ( ) k 1 2 k π Γ( k) 1 + t2 2, < t <. k 2 O valor esperado e a variância de uma v.a. T t (k) são: E(T) = 0, k > 1. V ar(t) = k/(k 2), k > 2. NOTAS DE PROBABILIDADES E ESTATÍSTICA 121/200
Função Densidade de Probabilidade t Student f(x) 0.0 0.1 0.2 0.3 0.4 k=1 k=5 k=100 4 2 0 2 4 6 x NOTAS DE PROBABILIDADES E ESTATÍSTICA 122/200 Teorema 6.4: Se (X 1...,X n ) é uma a.a. N(µ,σ 2 ), então de uma população X e n (X i µ) 2 σ 2 = n (X i X) 2 σ 2 = n ( ) 2 Xi µ χ 2 (n) σ (n 1)S2 σ 2 χ 2 (n 1). Teorema 6.5: Se (X 1...,X n ) é uma a.a. N(µ,σ 2 ), então de uma população X ( X µ)/(σ/ n) (((n 1)S2 )/σ 2 )/(n 1) = X µ S/ n t (n 1). NOTAS DE PROBABILIDADES E ESTATÍSTICA 123/200