Notas de Probabilidades e Estatística

Notas de Probabilidades e Estatística Giovani Loiola da Silva Dep. Matemática - IST Setembro, 2008 Estas notas visam apoiar as aulas teóricas da disciplina Probabilidades e Estatística. Agradecimentos: Daniel Paulino pela revisão do texto e colegas e alunos por detectarem gralhas. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 1/207 Sumário 1. Introdução... 3 2. Noções de probabilidade... 5 3. Variáveis aleatórias e distribuições discretas... 19 4. Variáveis aleatórias e distribuições contínuas... 41 5. Distribuições conjuntas de probabilidade e complementos... 57 6. Amostragem e estimação pontual... 97 7. Estimação por intervalos... 125 8. Testes de hipóteses... 143 9. Introdução à regressão linear simples... 179 NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 2/207

1. Introdução A utilização de métodos estatísticos teve início na antiguidade como contagem para avaliar regiões em que se poderiam obter mais impostos. A estatística é uma área científica que se utiliza da teoria da probabilidade para explicação de acontecimentos, estudos e experiências. Estatística: Ciência da análise de dados, formada pelas etapas: Obtenção de informação de uma população (recolha de dados). Organização, apresentação e análise dos dados. Conclusão e interpretação dos resultados da análise estatística. População: Um conjunto cujos elementos possuem qualquer característica em comum. Amostra: Um subconjunto da população. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 3/207 Teoria da Probabilidade População Inferência Estatística Amostra Métodos de Análise de Dados: Estatística Descritiva: Organização e apresentação da informação dedutível dos dados. Inferência Estatística ou Estatística Indutiva: Formulação de modelos teóricos (probabilísticos) para descrever uma população e estudo da sua adequação aos valores observados da amostra. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 4/207

2. Noções de probabilidade Motivação: Num estudo científico, o objectivo centra-se usualmente na descrição de um fenómeno de interesse através de modelo teórico. O fenómeno pode ser observável e o processo de recolha das suas observações é uma experiência. Se a realização da experiência determina previamente qual o seu resultado, o modelo teórico é dito determinístico. Caso contrário, o modelo é não determinístico ou aleatório (estocástico). Exemplo 2.1: Sob certas condições, a distância (S) percorrida em queda-livre por um objecto é S = 16t 2 + v 0 t, onde v 0 é a velocidade inicial e t é o tempo gasto na queda. Exemplo 2.2: O número de partículas alfa emitidas por um fragmento de material radioactivo durante um dado intervalo de tempo. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 5/207 Experiências aleatórias. Espaço de resultados. Definição 2.1: Uma experiência diz-se aleatória se: todos os seus possíveis resultados são conhecidos à partida. o resultado em cada realização concreta da experiência não é de facto conhecido a priori. Frequentemente, acrescenta-se ainda à definição de experiência aleatória que ela pode ser repetida muitas vezes, essencialmente sob as mesmas condições. Exemplo 2.3: Lançamento de um dado (experiência E1). Definição 2.2: Espaço de resultados ou espaço amostral de uma experiência aleatória é o conjunto de todos os seus possíveis resultados, denotado por Ω. Exemplo 2.3a: Na experiência E 1, Ω = {1, 2, 3, 4, 5, 6} com #Ω = 6. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 6/207

Acontecimentos. Definição 2.3: Dada uma experiência aleatória E com espaço de resultados Ω, um acontecimento ou evento é um subconjunto de Ω. Exemplo 2.3b: Na experiência E 1, tem-se o acontecimento A = {sair face par} = {2, 4, 6}. Um acontecimento pode ser, por exemplo, elementar ({ω}), certo (Ω) e impossível ( ). Note-se que dois acontecimentos A e B tais que A B = são ditos mutuamente exclusivos ou disjuntos. Definição 2.4: Dada uma experiência aleatória E com espaço de resultados Ω, diz-se que A é o conjunto de todos os acontecimentos possíveis de Ω. Exemplo 2.3c: Na experiência E1, Ω = {1, 2, 3, 4, 5, 6} e A = {, {1},..., Ω} com #A = 2 6 = 64. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 7/207 Noção de probabilidade: Interpretação de Laplace. Para uma experiência aleatória E com espaço de resultados finito Ω = {1,...,N}, assumindo que os N resultados são igualmente prováveis, a probabilidade de qualquer acontecimento A é a proporção de resultados de Ω favoráveis a A. Exemplo 2.3d: Na experiência E 1, a probabilidade do acontecimento A = {sair face par} é dada por P(A) = 3/6 = 0.5. Interpretação frequencista. A probabilidade de um acontecimento A é o limite da frequência relativa da ocorrência de A numa longa sucessão de experiências realizadas sob as mesmas condições. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 8/207

Exemplo 2.4: Num lançamento de uma moeda (E 2 ), a probabilidade de sair cara (acontecimento A) é dada por P(A) = lim n f n (A) n/2 n = 1 2. 0.0 0.2 0.4 0.6 0.8 1.0 0 200 400 600 800 1000 Interpretação subjectivista. A probabilidade de um acontecimento A é entendida como uma medida pessoal (entre 0 e 1) do grau de crença sobre a ocorrência de A. Exemplo 2.5: Um geólogo afirma que uma dada região tem 60% de chance de haver petróleo, baseando-se quer nas características do terreno quer na sua semelhança com outras regiões com conhecida presença ou ausência de petróleo nos últimos anos. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 9/207 Axiomática de probabilidade. Definição 2.5: Para cada evento A de uma experiência aleatória com espaço de resultados Ω, é suposto existir um número real, designado por probabilidade de A e denotado por P(A), satisfazendo os axiomas: A 1 : P(A) 0, A A (acontecimentos possíveis de Ω). A 2 : P(Ω) = 1. A 3 : Para qualquer sequência de acontecimentos disjuntos 2 a 2 A 1,...,A n tem-se P( n i=1a i ) = n i=1 P(A i), n = 1, 2,... O conjunto A de Ω é dito ser uma σ-álgebra de acontecimentos se i) Ω A, ii) A A Ā A e iii) A 1,A 2,... A i=1a i A. Definição 2.6: Sob a validade destes axiomas, (Ω, A,P ) é dito ser um espaço de probabilidade. Note-se que (Ω, A) é dito ser um espaço de acontecimentos. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 10/207

Teoremas decorrentes. Sejam A e B acontecimentos de uma experiência aleatória com espaço de resultados Ω. Se P(A) e P(B) satisfazem os axiomas referidos anteriormente, então tem-se os seguintes teoremas decorrentes: Teorema 2.1: P(Ā) = 1 P(A). Teorema 2.2: P( ) = 0. Teorema 2.3: A B P(A) P(B). Teorema 2.4: P(A) 1. Teorema 2.5: P(A B) = P(A) + P(B) P(A B). Exemplo 2.6: Na experiência E 1, com Ω = {1, 2, 3, 4, 5, 6}, A 1 = {sair face par} e A 2 = {sair face impar}, tem-se i) P(A 1 ) = 0.5; ii) P(Ω) = 1; iii) P(A 1 A 2 ) = 1. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 11/207 Probabilidade condicional. Definição 2.7: Sejam A e B acontecimentos de um espaço de probabilidade (Ω, A,P ). Se P(B) > 0, a probabilidade do acontecimento A dado a ocorrência do acontecimento B (A dado B ou A se B ou A condicionado a B) é dada por P(A B) = P(A B). P(B) Analogamente, P(B A) = P(A B)/P(A), se P(A) > 0. Em P(A B), B funciona como um espaço de resultados reduzido sobre o qual está avaliada a probabilidade de A. Se Ω é finito com resultados equiprováveis, pode-se calcular P(A B) directamente como P(A B) = #{A B} #{B}. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 12/207

No cenário vigente, a probabilidade condicional P(A B), com P(B) > 0, é uma probabilidade definida sobre o espaço de acontecimentos associado a B, verificando-se os axiomas: A 1 : P(A B) 0, acontecimento A. A 2 : P(Ω B) = 1. A 3 : Para acontecimentos disjuntos A 1,...,A n, P( n i=1a i B) = n i=1 P(A i B), n = 1, 2,... E os teoremas decorrentes: 1. P(Ā B) = 1 P(A B). 2. P( B) = 0. 3. A 1 A 2 P(A 1 B) P(A 2 B). 4. P(A B) 1. 5. P(A 1 A 2 B) = P(A 1 B) + P(A 2 B) P(A 1 A 2 B). NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 13/207 Teorema da probabilidade composta. A partir da definição de probabilidade condicional obtém-se que P(A B) = P(A)P(B A) ou P(B)P(A B), bem como relações estendidas do tipo P(A B C) = P(A)P(B C A) = P(A)P(B A)P(C A B). Teorema 2.6: Se A 1,...,A n são acontecimentos de um espaço de resultados Ω, então P( n i=1a i ) = P(A 1 )P(A 2 A 1 )...P(A n A 1 A 2... A n 1 ). Exemplo 2.7: Num sorteio de 3 prémios, sem reposição, para 12 homens e 8 mulheres, a probabilidade de nenhum homem ganhar o sorteio (A) é P(A) 0.049. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 14/207

Teorema da probabilidade total. Definição 2.8: Os acontecimentos A 1,...,A n formam uma partição do espaço de resultados Ω quando 1. A i A j =, i j = 1,...,n. 2. n i=1a i = Ω. Teorema 2.7: Se B é um acontecimento qualquer de um espaço de resultados Ω e A 1,...,A n uma partição de Ω, então P(B) = n i=1 P(A i)p(b A i ). Exemplo 2.8: Numa caixa com 20 peças do tipo A e 80 do tipo B, sabese que 30% e 25% das peças do tipo A e B, respec., são defeituosas. A probabilidade de uma peça, seleccionada ao acaso, ser defeituosa (D) é P(D) = 0.26. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 15/207 Teorema de Bayes. Teorema 2.8: Se os acontecimentos A 1,...,A n formam uma partição do espaço de resultados Ω e B é um acontecimento qualquer de Ω com P(B) > 0, então i = 1,...,n, P(A i B) = P(A i B) P(B) = P(A i )P(B A i ) n j=1 P(A j)p(b A j ). Exemplo 2.8a: Na caixa com 100 peças dos tipos A e B (Exemplo 2.8), qual a probabilidade de uma peça seleccionada ao acaso ser do tipo A, sabendo que ela é defeituosa? P(A D) 0.231. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 16/207

Acontecimentos independentes. Definição 2.9: Diz-se que dois acontecimentos A e B de um mesmo espaço de resultados Ω são independentes se P(A B) = P(A) P(B). Todo o acontecimento A é independente de e Ω. Se A e B são acontecimentos independentes, P(A B) = P(A) se P(B) > 0 e P(B A) = P(B) se P(A) > 0. Se A e B são acontecimentos independentes, também o são Ā e B, A e B e Ā e B. Acontecimentos A e B são condicionalmente independentes ao acontecimento C, P(C) > 0, se P(A B C) = P(A C)P(B C). NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 17/207 Os acontecimentos A, B e C são completamente independentes, se P(A B) = P(A)P(B), P(A C) = P(A)P(C), P(B C) = P(B)P(C) e P(A B C) = P(A)P(B)P(C). Note-se que independência 2 a 2 independência a 3. Exemplo 2.9: Considere o espaço de resultados Ω como o quadrado de vértices (0,0), (0,1), (1,0) e (1,1). Suponha que a probabilidade de uma região (acontecimento) contida em Ω seja a área desta região. Os acontecimentos A = {(x,y) : 1/3 x 2/3, 0 y 1/2, } e B = {(x,y) : 1/2 x 1, 1/4 y 3/4, } são independentes? y 1 0 A B 1 x P(A B) = 1/24 = P(A) P(B) A e B são independentes. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 18/207

3. Variáveis aleatórias e distribuições discretas Numa experiência aleatória, independentemente de o seu espaço de resultados ser expresso numericamente, tem interesse em considerar-se funções reais, conhecidas por variáveis aleatórias. Exemplo 3.1: Numa urna com 5 peças defeituosas (D) e 4 perfeitas ( D), retiram-se ao acaso 2 duas peças sem reposição. Seja X o número de peças defeituosas nas duas peças retiradas. P(X = 0) = P( D 1 D 2 ) = 4 9 3 8 = 12 72 P(X = 1) = P( D 1 D 2 ) + P(D 1 D 2 ) = 40 72 P(X = 2) = P(D 1 D 2 ) = 20 72 NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 19/208 Variáveis aleatórias. Função de distribuição. Definição 3.1: Uma variável aleatória (v.a.) é uma função que associa um número real a cada ponto do espaço de resultados de uma experiência aleatória. Rigorosamente, dado um espaço de probabilidade (Ω, A, P ), uma variável aleatória X é uma função com domínio Ω e contradomínio na recta real (X : Ω IR) tal que o conjunto A r {w Ω : X(ω) r} A, r IR. As variáveis aleatórias podem assumir um número finito ou infinito de valores possíveis. Definição 3.2: Dada uma variável aleatória X, a função de distribuição (cumulativa) de X é dada por F X (x) P(X x), x IR. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 20/208

Variáveis aleatórias discretas. Definição 3.3: Se o conjunto dos possíveis valores de uma variável aleatória for finito ou infinito enumerável, a v.a. é dita ser discreta. Função (massa) de probabilidade. Definição 3.4: Dada uma variável aleatória discreta X com os possíveis valores x 1,x 2,..., a função f X (x i ) = P(X = x i ) denota a probabilidade de ocorrência de {x i }, conhecida por função (massa) de probabilidade (f.m.p.), satisfazendo as seguintes condições: 1. f X (x i ) > 0, i = 1, 2,... 2. i 1 f X(x i ) = 1. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 21/208 Exemplo 3.1a: Na extracção, sem reposição, de 2 peças da urna com 5 peças defeituosas e 4 perfeitas, qual a função massa de probabilidade de X (número de peças defeituosas nas 2 peças retiradas)? E a sua função de distribuição? 12, x = 0; 72 40 f X (x) =, x = 1; 72 20 72, x = 2; 0, c.c. f X (x) 1 0 1 2 x F X (x) = 0, x < 0; 12, 0 x < 1; 72 52 72, 1 x < 2; 1, x 2. F X (x) 1 0 1 2 x NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 22/208

Exemplo 3.1b: Na urna com 5 peças defeituosas (D) e 4 perfeitas ( D), retiram-se peças com reposição até à primeira peça defeituosa. Seja Z o número de peças perfeitas até encontrar a primeira peça defeituosa. Qual a função massa de probabilidade de Z? P(Z = 0) = P(D 1 ) = 5 9 P(Z = 1) = P( D 1 D 2 ) = 4 5 9 9 P(Z = 2) = P( D 1 D 2 D 3 ) = ( 4 9 )2 5 9.. P(Z = z) = ( 4 9 )z 5 = f 9 Z(z), z = 0, 1,..., que é a função massa de probabilidade de Z, satisfazendo: f Z (z) > 0, z = 0, 1,... f Z (z) = ( 5) ( 4 9 9 )z = ( 5) 1 = 1. 9 1 (4/9) z=0 z=0 NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 23/208 Propriedades da função de distribuição. Seja X uma v.a. discreta com função de probabilidade f X (x). A função de distribuição de X, F X (x), satisfaz as seguintes propriedades: P 1 : Se x y, então F X (x) F X (y). Ou seja, F X é uma função não decrescente. P 2 : Se x n x (n ), então F X (x n ) F X (x). Ou seja, F X é uma função contínua à direita. P 3 : Se x n (n ), então F X (x n ) 0 com F X ( ) = 0. P 4 : Se x n (n ), então F X (x n ) 1 com F X ( ) = 1. Note-se ainda que, se F X (x) é a função de distribuição de X (v.a. discreta com os possíveis valores x 1,x 2,...), a função massa de probabilidade é dada f X (x i ) = P(X = x i ) = F X (x i ) F X (x i 1 ). NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 24/208

Valor esperado e variância. Definição 3.5: Dada uma v.a. discreta X com f.m.p. f X (x i ), i = 1, 2,..., o valor esperado (ou valor médio ou esperança) de X é dado por E(X) = i 1 x i f X (x i ). Definição 3.6: Dada uma variável aleatória discreta X com função de probabilidade f X (x i ), i = 1, 2,..., a variância de X é dada por V ar(x) = i 1(x i E(X)) 2 f X (x i ). Outras medidas de dispersão: Desvio padrão: DP(X) = + V ar(x). Coeficiente de variação: CV (X) = DP(X)/ E(X). NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 25/208 Moda e quantis. Definição 3.7: Dada uma v.a. discreta X com f.m.p. f X (x i ), i = 1, 2,..., a moda e a mediana de X são dadas, respectivamente, por i) m o (X) = x o : max i 1 f X(x i ) = f X (x o ). ii) m d (X) = x d : P(X x d ) 0.5 e P(X x d ) 0.5. Se x i IN, pode-se encontrar x o usando as relações f X (x o )/f X (x o 1) 1 e f X (x o )/f X (x o +1) 1. Definição 3.8: Dado qualquer número p, 0 < p < 1, o p-ésimo quantil de uma variável aleatória X, denotado por q p, é dado por P(X q p ) p e P(X q p ) 1 p. Note-se que a mediana é o quantil q 0.5. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 26/208

Exemplo 3.2: Num lançamento de um dado, um jogador aposta 5 euros nas seguintes condições: i) Se sair face 6, ele ganha 4 vezes o montante apostado; ii) Se sair face 4 ou 5, ele ganha 5 euros; iii) caso contrário, ele nada ganha. Qual o lucro (X) esperado do jogador? X 5 0 15 f X (x) 1/2 1/3 1/6 E(X) = x x f X (x) = 0 euro. E o lucro modal e mediano? m o (X) = 5 euros. m d (X) = {0, 5} euros. E a variância de X? V ar(x) = x x 2 f X (x) = 50 euros 2. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 27/208 Algumas das suas propriedades. Teorema 3.1: Seja X uma variável aleatória discreta com f.m.p. f X (x i ), i = 1, 2,..., e g(x) uma função de X. O valor esperado de g(x) é E(g(X)) = i 1 g(x i )f X (x i ). Se g(x) = X k (k inteiro positivo), o valor esperado E(X k ) é conhecido por momento (ordinário) de ordem k de X. Se X uma variável aleatória com valor esperado E(X) e variância V ar(x), têm-se as seguintes propriedades: P 1 : E(aX + b) = ae(x) + b, a 0 e b constantes. P 2 : V ar(ax + b) = a 2 V ar(x), a 0 constante. P 3 : V ar(x) = E(X 2 ) E(X) 2. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 28/208

Funções de variáveis aleatórias. Seja X uma variável aleatória definida no espaço de resultados Ω associado à experiência aleatória E. Se y = g(x) é uma função real (mensurável) de x, com x = X(ω) para algum ω Ω, então Y = g(x) é também uma variável aleatória definida no mesmo espaço de probabilidade. Se X é uma variável aleatória discreta com f.m.p. f X (x) e contradomínio D = {x 1,x 2,...}, então Y = g(x) é também uma variável aleatória discreta com f.m.p. f Y (y) = P(Y = y) = P(X A y ) = f X (x i ), y D x i A y onde A y = {x D : g(x)=y} e D =g(d) é o contradomínio de Y. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 29/208 Distribuição uniforme discreta. Definição 3.9: Diz-se que uma variável aleatória X tem distribuição uniforme discreta se todos os seus valores x 1,...,x k são igualmente prováveis, com f.m.p dada por { 1/k, x = x 1,...,x k ; f X (x) = 0, c.c. O valor esperado e a variância de uma variável aleatória X com distribuição uniforme discreta {1,...,k} são, respectivamente, E(X) = 1 k k x i e V ar(x) = 1 k i=1 k x 2 i i=1 ( 1 k k ) 2 x i. i=1 NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 30/208

Distribuição hipergeométrica. Definição 3.10: Considere uma população com N elementos dos quais M possuem uma certa característica (sucesso). Retira-se uma amostra, sem reposição, de dimensão n, anotando-se o número X de elementos com a característica na amostra. A distribuição de probabilidade da v.a. X é designada distribuição hipergeométrica, cuja f.m.p. é ( M x)( N M n x ), max(0,n+m N) x min(n,m); f X (x) = ( N n) 0, c.c. O valor esperado e a variância de uma variável aleatória X com distribuição hipergeométrica (N,M,n) são, respectivamente, E(X) = n M N e V ar(x) = n M N N M N N n N 1. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 31/208 Exemplo 3.3: Seja X uma v.a. com distribuição uniforme discreta {1,...,6}. Qual a variância de X? E(X) = 1 6 6 i=1 i = 3.5 E(X 2 ) = 1 6 6 i=1 i2 15.167 V ar(x) = E(X 2 ) E(X) 2 2.917 Exemplo 3.4: Numa turma de 10 estudantes dos quais 3 são mulheres, 2 estudantes foram sorteados para formar uma comissão. Qual a probabilidade de haver pelo menos uma mulher na comissão? Seja X o número de mulheres na comissão de 2 estudantes. X Hipergeométrica(N =10,M =3,n=2). P(X 1) = 1 P(X = 0) 0.533 NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 32/208

Distribuição binomial. Definição 3.11: Uma experiência aleatória com somente dois resultados possíveis, sucesso (ocorrência de um acontecimento de interesse) e fracasso (caso contrário) é conhecida por ensaio de Bernoulli, cuja v.a. subjacente é dada por { 1, se ocorrência de sucesso; X = 0, se ocorrência de fracasso e a sua função massa de probabilidade é dada por { p x (1 p) 1 x, x = 0, 1; f X (x) = 0, c.c., onde p = P(X = 1) é a probabilidade de sucesso, 0 < p < 1. Consequentemente, E(X) = p e V ar(x) = p(1 p). NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 33/208 Definição 3.12: Considere uma experiência aleatória com n ensaios de Bernoulli independentes e todos com probabilidade de sucesso p. A v.a. correspondente ao número X de sucessos na experiência tem distribuição binomial com parâmetros n e p, com f.m.p. f X (x) = {( n x) p x (1 p) n x, x = 0, 1,...,n; 0, c.c. O valor esperado e a variância de X Binomial(n,p) são, respectivamente, E(X) = np e V ar(x) = np(1 p). Se X i Bernoulli(p), i=1,...,n, são v.a. independentes, então X = n i=1 X i Binomial(n,p). Se X Binomial(n, p), então n X Binomial(n, (1 p)). NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 34/208

Distribuição Binomial (n=10,p=0.2) Distribuição Binomial (n=10,p=0.8) f(x) 0.0 0.1 0.2 0.3 0.4 f(x) 0.0 0.1 0.2 0.3 0.4 0 2 4 6 8 10 x 0 2 4 6 8 10 x Distribuição Binomial (n=10,p=0.5) Distribuição Binomial (n=30,p=0.5) f(x) 0.0 0.1 0.2 0.3 0.4 f(x) 0.0 0.1 0.2 0.3 0.4 0 2 4 6 8 10 x 0 5 10 15 20 25 30 x NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 35/208 Exemplo 3.5: Considere um teste de múltipla escolha com 10 questões, onde somente uma das 5 alíneas de cada questão está correcta. Qual a probabilidade de um aluno acertar pelo menos metade das questões fazendo o teste ao acaso? Seja X o número de questões correctas no teste do aluno. Binomial(n = 10,p = 1/5). X P(X 5) = 1 F X (4) = 1 0.9219 = 0.0781 Qual a nota esperada desse aluno, se cada questão correcta vale 1? E a variância de X? E(X) = 2 valores V ar(x) = 1.6 valores 2 NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 36/208

Distribuição geométrica. Definição 3.13: Considere uma experiência aleatória envolvendo a realização de ensaios de Bernoulli independentes, com probabilidade de sucesso p, até à ocorrência do primeiro sucesso. A v.a. X número de ensaios realizados até à ocorrência do primeiro sucesso tem distribuição geométrica com parâmetro p, 0 < p < 1, com f.m.p. { (1 p) x 1 p, x = 1, 2,...; f X (x) = 0, c.c., O valor esperado e a variância de X Geométrica(p) são, respectivamente, E(X) = 1 e V ar(x) = 1 p. p p 2 NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 37/208 Teorema 3.2: (Propriedade da falta de memória) Se uma v.a. X Geométrica(p), então P(X > i + j X > j) = P(X > i), i,j = 1, 2,.... Exemplo 3.6: Seja X o número de lançamentos de um dado até ao surgimento da primeira face 6. Qual o número esperado de lançamentos do dado até sair face 6? Como X Geométrica(p = 1 ), E(X) = 6 lançamentos. 6 Qual a probabilidade de haver mais de 7 lançamentos, sabendo que já houve mais de 3 lançamentos do dado? P(X > 7 X > 3) = P(X > 4) = x 5 ( ) x 1 5 1 6 6 0.4822 NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 38/208

Distribuição de Poisson. Definição 3.14: Em algumas experiências aleatórias, anota-se por vezes o número X de ocorrências de um evento de interesse num dado intervalo de tempo, superfície, volume, etc. A v.a. X tem distribuição de Poisson de parâmetro λ quando a sua f.m.p. é dada por f X (x) = { e λ λ x, x! x = 0, 1, 2,... ; 0, c.c., onde λ é a taxa (esperada) de ocorrência do evento de interesse. O valor esperado e a variância de X Poisson(λ) são iguais a E(X) = V ar(x) = λ. Neste cenário, X poderá representar, e.g., o número de chamadas telefónicas recebidas durante 1 hora num dado escritório. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 39/208 Teorema 3.3: Seja X o número de ocorrências de um evento de interesse num dado período de tempo (região). Se X Poisson(λ), então t X = X i, i=1 com X i Poisson( λ ), i = 1,...,t (independentes e identicamente t distribuídas), sendo X i o número de ocorrências do evento em cada uma das t fracções do período de tempo (região). Exemplo 3.7: Suponha que X é o número de passas de um bolo-rei oriundo de uma padaria que se sabe ter uma distribuição de Poisson com taxa média de 5 passas por bolo. Qual a probabilidade de encontrar pelo menos 1 passa em meio bolo-rei dessa padaria? Seja X o número de passas em meio bolo-rei produzido nessa padaria. X Poisson(λ = 2.5). P(X 1) = 1 P(X = 0) = 1 e 2.5 0.918. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 40/208

4. Variáveis aleatórias e distribuições contínuas Exemplo 4.1: Seja X o momento de paragem do ponteiro dos minutos que avança continuamente num relógio avariado. Qual a probabilidade do ponteiro dos minutos parar nos 15 primeiros segundos? P(X 15) = #pontos[0, 15] #pontos[0, 60] = comprimento[0, 15] comprimento[0, 60] = 15 60 = 1 4. Note-se que P(X =15) = 0 pois há infinitos pontos em [0, 60]. Variáveis aleatórias contínuas. Definição 4.1: Se o conjunto dos possíveis valores de uma v.a. for infinito não enumerável, a v.a. diz-se contínua, em certas condições. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 41/208 Função densidade de probabilidade. Definição 4.2: Diz-se que X é uma v.a. contínua, se existir uma função f X, denominada função densidade de probabilidade (f.d.p.) de X, satisfazendo as seguintes condições: 1. f X (x) 0, x IR. 2. f X(x)dx = 1. 3. Para qualquer conjunto B IR, P(X B) = B f X(x)dx. Se X é uma v.a. contínua com f.d.p. f X (x) e a e b constantes reais, P(a X b) representa a área sob a função f X (x) entre a e b. Se a = b em i), P(X = a) = a a f X(x)dx = 0. f X (a) pode ser interpretada como a massa de probabilidade, para ǫ pequeno, por unidade de comprimento P(a ǫ 2 X a + ǫ 2 ) = a+ ǫ 2 a ǫ 2 f X (x)dx ǫf X (a). NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 42/208

Definição 4.3: Dada uma v.a. contínua X com f.d.p. f X (x), a função de distribuição (cumulativa) de X é dada por F X (x) P(X x) = x f X (u)du, x IR. Se X é uma v.a. contínua com função de distribuição F X (x), P(a < X b) = F X (b) F X (a), sendo a e b constantes reais. A f.d.p. de uma v.a. contínua X pode ser obtida pela derivação da sua função de distribuição, i.e., f X (x) = d F(x), nos pontos de dx diferenciabilidade desta. As propriedades da função de distribuição (Capítulo 3): P 1 : Se x y, F X (x) F X (y). P 2 : Se x n x (n ), F X (x n ) F X (x) (continuidade). P 3 : Se x n (n ), F X (x n ) 0 com F X ( ) = 0. P 4 : Se x n (n ), F X (x n ) 1 com F X ( ) = 1. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 43/208 Exemplo 4.2: Seja X o tempo de vida de uma componente electrónica. Suponha que X é uma v.a. contínua com f.d.p. f X (x) = e x, se x > 0, e f X (x) = 0, caso contrário. Qual a função de distribuição de X? F X (x) = { x e u du = 1 e x, x > 0; 0, x 0. Função Densidade de Probabilidade Função de Distribuição f(x) 0.0 0.2 0.4 0.6 0.8 1.0 F(x) 0.0 0.2 0.4 0.6 0.8 1.0 0 2 4 6 8 10 x 0 2 4 6 8 10 x NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 44/208

Valor esperado e variância. Moda e quantis. Definição 4.4: Dada uma v.a. contínua X com f.d.p. f X (x), i) O valor esperado (ou valor médio ou esperança) de X é dado por E(X) = x f X (x)dx. ii) A variância de X é dada por V ar(x) = (x E(X)) 2 f X (x)dx. iii) A moda de X é m o (X) = x o : max x f X (x) = f X (x o ). iv) A mediana de X é m d (X) = x d : P(X x d ) = 0.5. v) O p-ésimo quantil de X é q p : P(X q p ) = p. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 45/208 Algumas das suas propriedades. Teorema 4.1: Seja X uma v.a. contínua com f.d.p. f X (x) e g(x) uma função de X. O valor esperado de g(x) é E(g(X)) = g(x)f X (x)dx. Note-se que o valor esperado E(X k ), k inteiro positivo, é o momento (ordinário) de ordem k de X. Algumas propriedades do valor esperado E(X) e variância V ar(x) (Capítulo 3): P 1 : E(aX + b) = ae(x) + b, a 0 e b constantes. P 2 : V ar(ax + b) = a 2 V ar(x), a 0 constante. P 3 : V ar(x) = E(X 2 ) E(X) 2. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 46/208

Exemplo 4.3: A percentagem de uma substância (100X) em um certo composto químico é tal que X é uma v.a. descrita pela função { 20x 3 (1 x), 0 x 1; f X (x) = 0, c.c. Será f X (x) uma f.d.p.? Sim. i) f X (x) 0, x IR. ii) 1 0 20x3 (1 x)dx = 20[ x4 4 x5 5 ] 1 0 = 20( 1 4 1 5 ) = 1. Qual a percentagem média da substância no composto? E(X) = 1 0 Aproximadamente 66.67%. [ ] x x 20x 3 5 1 (1 x)dx = 20 5 x6 6 0 ( ) 1 = 20 5 1 = 2 6 3 NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 47/208 Funções de variáveis aleatórias. Seja X uma variável aleatória contínua com f.d.p. f X (x), < x <, e y = g(x) é uma função real de x diferenciável em todos os pontos do respectivo domínio e estritamente monótona, então Y = g(x) é também uma v.a. contínua com f.d.p. f Y (y) = d dy F Y (y) = d dx F X(g 1 (y)) dx dy = f X(g 1 (y)) dx dy, com g( ) < y < g( ). Exemplo 4.4: Se X é uma v.a. contínua com f.d.p. f X (x) = 1, se 0 < x < 1, e 0, caso contrário, qual a f.d.p. de Y = e X? f Y (y) = f X (log y) d dy log y = { 1/y, 1 < y < e; 0, c.c. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 48/208

Distribuição uniforme contínua. Definição 4.5: Diz-se que uma variável aleatória X tem distribuição uniforme contínua (ou rectangular) se, para qualquer ponto entre a e b (a < b), a sua f.d.p. é dada por f X (x) = { 1 b a a < x < b; 0, c.c. O valor esperado e a variância de uma v.a. X com distribuição uniforme contínua (a,b) são, respectivamente, E(X) = b + a 2 e V ar(x) = (b a)2. 12 NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 49/208 Exemplo 4.5: Sabe-se que o tempo X gasto por um aluno no trajecto de casa para a Escola pode ser qualquer valor entre 20 a 40 minutos (valores igualmente prováveis). Saindo de casa às 12:30 para assistir a aula das 13:00, qual a probabilidade de ele chegar atrasado? Seja p a probabilidade de o aluno chegar atrasado à Escola. Se a v.a. X Uniforme(20, 40), 40 1 p = P(X > 30) = 20 dx = 1 40 20 x = 1 2. 30 Em 12 dias, qual o número esperado de dias em que ele chega atrasado? Seja Y o número de dias em que o aluno chega atrasado à Escola. Supondo independência entre os tempos gastos nos 12 dias e a mesma probabilidade de atraso p, Y Binomial(n = 12,p = 0.5) e, por conseguinte, E(Y ) = np = 12 0.5 = 6 dias. 30 NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 50/208

Distribuição normal. Definição 4.6: Diz-se que uma v.a. contínua X tem distribuição normal (ou gaussiana) com média µ e variância σ 2, denotada por N(µ,σ 2 ), se a sua f.d.p. é dada por f X (x) = 1 2π σ exp [ 1 ] 2σ2(x µ)2, < x <. Propriedades da curva gaussiana f X (x): Como a função é simétrica em relação a µ, a mediana de X é µ. f X (x) atinge o ponto máximo em x = µ com valor 1/( 2π σ) e portanto a moda de X é µ. A curva gaussiana tem 2 pontos de inflexão em x = µ ± σ. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 51/208 Função Densidade de Probabilidade Normal f(x) 0.0 0.2 0.4 0.6 0.8 1.0 N(0,1) N(1,2) N( 1,0.5) 4 2 0 2 4 6 x NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 52/208

Teorema 4.2: Se uma v.a. X N(µ,σ 2 ), Y = ax + b N(aµ + b,a 2 σ 2 ), com a e b constantes reais. Corolário 4.1: Se uma v.a. X N(µ,σ 2 ), então Z = (X µ)/σ N(0, 1), conhecida por distribuição normal reduzida (ou padronizada), cujas probabilidades encontram-se em tabelas. Exemplo 4.6: Suponha que a altura X dos alunos de uma turma de PE tem distribuição normal com média µ = 160cm e desvio padrão σ = 20cm. Qual a probabilidade de um aluno seleccionado ao acaso ter altura ente 150 e 170 cm? P(150 < X < 170) = P ( 150 160 < X µ 20 σ ) < 170 160 20 = P( 0.5 < X < 0.5) = F Z (0.5) F Z ( 0.5) = 0.6915 0.3085 = 0.383. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 53/208 Distribuição exponencial. Definição 4.7: Diz-se que uma v.a. contínua X tem distribuição exponencial, com parâmetro λ > 0, se a sua f.d.p. é dada por { λe λ x, x 0; f X (x) = 0, c.c. Esta distribuição é bastante utilizada para descrever tempos de vida de componentes ou animais em estudos de Análise de Fiabilidade e Sobrevivência. O valor esperado e a variância de uma v.a. X com distribuição exponencial (λ) são, respectivamente, E(X) = 1 λ e V ar(x) = 1 λ 2. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 54/208

Exemplo 4.7: Suponha que o tempo X de falha de duas componentes electrónicas tem distribuição exponencial com média de 5 hs (componente C 1 ) e de 10 hs (C 2 ). Considere ainda que elas estão ligadas num sistema em paralelo e que o funcionamento de cada uma não depende do da outra. Qual a fiabilidade do sistema após 20 horas? A fiabilidade do sistema com as duas componentes em pararelo é a probabilidade de pelo menos uma componente funcionar, denotada por P(C 1 C 2 ) = P(C 1 ) + P(C 2 ) P(C 1 C 2 ) = 0.0183 + 0.1353 0.0183 0.1353 = 0.1511, uma vez que elas são independentes e a fiabilidade de cada uma é P(C 1 ) = P(X 1 > 20) = 20 P(C 2 ) = P(X 2 > 20) = 20 1 5 e 1 5 x 1 dx 1 = e 20 5 = e 4 = 0.0183, 1 10 e 1 10 x 2 dx 2 = e 20 10 = e 2 = 0.1353. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 55/208 Teorema 4.3: (Propriedade da falta de memória) Se uma v.a. X Exponencial(λ), então P(X > s + t X > t) = P(X > s), s,t 0. Teorema 4.4: Seja N t o número de ocorrências num intervalo de tempo de comprimento t, com N t Poisson(λt). Considere ainda que X 1 é o tempo decorrido até à primeira ocorrência, enquanto X i, i > 1, é o tempo decorrido entre as ocorrências i 1 e i. A sequência X 1,X 2,... é formada por v.a. independentes e identicamente distribuídas com X i Exponencial(λ), i =1, 2,..., onde λ é a taxa média de ocorrências por unidade de tempo. Nomeadamente, P(X 1 > t) = P(N t = 0) = e λ t X 1 Exponencial(λ). P(X 2 > t) = P(X 2 > t X 1 = s) = P(N (s,s+t] = 0 X 1 = s) = P(N (s,s+t] = 0) = P(N t = 0) = e λ t X 2 Exponencial(λ). * pela suposição de independência e estacionaridade das ocorrências. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 56/208

5. Distribuições conjuntas de probabilidade e complementos Por vezes, a observação de uma única variável não é suficiente para explicar um fenómeno aleatório, sendo necessário observar mais do que uma variável aleatória (caso multivariado) e, por conseguinte, definir as funções de probabilidade conjunta. Duas variáveis aleatórias discretas ou contínuas. Exemplo 5.1: Sejam X e Y os números de cartas rei/dama e ás em 2 cartas retiradas (sem reposição) de um baralho com 52 cartas, respectivamente. Quais as probabilidades conjuntas (não nulas) do par aleatório (X,Y )? NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 57/207 P(X = 0,Y = 0) = ( 8 4 0)( 0 P(X = 0,Y = 1) = ( 8 4 0)( 1 P(X = 0,Y = 2) = ( 8 4 0)( 2 P(X = 1,Y = 0) = ( 8 4 1)( 0 P(X = 1,Y = 1) = ( 8 4 1)( 1 P(X = 2,Y = 0) = ( 8 4 2)( 0 )( 40 )( 2 40 )( 1 40 )( 0 40 )( 1 40 )( 0 40 0 ) ( / 52 ) 2 = 780/1326 0.589 ) ( / 52 ) 2 = 160/1326 0.121 ) ( / 52 ) 2 = 6/1326 0.004 ) ( / 52 ) 2 = 320/1326 0.241 ) ( / 52 ) 2 = 32/1326 0.024 ) ( / 52 ) 2 = 28/1326 0.021 X\Y 0 1 2 0 0.589 0.121 0.004 0.714 1 0.241 0.024 0 0.265 2 0.021 0 0 0.021 0.851 0.145 0.004 1 NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 58/207

Distribuições conjuntas. Definição 5.1: Se X e Y são duas v.a. discretas (contínuas), a sua função massa (densidade) de probabilidade conjunta é uma função f X,Y (x,y), satisfazendo as seguintes condições: 1. f X,Y (x,y) 0, (x,y). 2. x y f X,Y (x,y) = 1 (caso discreto), f IR IR X,Y (x,y)dxdy = 1 (caso contínuo). Definição 5.2: Dado um par aleatório (X,Y ), a sua função de distribuição conjunta é dada por F X,Y (x,y) = { P(X x,y y) u x v y = f X,Y (u,v) y f X,Y (u,v)dvdu x (caso discreto), (caso contínuo). NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 59/207 Propriedades da função de distribuição F X,Y (x,y) de um par aleatório (X,Y ): P 1 : F X,Y (x,y) é uma função não decrescente em cada uma das variáveis, e.g., x,y 1 y 2, F X,Y (x,y 1 ) F X,Y (x,y 2 ). P 2 : F X,Y (x,y) é uma função contínua à direita em cada uma das variáveis, e.g., se x n x (n ), então F X,Y (x n,y) F X,Y (x,y). P 3 : P 4 : lim F X,Y (x,y) = lim F X,Y (x,y) = lim F X,Y (x,y) = 0. x,y x y lim F X,Y (x,y) = 1. x,y Note-se que a função densidade de probabilidade conjunta de (X, Y ) pode ser obtida a partir da respectiva função de distribuição por diferenciação, nos pontos (x,y) de diferenciabilidade desta, i.e., f X,Y (x,y) = 2 x y F X,Y (x,y). NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 60/207

Exemplo 5.2: Num sistema com 2 componentes electrónicas, seja X (Y ) a duração (em horas) da sua primeira (segunda) componente. Será f X,Y (x,y) abaixo uma f.d.p. conjunta do par aleatório (X,Y )? { e x y, x > 0,y > 0; f X,Y (x,y) = 0, c.c. f X,Y (x,y) 0, (x,y) IR 2, f X,Y (x,y)dxdy = = = 0 0 Sim, f X,Y (x,y) é uma f.d.p. conjunta. 0 e y e x dxdy 0 e y [ e x ] dy 0 e y dy = [ e y ] 0 = 1. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 61/207 Qual a probabilidade de as duas componentes durarem no máximo 2 horas? P(X 2,Y 2) = F X,Y (2, 2) = 2 2 0 0 e x y dxdy = 2 0 e y ( e x ) 2 0dy = (1 e 2 )( e y ) 2 0 = (1 e 2 ) 2 0.7477 Qual a probabilidade de a primeira componente durar mais do que a segunda? y A x P(X > Y ) = f A X,Y (x,y)dxdy = e x y dxdy 0 y = e y ( e x ) 0 y dy = e 2y dy = 0.5( e z ) 0 0 = 0.5 NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 62/207

Distribuições marginais. Definição 5.3: Dado um par aleatório (X, Y ) de v.a. discretas (contínuas) com função massa (densidade) de probabilidade conjunta f X,Y (x,y), as funções massa (densidade) de probabilidade marginais de X e de Y são, respectivamente, dadas por f X (x) = ( ) f X,Y (x,y) f X,Y (x,y)dy, y IR f Y (y) = ( ) f X,Y (x,y) f X,Y (x,y)dx. x IR Note-se que as funções f X (x) e f Y (y) satisfazem as propriedades de f.m.p (f.d.p.), estando associadas igualmente a funções de distribuição (marginais). Por exemplo, se (X,Y ) é contínuo: i) f X (x) 0, x IR; ii) f X(x)dx = 1; iii) F X (x) = P(X x) = x f X(u)du. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 63/207 Exemplo 5.2a: No sistema com duas componentes electrónicas, qual a função de distribuição conjunta de (X,Y ), sendo X e Y as durações das componentes? F X,Y (x,y) = y x f X,Y (u,v)dudv x,y>0 = y x 0 0 e u v dudv = y 0 e v ( e u ) x 0 dv = (1 e x ) y f X (x) = x>0 = { (1 e x )(1 e y ), x,y > 0; 0, c.c. 0 e v dv, E as funções densidade de probabilidade marginais de X e Y? { e x, x > 0; f Y (y) y>0 = e x y dy = e x ( e y ) 0 = 0 0, c.c. { e x y dx = e y ( e x ) e y, y > 0; 0 = 0, c.c. 0 NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 64/207

Distribuições condicionais. Definição 5.4: Dado um par aleatório (X, Y ) de v.a. discretas (contínuas) com função massa (densidade) de probabilidade conjunta f X,Y (x,y), a função massa (densidade) de probabilidade condicional de X dado Y = y é expressa por f X Y =y (x) = f X,Y (x,y)/f Y (y), se f Y (y) > 0. Analogamente, a função massa (densidade) de probabilidade condicional de Y dado X = x é f Y X=x (y) = f X,Y (x,y)/f X (x), se f X (x) > 0. Observe-se que as funções condicionais f X Y =y (x) e f Y X=x (y) satisfazem as propriedades de f.m.p (f.d.p.), possuindo igualmente funções de distribuição (condicionais). NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 65/207 Exemplo 5.1a: X e Y são os números de cartas rei/dama e ás em 2 cartas retiradas do baralho (sem reposição), respectivamente. X\Y 0 1 2 0 0.589 0.121 0.004 0.714 1 0.241 0.024 0 0.265 2 0.021 0 0 0.021 0.851 0.145 0.004 1 A função massa de probabilidade condicional de Y dado X = 0 é Y X = 0 0 1 2 f Y X=0 (y) 0.589 0.714 = 0.825 0.121 0.714 = 0.169 0.004 0.714 = 0.006 Note-se que f Y X=0 (y) = y y f X,Y (0,y) f X (0) = 1 f X,Y (0,y) = 1 f X (0) y NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 66/207

Independência. Teorema 5.1: Duas variáveis aleatórias X e Y são ditas independentes, se para todo A e B, os eventos X A e Y B são independentes, i.e., P(X A,Y B) = P(X A)P(Y B). Teorema 5.2: Duas variáveis aleatórias X e Y discretas (contínuas) são independentes, se a função massa (densidade) de probabilidade conjunta de (X,Y ) é dada por f X,Y (x,y) = f X (x)f Y (y), (x,y), onde f X (x) e f Y (y) são as funções massa (densidade) de probabilidade marginal de X e Y, respectivamente. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 67/207 Teorema 5.3: Duas variáveis aleatórias X e Y são independentes, se a função de distribuição conjunta de (X,Y ) é dada por F X,Y (x,y) = F X (x)f Y (y), (x,y), onde F X (x) e F Y (y) são as funções de distribuição marginal de X e Y, respectivamente. Exemplo 5.2b: X e Y são as durações (em horas) de duas componentes electrónicas do sistema. f X,Y (x,y) = { e (x+y) = e x e y, x,y > 0; 0, c.c. = f X (x)f Y (y), (x,y). X e Y são variáveis aleatórias independentes. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 68/207

Valor esperado e variância. Definição 5.5: Dado um par aleatório (X,Y ) com f.m.p. ou f.d.p. conjunta f X,Y (x,y), o valor esperado de uma função g(x,y ) é dado por { x y E(g(X,Y )) = g(x,y)f X,Y (x,y) g(x,y)f IR IR X,Y (x,y)dxdy (caso discreto), (caso contínuo). Exemplo 5.3: Seja (X, Y ) um par aleatório com f.d.p. conjunta f X,Y (x,y) e marginais f X (x) e f Y (y). Qual o valor esperado de X+Y? E(X + Y ) = (x + y)f X,Y (x,y)dxdy = x f X,Y (x,y)dydx + y f X,Y (x,y)dxdy = xf X(x)dx + yf Y (y)dy = E(X) + E(Y ). NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 69/207 E a variância de X + Y? E((X + Y ) 2 ) = (x + y)2 f X,Y (x,y)dxdy = x2[ f X,Y (x,y)dy ] dx +2 xyf X,Y (x,y)dxdy + y2[ f X,Y (x,y)dx ] dy = x2 f X (x)dx + 2E(XY ) + y2 f Y (y)dy = E(X 2 ) + 2E(XY ) + E(Y 2 ) V ar(x + Y ) = E((X + Y ) 2 ) (E(X + Y )) 2 = E(X 2 ) + 2E(XY ) + E(Y 2 ) (E(X)) 2 2E(X)E(Y ) (E(Y )) 2 = V ar(x) + V ar(y ) + 2(E(XY ) E(X)E(Y )). NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 70/207

Teorema 5.4: Se X e Y são variáveis aleatórias independentes com f.m.p. (f.d.p.) conjunta f X,Y (x,y) e marginais f X (x) e f Y (y), então E(X Y ) = E(X)E(Y ). E(X Y ) = x y xyf X,Y (x,y) (caso discreto) = x y xyf X(x)f Y (y) = x xf X(x) y yf Y (y) = E(X)E(Y ). Exemplo 5.2c: X e Y são durações de 2 componentes electrónicas. E(X) = xe x dx = xe x 0 0 + e x dx = 0 e x 0 0 = 1 E(Y ) = ye y dy = 1, visto que Y Exponencial(λ = 1) 0 E(XY ) = 0 xy e (x+y) dxdy = xe x dx 0 0 E(XY ) = E(X)E(Y ). 0 ye y dy = 1 NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 71/207 Definição 5.6: Dado um par aleatório (X, Y ) discreto (contínuo) com f.m.p. (f.d.p.) condicional de X dado Y = y denotada por f X Y =y (x), o valor esperado condicional de X dado Y = y é dado por E(X Y = y) = { x xf X Y =y(x) (caso discreto), xf IR X Y =y(x)dx (caso contínuo). Enquanto a variância condicional de X dado Y = y é dada por (x E(X Y =y)) 2 f X Y =y (x) V ar(x Y = y) = x IR (caso discreto), (x E(X Y =y)) 2 f X Y =y (x)dx (caso contínuo). NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 72/207

Propriedades do valor esperado condicional: Se (X, Y ) um par aleatório com f.m.p. (f.d.p.) conjunta f X,Y (x,y) e marginais f X (x) e f Y (y), 1. E(E(X Y )) = E(X), caso E(X) < e f Y (y) > 0. 2. E(E(Y X)) = E(Y ), caso E(Y ) < e f X (x) > 0. Denotando ψ(y) como o valor esperado condicional de X dado Y = y (caso contínuo), i.e., ψ(y) = E(X Y = y) = xf X Y =y (x)dx = x f X,Y (x,y) dx, f Y (y) IR E(E(X Y )) = E(ψ(Y )) = ψ(y)f IR Y (y)dy = [ IR IR xf X,Y (x,y) f Y dx ] f (y) Y (y)dy = x[ f IR IR X,Y (x,y)dy ] dx = xf IR X(x)dx = E(X) IR NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 73/207 Covariância. Definição 5.7: Dadas duas v.a. X e Y, a covariância de X e Y é o valor esperado do produto dos desvios de X e Y em relação aos seus valores esperados, i.e., Cov(X,Y ) = E[(X E(X))(Y E(Y ))]. Propriedades da covariância: Dado um par aleatório (X, Y ) com f.m.p. (f.d.p.) conjunta f X,Y (x,y), 1. Cov(X,Y ) = x y (x E(X))(y E(Y ))f X,Y (x,y) (caso discreto). 2. Cov(X,Y ) = (x E(X))(y E(Y ))f IR IR X,Y (x,y)dxdy (caso contínuo). 3. Cov(X,X) = V ar(x). 4. Cov(X,Y ) = E(XY ) E(X)E(Y ). NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 74/207

Teorema 5.5: Se X e Y são v.a. independentes, então a covariância de X e Y é nula. Cov(X,Y ) = E(XY ) E(X)E(Y ) = 0, visto que E(XY ) = E(X)E(Y ), quando X e Y são independentes. Exemplo 5.4: Sejam X e Y duas v.a. contínuas com f.d.p. conjunta f X,Y (x,y) = 1, se 0 x,y 1, e 0, c.c.. E(XY ) = 1 E(X) = 1 0 E(Y ) = 1 0 1 0 0 1 xy 1dxdy = (x2 2 ) 1 0 ( y2 2 ) 1 0 = 1 4. x 1dxdy = 1 0 0 (x2 2 ) 1 0 dy = 1 2 (y) 1 0 = 1. 2 1 y 1dxdy = 1 0 0 (y2 2 ) 1 0 dx = 1 2 (x) 1 0 = 1. 2 Cov(X,Y ) = 1 1 1 = 0. 4 2 2 Resultado previsível pois X e Y são v.a. independentes. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 75/207 Exemplo 5.5: Sejam X, Y e Z variáveis aleatórias. Qual a covariância de X + Z e Y? Cov(X + Z,Y ) = E((X + Z)Y ) E(X + Z)E(Y ) = E(XY ) + E(ZY ) E(X)E(Y ) E(Z)E(Y ) = Cov(X,Y ) + Cov(Z,Y ) E a variância de X Y, se X e Y são independentes? V ar(x Y ) = E((X Y ) 2 ) (E(X Y )) 2 = E(X 2 ) 2E(XY ) + E(X) 2 (E(X)) 2 + 2E(X)E(Y ) (E(Y )) 2 = V ar(x) + V ar(y ) 2Cov(X,Y ) Se X e Y são independentes, V ar(x Y ) = V ar(x) + V ar(y ). NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 76/207

Correlação. Definição 5.8: Dado um par aleatório (X,Y ), o coeficiente de correlação de X e Y é dado por Corr(X,Y ) = Cov(X,Y ) V ar(x)v ar(y ). Propriedades do coeficiente de correlação: aleatório e a 0 e b constantes reais. 1. 1 Corr(X,Y ) 1. 2. Corr(aX,Y + b) = a Corr(X,Y ). a Sejam (X, Y ) um par 3. Se Y = ax + b, Corr(X,Y ) = ±1 (correlação linear perfeita). Note-se que Corr(X,Y ) = 0 (i.e., Cov(X,Y ) = 0) não implica independência entre X e Y. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 77/207 Exemplo 5.1b: X e Y são os números de cartas rei/dama e ás em 2 cartas retiradas do baralho (sem reposição), respectivamente. Qual o coeficiente de correlação de X e Y? X\Y 0 1 2 0 0.589 0.121 0.004 0.714 1 0.241 0.024 0 0.265 2 0.021 0 0 0.021 0.851 0.145 0.004 1 E(X) = 0 0.714 + 1 0.265 + 2 0.021 = 0.307. E(X 2 ) = 0 2 0.714 + 1 2 0.265 + 2 2 0.021 = 0.349. E(Y ) = 0 0.851 + 1 0.145 + 2 0.004 = 0.153. E(Y 2 ) = 0 2 0.851 + 1 2 0.145 + 2 2 0.004 = 0.161. E(XY ) = 0 0 0.589+ +1 1 0.024+ +2 2 0 = 0.024. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 78/207

V ar(x) = E(X 2 ) E(X) 2 = 0.349 0.307 2 = 0.2547. V ar(y ) = E(Y 2 ) E(Y ) 2 = 0.161 0.153 2 = 0.1376. Cov(X,Y ) = E(XY ) E(X)E(Y ) = 0.024 0.307 0.153 = 0.023. Corr(X,Y ) = 0.023 = 0.023 0.2547 0.1376 0.1872 = 0.123. As variáveis X e Y estão fracamente correlacionadas linearmente e de uma forma negativa (quando uma variável cresce a outra decresce). Note-se que Corr(X,Y ) 0 X e Y não são independentes. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 79/207 Definição 5.9: Dadas n v.a. X 1,...,X n e n constantes reais c 1,...,c n, uma combinação linear das variáveis aleatórias é uma v.a. Y tal que n Y = c i X i. Algumas de suas propriedades: i=1 1. E(Y ) = E( n i=1 c ix i ) = n i=1 c ie(x i ). 2. V ar(y ) = V ar( n i=1 c ix i ) = n i=1 c2 iv ar(x i ), assumindo que X 1,...,X n são v.a. independentes. Teorema 5.6: Se X 1,...,X n são v.a. independentes tais que X i N(µ i,σ 2 i ), i=1,...,n, então para c 1,...,c n constantes reais Y = n i=1 ( n c i X i N i=1 c i µ i, n c 2 iσi 2 i=1 ). NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 80/207

Teorema 5.7: Se X 1,...,X n são v.a. independentes tais que X i Bernoulli(p), i=1,...,n, então Y = n X i Binomial(n,p), i=1 e, por conseguinte, E(Y ) = n i=1 E(X i) = n i=1 p = np, V ar(y ) = n i=1 V ar(x i) = n i=1 p(1 p) = np(1 p). Teorema 5.8: Se X 1,...,X n são v.a. independentes tais que X i Poisson(λ i ), i=1,...,n, então Y = n i=1 ( X i Poisson λ = n λ i ). i=1 NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 81/207 Exemplo 5.6: Suponha que X 1 e X 2 são v.a. independentes com distribuição de Poisson com parâmetros λ 1 e λ 2, respectivamente. Qual a distribuição de X 1 + X 2? Seja Z = X 1 + X 2 uma v.a. com f.m.p. f Z (z), i.e., f Z (z) P(Z = z) = x 1 P(X 1 = x 1,Z = z) = x 1 P(X 1 = x 1 )P(Z = z X 1 = x 1 ) = x 1 P(X 1 = x 1 )P(X 2 = z x 1 X 1 = x 1 ) = x 1 P(X 1 = x 1 )P(X 2 = z x 1 ) = z x 1 =0 e λ 1λ 1 x 1 x 1! = e (λ 1 +λ 2 ) z! (λ 1 + λ 2 ) z e λ z x 2λ 2 1 (z x 1 = e (λ 1 +λ 2 ) )! z! z z! x 1!(z x 1 )! λx 1 1 λ z x 1 2 x 1 =0 Consequentemente, Z = X 1 + X 2 Poisson(λ = λ 1 + λ 2 ). NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 82/207

Proposição 5.1: Sejam X 1,...,X n e Y 1,...,Y m variáveis aleatórias. ( n Cov i=1 X i, m ) Y j = j=1 n i=1 m Cov(X i,y j ). j=1 Corolário 5.1: Sejam X 1,...,X n variáveis aleatórias. ( n V ar i=1 X i ) = n V ar(x i ) + i=1 n i=1 n j i=1 Cov(X i,x j ). Teorema 5.9: Se X 1,...,X n são variáveis aleatórias independentes, ( n V ar i=1 X i ) = n V ar(x i ). i=1 NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 83/207 Vector aleatório. X = (X 1,...,X n ) diz-se um vector aleatório em IR n, se X i, 1,...,n, são variáveis aleatórias. Consequentemente, se E(X i ) = µ i, V ar(x i ) = σ 2 i e Cov(X i,x j ) = σ ij, j i, então o valor esperado e a matriz de covariâncias de X são, respectivamente, E(X) = µ = (µ 1,...,µ n ) T V ar(x) = E((X µ)(x µ) T ) = σ1 2 σ 12 σ 1n σ 21 σ2 2 σ 2n.................. σ n1 σ n2 σn 2 Note-se que, se X 1,...,X n são v.a. independentes com E(X i ) = µ e V ar(x i ) = σ 2, então V ar(x) = σ 2 I, onde I é a matriz identidade de ordem n. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 84/207

Distribuição multinomial. Definição 5.10: Considere uma experiência aleatória com n ensaios independentes de k acontecimentos possíveis tais que p i é a probabilidade do acontecimento i e k i=1 p i = 1. Sejam X 1,X 2,...,X n as v.a. que designam o número de vezes em que cada um dos acontecimentos se realiza nos n ensaios com x i = 0, 1,...,n e k i=1 x i = n. O vector aleatório X = (X 1,...,X n ) tem distribuição multinomial com parâmetros n e p = (p 1,...,p n ), com f.m.p. conjunta f X (x) = { n! p x 1!x 2!...x k! 1 x 1 x p 2 x 2...p k k, xi {0, 1,...,n}; 0, c.c. com p k = 1 p 1... p k 1 e x k = n x 1... x k 1. Pode-se provar que X i Binomial(n,p i ), E(X i ) = np i, V ar(x i ) = np i (1 p i ) e Cov(X i,x j ) = np i p j, j i=1,...,k. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 85/207 Aproximações entre distribuições. Teorema 5.10: Se X é uma v.a. com distribuição binomial de parâmetros n e p, X tem aproximadamente distribuição de Poisson com parâmetro λ = np, quando n e p 0. f X (x) = ( ) n x p x (1 p) n x = n! x!(n x)! (λ n )x (1 λ n )n x, = n(n 1)...(n x+1) n x 1 λx = e λ λ x x!. e λ x! 1 λx (1 λ/n)n x! (1 λ/n) x onde p = λ/n, quando n,p 0 Ou seja, X a Poisson(λ = np), quando n e p 0. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 86/207

Teorema 5.11: Se X é uma v.a. com distribuição hipergeométrica de parâmetros N, M e n, X tem aproximadamente distribuição binomial com parâmetros n e p = M/N, quando N, M simultaneamente. f X (x) = [ ( M x )( N M n x = M! x!(m x)! ) ]/ ( N n) = n! x!(n x)! M! = ( n x (N M)! n!(n n)! (n x)!(n M n+x)! N! (M x)! ) M(M 1)...(M x+1) ( ) n [ M = ( n x x ) ( M (N M)! (N n)! (N M (n x))! N! (N M)(N M 1)...(N M (n x)+1) N(N 1)...(N x+1) (N x)(n x 1)...(N n+1) N N )x ( N M N M M ] N N [N M N )n x N M N N M N = ( n x) p x (1 p) n x, x=0, 1,...,n e p = M/N. ], M, N Ou seja, X Binomial(n,p= a M ), quando N,M simultaneamente. N NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 87/207 Convergência em distribuição Definição 5.11: Sejam X,X 1,X 2... v.a. com respectivas funções de distribuição F X,F X1,F X2,... Diz-se que X n converge em distribuição para X (X n D X), se F Xn (x) F X (x), quando n, x ponto de continuidade de F X. Ou seja, lim F X n (x) = F X (x). n Exemplo 5.7: Sejam (X n ) e X v.a. degeneradas em 1/n e 0, respectivamente, i.e., P(X n = 1/n) = 1 e P(X = 0) = 1. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 88/207

A função de distribuição de X n é { 1, x 1/n; F Xn (x) = 0, x < 1/n. A função de distribuição de X é { 1, x 0; F X (x) = 0, x < 0. Portanto, X n D X para todos os pontos de continuidade, i.e., x > 0 F Xn (x) 1 = F X (x), quando n. x < 0 F Xn (x) 0 = F X (x), quando n. Entretanto, para o ponto de descontinuidade x = 0, F Xn (x) 0 1 = F X (0). NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 89/207 Teorema do Limite Central Teorema 5.12 (T.L.C.): Seja X 1,X 2... uma sucessão de v.a. independentes com valor esperado µ e variância σ 2, onde 0 < σ 2 <. Para S n = n i=1 X i, tem-se S n E(S n ) V ar(sn ) = S n nµ σ n D N(0, 1). Ou seja, para n razoavelmente grande, ( ) Sn nµ P σ n x Φ(x), onde Φ( ) é a função de distribuição da normal reduzida, i.e., N(0, 1). NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 90/207

Distribuição de Poisson (lambda=5 x 0.5) Distribuição de Poisson (lambda=10 x 0.5) f(x) 0.00 0.10 0.20 0.30 f(x) 0.00 0.10 0.20 0.30 0 10 20 30 40 50 x 0 10 20 30 40 50 x Distribuição de Poisson (lambda=20 x 0.5) Distribuição de Poisson (lambda=50 x 0.5) f(x) 0.00 0.10 0.20 0.30 f(x) 0.00 0.10 0.20 0.30 0 10 20 30 40 50 x 0 10 20 30 40 50 x NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 91/207 Exemplo 5.8: Suponha que X i é o tempo de atendimento (em minutos) do cliente i num caixa de banco. Considere ainda que X i, i=1,...,n, são v.a. independentes com distribuição Uniforme (0, 5). Havendo 60 clientes no momento da abertura do banco às 9 horas, qual a probabilidade de a caixa do banco antender todos os clientes até às 12 horas? Se X i Uniforme(0, 5), i=1,...,60, e S 60 = 60 i=1 X i, então E(X i ) = (5+0) 2 = 2.5 E(S 60 ) = 60 2.5 = 150. V ar(x i ) = (5 0)2 12 = 25 12 V ar(s 60) = 60 25 12 = 125. Como n = 60 (grande) e X i são v.a. independentes e identicamente distribuídas, pode-se usar o T.L.C. (S 60 N(150, 125)), i.e., ( ) S P(S 60 180) P 60 E(S 60 ) V 180 150 ar(s 60 ) 125 = P(Z 2.68) = 0.9963. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 92/207

Aplicação à distribuição Binomial. Corolário 5.2: Seja X 1,X 2... uma sucessão de v.a. associadas a ensaios de Bernoulli independentes com probabilidade de sucesso p, i.e., X i Bernoulli(p), i = 1,...,n, independentes com valor esperado µ = E(X i ) = p e variância σ 2 = V ar(x i ) = p(1 p), onde p = P(X i = 1) (0, 1). Para S n = n i=1 X i, S n np np(1 p) D N(0, 1). Observe-se que S n Binomial(n,p) com valor esperado e variância dados, respectivamente, por E(S n ) = np. V ar(s n ) = np(1 p). NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 93/207 Distribuição Binomial (n=5,p=0.5) Distribuição Binomial (n=10,p=0.5) f(x) 0.0 0.1 0.2 0.3 0.4 f(x) 0.0 0.1 0.2 0.3 0.4 0 1 2 3 4 5 x 0 2 4 6 8 10 x Distribuição Binomial (n=20,p=0.5) Distribuição Binomial (n=50,p=0.5) f(x) 0.0 0.1 0.2 0.3 0.4 f(x) 0.0 0.1 0.2 0.3 0.4 0 5 10 15 20 x 0 10 20 30 40 50 x NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 94/207

Exemplo 5.9: Se X = n i=1 X i Binomial(n = 12,p = 0.5), qual a probabilidade de X ser pelo menos 7? P(X 7) = 12 ( 12 x=7 x) 0.5 x (1 0.5) 12 x = 0.3872. ( P(X 7) P Z 7 120.5 12 0.5 0.5 ), onde Z N(0, 1) = P(Z 0.58) = 1 F Z (0.58) = 1 0.719 = 0.281. (com correcção ( de continuidade) P(X 7) P Z ) 7 12 0.5 1/2 12 0.50.5 = P(Z 0.29) = 1 F Z (0.29) = 1 0.6141 = 0.3859. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 95/207

6. Amostragem e estimação pontual Definição 6.1: População é um conjunto cujos elementos possuem qualquer característica em comum. Definição 6.2: Amostra é um subconjunto da população. Exemplo 6.1: Um partido encomenda uma sondagem sobre a intenção de voto nele nas próximas eleições. Por exemplo, a sondagem poderá ser baseada numa amostra (aleatória) da população de interesse de dimensão 10000 em 100000 votantes. Note-se que há uma v.a. para cada eleitor, i.e., { 1, se o eleitor tenciona votar no partido; X = 0, c.c., podendo p = P(X = 1) = 1 P(X = 0) (desconhecido) ser estimado pelo número de votantes sondados que tencionam votar a favor do partido. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 96/207 Estatística descritiva e Inferência Estatística. Estatística descritiva: Parte da Estatística que aplica várias das muitas técnicas usadas para sumariar um conjunto de dados. Inferência Estatística: Parte da Estatística que visa fazer induções sobre características de uma população a partir de uma amostra da mesma. O estudo de uma população centra-se usualmente em uma ou mais variáveis aleatórias. Em geral, a distribuição de probabilidade destas quantidades não é completamente conhecida e, portanto, com base em uma informação por amostragem, pode-se inferir estatisticamente sobre os seus aspectos desconhecidos, e.g., Estimação pontual ou intervalar de parâmetros. Testes de hipóteses sobre o valor de parâmetros ou sobre o próprio tipo distribucional. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 97/207

Amostragem aleatória. Importantes questões relativamente ao processo de amostragem: Como recolher a amostra? Qual a informação pertinente a retirar da amostra? Como se comporta a informação acima quando o mesmo procedimento de recolha da amostra é usado numa população conhecida? Alguns tipos de amostragem: Amostragem aleatória simples: Todos os elementos da população têm a mesma probabilidade de serem seleccionados. Amostragem por conglomerados: A população está dividida em pequenos grupos (e.g., bairros, quarteirões, etc.), chamados conglomerados, que são amostrados aleatoriamente. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 98/207 Amostragem estratificada: A população encontra-se dividida em subpopulações ou estratos (e.g., classes sociais, graus de instrução, etc.), agrupados por alguma característica em comum, de cada um dos quais se amostra aleatoriamente alguns dos seus elementos. Estes tipos de amostragem têm em comum a recolha aleatória dos elementos da amostra. Todavia, há outros métodos de amostragem não aleatórios, e.g., quando os elementos da amostra são voluntários (ensaios clínicos) ou são os únicos disponíveis. Definição 6.3: Dada uma população a que está associada uma variável aleatória X com uma certa distribuição de probabilidade, uma amostra aleatória (a.a.) de tamanho n dessa população é um conjunto de n v.a. X 1...,X n independentes e identicamente distribuídas (i.i.d.). NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 99/207

Definição 6.4: Dada uma amostra aleatória X 1...,X n de uma população X com f.m.p. (f.d.p.) f X (x), a distribuição de probabilidade amostral (f.m.p. ou f.d.p. conjunta) é dada por n n f(x 1,...,x n ) = f Xi (x i ) = f X (x i ). i=1 Exemplo 6.1a: Uma a.a. da população de votantes no partido com n elementos reporta-se a n v.a. X 1...,X n i.i.d., tal que { 1, se o eleitor i tenciona votar no partido; X i = 0, c.c., sendo p = P(X i = 1) = 1 P(X i = 0), i = 1,...,n. Consequentemente, a respectiva distribuição de probabilidade amostral é dada por n f(x 1,...,x n ) = p x i (1 p) 1 x i = p i x i (1 p) n i x i. i=1 i=1 NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 100/207 Estatísticas. Definição 6.5: Dada uma amostra X 1,...,X n de uma população X, uma estatística T é uma função da amostra, i.e., T = T(X 1,...,X n ). As estatísticas mais comuns são: Média amostral: X = 1 n n i=1 X i. Variância amostral (corrigida): S 2 = 1 n 1 n i=1 (X i X) 2. Mínimo amostral: X (1) = min(x 1,...,X n ). Máximo amostral: X (n) = max(x 1,...,X n ). Amplitude amostral: R = X (n) X (1). NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 101/207

Definição 6.6: Um parâmetro é uma medida usada para descrever uma característica da população. Notação usual de parâmetros e estatísticas: Medida População Amostra média µ X variância σ 2 S 2 número de elementos N n proporção p X Se X 1,...,X n é uma amostra aleatória de uma população X, então média populacional: µ = E(X), média amostral: X = (X1 + + X n )/n. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 102/207 Estimação pontual: estimador e estimativa. Definição 6.7: Seja X 1,...,X n uma amostra aleatória de uma população X indexada pelo parâmetro θ. Um estimador de θ é uma estatística T = T(X 1,...,X n ) usada para estimar θ. Definição 6.8: O valor observado de um estimador em cada amostra concreta t = T(x 1,...,x n ) é conhecido por estimativa. Exemplo 6.1b: Numa amostra aleatória de n = 100000 eleitores, observaram-se 38900 eleitores com intenção de voto no partido em causa. Neste cenário, X 1,...,X n são v.a. i.i.d. com distribuição de Bernoulli (p), onde p é a proporção (populacional) de votantes no partido. O parâmetro p pode ser estimado pela média amostral X, i.e., a proporção amostral de votantes no partido, cujo estimativa é x = 38900/100000 = 0.389 ou 38.9%. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 103/207

Propriedades dos estimadores. Exemplo 6.2: A fim de estudar a exactidão e precisão de 4 jogadores (A,B,C,D) de tiro ao alvo, foram-lhes dadas 6 possibilidades de acertar ao alvo. O resultado dessa experiência encontra-se a seguir. A * * * * * * C ** * * * * B * * * D * * NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 104/207 Um resumo da qualidade (exactidão e precisão) dos jogadores: Jogador A: muita exactidão e pouca precisão; Jogador B: pouca exactidão e pouca precisão; Jogador C: muita exactidão e muita precisão; Jogador D: pouca exactidão e muita precisão. Diz-se que os jogadores com mais precisão têm lançamentos menos dispersos (maior concordância entre os resultados). A exactidão (accuracy) está associada aos erros sistemáticos, e.g., deficiências de instrumentos de medição, enquanto a precisão (precision) reporta-se aos erros aleatórios que são responsáveis por pequenas variações nas medições realizadas, cujas causas não são completamente conhecidas. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 105/207

Definição 6.9: Seja X 1,...,X n uma a.a. de X com distribuição indexada pelo parâmetro θ. O estimador T = T(X 1,...,X n ) é dito ser um estimador centrado (não enviesado) de θ se E(T) = θ. Exemplo 6.3: Seja X 1,...,X n uma a.a. de X com E(X) = µ e V ar(x) = σ 2. Será n i=1 (X i X) 2 um estimador centrado de σ 2? Se X 1,...,X n são v.a. i.i.d. com E(X i ) = µ e V ar(x i ) = σ 2, i = 1,...,n, então E( X) = µ e V ar( X) = σ 2 /n. Logo, E( n i=1 (X i X) 2 ) = E( i X2 i 2 X i X i + n X 2 ) = i E(X2 i ) ne( X 2 ) = i (V ar(x i) + E(X i ) 2 ) n(v ar( X) + E( X) 2 ) = nσ 2 + nµ 2 nσ 2 /n nµ 2 = (n 1)σ 2. Não, mas S 2 = 1 n 1 n i=1 (X i X) 2 é um estimador centrado de σ 2. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 106/207 Definição 6.10: Seja T = T(X 1,...,X n ) um estimador do parâmetro θ. Chama-se viés (enviesamento) de T como estimador de θ à quantidade E(T) θ. Note-se que o viés é nulo se e somente se T é um estimador centrado de θ. Definição 6.11: Seja T = T(X 1,...,X n ) um estimador do parâmetro θ. Uma medida de precisão do estimador T é o erro quadrático médio (EQM), dado por EQM(T) E((T θ) 2 ) = V ar(t) + (E(T) θ) 2. Definição 6.12: Sejam T = T(X 1,...,X n ) e U = U(X 1,...,X n ) dois estimadores do parâmetro θ. Diz-se que T é mais eficiente do que U, se EQM(T) EQM(U), θ com desigualdade estrita para algum θ. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 107/207

Se T e U são estimadores centrados do parâmetro θ, então T é mais eficiente do que U se V ar(t) V ar(u), θ com desigualdade estrita para algum θ. Exemplo 6.4: Seja X 1,...,X n uma a.a. de X Bernoulli(p). Considere ainda X 1 e X como dois estimadores de p. Qual dos dois é o estimador mais eficiente? Sendo X i s v.a. i.i.d. Bernoulli (p), n i=1 X i Binomial (n,p), E(X 1 ) = p e E( X) = n 1 E( n i=1 X i) = n 1 np = p. X 1 e X são estimadores centrados de p. V ar(x 1 ) = p(1 p) e V ar( X) = n 2 V ar( n V ar( X) = 1 V ar(x 1 ) n i=1 X i) = n 1 p (1 p) < 1, n > 1. X é mais eficiente do que X 1 na estimação de p. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 108/207 Exemplo 6.3a: Seja X 1,...,X n uma a.a. de uma população X com E(X) = µ e V ar(x) = σ 2. Será a variância amostral (corrigida) S 2 = (n 1) 1 n i=1 (X i X) 2 mais eficiente do que ˆσ 2 = n 1 n i=1 (X i X) 2 na estimação de σ 2? Como E( n i=1 (X i X) 2 ) = (n 1)σ 2, E(S 2 ) = σ 2 e E(ˆσ 2 ) = n 1 n σ2. V ar( n i=1 (X i X) 2 ) = 2(n 1)σ 4, EQM(S 2 ) = V ar(s 2 ) + (E(S 2 ) σ 2 ) 2 = 2(n 1) 1 σ 4, EQM(ˆσ 2 ) = V ar(ˆσ 2 ) + (E(ˆσ 2 ) σ 2 ) 2 = (2n 1)n 2 σ 4, EQM(S2 ) EQM(ˆσ 2 ) = 2n 2 (n 1)(2n 1) > 1, n > 1. ˆσ 2 é mais eficiente do que S 2 (n > 1) na estimação de σ 2. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 109/207

Definição 6.13: Seja X 1,...,X n uma a.a. de uma população X indexada pelo parâmetro θ. Uma sucessão {T n } de estimadores de θ é consistente se lim n P( T n θ > ǫ) = 0, ǫ > 0, garantido por i) lim n E(T n ) = θ, ii) lim n V ar(t n ) = 0. Exemplo 6.4a: Seja X 1,...,X n uma a.a. de X Bernoulli(p). Será X um estimador consistente de p? Sendo X i s v.a. i.i.d. Bernoulli (p), n i=1 X i Binomial (n,p), E( X) = E( n i=1 X i)/n = p. X é um estimador centrado de p. Condição i) logicamente satisfeita. V ar( X) = V ar( n i=1 X i)/n 2 = p (1 p)/n. Por conseguinte, lim n V ar( X) p(1 p) = lim n = 0. Condição ii) satisfeita. n Portanto, X é um estimador consistente de p. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 110/207 Método da máxima verosimilhança. Definição 6.14: Dada uma a.a. X 1,...,X n de uma população X com f.m.p. ou f.d.p. f X (x) indexada pelo parâmetro (desconhecido) θ, a função de verosimilhança de θ relativa à amostra (x 1,...,x n ), denotada por L(θ x 1,...,x n ), é a função de θ que é numericamente idêntica à distribuição de probabilidade amostral avaliada em x 1,...,x n, i.e., n L(θ x 1,...,x n ) f(x 1,...,x n θ) = f X (x i θ). O método de máxima verosimilhança consiste em maximizar a função de verosimilhança para obter o valor mais verosímil de θ, denominado estimativa de máxima verosimilhança de θ. Ao determinar o valor que maximiza θ, usa-se frequentemente o facto de que L(θ x 1,...,x n ) e log L(θ x 1,...,x n ) têm o seu máximo no mesmo valor de θ. i=1 NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 111/207

Exemplo 6.5: Seja X 1,...,X n uma a.a. de uma população X Poisson(λ). Qual o estimador de máxima verosimilhança de λ? A função de verosimilhança de λ, dado x 1,...,x n, é n e λ λ x i L(λ x 1,...,x n ) =. x i! n n Seja L λ log L(λ x 1,...,x n ) = nλ + log λ x i log x i!. i=1 i=1 i=1 dl λ dλ = n + λ 1 n i=1 x i = 0 λ = d2 L λ dλ 2 = λ 2 n i=1 x i < 0, λ. n i=1 x i n = x x é a estimativa de máxima verosimilhança de λ e o estimador de máxima verosimilhança (e.m.v.) de λ é ˆλ = X = 1 n n i=1 X i. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 112/207 Teorema 6.1: Se ˆθ é o estimador de máxima verosimilhança de um parâmetro θ, então g(ˆθ) é o estimador de máxima verosimilhança de g(θ) (propriedade de invariância). Exemplo 6.6: Seja X 1,...,X n uma a.a. de X Uniforme(0,θ]. Qual o estimador de máxima verosimilhança de log θ? A função de verosimilhança de θ, dado x 1,...,x n, é L(θ x 1,...,x n ) = n 1 I θ (0,θ](x i ) i=1 = 1 θ n I [x(n), )(θ) 1 x (n) L(θ) x (n) θ X (n) = max(x 1,...,X n ) é o e.m.v. de θ e, pela propriedade de invariância dos estimadores de máxima verosimilhança, log X (n) é o e.m.v. de log θ. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 113/207

Momentos da média amostral e da variância amostral. Exemplo 6.7: Suponha uma população (conhecida) X = {2, 4, 6} da qual se retira (com reposição) uma amostra aleatória de tamanho 2. Qual o valor esperado da média amostral? E da variância amostral? Se os elementos da população X são equiprováveis, E(X) = x xf X(x) = 1 (2 + 4 + 6) = 4. 3 E(X 2 ) = x x2 f X (x) = 1 (4 + 16 + 36) = 56/3 3 V ar(x) = E(X 2 ) (E(X)) 2 = 56/3 16 = 8/3. Seja X i é o resultado da extracção i, i = 1,...,n (n = 2). Recorde-se que a média amostral e a variância amostral são, respectivamente, X = n 1 n i=1 X i e S 2 = (n 1) 1 n i=1 (X i X) 2. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 114/207 A distribuição de probabilidade conjunta de (X 1,X 2 ) é dada por X 1 \X 2 2 4 6 2 1/9 1/9 1/9 4 1/9 1/9 1/9 6 1/9 1/9 1/9 A distribuição amostral da estatística X = (X 1 + X 2 )/2 é X 2 3 4 5 6 P( X = x) 1/9 2/9 3/9 2/9 1/9 E( X) = u up( X =u) = 2 1 9 + + 61 9 = 36 9 = 4 E( X) = E(X). NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 115/207

E( X 2 ) = u u2 P( X =u) = 4 1 9 + + 361 9 = 156 9 V ar( X 2 ) = E( X 2 ) (E( X) 2 = 156 9 V ar( X) = V ar(x)/n. 16 = 12 9 = 4 3 A distribuição amostral da estatística S 2 = 2 i=1 (X i X) 2 é S 2 0 2 8 P(S 2 = s 2 ) 3/9 4/9 2/9 E(S 2 ) = v v P(S 2 =v) = 0 3 9 + 24 9 + 82 9 = 24 9 = 8 3 E(S 2 ) = V ar(x). NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 116/207 Distribuições amostrais da média e variância numa população normal. Para melhor avaliar a estimação de um parâmetro θ a partir de uma estatística T = T(X 1,...,X n ), deve-se conhecer a distribuição de T. A distribuição da estatística T, conhecida como distribuição amostral de T, tem em conta todos os valores possíveis da amostra X 1,...,X n. Teorema 6.2: Se X 1,...,X n é uma a.a. de uma população X com E(X) = µ e V ar(x) = σ 2, então o valor esperado e variância da média amostral X são, respectivamente, E( X) = n 1 i E(X i) = n 1 nµ = µ; V ar( X) = n 2 i V ar(x i) = n 2 nσ 2 = σ 2 /n. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 117/207

Teorema 6.3: Seja X 1,...,X n uma a.a. de uma população X com E(X) = µ e V ar(x) = σ 2, 0 < σ 2 <. Pelo Teorema do Limite Central, a distribuição amostral de X é aproximada pela distribuição Normal com média µ e variância σ 2 /n, quando n. Corolário 6.1: Se X 1,...,X n é uma a.a. N(µ,σ 2 ), 0 < σ 2 <, então Z = X µ σ/ n N(0, 1). de uma população X Exemplo 6.8: Seja X 1,...,X n uma a.a. de X Bernoulli(p). Qual a distribuição aproximada da proporção amostral X = n 1 n i=1 X i? Sabendo que E(X) = p e V ar(x) = p(1 p), pelo Teorema 6.3 ( ) X p a N(0, 1) X a p(1 p) N p,. p(1 p)/n n NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 118/207 Definição 6.15: Se X 1,...,X k são v.a. i.i.d. com distribuição N(µ,σ 2 ), Q = X 2 1 + + X 2 k é dito ter uma distribuição Qui-quadrado com k graus de liberdade, denotada por χ 2 (k), cuja f.d.p. é dada por f Q (q) = 1 q 2 Γ( k) e 2 2 onde Γ(n) = 0 x n 1 e x dx. ( ) k q 2 1, q > 0, 2 são, respectiva- O valor esperado e a variância de uma v.a. Q χ 2 (k) mente: E(Q) = k; V ar(q) = 2k. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 119/207

Função Densidade de Probabilidade Qui quadrado f(x) 0.00 0.05 0.10 0.15 0.20 k=1 k=5 k=10 0 5 10 15 20 25 30 x NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 120/207 Definição 6.16: Se Z e Q são v.a. independentes com Z N(0, 1) e Q χ 2 (k), então T = Z Q/k é dito ter uma distribuição t-student com k graus de liberdade, denotada por t (k), cuja f.d.p. é dada por f T (t) = 1 Γ( k 1 k π Γ( k) 2 2 ) (1 + x2 k ) k 1 2, < t <. O valor esperado e a variância de uma v.a. T t (k) são, respectivamente: E(T) = 0, k > 1. V ar(t) = k/(k 2), k > 2. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 121/207

Função Densidade de Probabilidade t Student f(x) 0.0 0.1 0.2 0.3 0.4 k=1 k=5 k=100 4 2 0 2 4 6 x NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 122/207 Teorema 6.4: Se X 1,...,X n é uma a.a. N(µ,σ 2 ), então de uma população X e n i=1 (X i µ) 2 σ 2 = n i=1 (X i X) 2 σ 2 = n ( ) 2 Xi µ χ 2 (n) σ i=1 (n 1)S2 σ 2 χ 2 (n 1). Teorema 6.5: Se X 1,...,X n é uma a.a. N(µ,σ 2 ), então de uma população X ( X µ)/(σ/ n) (((n 1)S2 )/σ 2 )/(n 1) = X µ S/ n t (n 1). NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 123/207

7. Estimação por intervalos Seja X 1,...,X n uma amostra aleatória de uma população X indexada por um parâmetro θ. Por vezes, torna-se mais valioso especificar um intervalo que contém o verdadeiro valor de θ com um certo grau de confiança do que apenas estimar θ pontualmente. Noções básicas. Definição 7.1: Seja X 1,...,X n uma amostra aleatória de uma população X indexada por um parâmetro θ Θ. Se T i = T i (X 1,...,X n ), i=1, 2, são duas estatísticas tais que P(T 1 < θ < T 2 ) = γ, onde γ é um valor fixado entre 0 e 1, diz-se que (T 1,T 2 ) é um intervalo aleatório de confiança para θ de grau (coeficiente) de confiança γ. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 124/207 Exemplo 7.1: Seja X 1,...,X n uma a.a. de X N(µ,σ 2 =4). Qual o intervalo aleatório de confiança para µ com grau de confiança de 95%? Sabe-se que X é o estimador de máxima verosimilhança de µ e que X N(µ,σ 2 /n) Z = X µ 4/n N(0, 1) Por outro lado, P( 1.96 < Z < 1.96) = 0.95 e consequentemente P( X 1.96 4/n < µ < X + 1.96 4/n) = 0.95, indicando que o intervalo aleatório de confiança a 95% para µ é expresso por (T 1 = X 1.96 4/n,T 2 = X + 1.96 4/n). NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 125/207

Método da variável fulcral. Definição 7.2: Seja X 1,...,X n uma a.a. de uma população X indexada pelo parâmetro θ Θ. Diz-se que a função da a.a. e de θ, W = W(X 1,...,X n ;θ) é uma variável fulcral ou quantidade pivotal usada na construção de um intervalo de confiança para θ quando a sua distribuição (f.m.p. ou f.d.p.) não depende de θ. Os intervalos de confiança são obtidos aqui pelo método da variável fulcral ou método pivotal. Isto é, dada uma variável fulcral W = W(X 1,...,X n ;θ), os intervalos de confiança para θ são obtidos da seguinte forma: NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 126/207 1. Fixado um grau de confiança γ, obtêm-se a γ e b γ tais que P(a γ < W < b γ ) = γ, θ Θ. 2. Se a partir de a γ < W < b γ, for possível obter uma outra dupla desigualdade T 1 < θ < T 2, onde T i = T i (X 1,...,X n ), i = 1, 2, tem-se P(a γ < W < b γ ) = P(T 1 < θ < T 2 ) = γ, θ Θ. 3. Dado uma amostra particular (x 1,...,x n ), a concretização do intervalo aleatório de confiança para θ com grau de confiança γ é designada por intervalo de confiança a 100γ% para θ, dado por (t 1,t 2 ) = (t 1 (x 1,...,x n ),t 2 (x 1,...,x n )). Nota: O intervalo acima é bilateral, sendo os respectivos intervalos de confiança unilaterais do tipo (,u 2 ) ou (u 1, ), u 1 < u 2. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 127/207

Em suma, o intervalo (t 1,t 2 ) é um intervalo de confiança para θ a 100γ%, denotado por IC(θ,γ) = (t 1,t 2 ), sendo a concretização do intervalo aleatório de confiança, denotado por IAC(θ,γ) = (T 1,T 2 ). A probabilidade γ é interpretada como a frequência relativa de todos os intervalos (t 1,t 2 ) que contêm θ obtidos numa sequência infinitamente grande de observações de (X 1,...,X n ) (perspectiva frequencista). Entretanto, { 1, se θ (t 1,t 2 ), γ P(t 1 < θ < t 2 ) = 0, c.c. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 128/207 Intervalos de confiança para parâmetros de uma população normal. Seja X 1,...,X n uma a.a. de uma população X N(µ,σ 2 ). Poder-se-á considerar Z = X µ σ/ N(0, 1) como variável fulcral para n obter um intervalo de confiança para µ? Não. Entretanto, sabe-se que T = X µ S/ n t (n 1), onde S 2 é a variância amostral corrigida. Portanto, P(a < T < b) = γ = 1 α P( X b S n < µ < X+b S n ) = 1 α IAC(µ,γ = 1 α) = ( X ± b S n ) IC(µ, 1 α) = ( x ± b s b 0 b T ) n b = a = Ft 1 (n 1) (1 α) 2 NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 129/207

Exemplo 7.2: Suponha que o tempo X de reparação de uma máquina segue uma distribuição Normal com média µ e variância σ 2. Estime o tempo médio µ de reparação (em minutos) com um grau de confiança de 99%, baseando-se nos seguintes dados para uma amostra aleatória: n = 10, n i=1 x i = 846 e n i=1 x2 i = 71607. Nesse cenário, a variável fulcral é T = X µ S/ t n (9) e as quantidades x = 1 n n i=1 x i = 84.6 e s 2 = 1 ( n n 1 i=1 x2 i n x 2 ) = 35.4 = 3.933. 9 P( 3.25 < T < 3.25) = 0.99. P( X 3.25 S n < µ < X+3.25 S n ) = 0.99 IAC(µ,γ = 0.99) = ( X ± 3.25 S n ) 3.933 IC(µ, 0.99) = (84.6 ± 3.25 ) = (84.6 ± 2.038) 10 = (82.562, 86.638). NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 130/207 Seja X 1,...,X n uma a.a. de uma população X N(µ,σ 2 ). Na construção do intervalo de confiança para σ 2 com grau de confiança γ = 1 α, tem-se como variável fulcral Q = (n 1)S2 σ 2 χ 2 (n 1). P(a < Q < b) = γ = 1 α, onde a = F 1 ( α) e b = F χ 2 2 χ (n 1) (n 1)(1 α) 2 2 P( (n 1)S2 b < σ 2 < (n 1)S2 ) = 1 α a IAC(σ 2, 1 α) = ( (n 1)S2 b IC(σ 2, 1 α) =, (n 1)S2 a ) ( (n 1)s 2 b 0 a b Q ), (n 1)s2 a NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 131/207

Exemplo 7.2a: Para o tempo de reparação de uma máquina X N(µ,σ 2 ), estime a variância de X com um grau de confiança de 95%. Recorde-se que x = 84.6, s 2 = 3.933 e n = 10. Nesse cenário, A variável fulcral é Q = (n 1)S2 χ σ 2 (9). P(2.7 < Q < 19.02) = γ = 1 α = 0.95, uma vez que F 1 (0.025) = 2.7 e F 1 = 19.02. χ 2 χ (9) (9)(0.975) 2 IAC(σ 2, 0.95) = ( (n 1)S2 19.02, (n 1)S2 2.7 ). Consequentemente, IC(σ 2, 0.95) = ( 9 3.933 19.02, 9 3.933 ) = (1.86, 13.11). 2.7 NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 132/207 Duas populações normais Sejam X 11,...,X 1n1 e X 21,...,X 2n2 a.a. de duas populações independentes X 1 N(µ 1,σ 2 1) e X 2 N(µ 2,σ 2 2), respectivamente. Se σ 2 1 e σ 2 2 são conhecidas, a variável fulcral para estimar µ 1 µ 2 com grau de confiança γ = 1 α tem como base os seguintes resultados: Xi N(µ i,σ 2 i ), i = 1, 2 (independentes), X1 X 2 N(µ 1 µ 2,σ 2 1/n 1 + σ 2 2/n 2 ), onde X i = 1 n i ni j=1 X ij, i = 1, 2. Por conseguinte, a variável fulcral é dada por Z = X 1 X 2 (µ 1 µ 2 ) σ 2 1 /n 1 + σ 2 2/n 2 N(0, 1). NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 133/207

P(a < Z < b) = γ = 1 α, b = a = F 1 N(0,1) (1 α 2 ) b 0 b Z P( X 1 X 2 b σ 2 1/n 1 + σ 2 2/n 2 < µ 1 µ 2 < < X 1 X 2 +b σ 2 1/n 1 + σ 2 2/n 2 ) = 1 α IAC(µ 1 µ 2,γ = 1 α) = ( X 1 X 2 ± b σ 2 1/n 1 + σ 2 2/n 2 ) Consequentemente, IC(µ 1 µ 2, 1 α) = ( x 1 x 2 ± b σ1/n 2 1 + σ2/n 2 2 ) NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 134/207 Sejam X 11,...,X 1n1 e X 21,...,X 2n2 a.a. de duas populações independentes X 1 N(µ 1,σ 2 1) e X 2 N(µ 2,σ 2 2), respectivamente. Se σ 2 1 = σ 2 2 = σ 2 (desconhecida), a variável fulcral para estimar µ 1 µ 2 com grau de confiança γ = 1 α tem como base os seguintes resultados: Z = ( X 1 X 2 (µ 1 µ 2 ))/ σ 2 (1/n 1 + 1/n 2 ) N(0, 1). Sp 2 = ((n 1 1)S1 2 + (n 2 1)S2)/(n 2 1 +n 2 2) χ 2 (n 1 +n 2 2), onde Si 2 = 1 ni n i 1 j=1 (X ij X i ) 2, i = 1, 2. X1, X2, S 2 1 e S2 2 são independentes. T = X 1 X 2 (µ 1 µ 2 ) t (n1 (n 1 1)S 1 2+(n 2 1)S 2 2 n 1 +n 2 ( 1 2 n 1 + 1 +n 2 2). n 2 ) NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 135/207

P(a < T < b) = γ = 1 α, b = a = Ft 1 (n1 +n 2 2) 2 b 0 b T P( X 1 X (n 2 b 1 1)S 1 2+(n 2 1)S 2 2 n 1 +n 2 ( 1 2 n 1 + 1 n 2 ) < µ 1 µ 2 < < X 1 X (n 2 +b 1 1)S 1 2+(n 2 1)S 2 2 ( 1 n 1 + 1 n 2 )) = 1 α IAC(µ 1 µ 2, 1 α) = n 1 +n 2 2 ( X 1 X 2 ± b (n 1 1)S 2 1 +(n 2 1)S 2 2 n 1 +n 2 2 ( 1 n 1 + 1 n 2 ) ) Consequentemente, IC(µ 1 µ 2, 1 α) = ( ( (n 1 1)s 2 x 1 x 2 ± b 1+(n 2 1)s 2 2 1 + 1 )). n 1 + n 2 2 n 1 n 2 NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 136/207 Exemplo 7.3: Sejam X i o tempo de vida de uma bactéria do tipo i, i = 1, 2, independentes. Considere X 11,...,X 1n1 e X 21,...,X 2n2 duas a.a. de X 1 N(µ 1,σ 2 ) e X 2 N(µ 2,σ 2 ), respectivamente. Estime a diferença dos tempos de vida médios dos dois tipos de bactérias com 95% de grau de confiança, sabendo que n 1 = 10, n 2 = 13, n 1 j=1 x 1j = 300, n 2 j=1 x 2j = 260, n 1 j=1 x2 1j = 10000 e n 2 j=1 x2 2j = 7000. Variável fulcral: T = X 1 X 2 (µ 1 µ 2 ) (n 1 1)S 1 2+(n 2 1)S2 2 ( 1 + 1 ) n 1 +n 2 2 n 1 n 2 t (21). P( 2.08 < T < 2.08) = 0.95, com F 1 t (21) (0.975) = 2.08. Sp 2 = (n 1 1)S 1 2+(n 2 1)S 2 2 n 1 +n 2 s 2 2 p = 9 111.11+12 138.46 = 126.74. 21 IAC(µ 1 µ 2, 0.95) = ( X 1 X 2 ± 2.08 Sp( 2 1 n 1 + 1 n 2 )) IC(µ 1 µ 2, 0.95) = (10±2.08 126.74( 1 + 1 )) = (0.15, 19.85). 10 13 NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 137/207

Sejam X 11,...,X 1n1 e X 21,...,X 2n2 a.a. de duas populações independentes X 1 N(µ 1,σ 2 1) e X 2 N(µ 2,σ 2 2), respectivamente. Para grandes amostras (n 1,n 2 ), pode-se substituir as variâncias σ 2 1 e σ 2 2 pelas suas variâncias amostrais S 2 1 e S 2 2 (estimadores consistentes). Portanto, na construção de um intervalo de confiança (aproximado) para µ 1 µ 2 com grau de confiança γ = 1 α, tem-se como variável fulcral Z = X 1 X 2 (µ 1 µ 2 ) S 2 1 /n 1 + S 2 2/n 2 a N(0, 1). Consequentemente, P(a < Z < b) = γ = 1 α, onde b = a F 1 N(0,1) (1 α 2 ). IAC(µ 1 µ 2, 1 α) ( X 1 X 2 ± b S 2 1/n 1 + S 2 2/n 2 ). IC(µ 1 µ 2, 1 α) ( x 1 x 2 ± b s 2 1/n 1 + s 2 2/n 2 ). NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 138/207 Intervalos de confiança para parâmetros de populações não normais uniparamétricas. Exemplo 7.4: Seja X 1,...,X n uma a.a. de uma população X Exponencial com E(X) = λ. Encontre um intervalo de confiança aleatório a 100(1 α)% para o logaritmo da média populacional λ. Nesse cenário, sabe-se que O estimador de máxima verosimilhança de λ é X = 1 n n i=1 X i. n i=1 X i Gamma(n, 1/λ) W = 2 λ n i=1 X i χ 2 (2n). P(a < W < b) = 1 α, onde a = F 1 ( α) e b = F 1 χ 2 2 χ (2n) (2n)(1 α). 2 2 P( 2 n i=1 X i < λ < 2 n i=1 X i ) = 1 α. b a ( ) Portanto, IAC(log λ, 1 α) = log( 2 n i=1 X i ), log( 2 n i=1 X i ) b a NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 139/207

Exemplo 7.6: Seja X 1,...,X n uma a.a. de uma população X Bernoulli(p). Encontre um intervalo de confiança (aproximado) a 100(1 α)% para a proporção populacional p. Nesse cenário, X i = { 1, se ocorrer sucesso,,i=1,...,n. 0, c.c. O estimador de máxima verosimilhança de p é X = 1 n n i=1 X i. n i=1 X i Binomial(n,p). Todavia, para grandes amostras, temse pelo T.L.C. que X p Z = a N(0, 1). p(1 p)/n P( b < Z < b) = 1 α, onde a = F 1 N(0,1) (α 2 ) e b = F 1 N(0,1) (1 α 2 ). NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 140/207 Para encontrar os limites do intervalo de confiança de p, deve-se isolar o valor de p, encontrando as raízes do respectivo polinómio de 2 o grau. Uma alternativa a este procedimento para n grande é usar o facto de que X é um estimador consistente de p e, para grandes amostras, pode-se substituir p no denominador de Z por X. ( P X b X(1 X) n ( IAC(p, 1 α) < p < X + b ) X ± b X(1 X) n X(1 X) n ) = 1 α. Portanto, um intervalo de confiança (aproximado) a 100(1 α)% para p é dado por ( ) x(1 x) IC(p, 1 α) x ± b. n NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 141/207

8. Testes de hipóteses Uma outra forma de inferir sobre características de uma população é testar hipóteses previamente formuladas sobre os seus parâmetros, tendo emcontaumaamostraaleatóriadapopulaçãoeovalortolerávelparaa probabilidade de rejeição incorrecta dessas hipóteses. Exemplo 8.1: Uma empresa portuguesa compra usualmente parafusos americanos e japoneses devido às suas boas condições de resistência à tracção(x). Os americanos afirmam que a resistência à tracção dos seusparafusostemmédia145kgedesviopadrão12kg,enquantoos japonesesdizemter155kgdemédiae20kgdedesviopadrão. Um lote de parafusos será inspeccionado, desconhecendo-se a sua proveniência (americana ou japonesa). Com base numa amostra aleatória de 25 parafusos, calcula-se a resistência média à tracção( x) afimdeinvestigaraorigemdosmesmos. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 142/207 Supondo distribuição normal para as duas populações, N(145, 144) (americana) e N(155, 400) (japonesa), pode-se considerar a seguinte regra de decisão: Se x 150, diz-sequeosparafusossãodeorigemamericana; caso contrário, são de procedência japonesa(regra 1). 0.000 0.010 0.020 0.030 N(145,144) N(155,400) 50 100 150 200 250 X NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 143/207

Na decisão do Exemplo 8.1, pode-se cometer dois tipos de erro: Erro do tipo I: Afirmar que os parafusos não são americanos(japoneses) quando na realidade eles são americanos. ErrodotipoII:Afirmarqueosparafusossãoamericanosquandona realidade eles são japoneses. As probabilidades destes dois tipos de erro(exemplo 8.1) são: α = P(ErrotipoI) = P( X > 150 parafusosamericanos) = P( X > 150 X N(145, 144)) = P(Z > 2.08) = 0.019 β = P(ErrotipoII) = P( X 150 parafusosjaponeses) = P( X 150 X N(155, 400)) = P(Z 1.25) = 0.106 NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 144/207 AousararegradedecisãodoExemplo8.1(Regra1),aprobabilidade doerrodetipoiésuperioràdoerrodetipoii(α=0.019 < β=0.106), favorecendo assim os parafusos americanos. Paracadaregradedecisãotem-seumvalorlimítrofepara x(denotadoaquipor x c )emvezde150.porconseguinte,osvaloresde αeβvariamconsoanteovalorfixadode x c. Se x c > 150, αdiminuieβaumenta.se x c < 150, αaumentaeβ diminui. Se x c = 148.75, α = β = 0.059(pontodeequilíbrio). Emsuma,dadaumaregradedecisão(i.e.,umvalorpara x c ),calcula-se asprobabilidadesdeerrostipoieiiparaavaliarométododedecisão. Outro procedimento possível é fixar a probabilidade de um tipo de erro e encontrar a correspondente regra de decisão. Por exemplo, α = 0.05 implica x c = 154.4eβ = 0.4404,favorecendoadecisãoparaosparafusos americanos. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 145/207

Noções básicas. Um teste de hipóteses paramétricas usualmente visa comparar diferentes valores para o parâmetro desconhecido θ de uma dada população X. Procedimento geral de um teste de hipóteses: 1. Hipóteses de interesse: Hipótesenula H 0 (e.g., θ = θ 0 ). Hipótesealternativa H 1 (e.g., θ θ 0 testebilateral; θ < θ 0 ou θ > θ 0 testesunilaterais). 2. Erros associados à regra de decisão, cujas correspondentes probabilidades são dadas por α = P(ErrodotipoI) = P(Rejeitar H 0 H 0 verdadeiro). β = P(ErrodotipoII) = P(AceitarH 0 H 0 falso). NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 146/207 3. Regiãocrítica(RC):Regiãoquenãofavoreceahipótesenula H 0 na regra de decisão. Construída com base numa estatística T = T(X 1,...,X n )(denominadaestatísticadoteste). A RCéconstruídatalque P(T RC H 0 verdadeiro) = α, sendo α(nível de significância do teste) fixado previamente. Doravante, RCédenotadopor RC α. 4. Decisão do teste de hipótese: Se T RC α, rejeita-se H 0 ao nível de significância de 100α%.Casocontrário,nãoserejeita H 0 a 100α%. Quanto menor for o nível de significância do teste, tanto maior seráaprecauçãocontraoriscoderejeiçãoincorrectade H 0. Osníveisdesignificânciasãousualmente1%,5%e10%. A determinação de β exige a especificação de cada valor alternativo paraoparâmetroemteste,dadoque H 1 égeralmentecomposta(e.g., β = P(T / RC α θ θ 0 )). NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 147/207

Testes de hipóteses para parâmetros de populações normais Seja X 1,...,X n umaa.a. deumapopulação X N(µ,σ 2 ),com σ 2 conhecido.sabe-sequeoestimadormvde µé X N(µ,σ 2 /n). Teste de hipóteses: 1. Hipóteses: H 0 : µ = µ 0 H 1 : µ µ 0 (ou H 1 : µ > µ 0 ou H 1 : µ < µ 0 ) 2. Estatística do teste: Z 0 = X µ 0 σ/ n H 0 N(0, 1), cujovalorobservadoédenotadopor z 0. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 148/207 3. Regiãocrítica:Fixadoumvalorpara α, onde b = F 1 N(0,1) (1 α 2 ). RC α = {z IR : (z < b) (z > b)}, b 0 b Z 4. Conclusão: Se z 0 RC α, rejeita-se H 0 ao nível de significância de 100α%. Casocontrário,nãoháevidênciapararejeitar H 0 aonível α. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 149/207

Exemplo 8.2: Uma máquina foi regulada para encher pacotes de café de 500g. Seja X 1,...,X 16 umaa.a. de X (quantidade de cafépor pacote), cuja média amostral é 492g. Considerando que X segue uma distribuiçãonormalcomvariância 400g 2,testearegulaçãodamáquina ao nível de 1% de significância. Teste de hipóteses: 1. Hipóteses: H 0 : µ = 500 µ 0 versus H 1 : µ 500 2. Estatísticadoteste: Z 0 = X µ 0 σ/ n é z 0 = 492 500 = 1.6. 400/16 H 0 N(0, 1),cujovalorobservado 3. Regiãocrítica:Fixado α = 0.01, F 1 N(0,1) (0.995) = 2.58eRC 1% = (, 2.58) (2.58, ). 4. Conclusão: Como z 0 / RC 1%, não se rejeita H 0 ao nível de significância de 1%, i.e., não há evidência contra a regulação da máquina. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 150/207 Seja X 1,...,X n umaa.a.deumapopulação X N(µ,σ 2 ),com µeσ 2 desconhecidos.sabe-sequeoestimadormvde µé X N(µ,σ 2 /n). Teste de hipóteses: 1. Hipóteses: H 0 : µ = µ 0 H 1 : µ µ 0 (ou H 1 : µ > µ 0 ou H 1 : µ < µ 0 ) 2. Estatística do teste: T 0 = X µ 0 S/ n H 0 t(n 1), cujovalorobservadoét 0,onde S 2 = 1 n 1 n i=1 (X i X) 2. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 151/207

3. Regiãocrítica:Fixadoumvalorpara α, onde b = F 1 t (n 1) (1 α 2 ). RC α = {t IR : (t < b) (t > b)}, b 0 b T 4. Conclusão: Se t 0 RC α, rejeita-se H 0 ao nível de significância de 100α%. Casocontrário,nãoháevidênciacontra H 0 aonível α. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 152/207 Exemplo8.2a: Seja X 1,...,X 16 umaa.a. de X (quantidadedecafé porpacote),cujamédiaevariânciaamostralsão 480ge 800g 2,respectivamente. Considerando uma distribuição normal para X, teste se a máquinaestáaencherpacotesdecafécompelomenos 500g,aonível de 5% de significância. Teste de hipóteses: 1. Hipóteses: H 0 : µ 500 µ 0 versus H 1 : µ < 500. 2. Estatísticadoteste: T 0 = X µ 0 S/ n t 0 = 480 500 = 2.83. 800/16 µ=µ 0 t(15),cujovalorobservadoé 3. Regiãocrítica:Fixado α = 0.05, F 1 t (15) (0.95) = 1.753eRC 5% = (, 1.753). 4. Conclusão:Como t 0 RC 5%,rejeita-se H 0 aoníveldesignificância de 5%, i.e., há evidência4contra a hipótese de enchimento de pacotesdecafécompelomenos 500g. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 153/207

Exemplo8.2b: Notestedehipóteses H 0 : µ 500 µ 0 versus H 1 : µ < 500,adecisãodotestevariacomaescolhade α, i.e., α RC α decisãodoteste 0.05 (, 1.753) rejeita-se H 0 0.01 (, 2.602) rejeita-se H 0 0.006 (, 2.857) nãoserejeita H 0 Assim,omenorvalordoníveldesignificância αqueconduzàrejeição de H 0 é P = P(T < 2.83 H 0 ) = 0.0063. Valor-p do teste. Definição8.1:Ovalor-pdeumtestedehipóteses(P)éaprobabilidade sob H 0 deaestatísticadotestetomarvalorestãooumaisdesfavoráveis a H 0 doqueoseuvalorobservado. Destemodo, H 0 serárejeitadoa todoníveldesignificância αtalque P < αeaceitenocasocontrário. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 154/207 Seja X 1,...,X n umaa.a. deumapopulação X N(µ,σ 2 ),com µe σ 2 desconhecidos.sabe-seque Q = (n 1)S 2 /σ 2 χ 2 (n 1). Teste de hipóteses: 1. Hipóteses: H 0 : σ 2 = σ 2 0 H 1 : σ 2 σ 2 0(ou H 1 : σ 2 > σ 2 0ou H 1 : σ 2 < σ 2 0). 2. Estatística do teste: Q 0 = (n 1)S2 σ 2 0 H 0 χ 2 (n 1), comvalorobservado q 0 e S 2 = 1 n 1 n i=1 (X i X) 2. Se µforconhecido, Q 0 = n i=1 (X i µ) 2 σ 2 0 H 0 χ 2 (n). NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 155/207

3. Regiãocrítica:Fixadoumvalorpara α, RC α = {q IR + : (q < a) (q > b)}, onde a = F 1 ( α) e b = F χ 2 2 χ (n 1) (n 1)(1 α). 2 2 0 a b Q 4. Conclusão: Se q 0 RC α, rejeita-se H 0 ao nível de significância de 100α%.Casocontrário,nãoháevidênciacontra H 0. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 156/207 Exemplo 8.3: Seja X 1,...,X 10 umaa.a. de X (tensãoderuptura), cujosresultadossão 10 i=1 x i = 900e 10 i=1 x2 i = 81108.Considerando umadistribuiçãonormalpara X,testese V ar(x) = σ 2 = 10. Teste de hipóteses: 1. Hipóteses: H 0 : σ 2 = 10 σ 2 0versus H 1 : σ 2 10. 2. Estatísticadoteste: Q 0 = (n 1)S2 σ0 2 q 0 = 9 12 = 10.8. 10 H 0 χ 2 (9),cujovalorobservadoé 3. Valor-p: P = 2 min(p(q 0 10.8 H 0 ),P(Q 0 < 10.8 H 0 )) = 0.58. Note-se que F 1 (0.71) = 10.8, F 1 = 10.66 e χ 2 χ (9) (9)(0.7) 2 F 1 = 12.24. χ(9)(0.8) 2 4. Conclusão:Rejeita-se H 0 para α 0.58eaceita-se H 0 para α < 0.58. Ouseja,háforteevidênciaafavordahipótese V ar(x) = 10. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 157/207

Duas populações normais Sejam X 11,...,X 1n1 e X 21,...,X 2n2 a.a. de duas populações independentes X 1 N(µ 1,σ 2 1) e X 2 N(µ 2,σ 2 2), respectivamente, com σ 2 1 e σ 2 2 conhecidos. Sabe-sequeoestimadorMVde µ 1 µ 2 é X 1 X 2 N(µ 1 µ 2,σ 2 1/n 1 + σ 2 2/n 2 ). Teste de hipóteses: 1. Hipóteses: H 0 : µ 1 = µ 2 µ 1 µ 2 = 0 H 1 : µ 1 µ 2 (ou H 1 : µ 1 > µ 2 ou H 1 : µ 1 < µ 2 ) 2. Estatística do teste: Z 0 = comvalorobservado z 0. X 1 X 2 σ 2 1 /n 1 + σ 2 2/n 2 H 0 N(0, 1), NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 158/207 3. Regiãocrítica:Fixadoumvalorpara α, onde b = F 1 N(0,1) (1 α 2 ). RC α = {z IR : (z < b) (z > b)}, b 0 b Z 4. Conclusão: Se z 0 RC α, rejeita-se H 0 ao nível de significância de 100α%.Casocontrário,aceita-se H 0 aonível α. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 159/207

Sejam X 11,...,X 1n1 e X 21,...,X 2n2 a.a. deduaspopulaçõesindependentes X 1 N(µ 1,σ 2 1)eX 2 N(µ 2,σ 2 2),respectivamente,com σ 2 1 = σ 2 2 = σ 2 (desconhecido). Teste de hipóteses: 1. Hipóteses: H 0 : µ 1 = µ 2 µ 1 µ 2 = 0 H 1 : µ 1 µ 2 (ou H 1 : µ 1 > µ 2 ou H 1 : µ 1 < µ 2 ) 2. Estatística do teste: T 0 = X 1 X 2 (n 1 1)S 1 2+(n 2 1)S 2 2 n 1 +n 2 ( 1 2 n 1 + 1 n 2 ) H 0 t(n1 +n 2 2), comvalorobservado t 0 e Si 2 = 1 ni n i 1 j=1 (X ij X i ) 2, i=1, 2. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 160/207 3. Regiãocrítica:Fixadoumvalorpara α, RC α = {t IR : (t < b) (t > b)}, onde b = F 1 t (n1 +n 2 2) (1 α 2 ). b 0 b T 4. Conclusão: Se t 0 RC α, rejeita-se H 0 ao nível de significância de 100α%.Casocontrário,nãoháevidênciacontra H 0. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 161/207

Exemplo8.4:Paratestararesistênciadedoistiposdevigadeaço(Ae B), observou-se a resistência de algumas dessas vigas de aço, obtendo os seguintes resultados de duas amostras: tipo tamanho média variância A 15 70.5 81.6 B 10 84.3 85.7 Supondo que as amostras (aleatórias) são provenientes de duas populaçõesnormaisindependentes X 1 N(µ 1,σ 2 )ex 2 N(µ 2,σ 2 ), teste a igualdade das médias populacionais. Teste de hipóteses: 1. Hipóteses: H 0 : µ 1 = µ 2 µ 1 µ 2 = 0 H 1 : µ 1 µ 2. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 162/207 2. Estatística do teste: T 0 = X 1 X 2 (n 1 1)S 1 2+(n 2 1)S 2 2 n 1 +n 2 ( 1 2 n 1 + 1 n 2 ) H 0 t(23), cujovalorobservadoét 0 = 3. Valor-p: 70.5 84.3 = 3.71. (83.204)(1/15+1/10) P = P( T 0 3.71 H 0 ) = 2(1 F t(23) (3.71)) = 0.0012. 4. Conclusão: Rejeita-se H 0 para α 0.0012. Aceita-se H 0 para α < 0.0012. Há forte evidência contra a hipótese de igualdade entre as resistênciasmédiasdosdoistiposdevigadeaço. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 163/207

Testes de hipóteses para parâmetros de populações não normais uniparamétricas. Exemplo 8.5: Seja X 1,...,X n uma a.a. de uma população X Bernoulli(p).PeloT.L.C.(ngrande), X a N(p,p(1 p)/n). Teste de hipóteses para uma proporção(em grandes amostras): 1. Hipóteses: H 0 : p = p 0 H 1 : p p 0 (ou H 1 : p > p 0 ou H 1 : p < p 0 ). 2. Estatística do teste: Z 0 = X p 0 p0 (1 p 0 )/n H 0 a N(0, 1), cujovalorobservadoéz 0. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 164/207 3. Regiãocrítica:Fixadoumvalorpara α, RC α = {z IR : (z < a) (z > b)}, onde b = a = F 1 N(0,1) (1 α 2 ). b 0 b Z 4. Conclusão: Se z 0 RC α, rejeita-se H 0 ao nível de significância de 100α%. Casocontrário,nãoháevidênciacontra H 0 aonível α. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 165/207

Exemplo8.6:UmaestaçãodeTVafirmaquenomínimo60%dostelespectadores devem assistir o seu programa especial de Natal. A fim de avaliar esta afirmação, 200 famílias foram inquiridas, com 104 respostas afirmativas,sendo X 1,...,X 200 umaa.a.de X Bernoulli(p). Teste de hipóteses: 1. Hipóteses: H 0 : p 0.6 p 0 versus H 1 : p < 0.6. 2. Estatísticadoteste: PeloT.L.C., Z 0 = X p 0 p0 (1 p 0 )/n H 0 a N(0, 1), cujovalorobservadoéz 0 = 0.60.4/200 0.52 0.6 = 2.31. 3. Valor-p: P(Z 0 2.31 H 0 ) = 0.0104. 4. Conclusão: Rejeita-se H 0 para α 0.0104. Nãoserejeita H 0 para α < 0.0104. Ouseja,háalgumaevidênciacontraaafirmaçãodaestaçãodeTV. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 166/207 Teste de ajustamento do qui-quadrado de Pearson. Até ao momento os procedimentos de inferência estatística tem incidido sobre problemas paramétricos. Entretanto, pode-se também formular hipóteses sobre a própria forma distribucional de uma dada população, e.g., usando um teste de ajustamento do qui-quadrado de Pearson. Construção da estatística do teste do qui-quadrado de Pearson: 1. Considere uma amostra aleatória de N elementos sobre os quais se observa uma característica X, sendo as respectivas observações organizadasnumapartiçãodarectareal, B 1,...,B k. 2. Seja p i = P(B i )aprobabilidadedeobterumaobservaçãona i- ésimapartedapartição, i = 1,...,k, talque k i=1 p i = 1,enquanto O i denotaonúmerodeelementosdaamostraquepertence a B i, i=1,...,k,talque k i=1 O i = N. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 167/207

3. Ovectoraleatório O = (O 1,...,O k )temf.m.p.dadapor f O (o 1,...,o k ) = N! O 1!...O k! po 1 1 p O 2 2 p O k k, conhecida por distribuição Multinomial (N,p = (p 1,...,p k )), podendo-seprovarque O i Binomial(N,p i ), i=1,...,k. 4. Hipóteses: H 0 : X F X ( ) p i = p 0 i, i=1,...,k. H 1 : X F X ( ) p i p 0 i,paraalgum i=1,...,k. 5. Estatística do teste: Q 0 = k (O i E i ) 2 i=1 H 0 a E i χ 2 (k m 1), onde E i = E(O i H 0 ) = N p 0 i e méototaldeparâmetrosestimados. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 168/207 Exemplo 8.7: Acredita-se que o número X de acidentes por semana numa dada estrada segue uma distribuição Poisson. Para testar esta crença observou-se o número de acidentes nessa estrada durante 30 semanas, cujos resultados encontram-se a seguir. Teste a suposição de distribuição Poisson para X ao nível de significância de 5%. 8 4 1 1 3 0 0 0 8 9 2 4 7 1 3 3 1 0 2 0 3 4 2 1 12 5 0 5 4 2 Teste de hipóteses: 1. Hipóteses: H 0 : X Poisson(λ)versus H 1 : X Poisson(λ). 2. Estatística do teste: Q 0 = k (O i E i ) 2 i=1 H 0 a E i χ 2 (k m 1), NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 169/207

onde E i = 30 p 0 i eaestimativa MVde λé x = 95 30 = 3.167 (m=1)eportanto,sob H 0,considera-se X Poisson(λ=3.167). Porsimplicidade,escolheu-seaseguintepartição B 1,...,B 5. i B i p 0 i = P(X B i H 0 ) E i 1 [0, 1] P(X =0) + P(X =1) = 0.1756 5.268 2 (1, 2] P(X =2) = 0.2113 6.339 3 (2, 3] P(X =3) = 0.2230 6.691 4 (3, 4] P(X =4) = 0.1766 5.297 5 (4, ) 1 P(X 4) = 0.2135 6.404 O valor observado da estatística do teste é q 0 = (11 5.268)2 + (4 6.339)2 + (4 6.691)2 + (4 5.297)2 + (7 6.404)2 5.268 6.339 6.691 5.297 6.404 = 6.237 + 0.863 + 1.082 + 0.318 + 0.055 = 8.56 NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 170/207 3. Regiãocrítica:Fixado α = 0.05, onde b = F 1 χ 2 (3)(0.95) = 7.815. RC 5% = {q IR + : (q > b)}, 0 b Q 4. Conclusão: Como q 0 =8.56 RC 5%,rejeita-se H 0 aoníveldesignificânciade 5%. Ouseja,nãoháevidênciaafavordahipótesede X Poisson(λ). NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 171/207

Notas: 1. Ovalor-pdotestedeajustamentonoExemplo8.7é P = (Q 0 > 8.56 H 0 ) = 0.0357, com F 1 (0.95) = 7.815eF 1 = 9.348. χ 2 χ (3) (3)(0.975) 2 Consequentemente,rejeita-se H 0 para α 0.0357eaceita-se H 0 para α < 0.0357.Ouseja,háalgumaevidênciacontra H 0. 2. Osvalores E i naestatísticadotestedoqui-quadradodevemser Todosmaioresouiguaisa1. Pelomenos80%delesdevemsernomínimo5. Caso contrário, deve-se fazer reagrupamento de classes. 3. Caso seja necessário estimar m parâmetros no cálculo dos E i, deve-se retirar m graus de liberdade da distribuição à estatística dotestedoqui-quadradodepearson(χ 2 (k m 1) ). NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 172/207 Teste de independência do qui-quadrado de Pearson em tabelas de contingência. Suponhaquecadaumdos N elementosdeumapopulaçãopodeser classificadodeacordocomduascaracterísticas Xe Y,com rescategorias, respectivamente. Seja p ij = P(X = i,y = j)aprobabilidade(conjunta)deumelementodapopulaçãopertenceracategoria(i,j)de(x,y), i=1,...,r, j =1,...,s. Consequentemente, as probabilidades(marginais) das duas característicassãodadaspor p i = P(X = i) = s j=1 P(X = i,y = j) p j = P(Y = j) = r i=1 P(X = i,y = j). NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 173/207

Para avaliar a independência das duas características pode-se construir um teste de hipótese com base na estatística do qui-quadrado de Pearson, efectuando as seguintes adaptações: Apartição B i, i=1,...,rspodeserapresentadacomoapartição B ij, i=1,...,r, j =1,...,s. p ij = P(B ij )éaprobabilidadedeobterumaobservaçãona (i,j)- ésimapartedapartição,talque r i=1 s j=1 p ij = 1. O ij denotaonúmerodeelementosdaamostraquepertenceab ij, talque r i=1 s j=1 O ij = N. Aestatísticadotesteédadapor Q 0 = r i=1 s (O ij E ij ) 2 j=1 H 0 a E ij χ 2 (r 1)(s 1), onde E ij = E(O ij H 0 ) = N p 0 ij. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 174/207 Ahipótesedeindependênciaentre Xe Y é H 0 : p ij = p i p j, i,j. Sob H 0,osvaloresesperadosdaestatísticasão E ij = N p 0 ij = N p i p j. Como p i e p j nãosãoespecificadassob H 0, essassãosubstituídaspelassuasestimativasdemv: ˆp i = O i N E ij = O i O j, N onde O i = s j=1 O ije O j = r i=1 O ij. e ˆp j = O j N,i.e., Note-se que o vector aleatório O = (O 11,...,O rs ) segue uma distribuição Multinomial (N,p = (p 11,...,p rs )) e que O ij Binomial(N,p ij ), i=1,...,r, j =1,...,s. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 175/207

Exemplo 8.8: Um fabricante de automóveis suspeita que a venda dos seus três últimos modelos está relacionada com o género dos seus compradores. Com base na seguinte tabela de contingência envolvendo 500 compradores, teste a hipótese de independência entre os três modelos de automóveis e o género dos compradores. género modelo 1 modelo 2 modelo 3 total masculino 160 140 40 340 feminino 40 60 60 160 total 200 200 100 500 Teste de hipóteses: 1. Hipóteses: H 0 : p ij = p i p j, i,j H 1 : p ij p i p j,paraalgum i,j. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 176/207 2. Estatística do teste: Q 0 = 2 i=1 3 j=1 (O ij E ij ) 2 E ij H 0 a χ 2 (2), onde E ij = E(O ij H 0 ) = N p 0 ij = O i O j /N. Porexemplo, E 11 = 200 340/500 = 136eE 23 = 100 160/500 = 32. O valor observado da estatística(qui-quadrado de Pearson) é q 0 = (160 136)2 136 + + (60 32)2 32 = 49.63. 3. Valor-p: P = P(Q 0 > 49.63 H 0 ) = 1.67 10 11, com F 1 χ 2 (2)(0.9995) = 15.2. 4. Conclusão: Rejeita-se H 0 para α 1.67 10 11 eaceita-se H 0 nocaso contrário, i.e., há forte evidência a favor da dependência entreavenda dos modelos deautomóveis e génerodos compradores. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 177/207

9. Introdução à regressão linear simples Modelos de regressão. Uma variável aleatória pode ser explicada quer por factores determinísticos quer por factores aleatórios. Este capítulo distingue-se dos capítulosanteriores,umavezqueoestudodevariáveisaleatóriasnãoéfeito somente com base em componentes não determinísticas. Ouseja, umavariáveldeinteresse Y passaaterduascomponentes: previsível e aleatória. Supondo uma estrutura aditiva entre elas, Y = g(x) + ǫ, onde g(x)éaparteprevisívelde Y,formadaporumavariávelauxiliar xobservávelparacadaelementodaamostra,eǫéasuapartealeatória. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 178/207 Aparteprevisívelde Y éconsideradafixa,mesmoquesejaumafunção de parâmetros desconhecidos, enquanto a parte aleatória tem uma distribuição de probabilidade. Nesse cenário, o conjunto de dados é formadopor npares(y i,x i ), i=1,...,n. Considerandoumaa.a.(Y i,x i ), i=1,...,n,ummodeloestatísticopara relacionar Y e xédadopor Y i = β 0 + β 1 x i + ǫ i, onde Y i éavariávelrespostado i-ésimoelementodaamostra,enquanto x i éasuavariávelexplicativa(fixa), β 0 e β 1 sãoparâmetros(desconhecidos)eǫ i éoerroaleatóriodoelemento idaamostra. O modelo acima é conhecido por modelo de regressão linear simples, comparteprevisível g(x) = β 0 + β 1 xepartealeatória ǫ, cujadistribuição de probabilidade se supõe usualmente ser Normal. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 179/207

Suposiçõesusuaisparaoserrosaleatórios ǫ i, i=1,...,n: E(ǫ i ) = 0.Issoimplicaque,dadoumvalorde x, E(Y x) = β 0 + β 1 x, conhecida por equação ou recta de regressão do modelo. V ar(ǫ i ) = σ 2, i(variânciaconstante). ǫ 1,...,ǫ n sãonãocorrelacionados(ouindependentes). ǫ i segueumadistribuiçãonormal. Intrepretação dos parâmetros de regressão: Aordenadanaorigem β 0 éovaloresperadode Y comvalornulo para a variável explicativa x. Odeclivedarectaderegressão β 1 éavariaçãodovaloresperado de Y porcadaincrementounitárioem x. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 180/207 y β 0 1 x 0 x 0 +1 E(Y x) = β 0 +β 1 x β 1 x Parâmetros de regressão: β 0 = E(Y x=0). β 1 = E(Y x 0 +1) E(Y x 0 ), x 0. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 181/207

Método dos mínimos quadrados em regressão linear simples. Ummétododeestimaçãodoscoeficientesderegressãoéométodode mínimos quadrados que consiste em minimizar a soma de quadrados doserrosaleatórios.ouseja,ovalorqueminimizaafunção SQ(β 0,β 1 ) = n ǫ 2 i = i=1 n (Y i β 0 β 1 x i ) 2, i=1 denotadopor(ˆβ 0, ˆβ 1 ),édenominadooestimadordemínimosquadrados dos coeficientes de regressão. Paraadeterminaçãodaestimativaassociadaa(ˆβ 0, ˆβ 1 ),deve-seencontrarasderivadasparciaisdafunção SQ(β 0,β 1 )avaliadaem {(y i,x i )} emrelaçãoaosparâmetros β 0 e β 1. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 182/207 β 0 SQ(β 0,β 1 ) = 2 n i=1 (Y i β 0 β 1 x i )( 1) β 1 SQ(β 0,β 1 ) = 2 n i=1 (Y i β 0 β 1 x i )( x i ) Logo, β 0 SQ(β 0,β 1 ) = 0 β 1 SQ(β 0,β 1 ) = 0 n i=1 Y i = nβ 0 + β n 1 i=1 x i n i=1 x iy i = β n 0 i=1 x i + β n 1 i=1 x2 i A solução desse sistema de equações é β 0 = Ȳ ˆβ 1 x e β 1 = n i=1 x iy i n xȳ n i=1 x2 i n x2. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 183/207

Pode-seprovarqueesteépontodemínimo,vistoqueamatrizhessiana avaliada neste ponto é definida positiva, e portanto os estimadores de mínimosquadradosde β 0 e β 1 sãodadospor ˆβ 0 = Ȳ ˆβ 1 x e ˆβ1 = n x i Y i n xȳ i=1. n x 2 i n x2 i=1 Consequentemente, a equação ou recta de regressão é estimada por Ŷ Ê(Y x) = ˆβ 0 + ˆβ 1 x, i.e.,dadoumvalor x,ovaloresperadode Y éestimadopor ˆβ 0 + ˆβ 1 x.a estimação pontual de E(Y x) deve restringir-se ao domínio dos valores observados na amostra da variável explicativa x. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 184/207 Estimadores de máxima verosimilhança. Supondoqueoserrosaleatórios ǫ i N(0,σ 2 ), i=1,...,n,tem-seque Y i N(β 0 +β 1 x i,σ 2 )eportantoafunçãodeverosimilhançaassociada ao modelo de regressão linear simples é L(β 0,β 1,σ 2 {y i,x i }) = n [ ( 1 exp 1 )] 2π σ 2σ 2(y i β 0 β 1 x i ) 2 i=1 Amaximizaçãodafunçãoacimaemrelaçãoaosparâmetros β 0 e β 1 restringe-seamaximizar n i=1 (y i β 0 β 1 x i ) 2 = SQ(β 0,β 1 ). Ou seja, minimizar a soma de quadrados dos erros aleatórios. Por conseguinte,osestimadoresdemáximaverosimilhançade β 0 e β 1 são osestimadoresdemínimosquadradosdosparâmetros, ˆβ 0 e ˆβ 1. Além disso,pode-seprovarqueoe.m.v.de σ 2 é σ 2 = 1 n n i=1 (Y i ˆβ 0 ˆβ 1 x i ) 2. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 185/207

Propriedades dos estimadores dos mínimos quadrados. Estimador ˆβ 1 : ˆβ 1 = n i=1 x iy i n xȳ n i=1 x2 i n x2 = n i=1 (x i x)y i n n i=1 (x i x) = k 2 i Y i, i=1 x onde k i = i x n, com n i=1 (x i x) 2 i=1 k i = 0, n i=1 k ix i = 1 e n i=1 k2 1 i = 1 ni=1 (x i = x) 2 n i=1 x2 i n x2. Logo, E(ˆβ 1 ) = n i=1 k i E(Y i ) = β 0 n i=1 k i + β 1 n i=1 k ix i = β 1. V ar(ˆβ 1 ) = n i=1 k2 i V ar(y i ) = σ 2 ( n i=1 x2 i n x 2 ) 1. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 186/207 Estimador ˆβ 0 : ˆβ 0 = Ȳ ˆβ 1 x = 1 n n Y i n k i Y i x = n w i Y i, i=1 i=1 i=1 onde w i = (1/n k i x),com n i=1 w i = 1, n i=1 w ix i = 0e n i=1 w2 i = ( 1 + x 2 n n i=1 x2 i n x2 ). Logo, E(ˆβ 0 ) = n i=1 w i E(Y i ) = β 0 n i=1 w i + β 1 n i=1 w ix i = β 0. V ar(ˆβ 0 ) = n i=1 w2 i V ar(y i ) = σ 2 ( 1 n + x 2 n i=1 x2 i n x2 ). Note-seque ˆβ 0 e ˆβ 1 sãocombinaçõeslinearesdos Y i eestimadorescentradosde β 0 e β 1,respectivamente. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 187/207

Estimador ˆσ 2 : Seja SSEasomadequadradosdosresíduos Y i Ŷi, i=1,...,n, onde Ŷi ˆβ 0 + ˆβ 1 x i,istoé, SSE = n i=1 (Y i Ŷi) 2 = n i=1 (Y i Ȳ + ˆβ 1 x ˆβ 1 x i ) 2 = n i=1 (Y i Ȳ )2 ˆβ 2 1 n i=1 (x i x) 2, onde SST = n i=1 (Y i Ȳ )2 e SSR = ˆβ 2 1 n i=1 (x i x) 2 = n i=1 (Ŷi Ȳ )2 sãoconhecidasporsomasdequadradostotaleda regressão, respectivamente, tal que SST = SSR + SSE. Pode-seprovarque E(SSE) = (n 2)σ 2 eportantoumestimador centradode σ 2 é ˆσ 2 = SSE n 2 = 1 [( n ) ( n Yi 2 nȳ 2 n 2 ˆβ 1 2 x 2 i n x )]. 2 i=1 i=1 NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 188/207 Exemplo9.1: Aresistênciadeumacertafibrasintética(Y)ésuposta estar relacionada com a percentagem de algodão(x). Para avaliar essa conjectura tomou-se uma amostra aleatória de 10 peças da fibra produzidas sob as mesmas condições, obtendo-se os seguintes dados: y 213 220 216 225 235 218 239 243 233 240 x 13 15 14 18 19 17 22 21 16 18 10 i=1 x i = 173 10 i=1 y i = 2288 10 i=1 x2 i = 3069 10 i=1 y2 i = 524510 10 i=1 x iy i = 39825 y 215 225 235 14 16 18 20 22 x NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 189/207

Asestimativasdemínimosquadradosde β 0 e β 1 são ˆβ 1 = 39825 10 17.3 228.8 3069 10 17.3 2 = 3.188 ˆβ 0 = 228.8 3.188 17.3 = 173.65 Consequentemente, a equação ou recta de regressão estimada é Ŷ Ê(Y x) = 173.65 + 3.188x, sendo 3.188 a variação na resistência média da fibra sintética por cada incremento de 1% na percentagem de algodão. A estimativa da variância dos erros aleatórios é ˆσ 2 = 1 [ ] (524510 10 228.8 2 ) 3.188 2 (3069 10 17.3 2 ) 8 = 30.27. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 190/207 Inferências adicionais no modelo de regressão linear simples. Parâmetro β 1. Como ˆβ 1 = n i=1 k iy i éumacombinaçãolineardenormaisindependentes, E(ˆβ 1 ) = β 1 e V ar(ˆβ 1 ) = σ 2 ( n i=1 x2 i n x 2 ) 1,então e, por conseguinte, ( ˆβ 1 N β 1, σ 2 n i=1 x2 i n x2 ), T = ˆβ 1 β 1 t (n 2). ˆσ 2 ni=1 x 2 i n x2 NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 191/207

Considerando T acima como variável fulcral na construção de um intervalodeconfiançaa100(1 α)%para β 1,tem-seque P(a < T < b) = γ = 1 α, onde b = a = Ft 1 (n 2) (1 α),e 2 b 0 b T ( ˆσ P ˆβ 1 b 2 n i=1 x2 i n < β x2 1 < ˆβ 1 +b ˆσ 2 n i=1 x2 i n x2 ) = 1 α Logo,umintervalo(aleatório)deconfiançaa100(1 α)%para β 1 é IAC(β 1, 1 α) = ˆβ ˆσ 1 ± b 2 n i=1 x2 i n x2. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 192/207 Teste de hipóteses: 1. Hipóteses: H 0 : β 1 = β 0 1versus H 1 : β 1 β 0 1. 2. Estatística doteste: T 0 = observadoédenotadopor t 0. ˆβ 1 β 0 1 H 0 ˆσ 2 ni=1 x 2 i n x2 t(n 2), cujovalor 3. Regiãocrítica: Fixado α, RC α = (, b) (b, ),onde b = a = F 1 t (n 2) (1 α 2 ). b 0 b T 4. Conclusão: Se t 0 RC α,rejeita-se H 0 aoníveldesignificância de 100α%.Casocontrário,nãoserejeita H 0 a 100α%. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 193/207

Parâmetro β 0. Como ˆβ 0 = n i=1 w iy i éumacombinaçãolineardenormaisindependentes, então E(ˆβ 0 ) = β 0 V ar(ˆβ 0 ) = σ 2 ( 1 n + x 2 ni=1 x 2 i n x2 ). Logo, ( 1n ˆβ 0 N (β 0,σ 2 + x 2 n )), i=1 x2 i n x2 e, por conseguinte, T = ˆβ 0 β 0 ˆσ 2 ( 1 + x 2 n n ) i=1 x2 i n x2 t (n 2). NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 194/207 Considerando T acima como variável fulcral na construção de um intervalodeconfiançaa100(1 α)%para β 0,tem-seque P(a < T < b) = γ = 1 α, onde b = a = Ft 1 (n 2) (1 α),e 2 b 0 b T ( ( 1 P ˆβ 0 b ˆσ 2 n + x 2 ) ( ni=1 x 2 i n < β 0 < ˆβ 1 0 + b ˆσ 2 x2 n + x 2 ) ni=1 x 2 i n = 1 α x2 Logo,umintervalo(aleatório)deconfiançaa100(1 α)%para β 0 é dado por IAC(β 0, 1 α) = ˆβ 0 ± b ˆσ 2 ( 1 n + x 2 n i=1 x2 i n x2 ). NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 195/207

Teste de hipóteses: 1. Hipóteses: H 0 : β 0 = β 0 0versus H 1 : β 0 β 0 0. 2. Estatísticadoteste: T 0 = valorobservadoédenotadopor t 0. ˆβ 0 β0 0 H 0 ˆσ 2 ( 1 n + x 2 ni=1 x 2 ) i n x2 t(n 2), cujo 3. Regiãocrítica: Fixado α, RC α = (, b) (b, ),onde b = a = F 1 t (n 2) (1 α 2 ). b 0 b T 4. Conclusão: Se t 0 RC α,rejeita-se H 0 aoníveldesignificância de 100α%.Casocontrário,nãoserejeita H 0 a 100α%. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 196/207 Estimaçãode E(Y x 0 ). Dado um valor x 0 da variável explicativa, um estimador pontual do valoresperadode Y é Ŷ 0 Ê(Y x 0) = ˆβ 0 + ˆβ 1 x 0 = n ( ) 1 n + k i(x 0 x) Y i. i=1 Como Ŷ0éumacombinaçãolineardenormaise E(Ŷ0) = E(ˆβ 0 ) + E(ˆβ 1 )x 0 = β 0 + β 1 x 0, V ar(ŷ0) = = σ 2 ( 1 n + ( x x 0) 2 n i=1 x2 i n x2 ), T = ˆβ 0 + ˆβ 1 x 0 β 0 + β 1 x 0 ˆσ 2 ( 1 + ( x x 0) 2 n n i=1 x2 i n x2 ) t (n 2). NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 197/207

Considerando T acima como variável fulcral na construção de um intervalodeconfiançaa100(1 α)%para E(Y x 0 ),tem-seque P(a < T < b) = γ = 1 α, onde b = a = Ft 1 (n 2) (1 α),e 2 ( P ˆβ 0 + ˆβ 1 x 0 b ˆσ 2 ( 1 + x 2 n n ) < E(Y x i=1 x2 i n 0 ) < x2 ˆβ 0 + ˆβ ) 1 x 0 + b ˆσ 2 ( 1 + x 2 n n ) = 1 α i=1 x2 i n x2 Logo,umintervalo(aleatório)deconfiançaa100(1 α)%para E(Y x 0 ) édadopor ( IAC(E(Y x 0 ), 1 α) = ˆβ 0 + ˆβ 1 1 x 0 ± b ˆσ 2 n + x 2 n ). i=1 x2 i n x2 NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 198/207 Teste de hipóteses: 1. Hipóteses: H 0 : E(Y x 0 ) = β 0 0 +β 0 1 x 0 versus H 1 : E(Y x 0 ) β 0 0+β 0 1 x 0. 2. Estatísticadoteste: T 0 = ˆβ 0 +ˆβ 1 x 0 (β0 0+β0 1 x 0) ( ˆσ 2 valorobservadoédenotadopor t 0. 1 n + ( x x 0 )2 ni=1 x 2 i n x2 ) H 0 t(n 2),cujo 3. Regiãocrítica: Fixado α, RC α = (, b) (b, ),onde b = a = F 1 t (n 2) (1 α 2 ). b 0 b T 4. Conclusão: Se t 0 RC α,rejeita-se H 0 aoníveldesignificância de 100α%.Casocontrário,nãoserejeita H 0 a 100α%. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 199/207

Exemplo 9.1a: Teste ao nível de significância de 1% se a percentagem de algodão(x) influencia a resistência da fibra sintética(y). Teste de hipóteses: 1. Hipóteses: H 0 : β 1 = 0 β 0 1versus H 1 : β 1 β 0 1. 2. Estatística doteste: T 0 = ˆβ 1 β 0 1 H 0 ˆσ 2 ni=1 x 2 i n x2 t(n 2), cujovalor observadoédenotadopor t 0 = 3.188/ 30.27/76.1 = 5.054. 3. Região crítica: Fixado α = 0.01, RC α = (, 3.355) (3.355, ),onde F 1 t (8) (0.995) = 3.355. 4. Conclusão: Como t 0 RC 0.01, rejeita-se H 0 ao nível de significânciade 1%.Note-sequeovalor-p = P( T 0 5.054 H 0 ) < 0.001,pois Ft 1 (8) (0.9995) = 5.041,eportantoháforteevidência de que a percentagem de algodão influencia a resistência da fibra sintética. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 200/207 Coeficiente de determinação. Definição 9.1: O coeficiente de determinação é uma medida relativa de ajustamento do modelo de regressão linear, dada por R 2 = SSR SST = 1 SSE SST, onde SST = n i=1 (Y i Ȳ )2 e SSR = ˆβ 2 1 n i=1 (x i x) 2 eportanto R 2 = ( n i=1 x iy i n x Ȳ )2 ( n i=1 x2 i n x2 )( n i=1 Y i 2 nȳ 2 ). Ocoeficientededeterminaçãoétalque 0 R 2 1,onde R 2 1indicabomajustamentodomodelo; R 2 0indicamauajustamentodomodelo. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 201/207

y R 2 1 y R 2 0 * * * ȳ ------------------ * * * ** * ** ȳ ------------------ * * * * * x x Nota: Existem testes de hipóteses de ajustamento do modelo, e.g., o teste F de falta de ajustamento(lack-of-fit). NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 202/207 Análise de resíduos na avaliação do modelo. A violação das suposições do modelo de regressão linear pode induzir a conclusões erradas sobre o modelo. Esse problema pode ser detectado através de técnicas de diagnóstico baseadas frequentemente na análise de resíduos. Adefiniçãomaissimplesderesíduoédadapor r i = y i ŷ i = y i ˆβ 0 ˆβ 1 x i, onde (y i,x i )sãoosvaloresobservadosnaamostra, i = 1,...,n,enquanto os resíduos padronizados são por r s i = r i ˆσ 2, onde ˆσ 2 = 1 n 2 [( n i=1 Y 2 i nȳ 2 ) ˆβ 2 1( n i=1 x2 i n x 2 )]. NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 203/207

Aanálisedegráficosderesíduoséatécnicadediagnósticomaisusada para encontrar: Observações discrepantes(outliers). Heterogeneidadedavariância(V ar(y i ) σ 2 paraalgum i). Faltadenormalidade(Y i N(, )). Dependênciadoserrosaleatórios(Cov(Y i,y j ) 0). Os gráficos de resíduos mais comuns são: r i versus x i. r i versus ŷ i. r i aolongodotempo(seforpossível). NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 204/207 r i r i * 0 ------------------ * * * * * * * * * * * ------------------ * * * * x i x i sem problemas perda de linearidade NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 205/207

Exemplo 9.1b: Avalie o ajustamento do modelo de regressão linear simples(y = β 0 +β 1 x+ǫ),incluindoumgráficoderesíduos. r 2 = (39825 10 17.3 228.8) 2 (3069 10 17.3 2 )(524510 10 228.8 2 ) = 0.7615. Ouseja, 76.15%davariaçãototaldaresistênciadafibrasintéticaéexplicada pelo modelo de regressão linear simples com a percentagem de algodão como variável explicativa. Gráficos de resíduos: r s i = y i ŷ i ˆσ 2, i=1,...,10. inexistência de problemas. standardized.residuals 1.0 0.0 1.0 2.0 14 16 18 20 22 NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 206/207 x Alguns abusos no modelo de regressão: Seleccção de variável explicativa. É possível desenvolver uma relação estatisticamente significativaentreavariávelresposta(y)eavariávelexplicativa(x) que não faça sentido na prática. O domínio de actuação dos dados originais. A relação linear assumida para as variáveis resposta e explicativanãopodeserestendidaparaforadodomíniodeactuação dos dados observados. Por exemplo, se os valores da variável explicativa x [13, 22],nãosedeveinferirsobreovaloresperadodavariávelresposta Y quando x 0 = 25,anãoserque haja informação adicional sobre a validade do modelo sobre esse domínio estendido. FIM! NOTAS DE PROBABILIDADES E ESTATÍSTICA - GS 207/207