Modelos de Regressão Linear Simples - parte III

1 Modelos de Regressão Linear Simples - parte III Erica Castilho Rodrigues 20 de Setembro de 2016

4 A variável X é um bom preditor da resposta Y? Quanto da variação da variável resposta é explicada pela reta de regressão? A distância de cada indivíduo em relação à média do grupo é dada por

4 A variável X é um bom preditor da resposta Y? Quanto da variação da variável resposta é explicada pela reta de regressão? A distância de cada indivíduo em relação à média do grupo é dada por (Y i Y) 2. A variândia da variável resposta é dada por

4 A variável X é um bom preditor da resposta Y? Quanto da variação da variável resposta é explicada pela reta de regressão? A distância de cada indivíduo em relação à média do grupo é dada por (Y i Y) 2. A variândia da variável resposta é dada por (Y i Y) 2. Se não tivéssemos o modelo de regressão, o melhor preditor para Y i é Y.

5 A variação dos dados pode ser decomposta em uma soma de parcelas. Vamos ver como isso é feito. Somando e subtraindo Y temos que Y i Ŷi =

5 A variação dos dados pode ser decomposta em uma soma de parcelas. Vamos ver como isso é feito. Somando e subtraindo Y temos que Y i Ŷi = (Y i Y)+(Ŷi Y). Somando e subraindo Ŷi temos que (Y i Y) =

5 A variação dos dados pode ser decomposta em uma soma de parcelas. Vamos ver como isso é feito. Somando e subtraindo Y temos que Y i Ŷi = (Y i Y)+(Ŷi Y). Somando e subraindo Ŷi temos que (Y i Y) = (Y i Ŷi)+(Ŷi Y). Elevando a segunda igualdade ao quadrado (Y i Y) 2 = (Y i Ŷi) 2 + 2(Y i Ŷi)(Ŷi Y)+(Ŷi Y) 2.

6 Somando a expressão (Y i Y) 2 = (Y i Ŷi) 2 + 2(Y i Ŷi)(Ŷi Y)+(Ŷi Y) 2 em i temos que

6 Somando a expressão (Y i Y) 2 = (Y i Ŷi) 2 + 2(Y i Ŷi)(Ŷi Y)+(Ŷi Y) 2 em i temos que (Y i Y) 2 = (Y i Ŷi) 2 +2 (Y i Ŷi)(Ŷi Y)+ (Ŷi Y) 2. Vamos mostrar agora que (Y i Ŷi)(Ŷi Y) = 0.

7 Temos que (Y i Ŷi)(Ŷi Y) =

7 Temos que (Y i Ŷi)(Ŷi Y) = (Y i Ŷi)Ŷi Y (Y i Ŷi). Vamos olhar cada parcela separadamente. Para o segundo termo temos que Y (Y i Ŷi) = Y (Y i ˆβ 0 ˆβ 1 X i ) = 0 A segunda igualdade é válida pois é uma das equações normais. Lembre que L = β 0 ˆβ 0,ˆβ 1

7 Temos que (Y i Ŷi)(Ŷi Y) = (Y i Ŷi)Ŷi Y (Y i Ŷi). Vamos olhar cada parcela separadamente. Para o segundo termo temos que Y (Y i Ŷi) = Y (Y i ˆβ 0 ˆβ 1 X i ) = 0 A segunda igualdade é válida pois é uma das equações normais. Lembre que L = 2 (y i β ˆβ 0 ˆβ 1 x i ) = 0. 0 ˆβ 0,ˆβ 1

8 Para a segunda parcela temos que (Y i Ŷi)Ŷi =

8 Para a segunda parcela temos que (Y i Ŷi)Ŷi = (ˆβ 0 + ˆβ 1 X i )e i = ˆβ 0 e i + ˆβ 1 X i e i Observe que e i = (Y i ˆβ 0 ˆβ 1 X i ) =

8 Para a segunda parcela temos que (Y i Ŷi)Ŷi = (ˆβ 0 + ˆβ 1 X i )e i = ˆβ 0 e i + ˆβ 1 X i e i Observe que e i = (Y i ˆβ 0 ˆβ 1 X i ) = 0 pois é a primeira equação normal.

9 Além disso X i e i = X i (Y i ˆβ 0 ˆβ 1 X i ) =

9 Além disso X i e i = X i (Y i ˆβ 0 ˆβ 1 X i ) = 0 pois essa é a segunda equação normal. Lembre-se que L β 1 ˆβ0,ˆβ 1 =

9 Além disso X i e i = X i (Y i ˆβ 0 ˆβ 1 X i ) = 0 pois essa é a segunda equação normal. Lembre-se que L = 2 β 1 ˆβ0,ˆβ 1 Dessa maneira temos que (y i ˆβ 0 ˆβ 1 x i )x i = 0. (Y i Ŷi)Ŷi = (ˆβ 0 + ˆβ 1 X i )e i = ˆβ 0 e i + ˆβ 1 X i e i ˆβ 0 0+ ˆβ 1 0 = 0.

10 Mostramos assim que (Y i Ŷi)(Ŷi Y) = Portanto (Y i Ŷi)Ŷi Y (Y i Ŷi) = 0. (Y i Y) 2 = (Y i Ŷi) 2 + (Ŷi Y) 2.

11 Então a soma de quadrados total pode ser decomposta em (Y i Y) 2 }{{} Soma de Quadrados Totais = (Ŷi Y) 2 }{{} Soma de Quadrados da Regressão SQT = SQR + SQE. + (Y i Ŷi) 2 }{{} Soma de Quadrados dos Resíduos SQT mede a variação dos valores de Y na amostra. SQR mede o quanto da SQT é explicada pelo modelo de regressão ajustado. SQE mede o quanto da SQT não é explicada pelo modelo de regressão ajustado..

12 Tabela de (Tabela ANOVA) Fonte de Variação Graus de Soma de Quadrado Liberdade Quadrados Médio Regressão 1 SQR = n (Ŷi Y) 2 QMR = SQR/1 Residual n 2 SQE = n (Y i Ŷi) 2 QME = SQE/(n 2) Total n 1 SQT = n (Y i Y) 2 Tabela: Tabela ANOVA

13 Graus de Liberdade Número associado a uma soma de quadrados. Quantos pedaços independentes de informação envolvendo as n quantidades independentes Y 1 ;...; Y n são necessários para calcular a soma de quadrados.

Soma de Quadrados Totais SQT = (Y i Y) 2 envolve n 1 quantidades independentes(y i Y) pois n (Y i Y) = 0. Soma de Quadrados da Regressão SQR = (Ŷi Y) 2 pode-se mostrar que n (Ŷi Y) 2 = ˆβ 2 1 S XX. A única informação que vem do vetor Y 1,...,Y n está em ˆβ 1. Portanto temos apenas um grau de liberdade.

15 Soma de Quadrado dos Resíduos SQE = (Y i Ŷi) 2 por subtração, tem (n 1) 1 = n 2 graus de liberdade. Quadrado médio = Soma de Quadrados Graus de Liberdade

16 Coeficiente de Determinação (R 2 ) Mede a proporção da variabilidade total dos dados explicada pelo modelo de regressão. R 2 = Soma de Quadrados da Regressão Soma de Quadrados totais = n (Ŷi Y) 2 n (Y i Y) 2

17 Observações R 2 1 R 2 = 1 somente se o ajuste do modelo é perfeito. Toda a variabilidade dos dados é explicada pelo modelo Y i = Ŷi para todo i. É possível mostrar que R 2 = (coeficiente de correlação entre X e Y) 2 ou seja, R = coeficiente de correlação entre X e Y.

18 Vejamos porque isso é verdade. Vimos que ˆβ 1 = S XY S XX. Pode-se mostrar que (lista de exercício) (Ŷi Y) 2 = ˆβ 1 2 S XX. Substituindo ˆβ 1 temos (Ŷi Y) 2 =

18 Vejamos porque isso é verdade. Vimos que ˆβ 1 = S XY S XX. Pode-se mostrar que (lista de exercício) (Ŷi Y) 2 = ˆβ 1 2 S XX. Substituindo ˆβ 1 temos (Ŷi Y) 2 = ( SXY S XX ) 2 S XX =

18 Vejamos porque isso é verdade. Vimos que ˆβ 1 = S XY S XX. Pode-se mostrar que (lista de exercício) (Ŷi Y) 2 = ˆβ 1 2 S XX. Substituindo ˆβ 1 temos (Ŷi Y) 2 = ( SXY S XX ) 2 S XX = S2 XY S XX.

19 Então pois n (Y i Y) 2 = S YY. Ou seja n R 2 = (Ŷi Y) 2 S2 n (Y i Y) = 2 R 2 = S2 XY S XX S YY XY S XX S YY Mas sabemos que o coeficiente de correlação de Pearson é dado por r = n i x iy i ( x i )( y i ) S n( i x2 i ) ( i x i) 2 n( i y2 i ) ( = XY i y i) 2 SXX S YY Mostramos assim que R 2 = (coeficiente de correlação entre X e Y) 2.

20 Exemplo Vamos analisar a relação entre duas variáveis: temperatura atmosférica média do mês; consumo mensal de gás residencial. Qual é a variável resposta?

20 Exemplo Vamos analisar a relação entre duas variáveis: temperatura atmosférica média do mês; consumo mensal de gás residencial. Qual é a variável resposta? Consumo. Qual é a variável explicativa?

20 Exemplo Vamos analisar a relação entre duas variáveis: temperatura atmosférica média do mês; consumo mensal de gás residencial. Qual é a variável resposta? Consumo. Qual é a variável explicativa? Temperatura.

21 Exemplo (continuação) Abaixo encontram-se os dados coletados e o gráfico de dispersão das duas variáveis.

22 Exemplo (continuação) A partir dos dados coletados temos que n = 25 Yi == 235, 60 Y = 9, 424 Xi = 1315 X = 52, 60 Xi Y i = 11821, 4320 X 2 i = 76323, 42 A partir desses dados podemos calcular os coeficientes da reta ˆβ 1 = 0, 079829 ˆβ 0 = 13, 623005. O modelo ajustado é onde ǫ N(0,σ 2 ). Y = 13, 623005 0, 079829X +ǫ Qual a interpretação dos parâmetros?

23 Exemplo (continuação) O gráfico asseguir apresenta a reta ajustada.

24 Exemplo (continuação) Precisamos dos seguintes dados para calcular as Somas de Quadrados.

25 Exemplo (continuação) Vamos agora calcular as Somas de Quadrados SQR = (Ŷi Y) 2 = 45, 5924 SQE = SQT = (Y i Ŷi) 2 = 18, 2234 (Y i Y) 2 = 63, 8158

26 Exemplo (continuação) A Tabela ANOVA fica da seguinte maneira Fonte de Graus de Soma de Quadrado Variação Liberdade Quadrados Médio Regressão 1 45,5924 QMR = 45, 5924/1 Residual 23 18,2234 QME = 18, 2234/23 = 0, 7923 Total 24 63,8158 Tabela: Tabela ANOVA

27 O Coeficiente de Determinação é dado por Isso significa que R 2 = SQR SQT 45, 5924 = = 0, 7144. 63, 8158

27 O Coeficiente de Determinação é dado por Isso significa que R 2 = SQR SQT 45, 5924 = = 0, 7144. 63, 8158 71,44% da varibilidade dos dados pode ser explicada pelo modelo de regressão.

29 Lembre-se que o modelo é definido como onde ǫ i iid N(0,σ 2 ). Y i = β 0 +β 1 X i +ǫ i Suposições do Modelo de Regressão Os erros são variáveis aleatórias com média zero e variância constante desconhecida E(ǫ i ) = 0 Var(ǫ i ) = σ 2. Os erros são independentes entre si. Isso implica que Cov(ǫ i,ǫ j ) = 0?

29 Lembre-se que o modelo é definido como onde ǫ i iid N(0,σ 2 ). Y i = β 0 +β 1 X i +ǫ i Suposições do Modelo de Regressão Os erros são variáveis aleatórias com média zero e variância constante desconhecida E(ǫ i ) = 0 Var(ǫ i ) = σ 2. Os erros são independentes entre si. Isso implica que Cov(ǫ i,ǫ j ) = 0? Sim. O contrário é verdade?

29 Lembre-se que o modelo é definido como onde ǫ i iid N(0,σ 2 ). Y i = β 0 +β 1 X i +ǫ i Suposições do Modelo de Regressão Os erros são variáveis aleatórias com média zero e variância constante desconhecida E(ǫ i ) = 0 Var(ǫ i ) = σ 2. Os erros são independentes entre si. Isso implica que Cov(ǫ i,ǫ j ) = 0? Sim. O contrário é verdade? Não. Os erros tem distribuição normal ǫ i N(0,σ 2 ).

30 Dessas supósições decorre que os Y i são indendentes com a seguinte distribuição

30 Dessas supósições decorre que os Y i são indendentes com a seguinte distribuição Y i x i N (β 0 +β 1 x i,σ 2) para i = 1,..., n. Os Y i são iid?

30 Dessas supósições decorre que os Y i são indendentes com a seguinte distribuição Y i x i N (β 0 +β 1 x i,σ 2) para i = 1,..., n. Os Y i são iid? Não, pois não são identicamente distribuídos.

31 Distribuição F É uma distribuição contínua que só coloca massa de probabilidade em valores positivos. Essa função tem dois parâmetros, dois graus de liberdade F d1,d 2 d 1 são os graus de liberdade do numerador e d 2 os graus de liberdade do denominador. Na tabela devemos olhar α e os graus de liberdade. Vamos olhar de um lado só pois rejeitamos para valores altos de D apenas.

32 Tabela F

33 Teste F para significância da Regressão Queremos verificar se a variável explicativa é significativa para explicar a resposta. As hipóteses a serem testadas são: Sob H 0 (β 1 = 0) temos que H 0 : β 1 = 0 vs H 1 : β 1 0. SQR σ 2 χ 2 1 SQE σ 2 χ 2 n 2 e essas duas quantidades são independentes. Dessa maneira, temos que F = SQR/1 SQE/(n 2) = QMR QME F (1,n 2).

34 Rejeitamos H 0 so o modelo de regressão explica muito a variabilidade dos dados. Devemos rejeitar para valores altos ou baixos de F?

34 Rejeitamos H 0 so o modelo de regressão explica muito a variabilidade dos dados. Devemos rejeitar para valores altos ou baixos de F? Altos. O teste é unilateral. Rejeitamos H 0 apenas para valores grandes de F. Olhamos na tabela α e não α/2. A região crítica vai ser do tipo F > F c.

35 Exemplo Considere novamente o exemplo do consumo de gás e temperatura. Vimos que a Tabela ANOVA nesse caso é dada por Fonte de Graus de Soma de Quadrado Variação Liberdade Quadrados Médio Regressão 1 45,5924 QMR = 45, 5924/1 Residual 23 18,2234 QME = 18, 2234/23 = 0, 7923 Total 24 63,8158 Tabela: Tabela ANOVA

36 Exemplo (continuação) As hipóteses a serem testadas são

36 Exemplo (continuação) As hipóteses a serem testadas são A estatística F será dada por H 0 : β 1 = 0 vs H 1 : β 1 0. F = QMR QME =

36 Exemplo (continuação) As hipóteses a serem testadas são H 0 : β 1 = 0 vs H 1 : β 1 0. A estatística F será dada por F = QMR QME = 45, 5924 0, 7923 = 57, 54. Vamos usar α = 0, 05.

38 Notamos então que F 0,05;1,23 = 4, 28. A região crítica do teste é dada por

38 Notamos então que F 0,05;1,23 = 4, 28. A região crítica do teste é dada por F > 4, 28 Conclusão:

38 Notamos então que F 0,05;1,23 = 4, 28. A região crítica do teste é dada por Conclusão: Regeitamos H 0. F > 4, 28 Com 5% de significância há evidência de que a temperatura é significativa para explicar o consumo de gás.

39 Veremos agora como encontrar intervalos para os parâmetros. Para isso precisamos encontrar variância dos estimadores. Vamos verificar primeiro se eles são não viesados. O que isso significa?

39 Veremos agora como encontrar intervalos para os parâmetros. Para isso precisamos encontrar variância dos estimadores. Vamos verificar primeiro se eles são não viesados. O que isso significa? E(ˆβ 0 ) = β 0 E[ˆβ 1 ] = β 1

40 Intervalos de Confiança

41 Vamos mostrar primeiro que E(ˆβ 0 ) = β 0. E[ˆβ 0 ] =

41 Vamos mostrar primeiro que E(ˆβ 0 ) = β 0. E[ˆβ 0 ] = E[Y ˆβ 1 X] = E[Y] E[β 1 X] =

41 Vamos mostrar primeiro que E(ˆβ 0 ) = β 0. E[ˆβ 0 ] = E[Y ˆβ 1 X] = E[Y] E[β 1 X] = 1 n E[ i Y i ] XE[ˆβ 1 ] =

41 Vamos mostrar primeiro que E(ˆβ 0 ) = β 0. E[ˆβ 0 ] = E[Y ˆβ 1 X] = E[Y] E[β 1 X] = 1 n E[ i Y i ] XE[ˆβ 1 ] = 1 n E(Y i ) β 1 X = i

41 Vamos mostrar primeiro que E(ˆβ 0 ) = β 0. E[ˆβ 0 ] = E[Y ˆβ 1 X] = E[Y] E[β 1 X] = 1 n E[ i Y i ] XE[ˆβ 1 ] = 1 n E(Y i ) β 1 X = 1 (β 0 +β 1 X i ) β 1 X = n i i

41 Vamos mostrar primeiro que E(ˆβ 0 ) = β 0. E[ˆβ 0 ] = E[Y ˆβ 1 X] = E[Y] E[β 1 X] = 1 n E[ i Y i ] XE[ˆβ 1 ] = 1 n E(Y i ) β 1 X = 1 (β 0 +β 1 X i ) β 1 X = n i β 0 +β 1 X β 1 X = β 0. i

Vejamos agora que E(ˆβ 1 ) = β 1. Sabemos que (X i X)(Y i Y) = i i (X i X)Y i Y i (Y i Y) = i (X i X)Y i pois i (Y i Y) = 0. Temos então que E[ˆβ 1 ] = E [ ] i (X i X)(Y i Y) i (X i X) 2 = E[ i (X i X)Y i ] i (X i X) 2 = [ i (X i X)E(Y i )] i (X = [ i (X i X)(β 0 +β 1 X i )] i X) 2 i (X i X) 2

43 mas Logo E[ˆβ 1 ] = (X i X)X i X i i i (X i X)β 0 +β 1 i (X i X)X i i (X i X) 2 (X i X) = 0 i (X i X) = i (X i X) 2 E[ˆβ 1 ] = 0β 0 i i (X i X) +β (X i X) 2 2 1 i (X i X) = β 2 1

44 Para encontrármos intervalos e fazer testes precisamos da variância dos estimadores. Vamos encontrar primeiro Var(ˆβ 1 ) [ ] i Var(ˆβ 1 ) = Var (X i X)Y i i (X i X) 2 = = Var[ i (X i X)Y i ] [ i (X i X) 2 ] 2 i (X i X) 2 Var[Y i ] i [ i (X = (X i X) 2 σ 2 i X) 2 ] 2 [ i (X i X) 2 ] 2 = σ 2 i (X i X) 2

Temos que Var(ˆβ 0 ) = Var[Y ˆβ 1 X] = Var[Y]+Var[ ˆβ 1 X]+2Cov[Y, ˆβ 1 X] = σ2 n + X 2 Var(ˆβ 1 ) 2XCov(Y, ˆβ 1 ) Mostraremos mais a frente que Temos então que Cov[Y, ˆβ 1 X] = 0. Vimos que Var(ˆβ 0 ) = σ2 n + X 2 Var(ˆβ 1 ) Var(ˆβ 1 ) = σ 2 i (X i X) 2 45

46 Logo Observe que Var(ˆβ 0 ) = σ2 n + X 2 σ2 i (X i X) 2 [ = σ 2 i (X i X) 2 + nx 2 ] i (X i X) 2 (X i X) 2 + nx 2 = i i X 2 i 2X i X i + nx 2 + nx 2 = i X 2 i 2nX 2 + nx 2 + nx 2 = i X 2 i Portanto Var(ˆβ 0 ) = σ 2 i X i 2 n i (X i X) 2

47 Vamos mostrar agora que Cov[Y, ˆβ 1 ] = 0. Temos que ( ) Cov[Y, ˆβ i 1 ] = Cov Y, (X i X)(Y i Y) i (X i X) 2 Cov ( Y, i (X i X)(Y i Y) ) i i (X = Cov ( Y,(X i X)(Y i Y) ) i X) 2 i (X i X) 2 i (X i X)Cov ( Y,(Y i Y) ) = i (X i X) 2

48 Observe que Cov ( Y,(Y i Y ) = Cov ( Y, Y i ) Cov ( Y, Y ) ( j = Cov Y ) j n, Y i Var(Y) = n 1 j n 1 Cov(Y j, Y i ) n 1 σ 2 Cov(Y i, Y i )+ Cov(Y j, Y i ) σ 2 j:j i n 1 σ 2 + Cov(Y j, Y i ) σ 2 = 0 j:j i Pois Y s são não correlacionados Cov(Y j, Y i ) = 0 para i j.

49 Resumindo... Mostramos que E(ˆβ 0 ) = β 0 Var(ˆβ 0 ) = σ 2 i X i 2 n i (X i X) 2 E(ˆβ 1 ) = β 1 Var(ˆβ 1 ) = σ 2 i (X i X) 2

50 Inferência sobre β 1 Desvio padrão de ˆβ 1 é dado por DP(ˆβ 1 ) = Var(β 1 ) = que é estimado por [ σ 2 i (X i X) 2 [ DP(ˆβ ˆ S 2 1 ) = i (X i X). 2 ] 1/2 ] 1/2 O intervalo de confiança é dado por [ ] 1/2 ˆβ 1 ± DP(ˆβ ˆ S 2 1 )t n 2;α/2 ˆβ1 ± i (X i X). t 2 n 2;α/2

51 Se quisermos testar as hipóteses H 0 : β 1 = b 1 H 1 : β 1 b 1 A estatística de teste é dada por t = ˆβ 1 b 1 DP(ˆβ ˆ 1 ) = ˆβ1 b 1 [ ] 1/2 S 2 i (X i X) 2 t n 2

52 Inferência sobre β 0 Desvio padrão de ˆβ 0 é dado por DP(ˆβ 0 ) = Var(β 0 ) = que é estimado por ] [σ 2 i X 1/2 i 2 n i (X i X) 2 ] DP(ˆβ ˆ 0 ) = [S 2 i X 1/2 i 2 n i (X i X) 2 O intervalo de confiança é dado por ] ˆβ 0 ± DP(ˆβ ˆ 0 )t n 2;α/2 ˆβ0 ± [S 2 i X 1/2 i 2 n i (X t i X) 2 n 2;α/2

53 Se quisermos testar as hipóteses H 0 : β 0 = b 0 H 0 : β 0 b 0 A estatística de teste é dada por t = ˆβ 0 b 0 ˆ DP(ˆβ 0 ) = ˆβ0 b 0 i [S 2 X 2 ] 1/2 t n 2 i n i (X i X) 2

54 Exemplo: Vamos retormar o exemplo do consumo de gás e temperatura. Para esses dados tínhamos que ˆβ 1 = 0, 0798. Vimos ainda que n = 25 (X i X) 2 = i i X 2 i = 76323.42 X = 52.60

54 Exemplo: Vamos retormar o exemplo do consumo de gás e temperatura. Para esses dados tínhamos que ˆβ 1 = 0, 0798. Vimos ainda que n = 25 (X i X) 2 = i i i X 2 i = 76323.42 X = 52.60 X 2 i nx 2 =

54 Exemplo: Vamos retormar o exemplo do consumo de gás e temperatura. Para esses dados tínhamos que ˆβ 1 = 0, 0798. Vimos ainda que n = 25 (X i X) 2 = i i Além disso Portanto ˆ DP(ˆβ 1 ) = [ i X 2 i = 76323.42 X = 52.60 X 2 i nx 2 = 76323.42 25(52.60) 2 = 7154.42 S 2 i (X i X) 2 S 2 = 0.7923. ] 1/2 =

54 Exemplo: Vamos retormar o exemplo do consumo de gás e temperatura. Para esses dados tínhamos que ˆβ 1 = 0, 0798. Vimos ainda que n = 25 (X i X) 2 = i i Além disso Portanto ˆ DP(ˆβ 1 ) = [ i X 2 i = 76323.42 X = 52.60 X 2 i nx 2 = 76323.42 25(52.60) 2 = 7154.42 S 2 i (X i X) 2 S 2 = 0.7923. ] 1/2 = [ ] 0.7923 1/2 = 0.0105 7154.42

55 Exemplo: (continuação) Queremos calcular intervalo de 95% para β 1. Precisamos olhar na tabela

55 Exemplo: (continuação) Queremos calcular intervalo de 95% para β 1. Precisamos olhar na tabela t 23;0,025 = 2.069. Portanto o intervalo de confiança para β 1 é dado por 0, 0798 ±(2.069)(0.0105) IC 95% (β 1 ) = [ 0.1015; 0.0581]. Interpretação do intervalo:

55 Exemplo: (continuação) Queremos calcular intervalo de 95% para β 1. Precisamos olhar na tabela t 23;0,025 = 2.069. Portanto o intervalo de confiança para β 1 é dado por 0, 0798 ±(2.069)(0.0105) IC 95% (β 1 ) = [ 0.1015; 0.0581]. Interpretação do intervalo: Com 95% de confiança podemos dizer que o verdadeiro valor de β 1 está entre -0,1015 e -0,0581.

56 Exemplo: (continuação) Queremos testar as hipóteses: H 0 : β 1 = 0 H 1 : β 1 0. Considere 5% de significância. Com base no intervalo de confiança, qual a conclusão do teste?

56 Exemplo: (continuação) Queremos testar as hipóteses: H 0 : β 1 = 0 H 1 : β 1 0. Considere 5% de significância. Com base no intervalo de confiança, qual a conclusão do teste? Como zero não pertence ao intervalo, rejeitamos H 0. Conclusão:

56 Exemplo: (continuação) Queremos testar as hipóteses: H 0 : β 1 = 0 H 1 : β 1 0. Considere 5% de significância. Com base no intervalo de confiança, qual a conclusão do teste? Como zero não pertence ao intervalo, rejeitamos H 0. Conclusão: com 5% de significância podemos dizer que a variável temperatura está linearmente correlacionada com a variável consumo de gás.

57 Exemplo: (continuação) Vamos agora encontrar o intervalo de confiança para β 0. Vimos que ˆβ 0 = 13.623. Vimos ainda que n = 25 Xi 2 = 76323.42 Temos que i S 2 = 0.7923 (X i X) 2 = 7154.42 ] DP(ˆβ ˆ 0 ) = [S 2 i X 1/2 i 2 [ n i (X = 0.7923 76323.42 ] 1/2 i X) 2 25(7154.42) = 0.5814 i

58 Exemplo: (continuação) Queremos calcular intervalo de 95% para β 0. Precisamos olhar na tabela

58 Exemplo: (continuação) Queremos calcular intervalo de 95% para β 0. Precisamos olhar na tabela t 23;0,025 = 2.069. Portanto o intervalo de confiança para β 0 é dado por 13.623 ±(2.069)(0.5814) IC 95% (β 0 ) = [12.4201; 14.8259]. Interpretação do intervalo:

58 Exemplo: (continuação) Queremos calcular intervalo de 95% para β 0. Precisamos olhar na tabela t 23;0,025 = 2.069. Portanto o intervalo de confiança para β 0 é dado por 13.623 ±(2.069)(0.5814) IC 95% (β 0 ) = [12.4201; 14.8259]. Interpretação do intervalo: Com 95% de confiança podemos dizer que o verdadeiro valor de β 0 está entre 12.4201 e 14.8259.

59 Vimos até agora como fazer inferência sobre os parâmetros. Podemos estar interessados em fazer inferência para a resposta média. Ou seja, queremos inferir qual o valor esperado de Y para determinado valor de X 0 µ 0 = E(Y X = X 0 ). A estimativa pontual é dada por ˆµ 0 = ˆβ 0 + ˆβ 1 X 0.

60 Desvio padrão é dado por que é estimado por [ ]} 2 DP(µ 0 ) = {σ 2 1 n + (X 0 X) 2 i (X i x) 2 [ ]} 2 DP(µ ˆ 0 ) = {S 2 1 n + (X 0 X) 2 i (X i x) 2 O intervalo de confiança é calculado como ˆµ 0 ± ˆ DP(µ 0 )t n 2;α/2

61 Inferência sobre observações individuais Vimos anteriormente como encontrar o intervalo de confiança para a média (em torno da reta). Vamos ver agora como encontrar o intervalo de confiança para a resposta individual. O valor individual Y varia em torno da média E(Y X). A variância será maior do que no caso anterior. A estimativa pontual é a mesma. O intervalo de confiança fica com amplitude maior.

62 A estimativa pontual é dada por Desvio padrão é dado por DP(Y 0 ) = que é estimado por Ŷ 0 = ˆβ 0 + ˆβ 1 X 0. {σ 2 [ 1+ 1 n + (X 0 X) 2 i (X i x) 2 [ DP(Y ˆ 0 ) = {S 2 1+ 1 n + (X 0 X) 2 i (X i x) 2 O intervalo de confiança é calculado como Ŷ 0 ± ˆ DP(Y 0 )t n 2;α/2 ]} 1/2 ]} 1/2

63 Exemplo: Considere o exemplo do consumo de gás e temperatura. Suponha que queremos saber qual o consumo de gás para uma temperatura igual a 30. Temos que (X 0 X) 2 = (30 52.6) 2 = 510.76 (X i x) 2 = 7154.42 S 2 = 0.7923 i O valor esperado do consumo quando X = 30 é dado por

63 Exemplo: Considere o exemplo do consumo de gás e temperatura. Suponha que queremos saber qual o consumo de gás para uma temperatura igual a 30. Temos que (X 0 X) 2 = (30 52.6) 2 = 510.76 (X i x) 2 = 7154.42 S 2 = 0.7923 i O valor esperado do consumo quando X = 30 é dado por Y = 13.623005 0.079829(30) Y = 11.228. O intervalo de confiança para a resposta média é dado por Ŷ 0 ± ˆ DP(Y 0 )t n 2;α/2.

64 Exemplo: (continuação) Vamos agora calcular ˆ DP(µ0 ). Temos que [ DP(µ ˆ 0 ) = {S 2 1 n + (X 0 X) 2 i (X i x) 2 = ]} 1/2 { [ 1 0.7923 25 + 510.76 ]} 1/2 = 0.2644 7154.42 Além disso t 13;0,025 = 2.069. O intervalo fica 11.228 ±(2.069)(0.2644)

65 Exemplo: (continuação) Portanto IC 95% (ˆµ 0 ) = [10.6809; 11.7750]. Interpretação:

65 Exemplo: (continuação) Portanto IC 95% (ˆµ 0 ) = [10.6809; 11.7750]. Interpretação: Com 95% de confiança pode-se dizer que a o consumo de gás esperado para uma temperatura igual a 30 está entre 10.6809 e 11.7750.

66 Exemplo: (continuação) Suponha agora que estamos interessados na resposta individual e não na resposta média. A estimativa pontual é a mesma obtida anteriormente

66 Exemplo: (continuação) Suponha agora que estamos interessados na resposta individual e não na resposta média. A estimativa pontual é a mesma obtida anteriormente Y = 13.623005 0.079829(30) Y = 11.228. O desvio padrão nesse caso é estimado por [ DP(Y ˆ 0 ) = {S 2 1+ 1 n + (X 0 X) 2 i (X i x) 2 ]} 1/2 { [ 0.7923 1+ 1 25 + 510.76 ]} 1/2 = 0.8352 7154.42 Além disso t 13;0,025 = 2.069. O intervalo fica 11.228 ±(2.069)(0.8352)

67 Exemplo: (continuação) Portanto IC 95% (Ŷ0) = [9.4999; 12.9560]. Interpretação:

67 Exemplo: (continuação) Portanto IC 95% (Ŷ0) = [9.4999; 12.9560]. Interpretação: Com 95% de confiança pode-se dizer que a o consumo de gás verdadeiro para uma temperatura igual a 30 está entre 10.6809 e 11.7750.

68 Exemplo: (continuação) O gráfico a seguir mostra reta ajusta e o intervalo de confiança de 95% para a resposta média.

69 Exemplo: (continuação) O gráfico a seguir mostra reta ajusta e o intervalo de confiança de 95% para a resposta individual.