Análise de Regressão EST036

Análise de Regressão EST036 Michel Helcias Montoril Instituto de Ciências Exatas Universidade Federal de Juiz de Fora Distribuição beta não central; Coef. de determinação; Quando X for aleatório.

Distribuição beta não central

Distribuição Beta não central Definição Dizemos que uma v.a. X Beta(ν 1, ν 2, λ) (lê-se, X tem distribuição Beta não central com parâmetros de forma ν 1 e ν 2, e parâmetro de não centralidade λ), ν 1, ν 2, λ > 0, se sua fdp for da forma + e λ/2 (λ/2) k f X (x) = f k! Yν1 +k,ν 2 (x)1 (0,1) (x), k=0 em que f Yr,s corresponde à fdp de Y r,s, Y r,s Beta(r, s).

Propriedades da Beta(ν 1, ν 2, λ) (β1) Se W Poisson(λ/2) e X W = w Beta(ν 1 + w, ν 2 ), então X Beta(ν 1, ν 2, λ); (β2) Se X Beta(ν 1, ν 2 ), então X Beta(ν 1, ν 2, 0); (β3) Se X 1 χ 2 ν 1 (λ) e X 2 χ 2 ν 2, X 1 X 2, então (β4) Se X Beta(ν 1, ν 2, λ), então X = X 1 X 1 + X 2 Beta(ν 1 /2, ν 2 /2, λ); Y = ν 2 X ν 1 (1 X ) F 2ν 1,2ν 2 (λ).

Coeficiente de determinação

Coeficiente de determinação Mede, em termos percentuais, quanto da variabilidade de Y pode ser explicada pelo modelo; R 2 = SS R SS T ; No caso do modelo de regressão linear simples, R 2 = S 2 XY S XX S YY ; R 2 Beta(1/2, (n 2)/2, γ), em que γ = β2 1 S XX ; Se β 1 = 0, então R 2 Beta(1/2, (n 2)/2); σ 2 ɛ

Exemplo dos dados de propelente de foguete O coeficiente de determinação no exemplo dos dados de propelente corresponde a R 2 = 1527483 1693737.601 = 0.9018; Portanto, 90.18% da resistência ao cisalhamento pode ser explicada pelo modelo de regressão.

Quando X for uma variável aleatória

E quando X e Y são v.a. s? Até agora, temos usado a suposição de que os X i s são fixos; Isso traz impacto na interpretação, por exemplo, dos erros tipo I; Quando X também é considerado aleatório, o tratamento é um pouco diferente; Sob certas circunstâncias, os resultados vistos até aqui permanecem válidos.

Distribuição conjunta de (X, Y ) Suponha que a distribuição conjunta de (X, Y ) seja desconhecida; Os resultados anteriores permanecem válidos, desde que: Y X (β 0 + β 1 X, σɛ 2 ); Os X s são iid cuja distribuição de probabilidade não depende de β 0, β 1, σɛ 2. A variância de Y será σ 2 Y = Os coeficientes de regressão serão σ2 ɛ 1 ρ 2 ; β 0 = µ Y µ X ρ σ Y σ X, β 1 = σ Y σ X ρ.

No caso de normalidade Suponha que (X, Y ) N 2 (µ; Σ), em que µ = (µ X, µ Y ) e ( ) ( ) σ 2 Σ = X σ XY σ 2 = X σ X σ Y ρ ; σ X σ Y ρ σ XY σ 2 Y Para uma amostra iid (X i, Y i ), i = 1,..., n o EMV de µ X, µ Y, σx 2, σ2 Y e ρ serão, respectivamente, σ 2 Y ˆµ X = 1 n ˆσ 2 X = 1 n ˆρ = n X i, i=1 ˆµ Y = 1 n n (X i X ) 2, ˆσ Y 2 = 1 n i=1 S XY SXX S YY. n Y i, i=1 n (Y i Ȳ ) 2, i=1

No caso de normalidade Pelo Princípio da Invariância, os EMV s de β 0, β 1 e σ 2 ɛ serão, respectivamente, ˆβ 0 = Ȳ ˆβ 1 X ˆσ 2 ɛ = ˆσ 2 Y (1 ˆρ2 ). ˆβ 1 = S XY S XX ρ está relacionado com o coeficiente de determinação do seguinte modo ˆρ 2 = ˆβ 1 2 S XX S YY = SS R SS T = R 2.

Como testar de X e Y são correlacionados? As hipóteses nula e alternativa, nesse caso, serão H 0 :ρ = 0 H 1 :ρ 0; Sob H 0, t 0 = ˆρ n 2 1 ˆρ 2 t n 2; Rejeitamos H 0, ao nível de significância α, se t 0 > t α/2,n 2 ;

Como testar de X e Y são correlacionados? Equivalentemente, as hipóteses equivalem a testar Sob H 0, F 0 = H 0 :ρ 2 = 0 H 1 :ρ 2 > 0; (n 2)R2 1 R 2 F 1,n 2 ; Rejeitamos H 0, ao nível de significância α, se F 0 > F α,1,n 2 ;

Testes de hipóteses gerais Podemos testar hipóteses mais gerais, do tipo H 0 :ρ = ρ 0 H 1 :ρ ρ 0 ; Quando ρ 0 0, temos para amostras de tamanhos moderados (n 25), que em que Z = arctanhˆρ = 1 2 log 1 + ˆρ 1 ˆρ µ Z = 1 2 log 1 + ρ 1 ρ, σ 2 Z = (n 3) 1 ; a N(µ Z, σ 2 Z ),

Testes de hipóteses gerais Sob a hipótese nula, podemos usar a estatística do teste Z 0 = (arctanhˆρ arctanhρ 0 )(n 3) 1/2 ; Rejeitamos H 0, ao nível de significância α, se Z 0 > Z α/2 ; Intervalos de confiança assintóticos para ρ, ao nível de (1 α)100% de confiança, satisfazem ( tanh arctanhˆρ Z ) ( α/2 ρ tanh arctanhˆρ + Z ) α/2, n 3 n 3 em que tanh u = eu e u e u + e u.

Exemplo do tempo de entrega Um estatístico contratado por um engarrafador de refrigerantes está analisando a entrega de produtos e serviços operacionais em máquinas de venda automática. Ele suspeita que o tempo necessário por um despachante para carregar e ajustar uma máquina esteja relacionado com o número de caixas entregues do produto. O estatístico visita 25 estabelecimentos de venda escolhidos aleatoriamente com máquinas de venda automática e observa o tempo de carregamento/ajuste (em minutos) de uma maquina, bem como o volume de produtos entregues (em caixas) para cada estabelecimento. Como os estabelecimentos são escolhidos aleatoriamente, faz sentido pensar que ambos, o tempo de carregamento e o volume de caixas, são aleatórios.

Exemplo do tempo de entrega Observação Tempo Volume Observação Tempo Volume 1 16.68 7 14 19.75 6 2 11.50 3 15 24.00 9 3 12.03 3 16 29.00 10 4 14.88 4 17 15.35 6 5 13.75 6 18 19.00 7 6 18.11 7 19 9.50 3 7 8.00 2 20 35.10 17 8 17.83 7 21 17.90 10 9 79.24 30 22 52.32 26 10 21.50 5 23 18.75 9 11 40.33 16 24 19.83 8 12 21.00 10 25 10.75 4 13 13.50 4

Exemplo do tempo de entrega O coeficiente de correlação amostral entre o tempo de carregamento e o volume de caixas entregues é ˆρ = S XY SXX S YY = 2473.344 (1136.56)(5784.543) = 0.9646 Se supusermos que o tempo de carregamento e o volume de caixas entregues têm distribuição normal bivariada, podemos testar H 0 : ρ = 0 contra H 1 : ρ 0; t 0 = ˆρ n 2 1 ˆρ 2 = 0.9646 23 1 0.9305 = 17.55; Como t 0.025,23 = 2.069, rejeitamos H 0 e concluímos que o coeficiente de correlação é diferente de zero, ao nível de significância de 5%.

Exemplo do tempo de entrega Podemos obter intervalos de confiança assintóticos para o coeficiente de correlação ρ; Note que arctan ˆρ = arctan 0.9646 = 2.0082; Portanto, o IC para ρ, ao nível de confiança de 95%, será ( tanh 2.0082 1.96 ) ( ρ tanh 2.0082 + 1.96 ) 22 22 0.9202 ρ 0.9845.