Lista 1 - Gabarito Prof. Erica Castilho Rodrigues Disciplina: Modelos Lineares Generalizados 29 de Abril 1. (Concurso Petrobrás - 2011) Em um modelo de regressão logística, o que indica se o modelo se ajusta bem aos dados é a(o) a) função logito; b) função probito; c) razão de chances; d) estatística deviance; e) coeficiente de determinação. Resosta: D. 2. Encontre a função deviance para o modelo Binomial. Resposta: Exercício feito em sala. 3. Considere-se uma amostra aleatória Y 1,..., Y n com a distribuição exponencial f(y i, θ i ) = θ i exp( yiθ i ). Encontre a função deviance para essa distribuição. Respota: A log-verossimilhança é dada por l(y, θ) = i log(θ i ) i y i θ i para o modelo cheio fazemos E(Y i ) = 1/θ i = y i ou seja θ i = 1/y i l(y, θ i ) = i log(1/y i ) i 1 1
para o modelo sob pesquisa fazemos θ i = 1/ŷ i l(y, θ) = i log(1/ŷ i ) i y i /ŷ i temos então que [ D = 2 log(1/y i ) i i ( 1 log(1/ŷ i ) i i ) ] [ ŷ i θ i = 2 log i ( yi ŷ i ) ] yi 1 ŷ i 4. Os dados a seguir referem-se a tempo de vida de pacientes. A variável resposta (y i ) é o tempo de vida do paciente em semanas e a variável explicativa (x i ) é sua pressão sanguínea inicial. a) Faça o gráfico de Y em função de X. Existe algum padrão nesse gráfico? Resposta: Y descresce de maneira exponencial quando x aumenta. b) Uma possível especificação da E(Y i ) é E(Y i ) = exp (β 0 + β 1 x i ) o que garante que a esperança de Y i será positiva para todos valores dos parâmetros e das variável explicativas. Qual é a função de ligação nesse caso? Resposta: Temos que log(µ i ) = β 0 + β 1 x i = η i portanto a função de ligação é o logaritmo. Vamos supor que Y i tem distribuição exp(θ). Essa suposição é razoável? Por que? Ajuste esse modelo utilizando um software e escreva o resultado obtido. Resposta: Como Y i é tempo de vida de pacientes podemos modelar por uma distribuição exponencial, visto que só assume valores negativos e tem probabilidade baixa de assumir valores altos. O modelo ajustado é dado por ŷ i = 8.4775 1.1093x i. Verifique se a variável X i é significativa comparando as Deviances dos modelo que incluem e não incluem X i. Respota: A diferença das Deviances é dada por D = 26, 282 19, 457 = 6, 825 2
Figura 1: Tempo de vida dos pacientes em função da pressão sanguínea. comparando como valor crítico da x 2 1 (com α = 5%) notamos que 6, 825 > 3, 84. Concluímos então que com 5% de significância podemos afirmar que a variável pressão sanguínea é significativa para explicar o tempo de vida dos pacientes. 5. Deseja-se investigar como a radiação está relacionada a morte de pacientes por leucemia. A tabela a seguir mostra um conjunto de dados coletados em que se registrou o número de mortes para diferentes faixas de intensidade da radiação. Obtenha um modelo do tipo dose-resposta para modelar a relação a radiação e a proporção de pessoas que morrem devido a leucemia. (Para cada intervalo de radiação considere a dose como aquela correspondente ao limite inferior. Por exemplo, para o intervalode de radiação de 1-9 a dose refrente é 1). Faça um gráfico de dispersão de da proporção de pessoas que morreram por leucemia em função da radiação e acrescente a curva ajustada pelo modelo. O modelo está bem ajustado? Qual estatística pode ser usada para verificar isso? Qual valor de radiação estimado para o qual espera-se que 10% das pessoas morrem por leucemia. Resposta: Seja Y i o número de pessoas que morrem com leucemia, seja m i o número total de pessoas que morrem por cancer e vamos denotar por x i a dose de radiação à qual o i-ésimo grupo foi exposto. Vamos ajustar um modelo Binomial tal que Y i Bin(m i, π i ) onde π i = O script a seguir ajusta o modelo no R: 1 1 + e β 0+β 1 x i. x=c(0,1,10,50,100,200) y=c(13,5,5,3,4,18) m=c(391,205,156,50,35,51) modelo=glm(cbind(y,m-y)~x,family="binomial") 3
Figura 2: Os resultados do modelo são mostrados a seguir > summary(modelo) Call: glm(formula = cbind(y, m - y) ~ x, family = "binomial") Deviance Residuals: 1 2 3 4 5 6 0.41428-0.48994-0.13991 0.02835 0.00048 0.00269 Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) -3.488973 0.204062-17.098 < 2e-16 *** x 0.014410 0.001817 7.932 2.15e-15 *** (Dispersion parameter for binomial family taken to be 1) Null deviance: 54.35089 on 5 degrees of freedom Residual deviance: 0.43206 on 4 degrees of freedom AIC: 26.097 Number of Fisher Scoring iterations: 4 O modelo ajustado é dado por Ê(y i ) = 1 1 + e 3.488+0.014x i. A Figura 3 mostra o gráfico de dispersão e a reta ajustada. A curva parece se ajustar bem aos dados. A Deviance calculada do modelo foi de 0,432 com um p-valor de 0,9797692. Isso indica que o modelo está bem ajustado. Para estimarmos a radiação para a qual 50% das pessoas morrem por leucemia, devemos 4
Proporção de pessoas que morreram por leucemia 0.05 0.10 0.15 0.20 0.25 0.30 0.35 0 50 100 150 200 x Figura 3: Gráfico da proporção de pessoas que morreram de leucemia em função da raciação. isolar o x i na equação Basta fazer π i = 0, 1 e temos assim que ( ) πi log = 3.488 + 0.014x i 1 π i ( ) πi x i = (log + 3.488)/0.014. 1 π i ( ) 0, 1 x i = (log + 3.488)/0.014 = 92.19. 1 0, 1 Portanto a dose tal que espera-se que 10% das pessoas morram por leucemia é de 92,19. 6. Entre os conjuntos de dados disponíveis no pacote MASS encontra-se a data frame menarche. Trata-se dos resultados dum estudo efetuado na Polônia (veja- a referência bibliográfica através do comando help(menarche) ) em 1965, no qual se registou a idade média da primeira menstruação (menarca) em grupos (homogêneos) de jovens de Varsóvia. A tabela contém três colunas, indicando a idade média do grupo, o número total de jovens no grupo e, finalmente, o número de jovens já com períodos menstruais. a) Construa um gráfico de idades médias (eixo horizontal) vs. a proporção de jovens pósmenarca (eixo vertical). Discuta a forma da relação obtida. 5
Resposta: O código usado para fazer o gráfico se encontra a seguir. require(mass) data(menarche) head(menarche) attach(menarche) plot(age,menarche/total) O gráfico apresentado na Figura?? mostra que a relação entre a proporção de jovens pósmnearca e a idade se aproxima muito de uma curva logística. Esse é um indício de que o modelo logístico é adequado neste caso. Menarche/Total 0.0 0.2 0.4 0.6 0.8 1.0 10 12 14 16 Age Figura 4: b) Ajuste uma regressão logística aos dados. Trace a curva ajustada por cima da nuvem de pontos que obteve na alínea anterior. Teste a significância da variável e verifique se o modelo está bem ajustado através da Deviance e do gráfico. Resposta: O comando e o resultado do modleo são apresentados a seguir. glm(cbind(menarche,total-menarche)~age, data=menarche, family="binomial") 6
glm(formula = cbind(menarche, Total - Menarche) ~ Age, family = "binomial", data = menarche) Deviance Residuals: Min 1Q Median 3Q Max -2.0363-0.9953-0.4900 0.7780 1.3675 Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) -21.22639 0.77068-27.54 <2e-16 *** Age 1.63197 0.05895 27.68 <2e-16 *** --- (Dispersion parameter for binomial family taken to be 1) Null deviance: 3693.884 on 24 degrees of freedom Residual deviance: 26.703 on 23 degrees of freedom AIC: 114.76 Number of Fisher Scoring iterations: 4 Os comandos usados para traçar a curva se encontram logo a seguir data.new=data.frame("age"=seq(from=9,to=18,length=39)) y_predicted=predict(modelo,data.new,type="response") lines(data.new$age,y_predicted) Notamos que a variável Idade parece ser significativa. O valor observado da Deviance é de 26.703. Se compararmos com o valor crítico da X23, 2 que é dado por 35.17246, notamos que 26.703 é menor que o valor crítico, o que indica que o modelo está bem ajustado, com 5% de significância. O Figura?? mostra que a curva se ajusta muito bem aos dados, dando mais um indício de adequação do modelo. c) Interprete o valor encontrado para o parâmetro no modelo anterior. Resposta: O valor estimado para o parâmetro β 1 é ˆβ 1 = 1.63197. Temos que exp(1.63197) = 5.113939. Isso significa que para cada aumento em um ano na idade da jovem, espera-se que a razão de chance da probabilidade de entrar na menarca aumente em 411%. 7
Menarche/Total 0.0 0.2 0.4 0.6 0.8 1.0 10 12 14 16 Age Figura 5: d) Refaça o ajuste anterior, mas agora usando as ligações probit e complemente loglog. Adicione no gráfico anterior a curva com o ajuste desses dois novos modelos. Compare os resultados. Qual das ligações você escolheria? Resposta: Os comandos utilizados para ajustar o modelo e traçar a curva se encontram a seguir. modelo2=glm(cbind(menarche,total-menarche)~age, data=menarche, family=binomia data.new=data.frame("age"=seq(from=9,to=18,length=39)) y_predicted=predict(modelo2,data.new,type="response") lines(data.new$age,y_predicted,col= blue ) modelo2=glm(cbind(menarche,total-menarche)~age, data=menarche, family=binomia data.new=data.frame("age"=seq(from=9,to=18,length=39)) y_predicted=predict(modelo2,data.new,type="response") lines(data.new$age,y_predicted,col= red ) 8
legend("topleft",c("logit","probit","c-log-log"),fill=c("black","blue","red") A Figura?? as curvas ajustadas usando os três tipos de função de ligação. Notamos que os ajustes são semelhantes entre si. Porém a curva logística parece se ajustar melhor aos dados. Além disso, como o modelo logístico é o único para o qual podemos interepretar os parâmetros, esse é o modelo mais adequado. Menarche/Total 0.0 0.2 0.4 0.6 0.8 1.0 Logit Probit C log log 10 12 14 16 Age Figura 6: 7. No pacote MASS encontra-se a data frame Traffic, com os resultados dum estudo sobre 9
a aplicação e localização de limites de velocidade nas estradas suecas, efectuado em 1961 (veja help(traffic) para mais detalhes). (a) Ajuste um modelo para o número de acidentes registrados em cada dia. Considere como variável explicativa a variável categórica limit que indica se os limites de velocidades estava ou não em vigor. b) Verifique se o modelo está bem ajustado usando a Deviance. c) Interprete os parâmetros do modelo. d) Calcule o número esperado de acidentes para os dias que os limites de velocidade estavam em vigor e para os dias que não estavam. e) Discuta as vantagens comparativas de utilizar um modelo linear generalizado neste caso, quando comparado com a abordagem alternativa de efectuar um teste t clássico para comparar as médias da variável número de acidentes por dia nas duas populações definidas por haver, ou não, limites de velocidade. Resposta: O teste t só pode ser aplicado para o caso em que a variável tem distribuição normal. Nessse caso o número de acidentes por dia, por ser uma contagem, não segue distribuição normal. 10