Lista 1 - Gabarito. Prof. Erica Castilho Rodrigues Disciplina: Modelos Lineares Generalizados. 29 de Abril. f(y i, θ i ) = θ i exp( yiθ i ).

Documentos relacionados
Trabalho de Modelos Lineares Generalizados

Modelos Lineares Generalizados - Regressão Logística

Modelos Lineares Generalizados - Verificação do Ajuste do Modelo

Modelos Lineares Generalizados - Verificação do Ajuste do Modelo

Modelos Lineares Generalizados - Modelos log-lineares para tabelas de contingência

3.33pt. AIC Introdução

Modelos Lineares Generalizados - Modelos log-lineares para tabelas de contingência

Modelos Lineares Generalizados

Regression and Clinical prediction models

Modelos Lineares Generalizados - Componentes do Modelo

Modelo Linear Generalizado Distribuição de Poisson

EXPLORANDO OS MODELOS LINEARES GENERALIZADOS APLICAÇÃO A DADOS DE UM PEQUENO SUPERMERCADO

1 AULA 5 - REGRESSÃO LOGÍSTICA BINOMIAL

Análise de Dados Categóricos

UNIVERSIDADE FEDERAL DA FRONTEIRA SUL Campus CERRO LARGO. PROJETO DE EXTENSÃO Software R: de dados utilizando um software livre.

Modelos Matemáticos e Aplicações Exercícios de Modelos Lineares Generalizados

DETERMINAÇÃO DA DL50 PARA O CONTROLE BIOLÓGICO DA C.VESTIGIALIS EM PLANTAS DO ÁLAMO. EMBRAPA Pesquisadora: EDILENE MACHADO

Modelo de regressão Beta

1 semestre de 2014 Gabarito Lista de exercícios 3 - Estatística Descritiva III C A S A

Relatório GLM - Predição de doênça coronária cardíaca através do modelo de regressão generalizado com resposta Binomial

UNIVERSIDADE FEDERAL DO PARANÁ. Adriane Machado (GRR ), Cinthia Zamin Cavassola(GRR ) e Luiza Hoffelder da Costa(GRR )

Regressão para Dados Binários - Estudo de Dengue

Disciplina de Modelos Lineares Professora Ariane Ferreira

Análise de dados em Geociências

Aula IV. Representação gráfica e regressão linear. Prof. Paulo Vitor de Morais

Analise de sobreviventes em acidentes de carros

Modelos de Regressão Múltipla - Parte VI

Introdução aos Modelos Lineares em Ecologia

Regressão para Dados de Contagem - Segurança e privatização ferroviária na Grã-Bretanha

Modelos Lineares Generalizados - Estimação em Modelos Lineares Generalizados

Modelos de Regressão Linear Simples - parte II

Esse material foi extraído de Barbetta (2007 cap 13)

Análise de Regressão EST036

Precificação de apartamentos para o bairro Água Verde em Curitiba

Modelos de Regressão Múltipla - Parte VII

Lucas Santana da Cunha de julho de 2018 Londrina

Ensaio Clínico de Contraceptivos José Luiz Padilha da Silva 24 de outubro de 2018

Métodos Estatísticos Avançados em Epidemiologia

Análise de Sobrevivência. Exercícios - Capítulo 1

ANÁLISE DE REGRESSÃO

MAE Modelos Lineares Generalizados 2 o semestre 2017

MRLM COM COVARIÁVEIS CATEGÓRICAS. criar uma variável dummy para representar uma categoria da variável. variável dummy: assume só dois valores: 0 ou 1

Modelos de regressão paramétricos

Modelos Lineares Generalizados

4 Modelos Lineares Generalizados

CORRELAÇÃO E REGRESSÃO. Modelos Probabilísticos para a Computação Professora: Andréa Rocha. UNIVERSIDADE FEDERAL DA PARAÍBA Dezembro, 2011

Capacitação em R e RStudio PROJETO DE EXTENSÃO. Software R: capacitação em análise estatística de dados utilizando um software livre.

Análise de Dados Longitudinais Modelos Lineares Generalizados Longitudinais

Modelos Matemáticos e Aplicações Exercícios de Modelos Lineares Generalizados

Modelo Linear Generalizado Distribuição Normal

Regressão Logística: Um Estudo sobre o Uso de Tabaco entre Alunos da Universidade Federal do Paraná Curitiba

Correlação e Regressão

Introdução ao modelo de Regressão Linear

CE062c José Luiz Padilha da Silva e Cesar Augusto Taconeli 13 de setembro de 2018

Modelos de Regressão Linear Simples - parte III

INCIDÊNCIA DE DENGUE EM UMA CIDADE DA COSTA MEXICANA: UM ESTUDO PREDITIVO

Modelos de Regressão Múltipla - Parte IV

Exercícios - Estatística e Delineamento

Introdução Regressão linear Regressão de dados independentes Regressão não linear. Regressão. Susana Barbosa

Gabarito Lista 2 LES0773 Estatística III. Os resultados dessa regressão são apresentados na seguinte tabela:

Modelos para dados de contagem

Teste F-parcial 1 / 16

A Importância da Estatística na Pesquisa Científica e na Tomada de Decisão

Regression and Clinical prediction models

Regressão linear múltipla

Exemplos Regressão Dados de Contagem

Exemplos Modelos Binomiais de Dose-Resposta

Exercícios de programação

Modelos de Regressão Linear Simples parte I

EFICIÊNCIA DE UM TRATAMENTO APLICADO A PACIENTES COM LEUCEMIA

Modelos log-lineares

Número de Consultas ao Médico

Modelo de Variáveis discretas. Regressão com uma variável dependente Binária. Variáveis dependentes Binárias. Modelo de Probabilidade Linear

Modelos de Regressão Linear Simples - parte I

Quantis residuais. Luziane Franciscon Acadêmica de Estatística Universidade Federal do Paraná

Teste F-parcial 1 / 16

Modelos Lineares Generalizados - Família Exponencial

Estatística II Licenciatura em Gestão. Parte I

Modelos Lineares Generalizados - Família Exponencial

Regressão linear simples

AULA 17 - Variáveis binárias

Análise Multivariada Aplicada à Contabilidade

UNIVERSIDADE FEDERAL DO PARANÁ. Adi M. A. Junior Leonardo H. B. Krüger Kristiany J. Martini Konstanz T. Winter

b χ 2 (a 1)(b 1), sob H 0,

Associação entre duas variáveis

AMOSTRAGEM COMPLEXA. Bases de Dados IAN-AF Tutorial para análise ponderada recorrendo aos softwares SPSS e R

i j i i Y X X X i j i i i

Princípios em Planejamento e Análise de Dados Ecológicos. Regressão linear. Camila de Toledo Castanho

4 Metodologia. Wt = W 0 exp{(l/k)(1-e-kt)} (8)

Modelos Binomial e Poisson

Modelo de regressão estável aplicado a econometria

Econometria Lista 1 Regressão Linear Simples

Métodos Numéricos e Estatísticos Parte II-Métodos Estatísticos

Capítulo 9 - Regressão Linear Simples (RLS): Notas breves

Estatística Descritiva (III) Associação entre Variáveis

IND 1115 Inferência Estatística Aula 6

Regressão de Poisson e parentes próximos

Modelos Lineares Generalizados - Métodos de Estimação

UNIVERSIDADE FEDERAL DO PARANÁ CURSO ESTATÍSTICA DENNIS LEÃO GRR LUAN FIORENTIN GRR

Transcrição:

Lista 1 - Gabarito Prof. Erica Castilho Rodrigues Disciplina: Modelos Lineares Generalizados 29 de Abril 1. (Concurso Petrobrás - 2011) Em um modelo de regressão logística, o que indica se o modelo se ajusta bem aos dados é a(o) a) função logito; b) função probito; c) razão de chances; d) estatística deviance; e) coeficiente de determinação. Resosta: D. 2. Encontre a função deviance para o modelo Binomial. Resposta: Exercício feito em sala. 3. Considere-se uma amostra aleatória Y 1,..., Y n com a distribuição exponencial f(y i, θ i ) = θ i exp( yiθ i ). Encontre a função deviance para essa distribuição. Respota: A log-verossimilhança é dada por l(y, θ) = i log(θ i ) i y i θ i para o modelo cheio fazemos E(Y i ) = 1/θ i = y i ou seja θ i = 1/y i l(y, θ i ) = i log(1/y i ) i 1 1

para o modelo sob pesquisa fazemos θ i = 1/ŷ i l(y, θ) = i log(1/ŷ i ) i y i /ŷ i temos então que [ D = 2 log(1/y i ) i i ( 1 log(1/ŷ i ) i i ) ] [ ŷ i θ i = 2 log i ( yi ŷ i ) ] yi 1 ŷ i 4. Os dados a seguir referem-se a tempo de vida de pacientes. A variável resposta (y i ) é o tempo de vida do paciente em semanas e a variável explicativa (x i ) é sua pressão sanguínea inicial. a) Faça o gráfico de Y em função de X. Existe algum padrão nesse gráfico? Resposta: Y descresce de maneira exponencial quando x aumenta. b) Uma possível especificação da E(Y i ) é E(Y i ) = exp (β 0 + β 1 x i ) o que garante que a esperança de Y i será positiva para todos valores dos parâmetros e das variável explicativas. Qual é a função de ligação nesse caso? Resposta: Temos que log(µ i ) = β 0 + β 1 x i = η i portanto a função de ligação é o logaritmo. Vamos supor que Y i tem distribuição exp(θ). Essa suposição é razoável? Por que? Ajuste esse modelo utilizando um software e escreva o resultado obtido. Resposta: Como Y i é tempo de vida de pacientes podemos modelar por uma distribuição exponencial, visto que só assume valores negativos e tem probabilidade baixa de assumir valores altos. O modelo ajustado é dado por ŷ i = 8.4775 1.1093x i. Verifique se a variável X i é significativa comparando as Deviances dos modelo que incluem e não incluem X i. Respota: A diferença das Deviances é dada por D = 26, 282 19, 457 = 6, 825 2

Figura 1: Tempo de vida dos pacientes em função da pressão sanguínea. comparando como valor crítico da x 2 1 (com α = 5%) notamos que 6, 825 > 3, 84. Concluímos então que com 5% de significância podemos afirmar que a variável pressão sanguínea é significativa para explicar o tempo de vida dos pacientes. 5. Deseja-se investigar como a radiação está relacionada a morte de pacientes por leucemia. A tabela a seguir mostra um conjunto de dados coletados em que se registrou o número de mortes para diferentes faixas de intensidade da radiação. Obtenha um modelo do tipo dose-resposta para modelar a relação a radiação e a proporção de pessoas que morrem devido a leucemia. (Para cada intervalo de radiação considere a dose como aquela correspondente ao limite inferior. Por exemplo, para o intervalode de radiação de 1-9 a dose refrente é 1). Faça um gráfico de dispersão de da proporção de pessoas que morreram por leucemia em função da radiação e acrescente a curva ajustada pelo modelo. O modelo está bem ajustado? Qual estatística pode ser usada para verificar isso? Qual valor de radiação estimado para o qual espera-se que 10% das pessoas morrem por leucemia. Resposta: Seja Y i o número de pessoas que morrem com leucemia, seja m i o número total de pessoas que morrem por cancer e vamos denotar por x i a dose de radiação à qual o i-ésimo grupo foi exposto. Vamos ajustar um modelo Binomial tal que Y i Bin(m i, π i ) onde π i = O script a seguir ajusta o modelo no R: 1 1 + e β 0+β 1 x i. x=c(0,1,10,50,100,200) y=c(13,5,5,3,4,18) m=c(391,205,156,50,35,51) modelo=glm(cbind(y,m-y)~x,family="binomial") 3

Figura 2: Os resultados do modelo são mostrados a seguir > summary(modelo) Call: glm(formula = cbind(y, m - y) ~ x, family = "binomial") Deviance Residuals: 1 2 3 4 5 6 0.41428-0.48994-0.13991 0.02835 0.00048 0.00269 Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) -3.488973 0.204062-17.098 < 2e-16 *** x 0.014410 0.001817 7.932 2.15e-15 *** (Dispersion parameter for binomial family taken to be 1) Null deviance: 54.35089 on 5 degrees of freedom Residual deviance: 0.43206 on 4 degrees of freedom AIC: 26.097 Number of Fisher Scoring iterations: 4 O modelo ajustado é dado por Ê(y i ) = 1 1 + e 3.488+0.014x i. A Figura 3 mostra o gráfico de dispersão e a reta ajustada. A curva parece se ajustar bem aos dados. A Deviance calculada do modelo foi de 0,432 com um p-valor de 0,9797692. Isso indica que o modelo está bem ajustado. Para estimarmos a radiação para a qual 50% das pessoas morrem por leucemia, devemos 4

Proporção de pessoas que morreram por leucemia 0.05 0.10 0.15 0.20 0.25 0.30 0.35 0 50 100 150 200 x Figura 3: Gráfico da proporção de pessoas que morreram de leucemia em função da raciação. isolar o x i na equação Basta fazer π i = 0, 1 e temos assim que ( ) πi log = 3.488 + 0.014x i 1 π i ( ) πi x i = (log + 3.488)/0.014. 1 π i ( ) 0, 1 x i = (log + 3.488)/0.014 = 92.19. 1 0, 1 Portanto a dose tal que espera-se que 10% das pessoas morram por leucemia é de 92,19. 6. Entre os conjuntos de dados disponíveis no pacote MASS encontra-se a data frame menarche. Trata-se dos resultados dum estudo efetuado na Polônia (veja- a referência bibliográfica através do comando help(menarche) ) em 1965, no qual se registou a idade média da primeira menstruação (menarca) em grupos (homogêneos) de jovens de Varsóvia. A tabela contém três colunas, indicando a idade média do grupo, o número total de jovens no grupo e, finalmente, o número de jovens já com períodos menstruais. a) Construa um gráfico de idades médias (eixo horizontal) vs. a proporção de jovens pósmenarca (eixo vertical). Discuta a forma da relação obtida. 5

Resposta: O código usado para fazer o gráfico se encontra a seguir. require(mass) data(menarche) head(menarche) attach(menarche) plot(age,menarche/total) O gráfico apresentado na Figura?? mostra que a relação entre a proporção de jovens pósmnearca e a idade se aproxima muito de uma curva logística. Esse é um indício de que o modelo logístico é adequado neste caso. Menarche/Total 0.0 0.2 0.4 0.6 0.8 1.0 10 12 14 16 Age Figura 4: b) Ajuste uma regressão logística aos dados. Trace a curva ajustada por cima da nuvem de pontos que obteve na alínea anterior. Teste a significância da variável e verifique se o modelo está bem ajustado através da Deviance e do gráfico. Resposta: O comando e o resultado do modleo são apresentados a seguir. glm(cbind(menarche,total-menarche)~age, data=menarche, family="binomial") 6

glm(formula = cbind(menarche, Total - Menarche) ~ Age, family = "binomial", data = menarche) Deviance Residuals: Min 1Q Median 3Q Max -2.0363-0.9953-0.4900 0.7780 1.3675 Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) -21.22639 0.77068-27.54 <2e-16 *** Age 1.63197 0.05895 27.68 <2e-16 *** --- (Dispersion parameter for binomial family taken to be 1) Null deviance: 3693.884 on 24 degrees of freedom Residual deviance: 26.703 on 23 degrees of freedom AIC: 114.76 Number of Fisher Scoring iterations: 4 Os comandos usados para traçar a curva se encontram logo a seguir data.new=data.frame("age"=seq(from=9,to=18,length=39)) y_predicted=predict(modelo,data.new,type="response") lines(data.new$age,y_predicted) Notamos que a variável Idade parece ser significativa. O valor observado da Deviance é de 26.703. Se compararmos com o valor crítico da X23, 2 que é dado por 35.17246, notamos que 26.703 é menor que o valor crítico, o que indica que o modelo está bem ajustado, com 5% de significância. O Figura?? mostra que a curva se ajusta muito bem aos dados, dando mais um indício de adequação do modelo. c) Interprete o valor encontrado para o parâmetro no modelo anterior. Resposta: O valor estimado para o parâmetro β 1 é ˆβ 1 = 1.63197. Temos que exp(1.63197) = 5.113939. Isso significa que para cada aumento em um ano na idade da jovem, espera-se que a razão de chance da probabilidade de entrar na menarca aumente em 411%. 7

Menarche/Total 0.0 0.2 0.4 0.6 0.8 1.0 10 12 14 16 Age Figura 5: d) Refaça o ajuste anterior, mas agora usando as ligações probit e complemente loglog. Adicione no gráfico anterior a curva com o ajuste desses dois novos modelos. Compare os resultados. Qual das ligações você escolheria? Resposta: Os comandos utilizados para ajustar o modelo e traçar a curva se encontram a seguir. modelo2=glm(cbind(menarche,total-menarche)~age, data=menarche, family=binomia data.new=data.frame("age"=seq(from=9,to=18,length=39)) y_predicted=predict(modelo2,data.new,type="response") lines(data.new$age,y_predicted,col= blue ) modelo2=glm(cbind(menarche,total-menarche)~age, data=menarche, family=binomia data.new=data.frame("age"=seq(from=9,to=18,length=39)) y_predicted=predict(modelo2,data.new,type="response") lines(data.new$age,y_predicted,col= red ) 8

legend("topleft",c("logit","probit","c-log-log"),fill=c("black","blue","red") A Figura?? as curvas ajustadas usando os três tipos de função de ligação. Notamos que os ajustes são semelhantes entre si. Porém a curva logística parece se ajustar melhor aos dados. Além disso, como o modelo logístico é o único para o qual podemos interepretar os parâmetros, esse é o modelo mais adequado. Menarche/Total 0.0 0.2 0.4 0.6 0.8 1.0 Logit Probit C log log 10 12 14 16 Age Figura 6: 7. No pacote MASS encontra-se a data frame Traffic, com os resultados dum estudo sobre 9

a aplicação e localização de limites de velocidade nas estradas suecas, efectuado em 1961 (veja help(traffic) para mais detalhes). (a) Ajuste um modelo para o número de acidentes registrados em cada dia. Considere como variável explicativa a variável categórica limit que indica se os limites de velocidades estava ou não em vigor. b) Verifique se o modelo está bem ajustado usando a Deviance. c) Interprete os parâmetros do modelo. d) Calcule o número esperado de acidentes para os dias que os limites de velocidade estavam em vigor e para os dias que não estavam. e) Discuta as vantagens comparativas de utilizar um modelo linear generalizado neste caso, quando comparado com a abordagem alternativa de efectuar um teste t clássico para comparar as médias da variável número de acidentes por dia nas duas populações definidas por haver, ou não, limites de velocidade. Resposta: O teste t só pode ser aplicado para o caso em que a variável tem distribuição normal. Nessse caso o número de acidentes por dia, por ser uma contagem, não segue distribuição normal. 10