MAE5763 - Modelos Lineares Generalizados 2 o semestre 2017 Prof. Gilberto A. Paula 3 a Lista de Exercícios 1. Supor y i ind FE(µ, φ i ) com φ i = α + γz i, para i = 1,..., n. Como ca a matriz modelo Z? Qual a variância assintótica de ˆγ? Como ca a estatística do teste de escore para testar H 0 : γ = 0 contra H 1 : γ 0? Qual a distribuição nula assintótica da estatística do teste? 2. Sejam y i1 iid FE(µ 1, φ) e y i2 iid FE(µ 2, φ), em que Corr(y i1, y i2 ) = ρ, para i = 1,..., n. Para testar H 0 : µ 1 µ 2 = 0 contra H 1 : µ 1 µ 2 0 considere a estatística ξ W = (ȳ 1 ȳ 2 ) 2 Var(ȳ 1 ȳ 2 ), que sob H 0 segue assintoticamente distribuição χ 2 1 central. Sob a hipótese alternativa ξ W segue assintoticamente distribuição χ 2 1(λ), em que λ = (µ 1 µ 2 ) 2 /2Var(ȳ 1 ȳ 2 ) é o parâmetro de não centralidade. Seja P n (λ, ρ) = P (ξ W > c H 1 ) o poder do teste (probabilidade de rejeitar H 0 quando há diferença entre as médias populacionais). Calcule inicialmente Var(ȳ 1 ȳ 2 ) e discuta o comportamento do poder do teste à medida que varia o coeciente de correlação linear de Pearson 1 ρ 1, supondo xados µ 1, µ 2, φ e n. Procure responder para quais situações será necessário um tamanho amostral maior para detectar a mesma diferença (entre as médias populacionais) com a mesma probabilidade. 3. Supor que y ij Q(π; y ij ), para i = 1,..., n e j = 1,..., r i, com E(y ij ) = π e Var(y ij ) = σ 2 π(1 π), em que 0 < π < 1, σ 2 > 0 e Corr(y ij, y ij ) = ρ (xado) para j j (=1 em caso contrário). Como 1
ca a equação de estimação generalizada para estimar π? Obtenha ˆπ G e apresente a estimativa intervalar (robusta) para π com coeciente de conança de (1 α)100%, em que 0 < α < 1 é o coeciente de conança. Use o resultado: R 1 i (ρ) = (1 ρ) 1 [I ri ρ{1 + (r i 1)ρ} 1 J], em que J é uma matriz r i r i de uns. 4. Considere a seguinte função de quase-verossimilhança: Q(µ; y) = 1 σ 2 µ y y t V (t) dt, em que V (t) = t r para r 0. Desenvolva essa função de quaseverossimilhança e verique quais distribuições da família exponencial é possível recuperar. Supor agora uma amostra aleatória de n variáveis independentes com função de quase-verossimilhança Q(µ i ; y i ) dada acima. Como ca a função quase-desvio? Como estimar r? 5. Na tabela abaixo são apresentados os resultados de um experimento em que a resistência (em horas) de um determinado tipo de vidro foi avaliada segundo quatro níveis de voltagem (em kilovolts) e duas temperaturas (em graus Celsus). Esses dados estão também disponíveis no arquivo vidros.txt. Na primeira coluna do arquivo tem-se o tempo de resistência, na segunda coluna a voltagem( 1: 200kV, 2: 250kV, 3: 300kV e 4: 350kV) e na terceira coluna a temperatura (1: 170 o C e 2: 180 o C). Faça inicialmente uma análise descritiva dos dados, por exemplo apresentando os pers médios da resistência segundo a voltagem para os dois níveis de temperatura. Cacule também para cada casela algumas medidas descritivas tais como média, desvio padrão e coeciente de variação. Comente. Seja y ijk o tempo de resistência da k-ésima amostra de vidro submetida à i-ésima temperatura e à j-ésima voltagem. O interesse principal desse estudo é comparar as resistências médias, denotadas por µ ij, i = 1, 2 e j = 2, 3, 4. É usual neste tipo de estudo assumir respostas com alguma distribuição assimétrica. Assim, vamos supor inicialmente que y ijk G(µ ij, φ) e considerar voltagem e temperatura como sendo fatores. 2
Voltagem(kV) Temperatura ( o C) 200 250 300 350 170 439 572 315 258 904 690 315 258 1092 904 439 347 1105 1090 628 588 180 959 216 241 241 1065 315 315 241 1065 455 332 435 1087 473 380 455 Para ler o arquivo no R faça o seguinte: vidros = read.table("vidros.txt", header=true) attach(vidros) voltagem = factor(voltagem) temperatura = factor(temperatura). Sugestão de ajuste inicial no gamlss require(gamlss) fit1.vidros = gamlss(resistencia voltagem + temperatura + voltagem*temperatura, family=ga(mu.link="identity", sigma.link="identity"). 6. Em um estudo para investigar a incidência de dengue numa determinada cidade da costa mexicana, um total de 196 indivíduos, escolhidos aleatoriamente em dois setores da cidade, respondeu às seguintes perguntas: idade, idade do entrevistado (em anos), nivel, nível sócioeconômico (nivel=1, nível alto; nivel=2, nível médio; nivel=3, nível baixo) e setor, setor da cidade onde mora o entrevistado (setor=1, setor 1; setor=2, setor 2) e caso, se o entrevistado contraiu (caso=1) ou não (caso=0) a doença recentemente. Para ler o arquivo no R faça o seguinte: dengue = read.table("dengue.txt", header=true) 3
attach(dengue) nivel = factor(nivel) setor = factor(setor). Faça inicialmente uma análise descritiva dos dados, por exemplo boxplot entre idade e caso e tabelas de contingência entre nível e setor segundo caso. Em seguida ajustar uma regressão logística com interações até 1 a ordem e selecionar uma submodelo através dos comandos stetpaic ou stepgaic. Para o modelo nal fazer uma análise de diagnóstico (distância de de Cook e resíduos). Interpretar os resultados. Finalmente, construir a curva ROC e escolher um critério de classicação tal que a taxa de verdadeiro positivo seja maximizada e a taxa de falso negativo seja minimizada. 7. No arquivo ratosgee.dat estão os dados de um experimento em que 30 ratos tiveram uma condição de leucemia induzida. Três drogas quimioterápicas foram utilizadas no tratamento dos animais. Foram coletadas de cada animal a quantidade de células brancas (wbc), a quantidade de células vermelhas (rbv) e o número de colônias de células cancerosas (células) em quatro períodos diferentes. Inicialmente, faça uma análise descritiva dos dados apresentando, por exemplo, boxplots de cada variável e diagramas de dispersão entre células e wbc e entra células e rbc, xando-se o tratamento. Verique se há indícios de interação entre tratamento e tipo de célula. Denote por y ij o número de células referentes ao i-ésimo animal no j- ésimo período, para i = 1,..., 30 e j = 1, 2, 3, 4. Considere o seguinte modelo de quase-verossimilhança: (i) y ij Q(µ ij ; y ij ), E(y ij ) = µ ij e Var(y ij ) = σ 2 µ ij, µ ij > 0. (ii) Corr(y i ) = R i (α), em que σ 2 > 0, com ligação logarítmica para explicar µ ij (número médio de células referentes ao i-ésimo rato no j-ésima período). Supor estrutura de correlação AR(1). 4
Verique, inicialmente, através de EEGs se há interação entre tratamento e cada tipo de célula. Selecione um modelo nal, faça uma análise de diagnóstico e interprete os resultados. Para ler o arquivo no R faça o seguinte: ratosgee = read.table("ratosgee.txt", header=true). Para ajustar no R a EEG usar os comandos: require(gee) attach(ratosgee) tratamento = factor(tratamento) ajuste1.ratos = gee(células tratamento + wbc + rbc + interação, id=idrato, family=poisson, corstr="ar-m", M=1) summary(ajuste1.ratos). Aplique agora um modelo de efeito aleatório, com resposta condicional Poisson, ligação logarítmica e efeito aleatório Gaussiano de rato. Compare os resultados inferenciais com os resultados obtidos através de EEGs. Avaliar a qualidade do ajuste através do resíduo quantílico. Para ajustar o modelo na gamlss use os comandos: require(gamlss) ajuste2.ratos = gamlss(células tratamento + wbc + rbc + interação + random(as.factor(paciente)), family=po) summary(ajuste2.ratos) plot(ajuste2.ratos). 5