Modelos Lineares Generalizados - Modelos log-lineares para tabelas de contingência Erica Castilho Rodrigues 12 de Agosto
Introdução
3 Vimos como usar Poisson para testar independência em uma Tabela 2x2. Veremos agora casos um pouco mais elaborados. Temos então uma tabela 3x3, com 3 variáveis. Temos apenas um tipo de hipótese para testar nesse caso? Não. Nesse tipo de tabela várias hipóteses sobre independência podem ser verificadas. Podemos testar independência das 3 variáveis conjuntamente. Podemos testar independências 2 a 2.
Exemplo: Deseja-se investigar a propensão de alunos de ensino médio a optarem ou não por fazer faculdade. Serão analisados dois fatores que podem influenciar nessa escolha: níve sócio-econômico (baixo, médio-baixo, médio-alto, alto); incentivo dos pais (baixo, alto).
5 Exemplo: (continuação) A tabela a seguir mostra os dados coletados: Figura:
6 Exemplo: (continuação) Queremos verificar se as variáveis planos universitários (P); nível sócio-econômico (S); incentivo dos pais (I); estão correlacionadas. Vamos indexar as variáveis por planos universitários k, k=1,2; nível sócio-econômico i, i=1,2,3,4; incentivo dos pais j, j=1,2.
Exemplo: (continuação) Vamos denotar por π ijk = {a probabilidade de que a observação caia na cécula i, j, k} ou seja categoria i de nível sócio-econômico, j de incentido dos pais e k de planos universitários. Essas probabilidades definem a distribuição conjunta das três variáveis. Seja y ijk a contagem observada na casela i, j, k. Ela se refere à variável aleatória Y ijk.
8 Exemplo: (continuação) Vamos supor ainda que as contagens Y ijk são independentes tais que Y ijk Poisson(μ ijk ). O valor esperado de Y ijk, ou seja μ ijk vai depender das variáveis analisadas planos universitários (P); nível sócio-econômico (S); incentivo dos pais (I). A forma funcional de μ ijk como função dessas variáveis irá determinar as hipóteses de independência.
9 Exemplo: (continuação) Sob a hipótese de que as três variáveis são independetes temos que π ijk = π i π j π k onde π i, π j e π k são as probabilidades marginais de pertencer às categorias i, j e k. Se temos um total de n indivíduos podemos escrever μ ijk = nπ ijk que sob a hipótese de independência fica μ ijk = nπ i π j π k. Tomando o logaritmo ficamos com log(μ ijk )=log(n)+log(π i )+log(π j )+log(π k ).
10 Exemplo: (continuação) Podemos reescrever esse modelo da seguinte maneira onde log(μ ijk )=β 0 + β 1 Z 1 + β 2 Z 2 + β 3 Z 3 Z1 é uma variável categórica que representa o nível sócio-econômico; Z2 é uma variável que representa o incentivo dos pais; Z3 representa os planos universitários. Para verificar se a hipótese de indepência parece razoável devemos: comparar o modelo sob independência com o modelo saturado.
Exemplo: (continuação) Isso equivale a: verificar a significância da Deviance. Para o exemplo considerado temos que a Deviance foi de 2714. Temos um total de 16 caselas, portanto n = 16. O modelo ajustado tem 6 parâmetros. intercepto, uma indicadora para I, uma indicadora para P, 3 indicadoras para S. Portanto a Deviance tem distribuição D χ 2 10. O valor crítico com 5% de significância é 18.31.
Exemplo: (continuação) Conclusão: rejeitamos a hipótese de que o modelo está bem ajustado. O que isso significa? A hipótese de independência entre as variáveis não parece ser razoável. As três variáveis parecem estar correlacionadas de alguma maneira. Iremos agora testar independência duas a duas.
13 Exemplo: (continuação) Vamos verificar agora se as variáveis: nível sócio-econômico; incentivo dos pais; estão associadas e são independentes dos planos universitários. O modelo ajustado é log(μ ijk )=β 0 + β 1 Z 1 + β 2 Z 2 + β 3 Z 3 + β 4 Z 1 Z 2 onde Z1 é uma variável categórica que representa o nível sócio-econômico; Z2 é uma variável que representa o incentivo dos pais; Z3 representa os planos universitários.
Exemplo: (continuação) Para verificar se a hipótese de indepência parece razoável devemos: comparar o modelo ajustado com o modelo saturado. A Deviance do modelo ajustado é dada por 1877,4. O modelo tem quantos parâmetros? intercepto, uma indicadora para I, uma indicadora para P, três para S; e mais 3 1 parâmetros para o termo de interação. Portanto, se o modelo está bem ajustado, D χ 2 7. O valor crítico dessa distribuição é 14.0671. Conclusão: rejeitamos a hipótese de que o modelo está bem ajustado. Não parece razoável que nível sócio-econômico e incentivo dos pais sejam independentes.
15 Exemplo: (continuação) Vamos verificar agora se as variáveis: nível sócio-econômico; planos universitários; estão associadas e são independentes do incentivo dos pais. O modelo ajustado é log(μ ijk )=β 0 + β 1 Z 1 + β 2 Z 2 + β 3 Z 3 + β 4 Z 1 Z 3 onde Z1 é uma variável categórica que representa o nível sócio-econômico; Z2 é uma variável que representa o incentivo dos pais; Z3 representa os planos universitários.
Exemplo: (continuação) Para verificar se a hipótese de indepência parece razoável devemos: comparar o modelo ajustado com o modelo saturado. A Deviance do modelo ajustado é dada por 1920,4. O modelo tem quantos parâmetros? intercepto, uma indicadora para I, uma indicadora para P, três para S; e mais 3 1 parâmetros para o termo de interação. Portanto, se o modelo está bem ajustado, D χ 2 7. O valor crítico dessa distribuição é 14.0671. Conclusão: rejeitamos a hipótese de que o modelo está bem ajustado. Não parece razoável que nível sócio-econômico e planos universitários estão associadas e são independetes do incentivo dos pais. 16
Exemplo: (continuação) Vamos verificar agora se as variáveis: incentivo dos pais; planos universitários; estão associadas e são independentes do nível sócio-econômico. O modelo ajustado é log(μ ijk )=β 0 + β 1 Z 1 + β 2 Z 2 + β 3 Z 3 + β 4 Z 2 Z 3 onde Z1 é uma variável categórica que representa o nível sócio-econômico; Z2 é uma variável que representa o incentivo dos pais; Z3 representa os planos universitários.
Exemplo: (continuação) Para verificar se a hipótese de indepência parece razoável devemos: comparar o modelo ajustado com o modelo saturado. A Deviance do modelo ajustado é dada por 1092. O modelo tem quantos parâmetros? intercepto, uma indicadora para I, uma indicadora para P, três para S; e mais 1 1 parâmetros para o termo de interação. Portanto, se o modelo está bem ajustado, D χ 2 9. O valor crítico dessa distribuição é 14.0671. Conclusão: rejeitamos a hipótese de que o modelo está bem ajustado. Não parece razoável que incentivo dos pais e planos universitários estão associadas e são independentes do nível sócio econômico. 18
19 Poderíamos usar o modelo binomial. Nesse caso uma das variáveis seria resposta e as demais seriam explicativas. De acordo com a variável que é definida como resposta, diferente tipos de interação podem ser testados.
20
O modelo de Regressão Linear é definido por Y i = β 0 + β 1 X i + ɛ i ɛ i iid N(0,σ 2 ). A média dos Y i é dada por E(Y i )=β 0 + β 1 X i. A variância dos Y i é dada por Var (Y i )=σ 2
A média e a variância não estão amarradas. O valor de β 0 e β 1 não é influenciado de maneira alguma por σ 2. A figura a seguir mostra dois modelos com a mesma média, porém variâncias distintas.
23 Modelos com a mesma média, porém variâncias distintas.
Se σ = 0, como fica o modelo? O ajuste é perfeito.
25 O que significa ter σ = 0? Uma reta de regressão com σ = 0 é um ajuste perfeito. Y i é igual a sua média (não existe variação em torno da média) A média é simplesmente uma função linear de x. Assim, Y varia se, e somente se, x também variar. Não existe nenhuma CAUSA de variação de Y além de x. A variação de x explica COMPLETAMENTE porque Y varia.
26 Qual significado da variação do σ? O que significa a liberdade de σ em relação aos β s? σ pequeno x explica praticamente toda variação de y. Isto é, y varia basicamente porque x também varia. Relação entre y e x não é perfeita, mas ela explica muito da variação de Y.
σ grande x explica um pouco, mas só um pouco, da variação de Y. Muito da variação de Y não pode ser explicada pela variação de x. Existem outros fatores, outras variáveis, que fazem y variar. Não estão sendo levadas em conta. Estas outras não estão no modelo pois: São difíceis de serem mensuradas; Nós nem sabemos que elas influenciam Y; Não estão disponíveis no momento da análise.
28 No caso da regressão de Poisson essa liberdade não existe. Média e variância estão amarradas. Uma suposição básica do modelo de Poisson: média=variância E(X) =Var (X) =λ. Alguns conjuntos de dados apresentar super-dispersão média < variância. A variância pode ser proporcional à média Var (X) =φe(x). Se φ>1temos um caso de super-dispersão.
29 Uma maneira comum de lidar com esse problema: Distribuição Binomial Negativa. Vamos supor que a média é dada por θ i μ i. O θ i será responsável por acomodar a super-dispersão. Chamamos esse termo de efeito aleatório. O θ i não é um parâmetro fixo. Ele possui distribuição de probabilidade.
30 A distribuição de Y i condicionada em θ i é dada por Y i θ i Poisson(θ i μ i ). θ i pode assumir qualquer valor real? Não, apenas valores positivos. Vamos assumir então que θ i Gama(α, β). Temos então que Y i θ i Poisson(θ i μ i ) θ i Gama(α, β).
31 Como encontrar a distribuição marginal de Y i? f Yi (y i )= f (y i θ i )f (θ i )dθ i Pode-se mostrar que nesse caso Y i Binomial-negativa(α, α/(μ i + β)). Isso implica que E(Y i )=μ i Var (Y i )=(μ i )(1 + 1/βμ i ). Como β>0e(y i ) < Var (Y i ).
32 Exemplo: Estamos analisando a ocorrência de eventos gastrointestinais. Queremos saber se está associado ao consumo ou não de água potável. A variáveis resposta é o número de eventos (Y i ). A variável explicativa é binária { 1 se existe água potável; X i = 0 caso contrário.
33 Exemplo: (continuação) A figura a seguir compara a distribuição dos dados com a Poisson e a Binomial Negativa.
34 Exemplo: (continuação) Vamos primeiramente ajustar um modelo Poisson do tipo E(Y i )=β 0 + β 1 X i. A Tabela a seguir mostra os valores estimados, erro padrão e p-valor para os parâmetros. Parâmetro Estimativa Erro Padrão p-valor β 0 1.37 0.25 <0.001 β 1 0.46 0.31 0.13
35 Exemplo: (continuação) Vamos agora ajustar uma Binomial Negativa, a média é definida da mesma maneira E(Y i )=β 0 + β 1 X i. A Tabela a seguir mostra os valores estimados, erro padrão e p-valor para os parâmetros. As interpretações dos parâmetros são as mesmas do modelo Poisson. Parâmetro Estimativa Erro Padrão p-valor β 0 2.05 0.57 <0.001 β 1 0.29 0.72 0.68
36 Exemplo: (continuação) Foi feito ainda um Teste da Razão de Verossimilhança para comparar os dois modelos. Esse teste mostra que o ajuste da binomial negativa é melhor. Observe que os erros padrões do segundo modelo são bem maiores. Portanto o intervalo de confiança tem amplitude maior. Ao não considerar a super-dispersão dos dados obtemos intervalos com cobertura menor do que a real.