Modelos Lineares Generalizados - Modelos log-lineares para tabelas de contingência

Documentos relacionados
Modelos Lineares Generalizados - Modelos log-lineares para tabelas de contingência

Modelos de Regressão Linear Simples - parte I

Modelos Lineares Generalizados - Verificação do Ajuste do Modelo

Modelos de Regressão Linear Simples parte I

Modelos de Regressão Linear Simples - parte III

Modelos Lineares Generalizados - Estimação em Modelos Lineares Generalizados

Análise de Regressão - parte I

Modelos Lineares Generalizados - Modelos log-lineares para tabelas de contingência

Modelos de Regressão Linear Simples - parte II

Modelos de Regressão Múltipla - Parte IV

Modelos Lineares Generalizados - Componentes do Modelo

Testes de Hipóteses. Ricardo Ehlers Departamento de Matemática Aplicada e Estatística Universidade de São Paulo

Modelos de Regressão Múltipla - Parte VI

MODELOS DE REGRESSÃO PARA DADOS CONTÍNUOS ASSIMÉTRICOS

Modelos Lineares Generalizados - Métodos de Estimação

Modelos Lineares Generalizados - Verificação do Ajuste do Modelo

Disciplina de Modelos Lineares Professora Ariane Ferreira

Análise de Dados Categóricos

Modelos Lineares Generalizados - Família Exponencial

Modelos Lineares Generalizados - Família Exponencial

Testes de Hipóteses. Ricardo Ehlers Departamento de Matemática Aplicada e Estatística Universidade de São Paulo

Modelos de Regressão Linear Simples - Análise de Resíduos

Lista 1 - Gabarito. Prof. Erica Castilho Rodrigues Disciplina: Modelos Lineares Generalizados. 29 de Abril. f(y i, θ i ) = θ i exp( yiθ i ).

Análise de Aderência e de Associação

Regressão de Poisson e parentes próximos

Exemplos Regressão Dados de Contagem

Modelos de Regressão Linear Simples - Análise de Resíduos

MAE Modelos Lineares Generalizados 2 o semestre 2017

Capítulo 9 - Regressão Linear Simples (RLS): Notas breves

Análise de Regressão EST036

MAE Introdução à Probabilidade e Estatística II Resolução Lista 5

Exemplos Equações de Estimação Generalizadas

Modelos para dados de contagem

Análise de Regressão EST036

Grupo I. (a) A função de probabilidade marginal de X, P (X = x), é dada por

Capítulo 9 - Regressão Linear Simples (RLS): Notas breves

Inferência para duas populações

Modelos de Regressão Múltipla - Parte I

Minera c ao de Dados Aula 6: Finaliza c ao de Regress ao e Classifica c ao Rafael Izbicki 1 / 33

MOQ-13 PROBABILIDADE E ESTATÍSTICA. Professor: Rodrigo A. Scarpel

Modelos de Regressão Múltipla - Parte VII

Estimador de Máxima Verossimilhança Estudo de Caso - Regressão Poisson

Modelos Binomial e Poisson

Regressão para Dados Binários - Estudo de Dengue

Testes de Hipótese para uma única Amostra - parte I

Aula 3 - Revisão de Probabilidade e Estatística: Esclarecimento de Dúvidas

FAMÍLIA EXPONENCIAL DE DISTRIBUIÇÕES

3.33pt. AIC Introdução

CONHECIMENTOS ESPECÍFICOS

IND 1115 Inferência Estatística Aula 6

Análise de Dados Categóricos Modelos log-lineares

Modelos Lineares Generalizados

Modelo de Regressão Múltipla

Modelos Lineares Generalizados - Regressão Logística

Modelos de regressão para dados correlacionados. Cibele Russo

Esse material foi extraído de Barbetta (2007 cap 13)

Métodos Quantitativos para Avaliação de Políticas Públicas

REGRESSÃO LINEAR Parte I. Flávia F. Feitosa

Séries Temporais e Modelos Dinâmicos. Econometria. Marcelo C. Medeiros. Aula 9

b χ 2 (a 1)(b 1), sob H 0,

Distribuições Amostrais e Estimação Pontual de Parâmetros

AULA 09 Regressão. Ernesto F. L. Amaral. 17 de setembro de 2012

ESTATÍSTICA Distribuições qui-quadrado, t de Student e F de Snedecor Lucas Schmidt

Probabilidades e Estatística - LEIC + LERCI + LEE 2 o semestre 2004/05

Exemplo Ataques Epilépticos

aula ANÁLISE DO DESEMPENHO DO MODELO EM REGRESSÕES

Exemplos Modelos de Quase-Verossimilhança

Quantis residuais. Luziane Franciscon Acadêmica de Estatística Universidade Federal do Paraná

Métodos Numéricos e Estatísticos Parte II-Métodos Estatísticos

Final exam June 25, 2007 Statistics II

1 z 1 1 z 2. Z =. 1 z n

CONHECIMENTOS ESPECÍFICOS

Variáveis Aleatórias Discretas e Distribuição de Probabilidade

MOQ 13 PROBABILIDADE E ESTATÍSTICA. Professor: Rodrigo A. Scarpel

CORRELAÇÃO E REGRESSÃO

Regressão. PRE-01 Probabilidade e Estatística Prof. Marcelo P. Corrêa IRN/Unifei

AULA 7 - Inferência em MQO: ICs e Testes de

Estatística - Análise de Regressão Linear Simples. Professor José Alberto - (11) sosestatistica.com.br

Principais distribuições discretas Distribuição de Bernoulli sucesso fracasso X = 1, se sucesso X = 0, se fracasso P(X) TOTAL 1 Exemplo 5:

Especialização em Engenharia de Processos e de Sistemas de Produção

ANOVA - parte I Conceitos Básicos

Modelos log-lineares

Modelos de Regressão Linear Simples - Erro Puro e Falta de Ajuste

CORRELAÇÃO E REGRESSÃO. Modelos Probabilísticos para a Computação Professora: Andréa Rocha. UNIVERSIDADE FEDERAL DA PARAÍBA Dezembro, 2011

Solução dos Exercícios - Capítulos 1 a 3

Testes de Hipóteses para. uma Única Amostra. Objetivos de Aprendizagem. 9.1 Teste de Hipóteses. UFMG-ICEx-EST-027/031 07/06/ :07

Análise de Dados Longitudinais Aula

4 Modelos Lineares Generalizados

Professora Ana Hermínia Andrade. Universidade Federal do Amazonas Faculdade de Estudos Sociais Departamento de Economia e Análise. Período 2017.

Sumário. CAPÍTULO 1 Conceitos preliminares 1. CAPÍTULO 2 Descrição de dados: análise monovariada 47

Análise de Dados Categóricos

MAE Planejamento e Pesquisa II

Análise Multivariada Aplicada à Contabilidade

A Importância da Estatística na Pesquisa Científica e na Tomada de Decisão

ESTUDO SOBRE A TAXA ANUAL DE CÂNCER NASAL EM UMA REFINARIA DE NÍQUEL NO PAÍS DE GALES

Probabilidades e Estatística MEEC, LEIC-A, LEGM

AULAS 21 E 22 Análise de Regressão Múltipla: Estimação

Modelos Lineares Generalizados - Introdução

Análise de Regressão Linear Simples e

É dada uma tabela de contingências, sendo os factores de classificação as proveniências (a=3 níveis) e os terrenos (b=3 níveis).

Transcrição:

Modelos Lineares Generalizados - Modelos log-lineares para tabelas de contingência Erica Castilho Rodrigues 12 de Agosto

Introdução

3 Vimos como usar Poisson para testar independência em uma Tabela 2x2. Veremos agora casos um pouco mais elaborados. Temos então uma tabela 3x3, com 3 variáveis. Temos apenas um tipo de hipótese para testar nesse caso? Não. Nesse tipo de tabela várias hipóteses sobre independência podem ser verificadas. Podemos testar independência das 3 variáveis conjuntamente. Podemos testar independências 2 a 2.

Exemplo: Deseja-se investigar a propensão de alunos de ensino médio a optarem ou não por fazer faculdade. Serão analisados dois fatores que podem influenciar nessa escolha: níve sócio-econômico (baixo, médio-baixo, médio-alto, alto); incentivo dos pais (baixo, alto).

5 Exemplo: (continuação) A tabela a seguir mostra os dados coletados: Figura:

6 Exemplo: (continuação) Queremos verificar se as variáveis planos universitários (P); nível sócio-econômico (S); incentivo dos pais (I); estão correlacionadas. Vamos indexar as variáveis por planos universitários k, k=1,2; nível sócio-econômico i, i=1,2,3,4; incentivo dos pais j, j=1,2.

Exemplo: (continuação) Vamos denotar por π ijk = {a probabilidade de que a observação caia na cécula i, j, k} ou seja categoria i de nível sócio-econômico, j de incentido dos pais e k de planos universitários. Essas probabilidades definem a distribuição conjunta das três variáveis. Seja y ijk a contagem observada na casela i, j, k. Ela se refere à variável aleatória Y ijk.

8 Exemplo: (continuação) Vamos supor ainda que as contagens Y ijk são independentes tais que Y ijk Poisson(μ ijk ). O valor esperado de Y ijk, ou seja μ ijk vai depender das variáveis analisadas planos universitários (P); nível sócio-econômico (S); incentivo dos pais (I). A forma funcional de μ ijk como função dessas variáveis irá determinar as hipóteses de independência.

9 Exemplo: (continuação) Sob a hipótese de que as três variáveis são independetes temos que π ijk = π i π j π k onde π i, π j e π k são as probabilidades marginais de pertencer às categorias i, j e k. Se temos um total de n indivíduos podemos escrever μ ijk = nπ ijk que sob a hipótese de independência fica μ ijk = nπ i π j π k. Tomando o logaritmo ficamos com log(μ ijk )=log(n)+log(π i )+log(π j )+log(π k ).

10 Exemplo: (continuação) Podemos reescrever esse modelo da seguinte maneira onde log(μ ijk )=β 0 + β 1 Z 1 + β 2 Z 2 + β 3 Z 3 Z1 é uma variável categórica que representa o nível sócio-econômico; Z2 é uma variável que representa o incentivo dos pais; Z3 representa os planos universitários. Para verificar se a hipótese de indepência parece razoável devemos: comparar o modelo sob independência com o modelo saturado.

Exemplo: (continuação) Isso equivale a: verificar a significância da Deviance. Para o exemplo considerado temos que a Deviance foi de 2714. Temos um total de 16 caselas, portanto n = 16. O modelo ajustado tem 6 parâmetros. intercepto, uma indicadora para I, uma indicadora para P, 3 indicadoras para S. Portanto a Deviance tem distribuição D χ 2 10. O valor crítico com 5% de significância é 18.31.

Exemplo: (continuação) Conclusão: rejeitamos a hipótese de que o modelo está bem ajustado. O que isso significa? A hipótese de independência entre as variáveis não parece ser razoável. As três variáveis parecem estar correlacionadas de alguma maneira. Iremos agora testar independência duas a duas.

13 Exemplo: (continuação) Vamos verificar agora se as variáveis: nível sócio-econômico; incentivo dos pais; estão associadas e são independentes dos planos universitários. O modelo ajustado é log(μ ijk )=β 0 + β 1 Z 1 + β 2 Z 2 + β 3 Z 3 + β 4 Z 1 Z 2 onde Z1 é uma variável categórica que representa o nível sócio-econômico; Z2 é uma variável que representa o incentivo dos pais; Z3 representa os planos universitários.

Exemplo: (continuação) Para verificar se a hipótese de indepência parece razoável devemos: comparar o modelo ajustado com o modelo saturado. A Deviance do modelo ajustado é dada por 1877,4. O modelo tem quantos parâmetros? intercepto, uma indicadora para I, uma indicadora para P, três para S; e mais 3 1 parâmetros para o termo de interação. Portanto, se o modelo está bem ajustado, D χ 2 7. O valor crítico dessa distribuição é 14.0671. Conclusão: rejeitamos a hipótese de que o modelo está bem ajustado. Não parece razoável que nível sócio-econômico e incentivo dos pais sejam independentes.

15 Exemplo: (continuação) Vamos verificar agora se as variáveis: nível sócio-econômico; planos universitários; estão associadas e são independentes do incentivo dos pais. O modelo ajustado é log(μ ijk )=β 0 + β 1 Z 1 + β 2 Z 2 + β 3 Z 3 + β 4 Z 1 Z 3 onde Z1 é uma variável categórica que representa o nível sócio-econômico; Z2 é uma variável que representa o incentivo dos pais; Z3 representa os planos universitários.

Exemplo: (continuação) Para verificar se a hipótese de indepência parece razoável devemos: comparar o modelo ajustado com o modelo saturado. A Deviance do modelo ajustado é dada por 1920,4. O modelo tem quantos parâmetros? intercepto, uma indicadora para I, uma indicadora para P, três para S; e mais 3 1 parâmetros para o termo de interação. Portanto, se o modelo está bem ajustado, D χ 2 7. O valor crítico dessa distribuição é 14.0671. Conclusão: rejeitamos a hipótese de que o modelo está bem ajustado. Não parece razoável que nível sócio-econômico e planos universitários estão associadas e são independetes do incentivo dos pais. 16

Exemplo: (continuação) Vamos verificar agora se as variáveis: incentivo dos pais; planos universitários; estão associadas e são independentes do nível sócio-econômico. O modelo ajustado é log(μ ijk )=β 0 + β 1 Z 1 + β 2 Z 2 + β 3 Z 3 + β 4 Z 2 Z 3 onde Z1 é uma variável categórica que representa o nível sócio-econômico; Z2 é uma variável que representa o incentivo dos pais; Z3 representa os planos universitários.

Exemplo: (continuação) Para verificar se a hipótese de indepência parece razoável devemos: comparar o modelo ajustado com o modelo saturado. A Deviance do modelo ajustado é dada por 1092. O modelo tem quantos parâmetros? intercepto, uma indicadora para I, uma indicadora para P, três para S; e mais 1 1 parâmetros para o termo de interação. Portanto, se o modelo está bem ajustado, D χ 2 9. O valor crítico dessa distribuição é 14.0671. Conclusão: rejeitamos a hipótese de que o modelo está bem ajustado. Não parece razoável que incentivo dos pais e planos universitários estão associadas e são independentes do nível sócio econômico. 18

19 Poderíamos usar o modelo binomial. Nesse caso uma das variáveis seria resposta e as demais seriam explicativas. De acordo com a variável que é definida como resposta, diferente tipos de interação podem ser testados.

20

O modelo de Regressão Linear é definido por Y i = β 0 + β 1 X i + ɛ i ɛ i iid N(0,σ 2 ). A média dos Y i é dada por E(Y i )=β 0 + β 1 X i. A variância dos Y i é dada por Var (Y i )=σ 2

A média e a variância não estão amarradas. O valor de β 0 e β 1 não é influenciado de maneira alguma por σ 2. A figura a seguir mostra dois modelos com a mesma média, porém variâncias distintas.

23 Modelos com a mesma média, porém variâncias distintas.

Se σ = 0, como fica o modelo? O ajuste é perfeito.

25 O que significa ter σ = 0? Uma reta de regressão com σ = 0 é um ajuste perfeito. Y i é igual a sua média (não existe variação em torno da média) A média é simplesmente uma função linear de x. Assim, Y varia se, e somente se, x também variar. Não existe nenhuma CAUSA de variação de Y além de x. A variação de x explica COMPLETAMENTE porque Y varia.

26 Qual significado da variação do σ? O que significa a liberdade de σ em relação aos β s? σ pequeno x explica praticamente toda variação de y. Isto é, y varia basicamente porque x também varia. Relação entre y e x não é perfeita, mas ela explica muito da variação de Y.

σ grande x explica um pouco, mas só um pouco, da variação de Y. Muito da variação de Y não pode ser explicada pela variação de x. Existem outros fatores, outras variáveis, que fazem y variar. Não estão sendo levadas em conta. Estas outras não estão no modelo pois: São difíceis de serem mensuradas; Nós nem sabemos que elas influenciam Y; Não estão disponíveis no momento da análise.

28 No caso da regressão de Poisson essa liberdade não existe. Média e variância estão amarradas. Uma suposição básica do modelo de Poisson: média=variância E(X) =Var (X) =λ. Alguns conjuntos de dados apresentar super-dispersão média < variância. A variância pode ser proporcional à média Var (X) =φe(x). Se φ>1temos um caso de super-dispersão.

29 Uma maneira comum de lidar com esse problema: Distribuição Binomial Negativa. Vamos supor que a média é dada por θ i μ i. O θ i será responsável por acomodar a super-dispersão. Chamamos esse termo de efeito aleatório. O θ i não é um parâmetro fixo. Ele possui distribuição de probabilidade.

30 A distribuição de Y i condicionada em θ i é dada por Y i θ i Poisson(θ i μ i ). θ i pode assumir qualquer valor real? Não, apenas valores positivos. Vamos assumir então que θ i Gama(α, β). Temos então que Y i θ i Poisson(θ i μ i ) θ i Gama(α, β).

31 Como encontrar a distribuição marginal de Y i? f Yi (y i )= f (y i θ i )f (θ i )dθ i Pode-se mostrar que nesse caso Y i Binomial-negativa(α, α/(μ i + β)). Isso implica que E(Y i )=μ i Var (Y i )=(μ i )(1 + 1/βμ i ). Como β>0e(y i ) < Var (Y i ).

32 Exemplo: Estamos analisando a ocorrência de eventos gastrointestinais. Queremos saber se está associado ao consumo ou não de água potável. A variáveis resposta é o número de eventos (Y i ). A variável explicativa é binária { 1 se existe água potável; X i = 0 caso contrário.

33 Exemplo: (continuação) A figura a seguir compara a distribuição dos dados com a Poisson e a Binomial Negativa.

34 Exemplo: (continuação) Vamos primeiramente ajustar um modelo Poisson do tipo E(Y i )=β 0 + β 1 X i. A Tabela a seguir mostra os valores estimados, erro padrão e p-valor para os parâmetros. Parâmetro Estimativa Erro Padrão p-valor β 0 1.37 0.25 <0.001 β 1 0.46 0.31 0.13

35 Exemplo: (continuação) Vamos agora ajustar uma Binomial Negativa, a média é definida da mesma maneira E(Y i )=β 0 + β 1 X i. A Tabela a seguir mostra os valores estimados, erro padrão e p-valor para os parâmetros. As interpretações dos parâmetros são as mesmas do modelo Poisson. Parâmetro Estimativa Erro Padrão p-valor β 0 2.05 0.57 <0.001 β 1 0.29 0.72 0.68

36 Exemplo: (continuação) Foi feito ainda um Teste da Razão de Verossimilhança para comparar os dois modelos. Esse teste mostra que o ajuste da binomial negativa é melhor. Observe que os erros padrões do segundo modelo são bem maiores. Portanto o intervalo de confiança tem amplitude maior. Ao não considerar a super-dispersão dos dados obtemos intervalos com cobertura menor do que a real.