Exemplo Infecções de Ouvido Gilberto A. Paula Departamento de Estatística IME-USP, Brasil giapaula@ime.usp.br 2 o Semestre 2016 G. A. Paula (IME-USP) Infecções de Ouvido 2 o Semestre 2016 1 / 27
Infecções de Ouvido Sumário 1 Infecções de Ouvido 2 Análise de Dados Preliminar 3 Ajuste Modelo de Poisson 4 Ajuste Modelo com Resposta Binomial Negativa 5 Conclusões 6 Referências G. A. Paula (IME-USP) Infecções de Ouvido 2 o Semestre 2016 2 / 27
Infecções de Ouvido Infecções de Ouvido Descrição dos Dados Considere os dados apresentados em Hand et al. (1994) em que o número de infecções de ouvido observadas em uma amostra aleatória de n = 287 recrutas norte-americanos em 1990 é relacionado com as seguintes variáveis explicativas: G. A. Paula (IME-USP) Infecções de Ouvido 2 o Semestre 2016 3 / 27
Infecções de Ouvido Infecções de Ouvido Descrição dos Dados Considere os dados apresentados em Hand et al. (1994) em que o número de infecções de ouvido observadas em uma amostra aleatória de n = 287 recrutas norte-americanos em 1990 é relacionado com as seguintes variáveis explicativas: hábito de nadar (ocasional ou frequente), G. A. Paula (IME-USP) Infecções de Ouvido 2 o Semestre 2016 3 / 27
Infecções de Ouvido Infecções de Ouvido Descrição dos Dados Considere os dados apresentados em Hand et al. (1994) em que o número de infecções de ouvido observadas em uma amostra aleatória de n = 287 recrutas norte-americanos em 1990 é relacionado com as seguintes variáveis explicativas: hábito de nadar (ocasional ou frequente), local de nadar (praia ou piscina), G. A. Paula (IME-USP) Infecções de Ouvido 2 o Semestre 2016 3 / 27
Infecções de Ouvido Infecções de Ouvido Descrição dos Dados Considere os dados apresentados em Hand et al. (1994) em que o número de infecções de ouvido observadas em uma amostra aleatória de n = 287 recrutas norte-americanos em 1990 é relacionado com as seguintes variáveis explicativas: hábito de nadar (ocasional ou frequente), local de nadar (praia ou piscina), faixa etária do recruta (15-19, 20-24, 25-29), G. A. Paula (IME-USP) Infecções de Ouvido 2 o Semestre 2016 3 / 27
Infecções de Ouvido Infecções de Ouvido Descrição dos Dados Considere os dados apresentados em Hand et al. (1994) em que o número de infecções de ouvido observadas em uma amostra aleatória de n = 287 recrutas norte-americanos em 1990 é relacionado com as seguintes variáveis explicativas: hábito de nadar (ocasional ou frequente), local de nadar (praia ou piscina), faixa etária do recruta (15-19, 20-24, 25-29), gênero do recruta (feminino ou masculino). G. A. Paula (IME-USP) Infecções de Ouvido 2 o Semestre 2016 3 / 27
Análise de Dados Preliminar Sumário 1 Infecções de Ouvido 2 Análise de Dados Preliminar 3 Ajuste Modelo de Poisson 4 Ajuste Modelo com Resposta Binomial Negativa 5 Conclusões 6 Referências G. A. Paula (IME-USP) Infecções de Ouvido 2 o Semestre 2016 4 / 27
Análise de Dados Preliminar Boxplot Casos por Hábito de Nadar Número de Infecções 0 5 10 15 Número de Infecções 0 5 10 15 Frequente Ocasional Frequente Ocasional Hábito de Nadar Hábito de Nadar G. A. Paula (IME-USP) Infecções de Ouvido 2 o Semestre 2016 5 / 27
Análise de Dados Preliminar Boxplot Casos por Local de Nadar Número de Infecções 0 5 10 15 Número de Infecções 0 5 10 15 Praia Piscina Praia Piscina Local de Nadar Local de Nadar G. A. Paula (IME-USP) Infecções de Ouvido 2 o Semestre 2016 6 / 27
Análise de Dados Preliminar Boxplot Casos por Faixa Etária Número de Infecções 0 5 10 15 Número de Infecções 0 5 10 15 15 19 20 24 25 29 Faixa Etária 15 19 20 24 25 29 Faixa Etária G. A. Paula (IME-USP) Infecções de Ouvido 2 o Semestre 2016 7 / 27
Análise de Dados Preliminar Boxplot Casos por Gênero Número de Infecções 0 5 10 15 Número de Infecções 0 5 10 15 Feminino Masculino Feminino Masculino Gênero Gênero G. A. Paula (IME-USP) Infecções de Ouvido 2 o Semestre 2016 8 / 27
Ajuste Modelo de Poisson Sumário 1 Infecções de Ouvido 2 Análise de Dados Preliminar 3 Ajuste Modelo de Poisson 4 Ajuste Modelo com Resposta Binomial Negativa 5 Conclusões 6 Referências G. A. Paula (IME-USP) Infecções de Ouvido 2 o Semestre 2016 9 / 27
Ajuste Modelo de Poisson Modelo de Poisson Descrição Seja y i o número de infecções de ouvido observadas pelo i-ésimo recruta no ano de 1990. G. A. Paula (IME-USP) Infecções de Ouvido 2 o Semestre 2016 10 / 27
Ajuste Modelo de Poisson Modelo de Poisson Descrição Seja y i o número de infecções de ouvido observadas pelo i-ésimo recruta no ano de 1990.Vamos supor inicialmente o seguinte modelo: G. A. Paula (IME-USP) Infecções de Ouvido 2 o Semestre 2016 10 / 27
Ajuste Modelo de Poisson Modelo de Poisson Descrição Seja y i o número de infecções de ouvido observadas pelo i-ésimo recruta no ano de 1990.Vamos supor inicialmente o seguinte modelo: y i ind P(µ i ), G. A. Paula (IME-USP) Infecções de Ouvido 2 o Semestre 2016 10 / 27
Ajuste Modelo de Poisson Modelo de Poisson Descrição Seja y i o número de infecções de ouvido observadas pelo i-ésimo recruta no ano de 1990.Vamos supor inicialmente o seguinte modelo: y i ind P(µ i ), log(µ i ) = α+β 1 hábito i +β 2 local i +β 3 fetária i +β 4 gênero i +γ 1 hábito i local i +γ 2 hábito i fetária i +γ 3 hábito i gênero i +γ 4 local i fetária i +γ 5 local i gênero i +γ 6 fetária i gênero i, G. A. Paula (IME-USP) Infecções de Ouvido 2 o Semestre 2016 10 / 27
Ajuste Modelo de Poisson Modelo de Poisson Descrição Seja y i o número de infecções de ouvido observadas pelo i-ésimo recruta no ano de 1990.Vamos supor inicialmente o seguinte modelo: y i ind P(µ i ), log(µ i ) = α+β 1 hábito i +β 2 local i +β 3 fetária i +β 4 gênero i +γ 1 hábito i local i +γ 2 hábito i fetária i +γ 3 hábito i gênero i +γ 4 local i fetária i +γ 5 local i gênero i +γ 6 fetária i gênero i, para i = 1,...,287, em que hábito, local, fetária e gênero são variáveis binárias. G. A. Paula (IME-USP) Infecções de Ouvido 2 o Semestre 2016 10 / 27
Ajuste Modelo de Poisson Estimativas Modelo Selecionado Descrição Efeito Estimativa E/E.Padrão Intercepto 0,380 2,25 HábitoOcas 0,232 1,23 LocalPisc -0,380-1,47 Fetária20-24 -0,880-3,05 Fetária25-29 -0,698-2,52 GêneroMasc -0,457-2,81 HOcas*LPisc 0,367 1,66 HOcas*F20-24 0,091 0,35 HOcas*F25-30 0,706 2,41 LPisc*F20-24 0,741 2,52 LPisc*F25-29 0,156 0,59 LPisc*GMasc 0,776 3,31 G. A. Paula (IME-USP) Infecções de Ouvido 2 o Semestre 2016 11 / 27
Ajuste Modelo de Poisson Qualidade do Ajuste Desvio G. A. Paula (IME-USP) Infecções de Ouvido 2 o Semestre 2016 12 / 27
Ajuste Modelo de Poisson Qualidade do Ajuste Desvio O desvio do modelo é dado por D(y; ˆµ) = 732, 16 (275 g.l.) com valor-p dado por P=0,00 (rejeitamos o modelo). G. A. Paula (IME-USP) Infecções de Ouvido 2 o Semestre 2016 12 / 27
Ajuste Modelo de Poisson Resíduos Modelo de Poisson Componente do Desvio 2 0 2 4 6 3 2 1 0 1 2 3 Percentil da N(0,1) G. A. Paula (IME-USP) Infecções de Ouvido 2 o Semestre 2016 13 / 27
Ajuste Modelo com Resposta Binomial Negativa Sumário 1 Infecções de Ouvido 2 Análise de Dados Preliminar 3 Ajuste Modelo de Poisson 4 Ajuste Modelo com Resposta Binomial Negativa 5 Conclusões 6 Referências G. A. Paula (IME-USP) Infecções de Ouvido 2 o Semestre 2016 14 / 27
Ajuste Modelo com Resposta Binomial Negativa Modelo Binomial Negativo Descrição A sobredispersão detectada sob o modelo de Poisson sugere o seguinte modelo com resposta binomial negativa: G. A. Paula (IME-USP) Infecções de Ouvido 2 o Semestre 2016 15 / 27
Ajuste Modelo com Resposta Binomial Negativa Modelo Binomial Negativo Descrição A sobredispersão detectada sob o modelo de Poisson sugere o seguinte modelo com resposta binomial negativa: y i ind B(µ i,ν), G. A. Paula (IME-USP) Infecções de Ouvido 2 o Semestre 2016 15 / 27
Ajuste Modelo com Resposta Binomial Negativa Modelo Binomial Negativo Descrição A sobredispersão detectada sob o modelo de Poisson sugere o seguinte modelo com resposta binomial negativa: y i ind B(µ i,ν), log(µ i ) = α+β 1 hábito i +β 2 local i +β 3 fetária i +β 4 gênero i +γ 1 hábito i local i +γ 2 hábito i fetária i +γ 3 hábito i gênero i +γ 4 local i fetária i +γ 5 local i gênero i +γ 6 fetária i gênero i, G. A. Paula (IME-USP) Infecções de Ouvido 2 o Semestre 2016 15 / 27
Ajuste Modelo com Resposta Binomial Negativa Modelo Binomial Negativo Descrição A sobredispersão detectada sob o modelo de Poisson sugere o seguinte modelo com resposta binomial negativa: y i ind B(µ i,ν), log(µ i ) = α+β 1 hábito i +β 2 local i +β 3 fetária i +β 4 gênero i +γ 1 hábito i local i +γ 2 hábito i fetária i +γ 3 hábito i gênero i +γ 4 local i fetária i +γ 5 local i gênero i +γ 6 fetária i gênero i, para i = 1,...,287, em que hábito, local, fetária e gênero são variáveis binárias. G. A. Paula (IME-USP) Infecções de Ouvido 2 o Semestre 2016 15 / 27
Ajuste Modelo com Resposta Binomial Negativa Estimativas Modelo Selecionado Descrição Aplicando o método de Akaike incluímos apenas a interação entre local e gênero, além dos efeitos principais hábito, local e gênero. Efeito Estimativa E/E.Padrão Intercepto -0,064-0,28 HábitoOcas 0,593 3,13 LocalPisc 0,007 0,02 GêneroMasc -0,407-1,48 LPisc*GMasc 0,745 1,83 Dispersão (ν) 0,576 6,36 G. A. Paula (IME-USP) Infecções de Ouvido 2 o Semestre 2016 16 / 27
Ajuste Modelo com Resposta Binomial Negativa Estimativas Modelo Selecionado Descrição Aplicando o método de Akaike incluímos apenas a interação entre local e gênero, além dos efeitos principais hábito, local e gênero. Efeito Estimativa E/E.Padrão Intercepto -0,064-0,28 HábitoOcas 0,593 3,13 LocalPisc 0,007 0,02 GêneroMasc -0,407-1,48 LPisc*GMasc 0,745 1,83 Dispersão (ν) 0,576 6,36 O desvio do modelo é dado por D(y; ˆµ) = 269, 54 (282 g.l.) com valor-p dado por P=0,69 (não rejeitamos o modelo). G. A. Paula (IME-USP) Infecções de Ouvido 2 o Semestre 2016 16 / 27
Ajuste Modelo com Resposta Binomial Negativa Resíduos Modelo Binomial Negativo Componente do Desvio 1 0 1 2 3 3 2 1 0 1 2 3 Percentil da N(0,1) G. A. Paula (IME-USP) Infecções de Ouvido 2 o Semestre 2016 17 / 27
Ajuste Modelo com Resposta Binomial Negativa Influência Modelo Binomial Negativo 249 Distância de Cook 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0 50 100 150 200 250 Índice G. A. Paula (IME-USP) Infecções de Ouvido 2 o Semestre 2016 18 / 27
Ajuste Modelo com Resposta Binomial Negativa Estimativas Modelo Selecionado Descrição Estimativas eliminando a observação #249. Efeito Estimativa E/E.Padrão Intercepto -0,263-1,13 HábitoOcas 0,669 3,55 LocalPisc 0,163 0,49 GêneroMasc -0,250-0,91 LPisc*GMasc 0,591 1,46 Dispersão (ν) 0,606 6,19 G. A. Paula (IME-USP) Infecções de Ouvido 2 o Semestre 2016 19 / 27
Ajuste Modelo com Resposta Binomial Negativa Estimativas Modelo Selecionado Descrição Estimativas eliminando a observação #249. Efeito Estimativa E/E.Padrão Intercepto -0,263-1,13 HábitoOcas 0,669 3,55 LocalPisc 0,163 0,49 GêneroMasc -0,250-0,91 LPisc*GMasc 0,591 1,46 Dispersão (ν) 0,606 6,19 Portanto, há mudança inferencial, essa observação está induzindo a interação entre local e gênero. G. A. Paula (IME-USP) Infecções de Ouvido 2 o Semestre 2016 19 / 27
Ajuste Modelo com Resposta Binomial Negativa Estimativas Modelo Selecionado Descrição Estimativas eliminando a observação #249. Efeito Estimativa E/E.Padrão Intercepto -0,263-1,13 HábitoOcas 0,669 3,55 LocalPisc 0,163 0,49 GêneroMasc -0,250-0,91 LPisc*GMasc 0,591 1,46 Dispersão (ν) 0,606 6,19 Portanto, há mudança inferencial, essa observação está induzindo a interação entre local e gênero. A observação #249 tem um perfil atípico, refere-se a uma recruta que nada com frequência na praia e registrou 10 infecções no ano de 1990. G. A. Paula (IME-USP) Infecções de Ouvido 2 o Semestre 2016 19 / 27
Ajuste Modelo com Resposta Binomial Negativa Estimativas Modelo Final Descrição O modelo final tem apenas os efeitos principais de hábito e local. As estimativas são apresentadas abaixo. Efeito Estimativa E/E.Padrão Intercepto -0,278-1,59 HábitoOcas 0,590 3,10 LocalPisc 0,481 2,53 Dispersão (ν) 0,560 6,43 G. A. Paula (IME-USP) Infecções de Ouvido 2 o Semestre 2016 20 / 27
Ajuste Modelo com Resposta Binomial Negativa Estimativas Modelo Final Descrição O modelo final tem apenas os efeitos principais de hábito e local. As estimativas são apresentadas abaixo. Efeito Estimativa E/E.Padrão Intercepto -0,278-1,59 HábitoOcas 0,590 3,10 LocalPisc 0,481 2,53 Dispersão (ν) 0,560 6,43 O desvio do modelo é dado por D(y; ˆµ) = 269, 10 (284 g.l.) com valor-p dado por P=0,73 (não rejeitamos o modelo). G. A. Paula (IME-USP) Infecções de Ouvido 2 o Semestre 2016 20 / 27
Ajuste Modelo com Resposta Binomial Negativa Resíduos Modelo Final Componente do Desvio 1 0 1 2 3 3 2 1 0 1 2 3 Percentil da N(0,1) G. A. Paula (IME-USP) Infecções de Ouvido 2 o Semestre 2016 21 / 27
Ajuste Modelo com Resposta Binomial Negativa Influência Modelo Final 249 Distância de Cook 0.0 0.1 0.2 0.3 0.4 0 50 100 150 200 250 Índice G. A. Paula (IME-USP) Infecções de Ouvido 2 o Semestre 2016 22 / 27
Ajuste Modelo com Resposta Binomial Negativa Interpretações Modelo Final Interpretações Modelo Final G. A. Paula (IME-USP) Infecções de Ouvido 2 o Semestre 2016 23 / 27
Ajuste Modelo com Resposta Binomial Negativa Interpretações Modelo Final Interpretações Modelo Final Recrutas com hábito de nadar ocasional têm aproximadamente 80% (exp(0, 59) = 1, 80) mais infecções de ouvido do que recrutas com hábito de nadar frequente. G. A. Paula (IME-USP) Infecções de Ouvido 2 o Semestre 2016 23 / 27
Ajuste Modelo com Resposta Binomial Negativa Interpretações Modelo Final Interpretações Modelo Final Recrutas com hábito de nadar ocasional têm aproximadamente 80% (exp(0, 59) = 1, 80) mais infecções de ouvido do que recrutas com hábito de nadar frequente. Recrutas que nadam em piscina têm aproximadamente 62% (exp(0, 481) = 1, 62) mais infecções de ouvido do que recrutas que nadam na praia. G. A. Paula (IME-USP) Infecções de Ouvido 2 o Semestre 2016 23 / 27
Ajuste Modelo com Resposta Binomial Negativa Interpretações Modelo Final Interpretações Modelo Final Recrutas com hábito de nadar ocasional têm aproximadamente 80% (exp(0, 59) = 1, 80) mais infecções de ouvido do que recrutas com hábito de nadar frequente. Recrutas que nadam em piscina têm aproximadamente 62% (exp(0, 481) = 1, 62) mais infecções de ouvido do que recrutas que nadam na praia. Recrutas com hábito de nadar ocasional em piscina têm aproximadamente 192% (exp(0, 590+0, 481) = 2, 92) mais infecções de ouvido do que recrutas com hábito de nadar frequente na praia. G. A. Paula (IME-USP) Infecções de Ouvido 2 o Semestre 2016 23 / 27
Conclusões Sumário 1 Infecções de Ouvido 2 Análise de Dados Preliminar 3 Ajuste Modelo de Poisson 4 Ajuste Modelo com Resposta Binomial Negativa 5 Conclusões 6 Referências G. A. Paula (IME-USP) Infecções de Ouvido 2 o Semestre 2016 24 / 27
Conclusões Conclusões Finais Conclusões Finais G. A. Paula (IME-USP) Infecções de Ouvido 2 o Semestre 2016 25 / 27
Conclusões Conclusões Finais Conclusões Finais Este é um exemplo com sobredispersão em que o modelo com respota binomial negativa ajusta melhor os dados do que o modelo de Poisson. G. A. Paula (IME-USP) Infecções de Ouvido 2 o Semestre 2016 25 / 27
Conclusões Conclusões Finais Conclusões Finais Este é um exemplo com sobredispersão em que o modelo com respota binomial negativa ajusta melhor os dados do que o modelo de Poisson. A observação discrepante #249 induz a interação entre hábito e gênero no modelo binomial negativo. Embora também seja detectada no modelo final, essa observação não causa mudanças inferenciais nos resultados. G. A. Paula (IME-USP) Infecções de Ouvido 2 o Semestre 2016 25 / 27
Referências Sumário 1 Infecções de Ouvido 2 Análise de Dados Preliminar 3 Ajuste Modelo de Poisson 4 Ajuste Modelo com Resposta Binomial Negativa 5 Conclusões 6 Referências G. A. Paula (IME-USP) Infecções de Ouvido 2 o Semestre 2016 26 / 27
Referências Referências Referência Hand, D. J., Daly, F., Lunn, A. D., McConway, K. J. e Ostrowski, E. (1994). A Handbook of Small Data Sets. Chapman and Hall, London. G. A. Paula (IME-USP) Infecções de Ouvido 2 o Semestre 2016 27 / 27