Regressão para Dados Binários - Estudo de Dengue

Documentos relacionados
Regressão para Dados de Contagem - Segurança e privatização ferroviária na Grã-Bretanha

Regressão Logística: Um Estudo sobre o Uso de Tabaco entre Alunos da Universidade Federal do Paraná Curitiba

Analise de sobreviventes em acidentes de carros

Trabalho de Modelos Lineares Generalizados

INCIDÊNCIA DE DENGUE EM UMA CIDADE DA COSTA MEXICANA: UM ESTUDO PREDITIVO

EFICIÊNCIA DE UM TRATAMENTO APLICADO A PACIENTES COM LEUCEMIA

MEDIÇÃO DA QUALIDADE DO VINHO BRANCO NORTE PORTUGUÊS

UNIVERSIDADE FEDERAL DO PARANÁ. Adriane Machado (GRR ), Cinthia Zamin Cavassola(GRR ) e Luiza Hoffelder da Costa(GRR )

Óbitos por Acidentes de Transporte em Santa Catarina no ano de 2016

Modelos Lineares Generalizados para Dados de Contagem Ananda Bordignon, Brendha Lima, Giovanna Lazzarin 28 de novembro de 2018

Trabalho de GLM 2. Adi M. ARAÚJO, Kristiany J. MARTINI, Konstanz W. TONEGAWA, Leonardo H. KRÜGER. 17 de outubro de 2017

Modelos de Regressão para Dados de Contagem

RELACÃO DO CRIME EM CIDADES PEQUENAS COM CUSTO, IDADE E ANOS DE ESTUDO DE ESTADOS DA AMERICA DO NORTE

UNIVERSIDADE FEDERAL DO PARANÁ CURSO DE ESTATÍSTICA. Jayme Gomes dos Santos Junior Luciana Helena Kowalski

Número de Consultas ao Médico

Análise do acidente do Titanic

UNIVERSIDADE FEDERAL DO PARANÁ CURSO ESTATÍSTICA DENNIS LEÃO GRR LUAN FIORENTIN GRR

Relatório GLM - Predição de doênça coronária cardíaca através do modelo de regressão generalizado com resposta Binomial

Análise dados de diagnóstico de câncer de mama

UNIVERSIDADE FEDERAL DO PARANÁ DEPARTAMENTO DE ESTATÍSTICA

UNIVERSIDADE FEDERAL DO PARANÁ. Adi M. A. Junior Leonardo H. B. Krüger Kristiany J. Martini Konstanz T. Winter

1 z 1 1 z 2. Z =. 1 z n

Análise de dados de Contagem

Modelos Lineares Generalizados - Modelos log-lineares para tabelas de contingência

Modelo de regressão Beta

Modelos Lineares Generalizados - Modelos log-lineares para tabelas de contingência

UNIVERSIDADE FEDERAL DO PARANÁ DEPARTAMENTO DE ESTATÍSTICA

UNIVERSIDADE FEDERAL DO PARANÁ SETOR DE CIÊNCIAS EXATAS DEPARTAMENTO DE ESTATÍSTICA

Exame da OAB. Gilberto A. Paula. Departamento de Estatística IME-USP, Brasil

UNIVERSIDADE FEDERAL DO PARANÁ CURSO ESTATÍSTICA CALEB SOUZA GRR DENNIS LEÃO GRR LUAN FIORENTIN GRR

MAE Modelos Lineares Generalizados 2 o semestre 2017

Exemplos Modelos Binomiais de Dose-Resposta

Modelos Lineares Generalizados - Regressão Logística

Regressão linear simples

RELAÇÃO ENTRE EXPECTATIVA DE VIDA E CARACTERÍSTICAS DOS ESTADOS NORTE-AMERICANOS ENTRE OS ANOS DE 1969 E 1970

CONHECIMENTOS ESPECÍFICOS

EXPLORANDO OS MODELOS LINEARES GENERALIZADOS APLICAÇÃO A DADOS DE UM PEQUENO SUPERMERCADO

ESTUDO SOBRE A TAXA ANUAL DE CÂNCER NASAL EM UMA REFINARIA DE NÍQUEL NO PAÍS DE GALES

Precificação de apartamentos para o bairro Água Verde em Curitiba

Quantis residuais. Luziane Franciscon Acadêmica de Estatística Universidade Federal do Paraná

Renda x Vulnerabilidade Ambiental

Regressão Linear Múltipla no R MAE-0217: ESTATÍSTICA DESCRITIVA MAIO DE 2017 PROFESSORA: MÁRCIA D ELIA BRANCO

AULA 17 - Variáveis binárias

Modelos Lineares Generalizados - Verificação do Ajuste do Modelo

Exemplos Equações de Estimação Generalizadas

3.33pt. AIC Introdução

Exemplo Preferência de Automóveis

Lista 1 - Gabarito. Prof. Erica Castilho Rodrigues Disciplina: Modelos Lineares Generalizados. 29 de Abril. f(y i, θ i ) = θ i exp( yiθ i ).

BIE5782. Unidade 7: INTRODUÇÃO AOS MODELOS LINEARES

Modelos lineares generalizados: um estudo sobre leilões de veículos

Aula 2 Uma breve revisão sobre modelos lineares

Correlação e Regressão

Exemplos Regressão Dados Binários

UNIVERSIDADE FEDERAL DO PARANÁ. Adriane Machado (GRR ) Cinthia Zamin Cavassola (GRR ) Luiza Hoffelder da Costa (GRR )

Exemplos Modelos de Quase-Verossimilhança

Análise de dados de contagem para jogadores de futebol americano

Coeficiente de determinação R 2 no modelo de regressão linear normal

Modelo de regressão estável aplicado a econometria

Modelagem de dados complexos por meio de extensões do modelo de

A Importância da Estatística na Pesquisa Científica e na Tomada de Decisão

UNIVERSIDADE FEDERAL DO PARANÁ CURSO ESTATÍSTICA CALEB SOUZA - GRR RODOLFO PIROLO GATZKE - GRR THAYS COSTA S. SOUZA - GRR

Exemplo Falhas em Tecidos

CE062c José Luiz Padilha da Silva e Cesar Augusto Taconeli 06 de novembro de 2018

Disciplina de Modelos Lineares Professora Ariane Ferreira

b) Teste a hipótese de efeito significante do tamanho da população sobre a venda do produto, na presença de renda per capita

CONHECIMENTOS ESPECÍFICOS

Relatório de análise estatística Bairro : Dois Irmãos Recife/PE

Modelos de Regressão Linear Simples - parte I

Modelos Lineares Generalizados

Adriane Machado Cinthia Zamin Cavassola Luiza Hoffelder da Costa REGRESSÃO EM DADOS DE CONTAGEM: UM ESTUDO SOBRE A QUANTIDADE DE BICICLETAS ALUGADAS

Análise de dados em Geociências

Modelo de Variáveis discretas. Regressão com uma variável dependente Binária. Variáveis dependentes Binárias. Modelo de Probabilidade Linear

Modelos Binomial e Poisson

Modelo de Regressão Múltipla

MODELOS DE REGRESSÃO PARA DADOS CONTÍNUOS ASSIMÉTRICOS

CE062c José Luiz Padilha da Silva e Cesar Augusto Taconeli 23 de outubro de 2018

4 Metodologia. Wt = W 0 exp{(l/k)(1-e-kt)} (8)

Modelos Binomial e Poisson

Exemplo Vida Útil de Ferramentas

Regressão linear múltipla. Regressão linear múltipla

UNIVERSIDADE FEDERAL DO PARANÁ CURSO ESTATÍSTICA

Exemplo Ausências Escolares

Exemplo Regressão Robusta

Modelagem do número de patentes nos países americanos via Regressão múltipla

Modelos de Regressão Linear Simples parte I

Regressão. PRE-01 Probabilidade e Estatística Prof. Marcelo P. Corrêa IRN/Unifei

CORRELAÇÃO E REGRESSÃO. Modelos Probabilísticos para a Computação Professora: Andréa Rocha. UNIVERSIDADE FEDERAL DA PARAÍBA Dezembro, 2011

Técnicas computacionais em probabilidade e estatística II

Disciplina de Modelos Lineares

Ensaio Clínico de Contraceptivos José Luiz Padilha da Silva 24 de outubro de 2018

4 Modelos Lineares Generalizados

Análise de Regressão EST036

DETERMINAÇÃO DA DL50 PARA O CONTROLE BIOLÓGICO DA C.VESTIGIALIS EM PLANTAS DO ÁLAMO. EMBRAPA Pesquisadora: EDILENE MACHADO

Regression and Clinical prediction models

MÉTODO MEAN SHIFT PARA DETECÇÃO DE OUTLIERS EM MODELOS NORMAIS ASSIMÉTRICOS

1 semestre de 2014 Gabarito Lista de exercícios 3 - Estatística Descritiva III C A S A

Modelos de regressão para dados correlacionados. Cibele Russo

Exemplo Multicolinearidade

Transcrição:

Universidade Federal do Paraná Departamento de Estatística Regressão para Dados Binários - Estudo de Dengue CE225 - Modelos Lineares Generalizados Francielle Przibiciem de Mattos GRR20124686 Guilherme Henrique Stadler de Mello GRR20124678 Simone Matsubara GRR20124663 Curitiba, 24 de Outubro de 2017

Sumário 1 Introdução 2 2 Material e Métodos 2 2.1 Material.................................................. 2 2.2 Métodos.................................................. 2 3 Análise Descritiva 3 4 Ajuste dos Modelos de Regressão 4 4.1 Logito................................................... 4 4.2 Probito.................................................. 4 4.3 Complemento Log-Log.......................................... 4 4.4 Cauchy.................................................. 4 5 Escolha do Modelo 5 6 Análise de Diagnóstico 5 7 Predição 6 1

1 Introdução Transmitida pelo mosquito Aedes Aegypti, a dengue é uma doença viral que se espalha rapidamente no mundo. Nos últimos 50 anos, a incidência aumentou 30 vezes, com ampliação da expansão geográfica para novos países e, na presente década, para pequenas cidades e áreas rurais. É estimado que 50 milhões de infecções por dengue ocorram anualmente e que aproximadamente 2,5 bilhões de pessoas morem em países onde a dengue é endêmica. Este trabalho tem como objetivo apresentar uma análise de regressão para dados binários, em um estudo de dengue, onde se avalia se o indivíduo contraiu ou não a doença recentemente. O objetivo do estudo é tentar prever ou explicar a probabilidade de um indivíduo contrair a doença dadas as variáveis explicativas: idade, nível econômico e setor da cidade. Os dados foram retirados do texto de Modelos de Regressão, do autor Gilberto de Paula, capítulo 3. 2 Material e Métodos 2.1 Material O estudo foi realizado com 196 indivíduos, onde o entrevistado responde se contraiu (caso=1), ou não contraiu (caso=0) a doença em questão. As variáveis presentes neste estudo são: idade: Idade (em anos) do entrevistado necon: Nível sócio-econômico (1:alto, 2:médio, 3:baixo) setor: Setor da cidade onde mora o entrevistado (1:setor 1, 2:setor 2) resp: Diagnóstico da doença (1:sim, 0:não). Tabela 1: Primeiras 6 observações do conjunto de dados. idade necon setor resp 1 33 1 1 0 2 35 1 1 0 3 6 1 1 0 4 60 1 1 0 5 18 3 1 1 6 26 3 1 0 2.2 Métodos Como estamos trabalhando com dados de resposta binária, utilizaremos a distribuição Binomial: y i x i Binomial(m i, π i ) E função de ligação: g(π i ) = β 0 + β 1 x i1 + β 2 x i2 + + β p x ip No tópico 4, a seguir, ajustaremos o Modelo Binomial com suas funções de ligação, para determinar qual delas se adequa melhor ao nosso problema em questão e a que melhor se ajusta aos nossos dados. 2

3 Análise Descritiva A fim de conhecer melhor os dados com os quais estamos estudando, e prever possíveis problemas e sugestões de modelagem, mostraremos a seguir uma análise descritiva e exploratória dos dados. Observando o comportamento dos dados, podemos dizer que metade dos entrevistados, tem idade igual, ou inferior, à 21 anos; O nível socioecônomico varia nos três níveis, mas com a maior quantidade de entrevistados, concentrada no nível alto da população; E o setor da cidade, que foi dividiva entre setor 1 e setor2, encontra-se com aproximadamente, 60% dos entrevistados localizados no setor 1. Idade Nível econômico Setor 0 10 20 30 40 50 0 10 20 30 40 50 60 70 0 20 40 60 80 100 0 40 80 1 2 3 1 2 Figura 1: Histogramas Em números, quanto mais proximo de 1, maior é a correlação que existe entre as variáveis, podendo ser positiva ou negativa. Analisando estas variáveis, nota-se que todas as correlações observadas são fracas, principalmente a da variável nível sócio-econômico com a variável respota. 1 idade 0.8 0.6 0.09 necon 0.4 0.2 0 0.11 0.23 setor 0.2 0.4 0.25 0.04 0.28 resp 0.6 0.8 1 Figura 2: Gráfico de correlações Por enquanto, manteremos todas elas no estudo, vamos primeiramente ajustar um modelo, considerando as covariáveis de forma aditiva. 3

4 Ajuste dos Modelos de Regressão Testaremos nessa seção, as 4 funções de ligações: Logito, Probito, Log-Log e Cauchy, para podermos assim definir, um modelo que melhor explica a obtenção da doença recentemente. Todas estas funções de ligação que serão apresentadas a seguir, seguem a seguinte Distribuição Binomial: 4.1 Logito y i x i Binomial(π i, 1) Começando pela função de ligação logito, com expressão do modelo dada por: π i ln( ) = β 0 + β 1 resp + β 2 idade + β 3 necon + β 4 setor 1 π i ajuste1 <- glm(resp ~.,family=binomial(link = (link='logit')),data = dados) 4.2 Probito A segunda função de ligação, é a probito, com expressão do modelo dada por: φ 1 (π i ) = β 0 + β 1 resp + β 2 idade + β 3 necon + β 4 setor ajuste2 <- glm(resp ~.,family=binomial(link = (link='probit')),data = dados) 4.3 Complemento Log-Log A terceira função de ligação, é a Complemento Log-Log, com expressão do modelo dada por: ln[ ln(1 π)] = β 0 + β 1 resp + β 2 idade + β 3 necon + β 4 setor ajuste3 <- glm(resp ~.,family=binomial(link = (link='cloglog')),data = dados) 4.4 Cauchy A última função de ligação que testaremos, é a Cauchy, com expressão do modelo dada por: tan[π i (µ i 0, 5)] = β 0 + β 1 resp + β 2 idade + β 3 necon + β 4 setor ajuste4 <- glm(resp ~.,family=binomial(link = (link='cauchit')),data = dados) 4

5 Escolha do Modelo Utilizando os modelos ajustados, anteriormente propostos, definiremos qual deles é o mais adequado por meio das medidas do critério de informação AIC e da verossimilhança. ## ajuste aic loglik ## 1 logito 219.2635-105.6318 ## 2 probito 218.9677-105.4839 ## 3 cloglog 219.7237-105.8618 ## 4 cauchy 220.3520-106.1760 O modelo escolhido portanto foi o Probito, pois apresentou o menor AIC e a maior verossimilhança. Porém, não é sempre que todas as variáveis influenciam na variável resposta, então reajustaremos o modelo selecionado, deixando apenas as variáveis significativas. Tabela 2: Estimativas do modelo ajustado Estimate Std. Error z value Pr(> z ) (Intercept) -2.2074 0.4636-4.76 0.0000 idade 0.0168 0.0052 3.25 0.0012 necon 0.0723 0.1193 0.61 0.5447 setor 0.7343 0.2059 3.57 0.0004 Como podemos observar na Tabela 2, usaremos apenas as variáveis idade e setor em nosso modelo final, dado que a variável necon (nível sócio-econômico) não apresentou significancia. E nosso novo modelo é o seguinte: g(π i ) = φ 1 (π i ) = β 0 + β 1 resp + β 2 idade + β 3 setor 6 Análise de Diagnóstico Vamos primeiramente avaliar a qualidade do nosso ajuste. Normal Q Q Plot res 3 2 1 0 1 2 0 50 100 200 Sample Quantiles 3 2 1 0 1 2 3 3 1 0 1 2 3 Index Theoretical Quantiles Figura 3: Resíduos Quantílicos Aleatorizados Como vemos na Figura 3, os resíduos estão dispersos dentro do intervalo aceitável e apresentam uma boa adesividade a distribuição Normal, o que é indício de um bom ajuste. Em uma análise de resíduos do modelo, foi observado que aparentemente não existem candidatos a outliers e que o modelo atende os pressupostos. Para podermos afirmar com certeza, veremos as medidas influentes, ou seja, algum valor que se destaque em relação aos demais. Como observado na Figura 4, não há candidatos a outliers, nem indicativos de observações influentes, portanto, nenhuma das observações foi retirada do estudo. 5

Diagnostic Plots Bonferroni p value 0.6 1.0 1.4 hat values 0.01 0.04 0.07 Studentized residuals 1 0 1 2 Cook's distance 0.00 0.02 0.04 0 50 100 150 200 Index Figura 4: Gráfico de Medidas de Influência Foi também verificada a adequação do modelo à distribuição Normal, por meio de um envelope simulado, onde os resíduos se apresentaram dispersos dentro do intervalo esperado. Portanto assim, podemos concluir que o ajuste está correto. 7 Predição Selecionamos aleatóriamente, dois indivíduos do banco de dados, para tentarmos prever a probabilidade destes dois indivíduos contraírem a doença dadas as variáveis explicativas idade e setor. aleat <- sample(1:196, size = 2) Indivíduo 1 Idade: 23 Setor: 1 Indivíduo 2 Idade: 16 Setor: 2 Qual seria a probabilidade destes indivíduos acabarem contraindo a doença (caso=1), tendo estes determinados perfis? predict(ajustec, interval = 'prediction', newdata = perfis, type = 'response') ## 1 2 ## 0.1761262 0.3655618 Como temos poucas amostras, não é aconselhado separar a base, portanto não conseguimos testar o poder de predição do modelo. Esta predição feita, é apenas para fins demonstrativos. Como observado, a probabilidade de o indivíduo 1 contrair a dengue, é baixa, entorno de 17%, enquanto a probabilidade de o indivíduo 2 contrair dengue, é de aproximadamente 36%. 6