Modelo Linear Generalizado Distribuição de Poisson
|
|
|
- Ágatha Palha Osório
- 8 Há anos
- Visualizações:
Transcrição
1 Valeska Andreozzi 1 Modelo Linear Generalizado Distribuição de Poisson Problema 1 O objetivo desta aula é exemplificar a modelagem de dados de contagem. Vamos ilustrar como os modelos lineares generalizados podem ser utilizados para estimar razões de taxas. Distribuição de Poisson Para dados de contagem assumimos que a variável resposta segue uma distribuição de Poisson com parâmetro µ dada pela fórmula: Pr(y;µ) = µy exp( µ) y! Y = 0,1,, (1) Teoricamente uma variável aleatória com distribuição de Poisson pode assumir qualquer valor inteiro maior ou igual a zero. Da equação 1 temos que a probabilidade de Y ser igual a 5 é igual a: Pr(y;µ) = µ5 exp( µ) 5! = µ5 exp( µ) 120 (2) Observe que a probabilidade de Y = 5 depende do parâmetro µ, que por sua vez pode depender de covariáveis. A distribuição de Poisson tem como características que E(Y) = Var(Y) = µ e é geralmente utilizada para ocorrência de eventos raros. Da teoria estatística temos que a distribuição de Poisson é uma boa aproximação da distribuição binomial para eventos raros (número de ensaios tende para infinito e probabilidade sucesso tende para zero). Considere o exemplo: Estudar a relação entre o risco de doença isquêmica do coração (DIC) e diversos indicadores socioeconômicos (nível ecológico), tendo como unidade de análise os 153 bairros do Rio de Janeiro. Lendo o banco cardiorio.dat > rio <- read.table("cardiorio.dat",header=t) Dicionário das variáveis bairro - nome do bairro do Rio de Janeiro pfave - proporção da população que vive em favelas no bairro prede - proporção de casas ligadas à rede pública de água
2 Valeska Andreozzi 2 pesgred - proporção de casas ligadas à rede pública de esgotos pcaluga - proporção de casas alugadas plixocol - proporção de casas com coleta regular de lixo pesc1g - proporção de chefes de família com primeiro grau completo palftot - proporção da população que é alfabetizada obt número de óbitos por doença isquêmica do coração entre 30 e 70 anos pop população entre 30 e 70 anos rndm2sm - proporção de chefes de família com renda média até 2 salários mínimos rndm15sm - proporção de chefes de família com renda média acima de 15 salários mínimos Listando o número de óbitos e a população dos primeiros 10 bairros podemos observar que o número de casos é pequeno em relação a população, indicando um evento raro e que a distribuição da variável resposta Y pode ser a Poisson. > rio[1:10,c("bairro","obt3070","pop3070")] bairro obt3070 pop SAUDE GAMBOA SANTO CRISTO CAJU CENTRO CATUMBI RIO COMPRIDO CIDADE NOVA ESTACIO SAO CRISTOVAO Modelando taxa A distribuição de Poisson também é muito utilizada para modelar taxas. Suponha que a taxa de mortalidade de DIC por tempo de observação seja dada por λ = µ l (3) em que µ é o número de eventos esperados (número de casos de uma determinada doença) e l é a quantidade total de pessoa-tempo (exemplo: tempo total de pessoas em risco de ter a doença) em cada subgrupo de interesse. No exemplo da DIC, temos uma estimativa de risco ao invés de taxa, pois l é igual a população de cada bairro.
3 Valeska Andreozzi 3 Suponha que os dados do exemplo da DIC tenham sido obtidos através do acompanhamento ao longo de um ano em que, ao invés de população, tivéssemos pessoa-tempo e quiséssemos modelar a taxa de DIC. Neste caso teríamos o seguinte modelo: log(λ i = β 0 +β 1 x i1 +β 2 x i2 ( ) µi log = β 0 +β 1 x i1 +β 2 x i2 l i log(µ i ) log(l i ) = β 0 +β 1 x i1 +β 2 x i2 log(µ i ) = log(l i )+β 0 +β 1 x i1 +β 2 x i2 (4) Tecnicamente, assumindo um processo de Poisson com intensidade λ, tem-se para a contagem Y no intervalo de tempo l uma distribuição de Poisson Y i Poisson(l i λ i ). Consequentemente, a média µ i = l i λ i depende do intervalo de tempo l i. Seja a dependência da intensidade λ em relação as covariáveis da forma log-linear (log(λ i )), então o E(Y i ) = µ i é dado por log(µ i ) = log(l i )+β 0 +β 1 x i1 +β 2 x i2 (5) A equação (4) ilustra a forma de modelar a taxa tendo como dados a contagem e pessoa-tempo (ou população). Este último dado é conhecido como offset, pois não lhe é atribuído nenhum coeficiente a ser estimado. Resumindo, temos: Y i Poisson(µ i ) λ i = µ i l i log(µ i ) = log(l i )+β 0 +β 1 x i1 +β 2 x i2 Faça uma análise exploratória das variáveis do banco. > summary(rio) bairro pfave prede ABOLICAO : 1 Min. : Min. : ACARI : 1 1st Qu.: st Qu.: AGUA SANTA : 1 Median : Median : ALTO DA BOA VISTA: 1 Mean : Mean : ANCHIETA : 1 3rd Qu.: rd Qu.: ANDARAI : 1 Max. : Max. : (Other) :147 pesgred pcaluga plixocol Min. : Min. : Min. :0.1364
4 Valeska Andreozzi 4 1st Qu.: st Qu.: st Qu.: Median : Median : Median : Mean : Mean : Mean : rd Qu.: rd Qu.: rd Qu.: Max. : Max. : Max. : pesc1g palftot obt3070 Min. : Min. : Min. : st Qu.: st Qu.: st Qu.: 5.00 Median : Median : Median : Mean : Mean : Mean : rd Qu.: rd Qu.: rd Qu.: Max. : Max. : Max. : pop3070 rndm2sm rndm15sm Min. : 31 Min. : Min. : st Qu.: st Qu.: st Qu.: Median : Median : Median : Mean : Mean : Mean : rd Qu.: rd Qu.: rd Qu.: Max. : Max. : Max. : > hist(rio$obt3070,main="óbitos",xlab="óbitos",ylab="frequ^encia")
5 Valeska Andreozzi 5 Óbitos frequência óbitos Multicolinearidade Multicolinearidade é o grau de correlação existente entre as covariáveis. Uma correlação forte entre covariáveis produz grande variabilidade nas estimativas dos coeficientes de regressão. Especificamente, os coeficientes podem mudar drasticamente dependendo que termos estão dentro ou fora do modelo ou em que ordem eles foram introduzidos no modelo. Uma forma de avaliar a multicolinearidade é através do gráfico de dispersão ou da matriz de correlação. Uma outra alternativa é calcular o VIF (Variance Inflation factor). O VIF fornece uma medida de quanto a variância da estimativa dos coeficientes é inflacionada comparado quando as covariáveis não estão linearmente dependente. VIF p = 1 1 R 2 p em que Rp 2 é um coeficiente de determinação múltipla da regressão da covariável X p em todas as outras covariáveis. Suponha 3 covariáveis, X 1, X 2, X 3. R1 2 é igual ao coeficiente de determinação da regressão X 1 X 2 +X 3, e assim sucessivamente. Quando VIF p 1, isto é, R 2 p 0, temos que as covariáveis são independentes e quando VIF p é maior que 10 implica que as covariáveis estão linearmente dependente (este ponto de corte é arbitrário). A raiz quadrada de VIF p pode ser interpretada como uma aproximação de quantas
6 Valeska Andreozzi 6 vezes o erro padrão da covariável X p está aumentado comparado com o seu erro padrão caso não houvesse colinearidade. O que fazer quando multicolinearidade está presente: 1. Ignorar o problema. Quanto o objetivo da análise é predição, os resultado devem ser adequados. 2. Aumentar o tamanho da amostra, principalmente se os dados são poucos. Isto pode reduzir a correlação entre as covariáveis. 3. Não considerar algumas variáveis e ajustar um modelo mais simples. 4. Recodificar a covariável ou usar uma proxy. Avalie a multicolinearidade entre as covariáveis através do diagrama de dispersão > plot(rio[,c(2:8,11:12)]) pfave prede pesgred pcaluga plixocol pesc1g palftot rndm2sm rndm15sm Verifique a correlação entre as covariáveis > correlacao<-cor(rio[,c(2:8,11:12)]) > round(correlacao,digits=2)
7 Valeska Andreozzi 7 pfave prede pesgred pcaluga plixocol pesc1g palftot pfave prede pesgred pcaluga plixocol pesc1g palftot rndm2sm rndm15sm rndm2sm rndm15sm pfave prede pesgred pcaluga plixocol pesc1g palftot rndm2sm rndm15sm Calcule o VIF para avaliar a multicolinearidade > library(rms) > vif(glm(obt3070~pfave+prede+pesgred+pcaluga+plixocol+ + pesc1g+palftot+rndm2sm+rndm15sm, family=poisson, data=rio)) pfave prede pesgred pcaluga plixocol pesc1g palftot rndm2sm rndm15sm > vif(glm(obt3070~pfave+prede+pesgred+pcaluga+plixocol+ + palftot+rndm2sm+rndm15sm, family=poisson, data=rio)) pfave prede pesgred pcaluga plixocol palftot rndm2sm rndm15sm Qual seria sua hipótese para relacionar óbito por DIC e situação socioeconômica? Resp.:Parece que ao retirar a variável escolaridade pesc1g resolve o problema de colinearidade.
8 Valeska Andreozzi 8 A variável prede (proporção de casas ligadas à rede pública de água) é quase toda acima de 95%. Sugerimos usá-la como covariável categórica > rio$redecat <- ifelse(rio$prede>.95,1,0) Por que devemos modelar a taxa de mortalidade de DIC ao invés do número de óbitos por DIC? Resposta: Devemos modelar a taxa pois a população dos bairros são diferentes, logo 10 óbitos num bairro com 10 mil habitantes é diferente de 10 óbitos ocorridos num bairro com uma população de mil habitantes E vamos ao modelo linear generalizado. Para covariáveis com correlação alta, escolha somente uma delas para incluir no modelo. Sua escolha pode basear-se: na importância epidemiológica das covariáveis, nos resultados dos modelos de regressão bivariados nas estimativas dos coeficientes de regressão (β s) com maior significância estatística no VIF Para modelar a taxa devemos incluir no modelo um offset igual ao logaritmo da população. > rio.glm1 <- glm(obt3070~ pfave + offset(log(pop3070)), + data=rio, family=poisson) Experimente outros modelos com uma só variável explicativa. Olhando a tabela abaixo, qual variável você acrescentaria primeiro no modelo? Pare este efeito será criado uma função que resulta na análise de deviance de cada modelo com uma só covariável comparado com o modelo nulo. Criando uma função para montar esta tabela. A função deviancef tem como argumento o número da coluna da covariável que será acrescentada no modelo referência. > deviancef<-function(x){ + modelref<-glm(obt3070~ offset(log(pop3070)), data=rio, family=poisson) + modelo<-glm(obt3070~rio[,x]+offset(log(pop3070)), data=rio, family=poisson) + teste<-anova(modelref,modelo,test="chisq") + resp<-teste[2,] + resp + } > variaveis<-c(2,4:8,13) > x<-t(sapply(variaveis,deviancef)) > resultado<-data.frame(names(rio[variaveis]),x) > names(resultado)<-c("variável",attributes(x)$dimnames[[2]]) > resultado
9 Valeska Andreozzi 9 Variável Resid. Df Resid. Dev Df Deviance Pr(>Chi) 1 pfave e-07 2 pesgred e-05 3 pcaluga e-14 4 plixocol pesc1g palftot e-07 7 redecat A função seguinte resulta na análise de deviance ao se acrescentar mais uma covariável no modelo que possui somente a covariável pcaluga, pois foi essa variável que na análise anterior reduziu mais a função desvio e de forma significativa. > deviancef<-function(x){ + modelref<- glm(obt3070~pcaluga+ offset(log(pop3070)), data=rio, family=poisson) + modelo<-glm(obt3070~rio[,x]+pcaluga+offset(log(pop3070)), data=rio, family=poisson) + teste<-anova(modelref,modelo,test="chisq") + resp<-teste[2,] + resp + } > > variaveis<-c(2,4,6:8,13) > x<-t(sapply(variaveis,deviancef)) > resultado<-data.frame(paste(names(rio[variaveis]),"+ pcaluga"),x) > names(resultado)<-c("variável",attributes(x)$dimnames[[2]]) > resultado Variável Resid. Df Resid. Dev Df Deviance 1 pfave + pcaluga pesgred + pcaluga plixocol + pcaluga pesc1g + pcaluga palftot + pcaluga redecat + pcaluga Pr(>Chi) Na tabela de análise de deviance, temos que a variável pfave é a única que contribui para um aumento do deviance de forma significativa.
10 Valeska Andreozzi 10 > rio.glm2 <- glm(obt3070~pcaluga+pfave+ offset(log(pop3070)), data=rio, family=poisson > summary(rio.glm2) Call: glm(formula = obt3070 ~ pcaluga + pfave + offset(log(pop3070)), family = poisson, data = rio) Deviance Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) < 2e-16 *** pcaluga e-11 *** pfave *** --- Signif. codes: 0 *** ** 0.01 * (Dispersion parameter for poisson family taken to be 1) Null deviance: on 152 degrees of freedom Residual deviance: on 150 degrees of freedom AIC: Number of Fisher Scoring iterations: 4 Vamos agora interprete o modelo acima estimado. As covariáveis pcaluga e pfave são proporções que variam entre 0 e 1. Logo, devemos levar em conta esse domínio da covariável na intrepretação do modelo. Para facilitar o processo de interpretação, vamos escrever a equação do modelo ajustado: Y i = óbitos por DIC Pois(λ i ) E(Y i ) = λ i Var(Y i ) = λ i λ i = µ i pop i ln(λ i ) = pcaluga i pfave i Podemos dizer que para um aumento de 10% na proporção de casas alugas, a taxa de óbito por DIC aumenta 14% (exp(β ) = exp( ) = 1.14).
11 Valeska Andreozzi 11 Já um aumento na proporção da população que vive em favelas, temos uma redução na taxa de óbito por DIC de 5% (exp(β ) = exp( ) = 0.95). Poderíamos continuar selecionando variáveis da forma anterior (análise de deviance) ou utilizar o processo stepwise. Para facilitar a utilização da função step(), criamos um novo objeto (rio2) que não possui o nome do bairro e a variável prede > rio2 <- rio[,c(2,4:13)] > rio.glm <-glm(obt3070~pfave + pesgred + pcaluga + plixocol + pesc1g + + palftot + rndm2sm + rndm15sm + redecat + offset(log(pop3070)), + data=rio2, family=poisson) > rio.glm3 <- step(rio.glm, direction="both") Start: AIC= obt3070 ~ pfave + pesgred + pcaluga + plixocol + pesc1g + palftot + rndm2sm + rndm15sm + redecat + offset(log(pop3070)) Df Deviance AIC - redecat palftot plixocol pesgred <none> pfave rndm2sm pesc1g rndm15sm pcaluga Step: AIC= obt3070 ~ pfave + pesgred + pcaluga + plixocol + pesc1g + palftot + rndm2sm + rndm15sm + offset(log(pop3070)) Df Deviance AIC - palftot pesgred plixocol <none> redecat pfave rndm2sm pesc1g rndm15sm
12 Valeska Andreozzi 12 - pcaluga Step: AIC= obt3070 ~ pfave + pesgred + pcaluga + plixocol + pesc1g + rndm2sm + rndm15sm + offset(log(pop3070)) Df Deviance AIC - pesgred <none> plixocol palftot redecat rndm2sm pfave pesc1g rndm15sm pcaluga Step: AIC= obt3070 ~ pfave + pcaluga + plixocol + pesc1g + rndm2sm + rndm15sm + offset(log(pop3070)) Df Deviance AIC - plixocol <none> pesgred palftot redecat pfave rndm2sm pesc1g rndm15sm pcaluga Step: AIC= obt3070 ~ pfave + pcaluga + pesc1g + rndm2sm + rndm15sm + offset(log(pop3070)) Df Deviance AIC <none> plixocol palftot pesgred redecat pfave
13 Valeska Andreozzi 13 - rndm2sm pesc1g rndm15sm pcaluga > summary(rio.glm3) Call: glm(formula = obt3070 ~ pfave + pcaluga + pesc1g + rndm2sm + rndm15sm + offset(log(pop3070)), family = poisson, data = rio2) Deviance Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) < 2e-16 *** pfave * pcaluga e-05 *** pesc1g ** rndm2sm ** rndm15sm ** --- Signif. codes: 0 *** ** 0.01 * (Dispersion parameter for poisson family taken to be 1) Null deviance: on 152 degrees of freedom Residual deviance: on 147 degrees of freedom AIC: Number of Fisher Scoring iterations: 4 Você mudaria este modelo? Lembre-se da multicolinearidade? Que tal retirar uma das covariáveis de renda. > library(car) > scatterplotmatrix(rio[,c(2:8,11:12)]) > round(cor(rio[,c(2:8,11:12)]),digits=2) pfave prede pesgred pcaluga plixocol pesc1g palftot pfave
14 Valeska Andreozzi 14 prede pesgred pcaluga plixocol pesc1g palftot rndm2sm rndm15sm rndm2sm rndm15sm pfave prede pesgred pcaluga plixocol pesc1g palftot rndm2sm rndm15sm pfave prede pesgred pcaluga plixocol pesc1g palftot rndm2sm rndm15sm Estime o modelo sem a covariável rndm2sm. Faça as mudanças que considerar importantes e compare com o modelo anterior usando análise de deviance (se os modelos se mantiverem encaixados)
15 Valeska Andreozzi 15 > rio.glm4 <- update(rio.glm3,~.-rndm2sm) > anova(rio.glm4,rio.glm3,test="chisq") Analysis of Deviance Table Model 2: obt3070 ~ pfave + pcaluga + pesc1g + rndm2sm + rndm15sm + offset(log(pop3070)) Model 1: obt3070 ~ pfave + pcaluga + pesc1g + rndm15sm + offset(log(pop3070)) Resid. Df Resid. Dev Df Deviance Pr(>Chi) ** --- Signif. codes: 0 *** ** 0.01 * Escreva a hipótese nula da análise de deviance. Qual a conclusão do teste? A Hipótese nula do teste é de que o coeficiente da variável rndm2sm é igual a zero. O teste rejeita a H0. Se o objetivo do estudo fosse predição, poderíamos ter optado pelo modelo rio.glm3 que inclui covariáveis colineares. No entanto, como o objetivo é estudar associação, vamos descartar a covariável rndm2sm. Vamos à análise de resíduos. Quando o termo offset está presente no modelo de Poisson, o R estima os preditores lineares e os valores ajustados para µ i ao invés de estimar para λ i, ie, preditor linear = η i = lnpop i +βx i valores ajustados = µ i = exp(η i ) = exp(lnpop i +βx i ) Na verdade o que queremos são os preditores lineares e os valores ajustados de λ i. Por isso temos que fazer algumas alterações no resultado do R. > res<-rstandard(rio.glm4, type = "deviance") > pred.mu<-rio.glm4$linear.predictors #normal, poisson, gamma > pred.lambda<-pred.mu-log(rio2$pop3070) #poisson com offset > plot(pred.lambda,res,ylab = "Resíduo deviance padronizado", + xlab= "Preditor linear") > abline(h=0)
16 Valeska Andreozzi 16 Resíduo deviance padronizado Preditor linear > fitted.mu<-rio.glm4$fitted.values > fitted.lambda<-fitted.mu/rio2$pop3070 > pred<-2*sqrt(fitted.lambda) #poisson com offset > plot(pred,res,ylab = "Resíduo deviance padronizado", + xlab ="2*sqrt(valores ajustados)") > abline(h=0)
17 Valeska Andreozzi 17 Resíduo deviance padronizado *sqrt(valores ajustados) > source("glmfunc.r") > plotleverage(rio.glm4)
18 Valeska Andreozzi 18 Leverage Leverage h/(p/n) Índice > plotcooks(rio.glm4)
19 Valeska Andreozzi 19 Cook s Distance Cook s distance Índice Identifique quem são os bairros com maior influência no modelo > rio[c(128,33),] bairro pfave prede pesgred pcaluga 128 BARRA DA TIJUCA TIJUCA plixocol pesc1g palftot obt3070 pop3070 rndm2sm rndm15sm redecat Interprete os gráficos dos resíduos Os gráficos dos resíduos sugerem que o modelo apresentado não apresenta heterocedasticidade. O que podemos concluir com este modelo. Ele é útil? Parece ser útil. Observe o teste da saída da função gof(). O modelo se ajusta aos dados? > gof(rio.glm4)
20 Valeska Andreozzi 20 Hip. nula: Modelo é adequado Deviance = com 148 Graus de Liberdade P-valor Contudo parece que o modelo não se ajusta bem aos dados. Novamente aqui há que levar em conta o objetivo do modelo (predição ou descrição) Acrescente a seguinte covariável ao modelo: proporção da população entre 60 e 70 anos > rio$pidosos <- scan("ppidosos.dat") Ajuste outros modelos agora com esta covariável indicadora da estrutura etária da população > rio.glm5<-glm(obt3070 ~ pfave + pcaluga + pesc1g + rndm15sm + + pidosos + offset(log(pop3070)), + family = poisson, data = rio) > summary(rio.glm5) Call: glm(formula = obt3070 ~ pfave + pcaluga + pesc1g + rndm15sm + pidosos + offset(log(pop3070)), family = poisson, data = rio) Deviance Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) < 2e-16 *** pfave ** pcaluga * pesc1g rndm15sm ** pidosos e-09 *** --- Signif. codes: 0 *** ** 0.01 * (Dispersion parameter for poisson family taken to be 1) Null deviance: on 152 degrees of freedom Residual deviance: on 147 degrees of freedom AIC: Number of Fisher Scoring iterations: 4
21 Valeska Andreozzi 21 Ao incluirmos a estrutura etária da população temos algumas alterações nos efeitos das outras covariáveis presentes no modelo, especialmente na variável pcaluga e pesc1g, apesar desta última não apresentar efeito estatisticamente significativo.
Modelos Lineares Generalizados
unificação metodológica Alexandre Adalardo de Oliveira PlanECO 2017 1 of 43 03/29/2017 11:47 AM Conceitos estrutura do erro preditora linear função de ligação 2 of 43 03/29/2017 11:47 AM Função de ligação
Análise de Dados Categóricos
1/43 Análise de Dados Categóricos Modelo de Regressão de Poisson Enrico A. Colosimo/UFMG http://www.est.ufmg.br/ enricoc/ Departamento de Estatística Universidade Federal de Minas Gerais 2/43 Revisão:
Lista 1 - Gabarito. Prof. Erica Castilho Rodrigues Disciplina: Modelos Lineares Generalizados. 29 de Abril. f(y i, θ i ) = θ i exp( yiθ i ).
Lista 1 - Gabarito Prof. Erica Castilho Rodrigues Disciplina: Modelos Lineares Generalizados 29 de Abril 1. (Concurso Petrobrás - 2011) Em um modelo de regressão logística, o que indica se o modelo se
UNIVERSIDADE FEDERAL DA FRONTEIRA SUL Campus CERRO LARGO. PROJETO DE EXTENSÃO Software R: de dados utilizando um software livre.
UNIVERSIDADE FEDERAL DA FRONTEIRA SUL Campus CERRO LARGO PROJETO DE EXTENSÃO Software R: Capacitação em análise estatística de dados utilizando um software livre. Fonte: https://www.r-project.org/ Módulo
Trabalho de Modelos Lineares Generalizados
Universidade Federal do Paraná Trabalho de Modelos Lineares Generalizados Ananda Bordignon 1, Brendha Lima 2, Giovanna Lazzarin 3 12 de Novembro de 2018 1 GRR20149157 2 GRR20149163 3 GRR20149088 1 SUMÁRIO
Modelos Lineares Generalizados - Verificação do Ajuste do Modelo
1 Modelos Lineares Generalizados - Verificação do Ajuste do Modelo Erica Castilho Rodrigues 9 de Abril de 2015 2 3 Função Deviance Podemos ver o ajuste de um modelo a um conjunto de dados como: uma forma
UNIVERSIDADE FEDERAL DO PARANÁ CURSO ESTATÍSTICA DENNIS LEÃO GRR LUAN FIORENTIN GRR
UNIVERSIDADE FEDERAL DO PARANÁ CURSO ESTATÍSTICA DENNIS LEÃO GRR - 20160239 LUAN FIORENTIN GRR - 20160219 MODELAGEM DE DADOS DE ÓBITOS POR AGRESSÕES NO ESTADO DE SÃO PAULO NO ANO DE 2016 CURITIBA Novembro
Modelos Lineares Generalizados - Modelos log-lineares para tabelas de contingência
Modelos Lineares Generalizados - Modelos log-lineares para tabelas de contingência Erica Castilho Rodrigues 12 de Agosto 3 Vimos como usar Poisson para testar independência em uma Tabela 2x2. Veremos
Capacitação em R e RStudio PROJETO DE EXTENSÃO. Software R: capacitação em análise estatística de dados utilizando um software livre.
UFFS Universidade Federal da Fronteira Sul Campus Cerro Largo PROJETO DE EXTENSÃO Software R: capacitação em análise estatística de dados utilizando um software livre Fonte: https://www.r-project.org/
Introdução Regressão linear Regressão de dados independentes Regressão não linear. Regressão. Susana Barbosa
Regressão Susana Barbosa Mestrado em Ciências Geofísicas 2012-2013 Regressão linear x : variável explanatória y : variável resposta Gráfico primeiro! Gráfico primeiro! Gráfico primeiro! Modelo linear x
Modelos Lineares Generalizados - Modelos log-lineares para tabelas de contingência
Modelos Lineares Generalizados - Modelos log-lineares para tabelas de contingência Erica Castilho Rodrigues 12 de Agosto Introdução 3 Vimos como usar Poisson para testar independência em uma Tabela 2x2.
Teste F-parcial 1 / 16
Teste F-parcial A hipótese nula, H 0, define o modelo restrito. Ingredientes SQR r : soma de quadrado dos resíduos sob H 0. R 2 r: coeficiente de determinação sob H 0. g: número de restrições a serem testadas
Gabarito Lista 2 LES0773 Estatística III. Os resultados dessa regressão são apresentados na seguinte tabela:
Gabarito Lista 2 LES0773 Estatística III Exercício 1) Utilizando a ferramenta Análise de Dados e a sua função Regressão, foi realizada uma regressão levando em consideração os gastos com PD como variável
Análise Multivariada Aplicada à Contabilidade
Mestrado e Doutorado em Controladoria e Contabilidade Análise Multivariada Aplicada à Contabilidade Prof. Dr. Marcelo Botelho da Costa Moraes www.marcelobotelho.com [email protected] Turma: 2º / 2016 1 Agenda
BIE5782. Unidade 7: INTRODUÇÃO AOS MODELOS LINEARES
BIE5782 Unidade 7: INTRODUÇÃO AOS MODELOS LINEARES ROTEIRO 1.Motivação 2. Método dos mínimos quadrados 3. Ajuste no R: função lm 4. Resultado no R: objeto lm 5. Premissas, interpretação e diagnóstico 6.
Teste F-parcial 1 / 16
Teste F-parcial Ingredientes A hipótese nula, H 0, define o modelo restrito. A hipótese alternativa, H a : H 0 é falsa, define o modelo irrestrito. SQR r : soma de quadrado dos resíduos associada à estimação
MEDIÇÃO DA QUALIDADE DO VINHO BRANCO NORTE PORTUGUÊS
Universidade Federal do Paraná Departamento de Estatística MEDIÇÃO DA QUALIDADE DO VINHO BRANCO NORTE PORTUGUÊS CE225 - Modelos Lineares Generalizados Francielle Przibiciem de Mattos GRR20124686 Guilherme
1 AULA 5 - REGRESSÃO LOGÍSTICA BINOMIAL
1 AULA 5 - REGRESSÃO LOGÍSTICA BINOMIAL 1.1 Tabela de contingência A base de dados que vamos utilizar são os dados do estudo caso-controle em que os casos foram mulheres com infertilidade e os controles,
Regressão linear múltipla
Regressão linear múltipla Universidade Estadual de Santa Cruz Ivan Bezerra Allaman Introdução A regressão múltipla é uma generalização da regressão simples, visto que, há mais de uma variável explicativa
Análise de regressão linear simples. Diagrama de dispersão
Introdução Análise de regressão linear simples Departamento de Matemática Escola Superior de Tecnologia de Viseu A análise de regressão estuda o relacionamento entre uma variável chamada a variável dependente
Variável dependente Variável independente Coeficiente de regressão Relação causa-efeito
Unidade IV - Regressão Regressões Lineares Modelo de Regressão Linear Simples Terminologia Variável dependente Variável independente Coeficiente de regressão Relação causa-efeito Regressão correlação Diferença
Multicolinariedade e Autocorrelação
Multicolinariedade e Autocorrelação Introdução Em regressão múltipla, se não existe relação linear entre as variáveis preditoras, as variáveis são ortogonais. Na maioria das aplicações os regressores não
Disciplina de Modelos Lineares Professora Ariane Ferreira
Disciplina de Modelos Lineares 2012-2 Regressão Logística Professora Ariane Ferreira O modelo de regressão logístico é semelhante ao modelo de regressão linear. No entanto, no modelo logístico a variável
Análise de Sobrevivência
Análise de Sobrevivência Modelagem paramétrica Valeska Andreozzi 1 [email protected] & Marilia Sá Carvalho 2 [email protected] 1 Centro de Estatística e Aplicações da Universidade de Lisboa,
Análise de Regressão EST036
Análise de Regressão EST036 Michel Helcias Montoril Instituto de Ciências Exatas Universidade Federal de Juiz de Fora Regressão sem intercepto; Formas alternativas do modelo de regressão Regressão sem
MRLM COM COVARIÁVEIS CATEGÓRICAS. criar uma variável dummy para representar uma categoria da variável. variável dummy: assume só dois valores: 0 ou 1
MRLM COM COVARIÁVEIS CATEGÓRICAS Como quantificar o efeito das categorias de uma variável sobre a resposta Y? (exemplo: efeito de sexo masculino/feminino sobre salário) criar uma variável dummy para representar
Estimador de Máxima Verossimilhança Estudo de Caso - Regressão Poisson
Estimador de Máxima Verossimilhança Estudo de Caso - Regressão Poisson Wagner Hugo Bonat - LEG/DEST, UFPR 1 Resumo: Este texto descreve de forma rápida o processo de estimação baseado em Verossimilhança
i j i i Y X X X i j i i i
Mario de Andrade Lira Junior lira.pro.br\wordpress lira.pro.br\wordpress Diferença Regressão - equação ligando duas ou mais variáveis Correlação medida do grau de ligação entre duas variáveis Usos Regressão
Esse material foi extraído de Barbetta (2007 cap 13)
Esse material foi extraído de Barbetta (2007 cap 13) - Predizer valores de uma variável dependente (Y) em função de uma variável independente (X). - Conhecer o quanto variações de X podem afetar Y. Exemplos
Modelos Lineares Generalizados - Verificação do Ajuste do Modelo
Modelos Lineares Generalizados - Verificação do Ajuste do Modelo Erica Castilho Rodrigues 21 de Junho de 2013 3 Uma outra medida usada para verificar o ajuste do modelo. Essa estatística é dada por X
Análise de Regressão Linear Simples e
Análise de Regressão Linear Simples e Múltipla Carla Henriques Departamento de Matemática Escola Superior de Tecnologia de Viseu Introdução A análise de regressão estuda o relacionamento entre uma variável
ME613 - Análise de Regressão
ME613 - Análise de Regressão Parte 2 Propriedades dos estimadores Samara F. Kiihl - IMECC - UNICAMP Suposições do modelo de regressão linear simples Suposições do modelo de regressão linear simples Até
LISTA DE EXERCÍCIOS - TÉCNICAS DE REGRESSÃO SIMPLES E MÚLTIPLA
LISTA DE EXERCÍCIOS - TÉCNICAS DE REGRESSÃO SIMPLES E MÚLTIPLA 1 1) Em um estudo foi utilizada, erroneamente, uma amostra de apenas 3 observações para se estimarem os coeficientes de uma equação de regressão.
AULAS 14 E 15 Modelo de regressão simples
1 AULAS 14 E 15 Modelo de regressão simples Ernesto F. L. Amaral 30 de abril e 02 de maio de 2013 Avaliação de Políticas Públicas (DCP 046) Fonte: Wooldridge, Jeffrey M. Introdução à econometria: uma abordagem
Caros Alunos, segue a resolução das questões de Estatística aplicadas na prova para o cargo de Auditor Fiscal da Receita Municipal de Teresina.
Caros Alunos, segue a resolução das questões de Estatística aplicadas na prova para o cargo de Auditor Fiscal da Receita Municipal de Teresina. De forma geral, a prova manteve o padrão das questões da
CE062c José Luiz Padilha da Silva e Cesar Augusto Taconeli 13 de setembro de 2018
CE062c José Luiz Padilha da Silva e Cesar Augusto Taconeli 13 de setembro de 2018 Examplo usando gamlssnp(): dados de cérebros de animais O tamanho do cérebro (brain) e peso corporal (body) foram registrados
AULAS 14 E 15 Modelo de regressão simples
1 AULAS 14 E 15 Modelo de regressão simples Ernesto F. L. Amaral 18 e 23 de outubro de 2012 Avaliação de Políticas Públicas (DCP 046) Fonte: Wooldridge, Jeffrey M. Introdução à econometria: uma abordagem
REGRESSÃO E CORRELAÇÃO
REGRESSÃO E CORRELAÇÃO A interpretação moderna da regressão A análise de regressão diz respeito ao estudo da dependência de uma variável, a variável dependente, em relação a uma ou mais variáveis explanatórias,
Correlação e Regressão
Correlação e Regressão Vamos começar com um exemplo: Temos abaixo uma amostra do tempo de serviço de 10 funcionários de uma companhia de seguros e o número de clientes que cada um possui. Será que existe
Modelos de Regressão Múltipla - Parte VII
1 Modelos de Regressão Múltipla - Parte VII Erica Castilho Rodrigues 26 de Janeiro de 2016 2 3 Vimos como ajustar um modelo não linear fazendo transformações das variáveis, como, por exemplo Y = exp{β
ANÁLISE DE SOBREVIVÊNCIA Teoria e aplicações em saúde. Caderno de Respostas Capítulo 9. Funções de suavização
ANÁLISE DE SOBREVIVÊNCIA Teoria e aplicações em saúde Caderno de Respostas Capítulo 9 Funções de suavização 9.1 Analise o comportamento da variável idade no risco de óbito de pacientes em hemodiálise (banco
Modelos de Regressão Linear Simples parte I
Modelos de Regressão Linear Simples parte I Erica Castilho Rodrigues 27 de Setembro de 2017 1 2 Objetivos Ao final deste capítulo você deve ser capaz de: Usar modelos de regressão para construir modelos
Modelos de Regressão Linear Simples - parte I
Modelos de Regressão Linear Simples - parte I Erica Castilho Rodrigues 19 de Agosto de 2014 Introdução 3 Objetivos Ao final deste capítulo você deve ser capaz de: Usar modelos de regressão para construir
AMOSTRAGEM COMPLEXA. Bases de Dados IAN-AF Tutorial para análise ponderada recorrendo aos softwares SPSS e R
AMOSTRAGEM COMPLEXA Bases de Dados IAN-AF Tutorial para análise ponderada recorrendo aos softwares SPSS e R 1 Conteúdo Nota introdutória... 3 1. Software SPSS... 4 2. Software R... 16 Referências [1] R
CORRELAÇÃO E REGRESSÃO. Modelos Probabilísticos para a Computação Professora: Andréa Rocha. UNIVERSIDADE FEDERAL DA PARAÍBA Dezembro, 2011
CORRELAÇÃO E REGRESSÃO CORRELAÇÃO E REGRESSÃO Modelos Probabilísticos para a Computação Professora: Andréa Rocha UNIVERSIDADE FEDERAL DA PARAÍBA Dezembro, 2011 CORRELAÇÃO Introdução Quando consideramos
Modelo de Regressão Múltipla
Modelo de Regressão Múltipla Modelo de Regressão Linear Simples Última aula: Y = α + βx + i i ε i Y é a variável resposta; X é a variável independente; ε representa o erro. 2 Modelo Clássico de Regressão
4 Modelos Lineares Generalizados
4 Modelos Lineares Generalizados Neste capítulo, serão apresentados arcabouços teóricos dos modelos lineares generalizados (MLGs) e como casos particulares desses modelos são aplicáveis ao problema da
CORRELAÇÃO E REGRESSÃO
CORRELAÇÃO E REGRESSÃO Permite avaliar se existe relação entre o comportamento de duas ou mais variáveis e em que medida se dá tal interação. Gráfico de Dispersão A relação entre duas variáveis pode ser
Módulo 16- Análise de Regressão
Módulo 6 Análise de Regressão Módulo 6- Análise de Regressão Situação Problema Um grupo de investidores estrangeiros deseja aumentar suas atividades no Brasil. Considerando a conjuntura econômica de moeda
Métodos Quantitativos para Avaliação de Políticas Públicas
ACH3657 Métodos Quantitativos para Avaliação de Políticas Públicas Aula 11 Análise de Resíduos Alexandre Ribeiro Leichsenring [email protected] Alexandre Leichsenring ACH3657 Aula 11 1 / 26
9 Correlação e Regressão. 9-1 Aspectos Gerais 9-2 Correlação 9-3 Regressão 9-4 Intervalos de Variação e Predição 9-5 Regressão Múltipla
9 Correlação e Regressão 9-1 Aspectos Gerais 9-2 Correlação 9-3 Regressão 9-4 Intervalos de Variação e Predição 9-5 Regressão Múltipla 1 9-1 Aspectos Gerais Dados Emparelhados há uma relação? se há, qual
Modelos Lineares Generalizados - Estimação em Modelos Lineares Generalizados
Modelos Lineares Generalizados - Estimação em Modelos Lineares Generalizados Erica Castilho Rodrigues 23 de Maio de 207 Introdução 2 3 Vimos como encontrar o EMV usando algoritmos numéricos. Duas possibilidades:
Regressão. PRE-01 Probabilidade e Estatística Prof. Marcelo P. Corrêa IRN/Unifei
Regressão PRE-01 Probabilidade e Estatística Prof. Marcelo P. Corrêa IRN/Unifei Regressão Introdução Analisar a relação entre duas variáveis (x,y) através da equação (equação de regressão) e do gráfico
Nessa situação, a média dessa distribuição Normal (X ) é igual à média populacional, ou seja:
Pessoal, trago a vocês a resolução da prova de Estatística do concurso para Auditor Fiscal aplicada pela FCC. Foram 10 questões de estatística! Não identifiquei possibilidade para recursos. Considero a
CONHECIMENTOS ESPECÍFICOS
CONHECIMENTOS ESPECÍFICOS Em uma grande escola, 10% dos alunos são comprovadamente fracos. Um teste educacional conseguiu identificar corretamente 80% entre aqueles que são fracos e 85% entre aqueles que
b) Teste a hipótese de efeito significante do tamanho da população sobre a venda do produto, na presença de renda per capita
Exemplo 1 (continuação a Estime por intervalo de 95% de confiança, o aumento do número médio de lotes vendidos devido a 1000 pessoas a mais na população, mantendo a renda per capita fixa b Teste a hipótese
REGRESSÃO LINEAR Parte I. Flávia F. Feitosa
REGRESSÃO LINEAR Parte I Flávia F. Feitosa BH1350 Métodos e Técnicas de Análise da Informação para o Planejamento Julho de 2015 Onde Estamos Para onde vamos Inferência Esta5s6ca se resumindo a uma equação
Econometria Aplicada com uso do R
Econometria Aplicada com uso do R Alexandre Rodrigues Loures Universidade Federal da Paraíba Centro de Ciências Sociais Aplicadas Programa de Pós-Graduação em Economia 10 de maio de 2015 LOURES, A. R.
CE062c José Luiz Padilha da Silva e Cesar Augusto Taconeli 06 de novembro de 2018
A função plot.gamlss() CE062c José Luiz Padilha da Silva e Cesar Augusto Taconeli 06 de novembro de 2018 Considere os dados de circunferência abdominal discutido anteriormente. relacionamos a circunferência
RESOLUÇÃO DAS QUESTÕES DE ESTATÍSTICA
RESOLUÇÃO DAS QUESTÕES DE ESTATÍSTICA Caro aluno, Disponibilizo abaixo a resolução resumida das questões de Estatística da prova de Auditor da SEFAZ/PI 2015. Vale dizer que utilizei a numeração da prova
Constipação José Luiz Padilha da Silva 21 de outubro de 2018
Constipação José Luiz Padilha da Silva 21 de outubro de 2018 Descrição dos dados No banco de dados foram incluídos 151 recém-nascidos acompanhados nos primeiros 12 meses de vida. Foram previstos um total
Resolução da Prova de Matemática Financeira e Estatística do ISS Teresina, aplicada em 28/08/2016.
de Matemática Financeira e Estatística do ISS Teresina, aplicada em 8/08/016. 11 - (ISS Teresina 016 / FCC) Joana aplicou todo seu capital, durante 6 meses, em bancos ( e Y). No Banco, ela aplicou 37,5%
1 semestre de 2014 Gabarito Lista de exercícios 3 - Estatística Descritiva III C A S A
Exercício 1. (1,0 ponto). A tabela a seguir mostra o aproveitamento conjunto em Física e Matemática para os alunos do ensino médio de uma escola. Notas Notas Notas Física/Matemática Altas Regulares Baixas
Análise de Carteiras usando o R - Parte 6
Análise de Carteiras usando o R - Parte 6 Bibliografia BKM, cap. 9 Claudio Lucinda FEA/USP Testando o CAPM Testando o CAPM Vamos nesta apresentação usar os dados dos fundos para repassar os testes do CAPM.
Modelos Lineares Generalizados - Componentes do Modelo
Modelos Lineares Generalizados - Componentes do Modelo Erica Castilho Rodrigues 01 de Abril de 2014 3 Vejamos agora quais as componentes de um Modelo Linear Generalizado. Temos um conjunto de variáveis
AULA 09 Regressão. Ernesto F. L. Amaral. 17 de setembro de 2012
1 AULA 09 Regressão Ernesto F. L. Amaral 17 de setembro de 2012 Faculdade de Filosofia e Ciências Humanas (FAFICH) Universidade Federal de Minas Gerais (UFMG) Fonte: Triola, Mario F. 2008. Introdução à
Prova de Estatística
Prova de Estatística 1. Para um número-índice ser considerado um índice ideal, ele precisa atender duas propriedades: reversão no tempo e o critério da decomposição das causas. Desta forma, é correto afirmar
