ME613 - Análise de Regressão
|
|
|
- Thereza Elza Figueiroa Tomé
- 9 Há anos
- Visualizações:
Transcrição
1 ME613 - Análise de Regressão Parte 11 Critérios para Seleção de Modelos Samara F. Kiihl - IMECC - UNICAMP file:///users/imac/documents/github/me613-unicamp/me613-unicamp.github.io/aulas/slides/parte11/parte11.html#1 1/62 file:///users/imac/documents/github/me613-unicamp/me613-unicamp.github.io/aulas/slides/parte11/parte11.html#1 2/62 Introdução Introdução Fases na construção de um modelo: Coleta e preparação dos dados. Redução do número de variáveis preditoras. Refinamento e seleção de modelo. Validação do modelo. Se tivermos variáveis preditoras, podemos construir modelos diferentes. Mesmo se considerarmos todos esses modelos (computacionalmente intenso), precisaríamos de algum critério para selecionar entre eles. Métodos para seleção de modelos/variáveis foram desenvolvidos para identificar um subgrupo de variáveis que são "boas" para o modelo, segundo algum critério. Há vários critérios desenvolvidos na literatura. Neste curso, focaremos em seis. 3/62 4/62 file:///users/imac/documents/github/me613-unicamp/me613-unicamp.github.io/aulas/slides/parte11/parte11.html#1 3/62 file:///users/imac/documents/github/me613-unicamp/me613-unicamp.github.io/aulas/slides/parte11/parte11.html#1 4/62
2 Cirurgias Para o critério, a idéia é utilizar o coeficiente de determinação, para identificar subgrupos das variáveis preditoras que, quando incluídas no modelo, produzem um alto valor para. indica que temos parâmetros no modelo, isto é, variáveis preditoras incluídas no modelo. : tempo de sobrevivência : blood clotting score : índice de prognóstico : teste de função enzimática : teste de função do fígado O objetivo deste critério não é maximização: sempre irá aumentar conforme mais variáveis preditoras são incluídas no modelo. A idéia é comparar os diversos 's e verificar se adicionar mais variáveis ainda traz um aumento. : idade (anos) : gênero (0=masculino, 1=feminino) : uso de álcool (1 = moderado, 0 = nenhum ou severo) : uso de álcool (1 = severo, 0 = nenhum ou moderado) 5/62 6/62 file:///users/imac/documents/github/me613-unicamp/me613-unicamp.github.io/aulas/slides/parte11/parte11.html#1 5/62 file:///users/imac/documents/github/me613-unicamp/me613-unicamp.github.io/aulas/slides/parte11/parte11.html#1 6/62 Considerando,, e, temos modelos possíveis. Variáveis no modelo p Variáveis no modelo p nenhuma /62 8/62 file:///users/imac/documents/github/me613-unicamp/me613-unicamp.github.io/aulas/slides/parte11/parte11.html#1 7/62 file:///users/imac/documents/github/me613-unicamp/me613-unicamp.github.io/aulas/slides/parte11/parte11.html#1 8/62
3 Como não leva em conta o número de parâmetros no modelo e sempre aumenta conforme temos mais variáveis incluídas, uma alternativa é usar: Variáveis no modelo p Variáveis no modelo p nenhuma aumenta se e somente se diminui /62 10/62 file:///users/imac/documents/github/me613-unicamp/me613-unicamp.github.io/aulas/slides/parte11/parte11.html#1 9/62 file:///users/imac/documents/github/me613-unicamp/me613-unicamp.github.io/aulas/slides/parte11/parte11.html#1 10/62 de Mallow Este critério avalia o erro quadrático médio dos modelo a ser considerado. valores ajustados segundo um Erro de cada valor ajustado é dado por: em que é o valor verdadeiro da função resposta. Temos o viés: E um componente aleatório de erro: 11/62 12/62 file:///users/imac/documents/github/me613-unicamp/me613-unicamp.github.io/aulas/slides/parte11/parte11.html#1 11/62 file:///users/imac/documents/github/me613-unicamp/me613-unicamp.github.io/aulas/slides/parte11/parte11.html#1 12/62
4 de Mallow de Mallow Estamos considerando incluir variáveis, mas assuma que o número ideal de variáveis a serem incluídas no modelo seja. Erro quadrático médio total: Se assumirmos que o modelo incluindo as variáveis é correto, temos que é um estimador não viesado para. Estimador para é dado por: Medida para o critério: (erro quadrático médio total dividido pela verdadeira variância do erro) 13/62 14/62 file:///users/imac/documents/github/me613-unicamp/me613-unicamp.github.io/aulas/slides/parte11/parte11.html#1 13/62 file:///users/imac/documents/github/me613-unicamp/me613-unicamp.github.io/aulas/slides/parte11/parte11.html#1 14/62 de Mallow Se o modelo com variáveis é adequado, então, de maneira que. Modelo considerando as variáveis,, e ( ) Incluindo apenas ( ): Portanto, se o modelo com esperamos que. variáveis é aproximadamente adequado, Procuramos o menor tal que. 15/62 16/62 file:///users/imac/documents/github/me613-unicamp/me613-unicamp.github.io/aulas/slides/parte11/parte11.html#1 15/62 file:///users/imac/documents/github/me613-unicamp/me613-unicamp.github.io/aulas/slides/parte11/parte11.html#1 16/62
5 ## Analysis of Variance Table ## ## Response: lny ## Df Sum Sq Mean Sq F value Pr(>F) ## X e-07 *** ## Residuals ## --- ## Signif. codes: 0 '***' '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 library(leaps) leaps<-regsubsets(lny~x1+x2+x3+x4,data=dados,nbest=10) plot(leaps,scale="cp") ## Analysis of Variance Table ## ## Response: lny ## Df Sum Sq Mean Sq F value Pr(>F) ## X *** ## X e-08 *** ## X e-13 *** ## X ## Residuals ## --- ## Signif. codes: 0 '***' '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 17/62 18/62 file:///users/imac/documents/github/me613-unicamp/me613-unicamp.github.io/aulas/slides/parte11/parte11.html#1 17/62 file:///users/imac/documents/github/me613-unicamp/me613-unicamp.github.io/aulas/slides/parte11/parte11.html#1 18/62 e Procuramos modelos com valores pequenos de,. : plot(leaps,scale="bic") : 19/62 20/62 file:///users/imac/documents/github/me613-unicamp/me613-unicamp.github.io/aulas/slides/parte11/parte11.html#1 19/62 file:///users/imac/documents/github/me613-unicamp/me613-unicamp.github.io/aulas/slides/parte11/parte11.html#1 20/62
6 ( ): critério para medir quão adequado é o uso dos valores ajustados obtidos a partir de um modelo com menos variáveis para predizer os valores observados de. também serve para este propósito. Modelos com predição pequeno). pequenos são considerados bons candidatos (com erro de A diferença é que a medida é obtida após a exclusão da -ésima observação e estimação do modelo com as observações restantes, e então usar este modelo para predizer o valor de para a -ésima observação. Notação: indica o valor predito para a -ésima observação quando esta foi excluída na obtenção do modelo. Não é preciso ajustar vezes o modelo para calcular o. Seja, reescrevemos: em que é o resíduo para a -ésima observação e é o -ésimo elemento da diagonal de, obtidos a partir do modelo de regressão com todas as observações incluídas. 21/62 22/62 file:///users/imac/documents/github/me613-unicamp/me613-unicamp.github.io/aulas/slides/parte11/parte11.html#1 21/62 file:///users/imac/documents/github/me613-unicamp/me613-unicamp.github.io/aulas/slides/parte11/parte11.html#1 22/62 library(qpcr) modelo1 <- lm(lny ~ 1,data=dados) modelo2 <- lm(lny ~ X1,data=dados) modelo3 <- lm(lny ~ X2,data=dados) modelo4 <- lm(lny ~ X3,data=dados) modelo5 <- lm(lny ~ X4,data=dados) modelo6 <- lm(lny ~ X1+X2,data=dados) modelo7 <- lm(lny ~ X1+X3,data=dados) modelo8 <- lm(lny ~ X1+X4,data=dados) modelo9 <- lm(lny ~ X2+X3,data=dados) modelo10 <- lm(lny ~ X2+X4,data=dados) modelo11 <- lm(lny ~ X3+X4,data=dados) modelo12 <- lm(lny ~ X1+X2+X3,data=dados) modelo13 <- lm(lny ~ X1+X2+X4,data=dados) modelo14 <- lm(lny ~ X1+X3+X4,data=dados) modelo15 <- lm(lny ~ X2+X3+X4,data=dados) modelo16 <- lm(lny ~ X1+X2+X3+X4,data=dados) PRESS(modelo1,verbose=FALSE)$stat Variáveis no modelo p Variáveis no modelo p nenhuma ## [1] /62 24/62 file:///users/imac/documents/github/me613-unicamp/me613-unicamp.github.io/aulas/slides/parte11/parte11.html#1 23/62 file:///users/imac/documents/github/me613-unicamp/me613-unicamp.github.io/aulas/slides/parte11/parte11.html#1 24/62
7 "Best" Subsets Algorithms Para o exemplo visto anteriormente, se considerarmos todas as variáveis, temos modelos possíveis. Procedimentos Automáticos para Seleção de Modelos 26/62 file:///users/imac/documents/github/me613-unicamp/me613-unicamp.github.io/aulas/slides/parte11/parte11.html#1 25/62 file:///users/imac/documents/github/me613-unicamp/me613-unicamp.github.io/aulas/slides/parte11/parte11.html#1 26/62 - Usando - Usando library(bestglm) Xy = dados[,-9] # excluindo coluna do Y original, usamos ln(y) como variável resposta names(xy) <- c(names(xy)[1:8],"y") modelos <- bestglm(xy,ic="aic",topmodels = 2) modelos$subsets melhor <- which(modelos$subsets$aic==min(modelos$subsets$aic)) numvar <- dim(xy)[2]-1 # total de variáveis consideradas inicialmente varincluidas <- modelos$subsets[melhor,2:(numvar+1)] # variaveis escolhidas segundo criterio varincluidas ## (Intercept) X1 X2 X3 X4 X5 X6 X7 X8 ## 0 TRUE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE ## 1 TRUE FALSE FALSE TRUE FALSE FALSE FALSE FALSE FALSE ## 2 TRUE FALSE TRUE TRUE FALSE FALSE FALSE FALSE FALSE ## 3 TRUE FALSE TRUE TRUE FALSE FALSE FALSE FALSE TRUE ## 4 TRUE TRUE TRUE TRUE FALSE FALSE FALSE FALSE TRUE ## 5 TRUE TRUE TRUE TRUE FALSE FALSE TRUE FALSE TRUE ## 6* TRUE TRUE TRUE TRUE FALSE TRUE TRUE FALSE TRUE ## 7 TRUE TRUE TRUE TRUE FALSE TRUE TRUE TRUE TRUE ## 8 TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE ## loglikelihood AIC ## ## ## ## ## ## ## 6* ## ## /62 ## X1 X2 X3 X4 X5 X6 X7 X8 ## 6* TRUE TRUE TRUE FALSE TRUE TRUE FALSE TRUE modeloescolhidoaic <- lm(y ~.,data=xy[,c(which(varincluidas==true),which(names(xy)=="y"))]) summary(modeloescolhidoaic)$coef ## Estimate Std. Error t value Pr(> t ) ## (Intercept) e-22 ## X e-04 ## X e-10 ## X e-14 ## X e-01 ## X e-01 ## X e-05 28/62 file:///users/imac/documents/github/me613-unicamp/me613-unicamp.github.io/aulas/slides/parte11/parte11.html#1 27/62 file:///users/imac/documents/github/me613-unicamp/me613-unicamp.github.io/aulas/slides/parte11/parte11.html#1 28/62
8 - Usando - Usando modelos <- bestglm(xy,ic="bic") modelos$subsets ## (Intercept) X1 X2 X3 X4 X5 X6 X7 X8 ## 0 TRUE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE ## 1 TRUE FALSE FALSE TRUE FALSE FALSE FALSE FALSE FALSE ## 2 TRUE FALSE TRUE TRUE FALSE FALSE FALSE FALSE FALSE ## 3 TRUE FALSE TRUE TRUE FALSE FALSE FALSE FALSE TRUE ## 4* TRUE TRUE TRUE TRUE FALSE FALSE FALSE FALSE TRUE ## 5 TRUE TRUE TRUE TRUE FALSE FALSE TRUE FALSE TRUE ## 6 TRUE TRUE TRUE TRUE FALSE TRUE TRUE FALSE TRUE ## 7 TRUE TRUE TRUE TRUE FALSE TRUE TRUE TRUE TRUE ## 8 TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE ## loglikelihood BIC ## ## ## ## ## 4* ## ## ## ## melhor <- which(modelos$subsets$bic==min(modelos$subsets$bic)) varincluidas <- modelos$subsets[melhor,2:(numvar+1)] # variaveis escolhidas segundo criterio varincluidas ## X1 X2 X3 X4 X5 X6 X7 X8 ## 4* TRUE TRUE TRUE FALSE FALSE FALSE FALSE TRUE modeloescolhidobic <- lm(y ~.,data=xy[,c(which(varincluidas==true),which(names(xy)=="y"))]) summary(modeloescolhidobic)$coef ## Estimate Std. Error t value Pr(> t ) ## (Intercept) e-25 ## X e-04 ## X e-11 ## X e-15 ## X e-05 29/62 30/62 file:///users/imac/documents/github/me613-unicamp/me613-unicamp.github.io/aulas/slides/parte11/parte11.html#1 29/62 file:///users/imac/documents/github/me613-unicamp/me613-unicamp.github.io/aulas/slides/parte11/parte11.html#1 30/62 - Usando - Usando modelos <- bestglm(xy,ic="loocv") modelos$subsets ## (Intercept) X1 X2 X3 X4 X5 X6 X7 X8 ## 0 TRUE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE ## 1 TRUE FALSE FALSE TRUE FALSE FALSE FALSE FALSE FALSE ## 2 TRUE FALSE TRUE TRUE FALSE FALSE FALSE FALSE FALSE ## 3 TRUE FALSE TRUE TRUE FALSE FALSE FALSE FALSE TRUE ## 4* TRUE TRUE TRUE TRUE FALSE FALSE FALSE FALSE TRUE ## 5 TRUE TRUE TRUE TRUE FALSE FALSE TRUE FALSE TRUE ## 6 TRUE TRUE TRUE TRUE FALSE TRUE TRUE FALSE TRUE ## 7 TRUE TRUE TRUE TRUE FALSE TRUE TRUE TRUE TRUE ## 8 TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE ## loglikelihood LOOCV ## ## ## ## ## 4* ## ## ## ## melhor <- which(modelos$subsets$loocv==min(modelos$subsets$loocv)) varincluidas <- modelos$subsets[melhor,2:(numvar+1)] # variaveis escolhidas segundo criterio varincluidas ## X1 X2 X3 X4 X5 X6 X7 X8 ## 4* TRUE TRUE TRUE FALSE FALSE FALSE FALSE TRUE modeloescolhidopress <- lm(y ~.,data=xy[,c(which(varincluidas==true),which(names(xy)=="y"))]) summary(modeloescolhidopress)$coef ## Estimate Std. Error t value Pr(> t ) ## (Intercept) e-25 ## X e-04 ## X e-11 ## X e-15 ## X e-05 31/62 32/62 file:///users/imac/documents/github/me613-unicamp/me613-unicamp.github.io/aulas/slides/parte11/parte11.html#1 31/62 file:///users/imac/documents/github/me613-unicamp/me613-unicamp.github.io/aulas/slides/parte11/parte11.html#1 32/62
9 - de Mallow,, e Método library(leaps) modelos <- regsubsets(y ~.,data=xy,nbest=2) resultados = data.frame(cbind("p"=rowsums(summary(modelos)$which),summary(modelos)$which, "Cp"=round(summary(modelos)$cp,2), "R2"=round(summary(modelos)$rsq,2), "R2adj"=round(summary(modelos)$adjr2,2),"BIC"=round(summary(modelos)$bic,2))) resultados Método menos intensivo computacionalmente. Ao final, obtém-se apenas 1 modelo candidato.,, ## p X.Intercept. X1 X2 X3 X4 X5 X6 X7 X8 Cp R2 R2adj BIC ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## /62 34/62 file:///users/imac/documents/github/me613-unicamp/me613-unicamp.github.io/aulas/slides/parte11/parte11.html#1 33/62 file:///users/imac/documents/github/me613-unicamp/me613-unicamp.github.io/aulas/slides/parte11/parte11.html#1 34/62 Início considerando variáveis. 1. Ajuste uma regressão linear múltipla com todas as variáveis. 1- Ajuste uma regressão linear simples com cada uma das variáveis. Para cada regressão, calcule a estatística para testar se o coeficiente angular é Teste iterativamente se uma das variáveis pode ser eliminada. 2- Considere a variável cujo é o maior. Inclua esta variável caso esteja acima de algum valor pré-determinado. 3 - Se alguma variável é incluída, por exemplo, ajustam-se regressões com pares de variáveis, sendo que sempre uma delas é. Calcula-se para a nova variável incluída e repita o passo 2 para decidir qual a segunda variável a ser incluída no modelo. 4 - Repita até considerar todas as variáveis. 35/62 36/62 file:///users/imac/documents/github/me613-unicamp/me613-unicamp.github.io/aulas/slides/parte11/parte11.html#1 35/62 file:///users/imac/documents/github/me613-unicamp/me613-unicamp.github.io/aulas/slides/parte11/parte11.html#1 36/62
10 completo = lm(y~.,data=xy) vazio = lm(y~1, data=xy) step(vazio, scope=list(upper=completo, lower=vazio), direction='forward', trace=true) Start: AIC=-75.7 y ~ 1 + X X X X X X <none> X X Step: AIC= y ~ X3 + X X X X <none> X X X /62 38/62 file:///users/imac/documents/github/me613-unicamp/me613-unicamp.github.io/aulas/slides/parte11/parte11.html#1 37/62 file:///users/imac/documents/github/me613-unicamp/me613-unicamp.github.io/aulas/slides/parte11/parte11.html#1 38/62 Step: AIC= y ~ X3 + X2 + X X X X X <none> X Step: AIC= y ~ X3 + X2 + X8 + X X X <none> X X /62 40/62 file:///users/imac/documents/github/me613-unicamp/me613-unicamp.github.io/aulas/slides/parte11/parte11.html#1 39/62 file:///users/imac/documents/github/me613-unicamp/me613-unicamp.github.io/aulas/slides/parte11/parte11.html#1 40/62
11 Step: AIC= y ~ X3 + X2 + X8 + X1 + X <none> X X X Step: AIC= y ~ X3 + X2 + X8 + X1 + X6 + X <none> X X /62 42/62 file:///users/imac/documents/github/me613-unicamp/me613-unicamp.github.io/aulas/slides/parte11/parte11.html#1 41/62 file:///users/imac/documents/github/me613-unicamp/me613-unicamp.github.io/aulas/slides/parte11/parte11.html#1 42/62 Step: AIC= y ~ X3 + X2 + X8 + X1 + X6 + X5 <none> X X Call: lm(formula = y ~ X3 + X2 + X8 + X1 + X6 + X5, data = Xy) Coefficients: (Intercept) X3 X2 X8 X1 X6 X completo = lm(y~.,data=xy) vazio = lm(y~1, data=xy) step(completo, scope=list(upper=completo, lower=vazio), direction='backward', trace=true) Start: AIC= y ~ X1 + X2 + X3 + X4 + X5 + X6 + X7 + X8 - X X X <none> X X X X X /62 44/62 file:///users/imac/documents/github/me613-unicamp/me613-unicamp.github.io/aulas/slides/parte11/parte11.html#1 43/62 file:///users/imac/documents/github/me613-unicamp/me613-unicamp.github.io/aulas/slides/parte11/parte11.html#1 44/62
12 Step: AIC= y ~ X1 + X2 + X3 + X5 + X6 + X7 + X8 - X <none> X X X X X X Step: AIC= y ~ X1 + X2 + X3 + X5 + X6 + X8 <none> X X X X X X /62 46/62 file:///users/imac/documents/github/me613-unicamp/me613-unicamp.github.io/aulas/slides/parte11/parte11.html#1 45/62 file:///users/imac/documents/github/me613-unicamp/me613-unicamp.github.io/aulas/slides/parte11/parte11.html#1 46/62 Call: lm(formula = y ~ X1 + X2 + X3 + X5 + X6 + X8, data = Xy) Coefficients: (Intercept) X1 X2 X3 X5 X6 X completo = lm(y~.,data=xy) vazio = lm(y~1, data=xy) step(vazio, scope=list(upper=completo, lower=vazio), direction='both', trace=true) Start: AIC=-75.7 y ~ 1 + X X X X X X <none> X X /62 48/62 file:///users/imac/documents/github/me613-unicamp/me613-unicamp.github.io/aulas/slides/parte11/parte11.html#1 47/62 file:///users/imac/documents/github/me613-unicamp/me613-unicamp.github.io/aulas/slides/parte11/parte11.html#1 48/62
13 Step: AIC= y ~ X3 + X X X X <none> X X X X Step: AIC= y ~ X3 + X2 + X X X X X <none> X X X /62 50/62 file:///users/imac/documents/github/me613-unicamp/me613-unicamp.github.io/aulas/slides/parte11/parte11.html#1 49/62 file:///users/imac/documents/github/me613-unicamp/me613-unicamp.github.io/aulas/slides/parte11/parte11.html#1 50/62 Step: AIC= y ~ X3 + X2 + X8 + X X X <none> X X X X X Step: AIC= y ~ X3 + X2 + X8 + X1 + X <none> X X X X X X X /62 52/62 file:///users/imac/documents/github/me613-unicamp/me613-unicamp.github.io/aulas/slides/parte11/parte11.html#1 51/62 file:///users/imac/documents/github/me613-unicamp/me613-unicamp.github.io/aulas/slides/parte11/parte11.html#1 52/62
14 Step: AIC= y ~ X3 + X2 + X8 + X1 + X6 + X <none> X X X X X X X Step: AIC= y ~ X3 + X2 + X8 + X1 + X6 + X5 <none> X X X X X X X X Call: lm(formula = y ~ X3 + X2 + X8 + X1 + X6 + X5, data = Xy) Coefficients: (Intercept) X3 X2 X8 X1 X6 X /62 54/62 file:///users/imac/documents/github/me613-unicamp/me613-unicamp.github.io/aulas/slides/parte11/parte11.html#1 53/62 file:///users/imac/documents/github/me613-unicamp/me613-unicamp.github.io/aulas/slides/parte11/parte11.html#1 54/62 Introdução Verificar se um modelo candidato tem bom desempenho em dados independentes daqueles usados para ajuste. Coletar novos dados para verificar o modelo e seu poder preditivo. Deixar parte dos dados de fora do ajuste, para usar na validação. Validação de Modelos 56/62 file:///users/imac/documents/github/me613-unicamp/me613-unicamp.github.io/aulas/slides/parte11/parte11.html#1 55/62 file:///users/imac/documents/github/me613-unicamp/me613-unicamp.github.io/aulas/slides/parte11/parte11.html#1 56/62
15 Validação Cruzada Quando temos um grande número de observações, podemos dividir os dados em duas partes: e. Temos 54 observações que não foram utilizadas na escolha do modelo para os dados sobre cirurgia. Este será o conjunto de dados. Com o subconjunto Com o subconjunto ajustamos o modelo. verificamos o poder preditivo do modelo. Com os dados de, obtemos, usando e : Modelo 1: Calculamos o : Usando, temos o Modelo 2: em que é o valor da variável resposta da -ésima observação do conjunto teste, é o valor predito para a -ésima observação do conjunto teste segundo o modelo usando o conjunto treinamento e é o total de observações no conjunto teste. Usando e, temos o Modelo 3: 57/62 58/62 file:///users/imac/documents/github/me613-unicamp/me613-unicamp.github.io/aulas/slides/parte11/parte11.html#1 57/62 file:///users/imac/documents/github/me613-unicamp/me613-unicamp.github.io/aulas/slides/parte11/parte11.html#1 58/62 - Modelo 1 - Modelo 2 dadost <- read.table("./dados/ch09ta05.txt") colnames(dadost) <- c("x1","x2","x3","x4","x5","x6","x7","x8","y","lny") modelo1 <- lm(lny ~ X1 + X2 + X3 + X8,data=dados) yhat <- predict(modelo1,newdata=dadost) MSPR <- function(yhat,yobs){ mean((yobs-yhat)^2) } modelo2 <- lm(lny ~ X1 + X2 + X3 + X5 + X8,data=dados) yhat <- predict(modelo2,newdata=dadost) Variável Estimativa Erro-Padrão Intercepto Variável Estimativa Erro-Padrão Intercepto é e é é e é /62 60/62 file:///users/imac/documents/github/me613-unicamp/me613-unicamp.github.io/aulas/slides/parte11/parte11.html#1 59/62 file:///users/imac/documents/github/me613-unicamp/me613-unicamp.github.io/aulas/slides/parte11/parte11.html#1 60/62
16 - Modelo 3 Leitura modelo3 <- lm(lny ~ X1 + X2 + X3 + X5 + X6 + X8,data=dados) yhat <- predict(modelo3,newdata=dadost) Variável Estimativa Erro-Padrão Intercepto Applied Linear Statistical Models: Capítulo 9. Faraway - Linear Models with R: Capítulo 10 Draper & Smith - Applied Regression Analysis: Capítulo 15. Tutorial: Model Selection in R bestglm é e é /62 62/62 file:///users/imac/documents/github/me613-unicamp/me613-unicamp.github.io/aulas/slides/parte11/parte11.html#1 61/62 file:///users/imac/documents/github/me613-unicamp/me613-unicamp.github.io/aulas/slides/parte11/parte11.html#1 62/62
ME613 - Análise de Regressão
ME613 - Análise de Regressão Parte 12 Gráficos de Regressão Parcial Samara F. Kiihl - IMECC - UNICAMP file:///users/imac/documents/github/me613-unicamp/me613-unicamp.github.io/aulas/slides/parte12/parte12.html#1
Seleção de Variáveis e Construindo o Modelo
Seleção de Variáveis e Construindo o Modelo Seleção de modelos candidatos A idéia é selecionar um conjunto menor de variáveis explanatórias de acordo com algum(s) critério(s), e assim selecionar o modelo
Disciplina de Modelos Lineares
Disciplina de Modelos Lineares 2012-2 Seleção de Variáveis Professora Ariane Ferreira Em modelos de regressão múltipla é necessário determinar um subconjunto de variáveis independentes que melhor explique
UNIVERSIDADE FEDERAL DA FRONTEIRA SUL Campus CERRO LARGO. PROJETO DE EXTENSÃO Software R: de dados utilizando um software livre.
UNIVERSIDADE FEDERAL DA FRONTEIRA SUL Campus CERRO LARGO PROJETO DE EXTENSÃO Software R: Capacitação em análise estatística de dados utilizando um software livre. Fonte: https://www.r-project.org/ Módulo
ME613 - Análise de Regressão
ME613 - Análise de Regressão Parte 2 Propriedades dos estimadores Samara F. Kiihl - IMECC - UNICAMP Suposições do modelo de regressão linear simples Suposições do modelo de regressão linear simples Até
SELEÇÃO DE VARIÁVEIS
SELEÇÃO DE VARIÁVEIS objetivo incluir tantas covariáveis quantas forem necessárias para auxiliar na predição do modelo? (1) buscar o menor subconjunto de covariáveis capaz de explicar adequadamente a variação
BIE5782. Unidade 7: INTRODUÇÃO AOS MODELOS LINEARES
BIE5782 Unidade 7: INTRODUÇÃO AOS MODELOS LINEARES ROTEIRO 1.Motivação 2. Método dos mínimos quadrados 3. Ajuste no R: função lm 4. Resultado no R: objeto lm 5. Premissas, interpretação e diagnóstico 6.
Teste F-parcial 1 / 16
Teste F-parcial A hipótese nula, H 0, define o modelo restrito. Ingredientes SQR r : soma de quadrado dos resíduos sob H 0. R 2 r: coeficiente de determinação sob H 0. g: número de restrições a serem testadas
Teste F-parcial 1 / 16
Teste F-parcial Ingredientes A hipótese nula, H 0, define o modelo restrito. A hipótese alternativa, H a : H 0 é falsa, define o modelo irrestrito. SQR r : soma de quadrado dos resíduos associada à estimação
Capacitação em R e RStudio PROJETO DE EXTENSÃO. Software R: capacitação em análise estatística de dados utilizando um software livre.
UFFS Universidade Federal da Fronteira Sul Campus Cerro Largo PROJETO DE EXTENSÃO Software R: capacitação em análise estatística de dados utilizando um software livre Fonte: https://www.r-project.org/
b) Teste a hipótese de efeito significante do tamanho da população sobre a venda do produto, na presença de renda per capita
Exemplo 1 (continuação a Estime por intervalo de 95% de confiança, o aumento do número médio de lotes vendidos devido a 1000 pessoas a mais na população, mantendo a renda per capita fixa b Teste a hipótese
MRLM COM COVARIÁVEIS CATEGÓRICAS. criar uma variável dummy para representar uma categoria da variável. variável dummy: assume só dois valores: 0 ou 1
MRLM COM COVARIÁVEIS CATEGÓRICAS Como quantificar o efeito das categorias de uma variável sobre a resposta Y? (exemplo: efeito de sexo masculino/feminino sobre salário) criar uma variável dummy para representar
MEDIÇÃO DA QUALIDADE DO VINHO BRANCO NORTE PORTUGUÊS
Universidade Federal do Paraná Departamento de Estatística MEDIÇÃO DA QUALIDADE DO VINHO BRANCO NORTE PORTUGUÊS CE225 - Modelos Lineares Generalizados Francielle Przibiciem de Mattos GRR20124686 Guilherme
ME613 - Análise de Regressão
ME613 - Análise de Regressão Parte 12 Regressão Não-Linear Samara F. Kiihl - IMECC - UNICAMP file:///users/imac/documents/github/me613-unicamp/me613-unicamp.github.io/aulas/slides/parte13/parte13.html#1
Gabarito Lista 2 LES0773 Estatística III. Os resultados dessa regressão são apresentados na seguinte tabela:
Gabarito Lista 2 LES0773 Estatística III Exercício 1) Utilizando a ferramenta Análise de Dados e a sua função Regressão, foi realizada uma regressão levando em consideração os gastos com PD como variável
Disciplina de Modelos Lineares Professora Ariane Ferreira
Disciplina de Modelos Lineares 2012-2 Regressão Logística Professora Ariane Ferreira O modelo de regressão logístico é semelhante ao modelo de regressão linear. No entanto, no modelo logístico a variável
Multicolinariedade e Autocorrelação
Multicolinariedade e Autocorrelação Introdução Em regressão múltipla, se não existe relação linear entre as variáveis preditoras, as variáveis são ortogonais. Na maioria das aplicações os regressores não
Estudar a relação entre duas variáveis quantitativas.
Estudar a relação entre duas variáveis quantitativas. Exemplos: Idade e altura das crianças Tempo de prática de esportes e ritmo cardíaco Tempo de estudo e nota na prova Taxa de desemprego e taxa de criminalidade
Regressão linear múltipla
Regressão linear múltipla Universidade Estadual de Santa Cruz Ivan Bezerra Allaman Introdução A regressão múltipla é uma generalização da regressão simples, visto que, há mais de uma variável explicativa
i j i i Y X X X i j i i i
Mario de Andrade Lira Junior lira.pro.br\wordpress lira.pro.br\wordpress Diferença Regressão - equação ligando duas ou mais variáveis Correlação medida do grau de ligação entre duas variáveis Usos Regressão
Variável dependente Variável independente Coeficiente de regressão Relação causa-efeito
Unidade IV - Regressão Regressões Lineares Modelo de Regressão Linear Simples Terminologia Variável dependente Variável independente Coeficiente de regressão Relação causa-efeito Regressão correlação Diferença
BIOESTATÍSTICA. Análise de regressão
BIOESTATÍSTICA Análise de regressão Análise de correlação Existe uma associação estatística entre duas variáveis? As duas variáveis são independentes ( ou seja, qual o grau da variação das duas juntas)?
Regressão. PRE-01 Probabilidade e Estatística Prof. Marcelo P. Corrêa IRN/Unifei
Regressão PRE-01 Probabilidade e Estatística Prof. Marcelo P. Corrêa IRN/Unifei Regressão Introdução Analisar a relação entre duas variáveis (x,y) através da equação (equação de regressão) e do gráfico
Modelos de Regressão Múltipla - Parte VII
1 Modelos de Regressão Múltipla - Parte VII Erica Castilho Rodrigues 26 de Janeiro de 2016 2 3 Vimos como ajustar um modelo não linear fazendo transformações das variáveis, como, por exemplo Y = exp{β
Análise de Regressão Linear no Pacote R
Universidade Federal de Minas Gerais Instituto de Ciências Exatas Departamento de Estatística Análise de Regressão Linear no Pacote R Gabriela Domingues do Amaral Vanessa Loureiro Silva Edna Afonso Reis
Introdução Regressão linear Regressão de dados independentes Regressão não linear. Regressão. Susana Barbosa
Regressão Susana Barbosa Mestrado em Ciências Geofísicas 2012-2013 Regressão linear x : variável explanatória y : variável resposta Gráfico primeiro! Gráfico primeiro! Gráfico primeiro! Modelo linear x
Planejamento de Experimentos
Planejamento de Experimentos 6. Os Modelos fatoriais 2 k Trataremos agora de um caso especial de experimentos fatoriais no qual todos os fatores têm apenas dois níveis. Tais níveis podem ser quantitativos
Regressão linear múltipla
Pós-Graduação em Agronomia - CPGA-Solos Análise Multivariada Aplicada as Ciências Agrárias Regressão linear múltipla Carlos Alberto Alves Varella Objetivo da disciplina Ensinar modelagem estatística de
Lista de Exercicios 3
Departamento de Física é Matemática. USP-RP. Prof. Rafael A. Rosales 3 de junho de 2009 Lista de Exercicios 3 ANOVA. Regressão Linear Simples Exercício 77. Três diferentes bancos possuem agências de mesmo
Modelos de Regressão Linear Simples - Erro Puro e Falta de Ajuste
Modelos de Regressão Linear Simples - Erro Puro e Falta de Ajuste Erica Castilho Rodrigues 2 de Setembro de 2014 Erro Puro 3 Existem dois motivos pelos quais os pontos observados podem não cair na reta
1 semestre de 2014 Gabarito Lista de exercícios 3 - Estatística Descritiva III C A S A
Exercício 1. (1,0 ponto). A tabela a seguir mostra o aproveitamento conjunto em Física e Matemática para os alunos do ensino médio de uma escola. Notas Notas Notas Física/Matemática Altas Regulares Baixas
Testes de cointegração
Testes de cointegração Avaliando a existência de relação de conintegração entre séries temporais Wilson Freitas Quant Developer Recursos index.rmd 2/13 Teste de Engle & Granger (EG) Teste de Engle & Granger
Relatório do Experimento 1 Sistema Massa - Mola. Fernando Henrique Ferraz Pereira da Rosa
FEP0111 - Física I Relatório do Experimento 1 Sistema Massa - Mola Fernando Henrique Ferraz Pereira da Rosa 4 de novembro de 2005 Sumário 1 Introdução 2 2 Objetivos 2 3 Procedimento experimental 2 3.1
UNIVERSIDADE FEDERAL DO RIO GRANDE Instituto de Matemática, Estatística e Física Programa de Pós-Graduação em Modelagem Computacional
UNIVERSIDADE FEDERAL DO RIO GRANDE Instituto de Matemática, Estatística e Física Programa de Pós-Graduação em Modelagem Computacional MINICURSO DE CORRELAÇÃO, REGRESSÃO LINEAR SIMPLES E ANOVA Ministrantes:
Módulo 16- Análise de Regressão
Módulo 6 Análise de Regressão Módulo 6- Análise de Regressão Situação Problema Um grupo de investidores estrangeiros deseja aumentar suas atividades no Brasil. Considerando a conjuntura econômica de moeda
Modelos Lineares Generalizados
unificação metodológica Alexandre Adalardo de Oliveira PlanECO 2017 1 of 43 03/29/2017 11:47 AM Conceitos estrutura do erro preditora linear função de ligação 2 of 43 03/29/2017 11:47 AM Função de ligação
Predição do preço médio anual do frango por intermédio de regressão linear
Predição do preço médio anual do frango por intermédio de regressão linear João Flávio A. Silva 1 Tatiane Gomes Araújo 2 Janser Moura Pereira 3 1 Introdução Visando atender de maneira simultânea e harmônica
9 Correlação e Regressão. 9-1 Aspectos Gerais 9-2 Correlação 9-3 Regressão 9-4 Intervalos de Variação e Predição 9-5 Regressão Múltipla
9 Correlação e Regressão 9-1 Aspectos Gerais 9-2 Correlação 9-3 Regressão 9-4 Intervalos de Variação e Predição 9-5 Regressão Múltipla 1 9-1 Aspectos Gerais Dados Emparelhados há uma relação? se há, qual
Lista de Exercícios Estatística 2 CE003 Prof. Leonardo Melo
Lista de Exercícios Estatística 2 CE003 Prof. Leonardo Melo 1. Um fabricante de lajotas de cerâmica introduz um novo material em sua fabricação e acredita que aumentará a resistência média, que atualmente
DCBD. Avaliação de modelos. Métricas para avaliação de desempenho. Avaliação de modelos. Métricas para avaliação de desempenho...
DCBD Métricas para avaliação de desempenho Como avaliar o desempenho de um modelo? Métodos para avaliação de desempenho Como obter estimativas confiáveis? Métodos para comparação de modelos Como comparar
Estatística Aplicada II. } Regressão Linear
Estatística Aplicada II } Regressão Linear 1 Aula de hoje } Tópicos } Regressão Linear } Referência } Barrow, M. Estatística para economia, contabilidade e administração. São Paulo: Ática, 007, Cap. 7
REGRESSÃO LINEAR Parte I. Flávia F. Feitosa
REGRESSÃO LINEAR Parte I Flávia F. Feitosa BH1350 Métodos e Técnicas de Análise da Informação para o Planejamento Julho de 2015 Onde Estamos Para onde vamos Inferência Esta5s6ca se resumindo a uma equação
Modelos de Regressão Linear Simples - parte II
Modelos de Regressão Linear Simples - parte II Erica Castilho Rodrigues 14 de Outubro de 2013 Erros Comuns que Envolvem a Análise de Correlação 3 Erros Comuns que Envolvem a Análise de Correlação Propriedade
Análise Multivariada Aplicada à Contabilidade
Mestrado e Doutorado em Controladoria e Contabilidade Análise Multivariada Aplicada à Contabilidade Prof. Dr. Marcelo Botelho da Costa Moraes www.marcelobotelho.com [email protected] Turma: 2º / 2016 1 Agenda
CE062c José Luiz Padilha da Silva e Cesar Augusto Taconeli 13 de setembro de 2018
CE062c José Luiz Padilha da Silva e Cesar Augusto Taconeli 13 de setembro de 2018 Examplo usando gamlssnp(): dados de cérebros de animais O tamanho do cérebro (brain) e peso corporal (body) foram registrados
Modelo Linear Generalizado Distribuição de Poisson
Valeska Andreozzi 1 Modelo Linear Generalizado Distribuição de Poisson Problema 1 O objetivo desta aula é exemplificar a modelagem de dados de contagem. Vamos ilustrar como os modelos lineares generalizados
Regressão linear simples
Regressão linear simples Universidade Estadual de Santa Cruz Ivan Bezerra Allaman Introdução Foi visto na aula anterior que o coeficiente de correlação de Pearson é utilizado para mensurar o grau de associação
Seção 2.6 Duas Variáveis Quantitativas: Regressão Linear
Seção 2.6 Duas Variáveis Quantitativas: Regressão Linear A Reta de Regressão Predições Resíduos Sumário Interpretando a Inclinação e o Intercepto Cuidados com a Regressão Grilos e Temperatura Você pode
Módulo 16- Análise de Regressão
Módulo 16 Análise de Regressão 1 Módulo 16- Análise de Regressão Situação Problema Um grupo de investidores estrangeiros deseja aumentar suas atividades no Brasil. Considerando a conjuntura econômica de
A Metodologia de Box & Jenkins
A Metodologia de Box & Jenins Aula 03 Bueno, 0, Capítulo 3 Enders, 009, Capítulo Morettin e Toloi, 006, Capítulos 6 a 8 A Metodologia Box & Jenins Uma abordagem bastante utilizada para a construção de
Comparando equações de regressão em dados de saúde
Comparando equações de regressão em dados de saúde Terezinha Aparecida Guedes*, Ivan Ludgero Ivanqui e Ana Beatriz Tozzo Martins Departamento de Estatística, Universidade Estadual de Maringá, Av Colombo,
AMOSTRAGEM COMPLEXA. Bases de Dados IAN-AF Tutorial para análise ponderada recorrendo aos softwares SPSS e R
AMOSTRAGEM COMPLEXA Bases de Dados IAN-AF Tutorial para análise ponderada recorrendo aos softwares SPSS e R 1 Conteúdo Nota introdutória... 3 1. Software SPSS... 4 2. Software R... 16 Referências [1] R
Regressão linear múltipla - Correlação parcial
Regressão linear múltipla - Correlação parcial trigo Matriz de correlações: trigo % matéria orgânica 40 103 32 1 58 192 45 28 50 300 39 5 72 420 46 11 61 510 34 14 69 630 38 2 63 820 32 12 % matéria orgânica
ANÁLISE DE REGRESSÃO
ANÁLISE DE REGRESSÃO Lucas Santana da Cunha http://www.uel.br/pessoal/lscunha/ Universidade Estadual de Londrina 09 de janeiro de 2017 Introdução A análise de regressão consiste na obtenção de uma equação
θ depende de um parâmetro desconhecido θ.
73 Método de Máxima Verosimilhança (Maximum Likelihood) Seja uma variável aleatória (v. a.) cuja densidade de probabilidade depende de um parâmetro desconhecido. Admite-se conhecida a forma de Exemplo
Estatística II Licenciatura em Gestão TESTE I
Estatística II Licenciatura em Gestão 1 o semestre 2015/2016 14/01/2016 09:00 Nome N o Espaço reservado a classificações A utilização do telemóvel, em qualquer circunstância, é motivo suficiente para a
4 Modelos Lineares Generalizados
4 Modelos Lineares Generalizados Neste capítulo, serão apresentados arcabouços teóricos dos modelos lineares generalizados (MLGs) e como casos particulares desses modelos são aplicáveis ao problema da
Escola Superior de Agricultura Luiz de Queiroz Universidade de São Paulo
Escola Superior de Agricultura Luiz de Queiroz Universidade de São Paulo Regressão Polinomial e Análise da Variância Piracicaba Setembro 2014 Estatística Experimental 18 de Setembro de 2014 1 / 20 Vimos
Estatística Descritiva (III) Associação entre Variáveis
Estatística Descritiva (III) Associação entre Variáveis 1 Associação entre variáveis qualitativas Tabelas de Contingência 2 Podemos construir tabelas de frequências conjuntas (tabelas de contingência),
Correlação e Regressão Linear
Correlação e Regressão Linear Prof. Marcos Vinicius Pó Métodos Quantitativos para Ciências Sociais CORRELAÇÃO LINEAR Coeficiente de correlação linear r Mede o grau de relacionamento linear entre valores
REGRESSÃO LINEAR SIMPLES E MÚLTIPLA
REGRESSÃO LINEAR SIMPLES E MÚLTIPLA Curso: Agronomia Matéria: Metodologia e Estatística Experimental Docente: José Cláudio Faria Discente: Michelle Alcântara e João Nascimento UNIVERSIDADE ESTADUAL DE
Análise de Regressão Linear Simples e
Análise de Regressão Linear Simples e Múltipla Carla Henriques Departamento de Matemática Escola Superior de Tecnologia de Viseu Introdução A análise de regressão estuda o relacionamento entre uma variável
Associação entre duas variáveis
Associação entre duas variáveis Questões de interesse: Será que duas variáveis são independentes ou pelo contrário dependentes? E se forem dependentes, qual o tipo e grau de dependência? Existem diversas
Esse material foi extraído de Barbetta (2007 cap 13)
Esse material foi extraído de Barbetta (2007 cap 13) - Predizer valores de uma variável dependente (Y) em função de uma variável independente (X). - Conhecer o quanto variações de X podem afetar Y. Exemplos
Ralph S. Silva
ANÁLISE ESTATÍSTICA MULTIVARIADA Ralph S Silva http://wwwimufrjbr/ralph/multivariadahtml Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Sumário Revisão:
Modelo de Regressão Múltipla
Modelo de Regressão Múltipla Modelo de Regressão Linear Simples Última aula: Y = α + βx + i i ε i Y é a variável resposta; X é a variável independente; ε representa o erro. 2 Modelo Clássico de Regressão
Planejamento de Experimentos
Planejamento de Experimentos 1 6.4 Os Modelos fatoriais 2 k : o caso geral. O modelo estatístico para um plano 2 k inclui k ( k 2 ( k ) ) efeitos principais efeitos de interação de ordem 2 efeitos de interação
aula ANÁLISE DO DESEMPENHO DO MODELO EM REGRESSÕES
ANÁLISE DO DESEMPENHO DO MODELO EM REGRESSÕES 18 aula META Fazer com que o aluno seja capaz de realizar os procedimentos existentes para a avaliação da qualidade dos ajustes aos modelos. OBJETIVOS Ao final
Avaliando Hipóteses. George Darmiton da Cunha Cavalcanti Tsang Ing Ren CIn/UFPE
Avaliando Hipóteses George Darmiton da Cunha Cavalcanti Tsang Ing Ren CIn/UFPE Pontos importantes Erro da Amostra e Erro Real Como Calcular Intervalo de Confiança Erros de hipóteses Estimadores Comparando
