1 AULA 5 - REGRESSÃO LOGÍSTICA BINOMIAL
|
|
|
- Nelson Lameira Beppler
- 9 Há anos
- Visualizações:
Transcrição
1 1 AULA 5 - REGRESSÃO LOGÍSTICA BINOMIAL 1.1 Tabela de contingência A base de dados que vamos utilizar são os dados do estudo caso-controle em que os casos foram mulheres com infertilidade e os controles, mulheres não doentes. Os fatores de risco a serem analisados são a paridade, os abortos espontâneos e induzidos e a escolaridade. Fizemos a análise exploratória dessa base de dados (infert) na aula 2. Agora, vamos fazer a análise dessa base de dados pensando em medidas de associação. Nessa análise, é necessário criar tabelas de contingência, calcular as medidas de associação e o teste de X 2. Importar base de dados >data(infert) Visualizar base de dados > infert[1:10,1:6] education age parity induced case spontaneous 1 0-5yrs yrs yrs yrs yrs yrs yrs yrs yrs yrs
2 A primeira tabela de contingência deverá conter os casos (=mulheres com infertilidade) e controles (=mulheres sem infertilidade) em função da exposição (=paridade igual a 1) e não-exposição (=paridade de 2 a 6 filhos). Aplica-se a regra de indexação por meio de operadores lógicos (p. ex., ==, ou seja, semelhante à) para obter essas informações da base de dados infert. Essas informações são fundamentais para montar a tabela de contingência (Tabela 1). Calcular casos e controles expostos >table(infert$case[infert$parity == 1]) Calcular casos e controles não-expostos >table(infert$case[infert$parity > 1]) Criar vetor de caselas >casela <- c(33, 66, 50, 99) Construir a tabela de contingência >tab1 <- matrix(casela, 2, 2, byrow = T) Nomear linhas >rownames(tab1) <- c( Paridade = 1, Paridade = 2-6 ) Nomear colunas >colnames(tab1) <- c( Caso = 1 (doentes), Caso = 0 (não-doentes) ) Tabela 1: Casos e controles expostos ou não segundo paridade. Paridade (# de filhos) Caso = 1 (doentes) Caso = 0 (não-doentes) Para estimar a razão de chances de se tornar doente segundo paridade, deve ser calculada a odds ratio por meio da divisão dos produtos cruzados na tabela de contingência. Realiza-se o teste de X 2 para verificar a significância estatística dessa associação. 2
3 Estimar a odds ratio > OR1<-(33*99) / (50*66) [1] 0.99 Calcular o teste de X 2 Pearson s Chi-squared test with Yates continuity correction data: tab1 X-squared = , df = 1, p-value = A odds ratio foi estimada em 0.99 com teste de X 2 calculado em 0.01 (p = 0.92). Portanto, os casos não estão associados à paridade. Para montar a segunda tabela de contingência (Tabela 2), faz-se necessário repetir o mesmo procedimento realizado anteriormente considerando as categorias da variável educação (=education). Calcular casos e controles na categoria de educação 0-5yrs >table(infert$case[infert$education == "0-5yrs"]) Calcular casos e controles na categoria de educação 6-11yrs >table(infert$case[infert$education == "6-11yrs"]) Calcular casos e controles na categoria de educação 12+ yrs >table(infert$case[infert$education == "12+ yrs"]) Criar vetor de caselas >casela <- c(4, 8, 40, 80, 39, 77) Construir a tabela de contingência >tab2 <- matrix(casela, 3, 2, byrow = T) Nomear linhas >rownames(tab2) <- c( Educação = 0-5, Educação = 6-11, Educação = 12+ ) Nomear colunas >colnames(tab2) <- c( Caso = 1 (doentes), Caso = 0 (não-doentes) ) 3
4 Tabela 2: Casos e controles expostos ou não segundo educação. Educação (anos) Caso = 1 (doentes) Caso = 0 (não-doentes) Para estimar a odds ratio e calcular o teste de X 2, vamos dividir a tabela de contingência de interesse (Tabela 2) em duas considerando a categoria de educação 12 + como baseline. Criar vetor de caselas >casela <- c(4, 8, 39, 77) Construir a tabela de contingência 2a >tab2a <- matrix(casela, 2, 2, byrow = T) Nomear linhas >rownames(tab2a) <- c( Educação = 0-5, Educação = 12+ ) Nomear colunas >colnames(tab2a) <- c( Caso = 1 (doentes), Caso = 0 (não-doentes) ) Criar vetor de caselas >casela <- c(40, 80, 39, 77) Construir a tabela de contingência 2b >tab2b <- matrix(casela, 2, 2, byrow = T) Nomear linhas >rownames(tab2b) <- c( Educação = 6-11, Educação = 12+ ) Nomear colunas >colnames(tab2b) <- c( Caso = 1 (doentes), Caso = 0 (não-doentes) ) 4
5 Podemos, agora, estimar a odds ratio e calcular o teste de X 2 para as tabelas de contingência tab2a e tab2b. Ver a tabela tab2a > tab2a Caso = 1 (doentes) Caso = 0 (não-doentes) Educação = Educação = Estimar a odds ratio > OR2a <- (4 * 77) / (8 * 39) [1]0.99 Calcular o teste de X 2 >chisq.test(tab2a) Pearson s Chi-squared test with Yates continuity correction data: tab2a X-squared = , df = 1, p-value = Warning message: In chisq.test(tab2a) : Chi-squared approximation may be incorrect Ver a tabela tab2b > tab2b Caso = 1 (doentes) Caso = 0 (não-doentes) Educação = Educação = Estimar a odds ratio > OR2b <- (40 * 77) / (80 * 39) [1]0.99 5
6 Calcular o teste de X 2 >chisq.test(tab2b) Pearson s Chi-squared test with Yates continuity correction data: tab2b X-squared = , df = 1, p-value = As estimativas de odds ratio foram idênticas (=0.99) e os valores dos testes dex 2 foram, respectivamente, 0.09(p = 0.76) e 0.01(p = 0.93) para as duas tabelas (tab2a e tab2b). Assim, os casos de infertilidade não estão associados à educação. Finalmente, vamos montar a última tabela de contingência (Tabela 3) na qual associaremos os casos com os abortos espontâneos e induzidos. Nesse caso, precisamos conhecer o outro operador lógico de indexação & que representa a combinação de dois eventos. Para saber, por exemplo, a frequência de casos e controles segundo a ocorrência de aborto espontâneo e a não-ocorrência de aborto induzido, aplicamos o seguinte comando: > table(infert$case[infert$spontaneous > 0 & infert$induced == 0]) Podemos aplicar essa mesma estrutura de comando para obter as seguintes informações esssenciais para a montagem da tabela de contingência (Tabela 3). Calcular casos e controles segundo aborto induzido >table(infert$case[infert$spontaneous == 0 & infert$induced > 0]) Calcular casos e controles segundo ambos abortos >table(infert$case[infert$spontaneous > 0 & infert$induced > 0]) Calcular casos e controles em nenhum dos abortos >table(infert$case[infert$spontaneous == 0 & infert$induced == 0]) Criar vetor de caselas 6
7 >casela <- c(40, 36, 21, 53, 15, 16, 7, 60) Construir a tabela de contingência >tab3 <- matrix(casela, 4, 2, byrow = T) Nomear linhas >rownames(tab3) <- c( Espontâneo, Induzido, Ambos, Nenhum ) Nomear colunas >colnames(tab3) <- c( Caso = 1 (doentes), Caso = 0 (não-doentes) ) Tabela 3: Casos e controles expostos ou não segundo abortos espontâneo e induzido. Aborto (tipo de aborto) Caso = 1 (doentes) Caso = 0 (não-doentes) Espontâneo Induzido Ambos Nenhum 7 60 Para estimar a odds ratio e calcular o teste de X 2, vamos dividir a tabela de contingência de interesse (Tabela 3) em três considerando a categoria de aborto Nenhum como baseline. Criar vetor de caselas >casela <- c(40, 36, 7, 60) Construir a tabela de contingência 3a >tab3a <- matrix(casela, 2, 2, byrow = T) Nomear linhas >rownames(tab3a) <- c( Espontâneo, Nenhum ) Nomear colunas >colnames(tab3a) <- c( Caso = 1 (doentes), Caso = 0 (não-doentes) ) Criar vetor de caselas >casela <- c(21, 53, 7, 60) 7
8 Construir a tabela de contingência 3b >tab3b <- matrix(casela, 2, 2, byrow = T) Nomear linhas >rownames(tab3b) <- c( Induzido, Nenhum ) Nomear colunas >colnames(tab3b) <- c( Caso = 1 (doentes), Caso = 0 (não-doentes) ) Criar vetor de caselas >casela <- c(15, 16, 7, 60) Construir a tabela de contingência 3c >tab3c <- matrix(casela, 2, 2, byrow = T) Nomear linhas >rownames(tab3c) <- c( Ambos, Nenhum ) Nomear colunas >colnames(tab3c) <- c( Caso = 1 (doentes), Caso = 0 (não-doentes) ) Podemos, agora, estimar a odds ratio e calcular o teste de X 2 para as tabelas de contingência tab3a, tab3b e tab3c. Ver a tabela tab3a > tab3a Caso = 1 (doentes) Caso = 0 (não-doentes) Espontâneo Nenhum 7 60 Estimar a odds ratio > OR3a <- (40 * 60) / (7 * 36) [1]9.52 Calcular o teste de X 2 8
9 >chisq.test(tab3a) Pearson s Chi-squared test with Yates continuity correction data: tab3a X-squared = , df = 1, p-value = 2.213e-07 Ver a tabela tab3b > tab3b Caso = 1 (doentes) Caso = 0 (não-doentes) Induzido Nenhum 7 60 Estimar a odds ratio > OR3b <- (21 * 60) / (7 * 53) [1]3.40 Calcular o teste de X 2 >chisq.test(tab3b) Pearson s Chi-squared test with Yates continuity correction data: tab3b X-squared = , df = 1, p-value = Ver a tabela tab3c > tab3c Caso = 1 (doentes) Caso = 0 (não-doentes) Ambos Nenhum 7 60 Estimar a odds ratio > OR3c <- (15 * 60) / (7 * 16) 9
10 [1]8.04 Calcular o teste de X 2 >chisq.test(tab3c) Pearson s Chi-squared test with Yates continuity correction data: tab3c X-squared = , df = 1, p-value = 8.646e-05 As estimativas de odds ratio foram 9.53, 3.40 e 8.04 e valores dos testes dex 2 foram (p < 0.001), 6.02 (p = 0.01) e 15.41(p < 0.001) para as, respectivamente, tabelas tab3a, tab3b e tab3c. Assim, os casos de infertilidade estão associados aos abortos. Entretanto, faz-se necessário considerar os intervalos de confiança dessas estimativas. Além disso, seria interessante considerarmos os efeitos dos abortos (nos casos de infertilidade) ajustados por paridade e educação. Essas pendências podem ser resolvidas na próxima etapa que é a de modelos de regressão logística binomial. 1.2 Modelo de regressão logística Este modelo pertence à classe de modelos conhecidos por GLM (Generalized Linear Models) (McCullagh e Nelder 1, 1989). No modelo de regressão logística binomial, a variável dependente y é um evento binário (p. ex., caso = 1 e caso = 0) em que a probabilidade de y = 1 é dada por meio da seguinte equação: P rob(y = 1) = ea+xb 1 + e a+xb onde x é a variável independente e a, b são os coeficientes de regressão β 0, β 1. 10
11 Uma importante derivação é que essa equação tem equivalência com o cálculo da odds ratio: = e (a+xb) em que a exponencial do coeficiente de regressão b(= β 1 ) é idêntica a estimativa da odds ratio realizada por meio da divisão dos produtos cruzados na tabela de contingência. OR(x) = exp(β) O primeiro passo do processo de modelagem é fazer a análise univariada. Vamos fazer essa análise, primeiramente, para a variável paridade. Para tanto, vamos conhecer a função glm() que nos permite elaborar esses modelos univariados. Por exemplo, vamos criar o modelo glm1 (glm1 <- glm(... )) em que os casos estão em função de paridade (case parity) da base de dados infert (data = infert) no modelo logístico binomial (family=binomial): >glm1<-glm(case parity, data = infert, family=binomial) > summary(glm1) Call: glm(formula = case parity, family = binomial, data = infert) Deviance Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) ** parity Signif. codes: 0 *** ** 0.01 *
12 (Dispersion parameter for binomial family taken to be 1) Null deviance: on 247 degrees of freedom Residual deviance: on 246 degrees of freedom AIC: Number of Fisher Scoring iterations: 4 Há dois problemas com o modelo glm1. Primeiro, a variável independente não é dicotômica na base de dados original. Segundo, o output da função summary() não é epidemiológico. Para resolver esses dois problemas, vamos, primeiro, criar uma nova base de dados (infert2 ) a qual conterá somente variáveis dicotômicas e, segundo, instalar e carregar o pacote epicalc para utilizar a função logistic.display() (=output epidemiológico). Criar variável dummy de paridade > par1 <- as.numeric(infert$parity == 1) > table(par1) Criar nova base de dados infert2 > infert2 <- data.frame(infert$case, par1) > colnames(infert2) <- c( Casos, Par1 ) Instalar e carregar pacote epicalc > install.packages("epicalc") >require(epicalc) 12
13 Criar novo glm1 > glm1 <- glm(casos ) Par1, data = infert2, family = binomial > logistic.display(glm1) Logistic regression predicting case OR(95%CI) P(Wald s test) P(LR-test) Par1: 1 vs (0.5776,1.6967) Log-likelihood = No. of observations = 248 AIC value = Perceba que a estimativa de odds ratio de 0.99 é idêntica àquela obtida com os dados da Tabela 1. Além disso, obtemos o intervalo de confiança de 95% (0.58, 1.70) dessa estimativa e o valor de p (=0.971) do coeficiente β 1 no teste de Wald. Assim como foi visto anteriormente, os casos não estão associados à paridade. Vamos repetir esses procedimentos para os modelos glm2 e glm3 em que os casos estão em função dos abortos e das categorias de educação, respectivamente. Criar variáveis dummy dos abortos > ab1<-as.numeric(infert$spontaneous > 0 & infert$induced == 0) > ab2<-as.numeric(infert$spontaneous == 0 & infert$induced > 0) > ab3<-as.numeric(infert$spontaneous > 0 & infert$induced > 0) Adicionar essas variáveis à nova base de dados infert2 > infert2 <- data.frame(infert$case, par1, ab1, ab2, ab3) > colnames(infert2) <- c( Casos, Par1, ab1, ab2, ab3 ) Criar glm2 > glm2 <- glm(casos ) ab1 + ab2 + ab3, data = infert2, family = binomial 13
14 > logistic.display(glm2) Logistic regression predicting case crude OR(95%CI) adj. OR(95%CI) P(Wald s test) ab1: 1 vs (1.89,5.88) 9.52 (3.86,23.5) <0.001 ab2: 1 vs (0.4,1.3) 3.4 (1.34,8.62) 0.01 ab3: 1 vs (0.96,4.39) 8.04 (2.8,23.03) <0.001 Log-likelihood = No. of observations = 248 AIC value = As estimativas ajustadas das odds ratio equivalem àquelas obtidas com os dados da Tabela 3. Isso porque esse modelo (glm2), na verdade, não é univariado porque possui 3 variáveis independentes. Como já foi visto, os casos estão associados aos abortos espontâneo (9.52; IC95% = 3.86, 23.5), induzido (3.4; IC95% = 1.34, 8.62) e ambos (8.04; IC95% = 2.8, 23.03). Finalmente, vamos fazer o mesmo procedimento para o modelo glm3. Criar variáveis dummy das categorias de educação > ed1<-as.numeric(infert$education == "0-5yrs") > ed2<-as.numeric(infert$education == "6-11yrs") Adicionar essas variáveis à nova base de dados infert2 > infert2 <- data.frame(infert$case, par1, ab1, ab2, ab3, ed1, ed2) > colnames(infert2) <- c( Casos, Par1, ab1, ab2, ab3, ed1, ed2 ) 14
15 Criar glm3 > glm3 <- glm(casos ) ed1 + ed2, data = infert2, family = binomial > logistic.display(glm3) Logistic regression predicting case crude OR(95%CI) adj. OR(95%CI) P(Wald s test) ed1: 1 vs (0.29,3.4) 0.99 (0.28,3.48) ed2: 1 vs (0.58,1.68) 0.99 (0.57,1.7) Log-likelihood = No. of observations = 248 AIC value = As estimativas de odds ratio são iguais àquelas obtidas com os dados da Tabela 2. Como foi visto anteriormente, os casos não estão associados à educação. Vamos comparar todos os modelos para cada variável independente (Tabela 4). Os abortos 1, 2 e 3 são variáveis independentes estatisticamente significantes, enquanto que os casos de infertilidade não estão associados à paridade, educação 1 e 2. Tabela 4: Resultados dos modelos para cada variável em infert2. Modelos Fórmula OR (IC.95) P (teste de Wald) GLM1 case paridade 0.99 (0.58,1.70) GLM2 case aborto (3.86,23.5) <0.001 aborto (1.34,8.62) 0.01 aborto (2.8,23.03) <0.001 GLM3 case educação (0.28,3.48) educação (0.57,1.7)
16 Embora não estejam associadas com os casos de infertilidade, as variáveis independentes educação 1 e 2 e paridade podem ser variáveis de ajuste para as estimativas de odds ratio dos abortos. Portanto, vamos criar os modelos múltiplos glm4 e glm5. Criar glm4 > glm4 <- glm(casos ab1 + ab2 + ab3 + ed1 + ed2, data = infert2, family = binomial) > logistic.display(glm4) Logistic regression predicting case crude OR(95%CI) adj. OR(95%CI) P(Wald s test) ab1: 1 vs (1.89,5.88) (4.12,26.13) < ab2: 1 vs (0.4,1.3) 3.71 (1.42,9.67) ab3: 1 vs (0.96,4.39) 8.41 (2.91,24.29) < ed1: 1 vs (0.29,3.4) 1.28 (0.34,4.87) ed2: 1 vs (0.58,1.68) 1.34 (0.74,2.44) Criar glm5 > glm5 <- glm(casos ab1 + ab2 + ab3 + ed1 + ed2 + par1, data = infert2, family = binomial) > logistic.display(glm5) Logistic regression predicting case crude OR(95%CI) adj. OR(95%CI) P(Wald s test) ab1: 1 vs (1.89,5.88) (4.73,31.74) < ab2: 1 vs (0.4,1.3) 4.6 (1.7,12.43) ab3: 1 vs (0.96,4.39) (3.9,40.45) < ed1: 1 vs (0.29,3.4) 1.48 (0.39,5.65) ed2: 1 vs (0.58,1.68) 1.46 (0.79,2.68) par: 1 vs (0.58,1.7) 1.77 (0.92,3.42)
17 As estimativas de odds ratio dos abortos 1 (espontâneo), 2 (induzido) e 3 (ambos) sofreram ajustes das variáveis inclusas nos modelos múltiplos glm4 e glm5. O maior ajuste foi observado no modelo glm5 em que as estimativas foram, respectivamente, ajustadas em 29% (aborto 1), 35% (aborto 2) e 56% (aborto 3) para cima em comparação com o modelo glm2 (Tabela 5). Isso mostra que, possivelmente, os efeitos dos abortos são ainda maiores para a ocorrência de infertilidade, ajustando por paridade e educação das mulheres. Tabela 5: Resultados dos modelos múltiplos glm4 e glm5. Modelos Variáveis OR adj. (IC95) P (Wald) GLM2 aborto (3.86,23.5) <0.001 aborto (1.34,8.62) aborto (2.8,23.03) <0.001 GLM5 aborto (4.73,31.74) < aborto (1.7,12.43) aborto (3.9,40.45) < educação (0.39,5.65) educação (0.79,2.68) paridade 1.77 (0.92,3.42) GLM4 aborto (4.12,26.13) < aborto (1.42,9.67) aborto (2.91,24.29) < educação (0.34,4.87) educação (0.74,2.44)
18 1.3 Exercício da Aula 5 1 Utilize a base de dados birthwt em que foi feita a análise exploratória com gráficos na aula 2 para aplicar a regressão logística binomial. A variável dependente é a low e as variáveis independentes são: race, smoke, ptl, ht, ui e ftv. Construa as tabelas de contingência, estime as odds ratio e calcule os testes de X 2. As variáveis race, ptl e ftv devem ser transformadas em dicotômicas, sendo baseline as seguintes categorias: race = 1, ptl = 0 e ftv > 0. Agora, aplique a função glm() para fazer os modelos para cada variável (ou seja, glm1 <- glm(low... ),..., glm6 <- glm(low... ). Faça apenas um modelo múltiplo (glm7) com todas as variáveis. Interprete os resultados. 18
19 Referências [1] McCullagh P, Nelder JA. Generalized Linear Models. London: Chapman and Hall
diferença não aleatória na distribuição dos fatores de risco entre os dois grupos
Confundimento erro devido a uma diferença não aleatória na distribuição dos fatores de risco entre os dois grupos. A variável de confundimento está distribuída desigualmente entre os grupos comparados.
Lista 1 - Gabarito. Prof. Erica Castilho Rodrigues Disciplina: Modelos Lineares Generalizados. 29 de Abril. f(y i, θ i ) = θ i exp( yiθ i ).
Lista 1 - Gabarito Prof. Erica Castilho Rodrigues Disciplina: Modelos Lineares Generalizados 29 de Abril 1. (Concurso Petrobrás - 2011) Em um modelo de regressão logística, o que indica se o modelo se
Modelos Lineares Generalizados
unificação metodológica Alexandre Adalardo de Oliveira PlanECO 2017 1 of 43 03/29/2017 11:47 AM Conceitos estrutura do erro preditora linear função de ligação 2 of 43 03/29/2017 11:47 AM Função de ligação
Gabarito Lista 2 LES0773 Estatística III. Os resultados dessa regressão são apresentados na seguinte tabela:
Gabarito Lista 2 LES0773 Estatística III Exercício 1) Utilizando a ferramenta Análise de Dados e a sua função Regressão, foi realizada uma regressão levando em consideração os gastos com PD como variável
Trabalho de Modelos Lineares Generalizados
Universidade Federal do Paraná Trabalho de Modelos Lineares Generalizados Ananda Bordignon 1, Brendha Lima 2, Giovanna Lazzarin 3 12 de Novembro de 2018 1 GRR20149157 2 GRR20149163 3 GRR20149088 1 SUMÁRIO
Modelo Linear Generalizado Distribuição de Poisson
Valeska Andreozzi 1 Modelo Linear Generalizado Distribuição de Poisson Problema 1 O objetivo desta aula é exemplificar a modelagem de dados de contagem. Vamos ilustrar como os modelos lineares generalizados
Disciplina de Modelos Lineares Professora Ariane Ferreira
Disciplina de Modelos Lineares 2012-2 Regressão Logística Professora Ariane Ferreira O modelo de regressão logístico é semelhante ao modelo de regressão linear. No entanto, no modelo logístico a variável
O USO DE MODELOS DE REGRESSÃO LOGÍSTICA PARA AVALIAÇÃO DO PROBLEMA DE EVASÃO DE ALUNOS NO CURSO DE QUÍMICA INDUSTRIAL DA UNUCET-UEG
O USO DE MODELOS DE REGRESSÃO LOGÍSTICA PARA AVALIAÇÃO DO PROBLEMA DE EVASÃO DE ALUNOS NO CURSO DE QUÍMICA INDUSTRIAL DA UNUCET-UEG Robson de Souza Vieira 1 ; Rogério Silva Pimentel 1 ; Emerson Wruck 2
AMOSTRAGEM COMPLEXA. Bases de Dados IAN-AF Tutorial para análise ponderada recorrendo aos softwares SPSS e R
AMOSTRAGEM COMPLEXA Bases de Dados IAN-AF Tutorial para análise ponderada recorrendo aos softwares SPSS e R 1 Conteúdo Nota introdutória... 3 1. Software SPSS... 4 2. Software R... 16 Referências [1] R
Modelos Lineares Generalizados - Verificação do Ajuste do Modelo
Modelos Lineares Generalizados - Verificação do Ajuste do Modelo Erica Castilho Rodrigues 21 de Junho de 2013 3 Uma outra medida usada para verificar o ajuste do modelo. Essa estatística é dada por X
Aula prática 4 Parte I - Correlação e regressão linear simples
Aula prática 4 Parte I - Correlação e regressão linear simples Para esta aula prática vamos trabalhar com dados de um estudo cujo objetivo foi verificar a associação entre atividade física, aptidão cardiorrespiratória
Análise Estatística em Epidemiologia Utilizando o Ambiente R - I
Análise Estatística em Epidemiologia Utilizando o Ambiente R - I Extensão do programa com pacotes aplicados à epidemiologia Ministrantes: Prof a Maria do Rosário D. O. Latorre Dr. Gabriel Z. Laporta Monitor:
Introdução Regressão linear Regressão de dados independentes Regressão não linear. Regressão. Susana Barbosa
Regressão Susana Barbosa Mestrado em Ciências Geofísicas 2012-2013 Regressão linear x : variável explanatória y : variável resposta Gráfico primeiro! Gráfico primeiro! Gráfico primeiro! Modelo linear x
Análise Estatística em Epidemiologia Utilizando o Ambiente R - I
Análise Estatística em Epidemiologia Utilizando o Ambiente R - I Análise exploratória de dados Ministrantes: Prof a Maria do Rosário D. O. Latorre Dr. Gabriel Z. Laporta Monitor: Alessandra C. G. Pellini
AULA 17 - Variáveis binárias
AULA 17 - Variáveis binárias Susan Schommer Econometria I - IE/UFRJ Variáveis binárias A variável binária (ou dummy) é um simples exemplo de variável aleatória, o qual é chamada de função indicadora de
Ensaio Clínico de Contraceptivos José Luiz Padilha da Silva 24 de outubro de 2018
Ensaio Clínico de Contraceptivos José Luiz Padilha da Silva 24 de outubro de 2018 Exemplo: Ensaio Clínico de Contraceptivos Introdução Este exemplo é de um estudo longitudinal de uso de contraceptivos
UNIVERSIDADE FEDERAL DA FRONTEIRA SUL Campus CERRO LARGO. PROJETO DE EXTENSÃO Software R: de dados utilizando um software livre.
UNIVERSIDADE FEDERAL DA FRONTEIRA SUL Campus CERRO LARGO PROJETO DE EXTENSÃO Software R: Capacitação em análise estatística de dados utilizando um software livre. Fonte: https://www.r-project.org/ Módulo
Teste F-parcial 1 / 16
Teste F-parcial Ingredientes A hipótese nula, H 0, define o modelo restrito. A hipótese alternativa, H a : H 0 é falsa, define o modelo irrestrito. SQR r : soma de quadrado dos resíduos associada à estimação
Constipação José Luiz Padilha da Silva 21 de outubro de 2018
Constipação José Luiz Padilha da Silva 21 de outubro de 2018 Descrição dos dados No banco de dados foram incluídos 151 recém-nascidos acompanhados nos primeiros 12 meses de vida. Foram previstos um total
Teste F-parcial 1 / 16
Teste F-parcial A hipótese nula, H 0, define o modelo restrito. Ingredientes SQR r : soma de quadrado dos resíduos sob H 0. R 2 r: coeficiente de determinação sob H 0. g: número de restrições a serem testadas
INSTITUTO SUPERIOR DE CONTABILIDADE E ADMINISTRAÇÃO PORTO Ano lectivo 2009/20010 EXAME: DATA 24 / 02 / NOME DO ALUNO:
INSTITUTO SUPERIOR DE CONTABILIDADE E ADMINISTRAÇÃO PORTO Ano lectivo 2009/20010 Estudos de Mercado EXAME: DATA 24 / 02 / 20010 NOME DO ALUNO: Nº INFORMÁTICO: TURMA: PÁG. 1_ PROFESSOR: ÉPOCA: Grupo I (10
TÉCNICAS EXPERIMENTAIS APLICADAS EM CIÊNCIA DO SOLO
TÉCNICAS EXPERIMENTAIS APLICADAS EM CIÊNCIA DO SOLO Mario de Andrade Lira Junior lira.pro.br\wordpress REGRESSÃO X CORRELAÇÃO Diferença Regressão - equação ligando duas ou mais variáveis Correlação medida
BIE5782. Unidade 7: INTRODUÇÃO AOS MODELOS LINEARES
BIE5782 Unidade 7: INTRODUÇÃO AOS MODELOS LINEARES ROTEIRO 1.Motivação 2. Método dos mínimos quadrados 3. Ajuste no R: função lm 4. Resultado no R: objeto lm 5. Premissas, interpretação e diagnóstico 6.
1 semestre de 2014 Gabarito Lista de exercícios 3 - Estatística Descritiva III C A S A
Exercício 1. (1,0 ponto). A tabela a seguir mostra o aproveitamento conjunto em Física e Matemática para os alunos do ensino médio de uma escola. Notas Notas Notas Física/Matemática Altas Regulares Baixas
Estatística Aplicada II. } Regressão Linear
Estatística Aplicada II } Regressão Linear 1 Aula de hoje } Tópicos } Regressão Linear } Referência } Barrow, M. Estatística para economia, contabilidade e administração. São Paulo: Ática, 007, Cap. 7
i j i i Y X X X i j i i i
Mario de Andrade Lira Junior lira.pro.br\wordpress lira.pro.br\wordpress Diferença Regressão - equação ligando duas ou mais variáveis Correlação medida do grau de ligação entre duas variáveis Usos Regressão
RAD1507 Estatística Aplicada à Administração I Prof. Dr. Evandro Marcos Saidel Ribeiro RESUMO -
UNIVERSIDADE DE SÃO PAULO FACULDADE DE ECONOMIA, ADMINISTRAÇÃO E CONTABILIDADE DE RIBEIRÃO PRETO DEPARTAMENTO DE ADMINISTRAÇÃO RAD1507 Estatística Aplicada à Administração I Prof. Dr. Evandro Marcos Saidel
Variável dependente Variável independente Coeficiente de regressão Relação causa-efeito
Unidade IV - Regressão Regressões Lineares Modelo de Regressão Linear Simples Terminologia Variável dependente Variável independente Coeficiente de regressão Relação causa-efeito Regressão correlação Diferença
ME613 - Análise de Regressão
ME613 - Análise de Regressão Parte 2 Propriedades dos estimadores Samara F. Kiihl - IMECC - UNICAMP Suposições do modelo de regressão linear simples Suposições do modelo de regressão linear simples Até
Regressão linear múltipla
Regressão linear múltipla Universidade Estadual de Santa Cruz Ivan Bezerra Allaman Introdução A regressão múltipla é uma generalização da regressão simples, visto que, há mais de uma variável explicativa
BIOESTATÍSTICA. Análise de regressão
BIOESTATÍSTICA Análise de regressão Análise de correlação Existe uma associação estatística entre duas variáveis? As duas variáveis são independentes ( ou seja, qual o grau da variação das duas juntas)?
b) Teste a hipótese de efeito significante do tamanho da população sobre a venda do produto, na presença de renda per capita
Exemplo 1 (continuação a Estime por intervalo de 95% de confiança, o aumento do número médio de lotes vendidos devido a 1000 pessoas a mais na população, mantendo a renda per capita fixa b Teste a hipótese
1 AULA 3 - MODELO DE REGRESSÃO LINEAR
1 AULA 3 - MODELO DE REGRESSÃO LINEAR 1.1 Análise exploratória Fazer um modelo de regressão linear envolve modelar uma variável de desfecho contínua em função de uma ou mais variáveis explanatórias. Como
Associação entre variáveis categóricas e IC95%
Associação entre variáveis categóricas e IC95% Andréa Homsi Dâmaso Programa de pós-graduação em Epidemiologia UFPEL Biotecnologia: Bioestatística e Delineamento Experimental Aula de hoje Teste do qui-quadrado
Estatística II Licenciatura em Gestão. Parte I
Estatística II Licenciatura em Gestão 1 o semestre 2015/2016 ER - 03/02/2016 09:00 Nome N o Espaço reservado a classificações A utilização do telemóvel, em qualquer circunstância, é motivo suficiente para
CE062c José Luiz Padilha da Silva e Cesar Augusto Taconeli 13 de setembro de 2018
CE062c José Luiz Padilha da Silva e Cesar Augusto Taconeli 13 de setembro de 2018 Examplo usando gamlssnp(): dados de cérebros de animais O tamanho do cérebro (brain) e peso corporal (body) foram registrados
Analisando com desfecho binário
Analisando com desfecho binário Leo Bastos Fundação Oswaldo Cruz Leo Bastos (PROCC/Fiocruz) Dados binários 1 / 69 Outline 1 Análise para dados com desfecho binário. Mundo 2x2 Regressão para dados binários
Capacitação em R e RStudio PROJETO DE EXTENSÃO. Software R: capacitação em análise estatística de dados utilizando um software livre.
UFFS Universidade Federal da Fronteira Sul Campus Cerro Largo PROJETO DE EXTENSÃO Software R: capacitação em análise estatística de dados utilizando um software livre Fonte: https://www.r-project.org/
Modelos Lineares Generalizados - Regressão Logística
Modelos Lineares Generalizados - Regressão Logística Erica Castilho Rodrigues 26 de Maio de 2014 AIC 3 Vamos ver um critério para comparação de modelos. É muito utilizado para vários tipos de modelo. Mede
UNIVERSIDADE FEDERAL DA FRONTEIRA SUL Campus CERRO LARGO. PROJETO DE EXTENSÃO Software R: de dados utilizando um software livre. Teste Qui-Quadrado
UNIVERSIDADE FEDERAL DA FRONTEIRA SUL Campus CERRO LARGO PROJETO DE EXTENSÃO Software R: Capacitação em análise estatística de dados utilizando um software livre. Fonte: https://www.r-project.org/ Módulo
Alternativas à Regressão Logística para análise de dados
XVIII Congresso Mundial de Epidemiologia VII Congresso Brasileiro de Epidemiologia EIDEMIOLOGIA NA CONSTRUÇÃO DA SAÚDE ARA TODOS: MÉTODOS ARA UM MUNDO EM TRANSFORMAÇÃO Alternativas à Regressão Logística
ANÁLISE DE SOBREVIVÊNCIA Teoria e aplicações em saúde. Caderno de Respostas Capítulo 9. Funções de suavização
ANÁLISE DE SOBREVIVÊNCIA Teoria e aplicações em saúde Caderno de Respostas Capítulo 9 Funções de suavização 9.1 Analise o comportamento da variável idade no risco de óbito de pacientes em hemodiálise (banco
Testes de raiz unitária
Testes de raiz unitária Avaliando estacionariedade em séries temporais financeiras Wilson Freitas Quant Developer Recursos index.rmd 2/20 Testes de Raiz Unitária Definição do teste de raiz unitária Existem
Nome: Turma: Processo
Instituto Superior de Economia e Gestão Universidade de Lisboa Licenciaturas em Economia e em Finanças Econometria Época de Recurso 01/02/2017 Duração: 2 horas Nome: Turma: Processo Espaço reservado para
variável dependente natureza dicotômica ou binária independentes, tanto podem ser categóricas ou não estimar a probabilidade associada à ocorrência
REGRESSÃO LOGÍSTICA É uma técnica recomendada para situações em que a variável dependente é de natureza dicotômica ou binária. Quanto às independentes, tanto podem ser categóricas ou não. A regressão logística
Exercícios de programação
Exercícios de programação Estes exercícios serão propostos durante as aulas sobre o Mathematica. Caso você use outra linguagem para os exercícios e problemas do curso de estatística, resolva estes problemas,
FACULDADE DE ECONOMIA DO PORTO. Licenciatura em Economia E C O N O M E T R I A II
FACULDADE DE ECONOMIA DO PORTO Licenciatura em Economia E C O N O M E T R I A II (LEC310) NOTAS PRÉVIAS: Exame Final Época Normal 9 de Junho de 2006 1. A primeira parte da prova tem duração de 75 minutos
Segundo Trabalho de Econometria 2009
Segundo Trabalho de Econometria 2009 1.. Estimando o modelo por Mínimos Quadrados obtemos: Date: 06/03/09 Time: 14:35 Sample: 1995Q1 2008Q4 Included observations: 56 C 0.781089 0.799772 0.97664 0.3332
Análise de Carteiras usando o R - Parte 6
Análise de Carteiras usando o R - Parte 6 Bibliografia BKM, cap. 9 Claudio Lucinda FEA/USP Testando o CAPM Testando o CAPM Vamos nesta apresentação usar os dados dos fundos para repassar os testes do CAPM.
Teste de Cochran-Mantel-Haenszel
Teste de Cochran-Mantel-Haenszel Apresentamos um exemplo com a função mantelhaen.test do pacote stats em R. Os dados do exemplo podem ser encontrados na Tabela 3.3, p. 60, do livro Introduction to Categorical
Ajustar Técnica usada na análise dos dados para controlar ou considerar possíveis variáveis de confusão.
Glossário Ajustar Técnica usada na análise dos dados para controlar ou considerar possíveis variáveis de confusão. Análise de co-variância: Procedimento estatístico utilizado para análise de dados que
Relatório GLM - Predição de doênça coronária cardíaca através do modelo de regressão generalizado com resposta Binomial
UNIVERSIDADE FEDERAL DO PARANÁ Rafael Morciani Alves da Silva Maike Willian Martins dos Santos Mateus Gemelli Ramos Relatório GLM - Predição de doênça coronária cardíaca através do modelo de regressão
MRLM COM COVARIÁVEIS CATEGÓRICAS. criar uma variável dummy para representar uma categoria da variável. variável dummy: assume só dois valores: 0 ou 1
MRLM COM COVARIÁVEIS CATEGÓRICAS Como quantificar o efeito das categorias de uma variável sobre a resposta Y? (exemplo: efeito de sexo masculino/feminino sobre salário) criar uma variável dummy para representar
1. Avaliação de impacto de programas sociais: por que, para que e quando fazer? (Cap. 1 do livro) 2. Estatística e Planilhas Eletrônicas 3.
1 1. Avaliação de impacto de programas sociais: por que, para que e quando fazer? (Cap. 1 do livro) 2. Estatística e Planilhas Eletrônicas 3. Modelo de Resultados Potenciais e Aleatorização (Cap. 2 e 3
Econometria Aplicada com uso do R
Econometria Aplicada com uso do R Alexandre Rodrigues Loures Universidade Federal da Paraíba Centro de Ciências Sociais Aplicadas Programa de Pós-Graduação em Economia 10 de maio de 2015 LOURES, A. R.
Licenciaturas em Economia e em Finanças Econometria ER 26/06/2015 Duração 2 horas
Licenciaturas em Economia e em Finanças Econometria ER 26/06/2015 Duração 2 horas Nome: Número: Notas: A utilização do telemóvel é motivo suficiente para anulação da prova. As perguntas de escolha múltipla
Modelos de Regressão Múltipla - Parte VII
1 Modelos de Regressão Múltipla - Parte VII Erica Castilho Rodrigues 26 de Janeiro de 2016 2 3 Vimos como ajustar um modelo não linear fazendo transformações das variáveis, como, por exemplo Y = exp{β
Universidade Federal do Paraná (UFPR) Bacharelado em Informática Biomédica. Regressão. David Menotti.
Universidade Federal do Paraná (UFPR) Bacharelado em Informática Biomédica Regressão David Menotti www.inf.ufpr.br/menotti/ci171-182 Hoje Regressão Linear ( e Múltipla ) Não-Linear ( Exponencial / Logística
Noções sobre Regressão
Noções sobre Regressão Nos interessa estudar como uma variável varia em função de outra. Por exemplo, considere a questão de demanda e preço de bens. Quando se estuda a variação de uma variável Y em função
Técnicas de classificação Análise discriminante & Regressão logística. Abraham Laredo Sicsú
Técnicas de classificação Análise discriminante & Regressão logística Abraham Laredo Sicsú Leituras (ênfase em REGRESSÃO LOGÍSTICA) http://www.uk.sagepub.com/burns/website%20mat erial/chapter%2024%20-
Bioestatística. Paulo Nogueira quarta-feira, 11 de Janeiro de 2012
Bioestatística Paulo Nogueira quarta-feira, 11 de Janeiro de 2012 Bioestatística? Bioestatística Biologia + Estatística (Portmanteau) Biometria Estatística aplicada às ciências da saúde Para que serve
FACULDADE DE ECONOMIA DO PORTO. Curso de Mestrado em Economia MÉTODOS ECONOMÉTRICOS (ECON703)
FACULDADE DE ECONOMIA DO PORTO Curso de Mestrado em Economia MÉTODOS ECONOMÉTRICOS (ECON703) Exame Final 9 de Janeiro de 2006 NOTAS PRÉVIAS: 1. A prova tem três horas de duração. 2. Apenas é permitida
Modelos de Escolha Discreta. a)pretende-se conhecer os coeficientes da função de utilidade, assim como a sua significância estatística.
Nº Observações espaço Lx centro espaço periferia nº clientes (15 min) centro Lx nº clientes (15 min) periferia estacionamento centro Lx estacionamento periferia tc rodo centro Lx tc rodo periferia Código
PROGRAMA DE DISCIPLINA MÉTODOS ESTATÍSTICOS EM EPIDEMIOLOGIA
PROGRAMA DE DISCIPLINA MÉTODOS ESTATÍSTICOS EM EPIDEMIOLOGIA Professores: Antônio Moura da Silva Carga horária: 60 horas Miranda dos Santos 1. APRESENTAÇÃO A disciplina pretende capacitar o aluno com técnicas
AULA 09 Regressão. Ernesto F. L. Amaral. 17 de setembro de 2012
1 AULA 09 Regressão Ernesto F. L. Amaral 17 de setembro de 2012 Faculdade de Filosofia e Ciências Humanas (FAFICH) Universidade Federal de Minas Gerais (UFMG) Fonte: Triola, Mario F. 2008. Introdução à
Testes de Hipóteses. : Existe efeito
Testes de Hipóteses Hipótese Estatística de teste Distribuição da estatística de teste Decisão H 0 : Não existe efeito vs. H 1 : Existe efeito Hipótese nula Hipótese alternativa Varia conforme a natureza
Análise de Regressão Logística
Modelo de Regressão logística Análise de Regressão Logística Regressão logística: Binária (variável dependente com duas categorias) Multinomial (variável dependente com 3 ou mais categorias) Rute Marina
Inferência Estatística: Conceitos Básicos II
Inferência Estatística: Conceitos Básicos II Distribuição Amostral e Teorema do Limite Central Análise Exploratória de dados no SPSS Flávia F. Feitosa BH1350 Métodos e Técnicas de Análise da Informação
MODELOS MATEMÁTICOS E APLICAÇÕES 2015/2016 EXERCÍCIOS DE MODELOS LINEARES MISTOS PARTE I
MODELOS MATEMÁTICOS E APLICAÇÕES 2015/2016 EXERCÍCIOS DE MODELOS LINEARES MISTOS PARTE I 1. Num estudo de selecção da videira, com vista a estudar a variabilidade genética do rendimento da casta Touriga
AULA 3 CURSO DE INTRODUÇÃO AO STATA
AULA 3 CURSO DE INTRODUÇÃO AO STATA 1 Professor: Ernesto Friedrich de Lima Amaral (DCP/UFMG) Email: [email protected] Site do curso: www.ernestoamaral.com/stata20092c.html Data: 18/12/2009 Horário: 8:00
