Universidade Federal do Rio de Janeiro Faculdade de Medicina Departamento de Medicina Preventiva Núcleo de Estudos de Saúde Coletiva Disciplina: Modelos de Regressão em saúde Aula Prática: Regressão Linear Simples Abrir o banco peso.dta através da opção [File] [Open...] ou através do botão na barra de ferramentas. Diagrama de Dispersão Este gráfico permite visualizar se há tendência de variação conjunta das variáveis, ou seja, se com o aumento de uma delas, há aumento (relação direta) ou redução da outra (relação inversa). No Stata8: [Graphics] [Twoway graphs (Scatterplot, line, etc.] Na janela [twoway Twoway graphs] na opção [Plot1] no quadro [Required] escolha como Type o tipo de gráfico scatter, como X a variável Altura e como Y a variável Peso e a seguir clique no botão [OK].
. twoway (scatter Peso Altura) Peso 50 60 70 80 40 45 50 55 60 Altura Repita esta seqüência de comando para elaborar o gráfico das variáveis Peso vs Idade.. twoway (scatter Peso Idade) Peso 50 60 70 80 6 8 10 12 Idade Na sequencia [Graphics] [Scatterplot matarix] é possível obter uma matriz de diagramas de dispersão de pares de variáveis. Na janela [graph matrix Draw scatterplot matrices] na opção [Main] no quadro [Required] escolha como Variables as variáveis Peso, Altura e Idade e a seguir selecione a opção [Lower triangular half only] e depois clique no botão [OK].
. graph matrix Altura Idade Peso, half
Correlação entre variáveis e seus respectivos p-valores. No menu do Stata escolha a opção: [Statistics] [Summaries, tables, & test] [Summary Statistics] [Parwise Correlation] A opção [Correlations & covariance] calcula as correlações sem indicar os níveis de significância e a opção [Partial correlations], apresenta as correlações parciais e seus níveis de significância de uma variável dependente com cada uma das variáveis independentes, levando em conta (ou controlando) a informação das outras variáveis independentes. Na nova janela levar o cursor até a caixa de texto branca da opção [Variables] e clique por cima, a seguir escreva o nome das variáveis ou leve cursor ate a janela Variables do Stata, no canto inferior esquerdo e clique por cima das variáveis que deseja correlacionar. Marque as opções de impressão: número de observações, nível de significância de cada par de correlações, nível de significância a partir do qual serão mostrados os resultados, nível de significância para destacar com asterisco, ajuste para comparações múltiplas e a opção (Bonferroni ou Sidak) para levar em conta o nível de significância corrigido nas comparações múltiplas. Na janela de resultados devera aparecer a seguinte saída:. pwcorr Peso Altura Idade, obs sig star(5) bonferroni Peso Altura Idade -------------+--------------------------- Peso 1.0000 12 Altura 0.8143* 1.0000 0.0038 12 12 Idade 0.7698* 0.6138 1.0000 0.0102 0.1012 12 12 12
Regressão Linear Simples Análise de Regressão é uma técnica estatística para avaliar a relação de uma variável independente X1, com uma única variável dependente contínua Y. Para ajustar um modelo de regressão linear simples nas variáveis Peso (dependente) e altura (independente) selecione: [Statistics] [Linear regression and related] [Linear regression]. Na nova Janela [regress Linear regression] escolha Peso como variável dependente e Idade como variável independente, escrevendo o nome das variaveis nas caixas de texto ou entao levando o cursor na caixa de texto e clicar e a seguir leve o cursor na janela [Variables] do Stata e clique por cima das variave escolhida. Por enquanto escolha o nível de significancia na opçao Output e depois Clique [OK] para executar o comando.
. regress Peso Idade Source SS df MS Number of obs = 12 -------------+------------------------------ F( 1, 10) = 14.55 Model 526.392857 1 526.392857 Prob > F = 0.0034 Residual 361.857143 10 36.1857143 R-squared = 0.5926 -------------+------------------------------ Adj R-squared = 0.5519 Total 888.25 11 80.75 Root MSE = 6.0155 ------------------------------------------------------------------------------ Peso Coef. Std. Err. t P> t [95% Conf. Interval] -------------+---------------------------------------------------------------- Idade 3.642857.9551151 3.81 0.003 1.514728 5.770986 _cons 30.57143 8.613705 3.55 0.005 11.3789 49.76396 ------------------------------------------------------------------------------ Modelo ajustado: pesoi = 30.57143 + 3. 643857idade i Interpretação dos coeficientes α e β 1 do modelo quando a variável independente é contínua. No caso da variável independente ser contínua o α representa a média do peso quando X = 0 e β = 3,643857 expressa o aumento médio em Y (peso) dado um aumento de 1 unidade de X (idade).
Interpretação da tabela de análise de Variância
Interpretação da tabela de análise de Variância. regress peso idade Var. Regressao Var. não explicada Var. Total Variável dependente Variável independente e termo constante Tabela de Análise de Variância. Fonte de Soma de Graus de Quadrado Variação quadrados liberdade Médio n Source SS df MS Number of obs = 12 -------------+------------------------------ F( 1, 10) = 14.55 Model 526.392857 1 526.392857 Prob > F = 0.0034 Residual 361.857143 10 36.1857143 R-squared = 0.5926 -------------+------------------------------ Adj R-squared = 0.5519 Total 888.25 11 80.75 Root MSE = 6.0155 σ 2 e Variância dos Erros Teste T e Intervalos de Confiança Teste T: H0: βi = 0 ---------------------------------------------------------------------------------- Peso Coef. Std. Err. t P> t [95% Conf. Interval] -------------+-------------------------------------------------------------------- Idade 3.642857.9551151 3.81 0.003 1.514728 5.770986 _cons 30.57143 8.613705 3.55 0.005 11.3789 49.76396 ---------------------------------------------------------------------------------- Estimativas Erro padrão t observado valor-p Intervalos de confiança dos coeficientes das estimativas = b / σ e das estimativas Teste F Global: H0: β1 = β2= 0 F( 1, 10) = MSmodel/MSresidual = 526.392857/ 36.1857143 = 14.55 P(F > 5,.3) = 0.034 Coeficientes de Determinação σ e desvio padrão dos erros Variação total (888,25) não explicada n _ 2 ( Yi Y ) i = 1 = = Variação devida à regressão n i= 1 ^ ( Y Y ) i _ 2 + Variação residual não explicada (526.392857) (361.857143) + n i = 1 ( Y i ^ Y ) i 2
Valores preditos e resíduos Valores preditos numa reta de regressão linear são definidos como: Erro (e i ) - distância vertical entre o ponto observado (Y i ) e o ponto ( Yˆ i ) estimado pela reta de regressão ˆ = ˆ α + ˆ β Y i ^ Para obter no Stata os valores preditos e os resíduos siga a seguinte seqüência no menu: X ε = Yi Yi = Yi ( α + β X i ) i i ^ ^ Statistics General post-estimation Obtain predictions, residuals, etc. after estimation Na janela [predict Prediction after estimation], escolha a opção Main e no quadro [Generate variable] digite o nome da variável que recebera os valores preditos da variável Peso, selecione no quadro [Produce] a opção Fitted values (xb) e clique o botão [OK].. predict pesoest, xb
Para obter os resíduos sega a mesma seqüência de comandos anterior, selecionando agora no quadro [Produce] a opção Residuals.. predict resid, residuals Gráfico dos valores observados e preditos pela regressão Para ter uma primeira avaliação da qualidade do ajuste é sempre bom olhar o diagrama de dispersão dos valores preditos e valores observados versus a variável independente, no stata é possível sobrepor estes gráficos através da seqüência de comandos: Graphics Overlaid twoway graps a seguir selecione na janela [toway Toway graphs] a opçao [Plot1] e no quadro Required selecione como tipo de gráfico o scatter, como X a variável Idade e como Y a variável Peso
e na opção [Plot2] no quadro Required selecione como tipo de gráfico o line, como X a variável Idade e como Y a variável pesoest, clique no botão [OK].. twoway (scatter Peso Idade) (line pesoest Idade) Peso/Linear prediction 50 60 70 80 6 8 10 12 Idade Peso Linear prediction
Gráficos: Resíduos vs valores preditos Para obter o diagrama de dispersão dos resíduos versus os valores ajustados siga a seguinte seqüência de comandos: Graphics Regression diagnostic plots residuals-versus-fitted e na janela [Main] basta clickar em [OK]. rvfplot Fitted values -10-5 0 5 10 50 55 60 65 70 75 Residuals Gráficos: Resíduos vs variável preditora A seguinte seqüência de comandos permite obter o diagrama dos resíduos versus a variável preditora idade : Graphics Regression diagnostic plots Residual-versus-predictor Na janela [Main] selecione Idade como independent variable e a seguir clique em [OK].
. rvpplot Idade Residuals -10-5 0 5 10 6 8 10 12 Idade Gráfico dos valores médios preditos e seus Intervalos de confiança Para elaborar, no Stata, o gráfico dos valores preditos atraves de uma regressao linear simples e seus intervalos de confiança selecione a opção [Graphics] na barra de ferramentas e a seguir a opção [Overlaid twoway graphs] Graphics Overlaid twoway graphs a seguir selecione na janela [toway Toway graphs] a opçao [Plot1] e no quadro Required selecione como tipo de gráfico o lfitci, como X a variável Idade e como Y a variável Peso. No quadro [lfitci options], na opção confidence interval source selecione prediction, na opção Fit plot selecione line e na opção CI plot selecione rarea.
Para sobrepor os valores observados na opção [Plot2] no quadro Required selecione como tipo de gráfico o scatter, como X a variável Idade e como Y a variável Peso, clique no botão [OK].
. twoway (lfitci Peso Idade, blcolor(blue) clcolor(red)) (scatter Peso Idade) 95% CI/Fitted values/peso 40 50 60 70 80 6 8 10 12 Idade 95% CI Fitted values Peso Intervalos de confiança para valores individuais da Altura Para elaborar o grafico dos intervalos de confianca para estimativas de valores individuais da variável Peso siga o procedimento anterior tendo o cuidado de selecionar na janela [Plot1], no quadro [lfitci options], na opção confidence interval source a opção forecast, as opção Fit plot selecione line e na opção CI plot selecione rarea continuam as mesmas.
. twoway (lfitci Peso Idade, stdf blcolor(blue) clcolor(red)) (scatter Peso Idade) 95% CI/Fitted values/peso 40 50 60 70 80 90 6 8 10 12 Idade 95% CI Fitted values Peso