ANÁLISE DE REGRESSÃO Lucas Santana da Cunha http://www.uel.br/pessoal/lscunha/ Universidade Estadual de Londrina 09 de janeiro de 2017
Introdução A análise de regressão consiste na obtenção de uma equação que tenta explicar a variação da variável dependente pela variação do(s) nível(is) da(s) variável(is) indepentedente(s). O comportamento de Y em relação a X pode se apresentar de diversas maneiras: linear, quadrático, cúbico, exponencial, logarítmico, etc. O modelo que explica o fenômeno, deve ser um tipo de curva e equação que mais se aproxime dos pontos representados no gráfico de dispersão.
No entanto o modelo escolhido deve ser coerente com o que acontece na prática. Para isto, deve-se levar em conta as seguintes considerações no momento de se escolher o modelo: Deve ser condizente tanto no grau como no aspecto da curva; Deve conter apenas as variáveis que são relevantes para explicar o fenômeno.
Introdução O modelo estatístico para uma regressão linear simples é: Y i = β 0 + β 1 X i + e i em que: Y i é o valor observado de Y no i-ésimo nível de X. β 0 é a constante de regressão. É o intercepto de Y. β 1 é o coeficiente de regressão. É a variação de Y em função da variação de uma unidade de X. X i é o i-ésimo nível da variável independente X (i = 1, 2,..., n). e i é o erro que está associado à distância entre o valor observado Y i e o correspondente ponto na curva, do modelo proposto, para o mesmo nível i de X.
Qual será a equação da reta que melhor explica a variação de Y em função de X?
Para se obter a equação estimada, vamos utilizar o método dos mínimos quadrados (MMQ), visando a minimização dos erros. Assim, tem-se que: n ei 2 = i=1 n [Y i β 0 β 1 X i ] 2 i=1 Logo, os estimadores de β 0 e β 1 que minimizam os erros são: ˆβ 1 = n i=1 X n i=1 iy i X n i i=1 Y i n n i=1 X 2 i ( n i=1 X i) 2 n ˆβ 0 = Ȳ ˆβ 1 X
Assim, temos a regressão linear simples ajustada: Ŷ = ˆβ 0 + ˆβ 1 X ˆβ 0 é o parâmetro intercepto, pois representa o ponto onde a reta corta o eixo dos Y s (x = 0); ˆβ 1 é o parâmetro chamado coeficiente angular da reta. Tem-se que que para o aumento de 1 unidade de X, Y aumenta em ˆβ 1 unidades.
Exemplo 1 A tabela abaixo mostra a frequência do pulso médio em diferentes períodos etários: Idade (X) 2 4 6 8 10 12 14 16 Pulso (Y) 112 104 100 92 88 86 84 80 a) Determine a equação da reta de regressão linear de Y em X e a interprete. b) Estime o valor de Y para X igual ao valor médio. c) Plote o gráfico de dispersão com a curva estimada.
O quadrado do coeficente de correlação de Pearson, r 2, é chamada de coeficiente de determinação e seu campo de variação é 0 r 2 1 Indica a proporção da variação total que é explicada pela regressão. Se r 2 = 1, todos os pontos observados se situam exatamente sobre a reta de regressão, então, as variações de Y são 100% explicadas pelas variações de X através da função especificada.
Exemplo 2 Os dados a seguir correspondem à variável renda familiar e gasto com alimentação (em unidades monetárias) para uma amostra de 8 famílias. Renda (X) 3 5 10 20 30 40 50 60 Gasto (Y) 2 3 6 10 15 10 20 20 a) Determine o modelo de regressão linear simples e o interprete. b) Estime o valor de Y para X = 25. c) Determine o coeficiente de determinação, r 2, e o interprete.
É importante testar a significância da regressão pelo método da Análise de Variância (ANAVA). Vimos que o modelo estatístico para uma regressão linear simples é: Y i = β 0 + β 1 X i + e i
Temos que o objetivo é verificar a significância da regressão, assim, as hipóteses testadas são: H 0 : β 1 = 0 vs H 1 : β 1 0 Não rejeitar H 0 é equivalente a concluir que não há relação linear entre X e Y.
Para verificarmos se a hipótese nula (H 0 ) é rejeitada ou não, completa-se o seguinte Quadro da Análise de Variância: Tabela 1: Quadro da Análise de Variância. CV G.L. S.Q. Q.M. F calc F tab Regressão 1 SQReg SQReg 1 QMReg QMRes F (α;glreg,gl Res ) Resíduo n - 2 SQRes SQRes n 2 - - Total n - 1 SQTotal - - - Se F cal > F (α;glreg,gl Res ), então rejeita-se H 0, ou seja, há relação linear entre X e Y.
SQ Reg = SQ total = n i=1 y 2 i [ n i=1 x iy i n i=1 x 2 i ( n i=1 y i) 2 n n i=1 x n ] i i=1 y 2 i n ( n i=1 x i ) 2 n SQ res = SQ Total SQ Reg = S yy = (S xy) 2 S xx
Exemplo 3 Abaixo estão os dados referentes à porcentagem da população economicamente ativa empregada no setor primário e o respectivo índice de analfabetismo para algumas regiões metropolitanas do Brasil. Regiões Setor primário (X) Analfabetismo (Y) São Paulo 2,0 17,5 Rio de Janeiro 2,5 18,5 Belém 2,9 19,5 Belo Horizonte 3,3 22,2 Salvador 4,1 26,5 Porto Alegre 4,3 16,6 Recife 7,0 36,6 Fortaleza 12,0 38,3 a) Ajuste a reta de regressão linear simples e teste a significância do mesmo; b) Estime o índice de analfabetismo para 10% da população empregada no setor primário; c) Determine o coeficiente de determinação, r 2, e o interprete.
1 A tabela a seguir dá os valores, em milhares de reais, de avaliação e os preços de venda de oito casas, que constituem uma amostra aleatória de todas as casas vendidas recentemente. Valor da Avaliação (X) Preço de Venda (Y) 70,3 114,4 102,0 169,3 62,5 106,2 74,8 125,0 57,9 99,8 81,6 132,1 110,4 174,2 88,0 143,5 a) Estime o modelo de regressão linear simples, teste a significância do mesmo e o interprete. b) O preço de venda para uma casa que foi avaliada em 100 mil. c) Determine o coeficiente de determinação, r 2, e o interprete.