Regressões: Simples e MúltiplaM Prof. Dr. Luiz Paulo FáveroF Prof. Dr. Luiz Paulo Fávero 1 1
Técnicas de Dependência Análise de Objetivos 1. Investigação de dependências entre variáveis. 2. Avaliação da importância relativa das variáveis para explicação de um fenômeno. 3. Elaboração de previsões. Técnicas 1. Análise de Simples Yˆ ˆ α + ˆ β x + ε 1 = 1 1 2. Análise de Composta Yˆ = ˆ α + ˆ β x + ˆ β +... + ε 1 1 1 2x2 Prof. Dr. Luiz Paulo Fávero 2
Técnicas de Dependência Análise de Relação funcional entre as variáveis 1. Variável Dependente: Será expressa em função de uma ou mais variáveis independentes; serão projetados os seus valores futuros. 2. Variável(is) Independente(s): Utilizadas para compreensão do comportamento da variável dependente. Relação de causa e efeito 1. Variável(is) Independente(s): causa(s). 2. Variável Dependente: efeito. Prof. Dr. Luiz Paulo Fávero 3
Passos da análise de regressão 1. Seleção de variáveis independentes com alta correlação com y. 2. Relação de causa e efeito entre x e y. 3. Estimação dos parâmetros do modelo. 4. Testes de significância do modelo. Prof. Dr. Luiz Paulo Fávero 4
Técnicas de Dependência Análise de Mensuração Inicial: 1. Correlação entre as variáveis utilização da Correlação de Pearson. Medida do grau de relacionamento entre duas variáveis. Escala das variáveis: quantitativas. Natureza da relação das variáveis: sinal e magnitude da correlação. Prof. Dr. Luiz Paulo Fávero 5
Técnicas de Dependência Natureza da Correlação de Pearson Prof. Dr. Luiz Paulo Fávero 6
Exemplo 1 A empresa Previpeças S.A., fabricante de autopeças, deseja projetar as quantidades de peças a serem vendidas no próximo ano. Como a empresa entende que a quantidade de peças vendidas pode ser explicada por seu preço, pretende definir um modelo que relacione essas variáveis. Anos Quantidade (q) (1.000 un.) Preço (p) ($ 1.000) 1 2 4 2 1 6 3 3 3 4 1 5 5 4 1 6 3 2 Prof. Dr. Luiz Paulo Fávero 7
A correlação entre as variáveis é obtida através da seguinte fórmula: Cov( q, s s q p Sendo a covariância medida por: r = p) Cov = n ( x x) ( y y) 1 Prof. Dr. Luiz Paulo Fávero 8
Para a Previpeças S.A., temos no excel: Anos Quantidade (q) (1.000 un.) Preço (p) ($ 1.000) q-q médio p - pmédio 1 x 2 1 2 4-0,33 0,500-0,17 2 1 6-1,33 2,500-3,33 3 3 3 0,67-0,500-0,33 4 1 5-1,33 1,500-2,00 5 4 1 1,67-2,500-4,17 6 3 2 0,67-1,500-1,00 Variância 1,467 3,500 Soma -11,00 Desvio Padrão 1,211 1,871 Covar -2,20 Média 2,333 3,500 r de pearson -0,971008 Prof. Dr. Luiz Paulo Fávero 9
Qual o grau de ajustamento da reta de regressão aos dados observados? Medido pelo R 2 ou coeficiente de determinação. Variação Total y ŷ y Não explicada Explicada Prof. Dr. Luiz Paulo Fávero 10
Variação Total = Variação Explicada + Variação Não Explicada Variação Total y ŷ y Não explicada Explicada ( y y) = ( yˆ y) + ( y yˆ ) 2 ( ) 2 y y = ( yˆ y) + ( y yˆ ) 2 Prof. Dr. Luiz Paulo Fávero 11
Variação Total y ŷ y Não explicada Explicada R 2 ˆ = ( y y) 2 ( y y) 2 Prof. Dr. Luiz Paulo Fávero 12
Para a Previpeças S.A., temos no excel: Anos Quantidade (q) Preço (p) ($ 1.000) y previst o y previsto - y médio Yprevisto - y médio ^2 y real - y médio y real - y médio ^2 1 2 4 2,02-0,31 0,10-0,333333333 0,111111111 2 1 6 0,76-1,57 2,47-1,333333333 1,777777778 3 3 3 2,65 0,31 0,10 0,666666667 0,444444444 4 1 5 1,39-0,94 0,89-1,333333333 1,777777778 5 4 1 3,90 1,57 2,47 1,666666667 2,777777778 6 3 2 3,28 0,94 0,89 0,666666667 0,444444444 Soma 14,00 6,91 7,33 R 2 = ( yˆ y) ( y y) 2 2 = 6,9141 7,3333 = 0,942828 = 94,2828% Prof. Dr. Luiz Paulo Fávero 13
Análise de dados com EXCEL Prof. Dr. Luiz Paulo Fávero 14
Análise de dados com EXCEL Prof. Dr. Luiz Paulo Fávero 15
Prof. Dr. Luiz Paulo Fávero 16
RESUMO DOS RESULTADOS Estatística de regressão R múltiplo 0,9710083 R-Quadrado 0,9428571 R-quadrado ajustado 0,9285714 Erro padrão 0,3236694 Observações 6 Número de Observações Coeficiente de Correlação Linear de Pearson Coeficiente de Determinação: nesse exemplo 94,28% da variação de y é explicada pela variação de x. Coeficiente de Determinação que leva em conta a quantidade de variáveis e observações Erro de estimativa da média Prof. Dr. Luiz Paulo Fávero 17
Teste ANOVA: Testa a hipótese de que existe relação linear entre as variáveis. Quando o F de significação for menor que 0,05, existe relação linear entre as variáveis. ANOVA gl SQ MQ F F de significação 1 6,914285714 6,914285714 66 0,001248593 Resíduo 4 0,419047619 0,104761905 Total 5 7,333333333 Prof. Dr. Luiz Paulo Fávero 18
Resíduos Resíduo ao quadrado -0,019047619 0,000362812 0,238095238 0,056689342 0,352380952 0,124172336-0,39047619 0,152471655 0,095238095 0,009070295-0,276190476 0,076281179 Soma 0,419047619 ANOVA gl SQ MQ F F de significação 1 6,914285714 6,914285714 66 0,001248593 Resíduo 4 0,419047619 0,104761905 Total 5 7,333333333 Prof. Dr. Luiz Paulo Fávero 19
Yprevisto - y médio ^2 0,10 2,47 0,10 0,89 2,47 0,89 6,91 ANOVA gl SQ MQ F F de significação 1 6,914285714 6,914285714 66 0,001248593 Resíduo 4 0,419047619 0,104761905 Total 5 7,333333333 Prof. Dr. Luiz Paulo Fávero 20
ANOVA gl SQ MQ F F de significação 1 6,914285714 6,914285714 66 0,001248593 Resíduo 4 0,419047619 0,104761905 Total 5 7,333333333 MQ = SQ/ gl MQ = SQ/ gl F = MQ reg / MQ res Prof. Dr. Luiz Paulo Fávero 21
Coeficientes Erro padrão Stat t valor-p Interseção 4,533333333 0,301319848 15,04492108 0,000113738 Variável X 1-0,628571429 0,077371794-8,124038405 0,001248593 Coeficientes do Modelo Quantidade = 4,53 0,63 Preço Valor do teste de Hipótese que analisa se a Interseção e a variável independente são significativas Objetivo: Valor menor que 0,05. Prof. Dr. Luiz Paulo Fávero 22
Plotagem de probabilidade normal 5 Y 0 0 20 40 60 80 100 Percentil da amostra Os resíduos devem apresentar uma tendência de probabilidade normal Prof. Dr. Luiz Paulo Fávero 23
Variável X 1 Plotagem de ajuste de linha Y 5 4 3 2 1 0 0 2 4 6 8 Variável X 1 Y Y previsto Enquanto mais próximos estão Y de Y previsto, melhor a regressão Prof. Dr. Luiz Paulo Fávero 24
Variável X 1 Plotagem de resíduos Resíduos 0,5 0-0,5 0 2 4 6 8 Variável X 1 Os resíduos não podem ter uma tendência linear, devem se distribuir aleatoriamente. Prof. Dr. Luiz Paulo Fávero 25
Forma de testar a autocorrelação dos resíduos: O teste de Durbin-Watson. Observação Y previsto Resíduos Resíduo^2 Resíduo com lag Resíduo - Resíduo com lag f^2 1 2,019047619-0,019047619 0,0003628-0,019047619 0,000363 2 0,761904762 0,238095238 0,0566893-0,019047619 0,257142857 0,066122 3 2,647619048 0,352380952 0,1241723 0,238095238 0,114285714 0,013061 4 1,39047619-0,39047619 0,1524717 0,352380952-0,742857143 0,551837 5 3,904761905 0,095238095 0,0090703-0,39047619 0,485714286 0,235918 6 3,276190476-0,276190476 0,0762812 0,095238095-0,371428571 0,137959 0,4190476 1,005261 Estatística 2,398917749 Prof. Dr. Luiz Paulo Fávero 26
d calculado = 2,398 d L = 0,61 d u = 1,4 Tabela 6 do anexo do livro: Parâmetros são: alfa = 0,05, k 1 =1 e n= 6. autocorrelação positiva não conclusivo ausência de autocorrelação não conclusivo autocorrelação negativa (I) (II) (III) (IV) (V) 0 d L d u 2 4 d u 4 d L 4 d < 2 d > 2 Positiva Negativa Prof. Dr. Luiz Paulo Fávero 27
Forma de testar a Homocedasticidade dos resíduos: O teste de Pesaran-Pesaran. Prof. Dr. Luiz Paulo Fávero 28
Outra forma de testar a Homocedasticidade dos resíduos: O teste de Pesaran-Pesaran. RESUMO DOS RESULTADOS Estatística de regressão R múltiplo 0,357124 R-Quadrado 0,127537 R-quadrado ajustado -0,09058 Erro padrão 0,063548 Observações 6 Ausência de Heteroscedasticidade Valor maior que 0,05 ANOVA gl SQ MQ F de significação 1 0,002361 0,002361 0,584724 0,487088 Resíduo 4 0,016153 0,004038 Total 5 0,018514 CoeficientesErro padrão Stat t valor-p 5% inferiore5% superiorenferior 95,0%uperior 95,0% Interseção 0,095473 0,042387 2,252419 0,087411-0,02221 0,213158-0,02221 0,213158 Variável X 1-0,00389 0,005081-0,76467 0,487088-0,01799 0,010222-0,01799 0,010222 Prof. Dr. Luiz Paulo Fávero 29
com o E-views Normalidade dos Resíduos Jarque- Bera Correlação Serial dos Resíduos Breusch-Godfrey Serial Correlation LM Test Homocedasticidade dos Resíduos Breusch-Pagan-Godfrey. Prof. Dr. Luiz Paulo Fávero
com o SPSS Para os testes, há a necessidade de se criar os resíduos e fazer os testes após a criação destes: Normalidade, Autocorrelação Serial e Heterocedasticidade. Prof. Dr. Luiz Paulo Fávero
Exemplo 2 Estimar as vendas anuais com base no tempo de experiência do gerente. Arquivo Exemplo 1 Vendas x Tempo de Experiência.xls Gerente Tempo de Experiência (Anos) Vendas Anuais (R$ 1.000) 1 1 80 2 3 97 3 4 92 4 4 102 5 6 103 6 8 111 7 10 119 8 10 123 9 11 117 10 13 136 Prof. Dr. Luiz Paulo Fávero 32
Análise de dados com EXCEL Prof. Dr. Luiz Paulo Fávero 33
Análise de dados com EXCEL Prof. Dr. Luiz Paulo Fávero 34
Análise de dados com EXCEL Prof. Dr. Luiz Paulo Fávero 35
Análise de dados com EXCEL Prof. Dr. Luiz Paulo Fávero 36
Análise de dados com EXCEL Prof. Dr. Luiz Paulo Fávero 37
Análise de dados com EXCEL Prof. Dr. Luiz Paulo Fávero 38
1. Interpretação dos Parâmetros Vendas anuais = 80 + 4 (anos de experiência) 80: venda anual obtida por um gerente que não possui nenhum ano de experiência. 4: acréscimo na venda anual a cada variação de um ano no tempo de experiência no gerente. 2. Qual a venda anual estimada para um vendedor com 6 anos de experiência? Prof. Dr. Luiz Paulo Fávero 39
Exemplo 3 A companhia Multifator deseja analisar o comportamento dos custos Indireto sde Fabricação (CIF), em função das variáveis: Horas de Mão-de-obra (HMOD) e Horas- Máquina (HM). Período CIF HMOD HM 1 350 4 10 2 400 8 14 3 470 12 16 4 550 10 26 5 620 15 31 6 380 7 12 7 290 6 13 8 490 10 21 9 580 11 26 10 610 13 24 11 560 12 23 12 420 8 12 13 450 11 19 14 510 12 19 15 380 5 11 Prof. Dr. Luiz Paulo Fávero 40
Resultado do modelo CIF x HM RESUMO DOS RESULTADOS Estatística de regressão R múltiplo 0,919862 R-Quadrado 0,846147 R-quadrado ajustado 0,834312 Erro padrão 40,92132 Observações 15 ANOVA gl SQ MQ F F de significação 1 119724,1 119724,1 71,49613 1,21328E-06 Resíduo 13 21769,2 1674,554 Total 14 141493,3 CoeficientesErro padrão Stat t valor-p 95% inferiores 95% superiores Inferior 95,0% Superior 95,0% Interseção 208,8765 32,71403 6,384919 2,4E-05 138,2020829 279,5508 138,2021 279,5508 HM 14,17637 1,676578 8,455538 1,21E-06 10,55433973 17,79839 10,55434 17,79839 Prof. Dr. Luiz Paulo Fávero 41
Resultado do modelo CIF x HMOD RESUMO DOS RESULTADOS Estatística de regressão R múltiplo 0,882914 R-Quadrado 0,779537 R-quadrado ajustado 0,762578 Erro padrão 48,98515 Observações 15 ANOVA gl SQ MQ F F de significação 1 110299,3 110299,3 45,96675 1,30171E-05 Resíduo 13 31194,08 2399,544 Total 14 141493,3 CoeficientesErro padrão Stat t valor-p 95% inferiores 5% superiorenferior 95,0%uperior 95,0% Interseção 200,8214 41,7622 4,808688 0,000341 110,5996422 291,0431 110,5996 291,0431 HMOD 28,10888 4,145927 6,779878 1,3E-05 19,15215091 37,06561 19,15215 37,06561 Prof. Dr. Luiz Paulo Fávero 42
Resultado do modelo CIF x HMOD x HM RESUMO DOS RESULTADOS Estatística de regressão R múltiplo 0,940734 R-Quadrado 0,884981 R-quadrado ajustado 0,865811 Erro padrão 36,82661 Observações 15 2 ajustado 2 ajustado = 1 n 1 n k 15 1 = 1 15 3 ANOVA gl SQ MQ F F de significação 2 125218,9 62609,47 46,1654 2,31533E-06 Resíduo 12 16274,39 1356,199 Total 14 141493,3 R R ( 2 1 R ) ( 1 0,88498) CoeficientesErro padrão Stat t valor-p 95% inferiores 5% superiorenferior 95,0%uperior 95,0% Interseção 184,8836 31,76205 5,820897 8,2E-05 115,6800465 254,0872 115,68 254,0872 HMOD 11,74602 5,835472 2,012866 0,067121-0,968380201 24,46042-0,96838 24,46042 HM 9,369382 2,824833 3,316791 0,006147 3,214599645 15,52416 3,2146 15,52416 Prof. Dr. Luiz Paulo Fávero 43
Resultado do modelo CIF x HMOD x HM R 2 0,88498 F teste = k 1 R 1 2 = 1 3 1 0,88498 = 46,165 n k 15 3 Prof. Dr. Luiz Paulo Fávero 44
Resultado do modelo CIF x HMOD x HM RESUMO DOS RESULTADOS Estatística de regressão R múltiplo 0,940734 R-Quadrado 0,884981 R-quadrado ajustado 0,865811 Erro padrão 36,82661 Observações 15 ANOVA gl SQ MQ F F de significação 2 125218,9 62609,47 46,1654 2,31533E-06 Resíduo 12 16274,39 1356,199 Total 14 141493,3 CoeficientesErro padrão Stat t valor-p 95% inferiores 5% superiorenferior 95,0%uperior 95,0% Interseção 184,8836 31,76205 5,820897 8,2E-05 115,6800465 254,0872 115,68 254,0872 HMOD 11,74602 5,835472 2,012866 0,067121-0,968380201 24,46042-0,96838 24,46042 HM 9,369382 2,824833 3,316791 0,006147 3,214599645 15,52416 3,2146 15,52416 Prof. Dr. Luiz Paulo Fávero 45
Por que motivo duas variáveis explicativas conseguem, em modelos isolados, prever o comportamento de uma variável dependente, e não fornecem uma previsão adequada da variação dessa mesma variável quando consideradas em um modelo conjunto? Prof. Dr. Luiz Paulo Fávero 46
Prof. Dr. Luiz Paulo Fávero 47
CIF HMOD HM CIF 1 HMOD 0,882914 1 HM 0,919862 0,845405 1 Há auto grau de relacionamento entre as variáveis independentes HMOD e HM. Prof. Dr. Luiz Paulo Fávero 48
Utilizando Variáveis Dummies. São variáveis binárias, que possuem os valores 1, quando o evento estudado ocorre e, 0, quando o evento não ocorre. Formas: Aditiva, Multiplicativa e Mista. Prof. Dr. Luiz Paulo Fávero 49
Exemplo: A companhia Leite Black deseja conhecer uma possível relação entre a evolução das quantidades vendidas (q) e preços (P). Para isso, selecionou-se uma amostra com valore relativos aos últimos 14 meses. A empresa enfrentou uma greve do quinto ao sétimo mês. Desejamos saber se o período de greve influenciou de maneira significativa o modelo formado pelas variáveis q e p. Arquivo leiteblack.xls. Prof. Dr. Luiz Paulo Fávero 50
Output da função q = f(p) RESUMO DOS RESULTADOS Estatística de regressão R múltiplo 0,241714 R-Quadrado 0,058426 R-quadrado ajustado -0,02004 Erro padrão 15,15213 Observações 14 ANOVA gl SQ MQ F de significação 1 170,9541 170,9541 0,744615 0,405103 Resíduo 12 2755,046 229,5872 Total 13 2926 CoeficientesErro padrão Stat t valor-p 5% inferiore5% superiorenferior 95,0%uperior 95,0% Interseção 57,33646 58,85186 0,974251 0,349163-70,8907 185,5636-70,8907 185,5636 (p) 56,60731 65,60041 0,862911 0,405103-86,3237 199,5383-86,3237 199,5383 Prof. Dr. Luiz Paulo Fávero 51
Output da função q = f(p; DI; DD) RESUMO DOS RESULTADOS Estatística de regressão R múltiplo 0,997374 R-Quadrado 0,994755 R-quadrado ajustado 0,993182 Erro padrão 1,238817 Observações 14 ANOVA gl SQ MQ F de significação 3 2910,653 970,2178 632,2005 1,07E-11 Resíduo 10 15,34668 1,534668 Total 13 2926 CoeficientesErro padrão Stat t valor-p 5% inferiore5% superiorenferior 95,0%uperior 95,0% Interseção -29,7394 5,294853-5,61665 0,000222-41,537-17,9417-41,537-17,9417 (p) 162,862 5,995694 27,16316 1,06E-10 149,5028 176,2212 149,5028 176,2212 DI -309,261 54,54992-5,66931 0,000207-430,805-187,716-430,805-187,716 DD.P 287,138 57,65867 4,979962 0,000553 158,6665 415,6095 158,6665 415,6095 Prof. Dr. Luiz Paulo Fávero 52
não linear São modelos em que a variável independente aparece em formas mais complexas, tais como: x 2, x, 1 x,ln x, y = a e b x ciapotência.xls Prof. Dr. Luiz Paulo Fávero 53
não linear As curvas disponíveis no excel referem-se às seguintes funções: Linear: reta de regressão linear simples; Logarítmica: função logarítmica do tipo y = a. Ln(x) +b; Exponencial: função exponencial do tipo y = a. e b.x Polinomial: Polinômio com graus que variam de 2 a 6; Potência: função potência do tipo y = a.x b ; Média Móvel: será visto em séries temporais. Prof. Dr. Luiz Paulo Fávero 54
Prof. Dr. Luiz Paulo Fávero 55
Prof. Dr. Luiz Paulo Fávero 56
Prof. Dr. Luiz Paulo Fávero 57
Prof. Dr. Luiz Paulo Fávero 58
Prof. Dr. Luiz Paulo Fávero 59
Principais transformações de box-cox Tipo de Função Equação Original Equação Linearizada Variável X Variável Y Linear y = a + b.x y = a + b.x x y Exponencial y = a. e b.x Ln y = ln a + b.x x Ln y Potência y = a. xb Ln y = ln a + b.ln x Ln x Ln y Logarítmica y = a + b.lnx y = a + b.ln x Ln x y Prof. Dr. Luiz Paulo Fávero 60
Principais transformações de box-cox Anos Variável X: Gastos com propaganda Variável Y: Volume de vendas ln x ln y 1 7 7 1,94591 1,94591 2 6 5 1,791759 1,609438 3 4,5 3 1,504077 1,098612 4 3 1,5 1,098612 0,405465 5 2 1 0,693147 0 6 1 0,5 0-0,69315 7 8 7 2,079442 1,94591 8 8 9 2,079442 2,197225 Prof. Dr. Luiz Paulo Fávero 61
Principais transformações de box-cox Prof. Dr. Luiz Paulo Fávero 62
Principais transformações de box-cox Coeficientes Interseção -0,883601976 Variável X 1 1,391859059 Ln a = - 0,8836 a = e -0,8836 a = 0,4133. Y = 0,4133. p 1,3919 Prof. Dr. Luiz Paulo Fávero 63