Exemplo Regressão Linear Simples Gilberto A. Paula Departamento de Estatística IME-USP, Brasil giapaula@ime.usp.br 1 o Semestre 2013 G. A. Paula (IME-USP) Área e Preço de Imóveis 1 o Semestre 2013 1 / 33
Área e Preço de Imóveis Sumário 1 Área e Preço de Imóveis 2 Análise de Dados Preliminar 3 Ajuste Preliminar Regressão Linear Simples 4 Ajuste Alternativo Regressão Linear Simples 5 Interpretações 6 Curvas Ajustadas 7 Bandas de Confiança 8 Conclusões 9 Referências G. A. Paula (IME-USP) Área e Preço de Imóveis 1 o Semestre 2013 2 / 33
Área e Preço de Imóveis Área e Preço de Imóveis Descrição dos Dados Vamos considerar neste exemplo uma amostra aleatória de 50 imóveis em que foi observado para cada um o preço de venda (em mil USD) e a área total (em mil pés quadrados) a numa região de Eugene, EUA (Gray, 1989). O objetivo principal do estudo é tentar explicar (ou prever) o preço de venda do imóvel dada a área total. a 1ft 2 = 0, 092903m 2 G. A. Paula (IME-USP) Área e Preço de Imóveis 1 o Semestre 2013 3 / 33
Análise de Dados Preliminar Sumário 1 Área e Preço de Imóveis 2 Análise de Dados Preliminar 3 Ajuste Preliminar Regressão Linear Simples 4 Ajuste Alternativo Regressão Linear Simples 5 Interpretações 6 Curvas Ajustadas 7 Bandas de Confiança 8 Conclusões 9 Referências G. A. Paula (IME-USP) Área e Preço de Imóveis 1 o Semestre 2013 4 / 33
Análise de Dados Preliminar Medidas Resumo Descrição Medida Área Total Preço Venda n 50 50 Média 1,900 74,30 D.Padrão 0,627 26,48 CV 33% 36% Mínimo 0,800 30,60 1 o Quartil 1,500 57,00 Mediana 1,945 68,40 3 o Quartil 2,240 85,57 Máximo 4,000 165,00 G. A. Paula (IME-USP) Área e Preço de Imóveis 1 o Semestre 2013 5 / 33
Análise de Dados Preliminar Boxplot Área Total do Imóvel Área do Imóvel 1.0 1.5 2.0 2.5 3.0 3.5 4.0 G. A. Paula (IME-USP) Área e Preço de Imóveis 1 o Semestre 2013 6 / 33
Análise de Dados Preliminar Boxplot Preço de Venda do Imóvel Preço de Venda do Imóvel 40 60 80 100 120 140 160 G. A. Paula (IME-USP) Área e Preço de Imóveis 1 o Semestre 2013 7 / 33
Análise de Dados Preliminar Dispersão Área Total e Preço de Venda Preço de Venda 40 60 80 100 120 140 160 1.0 1.5 2.0 2.5 3.0 3.5 4.0 Área do Imóvel G. A. Paula (IME-USP) Área e Preço de Imóveis 1 o Semestre 2013 8 / 33
Ajuste Preliminar Regressão Linear Simples Sumário 1 Área e Preço de Imóveis 2 Análise de Dados Preliminar 3 Ajuste Preliminar Regressão Linear Simples 4 Ajuste Alternativo Regressão Linear Simples 5 Interpretações 6 Curvas Ajustadas 7 Bandas de Confiança 8 Conclusões 9 Referências G. A. Paula (IME-USP) Área e Preço de Imóveis 1 o Semestre 2013 9 / 33
Ajuste Preliminar Regressão Linear Simples Regressão Linear Simples Descrição Nota-se indícios de aumento do preço de venda do imóvel com o aumento da área total do imóvel, sugerindo inicialmente o seguinte modelo de regressão linear simples: y i = β 1 +β 2 area i +ǫ i, para i = 1,...,50, em que y i denota o preço de venda do i-ésimo iid imóvel e ǫ i N(0,σ 2 ). G. A. Paula (IME-USP) Área e Preço de Imóveis 1 o Semestre 2013 10 / 33
Ajuste Preliminar Regressão Linear Simples Resíduos Modelo Ajustado Residuo Studentizado 2 0 2 4 2 1 0 1 2 Percentil da N(0,1) G. A. Paula (IME-USP) Área e Preço de Imóveis 1 o Semestre 2013 11 / 33
Ajuste Preliminar Regressão Linear Simples Distribuição Empírica Resíduos Densidade 0.0 0.1 0.2 0.3 0.4 0.5 0.6 2 0 2 4 6 Resíduo Studentizado G. A. Paula (IME-USP) Área e Preço de Imóveis 1 o Semestre 2013 12 / 33
Ajuste Alternativo Regressão Linear Simples Sumário 1 Área e Preço de Imóveis 2 Análise de Dados Preliminar 3 Ajuste Preliminar Regressão Linear Simples 4 Ajuste Alternativo Regressão Linear Simples 5 Interpretações 6 Curvas Ajustadas 7 Bandas de Confiança 8 Conclusões 9 Referências G. A. Paula (IME-USP) Área e Preço de Imóveis 1 o Semestre 2013 13 / 33
Ajuste Alternativo Regressão Linear Simples Regressão Linear Simples Descrição Nota-se pelos gráficos de resíduos indícios de afastamentos da distribuição dos erros com indicação para assimetria à direita. Assim, sugerimos como alternativa, o seguinte modelo de regressão linear simples: logy i = β 1 +β 2 area i +ǫ i, para i = 1,...,50, em que y i denota o preço de venda do i-ésimo iid imóvel e ǫ i N(0,σ 2 ). G. A. Paula (IME-USP) Área e Preço de Imóveis 1 o Semestre 2013 14 / 33
Ajuste Alternativo Regressão Linear Simples Resíduos Modelo Ajustado Residuo Studentizado 2 0 2 4 2 1 0 1 2 Percentil da N(0,1) G. A. Paula (IME-USP) Área e Preço de Imóveis 1 o Semestre 2013 15 / 33
Ajuste Alternativo Regressão Linear Simples Diagnóstico Modelo Ajustado Medida h 0.0 0.2 0.4 0.6 0.8 1.0 50 Distância de Cook 0.0 0.1 0.2 0.3 0.4 0.5 50 0 10 20 30 40 50 0 10 20 30 40 50 Indice Índice Resíduo Padronizado 2 0 2 4 49 Resíduo Padronizado 2 0 2 4 49 0 10 20 30 40 50 4.0 4.5 5.0 Índice Valor Ajustado G. A. Paula (IME-USP) Área e Preço de Imóveis 1 o Semestre 2013 16 / 33
Ajuste Alternativo Regressão Linear Simples Diagnóstico Modelo Ajustado Identificação Pontos Discrepantes Pelos gráficos de diagnóstico temos que a observação #50 é identificada como ponto de alavanca e ponto influente, enquanto a observação #49 é identificada como ponto aberrante. G. A. Paula (IME-USP) Área e Preço de Imóveis 1 o Semestre 2013 17 / 33
Ajuste Alternativo Regressão Linear Simples Identificação pontos Discrepantes Preço de Venda 40 60 80 100 120 140 160 49 50 1.0 1.5 2.0 2.5 3.0 3.5 4.0 Área do Imóvel G. A. Paula (IME-USP) Área e Preço de Imóveis 1 o Semestre 2013 18 / 33
Ajuste Alternativo Regressão Linear Simples Resíduos Modelo Ajustado sem Ponto Aberrante Residuo Studentizado 4 3 2 1 0 1 2 3 2 1 0 1 2 Percentil da N(0,1) G. A. Paula (IME-USP) Área e Preço de Imóveis 1 o Semestre 2013 19 / 33
Ajuste Alternativo Regressão Linear Simples Estimativas Descrição As estimativas dos parâmetros são descritas na tabela abaixo. Efeito Estimativa Erro padrão valor-t valor-p Constante 3,280 0,064 50,91 0,00 Área 0,510 0,032 15,82 0,00 R 2 0,84 R 2 -ajustado 0,84 s 0,14 F 250,30 (1 e 48 g.l.) 0,00 Todos os efeitos são significativos ao nível de 1%. G. A. Paula (IME-USP) Área e Preço de Imóveis 1 o Semestre 2013 20 / 33
Interpretações Sumário 1 Área e Preço de Imóveis 2 Análise de Dados Preliminar 3 Ajuste Preliminar Regressão Linear Simples 4 Ajuste Alternativo Regressão Linear Simples 5 Interpretações 6 Curvas Ajustadas 7 Bandas de Confiança 8 Conclusões 9 Referências G. A. Paula (IME-USP) Área e Preço de Imóveis 1 o Semestre 2013 21 / 33
Interpretações Interpretações Valor Predito Pelo modelo ajustado o preço predito para um imóvel com área total x fica aproximadamente dado por ˆµ(x) = e 3,28+0,51x. Por exemplo, para um imóvel com x = 2, 0 mil pés quadrados o valor predito de venda é dado por ˆµ(x) = e 3,28+0,51x2,0 = 73, 70 mil USD. G. A. Paula (IME-USP) Área e Preço de Imóveis 1 o Semestre 2013 22 / 33
Interpretações Interpretações Variação Valor Predito Quanto varia o valor predito de venda de um imóvel se há um aumento de x = 1, 0 mil pés quadrados na área total? Essa variação fica aproximadamente dada por ˆµ(x + 1) ˆµ(x) = e 0,51 = 1, 665 (66, 5%). Portanto, para um aumento de mil pés quadrados na área total do imóvel, espera-se aumento no preço de venda do imóvel de aproximadamente 66,5 %. G. A. Paula (IME-USP) Área e Preço de Imóveis 1 o Semestre 2013 23 / 33
Interpretações Interpretações Estimativa Intervalar Estimativa intervalar de 95% para a variação no valor predito de venda do imóvel quando há aumento de mil pés quadrados na área total e 0,51±2,01 0,032 = e 0,51±0,0643 = [1, 561; 1, 776][56, 1%; 77, 6%]. Portanto, para um aumento de mil pés quadrados na área total, espera-se aumento no preço de venda entre 56,1% e 77,6%. G. A. Paula (IME-USP) Área e Preço de Imóveis 1 o Semestre 2013 24 / 33
Curvas Ajustadas Sumário 1 Área e Preço de Imóveis 2 Análise de Dados Preliminar 3 Ajuste Preliminar Regressão Linear Simples 4 Ajuste Alternativo Regressão Linear Simples 5 Interpretações 6 Curvas Ajustadas 7 Bandas de Confiança 8 Conclusões 9 Referências G. A. Paula (IME-USP) Área e Preço de Imóveis 1 o Semestre 2013 25 / 33
Curvas Ajustadas Comparação Curvas Ajustadas Preço de Venda 50 100 150 200 todos ptos sem #49 sem #50 1.0 1.5 2.0 2.5 3.0 3.5 4.0 Área Total G. A. Paula (IME-USP) Área e Preço de Imóveis 1 o Semestre 2013 26 / 33
Bandas de Confiança Sumário 1 Área e Preço de Imóveis 2 Análise de Dados Preliminar 3 Ajuste Preliminar Regressão Linear Simples 4 Ajuste Alternativo Regressão Linear Simples 5 Interpretações 6 Curvas Ajustadas 7 Bandas de Confiança 8 Conclusões 9 Referências G. A. Paula (IME-USP) Área e Preço de Imóveis 1 o Semestre 2013 27 / 33
Bandas de Confiança Banda de Confiança para a Média Preço de Venda 50 100 150 200 0 1 2 3 4 Área do Imóvel G. A. Paula (IME-USP) Área e Preço de Imóveis 1 o Semestre 2013 28 / 33
Bandas de Confiança Banda de Confiança para Nova Observação Preço de Venda 0 50 100 150 200 250 300 0 1 2 3 4 Área do Imóvel G. A. Paula (IME-USP) Área e Preço de Imóveis 1 o Semestre 2013 29 / 33
Conclusões Sumário 1 Área e Preço de Imóveis 2 Análise de Dados Preliminar 3 Ajuste Preliminar Regressão Linear Simples 4 Ajuste Alternativo Regressão Linear Simples 5 Interpretações 6 Curvas Ajustadas 7 Bandas de Confiança 8 Conclusões 9 Referências G. A. Paula (IME-USP) Área e Preço de Imóveis 1 o Semestre 2013 30 / 33
Conclusões Conclusões Considerações Finais Este é um exemplo em que através de análise de resíduos verifica-se fortes indícios de afastamentos das suposições feitas para o modelo inicial. Através de uma transformação logarítmica na resposta chega-se a um modelo linear simples que apresenta um ajuste superior ao apresentado inicialmente. Duas observações aparecem como discrepantes, contudo a eliminação das mesmas não leva a mudanças inferenciais importantes. G. A. Paula (IME-USP) Área e Preço de Imóveis 1 o Semestre 2013 31 / 33
Referências Sumário 1 Área e Preço de Imóveis 2 Análise de Dados Preliminar 3 Ajuste Preliminar Regressão Linear Simples 4 Ajuste Alternativo Regressão Linear Simples 5 Interpretações 6 Curvas Ajustadas 7 Bandas de Confiança 8 Conclusões 9 Referências G. A. Paula (IME-USP) Área e Preço de Imóveis 1 o Semestre 2013 32 / 33
Referências Referências Referência Gray, J. B. (1989). On the use of regression diagnostics. The Statistician 38, 97-105. G. A. Paula (IME-USP) Área e Preço de Imóveis 1 o Semestre 2013 33 / 33