Aplicação do Modelo GAMLSS a Dados Imobiliários: Um estudo de caso de lotes urbanos na cidade de São Carlos, SP Amanda Cristina Estevam 1 Guilherme Moraes Ferraudo 1 Vera Tomazella 1 Francisco Louzada Neto 2 1 Introdução O mercado imobiliário é considerado um dos setores mais complexos da economia, pois os imóveis são vistos como bens compostos que impedem a comparação direta das unidades, as quais apresentam características específicas. No entanto, utilizando-se de técnicas estatísticas adequadas é possível responder questões importantes como, quais variáveis interferem na formação do preço, quanto custa produzir o bem avaliado e o valor de mercado. A avaliação imobiliária é de grande importância para o direcionamento de políticas públicas e privadas no que diz respeito a ajustes fiscais, regularização imobiliária, disputas judiciais, atualização patrimonial, compra e venda, entre outras finalidades que são fundamentais para o desenvolvimento dessa área do país. Assim, o mercado imobiliário atraí diversos estudos e pesquisas, os quais buscam explicar e interpretar as inúmeras transações realizadas e principalmente encontrar maneiras adequadas de determinar seu valor monetário. Como observado por Dantas (2005), embora a regressão linear tradicional seja muito usada para modelar dados imobiliários, pode apresentar resultados inconsistentes pois muitas vezes os dados não apresentam normalidade e não atendem os pressupostos necessários da teoria. Devido aos avanços da estatística, a engenharia de avaliações também se adaptou e passou a utilizar outros métodos de regressão, como por exemplo, os modelos lineares generalizados (MLGs), que embora aumentem as opções para a distribuição da variável resposta (as pertencentes à família exponencial) não permitem que esta tenha uma grande simetria e curtose, além de modelar apenas a média. A fim de suprir as restrições acima, Rigby & Stasinopoulos (2005) propuseram os modelos aditivos generalizados para posição, escala e forma (GAMLSS) que também permitem que todos os parâmetros da variável resposta sejam modelados de forma linear ou não-linear. Utilizando esta nova metodologia, este estudo oferecerá uma contribuição na área de Engenharia de Avaliações, visando à formação do valor de mercado de lotes urbanos da cidade de São Carlos, quais variáveis que influenciam na precificação desses bens e a criação de Plantas de Valores Genéricos (PVG). 1 Departamento de Estatística - UFSCar. e-mail: amandacrisestevam@gmail.com 2 ICMC - USP. 1
2 Material e métodos 2.1 GAMLSS De acordo com Rigby e Stasinopoulos (2007), na estrutura do GAMLSS os p parâmetros θ T = (θ 1,θ 2,...,θ k ) de uma função (densidade) de probabilidade f (y θ) são modelados utilizando termos aditivos. Aqui se presume que para i = 1,2,...,n as observações y i são independentes com função (densidade) de probabilidade condicionada a θ i, ou seja, f (y i θ i ), onde θ T i = (θ i1,θ i2,...,θ ik ) é um vetor de k parâmetros relacionado às variáveis explanatórias e efeitos aleatórios. Seja y T = (y 1,y 2,...,y n ) o vetor de observações da variável resposta. Considere ainda, para k = 1,2,3,4, uma função de ligação g k ( ) relacionado ao k-ésimo parâmetro θ k às variáveis explanatórias e efeitos aleatórios por meio de um modelo aditivo dado por: ou seja, g k (µ) = η 1 = X 1 β 1 + J 1 Z j1 γ j1 g k (σ) = η 2 = X 2 β 2 + J 2 Z j2 γ j2 g k (ν) = η 3 = X 3 β 3 + J 3 Z j3 γ j3 g k (τ) = η 4 = X 4 β 4 + J 4 Z j4 γ j4 g k (θ k ) = η k = X k β k + J k Z jk γ jk, (1) em que θ k e η k são vetores n 1, β k é um vetor de parâmetros de tamanho J k, e X k e Z jk são matrizes de delineamento conhecidas. O vetor de parâmetros β k e os parâmetros de efeitos aleatórios γ jk, para j = 1,2,...,J k e k = 1,2,3,4 são estimados na estrutura de GAMLSS (para valores fixos dos hiper-parâmetros de suavização λ jk s) maximizando a função de verossimilhança penalizada l p dada por: l p = l 1 2 p k=1 J k λ jk γ jk G jkγ jk (2) onde l = n log f ( y i θ i) é a função de log-verossimilhança. A premissa de independência entre i=1 diferentes vetores γ jk de efeitos aleatórios é fundamental no contexto da estrutura GAMLSS. A seleção do modelo é feita através do desvio global ajustado (Global Deviance-GD), que compara dois modelos encaixados utilizando o teste da razão de verossimilhança. Para modelos não encaixados, utiliza-se o critério de informação de Akaike generalizado (GAIC) que 2
penaliza sobre ajustes adicionando aos desvios globais ajustados uma penalidade fixa #, ou seja, GAIC(#) = GD + #d f, onde df corresponde aos graus de liberdade efetivos no modelo. O critério de informação de Akaike (Akaike Information Criterion - AIC; Akaike, 1974) e o critério bayesiano de Schwarz (Schwarz Bayesian Criterion -SBC; Schwarz, 1978) são casos especiais do critério GAIC(#), e correspondem a # = 2 e # = log(n), respectivamente. (Florencio, 2010) 2.2 Exemplo com dados reais Os dados utilizados são referentes a lotes urbanos da cidade de São Carlos no ano de 2005 utilizados por Ferraudo (2010), que propôs um modelo de regressão linear unindo dois campos do conhecimento aparentemente distintos - as metodologias inferenciais de avaliação em massa e os estudos de localização intra-urbana, de natureza sociológica, geográfica e histórica. A pesquisa se concentra nos preços de oferta dos lotes, obtidos nas empresas imobiliárias locais. A escolha por este valor se justifica por ser fiel e de fácil obtenção pelo pesquisador. Embora seja de certa forma tendenciosa, por expressar puramente os interesses dos vendedores, é lícito crer que este valor represente o máximo valor possível sobre uma determinada parcela de terra urbana. Associadas a este preço de oferta, seguem as vantagens oferecidas pela aquisição do imóvel: vizinhança, acessibilidade, atrativos naturais, dentre outras (Ferreira, 2007). Neste trabalho utilizou-se a classe de modelo GAMLSS, proposta por Rigby e Stasinopoulos (2005). Para o ajuste dos modelos, foi considerado apenas os lotes com área igual ou inferior a 800m 2 e comercializados efetivamente em 2005 resultando em um total de 284 observações. A variável resposta foi o valor total do lote (R$) e como variáveis explicativas a área(m 2 ) do lote e as variáveis de localização. A localização foi expressa por oito variáveis do tipo dummy como descrita no parágrafo abaixo. NUC.PRINC: 1 = Lote localiza-se contíguo à aglomeração da Sede Municipal e 0 = Lote localiza-se em parcelamentos rurais; PLN.CENTRAL: 1 = Lote localiza-se no interior da Planície Central e 0 = Fora da Planície Central; FERROVIA: 1 = A acessibilidade ao centro não é prejudicada pela ferrovia e 0 = o inverso; RODOVIA: 1 = A acessibilidade ao centro não é prejudicada pela rodovia SP-310 (Rod. Washington Luís) e 0 = o inverso; ENCOSTA: 1 = A acessibilidade ao centro não é prejudicada pela encosta sul e 0 = o inverso; CONDO: 1 = Lote localiza-se em condomínio urbanístico e 0 = Lote não se localiza em condomínio urbanístico; FECHADO: 1 = Lote localiza-se em bairro fechado por muros e 0 = Lote localiza-se em bairro aberto; ESTRIT.RESID: 1 = O parcelamento a que pertence o lote é estritamente residencial e 0 = O parcelamento tem uso misto. O banco de dados foi separado em duas partes. Utilizou-se 70% dos dados para o ajuste do modelo e 30% para a validação. Fez-se uma breve análise descritiva nos 70% dos dados e verificou-se que o preço médio dos lotes na cidade de São Carlos é de aproximadamente R$ 40.220,00, com um desvio padrão de 3
29.775,50, gerando assim um coeficiente de variação de 74%, indicando que existe uma variabilidade considerável nos preços dos lotes. Acredita-se que esta variabilidade se dá devido aos fatores incorporados no modelo. Com relação à assimetria e curtose, pôde-se verificar uma assimetria positiva, e uma curtose indicando que a distribuição tem um achatamento leptocúrtico. 3 Resultados e discussões Para a modelagem dos dados foi utilizado o ambiente de computação estatística R, versão 2.15.3 (R CORE TEAM, 2012) e o pacote gamlss. Após verificar a não normalidade dos dados, identificou-se as distribuições plausíveis para a variável reposta: Gama, Gaussiana Inversa, Log- Normal e Weibull. Para cada distribuição, ajustou-se o modelo dado pela formúla funcional (3) com diferentes funções de ligação. Optou-se pelo modelo Gama com função de ligação log por apresentar o menor AIC. V i = β 0 + β 1 NUCPRINC i + β 2 PLNCENT RAL i + β 3 FERROV IA i + β 4 RODOV IAWL i + β 5 ENCOSTA i + β 6 CONDO i + β 7 FECHADO i +β 8 EST RIT RESID i + β9 AREA i β 10 (NUCPRINC AREA) i +β 11 (PLNCENT RAL AREA) i + β 12 (FERROV IA AREA) i β 13 (RODOV IA AREA) i + β 14 (ENCOSTA AREA) i + β 15 (CONDO AREA) i +β 16 (FECHADO AREA) i + β 17 (EST RIT RESID AREA) i (3) A seleção das covariáveis teve o auxilio da ferramenta stepgaic disponível no pacote gamlss. Em cada modelo testado verificou-se a significância das variáveis, a utilização de suavizadores (splines cúbicos) e critérios de comparação de modelos, objetivos (GD, AIC, SBS, Pseudo- R 2 ) e gráficos. Para a verificação do modelo adequado, utilizou-se gráficos de resíduos, gráfico de probabilidade normal, worm plot entre outros. A tabela 2 sumariza as estimativas dos parâmetros para o modelo Gama com função de ligação logaritmica para ambos os parâmetros µ e σ. O modelo final apresentou um pseudo R 2 de 83,25%. O sinal positivo do coeficiente da variável cs(area:nucprinc, df=3), por exemplo, indica que o aumento na área do lote provoca um aumento do preço unitário médio dos lotes situados na aglomeração da Sede Municipal. 4 Conclusões Comparado com estudos anteriores, regressão linear normal (68%)e os modelos linerares generalizados (72%), o modelo GAMLSS teve um aumento no poder de predição. Espera-se 4
Tabela 1: Estimativa dos parâmetros, erro padrão e p-valor. Coenficiente de µ Variável Estimativa Erro Padrão p-valor Intercepto 8.666 0.1528065 0.000 PLN.CENTRAL 0.378 0.0880418 0.000 FERROVIA 0.145 0.0807131 0.000 RODOVIA 0.508 0.1042817 0.000 CONDO 0.780 0.3409885 0.000 FECHADO -0.982 0.2605132 0.000 ESTRITRESID 0.401 0.2024191 0.000 cs(area) 0.001 0.0002539 0.000 cs(area:nucprinc, df = 3) 0.002 0.0002873 0.000 AREA:CONDO -0.002 0.0008550 0.000 cs(area:fechado, df = 3) 0.003 0.0007626 0.000 cs(area:estritresid, df = 4) -0.001 0.0005623 0.000 Coeficiente de σ Variável Estimativa Erro Padrão p-valor Intercepto -1.105 0.04924 0.000 com os resultados deste estudo incorporar mais uma ferramenta na estimação do valor dos lotes urbanos de São Carlos, o qual poderá ser utilizado como ferramenta na elaboração da PVG (Planta de Valores Genéricos) do município de São Carlos Referências [1] FERRAUDO, G. M. Inferência do valor de mercado de lotes urbanos. Estudo de caso: Município de São Carlos (SP). 2008. 104 p. Dissertação (Mestrado em Estatística), Universidade Federal de São Carlos, São Carlos, 2008. [2] Florencio, L. A. Engenharia de avaliações com base em modelos GAMLSS. 2010. 125f. Tese (Mestrado em Estatística) - Departamento de Estatística, Universidade Federal de Pernambuco, Pernambuco. 2010. [3] R Core Team (2012). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0, URL http://www.rproject.org/. [4] RIGBY, R. A.; STASINOPOULOS, D. M. Generalized additive models for location, scale and shape. Appl. Statist. 54, Part 3, p. 507-554, 2005 [5] RIGBY, R. A.; STASINOPOULOS, D. M. Generalized Additive Models for Location Scale and Shape (GAMLSS) in R. Journal of Statistical Software. v. 23, Issue 7, 2007 5