Aplicação do Modelo GAMLSS a Dados Imobiliários: Um estudo de caso de lotes urbanos na cidade de São Carlos, SP

Documentos relacionados
CE062c - GAMLSS. Silva, J.P; Taconeli, C.A. 09 de outubro, Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, / 42

Modelagem de dados complexos por meio de extensões do modelo de

Aplicação do modelo de Quase-Verossimilhança

MODELOS DE REGRESSÃO PARA DADOS CONTÍNUOS ASSIMÉTRICOS

Aplicação dos modelos lineares generalizados na análise do

ANÁLISE DOS CUSTOS DE PARTOS DE UMA OPERADORA DE PLANOS DE SAÚDE UTILIZANDO GAMLSS

Modelos aditivos generalizados para locação, escala e forma na análise do número de lesões corticais em pacientes com esclerose múltipla

Utilização de GAMLSS na construção de curvas de referência: um estudo de caso sobre composição corporal.

Modelagem de dados de consumo de combustível de veículos por meio de GAMLSS

4 Modelos Lineares Generalizados

Modelos de regressão para dados correlacionados. Cibele Russo

Utilizando a função auto.arima em modelos de séries temporais

Modelagem do número de patentes nos países americanos via Regressão múltipla

UNIVERSIDADE FEDERAL DO PARANÁ CURSO ESTATÍSTICA DENNIS LEÃO GRR LUAN FIORENTIN GRR

Modelos Lineares Generalizados

Modelos Lineares Generalizados - Verificação do Ajuste do Modelo

XIX CONGRESSO DE PÓS-GRADUAÇÃO DA UFLA 27 de Setembro a 01 de Outubro

Ajuste e comparação de modelos para dados grupados e censurados

Análise de modelos lineares mistos com dois fatores longitudinais: um fator quantitativo e um qualitativo ordinal.

Modelos de regressão para dados correlacionados. Cibele Russo

Modelos de regressão beta inflacionados

TEORIA DE VALORES EXTREMOS APLICADA NA ANÁLISE DE TEMPERATURA MÁXIMA EM URUGUAIANA, RS.

Modelos Lineares Generalizados - Estimação em Modelos Lineares Generalizados

Número de Consultas ao Médico

Uso de modelos lineares generalizados para estimar germinação carpogênica de escleródios de S. sclerotioroum

UNIVERSIDADE FEDERAL DO PARANÁ CURSO ESTATÍSTICA CALEB SOUZA GRR DENNIS LEÃO GRR LUAN FIORENTIN GRR

Regressão para Dados Binários - Estudo de Dengue

Adriane Machado Cinthia Zamin Cavassola Luiza Hoffelder da Costa REGRESSÃO EM DADOS DE CONTAGEM: UM ESTUDO SOBRE A QUANTIDADE DE BICICLETAS ALUGADAS

Utilização de modelos marginais na análise de dados longitudinais irregulares em relação ao tempo

Modelo de regressão Beta

FAMÍLIA EXPONENCIAL DE DISTRIBUIÇÕES

CONHECIMENTOS ESPECÍFICOS

Aula 2 Uma breve revisão sobre modelos lineares

Análise de previsão da inflação no período pós-plano Real

Óbitos por Acidentes de Transporte em Santa Catarina no ano de 2016

Modelo de regressão estável aplicado a econometria

Modelagem do comportamento da variação do índice IBOVESPA através da metodologia de séries temporais

UNIVERSIDADE FEDERAL DO PARANÁ CURSO DE ESTATÍSTICA. Jayme Gomes dos Santos Junior Luciana Helena Kowalski

Exemplo Misto Ataques Epilépticos

Trabalho de Modelos Lineares Generalizados

MAE Modelos Lineares Generalizados 2 o semestre 2017

Análise do volume útil do reservatório de Furnas via modelos de séries temporais

UNIVERSIDADE FEDERAL DO PARANÁ. Adriane Machado (GRR ), Cinthia Zamin Cavassola(GRR ) e Luiza Hoffelder da Costa(GRR )

Aumento amostral via arquétipos na avaliação do potencial hídrico de espécies de eucalipto

Aplicação da metodologia Box & Jenkins para previsão de vendas de emulsificante

ESTUDO SOBRE A TAXA ANUAL DE CÂNCER NASAL EM UMA REFINARIA DE NÍQUEL NO PAÍS DE GALES

Econometria. Econometria MQO MQO. Resíduos. Resíduos MQO. 1. Exemplo da técnica MQO. 2. Hipóteses do Modelo de RLM. 3.

Comparação de métodos para tratamento de parcelas perdidas em delineamento em blocos casualizados via simulação Monte Carlo

METÓDOS DE REGRESSÃO KERNEL

INTRODUÇÃO A ECONOMETRIA

Aplicação da análise de regressão na contabilidade do custo de produção do milho

EXPLORANDO OS MODELOS LINEARES GENERALIZADOS APLICAÇÃO A DADOS DE UM PEQUENO SUPERMERCADO

INCIDÊNCIA DE DENGUE EM UMA CIDADE DA COSTA MEXICANA: UM ESTUDO PREDITIVO

Distribuição Generalizada de Valores Extremos (GVE): Um estudo aplicado a valores de temperatura mínima da Cidade de Viçosa-MG

A distribuição Weibull Exponencial de Zografos

Ajuste de modelos de séries temporais para pressão atmosférica de Uberlândia

Modelos Binomial e Poisson

Exemplos Modelos de Quase-Verossimilhança

Relatório GLM - Predição de doênça coronária cardíaca através do modelo de regressão generalizado com resposta Binomial

3 Dados e metodologia

Analise de sobreviventes em acidentes de carros

Predição do preço médio anual do frango por intermédio de regressão linear

4 Aplicações. 4.1 Número de casos de poliomielite nos Estados Unidos

Análise do consumo de energia elétrica da cidade de Uberlândia MG, utilizando modelos de séries temporais

RESOLUÇÃO Nº 01/2016

Modelos de Regressão para Dados de Contagem

Análise de Dados Categóricos

Disciplina de Modelos Lineares Professora Ariane Ferreira

Modelos Lineares Generalizados - Modelos log-lineares para tabelas de contingência

Análise de Dados Longitudinais Aula

CONHECIMENTOS ESPECÍFICOS

XIX CONGRESSO DE PÓS-GRADUAÇÃO DA UFLA 27 de setembro a 01 de outubro de 2010

Consistência de agrupamentos de acessos de alho via análise discriminante

Avaliação de modelos de densidade de probabilidade em séries de dados meteorológicos

Análise de Regressão EST036

Modelos Lineares Generalizados - Modelos log-lineares para tabelas de contingência

Modelos Lineares Generalizados - Componentes do Modelo

APLICAÇÃO DA GEOESTATÍSTICA NA ANÁLISE DE EXPERIMENTOS COM MAMONA (Ricinus communis L.)

XIX CONGRESSO DE PÓS-GRADUAÇÃO DA UFLA 27 de setembro a 01 de outubro de 2010

TT64 COMPARAÇÃO DE MODELOS INFERENCIAIS TRADICIONAIS E ESPACIAIS UTILIZANDO DIFERENTES VARIÁVEIS DE LOCALIZAÇÃO.

UNIVERSIDADE FEDERAL DO PARANÁ DEPARTAMENTO DE ESTATÍSTICA

Econometria. Econometria ( ) O modelo de regressão linear múltipla. O modelo de regressão linear múltipla. Aula 2-26/8/2010

MÉTODO MEAN SHIFT PARA DETECÇÃO DE OUTLIERS EM MODELOS NORMAIS ASSIMÉTRICOS

Sensibilidade do método de adaptabilidade e estabilidade de Lin & Binns: um estudo via simulação

Modelos Lineares Generalizados para Dados de Contagem Ananda Bordignon, Brendha Lima, Giovanna Lazzarin 28 de novembro de 2018

Esse material foi extraído de Barbetta (2007 cap 13)

Modelos GAMLSS - Associações entre marcadores e QTL

Inferência em Recursos Florestais e Ecologia: A Abordagem da Verossimilhança 1

Referência Banco de dados FioCruz Doc LAB1_GEO.doc. Autor Eduardo C. G. Camargo Versão 1.0 Data DEZ / Revisão Versão Data

Modelagem da estrutura de covariância na análise de medidas repetidas

Proposta de ajuste de modelos não lineares na descrição de germinação de sementes de café

A Importância da Estatística na Pesquisa Científica e na Tomada de Decisão

Exemplos Equações de Estimação Generalizadas

Coeficiente de determinação R 2 no modelo de regressão linear normal

Procedimento Complementar para Validação de Métodos Analíticos e Bioanalíticos usando Análise de Regressão Linear

VARIABILIDADE ESPACIAL DA CONDUTIVIDADE ELÉTRICA NO SOLO EM UM TALHÃO DE LARANJA: AMOSTRAS EM GRIDES REGULARES. Lucas Santana da Cunha 1 RESUMO

Modelo de Regressão Múltipla

Transcrição:

Aplicação do Modelo GAMLSS a Dados Imobiliários: Um estudo de caso de lotes urbanos na cidade de São Carlos, SP Amanda Cristina Estevam 1 Guilherme Moraes Ferraudo 1 Vera Tomazella 1 Francisco Louzada Neto 2 1 Introdução O mercado imobiliário é considerado um dos setores mais complexos da economia, pois os imóveis são vistos como bens compostos que impedem a comparação direta das unidades, as quais apresentam características específicas. No entanto, utilizando-se de técnicas estatísticas adequadas é possível responder questões importantes como, quais variáveis interferem na formação do preço, quanto custa produzir o bem avaliado e o valor de mercado. A avaliação imobiliária é de grande importância para o direcionamento de políticas públicas e privadas no que diz respeito a ajustes fiscais, regularização imobiliária, disputas judiciais, atualização patrimonial, compra e venda, entre outras finalidades que são fundamentais para o desenvolvimento dessa área do país. Assim, o mercado imobiliário atraí diversos estudos e pesquisas, os quais buscam explicar e interpretar as inúmeras transações realizadas e principalmente encontrar maneiras adequadas de determinar seu valor monetário. Como observado por Dantas (2005), embora a regressão linear tradicional seja muito usada para modelar dados imobiliários, pode apresentar resultados inconsistentes pois muitas vezes os dados não apresentam normalidade e não atendem os pressupostos necessários da teoria. Devido aos avanços da estatística, a engenharia de avaliações também se adaptou e passou a utilizar outros métodos de regressão, como por exemplo, os modelos lineares generalizados (MLGs), que embora aumentem as opções para a distribuição da variável resposta (as pertencentes à família exponencial) não permitem que esta tenha uma grande simetria e curtose, além de modelar apenas a média. A fim de suprir as restrições acima, Rigby & Stasinopoulos (2005) propuseram os modelos aditivos generalizados para posição, escala e forma (GAMLSS) que também permitem que todos os parâmetros da variável resposta sejam modelados de forma linear ou não-linear. Utilizando esta nova metodologia, este estudo oferecerá uma contribuição na área de Engenharia de Avaliações, visando à formação do valor de mercado de lotes urbanos da cidade de São Carlos, quais variáveis que influenciam na precificação desses bens e a criação de Plantas de Valores Genéricos (PVG). 1 Departamento de Estatística - UFSCar. e-mail: amandacrisestevam@gmail.com 2 ICMC - USP. 1

2 Material e métodos 2.1 GAMLSS De acordo com Rigby e Stasinopoulos (2007), na estrutura do GAMLSS os p parâmetros θ T = (θ 1,θ 2,...,θ k ) de uma função (densidade) de probabilidade f (y θ) são modelados utilizando termos aditivos. Aqui se presume que para i = 1,2,...,n as observações y i são independentes com função (densidade) de probabilidade condicionada a θ i, ou seja, f (y i θ i ), onde θ T i = (θ i1,θ i2,...,θ ik ) é um vetor de k parâmetros relacionado às variáveis explanatórias e efeitos aleatórios. Seja y T = (y 1,y 2,...,y n ) o vetor de observações da variável resposta. Considere ainda, para k = 1,2,3,4, uma função de ligação g k ( ) relacionado ao k-ésimo parâmetro θ k às variáveis explanatórias e efeitos aleatórios por meio de um modelo aditivo dado por: ou seja, g k (µ) = η 1 = X 1 β 1 + J 1 Z j1 γ j1 g k (σ) = η 2 = X 2 β 2 + J 2 Z j2 γ j2 g k (ν) = η 3 = X 3 β 3 + J 3 Z j3 γ j3 g k (τ) = η 4 = X 4 β 4 + J 4 Z j4 γ j4 g k (θ k ) = η k = X k β k + J k Z jk γ jk, (1) em que θ k e η k são vetores n 1, β k é um vetor de parâmetros de tamanho J k, e X k e Z jk são matrizes de delineamento conhecidas. O vetor de parâmetros β k e os parâmetros de efeitos aleatórios γ jk, para j = 1,2,...,J k e k = 1,2,3,4 são estimados na estrutura de GAMLSS (para valores fixos dos hiper-parâmetros de suavização λ jk s) maximizando a função de verossimilhança penalizada l p dada por: l p = l 1 2 p k=1 J k λ jk γ jk G jkγ jk (2) onde l = n log f ( y i θ i) é a função de log-verossimilhança. A premissa de independência entre i=1 diferentes vetores γ jk de efeitos aleatórios é fundamental no contexto da estrutura GAMLSS. A seleção do modelo é feita através do desvio global ajustado (Global Deviance-GD), que compara dois modelos encaixados utilizando o teste da razão de verossimilhança. Para modelos não encaixados, utiliza-se o critério de informação de Akaike generalizado (GAIC) que 2

penaliza sobre ajustes adicionando aos desvios globais ajustados uma penalidade fixa #, ou seja, GAIC(#) = GD + #d f, onde df corresponde aos graus de liberdade efetivos no modelo. O critério de informação de Akaike (Akaike Information Criterion - AIC; Akaike, 1974) e o critério bayesiano de Schwarz (Schwarz Bayesian Criterion -SBC; Schwarz, 1978) são casos especiais do critério GAIC(#), e correspondem a # = 2 e # = log(n), respectivamente. (Florencio, 2010) 2.2 Exemplo com dados reais Os dados utilizados são referentes a lotes urbanos da cidade de São Carlos no ano de 2005 utilizados por Ferraudo (2010), que propôs um modelo de regressão linear unindo dois campos do conhecimento aparentemente distintos - as metodologias inferenciais de avaliação em massa e os estudos de localização intra-urbana, de natureza sociológica, geográfica e histórica. A pesquisa se concentra nos preços de oferta dos lotes, obtidos nas empresas imobiliárias locais. A escolha por este valor se justifica por ser fiel e de fácil obtenção pelo pesquisador. Embora seja de certa forma tendenciosa, por expressar puramente os interesses dos vendedores, é lícito crer que este valor represente o máximo valor possível sobre uma determinada parcela de terra urbana. Associadas a este preço de oferta, seguem as vantagens oferecidas pela aquisição do imóvel: vizinhança, acessibilidade, atrativos naturais, dentre outras (Ferreira, 2007). Neste trabalho utilizou-se a classe de modelo GAMLSS, proposta por Rigby e Stasinopoulos (2005). Para o ajuste dos modelos, foi considerado apenas os lotes com área igual ou inferior a 800m 2 e comercializados efetivamente em 2005 resultando em um total de 284 observações. A variável resposta foi o valor total do lote (R$) e como variáveis explicativas a área(m 2 ) do lote e as variáveis de localização. A localização foi expressa por oito variáveis do tipo dummy como descrita no parágrafo abaixo. NUC.PRINC: 1 = Lote localiza-se contíguo à aglomeração da Sede Municipal e 0 = Lote localiza-se em parcelamentos rurais; PLN.CENTRAL: 1 = Lote localiza-se no interior da Planície Central e 0 = Fora da Planície Central; FERROVIA: 1 = A acessibilidade ao centro não é prejudicada pela ferrovia e 0 = o inverso; RODOVIA: 1 = A acessibilidade ao centro não é prejudicada pela rodovia SP-310 (Rod. Washington Luís) e 0 = o inverso; ENCOSTA: 1 = A acessibilidade ao centro não é prejudicada pela encosta sul e 0 = o inverso; CONDO: 1 = Lote localiza-se em condomínio urbanístico e 0 = Lote não se localiza em condomínio urbanístico; FECHADO: 1 = Lote localiza-se em bairro fechado por muros e 0 = Lote localiza-se em bairro aberto; ESTRIT.RESID: 1 = O parcelamento a que pertence o lote é estritamente residencial e 0 = O parcelamento tem uso misto. O banco de dados foi separado em duas partes. Utilizou-se 70% dos dados para o ajuste do modelo e 30% para a validação. Fez-se uma breve análise descritiva nos 70% dos dados e verificou-se que o preço médio dos lotes na cidade de São Carlos é de aproximadamente R$ 40.220,00, com um desvio padrão de 3

29.775,50, gerando assim um coeficiente de variação de 74%, indicando que existe uma variabilidade considerável nos preços dos lotes. Acredita-se que esta variabilidade se dá devido aos fatores incorporados no modelo. Com relação à assimetria e curtose, pôde-se verificar uma assimetria positiva, e uma curtose indicando que a distribuição tem um achatamento leptocúrtico. 3 Resultados e discussões Para a modelagem dos dados foi utilizado o ambiente de computação estatística R, versão 2.15.3 (R CORE TEAM, 2012) e o pacote gamlss. Após verificar a não normalidade dos dados, identificou-se as distribuições plausíveis para a variável reposta: Gama, Gaussiana Inversa, Log- Normal e Weibull. Para cada distribuição, ajustou-se o modelo dado pela formúla funcional (3) com diferentes funções de ligação. Optou-se pelo modelo Gama com função de ligação log por apresentar o menor AIC. V i = β 0 + β 1 NUCPRINC i + β 2 PLNCENT RAL i + β 3 FERROV IA i + β 4 RODOV IAWL i + β 5 ENCOSTA i + β 6 CONDO i + β 7 FECHADO i +β 8 EST RIT RESID i + β9 AREA i β 10 (NUCPRINC AREA) i +β 11 (PLNCENT RAL AREA) i + β 12 (FERROV IA AREA) i β 13 (RODOV IA AREA) i + β 14 (ENCOSTA AREA) i + β 15 (CONDO AREA) i +β 16 (FECHADO AREA) i + β 17 (EST RIT RESID AREA) i (3) A seleção das covariáveis teve o auxilio da ferramenta stepgaic disponível no pacote gamlss. Em cada modelo testado verificou-se a significância das variáveis, a utilização de suavizadores (splines cúbicos) e critérios de comparação de modelos, objetivos (GD, AIC, SBS, Pseudo- R 2 ) e gráficos. Para a verificação do modelo adequado, utilizou-se gráficos de resíduos, gráfico de probabilidade normal, worm plot entre outros. A tabela 2 sumariza as estimativas dos parâmetros para o modelo Gama com função de ligação logaritmica para ambos os parâmetros µ e σ. O modelo final apresentou um pseudo R 2 de 83,25%. O sinal positivo do coeficiente da variável cs(area:nucprinc, df=3), por exemplo, indica que o aumento na área do lote provoca um aumento do preço unitário médio dos lotes situados na aglomeração da Sede Municipal. 4 Conclusões Comparado com estudos anteriores, regressão linear normal (68%)e os modelos linerares generalizados (72%), o modelo GAMLSS teve um aumento no poder de predição. Espera-se 4

Tabela 1: Estimativa dos parâmetros, erro padrão e p-valor. Coenficiente de µ Variável Estimativa Erro Padrão p-valor Intercepto 8.666 0.1528065 0.000 PLN.CENTRAL 0.378 0.0880418 0.000 FERROVIA 0.145 0.0807131 0.000 RODOVIA 0.508 0.1042817 0.000 CONDO 0.780 0.3409885 0.000 FECHADO -0.982 0.2605132 0.000 ESTRITRESID 0.401 0.2024191 0.000 cs(area) 0.001 0.0002539 0.000 cs(area:nucprinc, df = 3) 0.002 0.0002873 0.000 AREA:CONDO -0.002 0.0008550 0.000 cs(area:fechado, df = 3) 0.003 0.0007626 0.000 cs(area:estritresid, df = 4) -0.001 0.0005623 0.000 Coeficiente de σ Variável Estimativa Erro Padrão p-valor Intercepto -1.105 0.04924 0.000 com os resultados deste estudo incorporar mais uma ferramenta na estimação do valor dos lotes urbanos de São Carlos, o qual poderá ser utilizado como ferramenta na elaboração da PVG (Planta de Valores Genéricos) do município de São Carlos Referências [1] FERRAUDO, G. M. Inferência do valor de mercado de lotes urbanos. Estudo de caso: Município de São Carlos (SP). 2008. 104 p. Dissertação (Mestrado em Estatística), Universidade Federal de São Carlos, São Carlos, 2008. [2] Florencio, L. A. Engenharia de avaliações com base em modelos GAMLSS. 2010. 125f. Tese (Mestrado em Estatística) - Departamento de Estatística, Universidade Federal de Pernambuco, Pernambuco. 2010. [3] R Core Team (2012). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0, URL http://www.rproject.org/. [4] RIGBY, R. A.; STASINOPOULOS, D. M. Generalized additive models for location, scale and shape. Appl. Statist. 54, Part 3, p. 507-554, 2005 [5] RIGBY, R. A.; STASINOPOULOS, D. M. Generalized Additive Models for Location Scale and Shape (GAMLSS) in R. Journal of Statistical Software. v. 23, Issue 7, 2007 5