Análise de Clusters na Montagem de Modelos para Avaliação de Imóveis Prof. Dr. Norberto Hochheim Universidade Federal de Santa Catarina - UFSC
ANÁLISE DE CLUSTERS Agrupa os indivíduos de uma amostra num número restrito de classes homogêneas Descreve os dados procedendo a uma redução do número de indivíduos
OBJETIVOS DA ANÁLISE DE CLUSTERS Exploração dos dados Redução de dados Geração de hipóteses Predição
APLICAÇÕES DA AC Áreas tradicionais: Arqueologia, Biologia, Geologia, Medicina, Psiquiatria... Novos desafios: Análise de mercados, Avaliação de Imóveis
MÉTODOS DE ANÁLISE DE CLUSTERS Métodos Gráficos Métodos Hierárquicos Métodos não Hierárquicos
MÉTODOS GRÁFICOS vizualizam os clusters a partir da representação gráfica dos objetos ou das variáveis Sete objetos e três clusters: Sem estrutura aparente de grupos: Fonte: BRANCO (----)
MÉTODOS GRÁFICOS Limitações: Usam espaços de dimensão 3 Difícil para muitos objetos Método subjetivo
MÉTODOS HIERÁRQUICOS (MH) dois grupos ou são disjuntos ou um deles está contido no outro Dois procedimentos para MH: aglomerativos n objetos (grupos singulares) 1 grupo final divisivos 1 grupo (com n objetos) grupos singulares Resultado: estrutura hierárquica representada por um gráfico em 2 dimensões (dendrograma)
DENDROGRAMA mostra a sequência de passos e os níveis de fusão Fonte: BRANCO (---)
MÉTODOS HIERÁRQUICOS Usam matriz de dados ou de dissimilaridade Se um objeto entra num cluster não o abandona mais Desconhece-se o número de clusters no início do processo serve para objetos e variáveis Os métodos não hierárquicos seguem outros princípios
MÉTODOS NÃO HIERÁRQUICOS Métodos de partição: Operam sobre matriz de dados Aplicam-se apenas a objetos Os grupos devem satisfazer os critérios de coesão interna e isolamento externo O número de grupos é fixado à priori Um objeto pode viajar por vários clusters
MÉTODOS NÃO HIERÁRQUICOS Não convém analisar todas as partições (número muito elevado) Examinar algumas partições e selecionar a melhor
Classificação não supervisionada classificação de objetos em diferentes grupos, cada um dos quais deve conter os objetos semelhantes segundo alguma função de distância estatística deve ser realizada de maneira automática, sem intervenção do usuário, sem considerar previamente propriedades características dos grupos e sem o uso de grupos de teste previamente conhecidos para direcionar a classificação
ANÁLISE MULTIVARIADA Estatística Multidimensional: Estudo das relações entre múltiplas variáveis: o Relações o Semelhanças o Diferenças Estudo das relações entre variáveis e indivíduos
ANÁLISE FATORIAL Método para reduzir um conjunto extenso de variáveis correlacionadas em um número pequeno de novas variáveis não correlacionadas (fatores) Os fatores não são diretamente observáveis, seguem conceitos de natureza abstrata
ANÁLISE FATORIAL DE CORRESPONDÊNCIAS Analisa a informação aportada simultâneamente por variáveis quantitativas e qualitativas Observa as tipologias de indivíduos em função de um amplo número de características
ANÁLISE FATORIAL DE CORRESPONDÊNCIAS Reduz a informação contida numa tabela de grandes dimensões a um conjunto pequeno de variáveis quantitativas Analisa graficamente todas as relações entre variáveis e indivíduos
Como a ANÁLISE DE CLUSTERS (classificação) agrupa os indivíduos de uma amostra num número restrito de classes homogêneas, pode-se usá-la complementarmente à ANÁLISE FATORIAL DE CORRESPONDÊNCIAS
ANÁLISE FATORIAL E DE CLASSIFICAÇÃO A partir de um conjunto extenso de variáveis quantitativas e qualitativas: queremos classificar um grande número de observações Proposta metodológica: 1 Fazer Análise Fatorial de Correspondências 2Classificar os indivíduos a partir das coordenadas fatoriais
AVALIAÇÃO EM MASSA: MODELOS INFERENCIAIS Determinar as variáveis explicativas do valor Heterogeneidade do mercado imobiliário: algumas variáveis podem ser significativas para um tipo de imóveis e não para outros Elementos outliers nas equações: sua presença afeta fortemente as equações, muitas vezes devem ser eliminados
MODELOS PARCIAIS Desenvolver modelos parciais de avaliação para subconjuntos de imóveis mais homogêneos Algumas propostas de segmentação, por: o localização o tamanho o número de dormitórios o etc.
MÉTODO PROPOSTO Realizar uma segmentação do mercado usando técnicas de Análise multivariada e: Desenvolver a Avaliação em Massa através de Equações de Regressão para Classes Homogêneas de imóveis
PROPOSTA Uso da Análise Multivariada para a determinação de Classes Homogêneas de imóveis ANÁLISE FATORIAL DE CORRESPONDÊNCIAS ANÁLISE DE CLASSIFICAÇÃO
Fonte: PERUZZO TRIVELLONI (Dissertação PPGEC/UFSC)
ESTUDO REALIZADO Local: Canasvieiras (Florianópolis/SC) Amostra: 87 imóveis (apartamentos) Variáveis: 1. Localização 2. Características do Apartamento 3. Características e infraestrutura do Condomínio Fonte: PERUZZO TRIVELLONI (Dissertação PPGEC/UFSC)
VARIÁVEIS LOCALIZAÇÃO (distância ao mar) CONDOMÍNIO (nº de unid, idade, elevador, piscina, salão de festas, quadra, segurança, estacionamento, etc.) APARTAMENTO (área, andar, nº de quartos, suítes, garagens, area serviço, sacada, etc.)
Discretização: Localização Variável Ativa
Discretização: Idade Real Variável Ativa
Discretização: Idade Aparente Variável Ilustrativa
Discretização: Variáveis Ilustrativas Critérios subjetivos! 8 variáveis, 41 modalidades
Discretização: Modaliades Variáveis Ativas 39 variáveis, 101 modalidades
ANÁLISE FATORIAL DE CORRESPONDÊNCIAS MÚLTIPLAS Os dois primeiros eixos apresentam autovalores e taxas de inércia que se destaca dos demais
MODALIDADES: PLANO FATORIAL
Representação das Modalidades Plano Fatorial
Representação das Modalidades Plano Fatorial
ANÁLISE FATORIAL DE CORRESPONDÊNCIAS MÚLTIPLAS Dois primeiros eixos fatoriais caracterizados por: EIXO 1: variáveis de tamanho (do apartamento e do condomínio) EIXO 2: variáveis de infraestrutura do condomínio
Modalidades Eixo 1 Número de Quartos
Modalidades Eixo 1 Número de Suites
Modalidades Eixo 1 Área Total
Modalidades Eixo 2
Modalidades Eixo 2 Número de elevadores
Modalidades Eixo 2 Piscina
Modalidades Eixo 2 Salão de Festas
Modalidades Eixo 2 Infraestrutura do Condominio
Representação dos individuos Plano Fatorial
Análise de Classificação Dendrograma As coordenadas dos Eixos Fatoriais 1 e 2 foram usadas para realizar a Análise de Classificação Estas coordenadas constituem um bom resumo das principais características dos apartamentos (e dos condomínios) da amostra
Análise de Classificação Dendrograma Classification hierarchique directe Sibele Garapuvu Ilha Garapuvu 1 Albatroz Morada Afonso 29 Santoro 3 Ilhas 30 4 Costa Cardoso Canßrias Montreal e Galli Heitor Azul Camila da Ilha da 892 50 Ve Ilha Bittencourt 42 91 Ve Ilha 17 49 Ilha 16 Refugio Atoba Deserta Balli 76 86 Mßlaga 73 do 75 54 26 Vit_ria 74 Sol Bellagio 5 Ione 41 Ione Estudio San 39 Garapuvu 43 38 Saint Martin 44 Saint 45 Saint 46 28 Thomaz 33 34 32 Afonso Ilha da da Ve Morada Ve Cardoso 19 Ve Madre 18 Ve Das da 20 Ve 2 da 21 Ve Praia da 22 Na es Vilac Maria Ve Iria 23 Vilac Ve de Rosa 24 Vilac Luiza de 90 Canto 25 Vilac 88 Jader 47 Canasvieira Maria 87 Padre 48 89 Buzios das Goss Luiz de Aruba Werner Pedras Verdes Gustavo 7 M 27 31 Alamandas 685 6499 Soell Casa Mares 71 40 Casa 83 70 Baia Baia 56 Blanca Baia 57 Ilha 58 Praia 60 Norte Caminho do 107 59 Canto 108 Mel do Luiz 109 Maria Forte 69 Levi das Gustavo do Ilha Jose Laser Rei 55 Pedras Linhares Amanda dos Luiz 101 82 72 84 Corais 100 Guillerme 15 Amanda 66 Sol 98 Sol 68 Colinas 65 Maior 61 67 Porto 53 Colinas 52 Seguro de Saod
Análise de Classificação Dendrograma Dendrograma sugere 4, 5 ou 6 Classes Opção 5 Classes: teve inércia intraclasses pequena, maior inércia interclasses e inércia total com bom resultado
INÉRCIAS TOTAL, INTER CLASSES E INTRA CLASSE Inércia Total 100.00 % Inércia Classe 1 4.46 % Inércia Classe 2 1.88 % Inércia Classe 3 4.44 % Inércia Classe 4 0.67 % Inércia Classe 5 2.77 % Inércia Inter-classe 85.78 %
Análise de Classificação Dendrograma Classification hierarchique directe Sibele Garapuvu Ilha Garapuvu 1 Albatroz Morada Afonso 29 Santoro 3 Ilhas 30 4 Costa Cardoso Canßrias Montreal e Galli Heitor Azul Camila da Ilha da 892 50 Ve Ilha Bittencourt 42 91 Ve Ilha 17 49 Ilha 16 Refugio Atoba Deserta Balli 76 86 Mßlaga 73 do 75 54 26 Vit_ria 74 Sol Bellagio 5 Ione 41 Ione Estudio San 39 Garapuvu 43 38 Saint Martin 44 Saint 45 Saint 46 28 Thomaz 33 34 32 Afonso Ilha da da Ve Morada Ve Cardoso 19 Ve Madre 18 Ve Das da 20 Ve 2 da 21 Ve Praia da 22 Na es Vilac Maria Ve Iria 23 Vilac Ve de Rosa 24 Vilac Luiza de 90 Canto 25 Vilac 88 Jader 47 Canasvieira Maria 87 Padre 48 89 Buzios das Goss Luiz de Aruba Werner Pedras Verdes Gustavo 7 M 27 31 Alamandas 685 6499 Soell Casa Mares 71 40 Casa 83 70 Baia Baia 56 Blanca Baia 57 Ilha 58 Praia 60 Norte Caminho do 107 59 Canto 108 Mel do Luiz 109 Maria Forte 69 Levi das Gustavo do Ilha Jose Laser Rei 55 Pedras Linhares Amanda dos Luiz 101 82 72 84 Corais 100 Guillerme 15 Amanda 66 Sol 98 Sol 68 Colinas 65 Maior 61 67 Porto 53 Colinas 52 Seguro de Saod
Representação das 5 Classes Plano Fatorial
Características das Classes Classe 1: Aptos de tamanho pequeno e médio e média infra-estrutura Classe 2 : Aptos de tamanho médio e baixa infraestrutura Classe 3: Aptos de tamanho médio e grande e baixa infra-estrutura Classe 4: Aptos pequenos e boa infra-estrutura Classe 5: Aptos grandes e boa infra-estrutura
Características das Classes Área Total Box Plot: Área Total por classe 800 700 600 500 Área Total 400 300 200 100 0-100 1 2 3 4 5 Classe Max Min 75% 25% Mediana
Características das Classes Nº de Quartos e Suites 5 Box Plot: Número de Quartos e Suites por Classe 4 Número de Quartos e Suites 3 2 1 0 1 2 3 4 5 Non-Outlier Max Non-Outlier Min 75% 25% Median Extremes CLASSE
Características das Classes Infraestrutura do condomínio 18 Box Plot variável INFRA por classe 14 10 INFRA 6 2-2 1 2 3 4 5 CLASSE Non-Outlier Max Non-Outlier Min 75% 25% Median Extremes
Características das Classes Localização Box Plot: Distância ao Mar por Classe 3ª quadra ou mais Distância ao Mar 2ª quadra 1ª quadra Frente ao Mar 1 2 3 4 5 CLASSES Non-Outlier Max Non-Outlier Min 75% 25% Median Outliers
Localização Classes 1 e 2: distribuição uniforme Classe 3: mais distantes da praia Classes 4 e 5: próximas da praia
INFERÊNCIA ESTATÍSTICA 1ª etapa: equação única log (Preço) = 7,05 + 0,78 * log (Área) - 0,00048 * DMAR + 0,16 * N_elev + 0,68 * Q_Poliesp + 0,05 * Andar + 0,19 * Sacada R 2 = 0,8477 R 2 a = 0,8363 outliers: 6 elementos resíduos maiores para os valores mais elevados do valor estimado: heterocedasticidade
INFERÊNCIA ESTATÍSTICA 1ª etapa: equação única Outliers e heterocedasticidade
EQUAÇÃO ÚNICA Todas as equações testadas apresentaram problemas quanto aos resíduos padronizados outliers Os outliers não foram os mesmos elementos para as diferentes equações Elementos mais diferenciados da média não são bem avaliados pela equação
2ª ETAPA: REGRESSÃO MÚLTIPLA POR CLASSE CLASSE 1: Preço = -24862,3 + 14496,4 * FM + 13340,3 * DM2 + 8426,0 * Est_visi + 540,8 * Área_dis + 16315,0 * N_Qua R 2 = 0,9236 R 2 a = 0,9077 Semoutliers Homocedasticidade
2ª ETAPA: CLASSE 1 Sem Outliers e homocedasticidade
2ª ETAPA: REGRESSÃO MÚLTIPLA POR CLASSE CLASSE 2: Preço = -118110 + 37501 * log (Área) - 23 * DMAR + 29870 * Piscina + 18392 * Est_visi + 9732 * Churr_ind R 2 = 0,9702 R 2 a = 0,9609 Semoutliers Homocedasticidade
2ª ETAPA: REGRESSÃO MÚLTIPLA POR CLASSE CLASSE 3: log (Preço) = 7,27 + 0,67 * log (Área) + 0,45 * FM + 0,44 * DM2 + 0,54 * Sacada R 2 = 0,9745 R 2 a = 0,9672 Semoutliers Homocedasticidade
2ª ETAPA: REGRESSÃO MÚLTIPLA POR CLASSE CLASSES 4 e 5: log (Preço) = 6,37 + 1,03 * log (Área) + 1,71 * FM + 1,53 * Dep_emp - 1,34 * Classe5 R 2 = 0,9795 R 2 a = 0,9713 Semoutliers Homocedasticidade
ERRO RELATIVO (%)
ERRO RELATIVO (%) Modelos por classe tem resultados melhores em todas estatísticas
RESULTADOS Existência de classes homogêneas de apartamentos Para obter esta homogeneidade foi necessário considerar simultaneamente as variáveis de tamanho e de infraestrutura Uma classificação por apenas um destes critérios manteria a heterogeneidade dentro das classes
RESULTADOS Modelos de Equação Única: não foram adequados para uma avaliação em massa (outliers e heterocedasticidade) Equações de Regressão por Classe: Resultados de boa qualidade (sem outliers, homocedssticidade)
CONCLUSÕES Técnicas multivariadas permitiram classificação adequada, usando-se toda a informação disponível Obteve-se parâmetros objetivos para medir a homogeneidade das classes Classes: Grupos Homogêneos adequados para a avaliação por inferência estatística dentro de cada classe
Bibliografia AMO, Sandra de. Curso de Data Mining. http://www.deamo.prof.ufu.br/arquivos/aula13.pdf BRANCO, João A. Introdução à análise de clusters. https://fenix.tecnico.ulisboa.pt/downloadfile/3779579704252/slidesacluster.pdf PERUZZO TRIVELLONI, C. A. Metodologia para avaliação em massa de apartamentos por inferência estatística e técnicas de análise multivariada Uma análise exploratória.dissertação, Programa de Pós-Graudaçãoem Engenharia Civil, Universidade Federal de Santa Catarina, 1998.
Análise de Clusters na Montagem de Modelos para Avaliação de Imóveis Prof. Dr. Norberto Hochheim Universidade Federal de Santa Catarina - UFSC