Preços de venda de imóveis residenciais em Seattle estudo estatístico

Transcrição

1 Faculdade de Engenharia da Universidade do Porto Departamento de Engenharia Industrial e Gestão Preços de venda de imóveis residenciais em Seattle estudo estatístico Mestrado Integrado em Engenharia Industrial e Gestão Ano letivo 013/014.º semestre Estatística II Grupo 1 Ana Rodrigues Andreia Lourenço Gina Gonçalves Hermano Maia Professores Miguel Gomes Armando Leitão Porto, maio de 014

2 Preço de venda de imóveis em Seattle FEUP MIEIG Estatística II Grupo 1 Índice Introdução... 1 Conceitos Gerais e Metodologia... Análise inicial dos dados... 4 Será que os preços dos imóveis em Seattle aumentaram?... 7 Intervalos de confiança... 7 Testes paramétricos... 9 Testes não paramétricos Testes de Qualidade de Ajuste Teste de Localização de Mann-Whitney-Wilcoxon Bootstrap Permutation Test Resumo dos testes de hipótese Conclusões e considerações finais Bibliografia... 0 I

3 Preço de venda de imóveis em Seattle FEUP MIEIG Estatística II Grupo 1 Índice de tabelas e gráficos Índice de tabelas Tabela 1. Amostra relativa ao preço de venda de imóveis em Tabela. Amostra relativa ao preço de venda de imóveis em Tabela 3. Estatísticas diversas relativas às amostras... 5 Tabela 4. Resumo dos testes de hipótese efetuados Índice de gráficos Gráfico 1. Histograma para o preço das vendas de Gráfico. Histograma para o preço das vendas de Gráfico 3. Boxplot para as amostras originais de 000 e Gráfico 4. QQ-plot para as amostras de 000 (sem outliers) e Gráfico 5. Representação esquemática dos intervalos de confiança para o valor esperado... 7 Gráfico 6. Histograma para a diferença das trimean das amostras Bootstrap Gráfico 7. QQ-plot para a diferença das trimean das amostras Bootstrap Gráfico 8. Histograma para a diferença das médias das amostras do Permutation Test Gráfico 9. Histograma para a diferença das medianas das amostras do Permutation Test II

4 Preço de venda de imóveis em Seattle FEUP MIEIG Estatística II Grupo 1 Introdução O presente estudo estatístico visa analisar a evolução dos preços de venda dos imóveis residenciais de Seattle, particularmente no que concerne à eventual existência de um aumento dos mesmos do ano de 000 para o ano de 001. A análise estatística tem por base duas amostras aleatórias (uma para o ano de 000 e outra para o ano de 001) obtidas através dos registos do avaliador da cidade. Estas amostras, de dimensão distinta, incluem dados sobre a venda de imóveis residenciais, condomínios e imóveis comerciais, excluindo parcelas de terrenos não urbanizados. Este relatório, que se constitui, a par da folha de cálculo, como o produto resultante do estudo elaborado, apresenta os conceitos das técnicas estatísticas realizadas, de forma resumida, e a metodologia adotada. Segue-se uma secção na qual serão indicados e analisados os resultados obtidos, apoiados em tabelas e gráficos ilustrativos, bem como explicadas, com mais precisão, as etapas das diversas técnicas utilizadas. Finalmente, apresentar-se-ão as conclusões retiradas e considerações finais. 1 -

5 Preço de venda de imóveis em Seattle FEUP MIEIG Estatística II Grupo 1 Conceitos Gerais e Metodologia Inicialmente, procedeu-se a uma análise estatística univariada, que implicou o cálculo de estatísticas de localização e de dispersão, bem como a representação gráfica através de histogramas e de Quantile-Quantile (QQ) e Probability-Probability (PP) Plots. No decurso desta etapa, considerou-se oportuno ser tida em conta uma terceira amostra, que resultou da amostra de 000, mas sem incluir duas observações que foram consideradas outliers (valores atípicos que apresentam grande afastamento face aos restantes), uma vez que em determinados testes tais valores poderiam afetar de forma significativa os resultados. Posteriormente, recorreu-se à estimação por intervalo, isto é, à elaboração de intervalos de confiança para a razão das variâncias e para a diferença dos valores esperados, para uma significância (α) de 5%. De seguida, efetuaram-se testes paramétricos (testes que incidem explicitamente sobre um parâmetro de uma ou mais populações e cuja estatística de teste (ET) pressupõe uma forma particular das distribuições populacionais). Serão apresentados os resultados para o teste de localização à diferença entre valores esperados de duas populações (teste t) e para o teste de dispersão à razão de variâncias entre duas populações normais (teste F). Estes testes foram realizados considerando e excluindo os outliers. Ulteriormente, recorreu-se a testes não-paramétricos. Neste caso, só foram analisadas as amostras originais, isto é, com os outliers, uma vez que este tipo de testes apresenta um grau de robustez que permite acomodar estes valores atípicos. Neste grupo estão os testes: Kolmogorov-Smirnov (KS) Lilliefors: teste de qualidade de ajuste no qual os parâmetros são estimados a partir das amostras, pressupondo-se que a variável aleatória em análise é quantitativa e contínua. Este teste foi realizado para avaliar se os preços de venda dos imóveis se ajustavam a uma distribuição normal. Kolmogorov-Smirnov (KS) para duas amostras independentes: teste de qualidade de ajuste que pressupõe uma variável aleatória quantitativa e contínua, pretendendo-se avaliar se as duas amostras são provenientes de uma única população ou de duas igualmente distribuídas. -

6 Preço de venda de imóveis em Seattle FEUP MIEIG Estatística II Grupo 1 Mann-Whitney-Wilcoxon (MWW): teste de localização que pretende analisar se as medianas de duas populações contínuas, com a mesma forma, se localizam no mesmo ponto. Além dos testes descritos, recorreu-se à técnica bootstrap, que possibilita, em situações em que não se conhece a distribuição da população e o número de dados da amostra é pequeno, estimar parâmetros populacionais a partir de uma amostra. Além de que, tal como os testes de qualidade de ajuste, permite estudar a hipótese de duas amostras provirem de uma única população. Este processo envolve a geração de várias amostras, aleatoriamente, com base na amostra inicial e, por isso, a capacidade de cálculo dos computadores facilita o processo que requer elevados recursos computacionais. Por último, aplicou-se um permutation test que também parte da geração de vários valores aleatórios 1 mas, neste caso, para obter amostras sem reposição. Considerando que as populações são idênticas (hipótese nula), estas amostras dão origem a uma única (de dimensão N) que agrupa as observações das duas amostras individuais. Gera-se, então, um grande número de amostras de dimensão N, sendo que, para todas as novas amostras, os primeiros N A valores são atribuídos à população A e os restantes N B são atribuídos à população B. Refira-se ainda que durante a execução deste estudo foram realizados outros testes (incluídos na folha de cálculo), mas que, no decurso da mesma, foram considerados desadequados ou sem relevância e, por isso, não serão analisados neste relatório. 1 No caso dos Permutation Tests, os números aleatórios corresponderão a números de ordem que serão posteriormente associados às observações das amostras originais. 3 -

7 Tabela 1. Amostra relativa ao preço de venda de i móveis em 000 Gráfico. Histogr ama para o pre ço das vendas de 001 Preço de venda de imóveis em Seattle FEUP MIEIG Estatística II Grupo 1 Análise inicial dos dados Das tabelas 1 e constam as amostras que serviram de base à elaboração do presente estudo. Vendas de 000 (em milhares de dólares) ,5 1836* * 194, ,5 199, ,95 *outliers Tabela. Amostra relativa Tabela ao 1. Amostra preço de relativa venda ao de preço imóveis de venda em 001 de imóveis em 000 Vendas de 001 (em milhares de dólares) , ,78 1, 15,70 66,6 69, , , , , ,905 39,9 369, , , ,5 70 Gráfico 1. Histograma para o preço das vendas de 000 Tabela. Amostra relativa ao preço de venda de imóveis em Vendas de 000 Preço de venda (milhares de dólares) Gráfico 1. Histograma para o preço das vendas de Vendas de 001 Preço de venda (milhares de dólares) Gráfico. Histograma para o preço das vendas de 001 Antes de serem realizados os testes adequados à análise do problema proposto, concretizou-se uma avaliação dos dados facultados no sentido de averiguar a existência 4 -

8 Tabela 3. Estatísticas diversas relativas às amostras Gráfico 3. Boxpl ot para as amostras originais de 00 0 e 001 Preço de venda de imóveis em Seattle FEUP MIEIG Estatística II Grupo 1 de valores atípicos (outliers) que pudessem afetar os resultados das técnicas acima referidas e saber quais seriam esses valores. Constatou-se, nomeadamente pela análise dos histogramas dos gráficos 1 e, que existem aparentemente dois outliers (1100 e 1836) que são muito superiores aos restantes e que respeitam à amostra do ano 000 (sinalizados a cinzento no histograma respetivo). Uma vez que se pretende analisar o comportamento dos preços de imóveis residenciais e tendo em conta que as amostras incluem também valores respeitantes a imóveis comerciais, aqueles valores atípicos podem não corresponder à venda dos imóveis sobre os quais o presente estudo recai (imóveis residenciais). Desta forma, no decurso do trabalho, as técnicas estatísticas foram aplicadas para ambas as possibilidades, ou seja, incluindo e não incluindo os outliers. Na tabela 3 apresentam-se algumas estatísticas calculadas para as amostras. A comparação das amostras originais, através da média, sugere valores mais elevados para as vendas de 000, contudo se a análise for feita com base na mediana ou na trimean a situação inverte-se N 0 50 (18) Mínimo* 16,5 50,0 1.º Quartil* 177,5 185,5 (17,) Mediana* 4,8 60,8 (05,3) 3.º Quartil* 359,8 46,8 (339,5) Máximo* 1836,0 710,0 (475,5) Média* 368,9 88,9 (46,8) Trimean* 46,7 83,5 (30,6) Desvio Padrão* 405,6 156, (100,1) Kurtose 9,635 0,07 (-0,175) Assimetria 3,037 (0,815) 0,690 *valores em milhares. Tabela 3. Estatísticas diversas relativas às amostras. (entre parêntesis surgem estatísticas calculadas sem considerar outliers) Trimean = (1. ºQuartil + Mediana + 3. ºQuartil)/4 5 -

9 Gráfico 4. QQ-plot para as amostras de 000 (sem outliers) e 00 1 Valores Teóricos Preço de venda (milhares de dólares) Preço de venda de imóveis em Seattle FEUP MIEIG Estatística II Grupo Gráfico 3. Boxplot para as amostras originais de 000 e 001 O boxplot, presente no gráfico 3, sugere alguma assimetria dos dados, particularmente da amostra de 000. Considerou-se, por isso, oportuno construir um QQ-plot (neste caso o ano de 000 será analisado já sem os outliers) o qual constitui o gráfico QQ Plot Valores da amostra (milhares de dólares) 000 s/out 001 Gráfico 4. QQ-plot para as amostras de 000 (sem outliers) e 001. O coeficiente de determinação amostral para a amostra de 001 é de 95,45%, enquanto para a amostra de 000 é de 9,05%. Apesar destes valores não serem muito baixos para que se coloque em causa a normalidade, a análise do QQ-plot revela novamente alguma assimetria e desvios face à reta de ajuste. Foram também construídos intervalos de confiança para o valor esperado. Estes intervalos foram calculados de forma distinta para 000 e 001, dado que a amostra para o 6 -

10 Gráfico 5. Repre sentação esquemáti ca dos intervalos de confi ança para o valor esperado Preço de venda de imóveis em Seattle FEUP MIEIG Estatística II Grupo 1 primeiro caso é de pequena dimensão e assimétrica, enquanto para o segundo a amostra é de grande dimensão. Assim, para o ano de 000 o intervalo resulta da fórmula X ± Z(α/) σ/ N, podendo-se afirmar, com 95% de confiança, que o valor esperado das vendas do ano de 000 está compreendido entre 179,1 e 558,8 milhares de dólares. Se analisarmos o mesmo ano, mas excluindo os outliers, a amplitude reduz-se significativamente, obtendo-se o intervalo [197,0; 96,6]. Por outro lado, para o ano de 001 o intervalo a 95% de confiança, que resulta da fórmula X ± t N 1 (α/) s/ N, é [45,6; 33,]. O gráfico 5 constitui uma representação esquemática destes intervalos de confiança (o valor da média amostral está assinalado com um triângulo). Gráfico 5. Representação esquemática dos intervalos de confiança para o valor esperado. (escala em milhares de dólares) Será que os preços dos imóveis em Seattle aumentaram? Intervalos de confiança 3 Após a análise inicial, construíram-se intervalos de confiança para a diferença de valores esperados para compreender se os preços de venda dos imóveis são mais elevados em 001 do que em 000. Como se pretende analisar uma possível subida de preços, os intervalos serão abertos à direita. Admitiu-se, para tal, que as amostras são independentes e que foram recolhidas de forma aleatória de populações que seguem distribuições normais, com valores esperados μ 000 e μ 001 e variâncias σ 000 e σ 001. A amostra de 000 (com média amostra X 000 e variância amostral s 000) apresenta uma dimensão N 000=0, pelo que, sendo assimétrica, é considerada uma amostra de pequena dimensão. Por seu turno, a amostra de 001 (com 3 Ao longo do estudo, a unidade em que os intervalos de confiança serão expressos será o milhar de dólar. 7 -

11 Preço de venda de imóveis em Seattle FEUP MIEIG Estatística II Grupo 1 média amostral X 001 e variância amostral s 001) apresenta uma dimensão N 001=50, sendo, portanto, uma amostra de grande dimensão. Desta forma, para a construção do intervalo de confiança para a diferença dos valores esperados, considerou-se, mesmo havendo uma amostra de grande dimensão, que ambas as amostras eram de pequenas dimensões. Neste caso, não são válidas as aproximações S 000 σ 000 e S 001 σ 001. Assim, primeiramente, realizou-se um intervalo de confiança para a razão de variâncias populacionais, uma vez que estas são desconhecidas. Com o pressuposto de que as duas populações são normais, o intervalo de confiança é dado por: 1 [ F N000 1, N001 1 ( α ) S 000 S 001, 1 F N000 1, N001 1 (1 α ) S 000 ] (1) S 001 Com um nível de significância de 5%, o intervalo de confiança ([3,3; 15,]) não contém o valor 1, pelo que se admite a não igualdade das variâncias. Consequentemente, o intervalo de confiança para a diferença de valores esperados aberto à direita é dado por: [(X 001 X 000 ) t GL ( α ) s s 000 ; + [ () N 001 N 000 Com: GL = ( s s 000 ) N 001 N 000 ( s 001 N ) ( 001 N s 000 N ) 000 N (3) Uma vez que se obteve o intervalo [-40,73; + [, estando o valor 0 (zero) incluído, pode afirmar-se, com 95% de confiança, que os valores esperados para as vendas de 000 e 001 são iguais, não havendo, portanto, um aumento de preços. Note-se que a amplitude deste intervalo de confiança é elevada. Como as médias amostrais são afetadas por outliers, construíram-se também intervalos de confiança para os valores esperados e para a razão de variâncias sem considerar esses valores. 8 -

12 Preço de venda de imóveis em Seattle FEUP MIEIG Estatística II Grupo 1 Para a construção dos intervalos de confiança sem outliers os pressupostos tidos em conta para o intervalo de confiança para diferença de valores esperados com outliers mantêm-se, tendo apenas em conta que a dimensão N 000 é reduzida em duas unidades, devido à eliminação dos dois valores atípicos, ficando N 000=18. Torna-se, da mesma forma, necessária a execução de um intervalo de confiança para a razão de variâncias, admitindo, uma vez mais, a normalidade das populações. Neste caso, para um nível de significância de 5%, obtém-se o intervalo [1,03; 5,1] 4, e, apesar de o limite inferior estar muito próximo de 1, considera-se também que as variâncias são diferentes. Posto isto, a fórmula que permite calcular o intervalo de confiança para a diferença de valores esperados sem outliers mantém-se, pelo que para α=5%, o intervalo de confiança é [-1,41;+ [, havendo evidências estatísticas que permitem admitir que os valores esperados são idênticos, já que o intervalo obtido contém o valor 0 (zero). É de notar que a amplitude do intervalo é menor (intervalo mais restrito) do que a verificada anteriormente com N 000=0. Testes paramétricos Como alternativa aos intervalos de confiança, surgem os testes paramétricos, os quais estabelecem uma hipótese nula (H 0) e uma hipótese alternativa (H 1), sendo o objetivo destes testes a rejeição de H 0 (quando tal não ocorre, considera-se o teste inconclusivo). É expectável que as inferências retiradas da análise dos intervalos de confiança sejam as mesmas que podem ser retiradas após a realização deste tipo de testes. Mantendo os pressupostos estabelecidos para os intervalos de confiança, ou seja, que as amostras são de pequenas dimensões e que provêm de populações normais, o teste a utilizar para a diferença dos valores esperados será o teste t de student. As hipóteses serão: H 0: μ 000 = μ 001 H 1: μ 001 > μ 000 (teste unilateral à direita) 4 Este intervalo foi calculado com a fórmula (1), mas trocando o ano de 000 com o 001, de forma a permitir que no numerador surgisse a variância amostral com valor mais elevado. 9 -

13 Preço de venda de imóveis em Seattle FEUP MIEIG Estatística II Grupo 1 Tal como nos intervalos de confiança, é necessária a execução de um teste à razão das variâncias, admitindo que são populações normais. O teste a ser realizado é o teste F, para ambos os casos, com e sem outliers. As hipóteses serão: H 0: σ 000 = σ 001 H 1: σ 001 σ 000 (teste bilateral) A estatística de teste é: ET = S 000 (4) S Quando H 0 é verdadeira, a estatística de teste tem a seguinte distribuição: ET F N000 1,N (5) Incluindo os outliers, o teste apresenta uma estatística de teste de 6,61, valor crítico de,0 e valor de prova inferior a uma centésima percentual. Assim, como a estatística de teste é superior ao valor crítico, H 0 é rejeitada, pelo que não há evidências estatísticas que permitam admitir que as variâncias das populações sejam iguais. O mesmo se conclui com a comparação entre o valor de prova e o nível de significância considerado, α=5%, visto que o valor de prova é inferior à significância. Desta forma, a estatística de teste para a diferença de valores esperados vem dada por: ET = (X 001 X 000 ) s s 000 N 001 N 000 (6) Com, GL = ( s 001 N + s N ) 000 ( s 001 ) ( N 001 N s 000 ) N 000 N (7) Quando H 0 é verdadeira, a estatística de teste segue uma distribuição t de student, como referido, com GL graus de liberdade. Com 1 graus de liberdade e sendo o teste unilateral 5 Para a situação de não inclusão dos outliers, a ET resultou do inverso desta fórmula, para se manter o tipo de teste (unilateral à direita). 10 -

14 Preço de venda de imóveis em Seattle FEUP MIEIG Estatística II Grupo 1 à direita, a estatística de teste toma o valor de -0,86, o valor crítico é 1,7 e, por fim, o valor de prova é 79,9%. Visto que a estatística de teste é inferior ao valor crítico, não há evidências estatísticas que apoiem a rejeição da hipótese nula, podendo admitir-se que os valores esperados são semelhantes. No caso sem outliers, no teste à razão das variâncias, obtêm-se os seguintes resultados: ET =,48; valor crítico =,41 e valor de prova = 4,30%. Através destes resultados é apoiada a rejeição de H 0, na medida em que, apesar de muito próximos, a estatística de teste é superior ao valor crítico. Assim, admite-se que as variâncias das populações são diferentes. Por esta razão, a estatística de teste para a diferença de valores esperados é dada pela mesma fórmula que a admitida no caso com outliers. Em virtude deste facto e concretizando um teste unilateral à direita os resultados são: ET = 1,30; valor crítico = 1,68; valor de prova = 10,1%. A estatística de teste é inferior ao valor crítico, pelo que não há evidências estatísticas que apoiem a rejeição da hipótese nula. Como tal, conclui-se que os valores esperados das duas populações são iguais. Caso se tivesse realizado este teste pressupondo a igualdade das variâncias a inferência seria a mesma já que ET seria 1,06 e o valor crítico seria 1,67. Os testes paramétricos foram inconclusivos, na medida em que não houve evidências estatísticas para rejeitar H 0. Conduziram, então, às mesmas conclusões retiradas através da construção de intervalos de confiança, o que era expectável. A relação fundamental que existe entre os testes de hipótese e os intervalos de confiança prende-se com a rejeição da hipótese nula. De uma forma geral, se designarmos H 0: θ = θ 0, esta pode ser rejeitada a um nível de significância α se, e só se, o intervalo de confiança de θ a (1 α) 100% não incluir o valor de θ 0. Testes não paramétricos Testes de Qualidade de Ajuste Para testar a normalidade das amostras realizaram-se testes de Kolmogorov-Smirnov Lilliefors, para as diferentes amostras (ano 000, com e sem outliers, e ano 001), admitindo que as amostras são aleatórias e independentes. 11 -

15 Preço de venda de imóveis em Seattle FEUP MIEIG Estatística II Grupo 1 No caso do ano 000, com outliers, a hipótese nula (a distribuição é normal com valor esperado igual à média amostral e variância populacional igual à variância amostral) foi rejeitada, a um nível de significância de 5%, uma vez que a estatística de teste (0,393) é superior ao valor crítico (0,1900). Assim, o teste sugere que esta amostra não é ajustável por uma distribuição normal de média 369 e variância Na análise relativa a este mesmo ano, agora sem incluir os outliers, a estatística de teste (0,083) é superior ao valor crítico (0,000), pelo que, a um nível de significância de 5%, o teste apontaria no sentido da rejeição de H 0. Contudo, caso se adotasse um nível de significância de 1%, a decisão seria a inversa, o que se justifica por o valor de prova estar compreendido no intervalo ]1; 5[ %. Assim, embora com algumas reservas, considera-se plausível admitir que a população segue uma distribuição normal de média 47 e variância Quanto ao ano 001, o valor de prova é maior do que 0%, pelo que H 0 não é rejeitada e se admite que a amostra segue uma distribuição normal de média 89 e variância Note-se que nestes testes a rejeição de H 0 pode não estar associada ao facto da distribuição ser ou não normal, mas por os parâmetros estimados (média e variância) não serem os verdadeiros. Nos intervalos de confiança e testes paramétricos anteriormente realizados, admitiu-se a normalidade das populações. Ora, após realizados estes testes de KS-Lilliefors, pode colocar-se em causa esse pressuposto, principalmente para a amostra original de 000. Realizou-se ainda um teste de Kolmogorov-Smirnov para duas amostras, com o objetivo de perceber se as amostras do ano 000 e do ano 001 provêm ou não de populações contínuas com comportamentos semelhantes, admitindo, mais uma vez, a independência e aleatoriedade das amostras. Neste caso, o teste foi realizado apenas com as amostras originais, pois o teste não paramétrico consegue acomodar os outliers. A hipótese nula (F 000(x) = F 001(x)) não foi rejeitada, uma vez que o valor de prova é superior a 0%. Assim, analisando os resultados de forma análoga ao que foi feito nos testes anteriores, não há evidência estatística de que as duas amostras não tenham comportamento semelhante. 1 -

16 Preço de venda de imóveis em Seattle FEUP MIEIG Estatística II Grupo 1 Testou-se, ainda, a título teórico, o ajuste a uma distribuição exponencial negativa, tendo a hipótese nula sido rejeitada para amostra do ano de 001 (N=50), mas não para as amostras de 000 (N=0 ou N=18). No entanto, nestes últimos casos, a dimensão da amostra é pequena, pelo que os resultados do teste poderão não ser representativos. Teste de Localização de Mann-Whitney-Wilcoxon Como se pretende avaliar se a mediana de 001 é superior à de 000 utilizou-se o teste de MWW. Como já referido, teve-se em consideração as amostras originais dado que os testes não-paramétricos suportam este tipo de anormalidade. Admitindo que as duas populações são contínuas, com igual forma, formularam-se as seguintes hipóteses: H 0: ƞ000=ƞ001-- H 1: ƞ000<ƞ001 6 Para o cálculo da estatística de teste, ordenou-se de forma crescente todas as observações atribuindo um número de ordem a cada uma, começando por 1 e terminado em 70 (soma das dimensões das duas amostras). De seguida, calculou-se W, que corresponde à soma dos números de ordem da amostra de menor dimensão (000). A estatística de teste é dada por: ET = W N 000 (N + 1)/ N 001 N 000 (N + 1)/1 (8) Quando H 0 é verdadeira, a estatística de teste possui uma distribuição simétrica. Sendo que, para a dimensão das amostras em causa, se pode aproximar essa distribuição por uma distribuição normal, com valor esperado N 000 (N + 1)/ e variância N 001 N 000 (N + 1)/1. Sendo assim, o teste unilateral à esquerda apresenta uma estatística de teste de -0,1885, um valor crítico de -1,645 e valor de prova igual a 4,5%. Portanto, como o valor de prova é superior ao nível de significância de 5%, conclui-se que a hipótese nula não é rejeitada e que o teste é inconclusivo, isto é, o teste aponta para que as medianas das populações em questão se localizem no mesmo ponto. 6 A formulação de H1 teve em conta o facto de a amostra de menor dimensão ser a de 000 e, por isso, o teste é unilateral à esquerda. 13 -

17 Gráfico 6. Histogr ama para a di ferença das trime an das amostras Bootstrap Preço de venda de imóveis em Seattle FEUP MIEIG Estatística II Grupo 1 Bootstrap Outra técnica estatística utilizada neste estudo foi o bootstrap. Para tal, foram geradas 999 amostras, com reposição, de dimensão 0 baseadas nas observações relativas ao ano de 000 e outras 999 amostras, com reposição, de dimensão 50 baseadas nas observações do ano de 001. Para cada amostra foi calculada a média, a mediana e a trimean e, posteriormente, obteve-se a diferença destes valores entre as amostras relativas a 001 e as relativas a 000. Uma vez que, até ao momento, já foram analisadas as médias populacionais (intervalos de confiança e testes paramétricos) e as medianas populacionais (teste não paramétrico de Mann-Whitney-Wilcoxon), atentemos na amostra de bootstrap para a diferença das trimean Histograma diferenças trimean Gráfico 6. Histograma para a diferença das trimean (milhares de dólares) das amostras bootstrap A análise do gráfico 6 mostra alguma assimetria na distribuição da diferença das trimean, pelo que para analisar a normalidade da mesma se construiu um QQ-plot e se calculou o coeficiente de determinação amostral. O QQ-plot apresenta dispersão nas caudas e um coeficiente de determinação amostral de 94,5%. Desta maneira, há a sugestão de que a diferença das trimean não segue uma distribuição normal. 14 -

18 Gráfico 7. QQ-plot para a diferença das trimean das amostras Bootstrap Valores Teóricos Preço de venda de imóveis em Seattle FEUP MIEIG Estatística II Grupo QQ-Plot Diferenças Trimean Valores da amostra (milhares de dólares) Gráfico 7. QQ-plot para a diferença das trimean (milhares de dólares) das amostras Bootstrap. (os eixos intersetam-se para x=-300 e y=-00) Consequentemente, a construção de intervalos de confiança não faz sentido, pelo que se procedeu ao cálculo de um intervalo baseado nos percentis,5% e 97,5%, obtendo-se [-11,9; 96,74]. Uma vez que o valor 0 (zero) está contido no intervalo, há a sugestão de que os preços de 001 não aumentaram, quando comparados com os de 000. Permutation Test A última técnica estatística utilizada foi o Permutation Test. Trata-se de um caso particular de testes não-paramétricos, para o qual a estatística de teste corresponde ao valor de uma estatística, como a diferença das médias, das medianas ou das trimean, relativo às amostras originais. A hipótese nula é formulada no sentido de as duas amostras provirem de populações com a mesma distribuição, pelo que, sendo verdadeira, deverá haver um número semelhante de iterações para as quais a diferença das médias/medianas/trimean é superior a zero ou inferior a zero. Por outro lado, o valor de prova é calculado a partir do quociente entre o número de iterações em que a estatística em análise assume um valor igual ou mais extremo que ET e o número total de iterações (somando-se, no numerador e no denominador, uma unidade que corresponde à amostra original). Foram, então, e de acordo com o já explicitado na secção de Metodologia do presente estudo, efetuadas 999 iterações que conduziram a 999 amostras sem reposição de 15 -

19 Gráfico 8. Histogr ama para a di ferença das médias das amostras do Per mutation Te st <-155 [-155,-145] [-145,-135] [-135,-15] [-15,-115] [-115,-105] [-105,-95] [-95,-85] [-85,-75] [-75,-65] [-65,-55] [-55,-45] [-45,-35] [-35,-5] [-5,-15] [-15,-5] [-5,5] [5,15] [15,5] [5,35] [35,45] [45,55] [55,65] [65,75] [75,85] [85,95] [95,105] [105,115] [115,15] [15,135] [135,145] >145 Preço de venda de imóveis em Seattle FEUP MIEIG Estatística II Grupo 1 dimensão 70 referentes à diferença das médias/medianas/trimean, sendo os primeiros 0 valores atribuídos ao ano 000 e os restantes ao ano 001. A análise recairá sobre a diferença das médias e sobre a diferença das medianas, cujos histogramas relativos às 999 amostras geradas estão representados, respetivamente, nos gráficos 8 e 9. Nestes gráficos o valor da estatística para as amostras originais está salientado através de uma reta vertical Histograma Diferenças Médias 0 Gráfico 8. Histograma para a diferença das médias (milhares de dólares) das amostras do Permutation Test. A reta vertical corresponde à ET. Gráfico 9. Histograma para a diferença das medianas das amostras do Permutation Test Histograma Diferenças Medianas Gráfico 9. Histograma para a diferença das medianas (milhares de dólares) das amostras do Permutation Test. A reta vertical corresponde à ET. A diferença das médias e a diferença das medianas considerando as amostras originais é de, respetivamente, -80,0 e 36,05 milhares de dólares. O teste de permutação aplicado 16 -

20 Tabela 4. Re sumo dos testes de hipótese e fetuados Preço de venda de imóveis em Seattle FEUP MIEIG Estatística II Grupo 1 conduziu a um valor de prova de 88,0% no primeiro caso e de 8,7% no segundo caso. Como se usou um nível de significância de 5%, para ambos os casos não é possível rejeitar H 0. Atente-se, contudo, que o valor de prova para o teste cuja estatística foi a diferença das médias é muito elevado, o que poderá advir da presença dos outliers. Construíram-se também, à semelhança do realizado no bootstrap, intervalos de confiança. A análise do gráfico 8 mostra assimetria na distribuição das diferenças das médias amostrais e no gráfico 9 a forma da distribuição das diferenças de medianas parece muito díspar da forma sinusoidal de uma distribuição normal. Por isso, há a sugestão de que estas distribuições não são normais, pelo que os intervalos calculados se basearam nos percentis,5% e 97,5%. Obteve-se para a primeira situação o intervalo [-19,99; 11,09] e para a segunda situação [-90,75; 76,75]. Em ambos os intervalos, como o valor 0 (zero) está incluído, não há evidências estatísticas que indiquem a rejeição de H 0, ou seja, os intervalos sugerem que as vendas de 000 e 001 foram realizadas a preços semelhantes. Resumo dos testes de hipótese Teste Valor de Prova Conclusão Diferença valores esperados com outliers 79,9% Teste inconclusivo Diferença valores esperados sem outliers 10,1% Teste inconclusivo KS para amostras >0% Teste inconclusivo Mann-Whitney-Wilcoxon 4,5% Teste inconclusivo Permutation Test Diferença Médias 88,0% Teste inconclusivo Permutation Test Diferença Medianas 8,7% Teste inconclusivo Tabela 4. Resumo dos testes de hipótese efetuados 17 -

21 Preço de venda de imóveis em Seattle FEUP MIEIG Estatística II Grupo 1 Conclusões e considerações finais O presente estudo estatístico pretendia responder à questão Será que os preços dos imóveis residenciais de Seattle aumentaram?, através da comparação dos preços das vendas de 001 com os de 000. As amostras disponíveis apresentam um inconveniente que reside no facto de não se cingirem a vendas de imóveis residenciais, uma vez que os registos de que partiram englobam também as vendas comerciais. Seattle é uma cidade portuária do estado de Washington dos EUA, com 4 milhões de habitantes, sendo descrita como um grande centro financeiro, comercial, industrial e turístico [1]. Por isso, não se considerou apropriado desprezar as vendas de imóveis comerciais, face às vendas de imóveis residenciais. Desta forma, ao longo do estudo, a análise do problema baseou-se nas amostras originais e também nessas amostras mas eliminando valores atípicos que se atribuíram a eventuais vendas comerciais. Após a realização e análise das várias técnicas de inferência estatística utilizadas, não foi possível reunir evidências estatísticas que apoiassem a teoria da subida dos preços de venda dos imóveis residenciais do ano de 000 para o ano de 001, mesmo quando se analisavam as amostras sem os outliers. Os intervalos de confiança abertos à direita obtidos para a diferença de valores esperados apresentam um limite inferior bastante mais próximo de zero quando a análise é feita sem os outliers, mas, ainda assim, esse valor é de -1,41 mil dólares (no teste de hipótese correspondente o valor de prova foi de 10,1%). Além disso, o teste KS para as duas amostras originais, resultou num valor de prova superior a 0%, sugerindo a semelhança das distribuições dos preços de vendas de 000 e 001. No mesmo sentido, o teste de MWW, com um valor de prova de 4,5%, não permitiu suportar a tese de a mediana dos preços de 001 ser superior à verificada para os preços de 000. Face a isto, tentou-se ainda analisar o comportamento de uma outra estatística, a trimean, nomeadamente através do teste bootstrap. Novamente, não foi possível concluir no sentido do aumento dos preços. 18 -

22 Preço de venda de imóveis em Seattle FEUP MIEIG Estatística II Grupo 1 Em suma, os testes realizados consubstanciaram-se como inconclusivos, e, por isso, não é possível apoiar a possibilidade de ter existido uma subida de preços, independentemente de se considerarem ou não os outliers ou da estatística em análise ser a média, a mediana ou a trimean. Contudo, destaque-se a importância de, para o ano de 000, obter uma amostra de maior dimensão, uma vez que aquela que foi recolhida não se mostrou representativa. Por um lado, a amostra era de pequena dimensão e, por outro, continha dois outliers, pelo que, ao desconsiderá-los, a dimensão da amostra resultante era ainda mais reduzida. Se fosse, então, possível obter uma nova amostra para as vendas de 000 e, por outro lado, que as amostras reunissem valores apenas relativos ao objeto do estudo (imóveis residenciais), seria interessante repetir os testes realizados para averiguar a plausibilidade da existência de uma subida dos preços dos imóveis residenciais em Seattle. 19 -

23 Preço de venda de imóveis em Seattle FEUP MIEIG Estatística II Grupo 1 Bibliografia Campos Guimarães, R. & Sarsfield Cabral, J. Estatística. ISBN: Materiais Adicionais disponibilizados pelos docentes no SIGARRA. [1] 0 -