Preços de venda de imóveis residenciais em Seattle estudo estatístico

Documentos relacionados
AULA 07 Inferência a Partir de Duas Amostras

Estatística Computacional (Licenciatura em Matemática) Duração: 2h Frequência NOME:

Estimação e Testes de Hipóteses

Capítulo 4 Inferência Estatística

Aula 7. Testes de Hipóteses Paramétricos (II)

Aula 7. Testes de Hipóteses Paramétricos (II)

DE ESPECIALIZAÇÃO EM ESTATÍSTICA APLICADA)

BIOESTATÍSTICA. Parte 5 Testes de Hipóteses

AULA 04 Teste de hipótese

AULA 05 Teste de Hipótese

CONHECIMENTOS ESPECÍFICOS

Eng a. Morgana Pizzolato, Dr a. Aula 02 Revisão de Estatística DPS1037 SISTEMAS DA QUALIDADE II ENGENHARIA DE PRODUÇÃO CT/UFSM

Estimação parâmetros e teste de hipóteses. Prof. Dr. Alberto Franke (48)

Inferência a partir de duas amostras

ANÁLISE DOS RESÍDUOS. Na análise de regressão linear, assumimos que os erros E 1, E 2,, E n satisfazem os seguintes pressupostos:

1 Que é Estatística?, 1. 2 Séries Estatísticas, 9. 3 Medidas Descritivas, 27

Probabilidade e Estatística. Estimação de Parâmetros Intervalo de Confiança

Inferência para duas populações

TESTE DE HIPÓTESE. Introdução

José Aparecido da Silva Gama¹. ¹Professor do Instituto Federal de Educação, Ciência e Tecnologia de Alagoas.

7 Teste de Hipóteses

1 Probabilidade - Modelos Probabilísticos

Testes de Hipóteses para. uma Única Amostra. Objetivos de Aprendizagem. 9.1 Teste de Hipóteses. UFMG-ICEx-EST-027/031 07/06/ :07

Correlação e Regressão

TESTES NÃO PARAMÉTRICOS (para mediana/média)

CONHECIMENTOS ESPECÍFICOS

Caros Alunos, segue a resolução das questões de Estatística aplicadas na prova para o cargo de Auditor Fiscal da Receita Municipal de Teresina.

Inferência. 1 Estimativa pontual de uma média 2 Estimativa intervalar de uma média. Renata Souza

Inferência estatística

INTRODUÇÃO. Exemplos. Comparar três lojas quanto ao volume médio de vendas. ... ANÁLISE DE VARIÂNCIA. Departamento de Matemática ESTV.

Planejamento e Otimização de Experimentos

Planejamento e Otimização de Experimentos

CONHECIMENTOS ESPECÍFICOS

Estatística descritiva

Prof. Lorí Viali, Dr.

Medidas de Dispersão ou variabilidade

Cap. 8 - Intervalos Estatísticos para uma Única Amostra

Nessa situação, a média dessa distribuição Normal (X ) é igual à média populacional, ou seja:

Morgana Pizzolato, Dr a. Aula 02 Revisão de Estatística DPS1037 SISTEMAS DA QUALIDADE II ENGENHARIA DE PRODUÇÃO CT/UFSM

Stela Adami Vayego DEST/UFPR. Resumo 11 - Testes de Hipóteses

Teste de Hipóteses Paramétricos

Elementos de Estatística

TESTES DE HIPÓTESES. O procedimento básico de um teste de hipóteses pode ser decomposto em quatro fases: i) Definição das hipóteses.

Cap. 4 - Estimação por Intervalo

Especialização em Engenharia de Processos e de Sistemas de Produção

Definição. Os valores assumidos pelos estimadores denomina-se estimativas pontuais ou simplesmente estimativas.

CONHECIMENTOS ESPECÍFICOS

AULA 03 Estimativas e tamanhos amostrais

MOQ-13 PROBABILIDADE E ESTATÍSTICA. Professor: Rodrigo A. Scarpel

Análise da Variância. Prof. Dr. Alberto Franke (48)

Esse material foi extraído de Barbetta (2007 cap 13)

Unidade III Medidas Descritivas

Métodos Estatísticos Avançados em Epidemiologia

6. NOÇÕES DE INFERÊNCIA ESTATÍSTICA

ESTATÍSTICA COMPUTACIONAL AULA 5 ASSIMETRIA E CURTOSE

Técnicas Computacionais em Probabilidade e Estatística I. Aula I

Bioestatística UNESP. Prof. Dr. Carlos Roberto Padovani Prof. Titular de Bioestatística IB-UNESP/Botucatu-SP

9 Correlação e Regressão. 9-1 Aspectos Gerais 9-2 Correlação 9-3 Regressão 9-4 Intervalos de Variação e Predição 9-5 Regressão Múltipla

6 Teste de Normalidade das Cargas Fatoriais

1. Conceitos básicos de estatística Níveis de medição Medidas características de distribuições univariadas 21

6. NOÇÕES DE INFERÊNCIA ESTATÍSTICA

Estatística. 1 Medidas de Tendência Central 2 Medidas de Posição 3 Medidas de Dispersão. Renata Souza

Distribuição de frequências. Prof. Dr. Alberto Franke

Inferência Estatística

Teste de hipóteses Página 1 de 8. Teste de hipóteses

INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA. Prof. Anderson Rodrigo da Silva

Modelos de Regressão Linear Simples - Análise de Resíduos

Intervalos de Confiança - Amostras Pequenas

Modelos de Regressão Linear Simples - Análise de Resíduos

PHD 5742 Estatística Aplicada ao Gerenciamento dos Recursos Hídricos. 6 a aula Testes de Hipóteses

AULA 11 - Normalidade e Inferência em Regressão Múltipla - Parte 1

Lista de Exercícios #8 Assunto: Teste de Hipóteses

Teste para a Média Populacional com Variância Conhecida

Inferência Estatistica

Teste Mann-Whitney. Contrapartida não-paramétrica para. Teste-t para amostras independentes

Ficha da Unidade Curricular (UC)

SUMÁRIO. Prefácio, Espaço amostrai, Definição de probabilidade, Probabilidades finitas dos espaços amostrais fin itos, 20

LEEC Probabilidades e Estatística 1 a Chamada 13/06/2005. Parte Prática C (C) M 1% 9% 10% (M) 4% 86% 90% 5% 95% 100%

Exploração e Transformação de dados

Testes de Hipóteses. Ricardo Ehlers Departamento de Matemática Aplicada e Estatística Universidade de São Paulo

POPULAÇÃO X AMOSTRA INTRODUÇÃO À BIOESTATÍSTICA TIPOS DE VARIÁVEIS CLASSIFICAÇÃO DAS VARIÁVEIS CLASSIFICAÇÃO DAS VARIÁVEIS 1) TIPOS DE VARIÁVEIS

Testes de Hipótese PARA COMPUTAÇÃO

Aula 4: Medidas Resumo

Estatísticas Descritivas. Estatística

Exame Final de Métodos Estatísticos

Mais Informações sobre Itens do Relatório

Introdução à Bioestatística Turma Nutrição

Métodos Estatísticos

(a) Teste e IC para Duas Variâncias. (b) Teste para médias. Duas Amostras de Teste T e IC

Delineamento e Análise Experimental Aula 3

AULA 06 Correlação. Ernesto F. L. Amaral. 04 de outubro de 2013

Capítulo 2. Distribuições de Probabilidade Estimativas de parâmetros e tempos-atéfalha. Flávio Fogliatto

Testes de Hipóteses Paramétricos

Resolução da Prova de Matemática Financeira e Estatística do ISS Teresina, aplicada em 28/08/2016.

Estatística 1. Resumo Teórico

Testes de Hipóteses Paramétricos

Testes de Hipóteses II

Transcrição:

Faculdade de Engenharia da Universidade do Porto Departamento de Engenharia Industrial e Gestão Preços de venda de imóveis residenciais em Seattle estudo estatístico Mestrado Integrado em Engenharia Industrial e Gestão Ano letivo 013/014.º semestre Estatística II Grupo 1 Ana Rodrigues Andreia Lourenço Gina Gonçalves Hermano Maia Professores Miguel Gomes Armando Leitão Porto, maio de 014

Preço de venda de imóveis em Seattle FEUP MIEIG Estatística II Grupo 1 Índice Introdução... 1 Conceitos Gerais e Metodologia... Análise inicial dos dados... 4 Será que os preços dos imóveis em Seattle aumentaram?... 7 Intervalos de confiança... 7 Testes paramétricos... 9 Testes não paramétricos... 11 Testes de Qualidade de Ajuste... 11 Teste de Localização de Mann-Whitney-Wilcoxon... 13 Bootstrap... 14 Permutation Test... 15 Resumo dos testes de hipótese... 17 Conclusões e considerações finais... 18 Bibliografia... 0 I

Preço de venda de imóveis em Seattle FEUP MIEIG Estatística II Grupo 1 Índice de tabelas e gráficos Índice de tabelas Tabela 1. Amostra relativa ao preço de venda de imóveis em 000... 4 Tabela. Amostra relativa ao preço de venda de imóveis em 001... 4 Tabela 3. Estatísticas diversas relativas às amostras... 5 Tabela 4. Resumo dos testes de hipótese efetuados... 17 Índice de gráficos Gráfico 1. Histograma para o preço das vendas de 000... 4 Gráfico. Histograma para o preço das vendas de 001... 4 Gráfico 3. Boxplot para as amostras originais de 000 e 001... 5 Gráfico 4. QQ-plot para as amostras de 000 (sem outliers) e 001... 6 Gráfico 5. Representação esquemática dos intervalos de confiança para o valor esperado... 7 Gráfico 6. Histograma para a diferença das trimean das amostras Bootstrap... 14 Gráfico 7. QQ-plot para a diferença das trimean das amostras Bootstrap... 15 Gráfico 8. Histograma para a diferença das médias das amostras do Permutation Test... 16 Gráfico 9. Histograma para a diferença das medianas das amostras do Permutation Test... 16 II

Preço de venda de imóveis em Seattle FEUP MIEIG Estatística II Grupo 1 Introdução O presente estudo estatístico visa analisar a evolução dos preços de venda dos imóveis residenciais de Seattle, particularmente no que concerne à eventual existência de um aumento dos mesmos do ano de 000 para o ano de 001. A análise estatística tem por base duas amostras aleatórias (uma para o ano de 000 e outra para o ano de 001) obtidas através dos registos do avaliador da cidade. Estas amostras, de dimensão distinta, incluem dados sobre a venda de imóveis residenciais, condomínios e imóveis comerciais, excluindo parcelas de terrenos não urbanizados. Este relatório, que se constitui, a par da folha de cálculo, como o produto resultante do estudo elaborado, apresenta os conceitos das técnicas estatísticas realizadas, de forma resumida, e a metodologia adotada. Segue-se uma secção na qual serão indicados e analisados os resultados obtidos, apoiados em tabelas e gráficos ilustrativos, bem como explicadas, com mais precisão, as etapas das diversas técnicas utilizadas. Finalmente, apresentar-se-ão as conclusões retiradas e considerações finais. 1 -

Preço de venda de imóveis em Seattle FEUP MIEIG Estatística II Grupo 1 Conceitos Gerais e Metodologia Inicialmente, procedeu-se a uma análise estatística univariada, que implicou o cálculo de estatísticas de localização e de dispersão, bem como a representação gráfica através de histogramas e de Quantile-Quantile (QQ) e Probability-Probability (PP) Plots. No decurso desta etapa, considerou-se oportuno ser tida em conta uma terceira amostra, que resultou da amostra de 000, mas sem incluir duas observações que foram consideradas outliers (valores atípicos que apresentam grande afastamento face aos restantes), uma vez que em determinados testes tais valores poderiam afetar de forma significativa os resultados. Posteriormente, recorreu-se à estimação por intervalo, isto é, à elaboração de intervalos de confiança para a razão das variâncias e para a diferença dos valores esperados, para uma significância (α) de 5%. De seguida, efetuaram-se testes paramétricos (testes que incidem explicitamente sobre um parâmetro de uma ou mais populações e cuja estatística de teste (ET) pressupõe uma forma particular das distribuições populacionais). Serão apresentados os resultados para o teste de localização à diferença entre valores esperados de duas populações (teste t) e para o teste de dispersão à razão de variâncias entre duas populações normais (teste F). Estes testes foram realizados considerando e excluindo os outliers. Ulteriormente, recorreu-se a testes não-paramétricos. Neste caso, só foram analisadas as amostras originais, isto é, com os outliers, uma vez que este tipo de testes apresenta um grau de robustez que permite acomodar estes valores atípicos. Neste grupo estão os testes: Kolmogorov-Smirnov (KS) Lilliefors: teste de qualidade de ajuste no qual os parâmetros são estimados a partir das amostras, pressupondo-se que a variável aleatória em análise é quantitativa e contínua. Este teste foi realizado para avaliar se os preços de venda dos imóveis se ajustavam a uma distribuição normal. Kolmogorov-Smirnov (KS) para duas amostras independentes: teste de qualidade de ajuste que pressupõe uma variável aleatória quantitativa e contínua, pretendendo-se avaliar se as duas amostras são provenientes de uma única população ou de duas igualmente distribuídas. -

Preço de venda de imóveis em Seattle FEUP MIEIG Estatística II Grupo 1 Mann-Whitney-Wilcoxon (MWW): teste de localização que pretende analisar se as medianas de duas populações contínuas, com a mesma forma, se localizam no mesmo ponto. Além dos testes descritos, recorreu-se à técnica bootstrap, que possibilita, em situações em que não se conhece a distribuição da população e o número de dados da amostra é pequeno, estimar parâmetros populacionais a partir de uma amostra. Além de que, tal como os testes de qualidade de ajuste, permite estudar a hipótese de duas amostras provirem de uma única população. Este processo envolve a geração de várias amostras, aleatoriamente, com base na amostra inicial e, por isso, a capacidade de cálculo dos computadores facilita o processo que requer elevados recursos computacionais. Por último, aplicou-se um permutation test que também parte da geração de vários valores aleatórios 1 mas, neste caso, para obter amostras sem reposição. Considerando que as populações são idênticas (hipótese nula), estas amostras dão origem a uma única (de dimensão N) que agrupa as observações das duas amostras individuais. Gera-se, então, um grande número de amostras de dimensão N, sendo que, para todas as novas amostras, os primeiros N A valores são atribuídos à população A e os restantes N B são atribuídos à população B. Refira-se ainda que durante a execução deste estudo foram realizados outros testes (incluídos na folha de cálculo), mas que, no decurso da mesma, foram considerados desadequados ou sem relevância e, por isso, não serão analisados neste relatório. 1 No caso dos Permutation Tests, os números aleatórios corresponderão a números de ordem que serão posteriormente associados às observações das amostras originais. 3 -

Tabela 1. Amostra relativa ao preço de venda de i móveis em 000 Gráfico. Histogr ama para o pre ço das vendas de 001 Preço de venda de imóveis em Seattle FEUP MIEIG Estatística II Grupo 1 Análise inicial dos dados Das tabelas 1 e constam as amostras que serviram de base à elaboração do presente estudo. Vendas de 000 (em milhares de dólares) 333 07,5 1836* 175 1100* 194,5 80 185 4 359 16,5 199,5 360 133 03 140 475 390 76 163,95 *outliers Tabela. Amostra relativa Tabela ao 1. Amostra preço de relativa venda ao de preço imóveis de venda em 001 de imóveis em 000 Vendas de 001 (em milhares de dólares) 419 55,68 65 10 510,78 1, 15,70 66,6 69,47 15 191 451 469 310 35 50 675 140 105,5 85 30 305 55 95,179 346 199 450 80 05,5 135 190 45,5 335 455 91,905 39,9 369,95 569 481 475 495 195 37,5 143 18,95 39 710 17 8,5 70 Gráfico 1. Histograma para o preço das vendas de 000 Tabela. Amostra relativa ao preço de venda de imóveis em 001 6 5 4 3 1 0 Vendas de 000 Preço de venda (milhares de dólares) Gráfico 1. Histograma para o preço das vendas de 000 14 1 10 8 6 4 0 Vendas de 001 Preço de venda (milhares de dólares) Gráfico. Histograma para o preço das vendas de 001 Antes de serem realizados os testes adequados à análise do problema proposto, concretizou-se uma avaliação dos dados facultados no sentido de averiguar a existência 4 -

Tabela 3. Estatísticas diversas relativas às amostras Gráfico 3. Boxpl ot para as amostras originais de 00 0 e 001 Preço de venda de imóveis em Seattle FEUP MIEIG Estatística II Grupo 1 de valores atípicos (outliers) que pudessem afetar os resultados das técnicas acima referidas e saber quais seriam esses valores. Constatou-se, nomeadamente pela análise dos histogramas dos gráficos 1 e, que existem aparentemente dois outliers (1100 e 1836) que são muito superiores aos restantes e que respeitam à amostra do ano 000 (sinalizados a cinzento no histograma respetivo). Uma vez que se pretende analisar o comportamento dos preços de imóveis residenciais e tendo em conta que as amostras incluem também valores respeitantes a imóveis comerciais, aqueles valores atípicos podem não corresponder à venda dos imóveis sobre os quais o presente estudo recai (imóveis residenciais). Desta forma, no decurso do trabalho, as técnicas estatísticas foram aplicadas para ambas as possibilidades, ou seja, incluindo e não incluindo os outliers. Na tabela 3 apresentam-se algumas estatísticas calculadas para as amostras. A comparação das amostras originais, através da média, sugere valores mais elevados para as vendas de 000, contudo se a análise for feita com base na mediana ou na trimean a situação inverte-se. 000 001 N 0 50 (18) Mínimo* 16,5 50,0 1.º Quartil* 177,5 185,5 (17,) Mediana* 4,8 60,8 (05,3) 3.º Quartil* 359,8 46,8 (339,5) Máximo* 1836,0 710,0 (475,5) Média* 368,9 88,9 (46,8) Trimean* 46,7 83,5 (30,6) Desvio Padrão* 405,6 156, (100,1) Kurtose 9,635 0,07 (-0,175) Assimetria 3,037 (0,815) 0,690 *valores em milhares. Tabela 3. Estatísticas diversas relativas às amostras. (entre parêntesis surgem estatísticas calculadas sem considerar outliers) Trimean = (1. ºQuartil + Mediana + 3. ºQuartil)/4 5 -

Gráfico 4. QQ-plot para as amostras de 000 (sem outliers) e 00 1 Valores Teóricos Preço de venda (milhares de dólares) Preço de venda de imóveis em Seattle FEUP MIEIG Estatística II Grupo 1 000 1800 1600 1400 100 1000 800 600 400 00 0 000 001 Gráfico 3. Boxplot para as amostras originais de 000 e 001 O boxplot, presente no gráfico 3, sugere alguma assimetria dos dados, particularmente da amostra de 000. Considerou-se, por isso, oportuno construir um QQ-plot (neste caso o ano de 000 será analisado já sem os outliers) o qual constitui o gráfico 4. 700 600 QQ Plot 500 400 300 00 100 0 0 100 00 300 400 500 600 700 Valores da amostra (milhares de dólares) 000 s/out 001 Gráfico 4. QQ-plot para as amostras de 000 (sem outliers) e 001. O coeficiente de determinação amostral para a amostra de 001 é de 95,45%, enquanto para a amostra de 000 é de 9,05%. Apesar destes valores não serem muito baixos para que se coloque em causa a normalidade, a análise do QQ-plot revela novamente alguma assimetria e desvios face à reta de ajuste. Foram também construídos intervalos de confiança para o valor esperado. Estes intervalos foram calculados de forma distinta para 000 e 001, dado que a amostra para o 6 -

Gráfico 5. Repre sentação esquemáti ca dos intervalos de confi ança para o valor esperado Preço de venda de imóveis em Seattle FEUP MIEIG Estatística II Grupo 1 primeiro caso é de pequena dimensão e assimétrica, enquanto para o segundo a amostra é de grande dimensão. Assim, para o ano de 000 o intervalo resulta da fórmula X ± Z(α/) σ/ N, podendo-se afirmar, com 95% de confiança, que o valor esperado das vendas do ano de 000 está compreendido entre 179,1 e 558,8 milhares de dólares. Se analisarmos o mesmo ano, mas excluindo os outliers, a amplitude reduz-se significativamente, obtendo-se o intervalo [197,0; 96,6]. Por outro lado, para o ano de 001 o intervalo a 95% de confiança, que resulta da fórmula X ± t N 1 (α/) s/ N, é [45,6; 33,]. O gráfico 5 constitui uma representação esquemática destes intervalos de confiança (o valor da média amostral está assinalado com um triângulo). Gráfico 5. Representação esquemática dos intervalos de confiança para o valor esperado. (escala em milhares de dólares) Será que os preços dos imóveis em Seattle aumentaram? Intervalos de confiança 3 Após a análise inicial, construíram-se intervalos de confiança para a diferença de valores esperados para compreender se os preços de venda dos imóveis são mais elevados em 001 do que em 000. Como se pretende analisar uma possível subida de preços, os intervalos serão abertos à direita. Admitiu-se, para tal, que as amostras são independentes e que foram recolhidas de forma aleatória de populações que seguem distribuições normais, com valores esperados μ 000 e μ 001 e variâncias σ 000 e σ 001. A amostra de 000 (com média amostra X 000 e variância amostral s 000) apresenta uma dimensão N 000=0, pelo que, sendo assimétrica, é considerada uma amostra de pequena dimensão. Por seu turno, a amostra de 001 (com 3 Ao longo do estudo, a unidade em que os intervalos de confiança serão expressos será o milhar de dólar. 7 -

Preço de venda de imóveis em Seattle FEUP MIEIG Estatística II Grupo 1 média amostral X 001 e variância amostral s 001) apresenta uma dimensão N 001=50, sendo, portanto, uma amostra de grande dimensão. Desta forma, para a construção do intervalo de confiança para a diferença dos valores esperados, considerou-se, mesmo havendo uma amostra de grande dimensão, que ambas as amostras eram de pequenas dimensões. Neste caso, não são válidas as aproximações S 000 σ 000 e S 001 σ 001. Assim, primeiramente, realizou-se um intervalo de confiança para a razão de variâncias populacionais, uma vez que estas são desconhecidas. Com o pressuposto de que as duas populações são normais, o intervalo de confiança é dado por: 1 [ F N000 1, N001 1 ( α ) S 000 S 001, 1 F N000 1, N001 1 (1 α ) S 000 ] (1) S 001 Com um nível de significância de 5%, o intervalo de confiança ([3,3; 15,]) não contém o valor 1, pelo que se admite a não igualdade das variâncias. Consequentemente, o intervalo de confiança para a diferença de valores esperados aberto à direita é dado por: [(X 001 X 000 ) t GL ( α ) s 001 + s 000 ; + [ () N 001 N 000 Com: GL = ( s 001 + s 000 ) N 001 N 000 ( s 001 N ) ( 001 N 001 1 + s 000 N ) 000 N 000 1 (3) Uma vez que se obteve o intervalo [-40,73; + [, estando o valor 0 (zero) incluído, pode afirmar-se, com 95% de confiança, que os valores esperados para as vendas de 000 e 001 são iguais, não havendo, portanto, um aumento de preços. Note-se que a amplitude deste intervalo de confiança é elevada. Como as médias amostrais são afetadas por outliers, construíram-se também intervalos de confiança para os valores esperados e para a razão de variâncias sem considerar esses valores. 8 -

Preço de venda de imóveis em Seattle FEUP MIEIG Estatística II Grupo 1 Para a construção dos intervalos de confiança sem outliers os pressupostos tidos em conta para o intervalo de confiança para diferença de valores esperados com outliers mantêm-se, tendo apenas em conta que a dimensão N 000 é reduzida em duas unidades, devido à eliminação dos dois valores atípicos, ficando N 000=18. Torna-se, da mesma forma, necessária a execução de um intervalo de confiança para a razão de variâncias, admitindo, uma vez mais, a normalidade das populações. Neste caso, para um nível de significância de 5%, obtém-se o intervalo [1,03; 5,1] 4, e, apesar de o limite inferior estar muito próximo de 1, considera-se também que as variâncias são diferentes. Posto isto, a fórmula que permite calcular o intervalo de confiança para a diferença de valores esperados sem outliers mantém-se, pelo que para α=5%, o intervalo de confiança é [-1,41;+ [, havendo evidências estatísticas que permitem admitir que os valores esperados são idênticos, já que o intervalo obtido contém o valor 0 (zero). É de notar que a amplitude do intervalo é menor (intervalo mais restrito) do que a verificada anteriormente com N 000=0. Testes paramétricos Como alternativa aos intervalos de confiança, surgem os testes paramétricos, os quais estabelecem uma hipótese nula (H 0) e uma hipótese alternativa (H 1), sendo o objetivo destes testes a rejeição de H 0 (quando tal não ocorre, considera-se o teste inconclusivo). É expectável que as inferências retiradas da análise dos intervalos de confiança sejam as mesmas que podem ser retiradas após a realização deste tipo de testes. Mantendo os pressupostos estabelecidos para os intervalos de confiança, ou seja, que as amostras são de pequenas dimensões e que provêm de populações normais, o teste a utilizar para a diferença dos valores esperados será o teste t de student. As hipóteses serão: H 0: μ 000 = μ 001 H 1: μ 001 > μ 000 (teste unilateral à direita) 4 Este intervalo foi calculado com a fórmula (1), mas trocando o ano de 000 com o 001, de forma a permitir que no numerador surgisse a variância amostral com valor mais elevado. 9 -

Preço de venda de imóveis em Seattle FEUP MIEIG Estatística II Grupo 1 Tal como nos intervalos de confiança, é necessária a execução de um teste à razão das variâncias, admitindo que são populações normais. O teste a ser realizado é o teste F, para ambos os casos, com e sem outliers. As hipóteses serão: H 0: σ 000 = σ 001 H 1: σ 001 σ 000 (teste bilateral) A estatística de teste é: ET = S 000 (4) S 5 001 Quando H 0 é verdadeira, a estatística de teste tem a seguinte distribuição: ET F N000 1,N 001 1 (5) Incluindo os outliers, o teste apresenta uma estatística de teste de 6,61, valor crítico de,0 e valor de prova inferior a uma centésima percentual. Assim, como a estatística de teste é superior ao valor crítico, H 0 é rejeitada, pelo que não há evidências estatísticas que permitam admitir que as variâncias das populações sejam iguais. O mesmo se conclui com a comparação entre o valor de prova e o nível de significância considerado, α=5%, visto que o valor de prova é inferior à significância. Desta forma, a estatística de teste para a diferença de valores esperados vem dada por: ET = (X 001 X 000 ) s 001 + s 000 N 001 N 000 (6) Com, GL = ( s 001 N + s 000 001 N ) 000 ( s 001 ) ( N 001 N 001 1 + s 000 ) N 000 N 000 1 (7) Quando H 0 é verdadeira, a estatística de teste segue uma distribuição t de student, como referido, com GL graus de liberdade. Com 1 graus de liberdade e sendo o teste unilateral 5 Para a situação de não inclusão dos outliers, a ET resultou do inverso desta fórmula, para se manter o tipo de teste (unilateral à direita). 10 -

Preço de venda de imóveis em Seattle FEUP MIEIG Estatística II Grupo 1 à direita, a estatística de teste toma o valor de -0,86, o valor crítico é 1,7 e, por fim, o valor de prova é 79,9%. Visto que a estatística de teste é inferior ao valor crítico, não há evidências estatísticas que apoiem a rejeição da hipótese nula, podendo admitir-se que os valores esperados são semelhantes. No caso sem outliers, no teste à razão das variâncias, obtêm-se os seguintes resultados: ET =,48; valor crítico =,41 e valor de prova = 4,30%. Através destes resultados é apoiada a rejeição de H 0, na medida em que, apesar de muito próximos, a estatística de teste é superior ao valor crítico. Assim, admite-se que as variâncias das populações são diferentes. Por esta razão, a estatística de teste para a diferença de valores esperados é dada pela mesma fórmula que a admitida no caso com outliers. Em virtude deste facto e concretizando um teste unilateral à direita os resultados são: ET = 1,30; valor crítico = 1,68; valor de prova = 10,1%. A estatística de teste é inferior ao valor crítico, pelo que não há evidências estatísticas que apoiem a rejeição da hipótese nula. Como tal, conclui-se que os valores esperados das duas populações são iguais. Caso se tivesse realizado este teste pressupondo a igualdade das variâncias a inferência seria a mesma já que ET seria 1,06 e o valor crítico seria 1,67. Os testes paramétricos foram inconclusivos, na medida em que não houve evidências estatísticas para rejeitar H 0. Conduziram, então, às mesmas conclusões retiradas através da construção de intervalos de confiança, o que era expectável. A relação fundamental que existe entre os testes de hipótese e os intervalos de confiança prende-se com a rejeição da hipótese nula. De uma forma geral, se designarmos H 0: θ = θ 0, esta pode ser rejeitada a um nível de significância α se, e só se, o intervalo de confiança de θ a (1 α) 100% não incluir o valor de θ 0. Testes não paramétricos Testes de Qualidade de Ajuste Para testar a normalidade das amostras realizaram-se testes de Kolmogorov-Smirnov Lilliefors, para as diferentes amostras (ano 000, com e sem outliers, e ano 001), admitindo que as amostras são aleatórias e independentes. 11 -

Preço de venda de imóveis em Seattle FEUP MIEIG Estatística II Grupo 1 No caso do ano 000, com outliers, a hipótese nula (a distribuição é normal com valor esperado igual à média amostral e variância populacional igual à variância amostral) foi rejeitada, a um nível de significância de 5%, uma vez que a estatística de teste (0,393) é superior ao valor crítico (0,1900). Assim, o teste sugere que esta amostra não é ajustável por uma distribuição normal de média 369 e variância 164505. Na análise relativa a este mesmo ano, agora sem incluir os outliers, a estatística de teste (0,083) é superior ao valor crítico (0,000), pelo que, a um nível de significância de 5%, o teste apontaria no sentido da rejeição de H 0. Contudo, caso se adotasse um nível de significância de 1%, a decisão seria a inversa, o que se justifica por o valor de prova estar compreendido no intervalo ]1; 5[ %. Assim, embora com algumas reservas, considera-se plausível admitir que a população segue uma distribuição normal de média 47 e variância 1009. Quanto ao ano 001, o valor de prova é maior do que 0%, pelo que H 0 não é rejeitada e se admite que a amostra segue uma distribuição normal de média 89 e variância 4894. Note-se que nestes testes a rejeição de H 0 pode não estar associada ao facto da distribuição ser ou não normal, mas por os parâmetros estimados (média e variância) não serem os verdadeiros. Nos intervalos de confiança e testes paramétricos anteriormente realizados, admitiu-se a normalidade das populações. Ora, após realizados estes testes de KS-Lilliefors, pode colocar-se em causa esse pressuposto, principalmente para a amostra original de 000. Realizou-se ainda um teste de Kolmogorov-Smirnov para duas amostras, com o objetivo de perceber se as amostras do ano 000 e do ano 001 provêm ou não de populações contínuas com comportamentos semelhantes, admitindo, mais uma vez, a independência e aleatoriedade das amostras. Neste caso, o teste foi realizado apenas com as amostras originais, pois o teste não paramétrico consegue acomodar os outliers. A hipótese nula (F 000(x) = F 001(x)) não foi rejeitada, uma vez que o valor de prova é superior a 0%. Assim, analisando os resultados de forma análoga ao que foi feito nos testes anteriores, não há evidência estatística de que as duas amostras não tenham comportamento semelhante. 1 -

Preço de venda de imóveis em Seattle FEUP MIEIG Estatística II Grupo 1 Testou-se, ainda, a título teórico, o ajuste a uma distribuição exponencial negativa, tendo a hipótese nula sido rejeitada para amostra do ano de 001 (N=50), mas não para as amostras de 000 (N=0 ou N=18). No entanto, nestes últimos casos, a dimensão da amostra é pequena, pelo que os resultados do teste poderão não ser representativos. Teste de Localização de Mann-Whitney-Wilcoxon Como se pretende avaliar se a mediana de 001 é superior à de 000 utilizou-se o teste de MWW. Como já referido, teve-se em consideração as amostras originais dado que os testes não-paramétricos suportam este tipo de anormalidade. Admitindo que as duas populações são contínuas, com igual forma, formularam-se as seguintes hipóteses: H 0: ƞ000=ƞ001-- H 1: ƞ000<ƞ001 6 Para o cálculo da estatística de teste, ordenou-se de forma crescente todas as observações atribuindo um número de ordem a cada uma, começando por 1 e terminado em 70 (soma das dimensões das duas amostras). De seguida, calculou-se W, que corresponde à soma dos números de ordem da amostra de menor dimensão (000). A estatística de teste é dada por: ET = W N 000 (N + 1)/ N 001 N 000 (N + 1)/1 (8) Quando H 0 é verdadeira, a estatística de teste possui uma distribuição simétrica. Sendo que, para a dimensão das amostras em causa, se pode aproximar essa distribuição por uma distribuição normal, com valor esperado N 000 (N + 1)/ e variância N 001 N 000 (N + 1)/1. Sendo assim, o teste unilateral à esquerda apresenta uma estatística de teste de -0,1885, um valor crítico de -1,645 e valor de prova igual a 4,5%. Portanto, como o valor de prova é superior ao nível de significância de 5%, conclui-se que a hipótese nula não é rejeitada e que o teste é inconclusivo, isto é, o teste aponta para que as medianas das populações em questão se localizem no mesmo ponto. 6 A formulação de H1 teve em conta o facto de a amostra de menor dimensão ser a de 000 e, por isso, o teste é unilateral à esquerda. 13 -

Gráfico 6. Histogr ama para a di ferença das trime an das amostras Bootstrap Preço de venda de imóveis em Seattle FEUP MIEIG Estatística II Grupo 1 Bootstrap Outra técnica estatística utilizada neste estudo foi o bootstrap. Para tal, foram geradas 999 amostras, com reposição, de dimensão 0 baseadas nas observações relativas ao ano de 000 e outras 999 amostras, com reposição, de dimensão 50 baseadas nas observações do ano de 001. Para cada amostra foi calculada a média, a mediana e a trimean e, posteriormente, obteve-se a diferença destes valores entre as amostras relativas a 001 e as relativas a 000. Uma vez que, até ao momento, já foram analisadas as médias populacionais (intervalos de confiança e testes paramétricos) e as medianas populacionais (teste não paramétrico de Mann-Whitney-Wilcoxon), atentemos na amostra de bootstrap para a diferença das trimean. 160 140 10 100 80 60 40 0 0 Histograma diferenças trimean Gráfico 6. Histograma para a diferença das trimean (milhares de dólares) das amostras bootstrap A análise do gráfico 6 mostra alguma assimetria na distribuição da diferença das trimean, pelo que para analisar a normalidade da mesma se construiu um QQ-plot e se calculou o coeficiente de determinação amostral. O QQ-plot apresenta dispersão nas caudas e um coeficiente de determinação amostral de 94,5%. Desta maneira, há a sugestão de que a diferença das trimean não segue uma distribuição normal. 14 -

Gráfico 7. QQ-plot para a diferença das trimean das amostras Bootstrap Valores Teóricos Preço de venda de imóveis em Seattle FEUP MIEIG Estatística II Grupo 1 00 150 QQ-Plot Diferenças Trimean 100 50 0-50 -100-150 -00-300 -50-00 -150-100 -50 0 50 100 150 Valores da amostra (milhares de dólares) Gráfico 7. QQ-plot para a diferença das trimean (milhares de dólares) das amostras Bootstrap. (os eixos intersetam-se para x=-300 e y=-00) Consequentemente, a construção de intervalos de confiança não faz sentido, pelo que se procedeu ao cálculo de um intervalo baseado nos percentis,5% e 97,5%, obtendo-se [-11,9; 96,74]. Uma vez que o valor 0 (zero) está contido no intervalo, há a sugestão de que os preços de 001 não aumentaram, quando comparados com os de 000. Permutation Test A última técnica estatística utilizada foi o Permutation Test. Trata-se de um caso particular de testes não-paramétricos, para o qual a estatística de teste corresponde ao valor de uma estatística, como a diferença das médias, das medianas ou das trimean, relativo às amostras originais. A hipótese nula é formulada no sentido de as duas amostras provirem de populações com a mesma distribuição, pelo que, sendo verdadeira, deverá haver um número semelhante de iterações para as quais a diferença das médias/medianas/trimean é superior a zero ou inferior a zero. Por outro lado, o valor de prova é calculado a partir do quociente entre o número de iterações em que a estatística em análise assume um valor igual ou mais extremo que ET e o número total de iterações (somando-se, no numerador e no denominador, uma unidade que corresponde à amostra original). Foram, então, e de acordo com o já explicitado na secção de Metodologia do presente estudo, efetuadas 999 iterações que conduziram a 999 amostras sem reposição de 15 -

Gráfico 8. Histogr ama para a di ferença das médias das amostras do Per mutation Te st <-155 [-155,-145] [-145,-135] [-135,-15] [-15,-115] [-115,-105] [-105,-95] [-95,-85] [-85,-75] [-75,-65] [-65,-55] [-55,-45] [-45,-35] [-35,-5] [-5,-15] [-15,-5] [-5,5] [5,15] [15,5] [5,35] [35,45] [45,55] [55,65] [65,75] [75,85] [85,95] [95,105] [105,115] [115,15] [15,135] [135,145] >145 Preço de venda de imóveis em Seattle FEUP MIEIG Estatística II Grupo 1 dimensão 70 referentes à diferença das médias/medianas/trimean, sendo os primeiros 0 valores atribuídos ao ano 000 e os restantes ao ano 001. A análise recairá sobre a diferença das médias e sobre a diferença das medianas, cujos histogramas relativos às 999 amostras geradas estão representados, respetivamente, nos gráficos 8 e 9. Nestes gráficos o valor da estatística para as amostras originais está salientado através de uma reta vertical. 80 70 60 50 40 30 0 10 Histograma Diferenças Médias 0 Gráfico 8. Histograma para a diferença das médias (milhares de dólares) das amostras do Permutation Test. A reta vertical corresponde à ET. Gráfico 9. Histograma para a diferença das medianas das amostras do Permutation Test 100 90 80 70 60 50 40 30 0 10 0 Histograma Diferenças Medianas Gráfico 9. Histograma para a diferença das medianas (milhares de dólares) das amostras do Permutation Test. A reta vertical corresponde à ET. A diferença das médias e a diferença das medianas considerando as amostras originais é de, respetivamente, -80,0 e 36,05 milhares de dólares. O teste de permutação aplicado 16 -

Tabela 4. Re sumo dos testes de hipótese e fetuados Preço de venda de imóveis em Seattle FEUP MIEIG Estatística II Grupo 1 conduziu a um valor de prova de 88,0% no primeiro caso e de 8,7% no segundo caso. Como se usou um nível de significância de 5%, para ambos os casos não é possível rejeitar H 0. Atente-se, contudo, que o valor de prova para o teste cuja estatística foi a diferença das médias é muito elevado, o que poderá advir da presença dos outliers. Construíram-se também, à semelhança do realizado no bootstrap, intervalos de confiança. A análise do gráfico 8 mostra assimetria na distribuição das diferenças das médias amostrais e no gráfico 9 a forma da distribuição das diferenças de medianas parece muito díspar da forma sinusoidal de uma distribuição normal. Por isso, há a sugestão de que estas distribuições não são normais, pelo que os intervalos calculados se basearam nos percentis,5% e 97,5%. Obteve-se para a primeira situação o intervalo [-19,99; 11,09] e para a segunda situação [-90,75; 76,75]. Em ambos os intervalos, como o valor 0 (zero) está incluído, não há evidências estatísticas que indiquem a rejeição de H 0, ou seja, os intervalos sugerem que as vendas de 000 e 001 foram realizadas a preços semelhantes. Resumo dos testes de hipótese Teste Valor de Prova Conclusão Diferença valores esperados com outliers 79,9% Teste inconclusivo Diferença valores esperados sem outliers 10,1% Teste inconclusivo KS para amostras >0% Teste inconclusivo Mann-Whitney-Wilcoxon 4,5% Teste inconclusivo Permutation Test Diferença Médias 88,0% Teste inconclusivo Permutation Test Diferença Medianas 8,7% Teste inconclusivo Tabela 4. Resumo dos testes de hipótese efetuados 17 -

Preço de venda de imóveis em Seattle FEUP MIEIG Estatística II Grupo 1 Conclusões e considerações finais O presente estudo estatístico pretendia responder à questão Será que os preços dos imóveis residenciais de Seattle aumentaram?, através da comparação dos preços das vendas de 001 com os de 000. As amostras disponíveis apresentam um inconveniente que reside no facto de não se cingirem a vendas de imóveis residenciais, uma vez que os registos de que partiram englobam também as vendas comerciais. Seattle é uma cidade portuária do estado de Washington dos EUA, com 4 milhões de habitantes, sendo descrita como um grande centro financeiro, comercial, industrial e turístico [1]. Por isso, não se considerou apropriado desprezar as vendas de imóveis comerciais, face às vendas de imóveis residenciais. Desta forma, ao longo do estudo, a análise do problema baseou-se nas amostras originais e também nessas amostras mas eliminando valores atípicos que se atribuíram a eventuais vendas comerciais. Após a realização e análise das várias técnicas de inferência estatística utilizadas, não foi possível reunir evidências estatísticas que apoiassem a teoria da subida dos preços de venda dos imóveis residenciais do ano de 000 para o ano de 001, mesmo quando se analisavam as amostras sem os outliers. Os intervalos de confiança abertos à direita obtidos para a diferença de valores esperados apresentam um limite inferior bastante mais próximo de zero quando a análise é feita sem os outliers, mas, ainda assim, esse valor é de -1,41 mil dólares (no teste de hipótese correspondente o valor de prova foi de 10,1%). Além disso, o teste KS para as duas amostras originais, resultou num valor de prova superior a 0%, sugerindo a semelhança das distribuições dos preços de vendas de 000 e 001. No mesmo sentido, o teste de MWW, com um valor de prova de 4,5%, não permitiu suportar a tese de a mediana dos preços de 001 ser superior à verificada para os preços de 000. Face a isto, tentou-se ainda analisar o comportamento de uma outra estatística, a trimean, nomeadamente através do teste bootstrap. Novamente, não foi possível concluir no sentido do aumento dos preços. 18 -

Preço de venda de imóveis em Seattle FEUP MIEIG Estatística II Grupo 1 Em suma, os testes realizados consubstanciaram-se como inconclusivos, e, por isso, não é possível apoiar a possibilidade de ter existido uma subida de preços, independentemente de se considerarem ou não os outliers ou da estatística em análise ser a média, a mediana ou a trimean. Contudo, destaque-se a importância de, para o ano de 000, obter uma amostra de maior dimensão, uma vez que aquela que foi recolhida não se mostrou representativa. Por um lado, a amostra era de pequena dimensão e, por outro, continha dois outliers, pelo que, ao desconsiderá-los, a dimensão da amostra resultante era ainda mais reduzida. Se fosse, então, possível obter uma nova amostra para as vendas de 000 e, por outro lado, que as amostras reunissem valores apenas relativos ao objeto do estudo (imóveis residenciais), seria interessante repetir os testes realizados para averiguar a plausibilidade da existência de uma subida dos preços dos imóveis residenciais em Seattle. 19 -

Preço de venda de imóveis em Seattle FEUP MIEIG Estatística II Grupo 1 Bibliografia Campos Guimarães, R. & Sarsfield Cabral, J. Estatística. ISBN: 978-989-64-108-3. Materiais Adicionais disponibilizados pelos docentes no SIGARRA. [1] http://pt.wikipedia.org/wiki/seattle 0 -