Sistemas de Informação Geográfica II Estatística espacial Alexandre Gonçalves DECivil - IST alexandre.goncalves@tecnico.ulisboa.pt Autocorrelação Espacial Os dados de locais próximos entre si tendem a ser mais similares que os de locais mais afastados. Primeira lei da geografia, enunciada por Waldo Tobler: «Todas as coisas estão relacionadas entre si, mas as coisas mais próximas [no espaço] têm maior relação que as mais distantes» Exemplos: Preço das casas Altitude Temperatura Estatísticas espaciais Manipulação de informação espacial Operações mais comuns: queries (por atributo ou por localização), medições, sobreposições da análise espacial Análise de dados espaciais: descritiva e exploratória Visualização Análise estatística espacial: teste de hipóteses Serão os dados esperados ou inesperados em relação a algum modelo estatístico habitualmente algo é comparado com um processo aleatório Modelação espacial: predição Construção de modelos (de processos) para predizer resultados (padrões) Análises what if? Estatística espacial Estatística espacial estatística para entidades com uma distribuição espacial Avalia as propriedades espaciais do conjunto de dados, i.e., distância, padrões de distribuição, etc, etc. Pode ser descritiva ou quantitativa Descritiva: qualifica um padrão de distribuição espacial Quantitativa: avalia e mede um padrão ou relação com outros dados espaciais Medidas de distribuição espacial Análise de padrões Distribuição de padrões de pontos Média do Vizinho mais Próximo (Average Nearest Neighbor) Diagramas de Voronoi Semivariograma e ferramentas analíticas exploratórias da geoestatística Análise quadrat: comparação de contagens esperadas e verificadas de objetos com áreas de amostragem (quadrats) para testar padrões de distribuição como aleatoriedade e clustering Distribuição de padrões de pontos Contínuos: gradientes e variabilidade local Moran s I Getis-Ord General G Dados discretos ou categóricos Métricas de paisagem Join count
Average Nearest Neighbor Multi-distance Spatial Cluster Analysis determina se um conjunto de dados está agrupado (clustered) a múltiplas distâncias distintas O resultado é uma tabela Distância variável h h Conta as entidade em [classes de] distâncias definidas Avalia a distribuição espacial (agrupada, uniforme, aleatória) Deteta a escala desses padrões em função de intervalos Supõe: Estacionariedade: inexistência de tendências nos dados Isotropia: sem deteção direcional Área de estudo regular (raramente encontrada) Diagrama de Voronoi
Semivariograma Semivariograma O variogram teórico 2γ(x,y) é uma função que descreve o grau de dependência espacial de uma processo estocástico Z(x). O que é construído é o semivariograma empírico: onde N(h) denota o conjunto de pares de observações tais que x i x j = h, e N(h) é o número de pares de pontos Semivariograma Range (alcance): distância média na qual a variável permanece espacialmente autocorrelacionada a extensão das tendências epaciais, distância além da qual a amostragem relvela aleatoriedade Sill (patamar): máxima variância dos dados amostrados Nugget (pepita): erros de medição ou pequenas variações na distância mínima de amostragem sampling distance Análise quadrat Se a distribuição de pontos pelas células de uma grelha é aleatoria, pode ser modelada pela distribuição de Poisson Estatísticas calculáveis média de pontos por bloco variância Um teste pode ser aplicado (χ 2 ) O tamanho e forma das células influencia o resultado http://www.spatialanalysisonline.com/ Moran s I (autocorrelação espacial) Moran s I (autocorrelação espacial) Expressa a semelhança entre entidades vizinhas Aplicável a grandezas contínuas Varia de -1 a 1 Positiva Negativa Zero: não se nota efeito espacial, a variação parece ser aleatória A distribuição não-aleatória de fenómenos espaciais tem várias consequências para a análise estatística. Parâmetros de estimação enviesados Redundância de dados (afecta o cálculo de intervalos de confiança)
Moran s I (autocorrelação espacial) Getis-Ord General G Compara a razão entre o que se iria obter se os valores fossem aleatoriamente distribuídos entre as entidades, com os valores observados Mede concentrações de valores altos/baixos Valor alto = os valores altos estão agrupados A relação entre os valores observados e os expectáveis deterimana de o índice geral G é significativo ou não a um nível estatístico A hipótese nula é não há clustering Getis-Ord General G Getis-Ord General G Join count statistic Aplicável a polígonos, com um atributo binário O polígono tem ou não tem uma certa característica Por exemplo, um candidato ganhou ou não ganahou uma eleição local Base na análise de polígonos que partilham fronteira Os polígonso vizinhos têm a mesma característica? Usa matriz de contiguidade J RB = 15 J RR = 87 J BB = 24 Valores distintos em cada lado Mesmo valor de ambos os lados Correlação Cruzada Positiva Negativa Zero Estatística de teste: Z = (Obs. Exp.) / (StDev Exp.) E (J BB )=kp B 2 E (J RR )=kp R 2 E (J RB )=2kp B p R k=nº de joins
Área Modificável: As unidades são arbitrariamente definidas e uma organização distinta cria resultados analíticos diferentes. (cartograma distorcido) - Modifiable Areal Unit Problem As unidades espaciais mínimas são habitualmente artificiais e modificáveis, no sentido em que podem ser combinadas, por agregação, para produzir outras unidades de diferente configuração As unidades de agregação usadas são arbitrárias em relação ao fenómeno em estudo; e vão afetar as estatísticas feitas a partir de dados com essa configuração Efeito de escala: valorações distintas de índices estatísticos para os mesmos dados de base quando sujeitos a diferentes níveis de agregação. Efeito de generalização: evidencia-se através das várias alternativas como o agrupamento de unidades espaciais menores pode ser feito, mesmo considerando um nível fixo de agregação Se as unidades espaciais forem diferentes, observam-se padrões e relações distintas
Efeitos de escala (B, C, D) e generalização (E, F) 40 15 30 30 30 15 Gerrymandering: acção de alterar as unidades de base para condicionar resultados 30 15 A: m = 18,75 σ 2 = 5,00 B: m = 18,75 σ 2 = 41,07 C: m = 18,75 σ 2 = 22,92 15 15 35 17,5 15,71 35 3-1 2-2 26,66 30 18 4-0 1-3 D: m = 18,75 σ 2 = 98,21 E: m = 18,875 σ 2 = 1,73 F: m = 21,84 σ 2 = 124,73 Há problemas em todas as áreas de aplicação Exemplo, as fronteiras dos círculos eleitorais: quem tem mais votos pode não ficar em 1.º lugar Falácia Ecológica A Falácia Ecológica ocorre quando se faz uma inferência sobre um indivíduo com base em informação agregada. (o oposto é a Generalização Precipitada ) Soluções? Dados a um nível mais desagregado mas até onde? Optimizar a agregação mas como? (Reference: http://jratcliffe.net/research/ecolfallacy.htm) Falácia Ecológica A falácia ecológica e o são concretizações do problema denominado Problema de Mudança de Suporte (COSP). Há mais termos para descrever COSP particulares e respectivas soluções incluindo o problema de escala, inferência entre sistemas de zona incompatíveis, krigagem por blocos, interpolação picnofilática, etc.