Tópicos de Estatística Espacial Geoestatística Anderson Castro Soares de Oliveira
Geoestatística A geoestatística é uma análise espacial que considera que a variável em estudo se distribui continuamente na região de estudo. Os dados de geoestatística são dados que poderiam, em princípio, ser medidos em qualquer região, mas que normalmente vêm como medições em um número limitado de locais de observação O padrão dos locais de observação geralmente não é de interesse primário, o interesse é geralmente na inferência de aspectos da variável que em locais onde não foram medidos
Geoestatística Os principais objetivos da geoestatística são: Descrever o comportamento espacial dos dados Estimar o valor médio de uma variável numa área Estimar o valor desconhecido numa dada localização Quantificar a incerteza associada à estimação Usar os valores conhecidos de uma variável para estimar os valores de outra variável Estimar a distribuição de valores de uma variável numa área
Análise Exploratória Para começar uma análise geoestatística é importante fazer uma análise exploratória dos dados Uma análise importante é a verificação de tendência espacial Três gráficos podem ser utilizados para verificar tendência Grafico de quantis Gráfico coordenada X Gráfico coordenada Y
Análise Exploratória O Grafico de quantis é um gráfico de distribuição espacial dos dados, em que os dados são identificados de acordo o quantil ao qual pertencem Este gráfico permite verificar excesso de observações em determinado local e ocorrência de valores discrepantes
Análise Exploratória Figura 1: Grafico de quantis - azul Z Q1, verde - Q1 < Z Q2, amarelo Q2 < Z Q3, vermelho Z > Q3
Análise Exploratória Os gráficos coordenada X e coordenada Y são gráficos de dispersão dos dados versus suas coordenadas Estes gráfico permitem detectar a existência (ou não) de tendência
Análise Exploratória Figura 2: Gráficos coordenada X e coordenada Y - verifica-se tendência linear na coordenada Y
Análise Exploratória Figura 3: Gráficos coordenada X e coordenada Y - verifica-se ausência de tendência
Processo Estocástico Considere-se a existência de um processo estocástico Z (s 1 ), Z (s 2 ),..., Z (s n ) em que {s 1, s 2,..., s n } são as localizações espaciais Considerando dois pontos, se o processo for estacionário de segunda ordem temos que E[Z (s)] = E[Z (s + h)] = µ Var[Z (s)] = C(0) = σ 2 Cov[Z (s), Z (s + h)] = C(h) h distância Quando a covariância é uma função somente da distância tem-se um processo isotropico
Processo Estocástico A estacionariedade intrínseca requer que os incrementos Z (s + h) Z (s), ao invés das variáveis aleatórias Z (s), sejam estacionários de segunda ordem Assim, temos que: E[Z (s + h) Z (s)] = 0 Var[Z (s + h) Z (s)] = 2γ(h) em que γ(h) é o semi-variograma ou função intrínseca
Semivariograma O variograma é um função que descreve a relação entre distância e dependência espacial Esta função visa analisar a estrutura de variação das variáveis aleatórias no espaço. Sendo um processo estácionario e h = s i s j a distancias que separa dois pontos O variograma é dado por 2γ(h) = Var[Z (s + h) Z (s)] O semi-variograma é dado por γ(h) = 1 Var[Z (s + h) Z (s)] = C(0) C(h) 2
Semivariograma O semivariograma é uma medida de dissimilaridade, o seu valor é maior à medida que as variáveis estão menos associadas O semivariograma tem as seguintes propriedades γ(h) 0 γ(0) = 0 lim h γ(h) = σ 2 γ(h) = γ( h)
Semivariograma Existem três tipos de semivariograma observado ou experimental, que é obtido a partir do conjunto de dados disponíveis das variáveis locais; variograma verdadeiro, que é o real, e representa o verdadeiro comportamento da variável regionalizada, o qual é sempre desconhecido; variograma teórico, o qual é descrito por funções matemáticas, e é utilizado para ajustar o variograma experimental.
Semivariograma O semivariograma apresenta quatro parâmetros característicos: alcance, patamar, efeito pepita, contribuição Alcance (a): é a distancia h dentro da qual existe dependência espacial entre as observações. A partir do alcance o semivariograma tende a um valor constante, e a observações com distâncias maiores que a são consideradas independentes entre si Patamar C - é o valor do semivariograma correspondente ao alcance Efeito pepita C 0 - é valor do semivariograma quando h = 0 O variograma deveria iniciar no valor zero γ(0) = 0, na prática temos γ(0) 0 Contribuição C 1 - é a diferença entre o patamar e o efeito pepita
Semivariograma Figura 4: Representação do semivariograma
Semivariograma O semivariograma experimental é representado por uma nuvem de pontos obtidos por meio de um estimador, e podem apresentar diferentes padrões de dados O estimador para o semivariograma é dado por: ˆγ(h) = 1 2n(h) n(h) [Z (s + h) Z (s)] 2 s=0 em que n(h) é o número de pares separados pela distância h.
Semivariograma Efeito pepita puro - se o semivariograma apresentar apenas valores constante e iguais ao patamar para qualquer valor de h Este efeito indica a ausência de dependência espacial, ou se existir ela deverá ocorrer em distância menores que a menor distância entre as amostras. Figura 5: Semivariograma com efeito pepita puro
Semivariograma Semivariograma sem patamar - um tipo de semivariograma que cresce sem limites para todos os valores de h Este semivariograma indica que a hipótese de estacionaridade de segunda ordem não foi atendida Também pode indicar que a máxima distância h entre as amostras não foi capaz de exibir toda a variância do dados. Figura 6: Semivariograma sem patamar
Semivariograma Semivariograma ciclico - um tipo de semivariograma que apresenta flutuações cíclicas ou periódicas Este semivariograma indica a periodicidade nos dados. Ele pode indicar ainda a necessidade de se amostrar a maiores distâncias, ou a existência de tendência nos dados. Figura 7: Semivariograma sem patamar
Semivariograma semivariogramas com estruturas entrelaçadas - semivariograma com mais de uma estrutura de variância Este semivariograma indica que a presença de mais de uma população, sendo que até uma distância h teria uma população e partir desta distância outra população. Figura 8: Semivariograma sem patamar
Semivariograma O semivariograma pode ser utilizado para testar a hipotese de aleatoriedade espacial Para isso calcula-se as semivariâncias para cada possível arranjo com as mesmas distâncias utilizadas para calcular as semivariâncias dos dados Em seguida é construído um envelope simulado para o semivariograma Para cada distância é obtido a maior e a menor semivariância calculada para os arranjos e, então constroem-se intervalos de confiança (envelopes) para as semivariâncias dos dados
Semivariograma Se todos os pontos do semivariograma estiverem dentro do envelope simulado a hipótese nula de aleatoriedade espacial é verdadeira, ou seja, não existe um padrão espacial associado ao fenômeno estudado Caso contrário, uma vez detectado o padrão espacial, o passo seguinte é tentar descrever tal padrão por algum modelo, usualmente assumido como estocástico.
Modelos Teóricos de Semivariograma O modelo teórico, diferentemente do semivariograma experimental, representa a estrutura de dependência espacial de forma contínua, fornecendo as estimativas de semivariância para todas as possíveis distâncias h Modelos teóricos de semivariogramas são superpostos à seqüência de pontos obtidos no semivariograma experimental, de modo que a curva que melhor se ajusta aos pontos obtidos represente a magnitude, o alcance e a intensidade da variabilidade espacial da variável estudada Os modelos teóricos podem ser divididos em dois tipo: com e sem patamar
Modelos Teóricos de Semivariograma O modelo linear sem patamar, é um modelo de semivariograma infinito A existência de um semivariograma linear sugere uma tendência nos dados γ(h) = { 0 se h = 0 C 0 + Ah se h 0 em que C0 é o efeito pepita A é um parâmetro positivo h é a distância
Modelos Teóricos de Semivariograma Figura 9: Representação do modelo linear
Modelos Teóricos de Semivariograma O modelo de potência sem patamar, é um modelo de semivariograma infinito A existência deste semivariograma sugere a existência de tendência nos dados γ(h) = { 0 se h = 0 C 0 + Ah B se h 0 em que C0 é o efeito pepita A e B são parâmetros positivos, em que 0 < B < 2 h é a distância
Modelos Teóricos de Semivariograma Figura 10: Representação do modelo de potência
Modelos Teóricos de Semivariograma O Modelo esférico é o modelo mais comumente utilizado nas variáveis em geociências. Apresenta um crescimento rápido na origem, onde tem um comportamento linear.
Modelos Teóricos de Semivariograma O Modelo esférico é dado por: γ(h) = em que C 0 é o efeito pepita C1 é a contribuição a é o alcance h é a distância 0 [ se h = 0 C 0 + C 3 ( h ) ( 1 2 a 1 h 2 ] 2 a) se 0 < h a C 0 + C 1 se h > a
Modelos Teóricos de Semivariograma Figura 11: Representação do modelo esferico
Modelos Teóricos de Semivariograma O modelo exponecial apresenta um comportamento linear na origem, alcança seu patamar apenas assintoticamente e é representado por γ(h) = { 0 se h = 0 C 0 + C 1 [1 e ( 3 h a) ] se h 0 em que C0 é o efeito pepita C1 é a contribuição a é o alcance h é a distância
Modelos Teóricos de Semivariograma Figura 12: Representação do modelo exponencial
Modelos Teóricos de Semivariograma O modelo gaussiano tem comportamento parabólico nas vizinhanças da origem e reflete uma grande continuidade da variável estudada, devido ao seu crescimento suave e é representado por 0 se h = 0 ( γ(h) = 3( C 0 + C 1 [1 e h a) 2)] se h 0 em que C0 é o efeito pepita C1 é a contribuição a é o alcance h é a distância
Modelos Teóricos de Semivariograma Figura 13: Representação do modelo gaussiano
Modelos Teóricos de Semivariograma O modelo de Cauchy é um modelo de semivariograma com patamar, dado por: 0 se h = 0 γ(h) = ( C 0 + C 1 [1 1 + ( ) h 2 ) ] k a se h 0 em que C0 é o efeito pepita C1 é a contribuição a é o alcance h é a distância k é um parâmetro positivo
Modelos Teóricos de Semivariograma Figura 14: Representação do modelo de cauchy
Modelos Teóricos de Semivariograma O modelo Matern é um modelo de semivariograma flexível em torno do efeito pepita, sendo considerado o melhor para modelar variáveis com comportamentos complicados em torno do efeito pepita e é representados por γ(h) = { 0 se h = 0 ( 1 C 0 + C 1 [1 h ) k ( h ) ] 2 k 1 Γ(k) a Kk a se h 0 em que C0 é o efeito pepita C 1 é a contribuição a é o alcance h é a distância k é um parâmetro positivo ( K h ) k a = Γ(a) ( h k 2 2a)
Modelos Teóricos de Semivariograma Figura 15: Representação do modelo de Matérn
Modelos Teóricos de Semivariograma O ajuste dos modelos de semivariograma é feito pelo método dos quadrados mínimos (OLS) e método dos quadrados mínimos ponderados (WLS) O modelo pode ser selecionado por vários critérios: Menor soma dos quadrados dos resíduos ou critério de Akaike (AIC) Razão de verossimilhança
Anisotropia A anisotropia pode ser facilmente constatada através da observação dos semivariogramas direcionais. Os semivariogramas direcionais são semivariogramas calculados para mesmas distâncias mas em diferentes direções As direções mais comumentes utilizadas são 0 o, 45 o, 90 o, 135 o
Anisotropia Calculado os semivariogramas direcionais verifica-se a similaridade entre eles, se os semivariogramas não são iguais em todas as direções, a distribuição é denominada anisotrópica, caso contrário é isotrópica. Se a anisotropia é observada temos: Anisotropia geométrica - os semivariogramas apresentam os mesmos Patamares (C) com diferentes Alcances (a) Anisotropia zonal -os semivariogramas apresentam os mesmos Alcances (a) e diferentes Patamares (C) Anisotropia combinada - é a combinações da anisotropia zonal e geométrica
Anisotropia
Anisotropia A anisotropia geométrica pode ser corrigida, para isso é necessário definir o ângulo de anisotropia e a taxa de anisotropia O ângulo de anisotropia α é ângulo da direção de máxima continuidade espacial, e este define a matriz de rotação [ ] cosα senα M R = senα cosα A taxa de anisotropia F a é definida como a razão entre o alcance na direção de menor continuidade (a 2 ) e o alcance na direção de maior continuidade (a 1 ), e esta define a matriz de dilatação [ ] 1 0 M D = 1 0 F a
Anisotropia Para corrigir a anisotropia geometrica utiliza-se a transformação linear por transformações lineares dada por: (x, y ) = (x, y)m R M D em que: x e y são coordenadas M R é a matriz de rotação M D é matriz de dilatação
Anisotropia A anisotropia zonal pode ser modelada por meio de um semivariograma direcional equivalente com a distância reduzida, considerando como patamar o maior valor de patamar apresentado entre os semivariogramas direcionais O modelo de semivariograma corrigido descrito por γ (h) = wγ(h ) em que: w de patamar do semivariograma na direção que apresentou a anisotropia zonal. h = h a, sendo a o alcance do do semivariograma na direção que apresentou a anisotropia zonal.
Anisotropia A anisotropia combinada pode ser corrigida em duas etapas Na primeira é modelada a anisotropia geométrica Na segunda é modelada a anisotropia zonal pela seguinte expressão: γ (h) = w 1 γ 1 (h ) + w 2 γ 2 (h ) em que: w 1 e w 2 representam o patamar do semivariograma direcional que apresentou maior e menor alcance, respectivamente. h x a x h = + h y a y, sendo: h x e h y são a projeções de h na direção de x e y a x e a y são os alcances na direção x e y
Krigagem Um dos objetivos é predizer os valores da variável em pontos não amostrados. A interpolação é uma técnica para obter estimativa dos valores da variável em pontos não amostrados O semivariograma permite verificar e modelar a dependência espacial Uma aplicação imediata do semivariograma é sua utilização na interpolação O interpolador que utiliza o semivariograma em sua modelagem é chamado de krigagem
Krigagem O termo krigagem é uma homenagem ao engenheiro de minas Daniel G. Krige, que foi o pioneiro a introduzir o uso de médias móveis para evitar a superestimativa sistemática de reservas de mineração A Krigagem utiliza o semivariograma para expressar a relação tanto a distância como de variabilidade Os pesos são atribuídos de acordo com a variabilidade espacial expressa no semivariograma.
Krigagem Sejam as realizações conhecidas Z (s 1 ), Z (s 2 ),..., Z (s n ) no locais s 1, s 2,..., s n em que o semivariograma já foi especificado Seja Ẑ (s 0) a estimativa da variável num localização arbitrária s 0 Assim, o preditor de Krigagem será dado por: Ẑ (s 0 ) = n λ i Z (s i ) em que, n é o numero de locais medidos λi são os pesos associados a cada valor medido Z (s i ), obtido de acordo com a variabilidade espacial expressa pelo semivariograma i=1
Krigagem A melhor estimativa Ẑ (s 0) é obtida quando O estimador é não tendencioso E[Ẑ (s 0) Z (s 0 )] = 0 A variância da estimativa é mínima V [Ẑ (s 0) Z (s 0 )] = E[(Ẑ (s 0) Z (s 0 )) 2 ] = σ 2 minima Para que Ẑ (s 0) seja uma estimativa não tendenciosa de Z (s 0 ), a soma dos pesos tem que ser igual a 1 n λ i = 1 i=1
Krigagem Para obter a variância mínima sob a condição de n λ i = 1, é introduzido o multiplicador de Lagrange para a dedução das equações e o sistema de krigagem é dado por: n λ i γ(s i, s j ) + µ γ(s i, s 0 ) i=1 em que µ é o multiplicador de lagrange γ(.,.) é o semivariograma A variância de Ẑ (s 0) é dada por: n σe 2 = µ + λ i γ(s i, s 0 ) i=1 i=1
Krigagem Deste modo, para descrever o sistema de Krigagem utilizase n + 1 equações para estimar n pesos e µ (Multiplicador de Lagrange) Em notação matricial temos: A matriz de semivariâncias entre valores amostrados b vetor de semivariância entre os valores amostrados e o ponto a ser estimado λ vetor de pesos e do multiplicador de Lagrange
Krigagem Assim, o sistema é dado por: Aλ = b E os pesos são obtidos por: λ = A 1 b A variância da estimativa é dada por: σe 2 = bt λ
Krigagem A, b e λ são dados por: γ(s 1, s 1 ) γ(s 1, s 2 ) γ(s 1, s n ) 1 γ(s 1, s 0 ) γ(s 2, s 1 ) γ(s 2, s 2 ) γ(s 2, s n ) 1 γ(s 2, s 0 ) A =..........., b =. γ(s n, s 1 ) γ(s n, s 2 ) γ(s n, s n ) 1 γ(s n, s 0 ) 1 1 1 0 1 λ = λ 1 λ 2. λ n µ A matriz A é simétrica e possui diagonal principal igual a zero, ou igual ao valor do efeito pepita. Os valores 1 aparecem em A e b em consequência do multiplicador de Lagrange. O sistema deve ser resolvido para cada estimativa Ẑ e para cada variação do número de amostras envolvidos na estimativa.