Desalinhamento de Variáveis em Dados Espacialmente Referenciados

Tamanho: px
Começar a partir da página:

Download "Desalinhamento de Variáveis em Dados Espacialmente Referenciados"

Transcrição

1 Dissertação de mestrado Desalinhamento de Variáveis em Dados Espacialmente Referenciados Autor: Estrela

2 Sumário 1 Introdução 5 2 Revisão de Geoestatística Dados Espacialmente Referenciados Estacionariedade e Isotropia Famílias de funções de Correlação Modelagem Usual: krigagem Inferência Bayesiana Especificação da distribuição a priori Obtenção da distribuição a posteriori Técnicas de Monte Carlo via Cadeias de Markov Interpolação Espacial Métodos para o tratamento do desalinhamento entre variáveis Procedimento Usual Método da Imputação Múltipla Descrição do Método Regras para combinar os resultados Modelos de Coregionalização Linear Descrição do MCL Modelagem Espacial Condicional Especificação da Priori e Distribuição a Posteriori Resultante 29 2

3 3.3.4 Desalinhamento nos Modelos de Coregionalização Linear Cálculo das condicionais completas para os parâmetros do Modelo de Coregionalização Linear Análise de dados Critérios de comparação de modelos Deviance Information Criterion (DIC) Posterior Predictive Loss Criterion (EPD) Dados Artificiais Ajuste segundo o Modelo Usual e o MCL Ajuste através do Método da Imputação Múltipla Comparação das preditivas obtidas pelos diferentes métodos Partículas em suspensão na atmosfera na região metropolitana do Rio de Janeiro Descrição dos dados Ajuste segundo o Modelo Usual e o MCL Imputação Múltipla Comparação dos métodos Modelo Espacial Gama com desalinhamento de variáveis Modelo proposto Procedimento de Inferência Modelo com desalinhamento entre variáveis Previsão do processo para localizações não medidas Exemplos Dados artificiais Partículas Inaláveis Conclusões e Projetos Futuros 117 3

4 A Gráficos complementares do capítulo A.1 Dados Artificiais A.1.1 Ajuste com distribuições a priori usuais A.1.2 Ajuste com distribuições a priori Berger A.2 Partículas em suspensão na atmosfera A.2.1 Ajustes utilizando as distribuições a priori usuais A.2.2 Ajuste utilizando as distribuições a priori Berger B Gráficos complementares para o Capítulo B.1 Dados Artificiais B.1.1 Ajuste através do Modelo Gama Usual B.1.2 Ajuste através do Modelo Normal Usual B.1.3 Ajuste através do Modelo Gama Conjunto sem desalinhamento B.1.4 Ajuste através do Modelo Gama conjunto com desalinhamento B.1.5 Partículas Inaláveis

5 Capítulo 1 Introdução Ultimamente tem ocorrido um grande desenvolvimento de modelos para dados espacialmente referenciados, dados observados ao longo de uma região geográfica, como, por exemplo, a modelagem de poluentes do ar num grande centro urbano. Na Estatística Espacial, observações de uma ou mais variáveis são observadas em alguns pontos em uma determinada região geográfica. As localizações desses pontos são anexadas às respectivas observações e a análise espacial é feita levando em consideração essas localizações. Ambas, as observações e as localizações espaciais, podem ser modeladas como variáveis aleatórias e a inferência é feita sobre os parâmetros envolvidos nestes modelos e sobre eventuais localizações não observadas. Em estudos de tais dados não é razoável assumir que as observações são independentes ao longo da região sob estudo. Acredita-se que observações próximas são mais correlacionadas do que observações distantes entre si. Modelos espaciais são relativamente recentes em Estatística e podem ser aplicados em uma variedade de campos, como Geologia, Epidemiologia, Processamento de imagens, Ciência ambiental, etc. Tais modelos são usados para capturar associação espacial e para fazer previsões em localizações sem observações, tipicamente na presença de variáveis explicativas. Inferência sobre o processo em localizações não medidas é vital no contexto de desenvolvimento de mapas, análise de imagens, ciência ambiental, etc. Um dos principais problemas da modelagem de dados espacialmente referencia- 5

6 dos é o desalinhamento das variáveis. Esse tipo de problema é muito comum em dados ambientais, por exemplo, em uma determinada localização observamos a medida de um determinado poluente e não observamos as medidas de possíveis covariáveis que achamos que ajudarão na modelagem, exatamente nos mesmos pontos. Outro ponto importante é que, no contexto da geoestatística, dadas as observações do processo de interesse nas localizações, em geral, assume-se que a quantidade aleatória segue um processo Gaussiano, que descreveremos no capítulo a seguir, e para isso trabalha-se com uma transformação dos dados que melhor se aproxima desta distribuição. Só que quando transformamos os dados, estamos fixando o parâmetro da transformação Box&Cox (Box and Cox 1964) e não necessariamente o modelo gaussiano é o mais apropriado. Neste trabalho, fazemos uma análise de diferentes métodos para lidar com o problema do desalinhamento, e apresentamos uma comparação entre eles fazendo uma aplicação à dados de poluição coletados em 22 postos de monitoramento localizados na Região Metropolitana do Rio de Janeiro. Além disso, seguindo Diggle, Tawn, and Moyeed 1998, propomos uma modelagem espacial gama para o tratamento de dados positivos em sua escala original. Este trabalho está dividido da seguinte forma: no Capítulo seguinte fazemos uma revisão de alguns aspectos da modelagem de dados espacialmente referenciados. Apresentaremos também o procedimento de inferência bayesiano, fazendo também uma breve revisão dos métodos computacionais Monte Carlo via Cadeias de Markov(MCMC) usados para obtenção de uma amostra da distribuição a posteriori dos parâmetros dos modelos. Quando o cálculo analítico das distribuições a posteriori não é possível, usamos esses métodos para amostrar dessas distribuições. No Capítulo 3 apresentamos alguns dos métodos para o tratamento do desalinhamento das variáveis, entre eles um procedimento que chamamos de usual, o Método da Imputação Múltipla(I.M.) e uma abordagem bayesiana. Também será feita uma revisão dos Modelos de Coregionalização Linear(MCL), inicialmente propostos por Mathéron 1982 e apresentaremos um desenvolvimento de tais modelos para o problema do desalinhamento, seguindo uma abordagem bayesiana. 6

7 No Capítulo 4 faremos uma aplicação à dados artificiais, assim como à dados de concentração de partículas inaláveis na Região Metropolitana do Rio de Janeiro, faremos também uma comparação entre as diferentes abordagens e modelos. Estamos interessados em observar que, quando tratamos os dados faltantes como parâmetros do modelo, estamos levando em consideração a incerteza associada a sua estimação. Os dados utilizados são referentes à concentração de partículas inaláveis no dia 10 de outubro de Verificamos a presença de valores faltantes devido ao não funcionamento de algumas estações monitoradoras. Neste mesmo dia, observamos também os registros de temperatura e umidade em algumas localizações da cidade. Note que as localizações das observações de temperatura e umidade não são necessariamente as mesmas localizações das observações das partículas inaláveis, daí o desalinhamento. Após o ajuste e comparação dos modelos, apresentamos resultados mais detalhados para o melhor modelo de acordo com os critérios de comparação. E fazemos uma previsão para a concentração de partículas inaláveis para 4 pontos onde não possuímos tal informação. No Capítulo 5 apresentaremos uma modelagem alternativa para tratar dos dados em questão em sua escala original, apresentaremos a aplicação para esses mesmos dados, assim como uma comparação com a abordagem anterior. Finalmente, no Capítulo 6 apresentamos as conclusões, assim como possíveis extensões para trabalhos futuros. 7

8 Capítulo 2 Revisão de Geoestatística 2.1 Dados Espacialmente Referenciados Como já mencionado anteriormente, ultimamente temos observado um grande desenvolvimento de novas técnicas para o estudo de dados observados ao longo de uma região geográfica, como por exemplo, a modelagem de poluentes do ar num centro urbano. Associada a cada observação temos sua localização geográfica, por isso, chamamos tais dados de dados espacialmente referenciados. Na análise deste tipo de dado, agregamos as observações às suas respectivas localizações e a análise é feita levando em consideração essas localizações. Cressie 1993, divide a estatística espacial de acordo com os tipos de observações associadas ao espaço em que elas são observadas. De uma forma geral a estatística espacial contém três grandes áreas: geoestatística, dados de área e processos pontuais. Neste trabalho abordaremos apenas o primeiro tipo. Seja s R p uma localização no espaço euclideano p-dimensional e seja Y (s) o valor da variável aleatória Y na localização s. Assim, em geral {y(s) : s G} é uma realização parcial do processo aleatório {Y (s) : s G}, onde G é um subconjunto fixo do IR p com volume p-dimensional positivo (Cressie 1993). Em outras palavras, s varia continuamente ao longo da região G. Aqui, estamos assumindo G R p uma região fixa e obteremos informação do processo em n localizações pertencentes à essa determinada região. 8

9 Em estudos envolvendo observações espacialmente referenciadas, suspeita-se que as observações apresentem uma estrutura de correlação espacial e a caracterização desta é de grande importância. É intuitivo pensar que observações próximas tendem a ser mais correlacionadas do que observações distantes entre si. Desta forma, quando modelamos dados deste tipo, desejamos identificar estas estruturas. Para isso, é comum na literatura de geoestatística, assumir estacionariedade e isotropia do processo sob estudo. A seguir descreveremos essas duas propriedades Estacionariedade e Isotropia Inicialmente, assuma que, a função da média, µ(s) = E(Y (s)) existe para todo s G. Usualmente, diz-se que µ(.) é a tendência do processo espacial Y (.). Suponha também que a variância de Y (s), V (Y (s)), existe para todo s G. Por definição, o processo espacial Y (.) é intrinsicamente estacionário se: E(Y (s + h) Y (s)) = 0 e V (Y (s + h) Y (s)) = 2γ(h), s, s + h G, (2.1) onde a quantidade γ(.) é uma função condicionalmente definida negativa. O processo Y (.) é dito ser estacionário de segunda ordem (ou fracamente estacionário) se µ(s) = µ, s G, isto é, µ(s) é constante para todo s G e a covariância entre dois pontos quaisquer em G é função apenas da diferença entre as duas localizações, isto é, cov(y (s), Y (s )) = c(s s ), s, s G. (2.2) A quantidade 2γ(.) em (2.1), é conhecida como variograma e é um dos parâmetros mais importantes na modelagem de geostatística. A função c(.) é chamada de covariograma. Se em (2.1), 2γ(s s ) depender apenas da distância euclideana entre s e s, o processo Y (.) é então chamado de isotrópico. Um processo intrinsicamente estacionário e isotrópico é chamado de homogêneo. Se uma dessas condições não se aplica, o processo é heterogêneo. Em geral, assume-se que a variável aleatória Y (.) segue um processo Gaussiano. Mais especificamente, a quantidade aleatória Y (.), que assume valores y(s) para 9

10 s G, segue um processo Gaussiano (PG) com média µ(.) e função de covariância c(.,.), denotado por: Y (.) P G(µ(.), c(.,.)), se para quaisquer s 1, s 2,..., s n G, e qualquer n = 1, 2, 3,..., a distribuição conjunta de Y (s 1 ), Y (s 2 ),..., Y (s n ) é uma normal multivariada com parâmetros dados por E(Y (s i )) = µ(s i ) e cov(y (s i ), Y (s j )) = c(s i s j ). Quando um processo é homogêneo, sua variância é constante ao longo de G. Portanto, podemos escrever a função de covariância de Y (.) como c(s i s j ) = σ 2 ρ( s s ; φ ), onde ρ(.; φ ) denota uma função de correlação válida (positiva definida) em IR p que depende possivelmente de um vetor paramétrico φ. Descreveremos essa função de correlação na subseção seguinte. Note que, neste caso, o variograma pode ser escrito como 2γ(h) = V (Y (s) Y (s )) = σ 2 +σ 2 2σ 2 ρ( s s ; φ ) = 2σ 2 (1 ρ( s s ; φ )). Dessa forma, a conveniência dos processos homogêneos fica clara, já que a estrutura de covariância do processo Y (.) pode ser modelada apenas através dos parâmetros σ 2 e φ. Além disso, modelando Y (.) através de um processo Gaussiano, precisamos especificar apenas seu primeiro e segundo momentos. É comum definir o momento de primeira ordem como uma combinação linear de possíveis (q) covariáveis que tenham sido observadas ao longo das n localidades medidas. A especificação do momento de segunda ordem pode ser feita de maneiras diferentes e, geralmente, é a mais desafiadora. A subseção seguinte descreve algumas famílias de função de correlação Famílias de funções de Correlação Existem na literatura algumas famílias de funções de correlação. Uma função de correlação que é válida em IR p 1 também é válida em IR p 2 para p 2 < p 1. Entretanto, a recíproca não é necessariamente verdadeira (Cressie 1993). Geralmente a função de correlação ρ(.) deve traduzir algumas de nossas intuições. Por exemplo, esperase que a correlação entre duas medidas decresça quando aumentarmos a distância entre suas localizações. Ou ainda, ρ(d) 0 quando d, isto é, a correlação 10

11 entre duas localizações muito distantes tende a 0. Ribeiro Jr. and Diggle 1999, apresentam alguns dos principais modelos paramétricos de funções de correlação assim como simulações de processos Gaussianos univariados mostrando o efeito do uso das diferentes famílias. Dois dos principais exemplos de função de correlação são: (a) família exponencial potência: ρ(d; φ) = exp( (φd) κ ), onde φ = (φ, κ) com φ > 0 e κ (0, 2]. O parâmetro φ é de escala e d é a distância euclideana entre dois pontos quaisquer em G. Quando κ = 1 temos o caso particular da função de correlação exponencial. E quando κ = 2 temos a função de correlação Gaussiana. (b) família Matérn 1 ρ(d; φ; λ) = 2 (λ)d κ 2 λ 1 λ 2 (λ)d, Γ(λ) φ φ onde φ = (φ, λ),φ > 0 é o parâmetro de escala, λ > 0 é o parâmetro de forma. A função Γ(.) é a função Gama usual e κ λ é a função modificada de Bessel do terceiro tipo de ordem λ. Um aspecto importante de superfícies espaciais é o seu grau de suavidade. Matematicamente essa propriedade é descrita através do grau de diferenciabilidade do processo. A especificação da família de função de correlação é de grande importância, pois, em processos Gaussianos a suavidade do processo está diretamente relacionada à diferenciabilidade da sua estrutura de covariância. Por exemplo, a função de correlação Gaussiana resulta em processos infinitamente diferenciáveis, em outras palavras, em processos extremamente suaves, o que na prática é difícil de se observar. Recentemente a função de correlação em (b) tem sido a mais usada na literatura pois além das funções exponencial (quando λ = 0, 5) e Gaussiana (quando λ ) serem seus casos particulares, o parâmetro λ controla a diferenciabilidade do processo (Schmidt, Nobre, and Ferreira 2002). 11

12 Neste trabalho, usaremos a função de correlação exponencial ρ(d; φ) = exp( φd). Nela, o parâmetro φ nos diz quão rapidamente a correlação decai pra zero. O decaimento pode ser, mais ou menos lento, dependendo desse parâmetro. Quando ρ é isotrópica e estritamente decrescente para um dado vetor paramétrico φ, a distância que torna ρ desprezível, isto é, por exemplo, a correlação igual a 0.05, é referido na literatura de geostatística como alcance. Portanto, o alcance é a distância a partir da qual não há mais correlação entre as observações Modelagem Usual: krigagem De uma forma geral, o objetivo da modelagem de processos espaciais é o de prever a variável sob estudo em localidades não medidas, a partir das observações nos pontos medidos. Em outras palavras, baseados na informação observada de Y (.) em n pontos de uma determinada região, deseja-se prever o processo em k pontos não medidos dessa mesma região. Na literatura de estatística espacial o procedimento mais usual é a utilização de krigagem. Em geral, a krigagem depende das propriedades do momento de segunda ordem de Y (.). Usualmente, no contexto de geoestatística, dadas as observações do processo de interesse em n localizações, Y = (Y (s 1 ), Y (s 2 ),..., Y (s n )), assume-se que : Y µ, Σ N n (µ, Σ), onde N n representa a distribuição normal multivariada de dimensão n, µ é um vetor de dimensão n representando a média do processo, e Σ é uma matriz, n n, que representa a estrutura de covariância. De forma geral, podemos supor que a tendência do processo Y (.) não é constante ao longo de G, mas sim uma combinação linear desconhecida de funções conhecidas X(s) = {X 1 (s),..., X q (s)}, s G, isto é, µ(s) = β X(s), onde β = (β 1,..., β q ). As quantidades X j (.), j = 1,..., q representam covariáveis que possivelmente explicam o nível de Y (.). Dessa forma esse não é um processo estacionário, já que o nível de Y (.) varia com as localizações em G. Na literatura de geoestatística a interpolação espacial neste contexto é conhecida como krigagem universal. Quando a média 12

13 µ(.) é assumida constante para todo s G a interpolação espacial é chamada de krigagem ordinária (Cressie 1993). Na krigagem, a previsão é baseada numa matriz de covariância conhecida, o que na prática não é realista. Geralmente, a matriz é estimada através dos dados de modo que a previsão não considera a incerteza associada à estimação da estrutura de covariância. A seguir descreveremos o modelo espacial gaussiano. Tal modelo tem uma estrutura simples que é flexível o suficiente para lidar com uma grande classe de problemas. Em geral, assuma {Y (s) : s G IR 2 } um campo aleatório, tal que Y IR 1 (ex.: Y (s) = CO 2 (s)). Nesse caso, assumimos que as covariáveis e a variável resposta foram medidas nos mesmos n pontos de G. Assim, o modelo para Y pode ser descrito por Y (s) = β X(s) + Z(s) + ɛ(s), (2.3) onde β é um vetor de coeficientes das q covariáveis em X, sendo X(s) = (X 1 (s), X 2 (s),..., X q (s)), ( Z(s) σ 2, φ ) P G(0, σ 2 ρ( s s ; φ)), (2.4) com σ 2 sendo a variância (comum) de Z(.) e ρ(.; φ) uma função de correlação válida. Assim temos que cada elemento de c(.,.) é dado por Σ s,s = c(s, s ) = σ 2 ρ( s s ; φ), e ɛ(s) N(0, τ 2 ). Chamamos ɛ(s) de efeito pepita, a fonte de erros que não depende da localização s, ou seja, uma componente de variação devido a erros de medida que são independentes ao longo da região G. 2.2 Inferência Bayesiana Um dos principais objetivos da inferência estatística em dados espaciais é conseguir conclusões sobre quantidades não observadas. Isso é feito a partir de um conjunto 13

14 de informações que temos disponíveis sobre determinada quantidade de interesse. Na inferência bayesiana, o processo de inferência é baseado na distribuição do vetor de parâmetros θ após a observação dos dados. Esta distribuição é chamada de distribuição a posteriori, e é obtida seguindo o teorema de Bayes: p(θ y) f n (Y θ)p(θ), onde f n (Y θ) representa a função de verossimilhança, que descreve a informação proveniente dos dados, e p(θ) representa a distribuição a priori, que descreve a informação que temos sobre θ antes da observação dos dados. A seguir descreveremos possíveis distribuições a priori para o vetor paramétrico θ = (β, σ 2, τ 2, φ) Especificação da distribuição a priori Sob o enfoque bayesiano, precisamos atribuir distribuições a priori para os parâmetros do modelo. Seguindo o modelo em (2.3), o vetor de parâmetros é dado por θ. É razoável assumir que os parâmetros em θ são independentes a priori. Como os coeficientes em β representam os efeitos das covariáveis X sobre a média de Y (.), geralmente assume-se que β i N(0, σβ), 2 onde σβ 2 é uma quantidade fixa conhecida. Quanto maior o valor de σβ 2 mais vaga a informação a priori sobre β i, i = 1, 2,..., q. Para os parâmetros σ 2 e τ 2 geralmente associa-se uma priori gama ou gama invertida com uma determinada média e variância. Os parâmetros em ρ representam aqueles envolvidos na função de correlação espacial especificada para o modelo. Por exemplo, no caso da função de correlação exponencial, ρ(d; φ) = exp( (φd)), uma priori usualmente atribuída a φ é uma distribuição gama invertida com variância infinita. A escolha da média dessa distribuição pode ser difícil. Uma sugestão é atribuir uma média tal que a correlação é 0.05 quando a distância é igual à metade da distância máxima presente na amostra. Em outras palavras, essa priori reflete o fato de esperarmos que para distâncias maiores que 0.5d max a correlação espacial é próxima de 0 (Schmidt, Nobre, and Ferreira 2002). 14

15 2.2.2 Obtenção da distribuição a posteriori Seguindo o paradigma de Bayes, sabemos que a distribuição a posteriori de θ, p(θ y), é proporcional ao produto da função de verossimilhança, f n (Y θ), pela priori, p(θ), isto é, p(θ y) f n (Y θ)p(θ). Seguindo o modelo em (2.3) temos que a distribuição a posteriori para θ será dada por: { p(θ y) Σ Y 1/2 exp 1 } 2 (Y β X) T Σ 1 Y (Y β X) p(β)p(σ 2 )p(φ)p(τ 2 ). (2.5) Quaisquer que sejam as distribuições a priori associadas aos elementos de θ, não é possível fazer nenhuma sumarização da distribuição a posteriori acima de forma analítica. Portanto, é preciso fazer uso de métodos de simulação estocástica para obter amostras da densidade acima. Nos últimos 15 anos a inferência Bayesiana vem experimentando um grande avanço devido a introdução de Métodos de Monte Carlo via cadeias de Markov (MCMC). Neste contexto, os métodos de simulação estocástica mais utilizados são o amostrador de Gibbs e o Metropolis-Hastings, que descreveremos a seguir. Para maiores detalhes veja Gamerman Técnicas de Monte Carlo via Cadeias de Markov Um algoritmo Monte Carlo via cadeia de Markov (MCMC) para simular p(.) é qualquer método que produza uma cadeia de Markov homogênea, ergódica e irredutível cuja distribuição estacionária seja p(.). Para maiores detalhes veja Gamerman Particularmente, descreveremos aqui, os algoritmos Amostrador de Gibbs e Metropolis Hastings, que serão utilizados para obter amostras da distribuição a posteriori do vetor θ, descrito em Amostrador de Gibbs É um algoritmo que gera uma sequência {θ (0), θ (1), θ (2),...}, 15

16 a partir de uma cadeia de Markov, cuja distribuição limite/equilíbrio é p(θ) e cujo núcleo de transição é formado pelo produto das distribuições condicionais completas. {θ (0), θ (1), θ (2),...} representam amostras dos parâmetros do modelo. Seja π(θ i.), i = 1,..., p, a condicional completa da i-ésima componente do vetor θ, o algoritmo é então, descrito da seguinte forma: Algoritmo: 1. θ (0) = (θ (0) 1, θ (0) 2,..., θ (0) p ) 2. Na j-ésima iteração, θ (j) é obtido a partir de θ (j 1) ; sorteando θ (j) 1 π(θ 1 θ (j 1) 2,..., θ (j 1) p ) θ (j) 2 π(θ 2 θ (j) 1, θ (j 1) 3,..., θ (j 1) p ) θ (j) 3 π(θ 3 θ (j) 1, θ (j) 2, θ (j 1) 4,..., θ (j 1) p ). θ (j) p π(θ p θ (j) 1, θ (j) 2,..., θ (j) p 1) 16

17 Metropolis-Hastings Assim como o amostrador de Gibbs, é um algoritmo que gera uma sequência {θ (0), θ (1), θ (2),...}, a partir de uma cadeia de Markov, cuja distribuição limite é p(θ). O algoritmo de Metropolis-Hastings será usado para amostrar das distribuições condicionais completas dos parâmetros que não possuem condicionais completas de forma fechada. Este algoritmo consiste nos seguintes passos: 1. na i-ésima iteração do algoritmo, sorteamos um valor proposto para θ, ξ de uma distribuição proposta q(ξ θ (i 1) ); 2. Aceitamos o valor proposto com probabilidade α, onde α = min 1, p(ξ) q(ξ θ (i 1) ) p(θ (i 1) ) q(θ (i 1) ξ), caso contrário, permanecemos com o valor corrente de θ Interpolação Espacial Como já mencionado anteriormente, em geoestatística, o maior interesse encontra-se na previsão do processo em pontos não observados, baseada na informação obtida através das n localizações observadas. De acordo com o modelo em (2.3) as observações estão sendo geradas de acordo com um processo gaussiano. Uma vez obtida amostras da distribuição a posteriori de θ podemos descrever a previsão do processo numa região através da distribuição preditiva de um conjunto, por exemplo k, de localizações não medidas. Mais especificamente, defina o vetor de não observados como Y u = (Y(s n+1 ),..., Y(s n+k )). Pela definição do modelo em (2.3), temos que Y θ N µ g (n+k) ; Σ gg Σ gu, Y u µ u Σ ug Σ uu 17

18 onde µ g representa o vetor n 1 com a tendência polinomial para as localizações medidas e, analogamente, µ u é o vetor de dimensão k para as localizações não medidas; Σ gg denota a matriz de covariâncias, n n, entre as localizações medidas; Σ gu é a matriz de covariâncias, n k, entre as localizações medidas e não medidas; e Σ uu denota a matriz de covariâncias, k k, entre as localizações não medidas. Para a previsão dos processos nas k localizações não observadas, precisamos obter a distribuição preditiva p(y u Y), que é dada por p(y u Y) = θ p(y u Y, θ) p(θ Y)dθ (2.6) = E [p(y p(θ Y) u Y, θ)]. Podemos aproximar o valor esperado acima por integração via Monte Carlo (Gamerman 1997) após obter a amostra a posteriori do vetor paramétrico θ. Necessitamos agora obter a distribuição p(y u Y, θ), que é facilmente calculada utilizando as propriedades da normal multivariada (Mardia, Kent, and Bibby 1979). Mais especificamente, temos que p(y u Y, θ) N k ( µu g, Σ u g ), onde ( ) µ u g = µ u + Σ ug Σ 1 gg Y µg e Σ u g = Σ uu Σ ug Σ 1 gg Σ gu. Obtidas as amostras da posteriori de θ, obteremos via integração de Monte Carlo p(y u Y), tal que: p(y u Y) 1 L Ll=1 p(y u Y, θ l ). Abordamos neste Capítulo alguns aspectos importantes da Geoestatística. seguir, descreveremos alguns procedimentos para o tratamento do desalinhamento entre variáveis espacialmente referenciadas. A 18

19 Capítulo 3 Métodos para o tratamento do desalinhamento entre variáveis É muito comum em problemas multivariados, no contexto de geoestatística, ter que lidar com banco de dados cujas observações não são feitas exatamente nos mesmos pontos da região sob estudo G. Geralmente, isso se deve ao fato de como e, em que momento, as estações foram alocadas às suas posições. Banerjee and Gelfand 2002 apresentam procedimentos de inferência quando há desalinhamento das covariáveis com a variável resposta, isto é, a variável resposta e eventuais covariáveis não são medidas no mesmo ponto. Todo o artigo é desenvolvido para respostas univariadas em cada ponto observado da região G. Le, Sun, and Zidek 1997, baseados na metodologia inicialmente proposta em Le and Zidek 1992, extendem a modelagem para o problema de desalinhamento entre as variáveis resposta (dados faltantes devido ao desenho das estações). Este método produz a distribuição preditiva conjunta para várias localidades e para diferentes instantes no tempo utilizando todo o conjunto de dados disponível. Neste trabalho, estamos interessados em estudar o desalinhamento entre variável resposta e possíveis covariáveis. Apresentaremos nas seções seguintes algumas abordagens para o tratamento desse problema. Nesse contexto, o conjunto de localizações onde as possíveis covariáveis são observadas não é igual ao conjunto de localizações onde a variável resposta é observada. 19

20 Inicialmente, seja Y a variável resposta e seja X o vetor de possíveis variáveis explicativas, temos assim 3 conjuntos disjuntos na região de interesse G, RX, RY e RXY. Para as localizações s RXY, nós observamos ambos, Y (s) e X(s), para as localizações em RY, observamos Y (s), mas não observamos X(s), e para as localizações em RX, observamos X(s) mas não Y (s). Nas localizações restantes em G não observamos nem X(s) nem Y (s) e chamaremos esta região de RU. A figura 3.1 ilustra essa situação. Veja Banerjee and Gelfand 2002 para maiores detalhes. Banerjee and Gelfand 2002 propõem a modelagem conjunta de resposta e covariáveis, mas assumem o mesmo alcance espacial para todas as variáveis. Aqui permitiremos alcances diferentes para cada uma das variáveis. Figura 3.1: Representação gráfica do desalinhamento entre variáveis. 3.1 Procedimento Usual Uma possibilidade para resolver o problema dos dados faltantes seria a remoção de pontos para os quais não temos informação conjunta sobre covariáveis e resposta. Outra possibilidade seria utilizar valores plausíveis para imputar as observações faltantes. Note que, o modelo apresentado em (2.3), pode ser usado considerando essas duas possibilidades. Porém procedendo desta forma poderíamos perder informação ou não estaríamos considerando a incerteza associada à imputação das observações. Desta forma, a 20

21 seguir, descreveremos métodos que acreditamos serem mais eficazes para o tratamento desse desalinhamento. 3.2 Método da Imputação Múltipla Como já mencionado anteriormente, na análise de dados multivariados frequentemente nos deparamos com o problema de dados faltantes. Até recentemente, os únicos métodos disponíveis para análise de conjuntos de dados incompletos concentravam-se na remoção dos dados faltantes, ou ignorando a informação incompleta ou substituindo esta informação por valores plausíveis. Esses métodos, apesar de simples implementação, são muito ineficientes, pois ignoram a incerteza associada aos dados faltantes e, assim, resultam em estimativas mais conservadoras, já que os intervalos de previsão tenderão a ser menores. Recentemente, foram feitos grandes progressos no desenvolvimento de procedimentos estatísticos para a análise de dados faltantes. No fim da década de 70, Dempster, Laird, and Rubin 1977 formalizaram o algoritmo EM, um método computacional para estimação eficiente no tratamento de conjuntos de dados incompletos. Em qualquer conjunto de dados incompletos, os valores observados nos dão evidência indireta sobre valores plausíveis para os dados faltantes. Essa evidência, quando combinada com certas suposições, implicam em uma distribuição de probabilidade preditiva para os valores faltantes, que deve ser ponderada na análise estatística. O algoritmo EM faz essa ponderação de maneira determinística ou não aleatória. Aqui, estaremos utilizando o método desenvolvido por Rubin 1987, conhecido como o método da imputação múltipla, que trata a ponderação via simulação Descrição do Método O método da Imputação Múltipla é uma técnica de simulação que substitui cada valor faltante por um conjunto de m > 1 valores plausíveis, vindos de suas distribuições preditivas, de um determinado modelo de imputação. A variação entre as m imputações reflete a incerteza com que cada um dos valores faltantes podem 21

22 ser previstos dos valores observados. Depois de feita a imputação múltipla existem m conjuntos de dados completos, e cada um desses conjuntos pode ser analisado por métodos usuais. As m versões dos conjuntos de dados completos são analisados separadamente e de maneira igual e os resultados combinados usando regras apresentadas por Rubin 1987, para obter estimadores, desvios-padrão, etc; que incorporam a incerteza associada aos dados faltantes. Para obtenção de estimadores para os coeficientes e desvios-padrão é preciso guardar os estimadores e desvios-padrão para cada um dos m conjuntos de dados imputados, e então combinar os resultados usando as regras dadas por Rubin Tais regras podem ser facilmente programadas em algum pacote estatístico. Aqui implementamos rotinas no software R (R Development Core Team 2003) Regras para combinar os resultados Seja ˆQ um estimador de uma quantidade de interesse e U sua variância estimada. Depois de fazer a mesma análise para cada conjunto de dados imputados, temos m estimadores igualmente prováveis ˆQ 1, ˆQ2,..., ˆ Q m e suas correspondentes variâncias estimadas U 1, U 2,..., U m. O estimador do método de Imputação Múltipla será dado por: Q = 1 m m i=1 ˆQ i. A variância total para o estimador possui duas componentes, que levam em consideração a variabilidade entre os conjuntos de dados e aquela dentro de cada conjunto de dados imputado. A variabilidade dentro de cada conjunto de dados é dada por: U = 1 m Û i, m i=1 e a variância entre os m conjuntos de dados imputados, é dada por: B = 1 m 1 m ( ˆQ i Q) 2. i=1 22

23 A variância total, T, é dada pela soma dessas duas componentes com um fator de correção adicional que considera o erro de simulação em ˆQ, T = U + ( ) B. m A raiz quadrada de T é o erro total associado à Q. Se não houver dados faltantes nos dados, os valores de ˆQ 1, ˆQ2,..., ˆQ m serão idênticos, e assim B terá valor 0 e T será igual a U. O tamanho de B relativo a U reflete quanta informação está contida nos dados faltantes com relação aos dados observados. Podemos usar a seguinte aproximação para calcular intervalos de credibilidade para os parâmetros: Q ± t ν T onde, t ν denota o quantil da distribuição t-student com ν graus de liberdade, onde: ν = (m 1) ( 1 + ) 2 mu. (m + 1)B Quando o valor de B domina o valor de U o valor dos graus de liberdade fica próximo do valor mínimo de m 1, porém quando acontece o contrário o valor dos graus de liberdade tende ao infinito. Se o valor computado dos graus de liberdade for muito pequeno, por exemplo, menor que 10, isso sugere que podemos obter maior eficiência aumentando o número de imputações m. Entretanto, se o valor de ν for grande, isso sugere que teremos pouco ganho aumentando o valor de m. Para a utilização do método de Imputação múltipla precisamos adotar um modelo de imputação para os dados faltantes. Este modelo assim como o ajuste do método serão apresentados no capítulo de análise de dados. 3.3 Modelos de Coregionalização Linear Como já comentado anteriormente, em estudos de dados espaciais não é razoável assumir que as observações são independentes ao longo da região sob estudo. Acredita- -se que observações próximas são mais correlacionadas do que observações distantes entre si. Desta forma, quando modelamos dados deste tipo, desejamos descrever a 23

24 relação entre estas observações através de um modelo de regressão usual, utilizando covariáveis, mais um efeito aleatório que descreva a correlação espacial presente nas observações e, eventualmente, um efeito independente que descreva o erro de medida. Além disso, muitas vezes temos mais de uma observação em cada um dos pontos da região sob estudo, por exemplo, assuma que observa-se em cada uma das n localizações p variáveis. Assim, precisamos descrever de forma válida e flexível, não só a relação entre as observações ao longo do espaço mas, também, a relação entre as variáveis dentro de uma dada localização da região. Desta forma, fica evidente a necessidade de considerar modelos de regressão com resposta multivariada e estrutura de covariância descrita pela relação entre e dentre as localizações da região sob estudo. Isto é, seja Y(s) = (Y 1 (s),..., Y p (s)) o vetor de observações na localidade s; assumindo estacionariedade, precisamos definir uma função de covariância C(s s ) onde C(s s ) ll = cov(y l (s), Y l (s )), l, l = 1,..., p, de modo que para quaisquer n e localidades s 1,..., s n, a matriz de covariância (pn pn) resultante de Y T = (Y (s 1 ), Y (s 2 ),..., Y (s n )) seja positiva definida. Uma solução para esse problema é a utilização dos Modelos de Coregionalização Linear (MCL), que descreveremos a seguir Descrição do MCL Começamos aqui por descrever detalhadamente o Modelo de Coregionalização Linear e suas propriedades. Na subseção descreveremos o procedimento de inferência baseado naquele proposto em Schmidt and Gelfand 2003 e, daí, discutiremos a nossa proposta de usá-los para o problema de observações faltantes, entre as p variáveis medidas, para alguns pontos dos n observados. Os Modelos de Coregionalização Linear têm estrutura do covariograma da forma rm=1 T m g m ( s s ), onde os g m s são variogramas conhecidos, os T m s são matrizes não-negativas e r (r < p) fornece o número de estruturas. covariância entre as variáveis é capturada num espaço de dimensão menor Note que a (r < p) definida pelas componentes principais de T m. Goulard and Voltz 1992 des- 24

25 crevem uma técnica de mínimos quadrados para ajustar tais modelos. Schmidt and Gelfand 2003 e Gelfand, Schmidt, Banerjee, and Sirmans 2004 descrevem detalhadamente a evolução dos modelos de coregionalização linear e propõem uma abordagem bayesiana baseada em tais modelos, cujo objetivo não é estimar a covariância entre as variáveis num espaço de dimensão menor, mas obter uma estrutura de covariância flexível, permitindo diferentes alcances espaciais para as p variáveis, assim como um modelo em que T m varia espacialmente. A metodologia adotada aqui é essencialmente baseada naquela proposta em Gelfand, Schmidt, Banerjee, and Sirmans Entretanto, assume-se aí que os p processos de interesse são observados nas mesmas n localizações. Já aqui, permitiremos que nem todas as n localizações possuam as observações referentes às p variáveis resposta. Portanto, há um desalinhamento das observações, o que é muito comum acontecer em aplicações ligadas a área ambiental. De uma forma geral, considere w j (s), j = 1,, p, p processos espaciais gaussianos univariados independentes e identicamente distribuídos com variância unitária e função de correlação paramétrica ρ(s s ; φ). Seja Y l (s) = p j=1 a lj w j (s). Note que C(Y(s), Y(s )) = ρ(s s ; φ)t, onde T = AA T com A sendo uma matriz p p com elementos A lj = a lj. A matriz T representa a matriz de covariância do processo em qualquer ponto s. Essa matriz é denominada de matriz de coregionalização e o modelo para Y(s) é conhecido como modelo linear de coregionalização, sugerindo que as componentes de Y(s) co-variam sobre a região de estudo. A matriz T é de posto completo se, e somente se, A o é. Diferentemente de Goulard and Voltz 1992, ao modelar Y(s), estamos interessados apenas em processos de dimensão completa, isto é, em processos p dimensionais. Escrevendo o modelo dessa forma, temos uma estrutura de covariância separável, isto é, esta hipótese de separabilidade implica que, C(Y(s), Y(s )) = R T. Assumindo, inicialmente, um φ, que é o parâmetro da função de correlação, comum para cada um dos p processos espaciais, w j (s), resulta num alcance comum a todas as componentes de Y(s). Uma extensão natural, descrita em Schmidt and Gelfand 2003, é assumir que os w j (s) s são independentes, com variância unitária mas com função de correlação ρ(s s ; φ j ). Novamente, seja Y l (s) = p j=1 a lj w j (s). 25

26 Agora, temos que cov(y l (s), Y l (s )) = cov( p j=1 a lj w j (s), p j=1 a l jw j (s )) = p j=1 a lj a l jρ(s s ; φ j ). Esta última igualdade pode ser escrita na forma matricial como Σ Y(s),Y(s ) = C(s s ) = AD s,s A T = p j=1 ρ(s s ; φ j )T j com T j = a j a T j, onde a j representa o j-ésimo vetor coluna de A, e D é uma matriz diagonal, p p, com elementos ρ(s s ; φ j ), j = 1, 2,, p. Por construção, C(s s ) é uma função de covariância cruzada válida, que não é separável para o vetor de dados Y nas n localidades espaciais medidas. Escrevendo Y(s) = Aw(s), está claro que os w l (s) são processos latentes que geram os Y(s) condicional a A. Dessa forma, os parâmetros do modelo são a 1, a 2,, a p, φ 1, φ 2,, φ p. Existem p p parâmetros em A quando necessita-se apenas de p(p+1) 2 parâmetros, já que AA T = T. Uma redução conveniente é considerar que A seja triangular inferior. Desta forma, o número de parâmetros no modelo reduz-se a p(p+1) 2 + p. Neste caso, o modelo é dado por Y j (s) = p j=1 a jl ω l (s), j = 1,..., p, isto é, considerando o vetor medido na localidade s, temos que Y 1 (s) a 11 w 1 (s) Y 2 (s) a = 21 w 1 (s) + a 22 w 2 (s). (3.1).. Y p (s) p l=1 a jlw l (s) Resumindo, os w j (s) darão a estrutura espacial e os a jl serão pesos que dirão como cada processo espacial w j (s) contribuirá para cada componente de Y(.). Assim, Y(s) é estacionário com uma estrutura de covariância cruzada simétrica, permitindo variâncias diferentes para cada uma das componentes, e permitindo também, quando a função de correlação ρ for isotrópica e monótona, um alcance diferente para cada uma das componentes em Y(.). Definimos acima a estrutura de coregionalização linear, mas podemos pensar num modelo mais geral que considere o possível efeito de covariáveis que são medidas nas n localidades, assim como a inclusão de um erro de medida, efeito pepita. De uma forma geral, vamos assumir que Y(s) tem média β X(s), onde X(s) é um vetor de dimensão q contendo as covariáveis que, acredita-se, influenciam cada um dos p processos em Y(s), e β também é uma matriz q p contendo os coeficientes 26

27 correspondentes a cada uma das q variáveis explicativas, referentes a cada um dos p processos. Note que não é necessário assumir que as mesmas q covariáveis explicam as p componentes em Y(s). Entretanto, para simplificar a notação, e considerando a aplicação que faremos no Capítulo 4, consideraremos o caso em que as p variáveis resposta são descritas pelas mesmas q variáveis explicativas. Vale ressaltar que esta proposta permite que cada um dos X j (s), j = 1,..., q tenha um diferente efeito sobre cada um dos Y i (s), i = 1,..., p. Assumindo ainda a adição de um erro de medida que é independente da componente de coregionalização; temos que, de uma forma mais geral, o modelo é descrito por: Y(s) = β X(s) + v(s) + ɛ(s), (3.2) onde v(s) = Aω(s) e ɛ(s) = (ɛ 1 (s),..., ɛ p (s)) com ɛ(s) N(0, D ɛ ), onde D ɛ é uma matriz diagonal, p p, com τ 2 i, na diagonal principal. Desta forma, o vetor paramétrico do modelo é dado por θ = (β, A, φ 1,..., φ p, τ 2 1,..., τ 2 p ) e, concatenando as observações das p variáveis ao longo das n localizações medidas num vetor Y, temos que Y θ N pn (β X, Σ Y + I n D ɛ ), onde denota o produto de kronecker e Σ Y = p j=1 ρ(φ j ) a j a T j. Como descrito em Schmidt and Gelfand 2003, note que existe uma transformação 1 a 1 entre os elementos das matrizes T e A. Por exemplo, se p = 3, podemos verificar que a T 1/2 a 21 a 22 0 = T 21 T 1/2 11 T a 31 a 32 a T 1/ ( T22 T ) /2 T 11 0 T 11 T 23 T 12 T 13 T11 T 22 T12 2 T 33 T 13 2 T11 T 11 (T 11T 23 T 11 T 23 ) 2 T 11 (T 11 T 22 T12 2 ) Essa transformação é recursiva e pode ser obtida para qualquer p. Veja Gelfand, Schmidt, Banerjee, and Sirmans 2004 para maiores detalhes.. 27

28 3.3.2 Modelagem Espacial Condicional Como mostrado em Gelfand, Schmidt, Banerjee, and Sirmans 2004 podemos descrever o modelo conjunto na equação (3.2) através de uma parametrização condicional. Resumidamente, sabemos da teoria de probabilidade, que a distribuição conjunta de um vetor aleatório pode ser descrita através do produto de distribuições condicionais. Por exemplo, se p = 2, a distribuição conjunta para Y(s), p(y 1 (s), Y 2 (s)), pode ser escrita, como p(y 1 (s), Y 2 (s)) = p(y 1 (s)) p(y 2 (s) Y 1 (s)) = p(y 2 (s)) p(y 1 (s) Y 2 (s)). (3.3) A idéia de descrever um processo espacial multivariado como o produto de distribuições condicionais, e a vantagem computacional envolvida é descrita, por exemplo, em Royle and Berliner Vale ressaltar que a ordem do condicionamento na equação em (3.3) não é relevante. Caso exista alguma relação de causa/efeito entre as p variáveis em Y(.), esta pode ser usada para construir o condicionamento para a obtenção da distribuição conjunta. Gelfand, Schmidt, Banerjee, and Sirmans 2004 discutem detalhadamente a vantagem de uma parametrização com relação a outra. É claro que computacionalmente a parametrização condicional apresenta vantagens, pois envolve p cálculos da inversa e do determinante de uma matriz de covariância n n, enquanto que na parametrização conjunta, temos que calcular, a inversa e o determinante de uma matriz pn pn. Entretanto, quando um efeito pepita é considerado na parametrização conjunta, eles mostram que na parametrização condicional não podemos considerar o efeito pepita em todas as equações, pois isto resultará num modelo conjunto que terá erros de medida que não são indepedentes entre si. Para exemplificar, escreveremos o modelo conjunto para p = 3 segundo a parametrização condicional. Seguindo as equações (3.2) e (3.3) podemos escrever a distribuição conjunta de Y(s), como, por exemplo, Y 1 (s) = β 1X(s) + σ 1 w 1 (s) Y 2 (s) Y 1 (s) = β 2X(s) + αy 1 (s) + σ 2 w 2 (s) Y 3 (s) Y 2 (s), Y 1 (s) = β 3X(s) + α 1 Y 1 (s) + α 2 Y 2 (s) + σ 3 w 3 (s) + ɛ 3 (s) (3.4) 28

29 onde w j (s) é um processo gaussiano com média 0, variância unitária, com função de correlação ρ(s s ; φ j ) e σ j é um parâmetro de escala. A conexão entre a especificação condicional na equação (3.4) e a conjunta é dada por Y 1 (s) β 1X(s) Y 2 (s) = β 2X(s) + αβ 1X(s) + Y 3 (s) β 3X(s) + (α 1 + α 2 α)β 1X(s) + α 2 β 2X(s) σ w 1 (s) 0 ασ 1 σ 2 0 w 2 (s) + 0 (3.5) α 1 σ 1 α 2 (ασ 1 + σ 2 ) σ 3 w 3 (s) ɛ 3 (s) onde β j, j = 1, 2, 3, é um vetor de dimensão q representando os coeficientes das q covariáveis em X(.); e ɛ 3 (.) N(0, τ2 3 ). Claramente, essa é uma versão do modelo em (3.2). De fato, a 11 = σ 1, a 21 = ασ 1, a 22 = σ 2, a 31 = α 1 σ 1, a 32 = α 2 (ασ 1 + σ 2 ), a 33 = σ 3. Como T = AA T, a matriz de coregionalização pode ser obtida em termos de α, α 1, α 2, σ 1, σ 2 e σ Especificação da Priori e Distribuição a Posteriori Resultante Sob o enfoque bayesiano, precisamos atribuir distribuições a priori para o vetor de parâmetros do modelo, p(θ); e, seguindo o paradigma de Bayes, combinamos essa informação com aquela proveniente dos dados, e encontramos a posteriori resultante, p(θ y), como mencionado anteriormente. Considerando o modelo definido na Subseção 3.3.1, vimos que existe uma transformação 1 a 1 entre os elementos de T e A, então, ao invés de atribuírmos uma priori para A, nós atribuímos uma priori para T, que apresenta uma interpretação direta. Como T é uma matriz de covariância, uma escolha natural é associar uma distribuição Wishart Invertida (veja Box and Tiao 1992) com uma precisão pequena e uma média tal que D σ 2 = diag(σ1, 2, σp), 2 onde σl 2 é uma variância esperada a priori para Y l (s). 29

30 Já para a escolha da função de correlação ρ(.; φ j ) existem várias opções, como visto no Capítulo 2. Ilustraremos aqui com a correlação exponencial, exp( φ j s s ). Associamos a cada φ j uma priori independente gama que possui uma variância grande e uma média baseada na estimativa crua do alcance, de modo que 3/φ j seja igual a metade da distância máxima entre as localizações medidas. Note que outras funções de correlação, como a exponencial potência ou a Matérn, podem ser utilizadas. Para os elementos em β j, j = 1,..., p, assumimos que p(β) N qp (0, D β ), onde D β é uma matriz diagonal com valores altos em sua diagonal principal, descrevendo nossa pouca informação a priori sobre os efeitos das covariáveis nas componentes de Y(s). Para as variâncias τ 2 j, dos efeitos pepita ɛ j (s), podemos associar uma priori gama invertida com média baseada num ajuste de minímos quadrados para um modelo sem estrutura espacial e variância infinita. Dessa forma, a distribuição a posteriori é dada por { p(θ y) Σ Y 1/2 exp 1 } 2 (Y β X) T Σ 1 Y (Y β X) p(β)p(t)p(φ 1 ) p(φ p )p(τ 2 1 ) p(τ 2 p ). (3.6) Já, o procedimento de inferência bayesiano sob o modelo condicional em (3.5) necessita da definição da função de verossimilhança que pode ser escrita numa forma produto usando (3.4). Sob a reparametrização precisamos especificar prioris para α, β j, φ j, σ 2 j, j = 1, 2 e τ 2 3. Para os coeficientes α e β js podemos utilizar prioris normais centradas em 0 e com variância grande. Com uma função de correlação exponencial, podemos atribuir uma distribuição a priori Gamma inversa para cada φ j e também para os parâmetros σ 2 j e τ 2 3. As distribuições a priori descritas acima são as distribuições usualmente assumidas. O problema de tais distribuições é como fixar seus parâmetros. Quando não sabemos muito a respeito de um parâmetro a priori podemos especificar para ele uma distribuição a priori não informativa. Neste caso, estamos fazendo inferência baseada numa priori com muito pouca informação, assim a priori não influenciará 30

31 nos resultados. Mais especificamente, no modelo em (2.3), sem efeito pepita, a priori de referência, proposta por Berger, Oliveira, and Sansó 2001, π R (β, σ 2, φ), é da forma π R (β, σ 2, φ) π(φ) 1 (σ 2 ) a, a R, onde, π(φ) W φ = { tr(wφ) 2 1 } 1 n p (tr(w φ)) 2 2, ( ) φ Σ φ Σ 1 φ P φ Σ e, Pφ Σ = I X(X T Σ 1 φ X) 1 X T Σ 1 φ. Como estamos utilizando a função de correlação esponencial, temos que, Σ φ = exp( φd) e ( ) φ Σ φ = d exp( φd) Essa priori será utilizada para cada parcela em (3.4) sem efeito pepita. Aqui faremos os ajustes dos modelos considerando as duas especificações acima, assumindo distribuições a priori usuais e a distribuição a priori de referência Desalinhamento nos Modelos de Coregionalização Linear Estamos interessados neste trabalho em estudar o caso de covariáveis e resposta desalinhadas. Neste caso, podemos usar os Modelos de Coregionalização Linear com parametrização condicional para modelar todas as variáveis conjuntamente. Nesta subseção desenvolveremos os Modelos de Coregionalização Linear para lidar com a situação em que nem todos os n pontos têm medida das p variáveis consideradas em Y(.). Inicialmente, suponhamos que entre as n localizações consideradas, por exemplo, n y delas (n y < n), meçam apenas um subconjunto das p variáveis em Y(.). Note que podemos ter diferentes situações, estações que medem as p componentes de Y(.), outras que medem apenas p 1 delas e assim sucessivamente. A idéia aqui é aproveitar toda informação obtida dos pontos onde possuimos medidas, para que possamos aprender sobre a informação faltante com relação a cada variável nos seus respectivos pontos não medidos. 31

Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação

Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação Francisco A. Rodrigues Departamento de Matemática Aplicada e Estatística - SME Objetivo Dada M classes ω 1, ω 2,..., ω M e um

Leia mais

Tópicos de Estatística Espacial Geoestatística

Tópicos de Estatística Espacial Geoestatística Tópicos de Estatística Espacial Geoestatística Anderson Castro Soares de Oliveira Geoestatística A geoestatística é uma análise espacial que considera que a variável em estudo se distribui continuamente

Leia mais

Estrutura de covariância espacial multivariada não separável

Estrutura de covariância espacial multivariada não separável Estrutura de covariância espacial multivariada não separável Rafael Santos Erbisti Universidade Federal do Rio de Janeiro Instituto de Matemática Departamento de Métodos Estatísticos 2015 Estrutura de

Leia mais

Ralph S. Silva

Ralph S. Silva ANÁLISE ESTATÍSTICA MULTIVARIADA Ralph S Silva http://wwwimufrjbr/ralph/multivariadahtml Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Sumário Revisão:

Leia mais

Inferência Estatistica

Inferência Estatistica Inferência Estatistica Ricardo Ehlers ehlers@icmc.usp.br Departamento de Matemática Aplicada e Estatística Universidade de São Paulo Modelos e Inferência Um modelo é uma simplificação da realidade (e alguns

Leia mais

Metodologia de inversão

Metodologia de inversão 6 Metodologia de inversão Nesta tese, a transformação de velocidades em pressão de poros é encarada como um problema de inversão. Pela natureza do problema, essa transformação apresenta caráter não único

Leia mais

Cap. 4 - Estimação por Intervalo

Cap. 4 - Estimação por Intervalo Cap. 4 - Estimação por Intervalo Amostragem e inferência estatística População: consiste na totalidade das observações em que estamos interessados. Nº de observações na população é denominado tamanho=n.

Leia mais

Alguns Aspectos Espaciais da Modelagem de Observações Provenientes das Áreas de SaúdeedoMeioAmbiente

Alguns Aspectos Espaciais da Modelagem de Observações Provenientes das Áreas de SaúdeedoMeioAmbiente Alguns Aspectos Espaciais da Modelagem de Observações Provenientes das Áreas de SaúdeedoMeioAmbiente Alexandra Mello Schmidt DME - IM - UFRJ Homepage: www.dme.ufrj.br/ alex Seminário Qualidade do Ar e

Leia mais

ESTATÍSTICA COMPUTACIONAL

ESTATÍSTICA COMPUTACIONAL ESTATÍSTICA COMPUTACIONAL Ralph dos Santos Silva Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Sumário Inferência com dimensão variável Modelos com

Leia mais

Cap. 8 - Intervalos Estatísticos para uma Única Amostra

Cap. 8 - Intervalos Estatísticos para uma Única Amostra Intervalos Estatísticos para ESQUEMA DO CAPÍTULO 8.1 INTRODUÇÃO 8.2 INTERVALO DE CONFIANÇA PARA A MÉDIA DE UMA DISTRIBUIÇÃO NORMAL, VARIÂNCIA CONHECIDA 8.3 INTERVALO DE CONFIANÇA PARA A MÉDIA DE UMA DISTRIBUIÇÃO

Leia mais

Influencia de Distribuições a priori na Analise Bayesiana em dados de contagem

Influencia de Distribuições a priori na Analise Bayesiana em dados de contagem Influencia de Distribuições a priori na Analise Bayesiana em dados de contagem Olinda Fátima dos Santos 1 Carla Regina Guimarães Brighenti 1 1-Introdução A utilização de informação a priori em inferência

Leia mais

Introdução Variograma Modelos básicos de correlação espacial Modelação Interpolação espacial & Simulação. Geoestatística.

Introdução Variograma Modelos básicos de correlação espacial Modelação Interpolação espacial & Simulação. Geoestatística. Geoestatística Susana Barbosa Mestrado em Ciências Geofísicas 2012-2013 Geoestatística conjunto de técnicas matemáticas e numéricas para caracterizar fenómenos espaciais contínuos tendo em conta a correlação

Leia mais

Transformações e Ponderação para corrigir violações do modelo

Transformações e Ponderação para corrigir violações do modelo Transformações e Ponderação para corrigir violações do modelo Diagnóstico na análise de regressão Relembrando suposições Os erros do modelo tem média zero e variância constante. Os erros do modelo tem

Leia mais

Técnicas computacionais em probabilidade e estatística II

Técnicas computacionais em probabilidade e estatística II Técnicas computacionais em probabilidade e estatística II Universidade de São Paulo Instituto de Matemática e Estatística http:www.ime.usp.br/ mbranco AULA 1: Problemas Computacionais em Inferência Estatística.

Leia mais

Técnicas computacionais em probabilidade e estatística II

Técnicas computacionais em probabilidade e estatística II Técnicas computacionais em probabilidade e estatística II Universidade de São Paulo Instituto de Matemática e Estatística http:www.ime.usp.br/ mbranco Métodos de Monte Carlo baseados em Cadeias de Markov:

Leia mais

Econometria IV Modelos Lineares de Séries Temporais. Fernando Chague

Econometria IV Modelos Lineares de Séries Temporais. Fernando Chague Econometria IV Modelos Lineares de Séries Temporais Fernando Chague 2016 Estacionariedade Estacionariedade Inferência estatística em séries temporais requer alguma forma de estacionariedade dos dados Intuição:

Leia mais

INTRODUÇÃO À ESTATÍSTICA ESPACIAL. Prof. Anderson Rodrigo da Silva

INTRODUÇÃO À ESTATÍSTICA ESPACIAL. Prof. Anderson Rodrigo da Silva INTRODUÇÃO À ESTATÍSTICA ESPACIAL Prof. Anderson Rodrigo da Silva anderson.silva@ifgoiano.edu.br Métodos Índices de agregação Métodos de quantificação da dependência especial Correlograma Variograma Métodos

Leia mais

Gibbs Sampler para ANOVA e Misturas

Gibbs Sampler para ANOVA e Misturas Gibbs Sampler para ANOVA e Misturas Renato Assunção - DCC, UFMG Outubro de 014 1 Modelo ANOVA: componentes de variância Suponha que temos K grupos ou classes. Em cada grupo, temos um certo número de dados

Leia mais

Inferência Bayesiana

Inferência Bayesiana Inferência Bayesiana Joaquim Neto joaquim.neto@ufjf.edu.br www.ufjf.br/joaquim_neto Departamento de Estatística - ICE Universidade Federal de Juiz de Fora (UFJF) Versão 3.0 Joaquim Neto (UFJF) ICE - UFJF

Leia mais

Aula 2 Uma breve revisão sobre modelos lineares

Aula 2 Uma breve revisão sobre modelos lineares Aula Uma breve revisão sobre modelos lineares Processo de ajuste de um modelo de regressão O ajuste de modelos de regressão tem como principais objetivos descrever relações entre variáveis, estimar e testar

Leia mais

COKRIGAGEM. Aplicação da cokrigagem

COKRIGAGEM. Aplicação da cokrigagem COKRIGAGEM Procedimento geoestatístico segundo o qual diversas variáveis regionalizadas podem ser estimadas em conjunto, com base na correlação espacial entre si. É uma extensão multivariada do método

Leia mais

Um modelo estocástico para o fluxo de caixa de um plano de previdência de um indivíduo 15

Um modelo estocástico para o fluxo de caixa de um plano de previdência de um indivíduo 15 2 Simulação estocástica A simulação computacional consiste em empregar técnicas matemáticas em computadores com o propósito de gerar ensaios que tentam reproduzir de maneira análoga um processo ou operação

Leia mais

Análise de variância para experimentos com dependência espacial entre parcelas: abordagem autoregressiva e Geoestatística

Análise de variância para experimentos com dependência espacial entre parcelas: abordagem autoregressiva e Geoestatística Análise de variância para experimentos com dependência espacial entre parcelas: abordagem autoregressiva e Geoestatística Diogo Francisco Rossoni (DES/UEM) Cristina Henriques Nogueira (DEX/UFLA) Renato

Leia mais

Inferência Bayesiana Exata para Processos de Cox Level-Set

Inferência Bayesiana Exata para Processos de Cox Level-Set Inferência Bayesiana Exata para Processos de Cox Level-Set Bárbara da Costa Campos Dias 1 Flávio Bambirra Gonçalves 2 Resumo Este trabalho propõe uma metodologia de inferência exata para processos de Cox

Leia mais

IND 1115 Inferência Estatística Aula 6

IND 1115 Inferência Estatística Aula 6 Conteúdo IND 5 Inferência Estatística Aula 6 Setembro de 004 A distribuição Lognormal A distribuição Beta e sua relação com a Uniforme(0,) Mônica Barros mbarros.com mbarros.com A distribuição Lognormal

Leia mais

A análise de séries temporais é uma área da estatística dedicada ao estudo de dados orientados no tempo (MONTGOMERY, 2004).

A análise de séries temporais é uma área da estatística dedicada ao estudo de dados orientados no tempo (MONTGOMERY, 2004). 3 Séries temporais A análise de séries temporais é uma área da estatística dedicada ao estudo de dados orientados no tempo (MONTGOMERY, 2004). 3.1. Princípios fundamentais Conforme Box et al. (1994), uma

Leia mais

CC-226 Aula 07 - Estimação de Parâmetros

CC-226 Aula 07 - Estimação de Parâmetros CC-226 Aula 07 - Estimação de Parâmetros Carlos Henrique Q. Forster - Instituto Tecnológico de Aeronáutica 2008 Estimação de Parâmetros Para construir o classificador bayesiano, assumimos as distribuições

Leia mais

Minera c ao de Dados Aula 6: Finaliza c ao de Regress ao e Classifica c ao Rafael Izbicki 1 / 33

Minera c ao de Dados Aula 6: Finaliza c ao de Regress ao e Classifica c ao Rafael Izbicki 1 / 33 Mineração de Dados Aula 6: Finalização de Regressão e Classificação Rafael Izbicki 1 / 33 Como fazer um IC para o risco estimado? Vamos assumir que ( X 1, Ỹ1),..., ( X s, Ỹs) são elementos de um conjunto

Leia mais

Professora Ana Hermínia Andrade. Universidade Federal do Amazonas Faculdade de Estudos Sociais Departamento de Economia e Análise. Período 2017.

Professora Ana Hermínia Andrade. Universidade Federal do Amazonas Faculdade de Estudos Sociais Departamento de Economia e Análise. Período 2017. Professora Ana Hermínia Andrade Universidade Federal do Amazonas Faculdade de Estudos Sociais Departamento de Economia e Análise Período 2017.1 Distribuições Amostrais O intuito de fazer uma amostragem

Leia mais

Análise de Sensibilidade em Modelo Gaussiano Assimétrico Espacialmente Referenciado

Análise de Sensibilidade em Modelo Gaussiano Assimétrico Espacialmente Referenciado UNIVERSIDADE FEDERAL DO RIO DE JANEIRO INSTITUTO DE MATEMÁTICA RAQUEL VAZ GUEDES PEREIRA Análise de Sensibilidade em Modelo Gaussiano Assimétrico Espacialmente Referenciado Prof a. Alexandra Mello Schmidt,

Leia mais

Definição. Os valores assumidos pelos estimadores denomina-se estimativas pontuais ou simplesmente estimativas.

Definição. Os valores assumidos pelos estimadores denomina-se estimativas pontuais ou simplesmente estimativas. 1. Inferência Estatística Inferência Estatística é o uso da informção (ou experiência ou história) para a redução da incerteza sobre o objeto em estudo. A informação pode ou não ser proveniente de um experimento

Leia mais

Modelagem de Processos Espaciais e

Modelagem de Processos Espaciais e Modelagem de Processos Espaciais e Espaço-Temporais Alexandra M. Schmidt Instituto de Matemática - UFRJ www.dme.ufrj.br/ alex Outlines Parte I Parte I Processos Estocásticos e Aplicações IMPA - Abril de

Leia mais

Séries Temporais e Modelos Dinâmicos. Econometria. Marcelo C. Medeiros. Aula 12

Séries Temporais e Modelos Dinâmicos. Econometria. Marcelo C. Medeiros. Aula 12 em Econometria Departamento de Economia Pontifícia Universidade Católica do Rio de Janeiro Aula 12 Regressão com Variáveis Não-Estacionárias Considere três processos estocásticos definidos pelas seguintes

Leia mais

Análise de Dados Longitudinais Aula

Análise de Dados Longitudinais Aula 1/35 Análise de Dados Longitudinais Aula 08.08.2018 José Luiz Padilha da Silva - UFPR www.docs.ufpr.br/ jlpadilha 2/35 Sumário 1 Revisão para dados transversais 2 Como analisar dados longitudinais 3 Perspectiva

Leia mais

4 Método Proposto CR AD PA NDVI Descrição geral do modelo

4 Método Proposto CR AD PA NDVI Descrição geral do modelo 34 4 Método Proposto 4.1. Descrição geral do modelo Neste trabalho, cada classe (cobertura vegetal) possui um HMM específico. Os estágios fenológicos correspondem a estados e os símbolos observáveis a

Leia mais

ESTATÍSTICA COMPUTACIONAL

ESTATÍSTICA COMPUTACIONAL ESTATÍSTICA COMPUTACIONAL Ralph dos Santos Silva Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Sumário Se a integração analítica não é possível ou

Leia mais

Modelos de Regressão Linear Simples - parte I

Modelos de Regressão Linear Simples - parte I Modelos de Regressão Linear Simples - parte I Erica Castilho Rodrigues 19 de Agosto de 2014 Introdução 3 Objetivos Ao final deste capítulo você deve ser capaz de: Usar modelos de regressão para construir

Leia mais

Anexo 1 - Revisões de Teoria das Probabilidades e Processos Estocásticos

Anexo 1 - Revisões de Teoria das Probabilidades e Processos Estocásticos 1 Anexo 1 - Revisões de Teoria das Probabilidades e Processos Estocásticos Documento auxiliar à disciplina de Modelação, Identificação e Controlo Digital Alexandre Bernardino 003/005 IST-Secção de Sistemas

Leia mais

4.1. ESPERANÇA x =, x=1

4.1. ESPERANÇA x =, x=1 4.1. ESPERANÇA 139 4.1 Esperança Certamente um dos conceitos mais conhecidos na teoria das probabilidade é a esperança de uma variável aleatória, mas não com esse nome e sim com os nomes de média ou valor

Leia mais

Modelos Dinâmicos Bayesianos para Processos Pontuais Espaço-Temporais

Modelos Dinâmicos Bayesianos para Processos Pontuais Espaço-Temporais Universidade Federal do Rio de Janeiro Modelos Dinâmicos Bayesianos para Processos Pontuais Espaço-Temporais Edna Afonso Reis Rio de Janeiro 2008 Modelos Dinâmicos Bayesianos para Processos Pontuais Espaço-Temporais

Leia mais

AGA Análise de Dados em Astronomia I 7. Modelagem dos Dados com Máxima Verossimilhança: Modelos Lineares

AGA Análise de Dados em Astronomia I 7. Modelagem dos Dados com Máxima Verossimilhança: Modelos Lineares 1 / 0 AGA 0505- Análise de Dados em Astronomia I 7. Modelagem dos Dados com Máxima Verossimilhança: Modelos Lineares Laerte Sodré Jr. 1o. semestre, 018 modelos modelagem dos dados dado um conjunto de dados,

Leia mais

AULA 7 - Inferência em MQO: ICs e Testes de

AULA 7 - Inferência em MQO: ICs e Testes de AULA 7 - Inferência em MQO: ICs e Testes de Hipóteses Susan Schommer Econometria I - IE/UFRJ Nosso primeiro objetivo aqui é relembrar a diferença entre estimação de ponto vs estimação de intervalo. Vamos

Leia mais

Intervalos Estatísticos para uma única Amostra - parte I

Intervalos Estatísticos para uma única Amostra - parte I Intervalos Estatísticos para uma única Amostra - parte I Intervalo de confiança para média 14 de Janeiro Objetivos Ao final deste capítulo você deve ser capaz de: Construir intervalos de confiança para

Leia mais

p(x) Note que 1/p(x), que não depende de θ, funciona como uma constante normalizadora

p(x) Note que 1/p(x), que não depende de θ, funciona como uma constante normalizadora Capítulo 1 Introdução A informação que se tem sobre uma quantidade de interesse θ é fundamental na Estatística. O verdadeiro valor de θ é desconhecido e a idéia é tentar reduzir este desconhecimento. Além

Leia mais

Modelos de Regressão Linear Simples - parte III

Modelos de Regressão Linear Simples - parte III 1 Modelos de Regressão Linear Simples - parte III Erica Castilho Rodrigues 20 de Setembro de 2016 2 3 4 A variável X é um bom preditor da resposta Y? Quanto da variação da variável resposta é explicada

Leia mais

Modelos com Coeficientes Dinâmicos Variando no Espaço para Dados da Família Exponencial

Modelos com Coeficientes Dinâmicos Variando no Espaço para Dados da Família Exponencial Modelos com Coeficientes Dinâmicos Variando no Espaço para Dados da Família Exponencial por Nícia Custódio Hansen DME - IM - UFRJ 2009 Modelos com Coeficientes Dinâmicos Variando no Espaço para Dados da

Leia mais

1 Probabilidade - Modelos Probabilísticos

1 Probabilidade - Modelos Probabilísticos 1 Probabilidade - Modelos Probabilísticos Modelos probabilísticos devem, de alguma forma, 1. identificar o conjunto de resultados possíveis do fenômeno aleatório, que costumamos chamar de espaço amostral,

Leia mais

Interpolação. Interpolação. Padrões de amostragem. Autocorrelação. Padrões de amostragem. Padrões de amostragem

Interpolação. Interpolação. Padrões de amostragem. Autocorrelação. Padrões de amostragem. Padrões de amostragem Sistemas de Informação Geográfica II Interpolação 1. Interpolação Autocorrelação Padrões de amostragem Validação de resultados Interpolação Predição do valor de atributos em pontos não-amostrados Tempo

Leia mais

Séries Temporais e Modelos Dinâmicos. Econometria. Marcelo C. Medeiros. Aula 9

Séries Temporais e Modelos Dinâmicos. Econometria. Marcelo C. Medeiros. Aula 9 em Econometria Departamento de Economia Pontifícia Universidade Católica do Rio de Janeiro Aula 9 Data Mining Equação básica: Amostras finitas + muitos modelos = modelo equivocado. Lovell (1983, Review

Leia mais

AULA 07 Inferência a Partir de Duas Amostras

AULA 07 Inferência a Partir de Duas Amostras 1 AULA 07 Inferência a Partir de Duas Amostras Ernesto F. L. Amaral 10 de setembro de 2012 Faculdade de Filosofia e Ciências Humanas (FAFICH) Universidade Federal de Minas Gerais (UFMG) Fonte: Triola,

Leia mais

PARTE 1 ANÁLISE DE REGRESSÃO COM DADOS DE CORTE TRANSVERSAL CAPÍTULO 2 O MODELO DE REGRESSÃO SIMPLES

PARTE 1 ANÁLISE DE REGRESSÃO COM DADOS DE CORTE TRANSVERSAL CAPÍTULO 2 O MODELO DE REGRESSÃO SIMPLES PARTE 1 ANÁLISE DE REGRESSÃO COM DADOS DE CORTE TRANSVERSAL CAPÍTULO 2 O MODELO DE REGRESSÃO SIMPLES 2.1 DEFINIÇÃO DO MODELO DE REGRESSÃO SIMPLES Duas variáveis: y e x Análise explicar y em termos de x

Leia mais

AMOSTRAGEM PREFERENCIAL EM PROCESSOS ESPACIAIS DISCRETOS: CASOS BERNOULLI E POISSON

AMOSTRAGEM PREFERENCIAL EM PROCESSOS ESPACIAIS DISCRETOS: CASOS BERNOULLI E POISSON UNIVERSIDADE FEDERAL DO RIO DE JANEIRO INSTITUTO DE MATEMÁTICA DEPARTAMENTO DE MÉTODOS ESTATÍSTICOS AMOSTRAGEM PREFERENCIAL EM PROCESSOS ESPACIAIS DISCRETOS: CASOS BERNOULLI E POISSON Dissertação de mestrado

Leia mais

Modelagem Conjunta de Média e Variância: Uma Aplicação ao Problema de Estimação em Pequenos Domínios

Modelagem Conjunta de Média e Variância: Uma Aplicação ao Problema de Estimação em Pequenos Domínios Modelagem Conjunta de Média e Variância: Uma Aplicação ao Problema de Estimação em Pequenos Domínios por Joaquim Henriques Vianna Neto DME - IM - UFRJ 2007 Modelagem Conjunta de Média e Variância: Uma

Leia mais

Ajuste do modelo de regressão linear: Inferência Bayesiana, aspectos computacionais e seleção de variáveis.

Ajuste do modelo de regressão linear: Inferência Bayesiana, aspectos computacionais e seleção de variáveis. Ajuste do modelo de regressão linear: Inferência Bayesiana, aspectos computacionais e seleção de variáveis. João Daniel Nunes Duarte a, Vinícius Diniz Mayrink b a Estudante de Graduação, e-mail: joaodaniel@ufmg.br

Leia mais

Redes Neurais. A Rede RBF. Redes RBF: Função de Base Radial. Prof. Paulo Martins Engel. Regressão não paramétrica. Redes RBF: Radial-Basis Functions

Redes Neurais. A Rede RBF. Redes RBF: Função de Base Radial. Prof. Paulo Martins Engel. Regressão não paramétrica. Redes RBF: Radial-Basis Functions Redes RBF: Função de Base Radial Redes Neurais A Rede RBF O LP é baseado em unidades que calculam uma função não-linear do produto escalar do vetor de entrada e um vetor de peso. A rede RBF pertence a

Leia mais

7 Conclusões e desenvolvimentos futuros

7 Conclusões e desenvolvimentos futuros 7 Conclusões e desenvolvimentos futuros 7.1 Conclusões Este trabalho apresentou novas soluções para a determinação da posição de terminais de comunicações móveis com base em medidas de ToA. Nos métodos

Leia mais

Econometria em Finanças e Atuária

Econometria em Finanças e Atuária Ralph S. Silva http://www.im.ufrj.br/ralph/especializacao.html Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Maio-Junho/2013 Modelos condicionalmente

Leia mais

TÉCNICAS DE AMOSTRAGEM

TÉCNICAS DE AMOSTRAGEM TÉCNICAS DE AMOSTRAGEM Ralph dos Santos Silva Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Sumário Definições e Notação Estimação Amostra Aleatória

Leia mais

AGA Análise de Dados em Astronomia I 8. Inferência Bayesiana e MCMC

AGA Análise de Dados em Astronomia I 8. Inferência Bayesiana e MCMC 1 / 1 AGA 0505- Análise de Dados em Astronomia I 8. Inferência Bayesiana e MCMC Laerte Sodré Jr. 1o. semestre, 2018 2 / 1 Inferência Bayesiana inferência bayesiana consideremos um conjunto de dados D que

Leia mais

Metodologia de Box-Jenkins. Metodologia de Box-Jenkins. Metodologia de Box-Jenkins

Metodologia de Box-Jenkins. Metodologia de Box-Jenkins. Metodologia de Box-Jenkins Programa de Pós-graduação em Engenharia de Produção Análise de séries temporais: Modelos de Box-Jenkins Profa. Dra. Liane Werner Metodologia de Box-Jenkins Para os modelos de decomposição e os modelos

Leia mais

Modelo fatorial espacial dinâmico para dados pertencentes à família exponencial

Modelo fatorial espacial dinâmico para dados pertencentes à família exponencial Modelo fatorial espacial dinâmico para dados pertencentes à família exponencial Esther Salazar esalazar@dme.ufrj.br Departamento de Métodos Estatísticos Universidade Federal do Rio de Janeiro 18 o SINAPE

Leia mais

Métodos Computacionais para inferência estatística

Métodos Computacionais para inferência estatística Métodos Computacionais para inferência estatística Wagner Hugo Bonat LEG: Laboratório de Estatística e Geoinformação Universidade Federal do Paraná 30 de julho de 2012 Bonat et. al (LEG/UFPR) MCIE 30 de

Leia mais

Análise Multivariada Aplicada à Contabilidade

Análise Multivariada Aplicada à Contabilidade Mestrado e Doutorado em Controladoria e Contabilidade Análise Multivariada Aplicada à Contabilidade Prof. Dr. Marcelo Botelho da Costa Moraes www.marcelobotelho.com mbotelho@usp.br Turma: 2º / 2016 1 Agenda

Leia mais

Métodos Quantitativos para Avaliação de Políticas Públicas

Métodos Quantitativos para Avaliação de Políticas Públicas ACH3657 Métodos Quantitativos para Avaliação de Políticas Públicas Aula 11 Análise de Resíduos Alexandre Ribeiro Leichsenring alexandre.leichsenring@usp.br Alexandre Leichsenring ACH3657 Aula 11 1 / 26

Leia mais

1 O esquema de Alamouti: Diversidade na transmissão

1 O esquema de Alamouti: Diversidade na transmissão 1 O esquema de Alamouti: Diversidade na transmissão 1.1 O Caso de uma antena receptora A Figura?? mostra a representação em banda básica do esquema de Alamouti com diversidade na transmissão. O esquema

Leia mais

Análise Multivariada Aplicada à Contabilidade

Análise Multivariada Aplicada à Contabilidade Mestrado e Doutorado em Controladoria e Contabilidade Análise Multivariada Aplicada à Contabilidade Prof. Dr. Marcelo Botelho da Costa Moraes www.marcelobotelho.com mbotelho@usp.br Turma: 2º / 2016 1 Agenda

Leia mais

CONHECIMENTOS ESPECÍFICOS

CONHECIMENTOS ESPECÍFICOS fonte de graus de soma de quadrado variação liberdade quadrados médio teste F regressão 1 1,4 1,4 46,2 resíduo 28 0,8 0,03 total 2,2 A tabela de análise de variância (ANOVA) ilustrada acima resulta de

Leia mais

Análise de Regressão Linear Simples e

Análise de Regressão Linear Simples e Análise de Regressão Linear Simples e Múltipla Carla Henriques Departamento de Matemática Escola Superior de Tecnologia de Viseu Introdução A análise de regressão estuda o relacionamento entre uma variável

Leia mais

Testes de Hipóteses. Ricardo Ehlers Departamento de Matemática Aplicada e Estatística Universidade de São Paulo

Testes de Hipóteses. Ricardo Ehlers Departamento de Matemática Aplicada e Estatística Universidade de São Paulo Testes de Hipóteses Ricardo Ehlers ehlers@icmc.usp.br Departamento de Matemática Aplicada e Estatística Universidade de São Paulo Introdução e notação Em geral, intervalos de confiança são a forma mais

Leia mais

Disciplina de Modelos Lineares Professora Ariane Ferreira

Disciplina de Modelos Lineares Professora Ariane Ferreira Disciplina de Modelos Lineares 2012-2 Regressão Logística Professora Ariane Ferreira O modelo de regressão logístico é semelhante ao modelo de regressão linear. No entanto, no modelo logístico a variável

Leia mais

Novembro/2018. Ajuste Automático ao Histórico em Simulação de Reservatórios

Novembro/2018. Ajuste Automático ao Histórico em Simulação de Reservatórios Ajuste Automático ao Histórico Simulação de Reservatórios Flavio Dickstein Paulo Goldfeld Renan V. Pinto IM/UFRJ IM/UFRJ LabMAPetro/UFRJ Novembro/2018 Simulação sob incerteza (i) O reservatório é inacessível

Leia mais

Econometria em Finanças e Atuária

Econometria em Finanças e Atuária Ralph S. Silva http://www.im.ufrj.br/ralph/especializacao.html Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Maio-Junho/2013 Motivação Motivação Por

Leia mais

Inferência para CS Modelos univariados contínuos

Inferência para CS Modelos univariados contínuos Inferência para CS Modelos univariados contínuos Renato Martins Assunção DCC - UFMG 2014 Renato Martins Assunção (DCC - UFMG) Inferência para CS Modelos univariados contínuos 2014 1 / 42 V.A. Contínua

Leia mais

( ) Estimação do valor em risco (VaR) de uma carteira de ativos através de método bayesiano. α, é definido como:

( ) Estimação do valor em risco (VaR) de uma carteira de ativos através de método bayesiano. α, é definido como: Estimação do valor em risco (VaR) de uma carteira de ativos através de método bayesiano Orlando V. Sampaio Jr. (POLI-USP) orlando.sampaio@gmail.com Celma de Oliveira Ribeiro (POLI-USP) celma@usp.br André

Leia mais

Modelos de Regressão

Modelos de Regressão Renato Martins Assunção DCC - UFMG 2015 Renato Martins Assunção (DCC - UFMG) 2015 1 / 19 Exemplo de preço de apto Y = y 1 y 2 y 1499 y 1500 b 0 1 1 1 1 + b 1 área 1 área 2 área 1499 área 1500 + b 2 idade

Leia mais

Modelos de regressão para dados correlacionados. Cibele Russo

Modelos de regressão para dados correlacionados. Cibele Russo Modelos de regressão para dados correlacionados Cibele Russo cibele@icmc.usp.br ICMC USP Mini-curso oferecido no Workshop on Probabilistic and Statistical Methods 28 a 30 de janeiro de 2013 Cibele Russo

Leia mais

INFERÊNCIA EM MODELOS LINEARES GENERALIZADOS ANÁLISE DE DEVIANCE

INFERÊNCIA EM MODELOS LINEARES GENERALIZADOS ANÁLISE DE DEVIANCE INFERÊNCIA EM MODELOS LINEARES GENERALIZADOS ANÁLISE DE DEVIANCE A análise de deviance é uma generalização, para modelos lineares generalizados, da análise de variância. No caso de modelos lineares, utiliza-se

Leia mais

ESTATÍSTICA COMPUTACIONAL

ESTATÍSTICA COMPUTACIONAL ESTATÍSTICA COMPUTACIONAL Ralph dos Santos Silva Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Sumário Introdução Solução de equações não lineares

Leia mais

ESTATÍSTICA COMPUTACIONAL

ESTATÍSTICA COMPUTACIONAL ESTATÍSTICA COMPUTACIONAL Ralph dos Santos Silva Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Sumário Motivação Por exemplo, queremos analisar a série

Leia mais

Exercícios de programação

Exercícios de programação Exercícios de programação Estes exercícios serão propostos durante as aulas sobre o Mathematica. Caso você use outra linguagem para os exercícios e problemas do curso de estatística, resolva estes problemas,

Leia mais

Tratamento Estatístico de Dados em Física Experimental

Tratamento Estatístico de Dados em Física Experimental Tratamento Estatístico de Dados em Física Experimental Prof. Zwinglio Guimarães o semestre de 06 Tópico 7 - Ajuste de parâmetros de funções (Máxima Verossimilhança e Mínimos Quadrados) Método da máxima

Leia mais

Coeficiente de determinação R 2 no modelo de regressão linear normal

Coeficiente de determinação R 2 no modelo de regressão linear normal Coeficiente de determinação R 2 no modelo de regressão linear normal Fernando Lucambio Departamento de Estatística Universidade Federal do Paraná Curitiba/PR, 81531 990, Brasil email: lucambio@ufpr.br

Leia mais

Aumentando a Eciência de Métodos Monte Carlo: Redução de Variâncias por Condicionamento

Aumentando a Eciência de Métodos Monte Carlo: Redução de Variâncias por Condicionamento Aumentando a Eciência de Métodos Monte Carlo: Redução de Variâncias por Condicionamento Ian Meneghel Danilevicz Walmir dos Reis Miranda Filho Métodos Computacionais Aplicados à Estatística Prof.: Cristiano

Leia mais

2 Medida de Incertezas: Fundamentos

2 Medida de Incertezas: Fundamentos 2 Medida de Incertezas: Fundamentos 2. Introdução O resultado de um processo de medição fornece uma determinada informação que usualmente é chamada de conhecimento. A fim de quantificar quão completo é

Leia mais

Incerteza local e incerteza espacial SIMULAÇÃO

Incerteza local e incerteza espacial SIMULAÇÃO Incerteza local e incerteza espacial SIMULAÇÃO Situações em que o interesse na avaliação da incerteza não se resume a um ponto, mas a um conjunto de pontos simultaneamente. Com a krigagem é possível a

Leia mais

Modelo de Regressão Múltipla

Modelo de Regressão Múltipla Modelo de Regressão Múltipla Modelo de Regressão Linear Simples Última aula: Y = α + βx + i i ε i Y é a variável resposta; X é a variável independente; ε representa o erro. 2 Modelo Clássico de Regressão

Leia mais

Modelos de Regressão Linear Simples parte I

Modelos de Regressão Linear Simples parte I Modelos de Regressão Linear Simples parte I Erica Castilho Rodrigues 27 de Setembro de 2017 1 2 Objetivos Ao final deste capítulo você deve ser capaz de: Usar modelos de regressão para construir modelos

Leia mais

CONHECIMENTOS ESPECÍFICOS

CONHECIMENTOS ESPECÍFICOS CONHECIMENTOS ESPECÍFICOS 2003 2004 2005 2006 2007 2008 2009 2010 X 39,0 39,5 39,5 39,0 39,5 41,5 42,0 42,0 Y 46,5 65,5 86,0 100,0 121,0 150,5 174,0 203,0 A tabela acima mostra as quantidades, em milhões

Leia mais

Planejamento Amostral Ótimo em Geoestatística sob Efeito de Amostragem Preferencial

Planejamento Amostral Ótimo em Geoestatística sob Efeito de Amostragem Preferencial Planejamento Amostral Ótimo em Geoestatística sob Efeito de Amostragem Preferencial Tese de Doutorado por Gustavo da Silva Ferreira Departamento de Métodos Estatísticos Instituto de Matemática Universidade

Leia mais

A Importância da Estatística na Pesquisa Científica e na Tomada de Decisão

A Importância da Estatística na Pesquisa Científica e na Tomada de Decisão A Importância da Estatística na Pesquisa Científica e na Tomada de Decisão Ricardo Alves de Olinda Universidade Estadual da Paraíba - UEPB Centro de Ciências e Tecnologia - CCT Departamento de Estatística

Leia mais

AULA 11 - Normalidade e Inferência em Regressão Múltipla - Parte 1

AULA 11 - Normalidade e Inferência em Regressão Múltipla - Parte 1 AULA 11 - Normalidade e Inferência em Regressão Múltipla - Parte 1 Susan Schommer Econometria I - IE/UFRJ Distribuições amostrais dos estimadores MQO Nas aulas passadas derivamos o valor esperado e variância

Leia mais

4 Modelos de Regressão Dinâmica

4 Modelos de Regressão Dinâmica 4 Modelos de Regressão Dinâmica Nos modelos de regressão linear (Johnston e Dinardo, 1998) estudados comumente na literatura, supõe-se que os erros gerados pelo modelo possuem algumas características como:

Leia mais

3 Modelo Matemático Definições Iniciais. Denote-se, em geral, o desvio-padrão do processo por σ = γσ 0, sendo σ 0 o

3 Modelo Matemático Definições Iniciais. Denote-se, em geral, o desvio-padrão do processo por σ = γσ 0, sendo σ 0 o Modelo Matemático 57 3 Modelo Matemático Este trabalho analisa o efeito da imprecisão na estimativa do desvio-padrão do processo sobre o desempenho do gráfico de S e sobre os índices de capacidade do processo.

Leia mais

ESTATÍSTICA COMPUTACIONAL

ESTATÍSTICA COMPUTACIONAL ESTATÍSTICA COMPUTACIONAL Ralph dos Santos Silva Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Sumário Considere o problema de encontrar o valor que

Leia mais

3 Filtro de Kalman Discreto

3 Filtro de Kalman Discreto 3 Filtro de Kalman Discreto As medidas realizadas por sensores estão sujeitas a erros, como pode ser visto no Capítulo 2. Os filtros são aplicados aos sinais medidos pelos sensores para reduzir os erros,

Leia mais

Laboratório Nº 5. A geoestatística permite descrever a continuidade espacial, a qual é uma característica

Laboratório Nº 5. A geoestatística permite descrever a continuidade espacial, a qual é uma característica Laboratório Nº 5 INTRODUÇAO A geoestatística permite descrever a continuidade espacial, a qual é uma característica essencial de muitos fenómenos naturais. Modelos inferenciais para este objetivo vêm sendo

Leia mais

5 Avaliação dos estimadores propostos

5 Avaliação dos estimadores propostos 5 valiação dos estimadores propostos Este capítulo apresenta as medidas estatísticas usuais para avaliar a qualidade de estimadores e as expressões utilizadas para a estimação destas medidas, a partir

Leia mais

2 Modelos Não Lineares

2 Modelos Não Lineares Modelos Não Lineares 17 2 Modelos Não Lineares 2.1. Introdução Nos últimos anos, muitos modelos não-lineares para a análise de séries temporais têm sido propostos. Na econometria clássica, os modelos de

Leia mais

Opções Reais. Modelagem do Ativo Básico. Processos Estocásticos. Modelando Incerteza. Processos Estocásticos. IAG PUC-Rio

Opções Reais. Modelagem do Ativo Básico. Processos Estocásticos. Modelando Incerteza. Processos Estocásticos. IAG PUC-Rio Opções Reais Modelagem do Ativo Básico Prof. Luiz Brandão brandao@iag.puc-rio.br IAG PUC-Rio Processos Estocásticos Modelando Incerteza Processos Estocásticos A incerteza em um projeto pode ter mais do

Leia mais