Redução de Dimensão para Modelos Espaciais não Gaussianos

Tamanho: px
Começar a partir da página:

Download "Redução de Dimensão para Modelos Espaciais não Gaussianos"

Transcrição

1 Redução de Dimensão para Modelos Espaciais não Gaussianos por Mariana del Pilar Lizarazo Osorio Universidade Federal do Rio de Janeiro Instituto de Matemática Departamento de Métodos Estatísticos 2013

2 Redução de Dimensão para Modelos Espaciais não Gaussianos Mariana del Pilar Lizarazo Osorio Dissertação submetida ao Corpo Docente do Instituto de Matemática - Departamento de Métodos Estatísticos da Universidade Federal do Rio de Janeiro - UFRJ, como parte dos requisitos necessários à obtenção do grau de Mestre em Estatística. Aprovada por: Prof. Thaís C. Fonseca de Oliveira PhD - UFRJ - Orientadora. Prof. Dani Gamerman PhD - IM - UFRJ. Prof. Alexandre Loureiros Rodrigues PhD - UFES. Rio de Janeiro, RJ - Brasil 2013 ii

3 FICHA CATALOGRÁFICA Lizarazo Osorio, Mariana del Pilar. Redução de Dimensão para Modelos Espaciais não Gaussianos \ Mariana del Pilar Lizarazo Osorio. Rio de Janeiro: UFRJ, IM, DME, Dissertação - Universidade Federal do Rio de Janeiro, IM, DME. 1. Introdução. 2. Estatística Espacial. 3. Processos Gaussianos e não Gaussianos. 4. Processos Preditivos. 5. Design. 6. Implementação. 7. Simulação. 8. Conclusões e Extensões. (Mestrado-UFRJ/IM/DME) I. Fonseca, Thaís C. O. II. Universidade Federal do Rio de Janeiro III. Título. iii

4 À minha família, base de tudo. Especialmente à minha mãe pelo seu apoio incondicional. iv

5 Não deixe que a saudade sufoque, que a rotina acomode, que o medo impeça de tentar. Desconfie do destino e acredite em você. Gaste mais horas realizando que sonhando, fazendo que planejando, vivendo que esperando, porque, embora quem quase morre esteja vivo, quem quase vive já morreu. Luiz Fernando Veríssimo v

6 Agradecimentos Eu gostaria de agradecer em primeiro lugar a Deus, pelo dom da vida, pela minha família, pelos meus amigos e colegas, que foram meu apoio, refugio e consolo em muitos momentos difíceis. Quero agradecer de maneira especial a minha mãe, ela me deu a coragem para sair adiante, me apoio durante todo este processo, mesmo na distancia. A meu tio Julio, pois sem ele nada de toda esta experiência teria sido possível. A todos meus colegas da Colômbia que sempre me deram seu apoio e sua amizade. Quero Agradecer a professora Thais, poies ela me ajudo muito, traço o caminho da dissertação. Ensino-me que existem pessoas que mesmo sendo muito brilhantes são muito humildes. É um bom modelo a seguir. Este ultimo ano foi complicado para mim, e por isso eu quero agradecer as pessoas que sempre estiveram de meu lado, que fizeram que eu me sentisse em casa, me ajudando, apoiando, brindando sua amizade, principalmente a meu namorado Renan Assimos, quem teve que me aturar durante tudo este ano, e a meus amigos Aniel Ojeda, Teresa Villanueva, Pamela Chiroque, Pedro Ortis, Angela arana, que me ajudaram, deram seus conselhos em momentos difíceis, parceiros de rizadas, de estudos, de moradia, a todos muito obrigada. Agradeço também aos meninos da iniciação cientifica especialmente a Arthur (criança), pois aprendi muito com todas suas perguntas, embora as vezes fosse chato, me ensino sobre o que é ser docente e da grão satisfação que da, também me ensinou um pouquinho de português, e foi meu grande parceiro de laboratório. Agradeço de maneira especial a Paloma Lima pela ajuda com o português, a Cristiano Moura pela paciência vi

7 e por toda sua ajuda. Agradeço a UFRJ a CAPES e a FAPERJ, por me dar a oportunidade de ter uma grande experiência como esta, sem eles não poderia ter feito este trabalho. vii

8 Resumo No tratamento de dados espacialmente referenciados usualmente assume-se que os dados seguem a distribuição Normal. Mas este suposto muitas vezes não é adequado, pois a amostra pode apresentar dados atípicos ou assimetria. Dessa forma, é preciso criar modelos que permitam descrever o comportamento de variáveis de forma mais realista e, ao mesmo tempo, que não gerem um custo computacional muito alto. Para isso, os modelos não Gaussianos oferecem uma flexibilidade maior, e fazem com que o modelo seja mais realista, mas o custo computacional deste tipo de modelos é muito grande. Por outro lado, existem diferentes métodos para diminuir o custo computacional em modelos Gaussianos. Entre estes métodos, existem os modelos de processos preditivos, que projetam a amostra original num subconjunto de pontos, o que faz que o custo computacional seja reduzido. A escolha destes pontos é discutida neste trabalho. Assim, o intuito deste trabalho é propor um modelo de processos preditivos não Gaussianos que permita modelar variáveis espaciais de forma realista com um baixo custo computacional. Palavras-chave: modelo de mistura, processo preditivos, processos não Gaussianos. viii

9 Abstract The usual treatment to spatial data analysis is to consider Gaussian distributions. But this assumption is often not appropriate because the sample may have outliers or asymmetry. Thus, it is necessary to create models that describe the behavior of variables in a more realistic way and, at the same time, don t generate a very high computational cost. Bearing this in mind, it is known that non-gaussian models offer more flexibility, and make the model more realistic, but the computational cost of this type of models is too large. On the other hand there are several methods to reduce the computational cost in Gaussian models. Among these methods, there are the predictive process models, which project the original sample on a subset of points reducing the computational cost. The choice of these points is discussed in this text. Thus, the aim of this work is to propose a non-gaussian predictive process model that allows realist modeling of spatial variables with a low computational cost. Keywords: mix model, predictive process, nongaussian processes. ix

10 Sumário 1 Introdução Principais objetivos Estatística Espacial Introdução Tratamento usual de dados espaciais Geoestatística Estrutura de Covariância Previsão Processos Gaussianos e não Gaussianos Introdução Processos Gaussianos Processos não Gaussianos Previsão Processos Preditivos Introdução Processos Gaussianos Preditivos Processos não Gaussianos Preditivos Design Introdução Escolha dos Knots x

11 5.2.1 Grade Aleatória Grade Regular Proposta de Finley et al. (2009) Proposta Diggle Processos não Gaussiano Implementação Algoritmos Critérios de Convergência Amostragem por Blocos Modelo preditivo Critério de identificação de outliers Simulação Processo Gaussiano Geração dos dados Distribuição a priori Resultados Processos não Gaussianos Geração dos dados Distribuição a priori: Comparação de modelos Resultados Conclusões e Extensões Processos espaço-temporais Processos Gaussianos espaço-temporais Processos não Gaussianos Espaço-temporais Processos não Gaussianos Preditivos Espaço-temporais A Distribuições 75 A.1 Distribuição Gaussiana Inversa Generalizada (GIG) xi

12 A.2 Distribuição Log-Normal xii

13 Lista de Tabelas 7.1 EQM dos parâmetros do modelo e média do tempo computacional, para diferentes números de knots. (EQM relativo) EQM dos parâmetros do modelo e média do tempo computacional, para diferentes números de knots, para proposta Aleatória.(EQM relativo) EQM dos parâmetros do modelo e média do tempo computacional, para diferentes números de knots. Usando a proposta do Diggle et al. (1998). (EQM relativo) Diagnóstico de Raftery e Lewis e critério de Geweke para comparação de 3 versões diferentes da modificação de Finley et al. (2009). Período de Burn-in de Estimativa dos parâmetros nas 3 versões da modificação de Finley et al. (2009) EQM dos parâmetros do modelo e média do tempo computacional, para diferentes números de knots. Para diferentes combinações das propostas do Finley et al. (2009). (EQM relativo) Taxa de aceitação para o alcance e alguns λ por região, usando o algoritmo proposto por Steel e o algoritmo de passeios aleatórios Diagnóstico de Raftery e Lewis e critério de Geweke para a proposta independente e a proposta de passeios aleatórios com um período de burnin de Diagnóstico de Raftery e Lewis e critério de Geweke para a proposta independente e a proposta de passeios aleatórios com um período de Burnin de xiii

14 7.10 Estimativas dos parâmetros para os dois modelos EQM dos parâmetros do modelo e média do tempo computacional, para diferentes números de knots. Para proposta Aleatória.(EQM relativo) EQM dos parâmetros do modelo e média do tempo computacional, para diferentes números de knots. Para proposta Diggle et al. (1998). (EQM relativo) EQM dos parâmetros do modelo e média do tempo computacional, para diferentes números de knots. Para as propostas 1. (EQM relativo) EQM dos parâmetros do modelo e média do tempo computacional, para diferentes números de knots. Para as propostas 2. (EQM relativo) EQM dos parâmetros do modelo e média do tempo computacional, para diferentes números de knots. Para a proposta 3. (EQM relativo).. 68 xiv

15 Lista de Figuras 2.1 Função de covariância exponencial, Gaussiana, esférica, com parâmetros a = 2, σ 2 = 2 e h variando de 0 a Exemplos das grades usadas por Diggle A sub-figura (a) apresenta a região na qual foram simulados os dados. Os pontos marcados com bolas cheias foram modificados para serem dados extremos e a divisão em regiões foi feita para estimar o parâmetro λ. A sub-figura (b) apresenta um Box plot da razão σ 2 /λ para cada sítio usando o modelo (3.4). Os Box plot de cor verde correspondem aos locais onde as observações foram modificadas Cadeia, histograma, auto-correlograma e traça da amostra da distribuição a posterior para o parâmetro β 1, usando a proposta independente (a) e passeios aleatórios (b) Cadeia, histograma, auto-correlograma e traça da amostra da distribuição a posterior para o parâmetro β 2, usando a proposta independente (a) e passeios aleatórios (b) Cadeia, histograma, auto-correlograma e traça da amostra da distribuição a posterior para o parâmetro τ 2, usando a proposta independente (a) e passeios aleatórios (b) Cadeia, histograma, auto-correlograma e traça da amostra da distribuição a posterior para o parâmetro σ 2, usando a proposta independente (a) e passeios aleatórios (b) xv

16 7.6 Cadeia, histograma, auto-correlograma e traça da amostra da distribuição a posterior para o parâmetro do alcance, usando a proposta independente (a) e passeios aleatórios (b) Cadeia, histograma, auto-correlograma e traça da amostra da distribuição a posterior para o parâmetro v usando a proposta independente (a) e passeios aleatórios (b) Os pontos representam a taxa de aceitação do modelo de passeio aleatório e os triângulos representam o modelo que usa a proposta independente. 63 xvi

17 Capítulo 1 Introdução O uso de modelos espaciais e espaço-temporais está aumentando devido à crescente disponibilidade de dados referenciados no espaço e no tempo que são obtidos, por exemplo, por satélite ou estações monitoradoras. Assim, esses modelos têm sido cada vez mais utilizados em áreas tais como meio-ambiente, meteorologia, agricultura, devido à grande utilidade destes para o entendimento de fenômenos como tornados, chuva, temperatura, pressão, umidade, poluição, entre outros. Geralmente assume-se que os dados são realizações de um processo Gaussiano, onde são observadas I localizações no espaço, o que implica inversão de matrizes de tamanho I I no procedimento de inferência. Este tipo de modelagem permite estimativas de valores da variável de interesse em locais onde dados não foram observados, fazendo uso de preditores lineares, o que gera um maior interesse neste tipo de modelos, como pode ser observado, por exemplo, no trabalho de Brown et al. (1994), entre outros. Mas, em grandes conjuntos de dados, a inferência em modelos mais complexos e realistas pode requerer um custo computacional muito elevado. No estudo de eventos naturais, muitas vezes, o interesse principal é o estudo de variáveis onde os dados fora do usual acontecem com muita frequência. Por exemplo, os dados de temperatura no Rio de Janeiro, em algumas loalizações parecem ter uma maior variabilidade e, nesses casos, a suposição de normalidade dos dados 1

18 pode não ser adequada. Portanto, é preciso abandonar essa suposição e considerar distribuições com caudas mais pesadas, que permitam descrever o comportamento dos dados de forma mais realista. Na literatura existem diferentes formas de abordar não Gaussianidade dos dados espacialmente referenciados, alguns são baseados em transformações não lineares dos dados observados (ver De Oliveira et al., 1997) ou fazendo uso de modelos lineares generalizados, como foi proposto por Diggle et al. (1998). Neste trabalho, o modelo não Gaussiano proposto por Palacios e Steel (2006) é considerado. Esse modelo usa uma variável latente que afeta a variância do processo para assim permitir que o modelo seja mais flexível, realista e acomode heterocedasticidade espacial. Num contexto espaço-temporal, Fonseca e Steel (2011) consideram uma extensão do modelo de Palacios e Steel (2006) que também é capaz de tratar heterocedasticidade espacial e temporal, além de identificar outliers tradicionais. No entanto, estes tipos de modelos, assim como os Gaussianos, podem gerar um custo computacional muito grande, que cresce com o número de locais observados. Estes modelos implicam inversão de matrizes de dimensão I por I com maior frequência do que os modelos Gaussianos, pois é preciso fazer inferência para o processo de variância. No caso do modelo de Fonseca e Steel (2011), a dimensão das matrizes a serem invertidas é ainda maior, dependendo também do número de pontos no tempo. Assim, o objetivo principal deste trabalho é representar os processos espaciais não Gaussianos propostos por Palacios e Steel (2006) em dimensões menores, de forma a facilitar a computação, porém mantendo boas propriedades de previsão e estimação dos parâmetros. Existem diferentes métodos para redução da dimensão neste tipo de problemas. O uso de técnicas como o tapering permite diminuir a complexidade da matriz de covariância, transformando-a em uma matriz esparsa, o que diminui o custo computacional (ver Kaufman et al., 2008). Alguns métodos envolvem aproximações da verossimilhança (ver Vecchia, 1988; Whittle, 1954), enquanto outros métodos incluem o uso de processos 2

19 latentes, como é o caso dos modelos preditivos (ver Banerjee et al., 2010; Finley et al., 2011). Todos os métodos mencionados anteriormente são discutidos por Sun et al. (2012). Usaremos modelos preditivos, como sugere Banerjee et al. (2008), que facilitam a computação no caso de processos Gaussianos, onde o número de locais onde tem-se observações é muito grande. Esse método está baseado na ideia do processo espacial preditivo que, por sua vez, é motivado pelo krigagem. A ideia é projetar o processo original em um subespaço que é gerado por realizações de dito processo em um conjunto de localizações conhecidas como knots. Neste trabalho são estudados alguns métodos que são usados no contexto de design ótimo para escolha desses knots. No entanto, não se tem uma regra clara para a escolha do número e localização dos knots, o que faz com que o pesquisador tenha que decidir o quanto está disposto a sacrificar na estimativa dos parâmetros em troca de um menor tempo computacional. Iremos estender essa proposta na presença de dados extremos, isto é, no caso de modelos não Gaussianos. A análise será feita usando um enfoque Bayesiano e será desenvolvido um procedimento eficiente de estimação baseado em cadeias de Markov (MCMC), para os modelos propostos. O Capítulo 2 apresenta uma breve introdução à estatística espacial com foco na geoestatística e na previsão de dados não observados e o Capítulo 3 introduz os processos Gaussianos e os processos não Gaussianos. Os processos preditivos propostos por Banerjee et al. (2008) são abordados no Capítulo 4 e, baseados nesta ideia, apresentase a proposta deste trabalho que será chamada de processos não Gaussianos preditivos. No Capítulo 5 são discutidos alguns dos critérios existentes para escolha dos pontos que vão formar o conjunto de knots. Conceitos necessários para implementação destes métodos são apresentados no Capitulo 6. Um estudo simulado é apresentado no Capítulo 7 com o objetivo de entender o efeito da diminuição de dimensão na estimação dos parâmetros dos modelos e na identificação de outliers. As conclusões são apresentadas no Capitulo 8. 3

20 1.1 Principais objetivos Alguns dos objetivos deste trabalho são: i) Comparar o comportamento da proposta de processos preditivos no caso Gaussiano, ao mudar a grade usada para projetar os pontos da amostra. As grades usadas na comparação são a aleatória, a proposta por Diggle e a proposta por Finley. Em Finley et al. (2009), apenas o efeito na estimação da variância global (τ 2 ) é analisada. Neste trabalho, busca-se entender como é afetada a estimação dos outros parâmetros do modelo. ii) Propor um modelo não Gaussiano preditivo que use a ideia de Banerjee et al. (2008) para diminuir o custo computacional. E entender como a escolha do knots influencia na estimação dos parâmetros no caso de processos não Gaussianos preditivos. Pois a diferença dos processos Gaussianos preditivos, o novo modelo inclui dois processos diferentes, um processo de variância e um processo espacial, e eles podem ou não usar o mesmo conjunto de knots na estimação dos parâmetros. 4

21 Capítulo 2 Estatística Espacial 2.1 Introdução Pesquisadores de diversas áreas como saúde, climatologia, ecologia e meio ambiente, estão cada vez mais interessados em analisar dados de eventos que estão referenciados geograficamente e, às vezes, são apresentados em forma de mapas. Neste tipo de dados é natural pensar que existe uma relação entre pontos próximos, ou seja, dados que estão próximos uns dos outros tendem a ter um comportamento similar. Para analisar este tipo de dados existem métodos estatísticos espaciais que permitem descrever o comportamento e a associação espacial entre eles. Por muitos anos os métodos de variograma e correlograma como descritos em Cressie (1993) foram bastante usados. O desenvolvimento da computação permitiu, no entanto, a geração de análises sofisticadas totalmente Bayesianas, com uso de métodos como Monte Carlo via Cadeias de Markov (MCMC), que permitem ajustar modelos complexos para dados geograficamente referenciados (ver, por exemplo Diggle et al., 1998; Banerjee et al., 2004). Neste capítulo é feita uma breve introdução aos tipos de variáveis utilizadas na estatística espacial, para depois nos concentrarmos na geoestatística, que é a área da 5

22 estatística espacial que estuda dados que variam continuamente no espaço. O tratamento deste tipo de dados será o foco deste trabalho. 2.2 Tratamento usual de dados espaciais No estudo de muitas variáveis que são associadas com fenômenos da natureza, os dados podem ser referenciados espacialmente. Neste caso, não é correto estudá-los fazendo uso da hipótese de independência entre eles, pois é possível que esta componente espacial gere correlação nestes dados. Portanto, é preciso achar a estrutura de correlação, para assim poder fazer previsões da variável de interesse para locais não observados. Um conceito fundamental subjacente à teoria de processos estocásticos é a definição de processo espacial. Seja Z a variável de interesse, e seja s a localização onde Z existe. Um processo espacial é o conjunto {Z(s) : s D}, onde Z(s) é a variável de interesse no local s, que também pode ser entendida como um processo estocástico indexado por s. D é conhecido como conjunto índice e é o conjunto de todas as localizações s onde a variável Z existe. Este conjunto pode ser contínuo, discreto ou aleatório. A localização espacial s geralmente é de dimensão dois (por exemplo, latitude e longitude) ou três (como latitude, longitude e altitude). Geralmente os dados espaciais são divididos em 3 categorias diferentes (ver Cressie, 1993; Banerjee et al., 2004), dependendo das características dos dados. Tais categorias são: Padrão de pontos: Considere D uma região no espaço. Cada s D fornece a localização de um evento aleatório (assim D é aleatório). Z(s) pode representar se há ou não ocorrência de um evento numa determinada localização s. Assim, Z(s) toma valor 1 se o evento ocorre ou 0 caso contrario. Por exemplo, localização de árvores de certa espécie numa região florestal, localização de ocorrência de crimes, local de um terremoto, entre outros. O objetivo 6

23 deste tipo de estudo é saber se as ocorrências da variável parecem completamente aleatórias ou se apresentam algum tipo de agrupamento. Dados de área: Considere uma região D fixa no espaço, que pode ou não ter uma forma regular. D está particionado em um número finito de sub-regiões e o limite entre regiões está bem definido. Neste caso, o sítio s D é um bloco ou sub-região da região D (nesse caso D é do tipo discreto). Z(s) geralmente representa uma taxa que resume o comportamento da variável no bloco s. Por exemplo, taxa de óbitos por país no continente americano durante um ano determinado. O interesse neste tipo de estudos é a identificação de determinado padrão ou configuração espacial no que diz respeito à variável aleatória de interesse, assim como a existencia de possíveis relações no espaço. Geoestatística: Z(s) é uma variável que assume valores reais para cada localização s D R r, e s varia de forma contínua em D (um retângulo fixo r-dimensional de volume positivo). Geralmente se tem um número finito de localizações nas quais foi observada a variável Z(s i ), com i = 1,..., l. Alguns exemplos desta categoria de dados espaciais são a temperatura, precipitação ou umidade observada em estações meteorológicas. Devido à continuidade espacial do processo, um dos principais objetivos é a previsão da variável em localizações não observadas, além de fazer inferência para média, variabilidade e a estrutura de associação do processo. Assim, os métodos na estatística espacial mudam dependendo do domínio D em que o evento de interesse acontece. Como o objetivo principal deste trabalho é a modelagem de dados que variam de forma contínua no espaço e que apresentam valores extremos, o foco será na teoria que a geoestatística oferece para o tratamento deste tipo de dados. 2.3 Geoestatística Considere um conjunto de variáveis aleatórias Z(s) que apresentam associação do tipo espacial e tal que s D varia de forma continua. Então, os modelos propostos tem 7

24 que refletir esta importante característica dos dados. Para capturar essa associação, as variáveis devem ser dependentes para cada par possível, e o nível de dependência deve estar relacionado com a localização dos pontos. Assim, é preciso definir a distribuição de um número infinito de variáveis aleatórias. Isso pode ser feito definindo a distribuição finito dimensional para um número arbitrário de localizações. Mas, ao construir este tipo de distribuições é dificil garantir que a distribuição conjunta que se está construindo seja única. Uma solução para este problema é dada pelo uso da distribuição Gaussiana (geralmente usada neste tipo de modelos), pois ao especificar a função de média m(s) = E(Z(s)) e de covariância cov(z(s i ), Z(s j )) as distribuições conjunta, marginais e condicionais vão estar bem definidas. Geralmente, tem-se uma observação para cada uma das n variáveis Z(s i ), i = 1,... n, o que torna impossível a tarefa de criar uma função de covariância (não é possível calcular a covariância com base em uma única observação). Para solucionar este problema, geralmente se supõe que várias sub-regiões possuem uma estrutura probabilística similar. Para isso podemos considerar as suposições de estacionariedade e isotropia. Estacionariedade: um processo {Z(s) : s D} é dito estritamente estacionário se sua função de distribuição conjunta é invariante com respeito a qualquer translação do vetor h, isto é, se a distribuição do vetor aleatório Z = [Z(s 1 ),..., Z(s n )] T para s 1,..., s n D é idêntica a distribuição do vetor Z = [Z(s 1 + h),..., Z(s n + h)] T para s 1 + h,..., s n + h D, para todo h e para todo n 1. A suposição de estacionariedade introduz repetições no espaço, isto é, dois pontos com configurações idênticas após translação serão ditos estatisticamente equivalentes, o que permitirá o cálculo das covariâncias. Um processo é dito fracamente estacionário (ou estacionário de segunda ordem) se µ(s) = E(Z(s)) = µ (quer dizer que o processo tem média constante) e Cov(Z(s), Z(s + h)) = C(h) para todo h R r tal que s e s + h pertencem ao 8

25 conjunto D. Assim, a estacionariedade estrita implica a estacionariedade fraca. No caso da distribuição normal estas duas definições são equivalentes. Para processos fracamente estacionários, é possível definir a função de correlação como: ρ(h) = cor(z(s), Z(s + h)) = C(h) C(0) onde C(0) é a variância do processo. Em geoestatística, é comum utilizar a variável incrementos Z(s + h) Z(s), que faz um análogo com a diferenciação feita numa série temporal quando não se tem estacionariedade em Z(s). Esta variável representa a mudança da variável de interesse após um deslocamento h. A modelagem da estrutura de dependência dos dados pode ser feita, de forma alternativa, usando a variância dos incrementos. Este tipo de estacionariedade é muitas vezes chamada de estacionaridade intrínseca. O processo Z(s) é dito intrinsecamente estacionário, se E(Z(s + h) Z(s)) = 0, s, h D e se 1 V ar(z(s + h) Z(s)) = γ(h), para todo par Z(s) e Z(s + h). 2 Ou seja, a função de variância existe e é função única do vetor de separação h. Nesse caso, γ(h) é conhecida como função de semivariância ou semivariograma do processo espacial (ver Banerjee et al., 2004). Na presença de estacionariedade de segunda ordem as funções de covariância e semivariograma satisfazem as seguintes propriedades: 1. C(h) = C(0) γ(h) 2. C(0) 0 3. C(h) = C( h) 4. C(h) C(0) 5. C(h) 0 quando h 9

26 Isotropia: Um processo é dito estritamente isotrópico se, para toda matriz ortogonal H e todo conjunto de localizações D e qualquer h R r, a distribuição de Z = [Z(s 1 ),..., Z(s n )] T é a mesma de Z = [Z(Hs 1 + h),..., Z(Hs n + h)] T.Um processo é dito fracamente isotrópico se µ(s) = E(Z(s)) = µ e Cov(Z(s), Z(s+h)) = C( h ) onde h é a norma de h, s e s + h D. Nesse caso, note que a covariância só depende da medida h e não da direção do vetor h. Em outras palavras, um processo é dito isotrópico, se a correlação dos dados independe da direção em que é calculada. Em termos geométricos, a estacionariedade e a isotropia são propriedades de invariância. A estacionariedade faz referência à invariância sob translações, enquanto a isotropia faz referência à invariância sob rotações e reflexões. Estas duas propriedades facilitam o cálculo da covariância nos casos em que é correto fazer uma ou as duas hipóteses Estrutura de Covariância É preciso procurar uma estrutura de covariância que seja válida. Para isso, a função de covariância C(s i, s j ) = Cov(Z(s i ), Z(s j )) deve ser tal que para qualquer i, j = 1,..., n e qualquer a 1, a 2,... a n : ( ) V ar ai Z(s i ) = a i a j Cov(Z(s i ), Z(s j )) = a i a j C(s i, s j ) 0 isto é, C(.,.) tem que ser uma função positiva definida. combinações a i Z(s i ) de {Z(s 1 ),... Z(s n )} terão uma variância positiva. Isso garante que toda as Na prática não é comum verificar se é satisfeita a condição de ser uma função positiva definida. Por esse motivo, alguns modelos paramétricos conhecidos são comumente usados. Mas no caso que é preciso verificar esta condição, pode-se usar o Teorema de Bochner que fornece uma condição necessária e suficiente para que C(h) seja positiva definida (ver, por exemplo Banerjee et al., 2004; Stein, 1999). 10

27 Alguns dos modelos paramétricos para função de covariância, que são geralmente usados na literatura (Banerjee et al., 2004; Fonseca e Steel, 2010), são: Função de covariância exponencial C(h) = σ 2 exp( h/a ) onde a é o parâmetro de alcance e σ 2 é a variância. Na prática, o parâmetro de alcance tem uma relação com a distância a partir da qual duas observações podem ser consideradas independentes. O alcance efetivo corresponde à distancia h 0 = h para a qual a correlação cai para Que neste modelo, é dado por h 0 = 3a. Este tipo de modelo é muito usado na prática, pois tem uma forma simples, mas tem propriedades teóricas muito restritas, que fazem com que o modelo seja pouco realista. Função de covariância Gaussiana C(h) = σ 2 exp{ h/a 2 } igual ao caso anterior a é o parâmetro de alcance e σ 2 é a variância do processo. Esta função representa processos muito suaves que são pouco realistas. Função de covariância esférica C(h) = σ 2 ( h/a +1 3 h/a 3 ), h a C(h) = 0 para h > a, isto é a covariância desaparece para valores de h maiores do que a, o que facilita os cálculos que dependem da matriz de covariância. O comportamento desta função perto de zero é similar ao comportamento da exponencial. 11

28 A Figura 2.1 apresenta uma comparação do comportamento da covariância dado pelos modelos anteriores. Função de covariância Exponencial Gaussiano Esferico Figura 2.1: Função de covariância exponencial, Gaussiana, esférica, com parâmetros a = 2, σ 2 = 2 e h variando de 0 a 10. Função de covariância Matérn C(h) = σ 2 (2ν1/2 h/a ) v K 2 ν 1 ν (2ν 1/2 h/a ) Γ(ν) onde, ν > 0 corresponde ao parâmetro de suavidade, a é o alcance, que indica quão rápido decresce a correlação no modelo, e σ 2 é a variância. Γ é a função Gamma e K ν (.) é a função modificada de Bessel de terceiro tipo e ordem ν. No caso de v = 1/2 obtêm-se C(h) = σ 2 exp{ h/a } que é a função de covariância exponencial. Enquanto que se ν tem-se a função de covariância Gaussiana. Função de covariância Cauchy C(h) = σ 2 {1+ h/a α } λ 12

29 onde α (0, 2] é o parâmetro de forma e suavidade do modelo, λ > 0 corresponde à dependência de memória longa, a > 0 é o alcance e σ 2 > 0 a variância. Essa função de covariância é válida em todas as dimensões Previsão Um dos principais objetivos da geoestatística é a previsão da variável de interesse em pontos onde esta variável não foi observada. Suponha que se observa realizações de um processo Z(s) nos locais s 1,..., s n, s i R r, e tem-se como objetivo prever o valor de Z(s 0 ). Se a lei de Z é conhecida, a inferência de Z(s 0 ) pode se basear na distribuição condicional de Z(s 0 ) dado os valores observados Z(s 1 ),..., Z(s n ). Na prática é difícil especificar a lei das variáveis aleatórias, e mesmo que se acredite que Z tem uma distribuição específica, o cálculo desta condicional pode ser muito difícil. Devido a isso, nesses casos é comum trabalhar com preditores lineares (ver Stein, 1999). Suponha que Z tem função de média m(s) e função de covariância C(s i, s j ). Se m e C são conhecidas então pode-se obter a média e a variância de qualquer combinação linear das observações de Z. Queremos, prever o valor da variável no sitio no observado s 0 a partir das observações Z = [Z(s 1 ),..., Z(s n )] T usando um preditor do tipo λ 0 + λ T Z. O objetivo é achar um λ 0 e λ T tal que o erro quadrático médio de λ 0 + λ T Z seja mínimo para este preditor, o erro quadrático médio corresponde a média do erro de previsão ao quadrado mais sua variância, que é E{Z(s 0 ) λ 0 λ T Z} 2 = {m(s 0 ) λ 0 λ T m} 2 + c 0 2λ T C 0 + λ T Cλ onde, m = E(Z), c 0 = Cov(s 0, s 0 ), C 0 = Cov(Z, Z(s 0 )) e C = Cov(Z, Z T ). O preditor linear que minimiza o erro quadrático médio entre todos os preditores lineares é conhecido como o melhor preditor linear (BLP por sua sigla em Inglês). O termo quadrático pode ser minimizado fazendo λ 0 = m(s 0 ) λ T m. O termo restante 13

30 é minimizado quando λ = C 1 C 0, se C é inversível. E assim λ 0 = m(s 0 ) C 0 T C 1 m. Então, o BP L é dado por µ 0 = m(s 0 ) C T 0 C 1 m + C T 0 C 1 Z (2.1) = m(s 0 ) C T 0 C 1 (m Z) (2.2) Se Z é um processo Gaussiano, tem-se que a distribuição condicional de Z(s 0 ) dado Z = z é normal com media µ 0 dada pela equação 2.1 e variância c 0 C T 0 C 1 C 0. Mas, geralmente, assume-se que o valor da média do processo não é conhecida, porém a estrutura de covariância é conhecida. Assim, é preciso que o estimador além de ser BLP seja não viciado. Suponha agora que se tem um processo Z que pode ser modelado como Z(s) = m(s) T β + ɛ(s) (2.3) onde, ɛ é um campo aleatório com média 0 e estrutura de covariância conhecida, m é uma função conhecida com valores em R p e β é um vetor de p coeficientes desconhecidos. A variável de interesse é observada em n pontos, assim, Z = (Z(s 1 ),..., Z(s n )) T. O objetivo é prever o valor de Z(s 0 ), onde s 0 é um local não observado. Se a média é conhecida é possível usar o BLP m(s 0 ) T β + C T 0 C 1 (Z Mβ) (2.4) onde, M = (m(s 1 ),..., m(s n )) T, C 0 = Cov(Z, Z(s 0 )) e C = Cov(Z, Z T ). Se β é desconhecido mas todas as covariâncias são conhecidas, uma abordagem natural é substituir β na equação 2.4 pelo estimador de mínimos quadrados generalizados ˆβ = (M T C 1 M) 1 M T C 1 Z, assumindo que C é não singular e M é de posto completo. O objetivo é minimizar E(Z(s 0 ) λ T Z) 2 sujeita a λ 0 = 0 e M T λ = m(s 0 ) (2.5) 14

31 Se λ resolve este problema de minimização restrita, então λ T Z é chamado de melhor preditor linear não viciado (BLUP por sua sigla em Inglês) para Z(s 0 ). Neste caso o preditor resultante é λ T Z = CC 1 (Z Mˆβ) + m(s 0 ) T ˆβ (2.6) O melhor preditor linear não viciado (BLUP) é conhecido na literatura geoestatística como krigagem, chamado assim em honra ao geólogo Sul Africano D. G. Krige, cujos trabalhos em previsão de reservas de ouro feitos nos anos cinquenta são considerados como pioneiros em métodos de interpolação espacial. Krigagem engloba um conjunto de métodos de previsão espaciais cujo foco é minimizar o erro quadrático médio de previsão. Em particular, quando m(s) 1,ou seja, quando assume-se que a media do processo é uma constante desconhecida então o BLUP é chamado de krigagem ordinária. No enfoque bayesiano o estimador BLUP tem interpretação pois, para fazer uma previsão de Z(s 0 ) a solução natural neste enfoque é usar a distribuição condicional de Z(s 0 ) dado Z, que é calculada usando a distribuição a posteriori de β dado Z. Esta distribuição é conhecida como distribuição preditiva de Z(s 0 ), e a esperança desta distribuição corresponde ao estimador BLUP. 15

32 Capítulo 3 Processos Gaussianos e não Gaussianos 3.1 Introdução Por muitos anos uma hipótese fundamental na geoestatística foi a de que a variável de interesse pode ser modelada como um processo Gaussiano Z(s), onde s são as coordenadas espaciais que variam de forma contínua em D, D R 2. Este suposto facilita e justifica a previsão da variável em pontos não observados. Na natureza existem variáveis que geralmente apresentam dados fora do usual. Mas o que é um dado fora do usual quando se estuda um processo contínuo no espaço? Neste caso, os outliers podem ser definidos como observações pertencentes a sub-regiões com variância observacional grande. Estes dados geralmente apresentam caudas pesadas e assimetria, fazendo com que a distribuição Gaussiana não seja muito apropriada. Algumas propostas foram feitas para solucionar este problema. Por exemplo, De Oliveira et al. (1997) propôs o uso do modelo bayesiano Gaussiano transformado, que é baseado na família de transformações Box-Cox. Esta ideia foi motivada pelo interesse em fazer previsão de variáveis que claramente não seguem uma distribuição Gaussiana. Diggle et al. (1998) propôs o uso de modelos espaciais lineares generalizados para dados 16

33 pertencentes à família exponencial. Outro exemplo de modelos não Gaussianos é apresentado por Palacios e Steel (2006). O trabalho deles inclui o uso de um processo de variância que permite que o modelo tenha uma maior flexibilidade, pois ele acomoda heterocedasticidade espacial. Além disso, uma vantagem deste modelo é que ao condicionar a variável de interesse ao conhecimento do processo de variância, tem-se uma distribuição normal, o que facilita a sua implementação. Este capítulo apresenta o modelo usual para o caso Gaussiano e também apresenta um modelo não Gaussiano proposto por Palacios e Steel (2006). O modelo não Gaussiano permite que os parâmetros de interesse sejam melhor estimados nos casos onde acontecem outliers, além de permitir a identificação de áreas com alta variabilidade, o que na prática é de grande utilidade. 3.2 Processos Gaussianos Seja S = {s 1,..., s I } D R 2 um conjunto de pontos espacialmente referenciados. Em cada ponto s se tem observações de uma variável resposta Z(s) que pode ser explicada por meio de um vetor de variáveis espacialmente referenciadas x(s), usando um modelo de regressão como Z(s) = x T (s)β + w(s) + ɛ(s), (3.1) onde, w(s) captura a associação espacial dos dados devida às covariáveis não observadas ou não medíveis, enquanto ɛ(s) é um ruído branco independente de w(s). O modelo na equação 3.1 geralmente é conhecido como modelo de regressão espacial. A suposição usual é de que w(s) segue um processo Gaussiano com média 0 e função de covariância cov(w(s), w(s )) = C(s, s ). Para toda localização s assume-se 17

34 que ɛ N(0, τ 2 ), de forma independente. Então, o modelo condicional a w para o vetor Z = (Z(s 1 ),..., Z(s I )) T, com n = I, é dado por Z w, β, τ 2 N n (Xβ + w, τ 2 I n ) w θ N n (0, C(θ)) (3.2) ou integrando w, Z β, θ, τ 2 N n (Xβ, Σ), (3.3) com X = [x T (s 1 ),..., x T (s I )] T e Σ = C(θ) + τ 2 I n, onde C(θ) é a matriz com entradas C(s i, s j ), i, j = 1,..., n, o vetor θ contem os parâmetros da estrutura de covariancia do modelo e I n é a matriz identidade de ordem n. Mas note que na inferência para θ, β e τ 2 é preciso inverter matrizes n n, o que pode levar a elevados custos computacionais. 3.3 Processos não Gaussianos O processo em (3.1) é usualmente considerado Gaussiano, onde as distribuições finito dimensionais são normais, não permitindo acomodar observações extremas. Palacios e Steel (2006) propuseram modelos que permitem distribuições com caudas mais pesadas que as da distribuição normal, fazendo uso de misturas de escala, o que permite modelar observações extremas de forma mais adequada. Considere o processo espacial Z(s) = x(s)β + w(s) + ɛ(s), (3.4) λ(s) 1/2 onde w(s) é um processo Gaussiano definido em s D, independente do efeito ɛ(s) N(0, τ 2 ). O processo λ(s) é responsável pela inflação na variância do processo Z(s). Integrando λ, a distribuição finito dimensional de Z tem caudas mais pesadas que as da Normal, permitindo acomodar observações aberrantes. Escrito em forma matricial, 18

35 Z = Xβ + Λ 1/2 w + ε, ε N(0, τ 2 I n ) com Λ = Diag(λ), processo estocástico. λ = (λ 1,..., λ n ). Pode ser mostrado que esse novo processo é um Mas, nos modelos espaciais, este tipo de misturas pode gerar problemas com a continuidade da variável aleatória resultante Z. Assim, para que o novo processo seja contínuo em média quadrática, as variáveis de mistura λ introduzidas no modelo devem ser espacialmente correlacionadas, pois dessa forma localizações muito próximas vão ter valores muito similares de λ (ver Palacios e Steel, 2006). Pode-se assumir que λ i = λ P λ, i = 1,..., n, isto é, todas as localizações compartilham uma variável de mistura comum. Mas, permitir que λ varie para cada sítio faz com que o modelo seja mais flexível e permite a identificação de zonas de alta variabilidade. Assim, valores de λ i pequenos estarão relacionados com regiões do espaço onde os valores das variáveis estão afastados da superfície média, o que em muitas aplicações é de grande interesse. A proposta de Palacios e Steel (2006) para as variáveis de mistura é dado pela equação 3.7. Desta forma, o modelo de processos não Gaussianos é dado por Z w, Λ, β, τ 2 N n (Xβ + Λ 1/2 w, τ 2 I n ) (3.5) w σ 2, θ N n (0, σ 2 R(θ)) (3.6) ln(λ) ν, θ N n ( ν ) 2 1 n, νr(θ) (3.7) onde, C(θ) = [C(s i, s j )] n i,j=1 = σ 2 R(θ), θ é o vetor de parâmetros da estrutura de correlação, R ij = Cor(s i, s j ), para i, j = 1,..., n e 1 n é um vetor de uns de tamanho n e ν R +. Em princípio, a estrutura de correlação do processo λ pode não coincidir com a estrutura de correlação de w. Mas, ao usar estruturas de correlação diferentes para os dois processos pode-se dificultar a estimativa dos parâmetros do modelo, principalmente 19

36 se temos apenas dados espaciais e não espaço-temporais. A covariância entre dois pontos i e j vai ser dada por, ( Cov(z i, z j ) = Cov x(s i )β + w(s i) ( ) w(si ) = Cov λ(s i ), w(s j ) 1/2 λ(s j ) 1/2 λ(s i ) 1/2 + ɛ(s i), x(s j )β + w(s j) ) λ(s j ) + ɛ(s j) 1/2 (3.8) (3.9) = σ 2 Cor(s i, s j )exp{ν(1 + (1/4)[Cor(s i, s j ) 1])} (3.10) Previsão Os modelos geoestatísticos tem importantes aplicações a dados reais, pois eles permitem prever o valor da variável de interesse em localizações não observadas. Seja Z = (zo T, zp T ) T, onde zo T corresponde ao valor da variável nas localizações observadas e zp T é o vetor de variáveis preditas em f localizações não observadas. Neste caso, a distribuição posterior preditiva tem a forma p(z p z o ) = p(z p z o, λ, ζ)p(λ p λ o, ζ, z o )p(λ o, θ z o )dλdζ (3.11) onde, λ = (λ T o, λ T p ) T, similar à partição feita com Z, e ζ = (β, σ 2, τ 2, θ, ν). A integral em 3.11 pode ser aproximada usando métodos de Monte Carlo e, já que p(λ p λ o, ζ, z o ) = p(λ p λ o, ν, z o ) pode-se obter amostras de λ p usando ( ln(λ p ) λ o, ν, z o N f C po C 1 oo (lnλ o + ν 2 1 n) ν ) 2 1 f, v[c po C po C 1 oo C op ] (3.12) onde C(θ) = C oo C po C op C pp 20

37 que foi particionado de forma similar a Z. Assim, para cada (λ o, ζ) obtido, pode se obter um valor de p(z p z o, λ, ζ), onde ( z p z o, λ, ζ N f (X p AX o )β + Az o, σ (Λ p C pp Λ 1 2 p + τ )) 2 σ I 2 f Λ 1 2 o C op Λ 1 2 p [ ] com A = Λ 1 2 p C po Λ 1 2 o Λ 1 2 o C oo Λ o + τ 2 I σ 2 n (3.13) 21

38 Capítulo 4 Processos Preditivos 4.1 Introdução Geralmente os modelos espaciais geram um custo computacional grande, que aumenta com a quantidade de pontos observacionais incluídos nas análise. A facilidade atual para a obtenção de dados georeferenciados faz com que a quantidade de dados disponíveis para a análise estatística aumente consideravelmente, o que implica que o custo computacional para modelar estes dados seja muito grande. Dessa forma, é preciso criar técnicas que permitam diminuir este custo e, além disso, que afetem os resultados da análise o mínimo possível. Na literatura pode-se encontrar várias possíveis soluções para este problema. Por exemplo, Kammann e Wand (2003) usa o método de low rank spline para facilitar a computação no caso de modelos geoaditivos. Stein (2008) usa funções de covariância com suporte compacto. Alguns autores usam estruturas de covariância separáveis, aproximações da função de máxima verossimilhança, média móvel, tapering (este método introduz zeros na matriz de covariância), ou algumas funções básicas que tentam aproximar o processo original w por um processo w, que representa a realização do processo em subespaços de menor dimensão. Alguns dos métodos, mais frequentemente utilizados na literatura para trabalhar grandes conjuntos de dados geoestatísticos, são 22

39 discutidos por Sun et al. (2012). Neste capitulo se estudam os processos preditivos propostos por Banerjee et al. (2008) para processos Gaussianos, para depois estender esta ideia no caso de processos não Gaussianos. 4.2 Processos Gaussianos Preditivos Banerjee et al. (2008), sugerem usar os modelos preditivos para diminuir o custo computacional de modelos espaciais devido à inversão de matrizes de dimensão grande. A ideia de usar processo preditivo é projetar realizações do processo Z num subespaço de dimensão menor, o que facilita a computação. Nessa abordagem, é mais simples acomodar não estacionariedade, modelos multivariados, processos espaço-temporais, entre outros, para grandes conjuntos de dados. Isso ocorre, pois essa abordagem pode ser aplicada diretamente a qualquer estrutura de covariância e para qualquer distribuição que seja usada para o processo Z. Além disso todo processo espacial (ou espaço-temporal) induz um processo preditivo o que facilita o uso deste método. Lembre que no Capítulo anterior, como descrito na equação (3.2), o processo espacial w é tal que w N(0, C(θ)) Agora, considere um conjunto de knots, S = {s 1,..., s m}, m n, que pode ou não ser um subconjunto do conjunto das locações observadas S. Seja w = [w 1,..., w m] T N m (0, C (θ)), (4.1) onde C (θ) é a matriz m m com entradas C(s i, s j), i, j = 1,..., m. Usando o melhor preditor linear que vem da ideia do krigagem (ver seção 2.3.2), a interpolação espacial do modelo para o ponto s 0 é dada por 23

40 w(s 0 ) = E(w(s 0 ) w ) = c T (s 0 ; θ)c 1 (θ)w, (4.2) onde c T (s 0 ; θ) = [C(s 0, s 1; θ),..., C(s 0, s m; θ)]. Essa interpolação define um processo espacial w(s) P G(0, C(.)), com função de covariância C(s, s ; θ) = c T (s; θ)c 1 (θ)c(s ; θ) onde c T (s; θ) = [C(s, s 1; θ),..., C(s, s m; θ)]. O processo w(s) definido em (4.2) é conhecido como processo preditivo derivado do processo w(s). Substituindo w(s) por w(s) no modelo (3.2), é obtido o processo preditivo Z(s) = x T (s)β + w(s) + ɛ(s), (4.3) onde w(s) = c T (s)c 1 (θ)w, w é uma transformação linear de w, que varia no espaço. Esse interpolador define um processo espacial dado por w(s) GP (0, C) onde a função de covariância é dada por C(s, s ) = c T (s; θ)c 1 (θ)c(s ; θ) (4.4) onde, c(s; θ) = [C(s, s j; θ)] m j=1. Da equação 4.4, esse novo processo não é estacionário independentemente de que o processo w(s) seja estacionário ou não. Note que w(s 0 ) é uma projeção ortogonal de w(s 0 ) sobre um subespaço particular. O processo preditivo é a melhor aproximação do processo original (ver Banerjee et al., 2008). Assim, o modelo de processo preditivo Gaussiano para Z está dado por 24

41 Z w, β, τ N n (Xβ + w, τ 2 I n ) w = c T (θ)c 1 (θ)w (4.5) w θ N m (0, C (θ)) (4.6) Ao escrever o modelo dessa forma, a dimensão das matrizes inversas diminui, e com ela o custo computacional. Note que o processo latente w tem dimensão m, que é o número de knots escolhidos pelo pesquisador. Mas, note que o modelo (4.3) é um novo modelo para Z, diferente do modelo em (3.2), levando a inferências diferentes para os parâmetros de interesse. Banerjee et al. (2008) deixa em evidência uma deficiência da proposta original, i.e., o modelo preditivo induz um viés positivo no erro não espacial do modelo, devido à subestimação do erro do processo preditivo espacial. Isso é observado quando são comparados o processo preditivo e o processo original. Os dois processos são Gaussianos, com média zero, mas a variância dos processos é dada por V ar(w(s)) = C(s, s; θ) (4.7) V ar( w(s)) = c T (s; θ)c 1 (θ)c(s; θ) (4.8) Finley et al. (2009) propõem uma possível solução para este problema e, além disso, propõem uma maneira de determinar a localização dos knots a serem escolhidos pelo pesquisador (Ver capitulo 5.2.3). Para tirar o viés na estimação do τ 2 induzida pelo processo preditivo, eles propõem a seguinte transformação do processo: que é conhecida como processo preditivo modificado, onde ẅ(s) = w(s) + ɛ(s), (4.9) 25

42 ɛ(s) N(0, C(s, s; θ) c T (s; θ)c 1 (θ)c(s; θ)), Note que a variância corrigida é igual a do processo original como em (4.7). 4.3 Processos não Gaussianos Preditivos Nossa proposta considera modelos preditivos não Gaussianos. Dessa forma podemos identificar outliers através do processo λ em (3.4), e também teremos inferência rápida usando processos preditivos. Teorema 4.1 Considere um conjunto de knots S = {s 1,..., s m}, que pode ou não pertencer a amostra original S D, e o processo não Gaussiano definido em (3.3). Então o processo preditivo não Gaussiano resultante é dado por, onde, Z(s) = x T (s)β + w(s) + ɛ(s), (4.10) λ 1/2 (s) w(s) = c T (s)c 1 (θ)w (4.11) ln( λ(s)) = ν [ ] R T (s)r 1 (θ)1 m 1 n + R T (s)r 1 (θ)ln(λ ) 2 (4.12) e w σ 2, θ N m (0, σ 2 R (θ)) (4.13) ln(λ ) θ, ν N m ( ν ) 2 1 m, νr (θ) (4.14) com, R (θ) = [Cor(s i, s j; θ)] m i,j=1 = σ 2 C (θ), onde θ é o vetor de parâmetros da estrutura de corelação e R T (s) = [Cor(s, s 1; θ),..., Cor(s, s m; θ)]. Prova: Considerando que w e λ são dois processos independentes e considerando o conjunto de knots S = {s 1,..., s m} tem-se, como no caso Gaussiano, que o processo espacial 26

Tópicos de Estatística Espacial Geoestatística

Tópicos de Estatística Espacial Geoestatística Tópicos de Estatística Espacial Geoestatística Anderson Castro Soares de Oliveira Geoestatística A geoestatística é uma análise espacial que considera que a variável em estudo se distribui continuamente

Leia mais

Aula 2 Uma breve revisão sobre modelos lineares

Aula 2 Uma breve revisão sobre modelos lineares Aula Uma breve revisão sobre modelos lineares Processo de ajuste de um modelo de regressão O ajuste de modelos de regressão tem como principais objetivos descrever relações entre variáveis, estimar e testar

Leia mais

Introdução Variograma Modelos básicos de correlação espacial Modelação Interpolação espacial & Simulação. Geoestatística.

Introdução Variograma Modelos básicos de correlação espacial Modelação Interpolação espacial & Simulação. Geoestatística. Geoestatística Susana Barbosa Mestrado em Ciências Geofísicas 2012-2013 Geoestatística conjunto de técnicas matemáticas e numéricas para caracterizar fenómenos espaciais contínuos tendo em conta a correlação

Leia mais

Modelos espaço-temporais com caudas pesadas e assimétricos

Modelos espaço-temporais com caudas pesadas e assimétricos Modelos espaço-temporais com caudas pesadas e assimétricos Renata Souza Bueno Universidade Federal do Rio de Janeiro Instituto de Matemática Departamento de Métodos Estatísticos 2016 Modelos espaço-temporais

Leia mais

Ralph S. Silva

Ralph S. Silva ANÁLISE ESTATÍSTICA MULTIVARIADA Ralph S Silva http://wwwimufrjbr/ralph/multivariadahtml Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Sumário Revisão:

Leia mais

Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação

Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação Francisco A. Rodrigues Departamento de Matemática Aplicada e Estatística - SME Objetivo Dada M classes ω 1, ω 2,..., ω M e um

Leia mais

Análise de Dados Longitudinais Aula

Análise de Dados Longitudinais Aula 1/35 Análise de Dados Longitudinais Aula 08.08.2018 José Luiz Padilha da Silva - UFPR www.docs.ufpr.br/ jlpadilha 2/35 Sumário 1 Revisão para dados transversais 2 Como analisar dados longitudinais 3 Perspectiva

Leia mais

INTRODUÇÃO À ESTATÍSTICA ESPACIAL. Prof. Anderson Rodrigo da Silva

INTRODUÇÃO À ESTATÍSTICA ESPACIAL. Prof. Anderson Rodrigo da Silva INTRODUÇÃO À ESTATÍSTICA ESPACIAL Prof. Anderson Rodrigo da Silva anderson.silva@ifgoiano.edu.br Métodos Índices de agregação Métodos de quantificação da dependência especial Correlograma Variograma Métodos

Leia mais

COKRIGAGEM. Aplicação da cokrigagem

COKRIGAGEM. Aplicação da cokrigagem COKRIGAGEM Procedimento geoestatístico segundo o qual diversas variáveis regionalizadas podem ser estimadas em conjunto, com base na correlação espacial entre si. É uma extensão multivariada do método

Leia mais

Análise de variância para experimentos com dependência espacial entre parcelas: abordagem autoregressiva e Geoestatística

Análise de variância para experimentos com dependência espacial entre parcelas: abordagem autoregressiva e Geoestatística Análise de variância para experimentos com dependência espacial entre parcelas: abordagem autoregressiva e Geoestatística Diogo Francisco Rossoni (DES/UEM) Cristina Henriques Nogueira (DEX/UFLA) Renato

Leia mais

Análise de Regressão EST036

Análise de Regressão EST036 Análise de Regressão EST036 Michel Helcias Montoril Instituto de Ciências Exatas Universidade Federal de Juiz de Fora Regressão sem intercepto; Formas alternativas do modelo de regressão Regressão sem

Leia mais

ARTIGO 2. KRIGAGEM E INVERSO DO QUADRADO DA DISTÂNCIA PARA INTERPOLAÇÃO DOS PARÂMETROS DA EQUAÇÃO DE CHUVAS INTENSAS

ARTIGO 2. KRIGAGEM E INVERSO DO QUADRADO DA DISTÂNCIA PARA INTERPOLAÇÃO DOS PARÂMETROS DA EQUAÇÃO DE CHUVAS INTENSAS ARTIGO 2. KRIGAGEM E INVERSO DO QUADRADO DA DISTÂNCIA PARA INTERPOLAÇÃO DOS PARÂMETROS DA EQUAÇÃO DE CHUVAS INTENSAS Análise conceitual de dados 1. Estrutura de dados: Xi: coordenadas das 140 estações

Leia mais

Econometria IV Modelos Lineares de Séries Temporais. Fernando Chague

Econometria IV Modelos Lineares de Séries Temporais. Fernando Chague Econometria IV Modelos Lineares de Séries Temporais Fernando Chague 2016 Estacionariedade Estacionariedade Inferência estatística em séries temporais requer alguma forma de estacionariedade dos dados Intuição:

Leia mais

Inferência Estatistica

Inferência Estatistica Inferência Estatistica Ricardo Ehlers ehlers@icmc.usp.br Departamento de Matemática Aplicada e Estatística Universidade de São Paulo Modelos e Inferência Um modelo é uma simplificação da realidade (e alguns

Leia mais

4 Modelos de Regressão Dinâmica

4 Modelos de Regressão Dinâmica 4 Modelos de Regressão Dinâmica Nos modelos de regressão linear (Johnston e Dinardo, 1998) estudados comumente na literatura, supõe-se que os erros gerados pelo modelo possuem algumas características como:

Leia mais

Fundação Oswaldo Cruz Escola Nacional de Saúde Pública Departamento de Epidemiologia. Estatística espacial. Áreas

Fundação Oswaldo Cruz Escola Nacional de Saúde Pública Departamento de Epidemiologia. Estatística espacial. Áreas Fundação Oswaldo Cruz Escola Nacional de Saúde Pública Departamento de Epidemiologia Estatística espacial Áreas Áreas Na análise de áreas o atributo estudado é em geral resultando de uma contagem ou um

Leia mais

Transformações e Ponderação para corrigir violações do modelo

Transformações e Ponderação para corrigir violações do modelo Transformações e Ponderação para corrigir violações do modelo Diagnóstico na análise de regressão Relembrando suposições Os erros do modelo tem média zero e variância constante. Os erros do modelo tem

Leia mais

Inferência Bayesiana Exata para Processos de Cox Level-Set

Inferência Bayesiana Exata para Processos de Cox Level-Set Inferência Bayesiana Exata para Processos de Cox Level-Set Bárbara da Costa Campos Dias 1 Flávio Bambirra Gonçalves 2 Resumo Este trabalho propõe uma metodologia de inferência exata para processos de Cox

Leia mais

ANÁLISE VARIOGRÁFICA. A Geoestatística é baseada nos seguintes conceitos: Funções aleatórias. Variável regionalizada.

ANÁLISE VARIOGRÁFICA. A Geoestatística é baseada nos seguintes conceitos: Funções aleatórias. Variável regionalizada. ANÁLISE VARIOGRÁFICA A Geoestatística é baseada nos seguintes conceitos: Funções aleatórias Variável regionalizada Estacionariedade 1 2 No espaço (2D) ocorrem infinitos valores de uma variável. Por amostragem

Leia mais

Econometria em Finanças e Atuária

Econometria em Finanças e Atuária Ralph S. Silva http://www.im.ufrj.br/ralph/especializacao.html Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Maio-Junho/2013 Modelos condicionalmente

Leia mais

Metodologia de inversão

Metodologia de inversão 6 Metodologia de inversão Nesta tese, a transformação de velocidades em pressão de poros é encarada como um problema de inversão. Pela natureza do problema, essa transformação apresenta caráter não único

Leia mais

Redes Neurais. A Rede RBF. Redes RBF: Função de Base Radial. Prof. Paulo Martins Engel. Regressão não paramétrica. Redes RBF: Radial-Basis Functions

Redes Neurais. A Rede RBF. Redes RBF: Função de Base Radial. Prof. Paulo Martins Engel. Regressão não paramétrica. Redes RBF: Radial-Basis Functions Redes RBF: Função de Base Radial Redes Neurais A Rede RBF O LP é baseado em unidades que calculam uma função não-linear do produto escalar do vetor de entrada e um vetor de peso. A rede RBF pertence a

Leia mais

A análise de séries temporais é uma área da estatística dedicada ao estudo de dados orientados no tempo (MONTGOMERY, 2004).

A análise de séries temporais é uma área da estatística dedicada ao estudo de dados orientados no tempo (MONTGOMERY, 2004). 3 Séries temporais A análise de séries temporais é uma área da estatística dedicada ao estudo de dados orientados no tempo (MONTGOMERY, 2004). 3.1. Princípios fundamentais Conforme Box et al. (1994), uma

Leia mais

O uso de técnicas geoestatísticas na espacialização da argila do solo

O uso de técnicas geoestatísticas na espacialização da argila do solo O uso de técnicas geoestatísticas na espacialização da argila do solo Elisângela Aparecida de Oliveira 1 Tiago Egídio Barreto 2 Ricardo Ribeiro Rodrigues 3 1 Introdução O termo estatística espacial é utilizado

Leia mais

Incerteza local e incerteza espacial SIMULAÇÃO

Incerteza local e incerteza espacial SIMULAÇÃO Incerteza local e incerteza espacial SIMULAÇÃO Situações em que o interesse na avaliação da incerteza não se resume a um ponto, mas a um conjunto de pontos simultaneamente. Com a krigagem é possível a

Leia mais

Séries Temporais e Modelos Dinâmicos. Econometria. Marcelo C. Medeiros. Aula 9

Séries Temporais e Modelos Dinâmicos. Econometria. Marcelo C. Medeiros. Aula 9 em Econometria Departamento de Economia Pontifícia Universidade Católica do Rio de Janeiro Aula 9 Data Mining Equação básica: Amostras finitas + muitos modelos = modelo equivocado. Lovell (1983, Review

Leia mais

Fundação Oswaldo Cruz Escola Nacional de Saúde Pública Departamento de Epidemiologia. Estatística espacial. Padrão Pontual

Fundação Oswaldo Cruz Escola Nacional de Saúde Pública Departamento de Epidemiologia. Estatística espacial. Padrão Pontual Fundação Oswaldo Cruz Escola Nacional de Saúde Pública Departamento de Epidemiologia Estatística espacial Padrão Pontual Padrão de Pontos A análise de padrão de pontos, é o tipo mais simples de análise

Leia mais

Interpolação. Interpolação. Padrões de amostragem. Autocorrelação. Padrões de amostragem. Padrões de amostragem

Interpolação. Interpolação. Padrões de amostragem. Autocorrelação. Padrões de amostragem. Padrões de amostragem Sistemas de Informação Geográfica II Interpolação 1. Interpolação Autocorrelação Padrões de amostragem Validação de resultados Interpolação Predição do valor de atributos em pontos não-amostrados Tempo

Leia mais

Análise e Previsão de Séries Temporais Aula 1: Introdução às séries temporais. Eraylson Galdino

Análise e Previsão de Séries Temporais Aula 1: Introdução às séries temporais. Eraylson Galdino Análise e Previsão de Séries Temporais Aula 1: Introdução às séries temporais egs@cin.ufpe.br Agenda Séries Temporais: Definições Exemplos Modelos simples com média zero: Ruído I.I.D Processo Binário Random

Leia mais

CONHECIMENTOS ESPECÍFICOS

CONHECIMENTOS ESPECÍFICOS CONHECIMENTOS ESPECÍFICOS 2003 2004 2005 2006 2007 2008 2009 2010 X 39,0 39,5 39,5 39,0 39,5 41,5 42,0 42,0 Y 46,5 65,5 86,0 100,0 121,0 150,5 174,0 203,0 A tabela acima mostra as quantidades, em milhões

Leia mais

ANÁLISE DE SÉRIES TEMPORAIS

ANÁLISE DE SÉRIES TEMPORAIS ANÁLISE DE SÉRIES TEMPORAIS Ralph S. Silva http://www.im.ufrj.br/ralph/seriestemporais.html Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Estimação

Leia mais

Técnicas computacionais em probabilidade e estatística II

Técnicas computacionais em probabilidade e estatística II Técnicas computacionais em probabilidade e estatística II Universidade de São Paulo Instituto de Matemática e Estatística http:www.ime.usp.br/ mbranco AULA 1: Problemas Computacionais em Inferência Estatística.

Leia mais

Análise de Regressão Linear Simples e

Análise de Regressão Linear Simples e Análise de Regressão Linear Simples e Múltipla Carla Henriques Departamento de Matemática Escola Superior de Tecnologia de Viseu Introdução A análise de regressão estuda o relacionamento entre uma variável

Leia mais

ESTATÍSTICA COMPUTACIONAL

ESTATÍSTICA COMPUTACIONAL ESTATÍSTICA COMPUTACIONAL Ralph dos Santos Silva Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Sumário Introdução Solução de equações não lineares

Leia mais

Prof: Felipe C. V. dos Santos

Prof: Felipe C. V. dos Santos Prof: Felipe C. V. dos Santos Goiânia 04, 03 2016 PONTIFICIA UNIVERSIDADE CATÓLICA DE GOIÁS DEPARTAMENTO DE ENGENHARIA CURSOS DE ENGENHARIA CIVIL E AMBIENTAL HIDROLOGIA APLICADA Prof. M. Sc. Felipe Corrêa

Leia mais

ESTATÍSTICA COMPUTACIONAL

ESTATÍSTICA COMPUTACIONAL ESTATÍSTICA COMPUTACIONAL Ralph dos Santos Silva Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Sumário Escolha de modelos Até aqui assumimos que z

Leia mais

Modelos para Séries Temporais Aula 1. Morettin e Toloi, 2006, Capítulo 2 Morettin, 2011, Capítulo 2 Bueno, 2011, Capítulo 2

Modelos para Séries Temporais Aula 1. Morettin e Toloi, 2006, Capítulo 2 Morettin, 2011, Capítulo 2 Bueno, 2011, Capítulo 2 Modelos para Séries Temporais Aula 1 Morettin e Toloi, 2006, Capítulo 2 Morettin, 2011, Capítulo 2 Bueno, 2011, Capítulo 2 Modelos para Séries Temporais Os modelos utilizados para descrever séries temporais

Leia mais

Laboratório Nº 5. A geoestatística permite descrever a continuidade espacial, a qual é uma característica

Laboratório Nº 5. A geoestatística permite descrever a continuidade espacial, a qual é uma característica Laboratório Nº 5 INTRODUÇAO A geoestatística permite descrever a continuidade espacial, a qual é uma característica essencial de muitos fenómenos naturais. Modelos inferenciais para este objetivo vêm sendo

Leia mais

MOQ-13 PROBABILIDADE E ESTATÍSTICA. Professor: Rodrigo A. Scarpel

MOQ-13 PROBABILIDADE E ESTATÍSTICA. Professor: Rodrigo A. Scarpel MOQ-13 PROBABILIDADE E ESTATÍSTICA Professor: Rodrigo A. Scarpel rodrigo@ita.br www.mec.ita.br/~rodrigo Programa do curso: Semanas 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 e 16 Introdução à probabilidade (eventos,

Leia mais

ANÁLISE DE SÉRIES TEMPORAIS

ANÁLISE DE SÉRIES TEMPORAIS ANÁLISE DE SÉRIES TEMPORAIS Ralph S. Silva http://www.im.ufrj.br/ralph/seriestemporais.html Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Definição

Leia mais

7 Conclusões e desenvolvimentos futuros

7 Conclusões e desenvolvimentos futuros 7 Conclusões e desenvolvimentos futuros 7.1 Conclusões Este trabalho apresentou novas soluções para a determinação da posição de terminais de comunicações móveis com base em medidas de ToA. Nos métodos

Leia mais

2 Modelos Não Lineares

2 Modelos Não Lineares Modelos Não Lineares 17 2 Modelos Não Lineares 2.1. Introdução Nos últimos anos, muitos modelos não-lineares para a análise de séries temporais têm sido propostos. Na econometria clássica, os modelos de

Leia mais

Incerteza local e incerteza espacial SIMULAÇÃO

Incerteza local e incerteza espacial SIMULAÇÃO Incerteza local e incerteza espacial SIMULAÇÃO Situações em que o interesse na avaliação da incerteza não se resume a um ponto, mas a um conjunto de pontos simultaneamente. Com a krigagem é possível a

Leia mais

ESTATÍSTICA COMPUTACIONAL

ESTATÍSTICA COMPUTACIONAL ESTATÍSTICA COMPUTACIONAL Ralph dos Santos Silva Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Sumário Se a integração analítica não é possível ou

Leia mais

Alguns Aspectos Espaciais da Modelagem de Observações Provenientes das Áreas de SaúdeedoMeioAmbiente

Alguns Aspectos Espaciais da Modelagem de Observações Provenientes das Áreas de SaúdeedoMeioAmbiente Alguns Aspectos Espaciais da Modelagem de Observações Provenientes das Áreas de SaúdeedoMeioAmbiente Alexandra Mello Schmidt DME - IM - UFRJ Homepage: www.dme.ufrj.br/ alex Seminário Qualidade do Ar e

Leia mais

Cap. 4 - Estimação por Intervalo

Cap. 4 - Estimação por Intervalo Cap. 4 - Estimação por Intervalo Amostragem e inferência estatística População: consiste na totalidade das observações em que estamos interessados. Nº de observações na população é denominado tamanho=n.

Leia mais

Séries Temporais e Modelos Dinâmicos. Econometria. Marcelo C. Medeiros. Aula 12

Séries Temporais e Modelos Dinâmicos. Econometria. Marcelo C. Medeiros. Aula 12 em Econometria Departamento de Economia Pontifícia Universidade Católica do Rio de Janeiro Aula 12 Regressão com Variáveis Não-Estacionárias Considere três processos estocásticos definidos pelas seguintes

Leia mais

UTILIZAÇÃO DE GEOESTATÍSTICA PARA O ESTUDO DO ATRIBUTO COBRE NO SOLO. Gabriel Tambarussi Avancini 1 RESUMO

UTILIZAÇÃO DE GEOESTATÍSTICA PARA O ESTUDO DO ATRIBUTO COBRE NO SOLO. Gabriel Tambarussi Avancini 1 RESUMO UTILIZAÇÃO DE GEOESTATÍSTICA PARA O ESTUDO DO ATRIBUTO COBRE NO SOLO Gabriel Tambarussi Avancini 1 RESUMO Este trabalho teve como objetivo estudar a espacialização do atributo cobre, Cu, do solo utilizando

Leia mais

Geração de cenários de energia renovável correlacionados com hidrologia: uma abordagem bayesiana multivariada.

Geração de cenários de energia renovável correlacionados com hidrologia: uma abordagem bayesiana multivariada. Geração de cenários de energia renovável correlacionados com hidrologia: uma abordagem bayesiana multivariada [alessandro@psr-inc.com] Conteúdo Introdução Estimação não paramétrica (Kernel density) Transformação

Leia mais

Interpolação. Dr. Marcos Figueiredo

Interpolação. Dr. Marcos Figueiredo Introdução às Análises Espaciais para Ecologia e Conservação da Biodiversidade (PPGE, PPGBIO) (Graduação em Biologia - IBE 013) Interpolação Dr. Marcos Figueiredo (mslfigueiredo@gmail.com) Tópicos 1. Conceito

Leia mais

AULA 07 Inferência a Partir de Duas Amostras

AULA 07 Inferência a Partir de Duas Amostras 1 AULA 07 Inferência a Partir de Duas Amostras Ernesto F. L. Amaral 10 de setembro de 2012 Faculdade de Filosofia e Ciências Humanas (FAFICH) Universidade Federal de Minas Gerais (UFMG) Fonte: Triola,

Leia mais

Ajuste do modelo de regressão linear: Inferência Bayesiana, aspectos computacionais e seleção de variáveis.

Ajuste do modelo de regressão linear: Inferência Bayesiana, aspectos computacionais e seleção de variáveis. Ajuste do modelo de regressão linear: Inferência Bayesiana, aspectos computacionais e seleção de variáveis. João Daniel Nunes Duarte a, Vinícius Diniz Mayrink b a Estudante de Graduação, e-mail: joaodaniel@ufmg.br

Leia mais

AULA 09 Regressão. Ernesto F. L. Amaral. 17 de setembro de 2012

AULA 09 Regressão. Ernesto F. L. Amaral. 17 de setembro de 2012 1 AULA 09 Regressão Ernesto F. L. Amaral 17 de setembro de 2012 Faculdade de Filosofia e Ciências Humanas (FAFICH) Universidade Federal de Minas Gerais (UFMG) Fonte: Triola, Mario F. 2008. Introdução à

Leia mais

2 Núcleos: suas propriedades e classificações

2 Núcleos: suas propriedades e classificações 2 Núcleos: suas propriedades e classificações O objetivo desse capítulo é o de apresentar as funções núcleos (7), suas propriedades (10) e suas classificações (3). 2.1 Núcleos no espaço de Hilbert Um espaço

Leia mais

Processos Hidrológicos CST 318 / SER 456. Tema 9 -Métodos estatísticos aplicados à hidrologia ANO 2016

Processos Hidrológicos CST 318 / SER 456. Tema 9 -Métodos estatísticos aplicados à hidrologia ANO 2016 Processos Hidrológicos CST 318 / SER 456 Tema 9 -Métodos estatísticos aplicados à hidrologia ANO 2016 Camilo Daleles Rennó Laura De Simone Borma http://www.dpi.inpe.br/~camilo/prochidr/ Caracterização

Leia mais

Introdução à Teoria de Resposta ao Item

Introdução à Teoria de Resposta ao Item Caio L. N. Azevedo, IMECC/Unicamp Dani Gamerman, DME/UFRJ I CONBRATRI, Florianópolis 9 de dezembro de 2009 Parte II Parte 2: Implementação computacional. Análise de dados 1. Modelo de 3 parâmetros via

Leia mais

CC-226 Aula 07 - Estimação de Parâmetros

CC-226 Aula 07 - Estimação de Parâmetros CC-226 Aula 07 - Estimação de Parâmetros Carlos Henrique Q. Forster - Instituto Tecnológico de Aeronáutica 2008 Estimação de Parâmetros Para construir o classificador bayesiano, assumimos as distribuições

Leia mais

Redes Neurais e Sistemas Fuzzy

Redes Neurais e Sistemas Fuzzy Redes Neurais e Sistemas Fuzzy O ADALINE e o algoritmo LMS O ADALINE No contexto de classificação, o ADALINE [B. Widrow 1960] pode ser visto como um perceptron com algoritmo de treinamento baseado em minimização

Leia mais

Multicolinariedade e Autocorrelação

Multicolinariedade e Autocorrelação Multicolinariedade e Autocorrelação Introdução Em regressão múltipla, se não existe relação linear entre as variáveis preditoras, as variáveis são ortogonais. Na maioria das aplicações os regressores não

Leia mais

Bondade do ajuste, análise de resíduos bayesiana em modelos espaciais

Bondade do ajuste, análise de resíduos bayesiana em modelos espaciais Universidade Federal do Rio de Janeiro Departamento de Métodos Estatísticos Curso de Pós-graduação em Estatística Viviana das Graças Ribeiro Lobo Bondade do ajuste, análise de resíduos bayesiana em modelos

Leia mais

Econometria. Econometria MQO MQO. Resíduos. Resíduos MQO. 1. Exemplo da técnica MQO. 2. Hipóteses do Modelo de RLM. 3.

Econometria. Econometria MQO MQO. Resíduos. Resíduos MQO. 1. Exemplo da técnica MQO. 2. Hipóteses do Modelo de RLM. 3. 3. Ajuste do Modelo 4. Modelo Restrito Resíduos Resíduos 1 M = I- X(X X) -1 X Hipóteses do modelo Linearidade significa ser linear nos parâmetros. Identificação: Só existe um único conjunto de parâmetros

Leia mais

Modelos de Regressão Linear Simples - parte I

Modelos de Regressão Linear Simples - parte I Modelos de Regressão Linear Simples - parte I Erica Castilho Rodrigues 19 de Agosto de 2014 Introdução 3 Objetivos Ao final deste capítulo você deve ser capaz de: Usar modelos de regressão para construir

Leia mais

CONHECIMENTOS ESPECÍFICOS

CONHECIMENTOS ESPECÍFICOS CONHECIMENTOS ESPECÍFICOS A distribuição dos tempos de permanência dos estudantes nos cursos de graduação de certa universidade é uma distribuição normal com média igual a 6 anos e desvio padrão igual

Leia mais

Testes de Raiz Unitária para Dados em Painel

Testes de Raiz Unitária para Dados em Painel Aula 7 Bibliografia: Stata, 2017. help xtunitroot. From Stata/SE 13 (accessed on Oct. 23, 2018). Pesaran, M.H. (2015). Time series and panel data econometrics. Oxford: Oxford University Press. Rafael S.

Leia mais

AULAS 14 E 15 Modelo de regressão simples

AULAS 14 E 15 Modelo de regressão simples 1 AULAS 14 E 15 Modelo de regressão simples Ernesto F. L. Amaral 18 e 23 de outubro de 2012 Avaliação de Políticas Públicas (DCP 046) Fonte: Wooldridge, Jeffrey M. Introdução à econometria: uma abordagem

Leia mais

Representação esquemática de estruturas de dados

Representação esquemática de estruturas de dados UNIVERSIDADE DE SÃO PAULO - USP Instituto de Química de São Carlos - IQSC Grupo de Química Medicinal do IQSC/USP 1 Representação esquemática de estruturas de dados 2 1 Tipos de variáveis Contínua Concentração,

Leia mais

ESTATÍSTICA COMPUTACIONAL

ESTATÍSTICA COMPUTACIONAL ESTATÍSTICA COMPUTACIONAL Ralph dos Santos Silva Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Sumário Inferência com dimensão variável Modelos com

Leia mais

CURSO A DISTÂNCIA DE GEOESTATÍSTICA

CURSO A DISTÂNCIA DE GEOESTATÍSTICA CURSO A DISTÂNCIA DE GEOESTATÍSTICA Aula 7: Semivariograma: Definição, Estimativa, Cálculo, Dependência espacial, Parâmetros do semivariograma, Componentes de um semivariograma, Criando (gráfico) um semivariograma,

Leia mais

4 Processos Estocásticos e Simulação de Monte Carlo

4 Processos Estocásticos e Simulação de Monte Carlo 33 4 Processos Estocásticos e Simulação de Monte Carlo O processo estocástico faz a descrição de uma variável com comportamento ao menos em parte de maneira aleatória através do tempo, onde se assume valores

Leia mais

CONHECIMENTOS ESPECÍFICOS

CONHECIMENTOS ESPECÍFICOS fonte de graus de soma de quadrado variação liberdade quadrados médio teste F regressão 1 1,4 1,4 46,2 resíduo 28 0,8 0,03 total 2,2 A tabela de análise de variância (ANOVA) ilustrada acima resulta de

Leia mais

Técnicas computacionais em probabilidade e estatística II

Técnicas computacionais em probabilidade e estatística II Técnicas computacionais em probabilidade e estatística II Universidade de São Paulo Instituto de Matemática e Estatística http:www.ime.usp.br/ mbranco Métodos de Monte Carlo baseados em Cadeias de Markov:

Leia mais

Universidade Federal de Lavras

Universidade Federal de Lavras Universidade Federal de Lavras Departamento de Estatística Prof. Daniel Furtado Ferreira 6 a Lista de Exercícios Teoria da Estimação pontual e intervalar 1) Marcar como verdadeira ou falsa as seguintes

Leia mais

Estrutura de covariância espacial multivariada não separável

Estrutura de covariância espacial multivariada não separável Estrutura de covariância espacial multivariada não separável Rafael Santos Erbisti Universidade Federal do Rio de Janeiro Instituto de Matemática Departamento de Métodos Estatísticos 2015 Estrutura de

Leia mais

2. podemos solucionar problemas não somente probabilisticas, mas tambem qualquer

2. podemos solucionar problemas não somente probabilisticas, mas tambem qualquer Aula 3 (21/3/211, 23/3/211). Métodos de Monte Carlo I. Introdução. 1 Teoria ão temos no momento a definição exata de metodos de Monte Carlo. o nosso curso metodos de Monte Carlo vamos chamar metodos computacionais

Leia mais

Geoestatística aplicada à agricultura de precisão

Geoestatística aplicada à agricultura de precisão Geoestatística aplicada à agricultura de precisão José P. Molin ESALQ/USP jpmolin@usp.br www.agriculturadeprecisao.org.br Objetivo Abordar os conceitos fundamentais relacionados à geoestatistica aplicada

Leia mais

INSTITUTO NACIONAL DE PESQUISAS ESPACIAIS. Divisão de Sensoriamento Remoto. Geoprocessamento. Relatório do Laboratório 5: Geoestatistica Linear

INSTITUTO NACIONAL DE PESQUISAS ESPACIAIS. Divisão de Sensoriamento Remoto. Geoprocessamento. Relatório do Laboratório 5: Geoestatistica Linear INSTITUTO NACIONAL DE PESQUISAS ESPACIAIS Divisão de Sensoriamento Remoto Geoprocessamento Relatório do Laboratório 5: Geoestatistica Linear Fátima Lorena Benítez Ramírez Professores Responsáveis: Dr.

Leia mais

REGRESSÃO E CORRELAÇÃO

REGRESSÃO E CORRELAÇÃO REGRESSÃO E CORRELAÇÃO A interpretação moderna da regressão A análise de regressão diz respeito ao estudo da dependência de uma variável, a variável dependente, em relação a uma ou mais variáveis explanatórias,

Leia mais

3 Especificação Estatística da Dispersão dos Modos de Polarização em Cabos de Fibra Óptica

3 Especificação Estatística da Dispersão dos Modos de Polarização em Cabos de Fibra Óptica em Enlaces Ópticos 0 3 Especificação Estatística da Dispersão dos Modos de Polarização em Cabos de Fibra Óptica Teoria básica da especificação estatística da dispersão dos modos de polarização em cabos

Leia mais

O método dos mínimos quadrados: análise de regressão

O método dos mínimos quadrados: análise de regressão O métodos dos mínimos quadrados é um método famoso para lidar com dados ruidosos. Sua justificativa segue diretamente do método da máxima verossimilhança. Para Y i dados medidos en valores das variável

Leia mais

Cap. 8 - Intervalos Estatísticos para uma Única Amostra

Cap. 8 - Intervalos Estatísticos para uma Única Amostra Intervalos Estatísticos para ESQUEMA DO CAPÍTULO 8.1 INTRODUÇÃO 8.2 INTERVALO DE CONFIANÇA PARA A MÉDIA DE UMA DISTRIBUIÇÃO NORMAL, VARIÂNCIA CONHECIDA 8.3 INTERVALO DE CONFIANÇA PARA A MÉDIA DE UMA DISTRIBUIÇÃO

Leia mais

Universidade Federal do Paraná (UFPR) Bacharelado em Informática Biomédica. Regressão. David Menotti.

Universidade Federal do Paraná (UFPR) Bacharelado em Informática Biomédica. Regressão. David Menotti. Universidade Federal do Paraná (UFPR) Bacharelado em Informática Biomédica Regressão David Menotti www.inf.ufpr.br/menotti/ci171-182 Hoje Regressão Linear ( e Múltipla ) Não-Linear ( Exponencial / Logística

Leia mais

Ricardo Ehlers Departamento de Matemática Aplicada e Estatística Universidade de São Paulo

Ricardo Ehlers Departamento de Matemática Aplicada e Estatística Universidade de São Paulo Geração de Números Aleatórios Ricardo Ehlers ehlers@icmc.usp.br Departamento de Matemática Aplicada e Estatística Universidade de São Paulo 1 / 61 Simulando de Distribuições Discretas Assume-se que um

Leia mais

Uso da inferência bayesiana para obtenção de mapas de probabilidades para o Trimestre Chuvoso no Estado da Paraíba

Uso da inferência bayesiana para obtenção de mapas de probabilidades para o Trimestre Chuvoso no Estado da Paraíba Uso da inferência bayesiana para obtenção de mapas de probabilidades para o Trimestre Chuvoso no Estado da Paraíba Elias Silva de Medeiros a,1, Paulo Justiniano Ribeiro Jr. a a Departamento de Ciências

Leia mais

Modelos de Regressão Linear Simples parte I

Modelos de Regressão Linear Simples parte I Modelos de Regressão Linear Simples parte I Erica Castilho Rodrigues 27 de Setembro de 2017 1 2 Objetivos Ao final deste capítulo você deve ser capaz de: Usar modelos de regressão para construir modelos

Leia mais

Análise Multivariada Aplicada à Contabilidade

Análise Multivariada Aplicada à Contabilidade Mestrado e Doutorado em Controladoria e Contabilidade Análise Multivariada Aplicada à Contabilidade Prof. Dr. Marcelo Botelho da Costa Moraes www.marcelobotelho.com mbotelho@usp.br Turma: 2º / 2016 1 Agenda

Leia mais

Sumário. CAPÍTULO 1 Conceitos preliminares 1. CAPÍTULO 2 Descrição de dados: análise monovariada 47

Sumário. CAPÍTULO 1 Conceitos preliminares 1. CAPÍTULO 2 Descrição de dados: análise monovariada 47 CAPÍTULO 1 Conceitos preliminares 1 Introdução........................................................1 O que é estatística?.................................................. 4 Papel dos microcomputadores.........................................

Leia mais

Espaços Euclidianos. Espaços R n. O conjunto R n é definido como o conjunto de todas as n-uplas ordenadas de números reais:

Espaços Euclidianos. Espaços R n. O conjunto R n é definido como o conjunto de todas as n-uplas ordenadas de números reais: Espaços Euclidianos Espaços R n O conjunto R n é definido como o conjunto de todas as n-uplas ordenadas de números reais: R n = {(x 1,..., x n ) : x 1,..., x n R}. R 1 é simplesmente o conjunto R dos números

Leia mais

Econometria. Econometria: Paradigma. Porque usar econometria? Porque usar econometria?

Econometria. Econometria: Paradigma. Porque usar econometria? Porque usar econometria? Econometria: Paradigma Econometria 1. O Paradigma da Econometria 19/8 Fundamentos teóricos Microeconometria e macroeconometria Modelagem comportamental: otimização, oferta de trabalho, equações de demanda,

Leia mais

Gibbs Sampler para ANOVA e Misturas

Gibbs Sampler para ANOVA e Misturas Gibbs Sampler para ANOVA e Misturas Renato Assunção - DCC, UFMG Outubro de 014 1 Modelo ANOVA: componentes de variância Suponha que temos K grupos ou classes. Em cada grupo, temos um certo número de dados

Leia mais

A Metodologia de Box & Jenkins

A Metodologia de Box & Jenkins A Metodologia de Box & Jenins Aula 03 Bueno, 0, Capítulo 3 Enders, 009, Capítulo Morettin e Toloi, 006, Capítulos 6 a 8 A Metodologia Box & Jenins Uma abordagem bastante utilizada para a construção de

Leia mais

Inferência. 1 Estimativa pontual de uma média 2 Estimativa intervalar de uma média. Renata Souza

Inferência. 1 Estimativa pontual de uma média 2 Estimativa intervalar de uma média. Renata Souza Inferência 1 Estimativa pontual de uma média 2 Estimativa intervalar de uma média Renata Souza Aspectos Gerais A estatística descritiva tem por objetivo resumir ou descrever características importantes

Leia mais

AST203-CVR 4-1 AST203-CVR. Observação eletromagnética. Processamento de sinais importante em várias áreas, além da astronomia telecomunicações

AST203-CVR 4-1 AST203-CVR. Observação eletromagnética. Processamento de sinais importante em várias áreas, além da astronomia telecomunicações Bloco 4 Estatística Atualizado: 2012 4-1 Bibliografia Lena Cap. 4 (parte) - só a inspiração... Wall & Jenkins, Practical statistics for astronomers Brandt Statistical and computacional methods in data

Leia mais

Esse material foi extraído de Barbetta (2007 cap 13)

Esse material foi extraído de Barbetta (2007 cap 13) Esse material foi extraído de Barbetta (2007 cap 13) - Predizer valores de uma variável dependente (Y) em função de uma variável independente (X). - Conhecer o quanto variações de X podem afetar Y. Exemplos

Leia mais

Modelo de Regressão Múltipla

Modelo de Regressão Múltipla Modelo de Regressão Múltipla Modelo de Regressão Linear Simples Última aula: Y = α + βx + i i ε i Y é a variável resposta; X é a variável independente; ε representa o erro. 2 Modelo Clássico de Regressão

Leia mais

CE062c - GAMLSS. Silva, J.P; Taconeli, C.A. 09 de outubro, Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, / 42

CE062c - GAMLSS. Silva, J.P; Taconeli, C.A. 09 de outubro, Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, / 42 CE062c - GAMLSS Silva, J.P; Taconeli, C.A. 09 de outubro, 2018 Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, 2018 1 / 42 Por que GAMLSS? Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro,

Leia mais

Revisão de Modelos de regressão. Prof. Thais C O Fonseca - DME, UFRJ

Revisão de Modelos de regressão. Prof. Thais C O Fonseca - DME, UFRJ Revisão de Modelos de regressão Prof. Thais C O Fonseca - DME, UFRJ Conteúdo Regressão linear simples Regressão linear múltipla Método de Mínimos Quadrados Introdução a Inferência Bayesiana em Regressão

Leia mais

ANÁLISE GEOESTATÍSTICA: UMA INTRODUÇÃO. Célia Regina Grego

ANÁLISE GEOESTATÍSTICA: UMA INTRODUÇÃO. Célia Regina Grego ANÁLISE GEOESTATÍSTICA: UMA INTRODUÇÃO Célia Regina Grego crgrego@cnpm.embrapa.br CONTEÚDO 1. INTRODUÇÃO 2. ANÁLISE EXPLORATÓRIA 3. SEMIVARIOGRAMA 4. INTERPOLAÇÃO 5. CONSTRUÇÃO DE MAPAS 1. INTRODUÇÃO SURGIMENTO

Leia mais

ESTATÍSTICA COMPUTACIONAL

ESTATÍSTICA COMPUTACIONAL ESTATÍSTICA COMPUTACIONAL Ralph dos Santos Silva Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Sumário Considere o problema de encontrar o valor que

Leia mais

Técnicas Multivariadas em Saúde. Vetores Aleatórios. Métodos Multivariados em Saúde Roteiro. Definições Principais. Vetores aleatórios:

Técnicas Multivariadas em Saúde. Vetores Aleatórios. Métodos Multivariados em Saúde Roteiro. Definições Principais. Vetores aleatórios: Roteiro Técnicas Multivariadas em Saúde Lupércio França Bessegato Dep. Estatística/UFJF 1. Introdução 2. Distribuições de Probabilidade Multivariadas 3. Representação de Dados Multivariados 4. Testes de

Leia mais