Redução de Dimensão para Modelos Espaciais não Gaussianos
|
|
- Ana Vitória Alcaide
- 5 Há anos
- Visualizações:
Transcrição
1 Redução de Dimensão para Modelos Espaciais não Gaussianos por Mariana del Pilar Lizarazo Osorio Universidade Federal do Rio de Janeiro Instituto de Matemática Departamento de Métodos Estatísticos 2013
2 Redução de Dimensão para Modelos Espaciais não Gaussianos Mariana del Pilar Lizarazo Osorio Dissertação submetida ao Corpo Docente do Instituto de Matemática - Departamento de Métodos Estatísticos da Universidade Federal do Rio de Janeiro - UFRJ, como parte dos requisitos necessários à obtenção do grau de Mestre em Estatística. Aprovada por: Prof. Thaís C. Fonseca de Oliveira PhD - UFRJ - Orientadora. Prof. Dani Gamerman PhD - IM - UFRJ. Prof. Alexandre Loureiros Rodrigues PhD - UFES. Rio de Janeiro, RJ - Brasil 2013 ii
3 FICHA CATALOGRÁFICA Lizarazo Osorio, Mariana del Pilar. Redução de Dimensão para Modelos Espaciais não Gaussianos \ Mariana del Pilar Lizarazo Osorio. Rio de Janeiro: UFRJ, IM, DME, Dissertação - Universidade Federal do Rio de Janeiro, IM, DME. 1. Introdução. 2. Estatística Espacial. 3. Processos Gaussianos e não Gaussianos. 4. Processos Preditivos. 5. Design. 6. Implementação. 7. Simulação. 8. Conclusões e Extensões. (Mestrado-UFRJ/IM/DME) I. Fonseca, Thaís C. O. II. Universidade Federal do Rio de Janeiro III. Título. iii
4 À minha família, base de tudo. Especialmente à minha mãe pelo seu apoio incondicional. iv
5 Não deixe que a saudade sufoque, que a rotina acomode, que o medo impeça de tentar. Desconfie do destino e acredite em você. Gaste mais horas realizando que sonhando, fazendo que planejando, vivendo que esperando, porque, embora quem quase morre esteja vivo, quem quase vive já morreu. Luiz Fernando Veríssimo v
6 Agradecimentos Eu gostaria de agradecer em primeiro lugar a Deus, pelo dom da vida, pela minha família, pelos meus amigos e colegas, que foram meu apoio, refugio e consolo em muitos momentos difíceis. Quero agradecer de maneira especial a minha mãe, ela me deu a coragem para sair adiante, me apoio durante todo este processo, mesmo na distancia. A meu tio Julio, pois sem ele nada de toda esta experiência teria sido possível. A todos meus colegas da Colômbia que sempre me deram seu apoio e sua amizade. Quero Agradecer a professora Thais, poies ela me ajudo muito, traço o caminho da dissertação. Ensino-me que existem pessoas que mesmo sendo muito brilhantes são muito humildes. É um bom modelo a seguir. Este ultimo ano foi complicado para mim, e por isso eu quero agradecer as pessoas que sempre estiveram de meu lado, que fizeram que eu me sentisse em casa, me ajudando, apoiando, brindando sua amizade, principalmente a meu namorado Renan Assimos, quem teve que me aturar durante tudo este ano, e a meus amigos Aniel Ojeda, Teresa Villanueva, Pamela Chiroque, Pedro Ortis, Angela arana, que me ajudaram, deram seus conselhos em momentos difíceis, parceiros de rizadas, de estudos, de moradia, a todos muito obrigada. Agradeço também aos meninos da iniciação cientifica especialmente a Arthur (criança), pois aprendi muito com todas suas perguntas, embora as vezes fosse chato, me ensino sobre o que é ser docente e da grão satisfação que da, também me ensinou um pouquinho de português, e foi meu grande parceiro de laboratório. Agradeço de maneira especial a Paloma Lima pela ajuda com o português, a Cristiano Moura pela paciência vi
7 e por toda sua ajuda. Agradeço a UFRJ a CAPES e a FAPERJ, por me dar a oportunidade de ter uma grande experiência como esta, sem eles não poderia ter feito este trabalho. vii
8 Resumo No tratamento de dados espacialmente referenciados usualmente assume-se que os dados seguem a distribuição Normal. Mas este suposto muitas vezes não é adequado, pois a amostra pode apresentar dados atípicos ou assimetria. Dessa forma, é preciso criar modelos que permitam descrever o comportamento de variáveis de forma mais realista e, ao mesmo tempo, que não gerem um custo computacional muito alto. Para isso, os modelos não Gaussianos oferecem uma flexibilidade maior, e fazem com que o modelo seja mais realista, mas o custo computacional deste tipo de modelos é muito grande. Por outro lado, existem diferentes métodos para diminuir o custo computacional em modelos Gaussianos. Entre estes métodos, existem os modelos de processos preditivos, que projetam a amostra original num subconjunto de pontos, o que faz que o custo computacional seja reduzido. A escolha destes pontos é discutida neste trabalho. Assim, o intuito deste trabalho é propor um modelo de processos preditivos não Gaussianos que permita modelar variáveis espaciais de forma realista com um baixo custo computacional. Palavras-chave: modelo de mistura, processo preditivos, processos não Gaussianos. viii
9 Abstract The usual treatment to spatial data analysis is to consider Gaussian distributions. But this assumption is often not appropriate because the sample may have outliers or asymmetry. Thus, it is necessary to create models that describe the behavior of variables in a more realistic way and, at the same time, don t generate a very high computational cost. Bearing this in mind, it is known that non-gaussian models offer more flexibility, and make the model more realistic, but the computational cost of this type of models is too large. On the other hand there are several methods to reduce the computational cost in Gaussian models. Among these methods, there are the predictive process models, which project the original sample on a subset of points reducing the computational cost. The choice of these points is discussed in this text. Thus, the aim of this work is to propose a non-gaussian predictive process model that allows realist modeling of spatial variables with a low computational cost. Keywords: mix model, predictive process, nongaussian processes. ix
10 Sumário 1 Introdução Principais objetivos Estatística Espacial Introdução Tratamento usual de dados espaciais Geoestatística Estrutura de Covariância Previsão Processos Gaussianos e não Gaussianos Introdução Processos Gaussianos Processos não Gaussianos Previsão Processos Preditivos Introdução Processos Gaussianos Preditivos Processos não Gaussianos Preditivos Design Introdução Escolha dos Knots x
11 5.2.1 Grade Aleatória Grade Regular Proposta de Finley et al. (2009) Proposta Diggle Processos não Gaussiano Implementação Algoritmos Critérios de Convergência Amostragem por Blocos Modelo preditivo Critério de identificação de outliers Simulação Processo Gaussiano Geração dos dados Distribuição a priori Resultados Processos não Gaussianos Geração dos dados Distribuição a priori: Comparação de modelos Resultados Conclusões e Extensões Processos espaço-temporais Processos Gaussianos espaço-temporais Processos não Gaussianos Espaço-temporais Processos não Gaussianos Preditivos Espaço-temporais A Distribuições 75 A.1 Distribuição Gaussiana Inversa Generalizada (GIG) xi
12 A.2 Distribuição Log-Normal xii
13 Lista de Tabelas 7.1 EQM dos parâmetros do modelo e média do tempo computacional, para diferentes números de knots. (EQM relativo) EQM dos parâmetros do modelo e média do tempo computacional, para diferentes números de knots, para proposta Aleatória.(EQM relativo) EQM dos parâmetros do modelo e média do tempo computacional, para diferentes números de knots. Usando a proposta do Diggle et al. (1998). (EQM relativo) Diagnóstico de Raftery e Lewis e critério de Geweke para comparação de 3 versões diferentes da modificação de Finley et al. (2009). Período de Burn-in de Estimativa dos parâmetros nas 3 versões da modificação de Finley et al. (2009) EQM dos parâmetros do modelo e média do tempo computacional, para diferentes números de knots. Para diferentes combinações das propostas do Finley et al. (2009). (EQM relativo) Taxa de aceitação para o alcance e alguns λ por região, usando o algoritmo proposto por Steel e o algoritmo de passeios aleatórios Diagnóstico de Raftery e Lewis e critério de Geweke para a proposta independente e a proposta de passeios aleatórios com um período de burnin de Diagnóstico de Raftery e Lewis e critério de Geweke para a proposta independente e a proposta de passeios aleatórios com um período de Burnin de xiii
14 7.10 Estimativas dos parâmetros para os dois modelos EQM dos parâmetros do modelo e média do tempo computacional, para diferentes números de knots. Para proposta Aleatória.(EQM relativo) EQM dos parâmetros do modelo e média do tempo computacional, para diferentes números de knots. Para proposta Diggle et al. (1998). (EQM relativo) EQM dos parâmetros do modelo e média do tempo computacional, para diferentes números de knots. Para as propostas 1. (EQM relativo) EQM dos parâmetros do modelo e média do tempo computacional, para diferentes números de knots. Para as propostas 2. (EQM relativo) EQM dos parâmetros do modelo e média do tempo computacional, para diferentes números de knots. Para a proposta 3. (EQM relativo).. 68 xiv
15 Lista de Figuras 2.1 Função de covariância exponencial, Gaussiana, esférica, com parâmetros a = 2, σ 2 = 2 e h variando de 0 a Exemplos das grades usadas por Diggle A sub-figura (a) apresenta a região na qual foram simulados os dados. Os pontos marcados com bolas cheias foram modificados para serem dados extremos e a divisão em regiões foi feita para estimar o parâmetro λ. A sub-figura (b) apresenta um Box plot da razão σ 2 /λ para cada sítio usando o modelo (3.4). Os Box plot de cor verde correspondem aos locais onde as observações foram modificadas Cadeia, histograma, auto-correlograma e traça da amostra da distribuição a posterior para o parâmetro β 1, usando a proposta independente (a) e passeios aleatórios (b) Cadeia, histograma, auto-correlograma e traça da amostra da distribuição a posterior para o parâmetro β 2, usando a proposta independente (a) e passeios aleatórios (b) Cadeia, histograma, auto-correlograma e traça da amostra da distribuição a posterior para o parâmetro τ 2, usando a proposta independente (a) e passeios aleatórios (b) Cadeia, histograma, auto-correlograma e traça da amostra da distribuição a posterior para o parâmetro σ 2, usando a proposta independente (a) e passeios aleatórios (b) xv
16 7.6 Cadeia, histograma, auto-correlograma e traça da amostra da distribuição a posterior para o parâmetro do alcance, usando a proposta independente (a) e passeios aleatórios (b) Cadeia, histograma, auto-correlograma e traça da amostra da distribuição a posterior para o parâmetro v usando a proposta independente (a) e passeios aleatórios (b) Os pontos representam a taxa de aceitação do modelo de passeio aleatório e os triângulos representam o modelo que usa a proposta independente. 63 xvi
17 Capítulo 1 Introdução O uso de modelos espaciais e espaço-temporais está aumentando devido à crescente disponibilidade de dados referenciados no espaço e no tempo que são obtidos, por exemplo, por satélite ou estações monitoradoras. Assim, esses modelos têm sido cada vez mais utilizados em áreas tais como meio-ambiente, meteorologia, agricultura, devido à grande utilidade destes para o entendimento de fenômenos como tornados, chuva, temperatura, pressão, umidade, poluição, entre outros. Geralmente assume-se que os dados são realizações de um processo Gaussiano, onde são observadas I localizações no espaço, o que implica inversão de matrizes de tamanho I I no procedimento de inferência. Este tipo de modelagem permite estimativas de valores da variável de interesse em locais onde dados não foram observados, fazendo uso de preditores lineares, o que gera um maior interesse neste tipo de modelos, como pode ser observado, por exemplo, no trabalho de Brown et al. (1994), entre outros. Mas, em grandes conjuntos de dados, a inferência em modelos mais complexos e realistas pode requerer um custo computacional muito elevado. No estudo de eventos naturais, muitas vezes, o interesse principal é o estudo de variáveis onde os dados fora do usual acontecem com muita frequência. Por exemplo, os dados de temperatura no Rio de Janeiro, em algumas loalizações parecem ter uma maior variabilidade e, nesses casos, a suposição de normalidade dos dados 1
18 pode não ser adequada. Portanto, é preciso abandonar essa suposição e considerar distribuições com caudas mais pesadas, que permitam descrever o comportamento dos dados de forma mais realista. Na literatura existem diferentes formas de abordar não Gaussianidade dos dados espacialmente referenciados, alguns são baseados em transformações não lineares dos dados observados (ver De Oliveira et al., 1997) ou fazendo uso de modelos lineares generalizados, como foi proposto por Diggle et al. (1998). Neste trabalho, o modelo não Gaussiano proposto por Palacios e Steel (2006) é considerado. Esse modelo usa uma variável latente que afeta a variância do processo para assim permitir que o modelo seja mais flexível, realista e acomode heterocedasticidade espacial. Num contexto espaço-temporal, Fonseca e Steel (2011) consideram uma extensão do modelo de Palacios e Steel (2006) que também é capaz de tratar heterocedasticidade espacial e temporal, além de identificar outliers tradicionais. No entanto, estes tipos de modelos, assim como os Gaussianos, podem gerar um custo computacional muito grande, que cresce com o número de locais observados. Estes modelos implicam inversão de matrizes de dimensão I por I com maior frequência do que os modelos Gaussianos, pois é preciso fazer inferência para o processo de variância. No caso do modelo de Fonseca e Steel (2011), a dimensão das matrizes a serem invertidas é ainda maior, dependendo também do número de pontos no tempo. Assim, o objetivo principal deste trabalho é representar os processos espaciais não Gaussianos propostos por Palacios e Steel (2006) em dimensões menores, de forma a facilitar a computação, porém mantendo boas propriedades de previsão e estimação dos parâmetros. Existem diferentes métodos para redução da dimensão neste tipo de problemas. O uso de técnicas como o tapering permite diminuir a complexidade da matriz de covariância, transformando-a em uma matriz esparsa, o que diminui o custo computacional (ver Kaufman et al., 2008). Alguns métodos envolvem aproximações da verossimilhança (ver Vecchia, 1988; Whittle, 1954), enquanto outros métodos incluem o uso de processos 2
19 latentes, como é o caso dos modelos preditivos (ver Banerjee et al., 2010; Finley et al., 2011). Todos os métodos mencionados anteriormente são discutidos por Sun et al. (2012). Usaremos modelos preditivos, como sugere Banerjee et al. (2008), que facilitam a computação no caso de processos Gaussianos, onde o número de locais onde tem-se observações é muito grande. Esse método está baseado na ideia do processo espacial preditivo que, por sua vez, é motivado pelo krigagem. A ideia é projetar o processo original em um subespaço que é gerado por realizações de dito processo em um conjunto de localizações conhecidas como knots. Neste trabalho são estudados alguns métodos que são usados no contexto de design ótimo para escolha desses knots. No entanto, não se tem uma regra clara para a escolha do número e localização dos knots, o que faz com que o pesquisador tenha que decidir o quanto está disposto a sacrificar na estimativa dos parâmetros em troca de um menor tempo computacional. Iremos estender essa proposta na presença de dados extremos, isto é, no caso de modelos não Gaussianos. A análise será feita usando um enfoque Bayesiano e será desenvolvido um procedimento eficiente de estimação baseado em cadeias de Markov (MCMC), para os modelos propostos. O Capítulo 2 apresenta uma breve introdução à estatística espacial com foco na geoestatística e na previsão de dados não observados e o Capítulo 3 introduz os processos Gaussianos e os processos não Gaussianos. Os processos preditivos propostos por Banerjee et al. (2008) são abordados no Capítulo 4 e, baseados nesta ideia, apresentase a proposta deste trabalho que será chamada de processos não Gaussianos preditivos. No Capítulo 5 são discutidos alguns dos critérios existentes para escolha dos pontos que vão formar o conjunto de knots. Conceitos necessários para implementação destes métodos são apresentados no Capitulo 6. Um estudo simulado é apresentado no Capítulo 7 com o objetivo de entender o efeito da diminuição de dimensão na estimação dos parâmetros dos modelos e na identificação de outliers. As conclusões são apresentadas no Capitulo 8. 3
20 1.1 Principais objetivos Alguns dos objetivos deste trabalho são: i) Comparar o comportamento da proposta de processos preditivos no caso Gaussiano, ao mudar a grade usada para projetar os pontos da amostra. As grades usadas na comparação são a aleatória, a proposta por Diggle e a proposta por Finley. Em Finley et al. (2009), apenas o efeito na estimação da variância global (τ 2 ) é analisada. Neste trabalho, busca-se entender como é afetada a estimação dos outros parâmetros do modelo. ii) Propor um modelo não Gaussiano preditivo que use a ideia de Banerjee et al. (2008) para diminuir o custo computacional. E entender como a escolha do knots influencia na estimação dos parâmetros no caso de processos não Gaussianos preditivos. Pois a diferença dos processos Gaussianos preditivos, o novo modelo inclui dois processos diferentes, um processo de variância e um processo espacial, e eles podem ou não usar o mesmo conjunto de knots na estimação dos parâmetros. 4
21 Capítulo 2 Estatística Espacial 2.1 Introdução Pesquisadores de diversas áreas como saúde, climatologia, ecologia e meio ambiente, estão cada vez mais interessados em analisar dados de eventos que estão referenciados geograficamente e, às vezes, são apresentados em forma de mapas. Neste tipo de dados é natural pensar que existe uma relação entre pontos próximos, ou seja, dados que estão próximos uns dos outros tendem a ter um comportamento similar. Para analisar este tipo de dados existem métodos estatísticos espaciais que permitem descrever o comportamento e a associação espacial entre eles. Por muitos anos os métodos de variograma e correlograma como descritos em Cressie (1993) foram bastante usados. O desenvolvimento da computação permitiu, no entanto, a geração de análises sofisticadas totalmente Bayesianas, com uso de métodos como Monte Carlo via Cadeias de Markov (MCMC), que permitem ajustar modelos complexos para dados geograficamente referenciados (ver, por exemplo Diggle et al., 1998; Banerjee et al., 2004). Neste capítulo é feita uma breve introdução aos tipos de variáveis utilizadas na estatística espacial, para depois nos concentrarmos na geoestatística, que é a área da 5
22 estatística espacial que estuda dados que variam continuamente no espaço. O tratamento deste tipo de dados será o foco deste trabalho. 2.2 Tratamento usual de dados espaciais No estudo de muitas variáveis que são associadas com fenômenos da natureza, os dados podem ser referenciados espacialmente. Neste caso, não é correto estudá-los fazendo uso da hipótese de independência entre eles, pois é possível que esta componente espacial gere correlação nestes dados. Portanto, é preciso achar a estrutura de correlação, para assim poder fazer previsões da variável de interesse para locais não observados. Um conceito fundamental subjacente à teoria de processos estocásticos é a definição de processo espacial. Seja Z a variável de interesse, e seja s a localização onde Z existe. Um processo espacial é o conjunto {Z(s) : s D}, onde Z(s) é a variável de interesse no local s, que também pode ser entendida como um processo estocástico indexado por s. D é conhecido como conjunto índice e é o conjunto de todas as localizações s onde a variável Z existe. Este conjunto pode ser contínuo, discreto ou aleatório. A localização espacial s geralmente é de dimensão dois (por exemplo, latitude e longitude) ou três (como latitude, longitude e altitude). Geralmente os dados espaciais são divididos em 3 categorias diferentes (ver Cressie, 1993; Banerjee et al., 2004), dependendo das características dos dados. Tais categorias são: Padrão de pontos: Considere D uma região no espaço. Cada s D fornece a localização de um evento aleatório (assim D é aleatório). Z(s) pode representar se há ou não ocorrência de um evento numa determinada localização s. Assim, Z(s) toma valor 1 se o evento ocorre ou 0 caso contrario. Por exemplo, localização de árvores de certa espécie numa região florestal, localização de ocorrência de crimes, local de um terremoto, entre outros. O objetivo 6
23 deste tipo de estudo é saber se as ocorrências da variável parecem completamente aleatórias ou se apresentam algum tipo de agrupamento. Dados de área: Considere uma região D fixa no espaço, que pode ou não ter uma forma regular. D está particionado em um número finito de sub-regiões e o limite entre regiões está bem definido. Neste caso, o sítio s D é um bloco ou sub-região da região D (nesse caso D é do tipo discreto). Z(s) geralmente representa uma taxa que resume o comportamento da variável no bloco s. Por exemplo, taxa de óbitos por país no continente americano durante um ano determinado. O interesse neste tipo de estudos é a identificação de determinado padrão ou configuração espacial no que diz respeito à variável aleatória de interesse, assim como a existencia de possíveis relações no espaço. Geoestatística: Z(s) é uma variável que assume valores reais para cada localização s D R r, e s varia de forma contínua em D (um retângulo fixo r-dimensional de volume positivo). Geralmente se tem um número finito de localizações nas quais foi observada a variável Z(s i ), com i = 1,..., l. Alguns exemplos desta categoria de dados espaciais são a temperatura, precipitação ou umidade observada em estações meteorológicas. Devido à continuidade espacial do processo, um dos principais objetivos é a previsão da variável em localizações não observadas, além de fazer inferência para média, variabilidade e a estrutura de associação do processo. Assim, os métodos na estatística espacial mudam dependendo do domínio D em que o evento de interesse acontece. Como o objetivo principal deste trabalho é a modelagem de dados que variam de forma contínua no espaço e que apresentam valores extremos, o foco será na teoria que a geoestatística oferece para o tratamento deste tipo de dados. 2.3 Geoestatística Considere um conjunto de variáveis aleatórias Z(s) que apresentam associação do tipo espacial e tal que s D varia de forma continua. Então, os modelos propostos tem 7
24 que refletir esta importante característica dos dados. Para capturar essa associação, as variáveis devem ser dependentes para cada par possível, e o nível de dependência deve estar relacionado com a localização dos pontos. Assim, é preciso definir a distribuição de um número infinito de variáveis aleatórias. Isso pode ser feito definindo a distribuição finito dimensional para um número arbitrário de localizações. Mas, ao construir este tipo de distribuições é dificil garantir que a distribuição conjunta que se está construindo seja única. Uma solução para este problema é dada pelo uso da distribuição Gaussiana (geralmente usada neste tipo de modelos), pois ao especificar a função de média m(s) = E(Z(s)) e de covariância cov(z(s i ), Z(s j )) as distribuições conjunta, marginais e condicionais vão estar bem definidas. Geralmente, tem-se uma observação para cada uma das n variáveis Z(s i ), i = 1,... n, o que torna impossível a tarefa de criar uma função de covariância (não é possível calcular a covariância com base em uma única observação). Para solucionar este problema, geralmente se supõe que várias sub-regiões possuem uma estrutura probabilística similar. Para isso podemos considerar as suposições de estacionariedade e isotropia. Estacionariedade: um processo {Z(s) : s D} é dito estritamente estacionário se sua função de distribuição conjunta é invariante com respeito a qualquer translação do vetor h, isto é, se a distribuição do vetor aleatório Z = [Z(s 1 ),..., Z(s n )] T para s 1,..., s n D é idêntica a distribuição do vetor Z = [Z(s 1 + h),..., Z(s n + h)] T para s 1 + h,..., s n + h D, para todo h e para todo n 1. A suposição de estacionariedade introduz repetições no espaço, isto é, dois pontos com configurações idênticas após translação serão ditos estatisticamente equivalentes, o que permitirá o cálculo das covariâncias. Um processo é dito fracamente estacionário (ou estacionário de segunda ordem) se µ(s) = E(Z(s)) = µ (quer dizer que o processo tem média constante) e Cov(Z(s), Z(s + h)) = C(h) para todo h R r tal que s e s + h pertencem ao 8
25 conjunto D. Assim, a estacionariedade estrita implica a estacionariedade fraca. No caso da distribuição normal estas duas definições são equivalentes. Para processos fracamente estacionários, é possível definir a função de correlação como: ρ(h) = cor(z(s), Z(s + h)) = C(h) C(0) onde C(0) é a variância do processo. Em geoestatística, é comum utilizar a variável incrementos Z(s + h) Z(s), que faz um análogo com a diferenciação feita numa série temporal quando não se tem estacionariedade em Z(s). Esta variável representa a mudança da variável de interesse após um deslocamento h. A modelagem da estrutura de dependência dos dados pode ser feita, de forma alternativa, usando a variância dos incrementos. Este tipo de estacionariedade é muitas vezes chamada de estacionaridade intrínseca. O processo Z(s) é dito intrinsecamente estacionário, se E(Z(s + h) Z(s)) = 0, s, h D e se 1 V ar(z(s + h) Z(s)) = γ(h), para todo par Z(s) e Z(s + h). 2 Ou seja, a função de variância existe e é função única do vetor de separação h. Nesse caso, γ(h) é conhecida como função de semivariância ou semivariograma do processo espacial (ver Banerjee et al., 2004). Na presença de estacionariedade de segunda ordem as funções de covariância e semivariograma satisfazem as seguintes propriedades: 1. C(h) = C(0) γ(h) 2. C(0) 0 3. C(h) = C( h) 4. C(h) C(0) 5. C(h) 0 quando h 9
26 Isotropia: Um processo é dito estritamente isotrópico se, para toda matriz ortogonal H e todo conjunto de localizações D e qualquer h R r, a distribuição de Z = [Z(s 1 ),..., Z(s n )] T é a mesma de Z = [Z(Hs 1 + h),..., Z(Hs n + h)] T.Um processo é dito fracamente isotrópico se µ(s) = E(Z(s)) = µ e Cov(Z(s), Z(s+h)) = C( h ) onde h é a norma de h, s e s + h D. Nesse caso, note que a covariância só depende da medida h e não da direção do vetor h. Em outras palavras, um processo é dito isotrópico, se a correlação dos dados independe da direção em que é calculada. Em termos geométricos, a estacionariedade e a isotropia são propriedades de invariância. A estacionariedade faz referência à invariância sob translações, enquanto a isotropia faz referência à invariância sob rotações e reflexões. Estas duas propriedades facilitam o cálculo da covariância nos casos em que é correto fazer uma ou as duas hipóteses Estrutura de Covariância É preciso procurar uma estrutura de covariância que seja válida. Para isso, a função de covariância C(s i, s j ) = Cov(Z(s i ), Z(s j )) deve ser tal que para qualquer i, j = 1,..., n e qualquer a 1, a 2,... a n : ( ) V ar ai Z(s i ) = a i a j Cov(Z(s i ), Z(s j )) = a i a j C(s i, s j ) 0 isto é, C(.,.) tem que ser uma função positiva definida. combinações a i Z(s i ) de {Z(s 1 ),... Z(s n )} terão uma variância positiva. Isso garante que toda as Na prática não é comum verificar se é satisfeita a condição de ser uma função positiva definida. Por esse motivo, alguns modelos paramétricos conhecidos são comumente usados. Mas no caso que é preciso verificar esta condição, pode-se usar o Teorema de Bochner que fornece uma condição necessária e suficiente para que C(h) seja positiva definida (ver, por exemplo Banerjee et al., 2004; Stein, 1999). 10
27 Alguns dos modelos paramétricos para função de covariância, que são geralmente usados na literatura (Banerjee et al., 2004; Fonseca e Steel, 2010), são: Função de covariância exponencial C(h) = σ 2 exp( h/a ) onde a é o parâmetro de alcance e σ 2 é a variância. Na prática, o parâmetro de alcance tem uma relação com a distância a partir da qual duas observações podem ser consideradas independentes. O alcance efetivo corresponde à distancia h 0 = h para a qual a correlação cai para Que neste modelo, é dado por h 0 = 3a. Este tipo de modelo é muito usado na prática, pois tem uma forma simples, mas tem propriedades teóricas muito restritas, que fazem com que o modelo seja pouco realista. Função de covariância Gaussiana C(h) = σ 2 exp{ h/a 2 } igual ao caso anterior a é o parâmetro de alcance e σ 2 é a variância do processo. Esta função representa processos muito suaves que são pouco realistas. Função de covariância esférica C(h) = σ 2 ( h/a +1 3 h/a 3 ), h a C(h) = 0 para h > a, isto é a covariância desaparece para valores de h maiores do que a, o que facilita os cálculos que dependem da matriz de covariância. O comportamento desta função perto de zero é similar ao comportamento da exponencial. 11
28 A Figura 2.1 apresenta uma comparação do comportamento da covariância dado pelos modelos anteriores. Função de covariância Exponencial Gaussiano Esferico Figura 2.1: Função de covariância exponencial, Gaussiana, esférica, com parâmetros a = 2, σ 2 = 2 e h variando de 0 a 10. Função de covariância Matérn C(h) = σ 2 (2ν1/2 h/a ) v K 2 ν 1 ν (2ν 1/2 h/a ) Γ(ν) onde, ν > 0 corresponde ao parâmetro de suavidade, a é o alcance, que indica quão rápido decresce a correlação no modelo, e σ 2 é a variância. Γ é a função Gamma e K ν (.) é a função modificada de Bessel de terceiro tipo e ordem ν. No caso de v = 1/2 obtêm-se C(h) = σ 2 exp{ h/a } que é a função de covariância exponencial. Enquanto que se ν tem-se a função de covariância Gaussiana. Função de covariância Cauchy C(h) = σ 2 {1+ h/a α } λ 12
29 onde α (0, 2] é o parâmetro de forma e suavidade do modelo, λ > 0 corresponde à dependência de memória longa, a > 0 é o alcance e σ 2 > 0 a variância. Essa função de covariância é válida em todas as dimensões Previsão Um dos principais objetivos da geoestatística é a previsão da variável de interesse em pontos onde esta variável não foi observada. Suponha que se observa realizações de um processo Z(s) nos locais s 1,..., s n, s i R r, e tem-se como objetivo prever o valor de Z(s 0 ). Se a lei de Z é conhecida, a inferência de Z(s 0 ) pode se basear na distribuição condicional de Z(s 0 ) dado os valores observados Z(s 1 ),..., Z(s n ). Na prática é difícil especificar a lei das variáveis aleatórias, e mesmo que se acredite que Z tem uma distribuição específica, o cálculo desta condicional pode ser muito difícil. Devido a isso, nesses casos é comum trabalhar com preditores lineares (ver Stein, 1999). Suponha que Z tem função de média m(s) e função de covariância C(s i, s j ). Se m e C são conhecidas então pode-se obter a média e a variância de qualquer combinação linear das observações de Z. Queremos, prever o valor da variável no sitio no observado s 0 a partir das observações Z = [Z(s 1 ),..., Z(s n )] T usando um preditor do tipo λ 0 + λ T Z. O objetivo é achar um λ 0 e λ T tal que o erro quadrático médio de λ 0 + λ T Z seja mínimo para este preditor, o erro quadrático médio corresponde a média do erro de previsão ao quadrado mais sua variância, que é E{Z(s 0 ) λ 0 λ T Z} 2 = {m(s 0 ) λ 0 λ T m} 2 + c 0 2λ T C 0 + λ T Cλ onde, m = E(Z), c 0 = Cov(s 0, s 0 ), C 0 = Cov(Z, Z(s 0 )) e C = Cov(Z, Z T ). O preditor linear que minimiza o erro quadrático médio entre todos os preditores lineares é conhecido como o melhor preditor linear (BLP por sua sigla em Inglês). O termo quadrático pode ser minimizado fazendo λ 0 = m(s 0 ) λ T m. O termo restante 13
30 é minimizado quando λ = C 1 C 0, se C é inversível. E assim λ 0 = m(s 0 ) C 0 T C 1 m. Então, o BP L é dado por µ 0 = m(s 0 ) C T 0 C 1 m + C T 0 C 1 Z (2.1) = m(s 0 ) C T 0 C 1 (m Z) (2.2) Se Z é um processo Gaussiano, tem-se que a distribuição condicional de Z(s 0 ) dado Z = z é normal com media µ 0 dada pela equação 2.1 e variância c 0 C T 0 C 1 C 0. Mas, geralmente, assume-se que o valor da média do processo não é conhecida, porém a estrutura de covariância é conhecida. Assim, é preciso que o estimador além de ser BLP seja não viciado. Suponha agora que se tem um processo Z que pode ser modelado como Z(s) = m(s) T β + ɛ(s) (2.3) onde, ɛ é um campo aleatório com média 0 e estrutura de covariância conhecida, m é uma função conhecida com valores em R p e β é um vetor de p coeficientes desconhecidos. A variável de interesse é observada em n pontos, assim, Z = (Z(s 1 ),..., Z(s n )) T. O objetivo é prever o valor de Z(s 0 ), onde s 0 é um local não observado. Se a média é conhecida é possível usar o BLP m(s 0 ) T β + C T 0 C 1 (Z Mβ) (2.4) onde, M = (m(s 1 ),..., m(s n )) T, C 0 = Cov(Z, Z(s 0 )) e C = Cov(Z, Z T ). Se β é desconhecido mas todas as covariâncias são conhecidas, uma abordagem natural é substituir β na equação 2.4 pelo estimador de mínimos quadrados generalizados ˆβ = (M T C 1 M) 1 M T C 1 Z, assumindo que C é não singular e M é de posto completo. O objetivo é minimizar E(Z(s 0 ) λ T Z) 2 sujeita a λ 0 = 0 e M T λ = m(s 0 ) (2.5) 14
31 Se λ resolve este problema de minimização restrita, então λ T Z é chamado de melhor preditor linear não viciado (BLUP por sua sigla em Inglês) para Z(s 0 ). Neste caso o preditor resultante é λ T Z = CC 1 (Z Mˆβ) + m(s 0 ) T ˆβ (2.6) O melhor preditor linear não viciado (BLUP) é conhecido na literatura geoestatística como krigagem, chamado assim em honra ao geólogo Sul Africano D. G. Krige, cujos trabalhos em previsão de reservas de ouro feitos nos anos cinquenta são considerados como pioneiros em métodos de interpolação espacial. Krigagem engloba um conjunto de métodos de previsão espaciais cujo foco é minimizar o erro quadrático médio de previsão. Em particular, quando m(s) 1,ou seja, quando assume-se que a media do processo é uma constante desconhecida então o BLUP é chamado de krigagem ordinária. No enfoque bayesiano o estimador BLUP tem interpretação pois, para fazer uma previsão de Z(s 0 ) a solução natural neste enfoque é usar a distribuição condicional de Z(s 0 ) dado Z, que é calculada usando a distribuição a posteriori de β dado Z. Esta distribuição é conhecida como distribuição preditiva de Z(s 0 ), e a esperança desta distribuição corresponde ao estimador BLUP. 15
32 Capítulo 3 Processos Gaussianos e não Gaussianos 3.1 Introdução Por muitos anos uma hipótese fundamental na geoestatística foi a de que a variável de interesse pode ser modelada como um processo Gaussiano Z(s), onde s são as coordenadas espaciais que variam de forma contínua em D, D R 2. Este suposto facilita e justifica a previsão da variável em pontos não observados. Na natureza existem variáveis que geralmente apresentam dados fora do usual. Mas o que é um dado fora do usual quando se estuda um processo contínuo no espaço? Neste caso, os outliers podem ser definidos como observações pertencentes a sub-regiões com variância observacional grande. Estes dados geralmente apresentam caudas pesadas e assimetria, fazendo com que a distribuição Gaussiana não seja muito apropriada. Algumas propostas foram feitas para solucionar este problema. Por exemplo, De Oliveira et al. (1997) propôs o uso do modelo bayesiano Gaussiano transformado, que é baseado na família de transformações Box-Cox. Esta ideia foi motivada pelo interesse em fazer previsão de variáveis que claramente não seguem uma distribuição Gaussiana. Diggle et al. (1998) propôs o uso de modelos espaciais lineares generalizados para dados 16
33 pertencentes à família exponencial. Outro exemplo de modelos não Gaussianos é apresentado por Palacios e Steel (2006). O trabalho deles inclui o uso de um processo de variância que permite que o modelo tenha uma maior flexibilidade, pois ele acomoda heterocedasticidade espacial. Além disso, uma vantagem deste modelo é que ao condicionar a variável de interesse ao conhecimento do processo de variância, tem-se uma distribuição normal, o que facilita a sua implementação. Este capítulo apresenta o modelo usual para o caso Gaussiano e também apresenta um modelo não Gaussiano proposto por Palacios e Steel (2006). O modelo não Gaussiano permite que os parâmetros de interesse sejam melhor estimados nos casos onde acontecem outliers, além de permitir a identificação de áreas com alta variabilidade, o que na prática é de grande utilidade. 3.2 Processos Gaussianos Seja S = {s 1,..., s I } D R 2 um conjunto de pontos espacialmente referenciados. Em cada ponto s se tem observações de uma variável resposta Z(s) que pode ser explicada por meio de um vetor de variáveis espacialmente referenciadas x(s), usando um modelo de regressão como Z(s) = x T (s)β + w(s) + ɛ(s), (3.1) onde, w(s) captura a associação espacial dos dados devida às covariáveis não observadas ou não medíveis, enquanto ɛ(s) é um ruído branco independente de w(s). O modelo na equação 3.1 geralmente é conhecido como modelo de regressão espacial. A suposição usual é de que w(s) segue um processo Gaussiano com média 0 e função de covariância cov(w(s), w(s )) = C(s, s ). Para toda localização s assume-se 17
34 que ɛ N(0, τ 2 ), de forma independente. Então, o modelo condicional a w para o vetor Z = (Z(s 1 ),..., Z(s I )) T, com n = I, é dado por Z w, β, τ 2 N n (Xβ + w, τ 2 I n ) w θ N n (0, C(θ)) (3.2) ou integrando w, Z β, θ, τ 2 N n (Xβ, Σ), (3.3) com X = [x T (s 1 ),..., x T (s I )] T e Σ = C(θ) + τ 2 I n, onde C(θ) é a matriz com entradas C(s i, s j ), i, j = 1,..., n, o vetor θ contem os parâmetros da estrutura de covariancia do modelo e I n é a matriz identidade de ordem n. Mas note que na inferência para θ, β e τ 2 é preciso inverter matrizes n n, o que pode levar a elevados custos computacionais. 3.3 Processos não Gaussianos O processo em (3.1) é usualmente considerado Gaussiano, onde as distribuições finito dimensionais são normais, não permitindo acomodar observações extremas. Palacios e Steel (2006) propuseram modelos que permitem distribuições com caudas mais pesadas que as da distribuição normal, fazendo uso de misturas de escala, o que permite modelar observações extremas de forma mais adequada. Considere o processo espacial Z(s) = x(s)β + w(s) + ɛ(s), (3.4) λ(s) 1/2 onde w(s) é um processo Gaussiano definido em s D, independente do efeito ɛ(s) N(0, τ 2 ). O processo λ(s) é responsável pela inflação na variância do processo Z(s). Integrando λ, a distribuição finito dimensional de Z tem caudas mais pesadas que as da Normal, permitindo acomodar observações aberrantes. Escrito em forma matricial, 18
35 Z = Xβ + Λ 1/2 w + ε, ε N(0, τ 2 I n ) com Λ = Diag(λ), processo estocástico. λ = (λ 1,..., λ n ). Pode ser mostrado que esse novo processo é um Mas, nos modelos espaciais, este tipo de misturas pode gerar problemas com a continuidade da variável aleatória resultante Z. Assim, para que o novo processo seja contínuo em média quadrática, as variáveis de mistura λ introduzidas no modelo devem ser espacialmente correlacionadas, pois dessa forma localizações muito próximas vão ter valores muito similares de λ (ver Palacios e Steel, 2006). Pode-se assumir que λ i = λ P λ, i = 1,..., n, isto é, todas as localizações compartilham uma variável de mistura comum. Mas, permitir que λ varie para cada sítio faz com que o modelo seja mais flexível e permite a identificação de zonas de alta variabilidade. Assim, valores de λ i pequenos estarão relacionados com regiões do espaço onde os valores das variáveis estão afastados da superfície média, o que em muitas aplicações é de grande interesse. A proposta de Palacios e Steel (2006) para as variáveis de mistura é dado pela equação 3.7. Desta forma, o modelo de processos não Gaussianos é dado por Z w, Λ, β, τ 2 N n (Xβ + Λ 1/2 w, τ 2 I n ) (3.5) w σ 2, θ N n (0, σ 2 R(θ)) (3.6) ln(λ) ν, θ N n ( ν ) 2 1 n, νr(θ) (3.7) onde, C(θ) = [C(s i, s j )] n i,j=1 = σ 2 R(θ), θ é o vetor de parâmetros da estrutura de correlação, R ij = Cor(s i, s j ), para i, j = 1,..., n e 1 n é um vetor de uns de tamanho n e ν R +. Em princípio, a estrutura de correlação do processo λ pode não coincidir com a estrutura de correlação de w. Mas, ao usar estruturas de correlação diferentes para os dois processos pode-se dificultar a estimativa dos parâmetros do modelo, principalmente 19
36 se temos apenas dados espaciais e não espaço-temporais. A covariância entre dois pontos i e j vai ser dada por, ( Cov(z i, z j ) = Cov x(s i )β + w(s i) ( ) w(si ) = Cov λ(s i ), w(s j ) 1/2 λ(s j ) 1/2 λ(s i ) 1/2 + ɛ(s i), x(s j )β + w(s j) ) λ(s j ) + ɛ(s j) 1/2 (3.8) (3.9) = σ 2 Cor(s i, s j )exp{ν(1 + (1/4)[Cor(s i, s j ) 1])} (3.10) Previsão Os modelos geoestatísticos tem importantes aplicações a dados reais, pois eles permitem prever o valor da variável de interesse em localizações não observadas. Seja Z = (zo T, zp T ) T, onde zo T corresponde ao valor da variável nas localizações observadas e zp T é o vetor de variáveis preditas em f localizações não observadas. Neste caso, a distribuição posterior preditiva tem a forma p(z p z o ) = p(z p z o, λ, ζ)p(λ p λ o, ζ, z o )p(λ o, θ z o )dλdζ (3.11) onde, λ = (λ T o, λ T p ) T, similar à partição feita com Z, e ζ = (β, σ 2, τ 2, θ, ν). A integral em 3.11 pode ser aproximada usando métodos de Monte Carlo e, já que p(λ p λ o, ζ, z o ) = p(λ p λ o, ν, z o ) pode-se obter amostras de λ p usando ( ln(λ p ) λ o, ν, z o N f C po C 1 oo (lnλ o + ν 2 1 n) ν ) 2 1 f, v[c po C po C 1 oo C op ] (3.12) onde C(θ) = C oo C po C op C pp 20
37 que foi particionado de forma similar a Z. Assim, para cada (λ o, ζ) obtido, pode se obter um valor de p(z p z o, λ, ζ), onde ( z p z o, λ, ζ N f (X p AX o )β + Az o, σ (Λ p C pp Λ 1 2 p + τ )) 2 σ I 2 f Λ 1 2 o C op Λ 1 2 p [ ] com A = Λ 1 2 p C po Λ 1 2 o Λ 1 2 o C oo Λ o + τ 2 I σ 2 n (3.13) 21
38 Capítulo 4 Processos Preditivos 4.1 Introdução Geralmente os modelos espaciais geram um custo computacional grande, que aumenta com a quantidade de pontos observacionais incluídos nas análise. A facilidade atual para a obtenção de dados georeferenciados faz com que a quantidade de dados disponíveis para a análise estatística aumente consideravelmente, o que implica que o custo computacional para modelar estes dados seja muito grande. Dessa forma, é preciso criar técnicas que permitam diminuir este custo e, além disso, que afetem os resultados da análise o mínimo possível. Na literatura pode-se encontrar várias possíveis soluções para este problema. Por exemplo, Kammann e Wand (2003) usa o método de low rank spline para facilitar a computação no caso de modelos geoaditivos. Stein (2008) usa funções de covariância com suporte compacto. Alguns autores usam estruturas de covariância separáveis, aproximações da função de máxima verossimilhança, média móvel, tapering (este método introduz zeros na matriz de covariância), ou algumas funções básicas que tentam aproximar o processo original w por um processo w, que representa a realização do processo em subespaços de menor dimensão. Alguns dos métodos, mais frequentemente utilizados na literatura para trabalhar grandes conjuntos de dados geoestatísticos, são 22
39 discutidos por Sun et al. (2012). Neste capitulo se estudam os processos preditivos propostos por Banerjee et al. (2008) para processos Gaussianos, para depois estender esta ideia no caso de processos não Gaussianos. 4.2 Processos Gaussianos Preditivos Banerjee et al. (2008), sugerem usar os modelos preditivos para diminuir o custo computacional de modelos espaciais devido à inversão de matrizes de dimensão grande. A ideia de usar processo preditivo é projetar realizações do processo Z num subespaço de dimensão menor, o que facilita a computação. Nessa abordagem, é mais simples acomodar não estacionariedade, modelos multivariados, processos espaço-temporais, entre outros, para grandes conjuntos de dados. Isso ocorre, pois essa abordagem pode ser aplicada diretamente a qualquer estrutura de covariância e para qualquer distribuição que seja usada para o processo Z. Além disso todo processo espacial (ou espaço-temporal) induz um processo preditivo o que facilita o uso deste método. Lembre que no Capítulo anterior, como descrito na equação (3.2), o processo espacial w é tal que w N(0, C(θ)) Agora, considere um conjunto de knots, S = {s 1,..., s m}, m n, que pode ou não ser um subconjunto do conjunto das locações observadas S. Seja w = [w 1,..., w m] T N m (0, C (θ)), (4.1) onde C (θ) é a matriz m m com entradas C(s i, s j), i, j = 1,..., m. Usando o melhor preditor linear que vem da ideia do krigagem (ver seção 2.3.2), a interpolação espacial do modelo para o ponto s 0 é dada por 23
40 w(s 0 ) = E(w(s 0 ) w ) = c T (s 0 ; θ)c 1 (θ)w, (4.2) onde c T (s 0 ; θ) = [C(s 0, s 1; θ),..., C(s 0, s m; θ)]. Essa interpolação define um processo espacial w(s) P G(0, C(.)), com função de covariância C(s, s ; θ) = c T (s; θ)c 1 (θ)c(s ; θ) onde c T (s; θ) = [C(s, s 1; θ),..., C(s, s m; θ)]. O processo w(s) definido em (4.2) é conhecido como processo preditivo derivado do processo w(s). Substituindo w(s) por w(s) no modelo (3.2), é obtido o processo preditivo Z(s) = x T (s)β + w(s) + ɛ(s), (4.3) onde w(s) = c T (s)c 1 (θ)w, w é uma transformação linear de w, que varia no espaço. Esse interpolador define um processo espacial dado por w(s) GP (0, C) onde a função de covariância é dada por C(s, s ) = c T (s; θ)c 1 (θ)c(s ; θ) (4.4) onde, c(s; θ) = [C(s, s j; θ)] m j=1. Da equação 4.4, esse novo processo não é estacionário independentemente de que o processo w(s) seja estacionário ou não. Note que w(s 0 ) é uma projeção ortogonal de w(s 0 ) sobre um subespaço particular. O processo preditivo é a melhor aproximação do processo original (ver Banerjee et al., 2008). Assim, o modelo de processo preditivo Gaussiano para Z está dado por 24
41 Z w, β, τ N n (Xβ + w, τ 2 I n ) w = c T (θ)c 1 (θ)w (4.5) w θ N m (0, C (θ)) (4.6) Ao escrever o modelo dessa forma, a dimensão das matrizes inversas diminui, e com ela o custo computacional. Note que o processo latente w tem dimensão m, que é o número de knots escolhidos pelo pesquisador. Mas, note que o modelo (4.3) é um novo modelo para Z, diferente do modelo em (3.2), levando a inferências diferentes para os parâmetros de interesse. Banerjee et al. (2008) deixa em evidência uma deficiência da proposta original, i.e., o modelo preditivo induz um viés positivo no erro não espacial do modelo, devido à subestimação do erro do processo preditivo espacial. Isso é observado quando são comparados o processo preditivo e o processo original. Os dois processos são Gaussianos, com média zero, mas a variância dos processos é dada por V ar(w(s)) = C(s, s; θ) (4.7) V ar( w(s)) = c T (s; θ)c 1 (θ)c(s; θ) (4.8) Finley et al. (2009) propõem uma possível solução para este problema e, além disso, propõem uma maneira de determinar a localização dos knots a serem escolhidos pelo pesquisador (Ver capitulo 5.2.3). Para tirar o viés na estimação do τ 2 induzida pelo processo preditivo, eles propõem a seguinte transformação do processo: que é conhecida como processo preditivo modificado, onde ẅ(s) = w(s) + ɛ(s), (4.9) 25
42 ɛ(s) N(0, C(s, s; θ) c T (s; θ)c 1 (θ)c(s; θ)), Note que a variância corrigida é igual a do processo original como em (4.7). 4.3 Processos não Gaussianos Preditivos Nossa proposta considera modelos preditivos não Gaussianos. Dessa forma podemos identificar outliers através do processo λ em (3.4), e também teremos inferência rápida usando processos preditivos. Teorema 4.1 Considere um conjunto de knots S = {s 1,..., s m}, que pode ou não pertencer a amostra original S D, e o processo não Gaussiano definido em (3.3). Então o processo preditivo não Gaussiano resultante é dado por, onde, Z(s) = x T (s)β + w(s) + ɛ(s), (4.10) λ 1/2 (s) w(s) = c T (s)c 1 (θ)w (4.11) ln( λ(s)) = ν [ ] R T (s)r 1 (θ)1 m 1 n + R T (s)r 1 (θ)ln(λ ) 2 (4.12) e w σ 2, θ N m (0, σ 2 R (θ)) (4.13) ln(λ ) θ, ν N m ( ν ) 2 1 m, νr (θ) (4.14) com, R (θ) = [Cor(s i, s j; θ)] m i,j=1 = σ 2 C (θ), onde θ é o vetor de parâmetros da estrutura de corelação e R T (s) = [Cor(s, s 1; θ),..., Cor(s, s m; θ)]. Prova: Considerando que w e λ são dois processos independentes e considerando o conjunto de knots S = {s 1,..., s m} tem-se, como no caso Gaussiano, que o processo espacial 26
Tópicos de Estatística Espacial Geoestatística
Tópicos de Estatística Espacial Geoestatística Anderson Castro Soares de Oliveira Geoestatística A geoestatística é uma análise espacial que considera que a variável em estudo se distribui continuamente
Leia maisAula 2 Uma breve revisão sobre modelos lineares
Aula Uma breve revisão sobre modelos lineares Processo de ajuste de um modelo de regressão O ajuste de modelos de regressão tem como principais objetivos descrever relações entre variáveis, estimar e testar
Leia maisIntrodução Variograma Modelos básicos de correlação espacial Modelação Interpolação espacial & Simulação. Geoestatística.
Geoestatística Susana Barbosa Mestrado em Ciências Geofísicas 2012-2013 Geoestatística conjunto de técnicas matemáticas e numéricas para caracterizar fenómenos espaciais contínuos tendo em conta a correlação
Leia maisModelos espaço-temporais com caudas pesadas e assimétricos
Modelos espaço-temporais com caudas pesadas e assimétricos Renata Souza Bueno Universidade Federal do Rio de Janeiro Instituto de Matemática Departamento de Métodos Estatísticos 2016 Modelos espaço-temporais
Leia maisRalph S. Silva
ANÁLISE ESTATÍSTICA MULTIVARIADA Ralph S Silva http://wwwimufrjbr/ralph/multivariadahtml Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Sumário Revisão:
Leia maisUniversidade de São Paulo Instituto de Ciências Matemáticas e de Computação
Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação Francisco A. Rodrigues Departamento de Matemática Aplicada e Estatística - SME Objetivo Dada M classes ω 1, ω 2,..., ω M e um
Leia maisAnálise de Dados Longitudinais Aula
1/35 Análise de Dados Longitudinais Aula 08.08.2018 José Luiz Padilha da Silva - UFPR www.docs.ufpr.br/ jlpadilha 2/35 Sumário 1 Revisão para dados transversais 2 Como analisar dados longitudinais 3 Perspectiva
Leia maisINTRODUÇÃO À ESTATÍSTICA ESPACIAL. Prof. Anderson Rodrigo da Silva
INTRODUÇÃO À ESTATÍSTICA ESPACIAL Prof. Anderson Rodrigo da Silva anderson.silva@ifgoiano.edu.br Métodos Índices de agregação Métodos de quantificação da dependência especial Correlograma Variograma Métodos
Leia maisCOKRIGAGEM. Aplicação da cokrigagem
COKRIGAGEM Procedimento geoestatístico segundo o qual diversas variáveis regionalizadas podem ser estimadas em conjunto, com base na correlação espacial entre si. É uma extensão multivariada do método
Leia maisAnálise de variância para experimentos com dependência espacial entre parcelas: abordagem autoregressiva e Geoestatística
Análise de variância para experimentos com dependência espacial entre parcelas: abordagem autoregressiva e Geoestatística Diogo Francisco Rossoni (DES/UEM) Cristina Henriques Nogueira (DEX/UFLA) Renato
Leia maisAnálise de Regressão EST036
Análise de Regressão EST036 Michel Helcias Montoril Instituto de Ciências Exatas Universidade Federal de Juiz de Fora Regressão sem intercepto; Formas alternativas do modelo de regressão Regressão sem
Leia maisARTIGO 2. KRIGAGEM E INVERSO DO QUADRADO DA DISTÂNCIA PARA INTERPOLAÇÃO DOS PARÂMETROS DA EQUAÇÃO DE CHUVAS INTENSAS
ARTIGO 2. KRIGAGEM E INVERSO DO QUADRADO DA DISTÂNCIA PARA INTERPOLAÇÃO DOS PARÂMETROS DA EQUAÇÃO DE CHUVAS INTENSAS Análise conceitual de dados 1. Estrutura de dados: Xi: coordenadas das 140 estações
Leia maisEconometria IV Modelos Lineares de Séries Temporais. Fernando Chague
Econometria IV Modelos Lineares de Séries Temporais Fernando Chague 2016 Estacionariedade Estacionariedade Inferência estatística em séries temporais requer alguma forma de estacionariedade dos dados Intuição:
Leia maisInferência Estatistica
Inferência Estatistica Ricardo Ehlers ehlers@icmc.usp.br Departamento de Matemática Aplicada e Estatística Universidade de São Paulo Modelos e Inferência Um modelo é uma simplificação da realidade (e alguns
Leia mais4 Modelos de Regressão Dinâmica
4 Modelos de Regressão Dinâmica Nos modelos de regressão linear (Johnston e Dinardo, 1998) estudados comumente na literatura, supõe-se que os erros gerados pelo modelo possuem algumas características como:
Leia maisFundação Oswaldo Cruz Escola Nacional de Saúde Pública Departamento de Epidemiologia. Estatística espacial. Áreas
Fundação Oswaldo Cruz Escola Nacional de Saúde Pública Departamento de Epidemiologia Estatística espacial Áreas Áreas Na análise de áreas o atributo estudado é em geral resultando de uma contagem ou um
Leia maisTransformações e Ponderação para corrigir violações do modelo
Transformações e Ponderação para corrigir violações do modelo Diagnóstico na análise de regressão Relembrando suposições Os erros do modelo tem média zero e variância constante. Os erros do modelo tem
Leia maisInferência Bayesiana Exata para Processos de Cox Level-Set
Inferência Bayesiana Exata para Processos de Cox Level-Set Bárbara da Costa Campos Dias 1 Flávio Bambirra Gonçalves 2 Resumo Este trabalho propõe uma metodologia de inferência exata para processos de Cox
Leia maisANÁLISE VARIOGRÁFICA. A Geoestatística é baseada nos seguintes conceitos: Funções aleatórias. Variável regionalizada.
ANÁLISE VARIOGRÁFICA A Geoestatística é baseada nos seguintes conceitos: Funções aleatórias Variável regionalizada Estacionariedade 1 2 No espaço (2D) ocorrem infinitos valores de uma variável. Por amostragem
Leia maisEconometria em Finanças e Atuária
Ralph S. Silva http://www.im.ufrj.br/ralph/especializacao.html Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Maio-Junho/2013 Modelos condicionalmente
Leia maisMetodologia de inversão
6 Metodologia de inversão Nesta tese, a transformação de velocidades em pressão de poros é encarada como um problema de inversão. Pela natureza do problema, essa transformação apresenta caráter não único
Leia maisRedes Neurais. A Rede RBF. Redes RBF: Função de Base Radial. Prof. Paulo Martins Engel. Regressão não paramétrica. Redes RBF: Radial-Basis Functions
Redes RBF: Função de Base Radial Redes Neurais A Rede RBF O LP é baseado em unidades que calculam uma função não-linear do produto escalar do vetor de entrada e um vetor de peso. A rede RBF pertence a
Leia maisA análise de séries temporais é uma área da estatística dedicada ao estudo de dados orientados no tempo (MONTGOMERY, 2004).
3 Séries temporais A análise de séries temporais é uma área da estatística dedicada ao estudo de dados orientados no tempo (MONTGOMERY, 2004). 3.1. Princípios fundamentais Conforme Box et al. (1994), uma
Leia maisO uso de técnicas geoestatísticas na espacialização da argila do solo
O uso de técnicas geoestatísticas na espacialização da argila do solo Elisângela Aparecida de Oliveira 1 Tiago Egídio Barreto 2 Ricardo Ribeiro Rodrigues 3 1 Introdução O termo estatística espacial é utilizado
Leia maisIncerteza local e incerteza espacial SIMULAÇÃO
Incerteza local e incerteza espacial SIMULAÇÃO Situações em que o interesse na avaliação da incerteza não se resume a um ponto, mas a um conjunto de pontos simultaneamente. Com a krigagem é possível a
Leia maisSéries Temporais e Modelos Dinâmicos. Econometria. Marcelo C. Medeiros. Aula 9
em Econometria Departamento de Economia Pontifícia Universidade Católica do Rio de Janeiro Aula 9 Data Mining Equação básica: Amostras finitas + muitos modelos = modelo equivocado. Lovell (1983, Review
Leia maisFundação Oswaldo Cruz Escola Nacional de Saúde Pública Departamento de Epidemiologia. Estatística espacial. Padrão Pontual
Fundação Oswaldo Cruz Escola Nacional de Saúde Pública Departamento de Epidemiologia Estatística espacial Padrão Pontual Padrão de Pontos A análise de padrão de pontos, é o tipo mais simples de análise
Leia maisInterpolação. Interpolação. Padrões de amostragem. Autocorrelação. Padrões de amostragem. Padrões de amostragem
Sistemas de Informação Geográfica II Interpolação 1. Interpolação Autocorrelação Padrões de amostragem Validação de resultados Interpolação Predição do valor de atributos em pontos não-amostrados Tempo
Leia maisAnálise e Previsão de Séries Temporais Aula 1: Introdução às séries temporais. Eraylson Galdino
Análise e Previsão de Séries Temporais Aula 1: Introdução às séries temporais egs@cin.ufpe.br Agenda Séries Temporais: Definições Exemplos Modelos simples com média zero: Ruído I.I.D Processo Binário Random
Leia maisCONHECIMENTOS ESPECÍFICOS
CONHECIMENTOS ESPECÍFICOS 2003 2004 2005 2006 2007 2008 2009 2010 X 39,0 39,5 39,5 39,0 39,5 41,5 42,0 42,0 Y 46,5 65,5 86,0 100,0 121,0 150,5 174,0 203,0 A tabela acima mostra as quantidades, em milhões
Leia maisANÁLISE DE SÉRIES TEMPORAIS
ANÁLISE DE SÉRIES TEMPORAIS Ralph S. Silva http://www.im.ufrj.br/ralph/seriestemporais.html Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Estimação
Leia maisTécnicas computacionais em probabilidade e estatística II
Técnicas computacionais em probabilidade e estatística II Universidade de São Paulo Instituto de Matemática e Estatística http:www.ime.usp.br/ mbranco AULA 1: Problemas Computacionais em Inferência Estatística.
Leia maisAnálise de Regressão Linear Simples e
Análise de Regressão Linear Simples e Múltipla Carla Henriques Departamento de Matemática Escola Superior de Tecnologia de Viseu Introdução A análise de regressão estuda o relacionamento entre uma variável
Leia maisESTATÍSTICA COMPUTACIONAL
ESTATÍSTICA COMPUTACIONAL Ralph dos Santos Silva Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Sumário Introdução Solução de equações não lineares
Leia maisProf: Felipe C. V. dos Santos
Prof: Felipe C. V. dos Santos Goiânia 04, 03 2016 PONTIFICIA UNIVERSIDADE CATÓLICA DE GOIÁS DEPARTAMENTO DE ENGENHARIA CURSOS DE ENGENHARIA CIVIL E AMBIENTAL HIDROLOGIA APLICADA Prof. M. Sc. Felipe Corrêa
Leia maisESTATÍSTICA COMPUTACIONAL
ESTATÍSTICA COMPUTACIONAL Ralph dos Santos Silva Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Sumário Escolha de modelos Até aqui assumimos que z
Leia maisModelos para Séries Temporais Aula 1. Morettin e Toloi, 2006, Capítulo 2 Morettin, 2011, Capítulo 2 Bueno, 2011, Capítulo 2
Modelos para Séries Temporais Aula 1 Morettin e Toloi, 2006, Capítulo 2 Morettin, 2011, Capítulo 2 Bueno, 2011, Capítulo 2 Modelos para Séries Temporais Os modelos utilizados para descrever séries temporais
Leia maisLaboratório Nº 5. A geoestatística permite descrever a continuidade espacial, a qual é uma característica
Laboratório Nº 5 INTRODUÇAO A geoestatística permite descrever a continuidade espacial, a qual é uma característica essencial de muitos fenómenos naturais. Modelos inferenciais para este objetivo vêm sendo
Leia maisMOQ-13 PROBABILIDADE E ESTATÍSTICA. Professor: Rodrigo A. Scarpel
MOQ-13 PROBABILIDADE E ESTATÍSTICA Professor: Rodrigo A. Scarpel rodrigo@ita.br www.mec.ita.br/~rodrigo Programa do curso: Semanas 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 e 16 Introdução à probabilidade (eventos,
Leia maisANÁLISE DE SÉRIES TEMPORAIS
ANÁLISE DE SÉRIES TEMPORAIS Ralph S. Silva http://www.im.ufrj.br/ralph/seriestemporais.html Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Definição
Leia mais7 Conclusões e desenvolvimentos futuros
7 Conclusões e desenvolvimentos futuros 7.1 Conclusões Este trabalho apresentou novas soluções para a determinação da posição de terminais de comunicações móveis com base em medidas de ToA. Nos métodos
Leia mais2 Modelos Não Lineares
Modelos Não Lineares 17 2 Modelos Não Lineares 2.1. Introdução Nos últimos anos, muitos modelos não-lineares para a análise de séries temporais têm sido propostos. Na econometria clássica, os modelos de
Leia maisIncerteza local e incerteza espacial SIMULAÇÃO
Incerteza local e incerteza espacial SIMULAÇÃO Situações em que o interesse na avaliação da incerteza não se resume a um ponto, mas a um conjunto de pontos simultaneamente. Com a krigagem é possível a
Leia maisESTATÍSTICA COMPUTACIONAL
ESTATÍSTICA COMPUTACIONAL Ralph dos Santos Silva Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Sumário Se a integração analítica não é possível ou
Leia maisAlguns Aspectos Espaciais da Modelagem de Observações Provenientes das Áreas de SaúdeedoMeioAmbiente
Alguns Aspectos Espaciais da Modelagem de Observações Provenientes das Áreas de SaúdeedoMeioAmbiente Alexandra Mello Schmidt DME - IM - UFRJ Homepage: www.dme.ufrj.br/ alex Seminário Qualidade do Ar e
Leia maisCap. 4 - Estimação por Intervalo
Cap. 4 - Estimação por Intervalo Amostragem e inferência estatística População: consiste na totalidade das observações em que estamos interessados. Nº de observações na população é denominado tamanho=n.
Leia maisSéries Temporais e Modelos Dinâmicos. Econometria. Marcelo C. Medeiros. Aula 12
em Econometria Departamento de Economia Pontifícia Universidade Católica do Rio de Janeiro Aula 12 Regressão com Variáveis Não-Estacionárias Considere três processos estocásticos definidos pelas seguintes
Leia maisUTILIZAÇÃO DE GEOESTATÍSTICA PARA O ESTUDO DO ATRIBUTO COBRE NO SOLO. Gabriel Tambarussi Avancini 1 RESUMO
UTILIZAÇÃO DE GEOESTATÍSTICA PARA O ESTUDO DO ATRIBUTO COBRE NO SOLO Gabriel Tambarussi Avancini 1 RESUMO Este trabalho teve como objetivo estudar a espacialização do atributo cobre, Cu, do solo utilizando
Leia maisGeração de cenários de energia renovável correlacionados com hidrologia: uma abordagem bayesiana multivariada.
Geração de cenários de energia renovável correlacionados com hidrologia: uma abordagem bayesiana multivariada [alessandro@psr-inc.com] Conteúdo Introdução Estimação não paramétrica (Kernel density) Transformação
Leia maisInterpolação. Dr. Marcos Figueiredo
Introdução às Análises Espaciais para Ecologia e Conservação da Biodiversidade (PPGE, PPGBIO) (Graduação em Biologia - IBE 013) Interpolação Dr. Marcos Figueiredo (mslfigueiredo@gmail.com) Tópicos 1. Conceito
Leia maisAULA 07 Inferência a Partir de Duas Amostras
1 AULA 07 Inferência a Partir de Duas Amostras Ernesto F. L. Amaral 10 de setembro de 2012 Faculdade de Filosofia e Ciências Humanas (FAFICH) Universidade Federal de Minas Gerais (UFMG) Fonte: Triola,
Leia maisAjuste do modelo de regressão linear: Inferência Bayesiana, aspectos computacionais e seleção de variáveis.
Ajuste do modelo de regressão linear: Inferência Bayesiana, aspectos computacionais e seleção de variáveis. João Daniel Nunes Duarte a, Vinícius Diniz Mayrink b a Estudante de Graduação, e-mail: joaodaniel@ufmg.br
Leia maisAULA 09 Regressão. Ernesto F. L. Amaral. 17 de setembro de 2012
1 AULA 09 Regressão Ernesto F. L. Amaral 17 de setembro de 2012 Faculdade de Filosofia e Ciências Humanas (FAFICH) Universidade Federal de Minas Gerais (UFMG) Fonte: Triola, Mario F. 2008. Introdução à
Leia mais2 Núcleos: suas propriedades e classificações
2 Núcleos: suas propriedades e classificações O objetivo desse capítulo é o de apresentar as funções núcleos (7), suas propriedades (10) e suas classificações (3). 2.1 Núcleos no espaço de Hilbert Um espaço
Leia maisProcessos Hidrológicos CST 318 / SER 456. Tema 9 -Métodos estatísticos aplicados à hidrologia ANO 2016
Processos Hidrológicos CST 318 / SER 456 Tema 9 -Métodos estatísticos aplicados à hidrologia ANO 2016 Camilo Daleles Rennó Laura De Simone Borma http://www.dpi.inpe.br/~camilo/prochidr/ Caracterização
Leia maisIntrodução à Teoria de Resposta ao Item
Caio L. N. Azevedo, IMECC/Unicamp Dani Gamerman, DME/UFRJ I CONBRATRI, Florianópolis 9 de dezembro de 2009 Parte II Parte 2: Implementação computacional. Análise de dados 1. Modelo de 3 parâmetros via
Leia maisCC-226 Aula 07 - Estimação de Parâmetros
CC-226 Aula 07 - Estimação de Parâmetros Carlos Henrique Q. Forster - Instituto Tecnológico de Aeronáutica 2008 Estimação de Parâmetros Para construir o classificador bayesiano, assumimos as distribuições
Leia maisRedes Neurais e Sistemas Fuzzy
Redes Neurais e Sistemas Fuzzy O ADALINE e o algoritmo LMS O ADALINE No contexto de classificação, o ADALINE [B. Widrow 1960] pode ser visto como um perceptron com algoritmo de treinamento baseado em minimização
Leia maisMulticolinariedade e Autocorrelação
Multicolinariedade e Autocorrelação Introdução Em regressão múltipla, se não existe relação linear entre as variáveis preditoras, as variáveis são ortogonais. Na maioria das aplicações os regressores não
Leia maisBondade do ajuste, análise de resíduos bayesiana em modelos espaciais
Universidade Federal do Rio de Janeiro Departamento de Métodos Estatísticos Curso de Pós-graduação em Estatística Viviana das Graças Ribeiro Lobo Bondade do ajuste, análise de resíduos bayesiana em modelos
Leia maisEconometria. Econometria MQO MQO. Resíduos. Resíduos MQO. 1. Exemplo da técnica MQO. 2. Hipóteses do Modelo de RLM. 3.
3. Ajuste do Modelo 4. Modelo Restrito Resíduos Resíduos 1 M = I- X(X X) -1 X Hipóteses do modelo Linearidade significa ser linear nos parâmetros. Identificação: Só existe um único conjunto de parâmetros
Leia maisModelos de Regressão Linear Simples - parte I
Modelos de Regressão Linear Simples - parte I Erica Castilho Rodrigues 19 de Agosto de 2014 Introdução 3 Objetivos Ao final deste capítulo você deve ser capaz de: Usar modelos de regressão para construir
Leia maisCONHECIMENTOS ESPECÍFICOS
CONHECIMENTOS ESPECÍFICOS A distribuição dos tempos de permanência dos estudantes nos cursos de graduação de certa universidade é uma distribuição normal com média igual a 6 anos e desvio padrão igual
Leia maisTestes de Raiz Unitária para Dados em Painel
Aula 7 Bibliografia: Stata, 2017. help xtunitroot. From Stata/SE 13 (accessed on Oct. 23, 2018). Pesaran, M.H. (2015). Time series and panel data econometrics. Oxford: Oxford University Press. Rafael S.
Leia maisAULAS 14 E 15 Modelo de regressão simples
1 AULAS 14 E 15 Modelo de regressão simples Ernesto F. L. Amaral 18 e 23 de outubro de 2012 Avaliação de Políticas Públicas (DCP 046) Fonte: Wooldridge, Jeffrey M. Introdução à econometria: uma abordagem
Leia maisRepresentação esquemática de estruturas de dados
UNIVERSIDADE DE SÃO PAULO - USP Instituto de Química de São Carlos - IQSC Grupo de Química Medicinal do IQSC/USP 1 Representação esquemática de estruturas de dados 2 1 Tipos de variáveis Contínua Concentração,
Leia maisESTATÍSTICA COMPUTACIONAL
ESTATÍSTICA COMPUTACIONAL Ralph dos Santos Silva Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Sumário Inferência com dimensão variável Modelos com
Leia maisCURSO A DISTÂNCIA DE GEOESTATÍSTICA
CURSO A DISTÂNCIA DE GEOESTATÍSTICA Aula 7: Semivariograma: Definição, Estimativa, Cálculo, Dependência espacial, Parâmetros do semivariograma, Componentes de um semivariograma, Criando (gráfico) um semivariograma,
Leia mais4 Processos Estocásticos e Simulação de Monte Carlo
33 4 Processos Estocásticos e Simulação de Monte Carlo O processo estocástico faz a descrição de uma variável com comportamento ao menos em parte de maneira aleatória através do tempo, onde se assume valores
Leia maisCONHECIMENTOS ESPECÍFICOS
fonte de graus de soma de quadrado variação liberdade quadrados médio teste F regressão 1 1,4 1,4 46,2 resíduo 28 0,8 0,03 total 2,2 A tabela de análise de variância (ANOVA) ilustrada acima resulta de
Leia maisTécnicas computacionais em probabilidade e estatística II
Técnicas computacionais em probabilidade e estatística II Universidade de São Paulo Instituto de Matemática e Estatística http:www.ime.usp.br/ mbranco Métodos de Monte Carlo baseados em Cadeias de Markov:
Leia maisUniversidade Federal de Lavras
Universidade Federal de Lavras Departamento de Estatística Prof. Daniel Furtado Ferreira 6 a Lista de Exercícios Teoria da Estimação pontual e intervalar 1) Marcar como verdadeira ou falsa as seguintes
Leia maisEstrutura de covariância espacial multivariada não separável
Estrutura de covariância espacial multivariada não separável Rafael Santos Erbisti Universidade Federal do Rio de Janeiro Instituto de Matemática Departamento de Métodos Estatísticos 2015 Estrutura de
Leia mais2. podemos solucionar problemas não somente probabilisticas, mas tambem qualquer
Aula 3 (21/3/211, 23/3/211). Métodos de Monte Carlo I. Introdução. 1 Teoria ão temos no momento a definição exata de metodos de Monte Carlo. o nosso curso metodos de Monte Carlo vamos chamar metodos computacionais
Leia maisGeoestatística aplicada à agricultura de precisão
Geoestatística aplicada à agricultura de precisão José P. Molin ESALQ/USP jpmolin@usp.br www.agriculturadeprecisao.org.br Objetivo Abordar os conceitos fundamentais relacionados à geoestatistica aplicada
Leia maisINSTITUTO NACIONAL DE PESQUISAS ESPACIAIS. Divisão de Sensoriamento Remoto. Geoprocessamento. Relatório do Laboratório 5: Geoestatistica Linear
INSTITUTO NACIONAL DE PESQUISAS ESPACIAIS Divisão de Sensoriamento Remoto Geoprocessamento Relatório do Laboratório 5: Geoestatistica Linear Fátima Lorena Benítez Ramírez Professores Responsáveis: Dr.
Leia maisREGRESSÃO E CORRELAÇÃO
REGRESSÃO E CORRELAÇÃO A interpretação moderna da regressão A análise de regressão diz respeito ao estudo da dependência de uma variável, a variável dependente, em relação a uma ou mais variáveis explanatórias,
Leia mais3 Especificação Estatística da Dispersão dos Modos de Polarização em Cabos de Fibra Óptica
em Enlaces Ópticos 0 3 Especificação Estatística da Dispersão dos Modos de Polarização em Cabos de Fibra Óptica Teoria básica da especificação estatística da dispersão dos modos de polarização em cabos
Leia maisO método dos mínimos quadrados: análise de regressão
O métodos dos mínimos quadrados é um método famoso para lidar com dados ruidosos. Sua justificativa segue diretamente do método da máxima verossimilhança. Para Y i dados medidos en valores das variável
Leia maisCap. 8 - Intervalos Estatísticos para uma Única Amostra
Intervalos Estatísticos para ESQUEMA DO CAPÍTULO 8.1 INTRODUÇÃO 8.2 INTERVALO DE CONFIANÇA PARA A MÉDIA DE UMA DISTRIBUIÇÃO NORMAL, VARIÂNCIA CONHECIDA 8.3 INTERVALO DE CONFIANÇA PARA A MÉDIA DE UMA DISTRIBUIÇÃO
Leia maisUniversidade Federal do Paraná (UFPR) Bacharelado em Informática Biomédica. Regressão. David Menotti.
Universidade Federal do Paraná (UFPR) Bacharelado em Informática Biomédica Regressão David Menotti www.inf.ufpr.br/menotti/ci171-182 Hoje Regressão Linear ( e Múltipla ) Não-Linear ( Exponencial / Logística
Leia maisRicardo Ehlers Departamento de Matemática Aplicada e Estatística Universidade de São Paulo
Geração de Números Aleatórios Ricardo Ehlers ehlers@icmc.usp.br Departamento de Matemática Aplicada e Estatística Universidade de São Paulo 1 / 61 Simulando de Distribuições Discretas Assume-se que um
Leia maisUso da inferência bayesiana para obtenção de mapas de probabilidades para o Trimestre Chuvoso no Estado da Paraíba
Uso da inferência bayesiana para obtenção de mapas de probabilidades para o Trimestre Chuvoso no Estado da Paraíba Elias Silva de Medeiros a,1, Paulo Justiniano Ribeiro Jr. a a Departamento de Ciências
Leia maisModelos de Regressão Linear Simples parte I
Modelos de Regressão Linear Simples parte I Erica Castilho Rodrigues 27 de Setembro de 2017 1 2 Objetivos Ao final deste capítulo você deve ser capaz de: Usar modelos de regressão para construir modelos
Leia maisAnálise Multivariada Aplicada à Contabilidade
Mestrado e Doutorado em Controladoria e Contabilidade Análise Multivariada Aplicada à Contabilidade Prof. Dr. Marcelo Botelho da Costa Moraes www.marcelobotelho.com mbotelho@usp.br Turma: 2º / 2016 1 Agenda
Leia maisSumário. CAPÍTULO 1 Conceitos preliminares 1. CAPÍTULO 2 Descrição de dados: análise monovariada 47
CAPÍTULO 1 Conceitos preliminares 1 Introdução........................................................1 O que é estatística?.................................................. 4 Papel dos microcomputadores.........................................
Leia maisEspaços Euclidianos. Espaços R n. O conjunto R n é definido como o conjunto de todas as n-uplas ordenadas de números reais:
Espaços Euclidianos Espaços R n O conjunto R n é definido como o conjunto de todas as n-uplas ordenadas de números reais: R n = {(x 1,..., x n ) : x 1,..., x n R}. R 1 é simplesmente o conjunto R dos números
Leia maisEconometria. Econometria: Paradigma. Porque usar econometria? Porque usar econometria?
Econometria: Paradigma Econometria 1. O Paradigma da Econometria 19/8 Fundamentos teóricos Microeconometria e macroeconometria Modelagem comportamental: otimização, oferta de trabalho, equações de demanda,
Leia maisGibbs Sampler para ANOVA e Misturas
Gibbs Sampler para ANOVA e Misturas Renato Assunção - DCC, UFMG Outubro de 014 1 Modelo ANOVA: componentes de variância Suponha que temos K grupos ou classes. Em cada grupo, temos um certo número de dados
Leia maisA Metodologia de Box & Jenkins
A Metodologia de Box & Jenins Aula 03 Bueno, 0, Capítulo 3 Enders, 009, Capítulo Morettin e Toloi, 006, Capítulos 6 a 8 A Metodologia Box & Jenins Uma abordagem bastante utilizada para a construção de
Leia maisInferência. 1 Estimativa pontual de uma média 2 Estimativa intervalar de uma média. Renata Souza
Inferência 1 Estimativa pontual de uma média 2 Estimativa intervalar de uma média Renata Souza Aspectos Gerais A estatística descritiva tem por objetivo resumir ou descrever características importantes
Leia maisAST203-CVR 4-1 AST203-CVR. Observação eletromagnética. Processamento de sinais importante em várias áreas, além da astronomia telecomunicações
Bloco 4 Estatística Atualizado: 2012 4-1 Bibliografia Lena Cap. 4 (parte) - só a inspiração... Wall & Jenkins, Practical statistics for astronomers Brandt Statistical and computacional methods in data
Leia maisEsse material foi extraído de Barbetta (2007 cap 13)
Esse material foi extraído de Barbetta (2007 cap 13) - Predizer valores de uma variável dependente (Y) em função de uma variável independente (X). - Conhecer o quanto variações de X podem afetar Y. Exemplos
Leia maisModelo de Regressão Múltipla
Modelo de Regressão Múltipla Modelo de Regressão Linear Simples Última aula: Y = α + βx + i i ε i Y é a variável resposta; X é a variável independente; ε representa o erro. 2 Modelo Clássico de Regressão
Leia maisCE062c - GAMLSS. Silva, J.P; Taconeli, C.A. 09 de outubro, Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, / 42
CE062c - GAMLSS Silva, J.P; Taconeli, C.A. 09 de outubro, 2018 Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, 2018 1 / 42 Por que GAMLSS? Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro,
Leia maisRevisão de Modelos de regressão. Prof. Thais C O Fonseca - DME, UFRJ
Revisão de Modelos de regressão Prof. Thais C O Fonseca - DME, UFRJ Conteúdo Regressão linear simples Regressão linear múltipla Método de Mínimos Quadrados Introdução a Inferência Bayesiana em Regressão
Leia maisANÁLISE GEOESTATÍSTICA: UMA INTRODUÇÃO. Célia Regina Grego
ANÁLISE GEOESTATÍSTICA: UMA INTRODUÇÃO Célia Regina Grego crgrego@cnpm.embrapa.br CONTEÚDO 1. INTRODUÇÃO 2. ANÁLISE EXPLORATÓRIA 3. SEMIVARIOGRAMA 4. INTERPOLAÇÃO 5. CONSTRUÇÃO DE MAPAS 1. INTRODUÇÃO SURGIMENTO
Leia maisESTATÍSTICA COMPUTACIONAL
ESTATÍSTICA COMPUTACIONAL Ralph dos Santos Silva Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Sumário Considere o problema de encontrar o valor que
Leia maisTécnicas Multivariadas em Saúde. Vetores Aleatórios. Métodos Multivariados em Saúde Roteiro. Definições Principais. Vetores aleatórios:
Roteiro Técnicas Multivariadas em Saúde Lupércio França Bessegato Dep. Estatística/UFJF 1. Introdução 2. Distribuições de Probabilidade Multivariadas 3. Representação de Dados Multivariados 4. Testes de
Leia mais