AMOSTRAGEM PREFERENCIAL EM PROCESSOS ESPACIAIS DISCRETOS: CASOS BERNOULLI E POISSON

Tamanho: px
Começar a partir da página:

Download "AMOSTRAGEM PREFERENCIAL EM PROCESSOS ESPACIAIS DISCRETOS: CASOS BERNOULLI E POISSON"

Transcrição

1 UNIVERSIDADE FEDERAL DO RIO DE JANEIRO INSTITUTO DE MATEMÁTICA DEPARTAMENTO DE MÉTODOS ESTATÍSTICOS AMOSTRAGEM PREFERENCIAL EM PROCESSOS ESPACIAIS DISCRETOS: CASOS BERNOULLI E POISSON Dissertação de mestrado por Ingrid Christyne Luquett de Oliveira 2015

2 Amostragem Preferencial em Processos Espaciais Discretos: casos Bernoulli e Poisson Ingrid Christyne L. de Oliveira Dissertação de Mestrado submetida ao Programa de Pós-Graduação em Estatística do Instituto de Matemática da Universidade Federal do Rio de Janeiro - UFRJ, como parte dos requisitos necessários à obtenção do título de Mestre em Estatística. Aprovada por: Prof a. Alexandra Mello Schmidt Ph.D. - IM - UFRJ - Presidente Prof. Gustavo da Silva Ferreira D.Sc. - ENCE - IBGE Prof. Helio dos Santos Migon Ph.D. - IM - UFRJ Rio de Janeiro, RJ - Brasil 2015 ii

3 O48i Oliveira, Ingrid Christyne Luquett de Amostragem Preferencial em Processos Espaciais Discretos: casos Bernoulli e Poisson / Ingrid Christyne Luquett de Oliveira. - - Rio de Janeiro, f. Orientadora: Alexandra Mello Schmidt. Dissertação (mestrado) - Universidade Federal do Rio de Janeiro, Instituto de Matemática, Programa de Pós-Graduação em Estatística, Estatística Espacial. 2. Amostragem Preferencial 3. Processos Espaciais Discretos. I. Schmidt, Alexandra Mello, orient. II. Título. iii

4 Agradecimentos Sempre me encanto com uma frase que diz Deseje ter asas, mas também raízes. E sua tradução mostra-se clara em minha vida: ainda que eu vá, sempre retornarei ao meu porto seguro, que é a minha família. Agradeço a eles por todo amor a mim dedicado e em nenhum lugar me sentirei tão querida quanto em casa. Sou imensamente grata pela dedicação, inspiração, educação e todos os valores que me foram passados. Se hoje estou aqui, defendendo minha dissertação de mestrado, com toda certeza devo grande parte a eles. Agradeço aos meus pais, Jorge e Valéria, pelo incentivo e por me fazerem acreditar que sempre posso dar um passo adiante. Sei que minha mãe, onde estiver, sorri pelo meu sucesso. Agradeço ao meu irmão, Douglas, pelas incontáveis discussões e por me motivar a ter um olhar mais crítico sobre o mundo. Ao meus avós, tios e primos agradeço por sempre se fazerem presentes e serem parte tão fundamental de mim. Aos mais distantes agradeço por integrarem essa linda família. Aos meus amigos gostaria de gritar obrigada. Obrigada pela paciência, pela parceria, por me ouvirem e me consolarem quando precisei, por me incentivarem e por tantas outras atitudes que me fazem sentir especial por ter pessoas maravilhosas ao meu lado. Aos que dividiram muitas aulas de Estatística e agora dividem minha vida, obrigada! Aos que compartilhavam somente momentos de lazer e sem os quais hoje não vivo, obrigada! Aos amigos de infância, com os quais partilhei todas as fases, obrigada! Aos que mesmo a quilômetros de distância se fazem presentes, obrigada! Agradeço a todos que, à sua maneira, torcem pela minha felicidade. Em especial, agradeço a elas que acompanharam de perto esses anos de mestrado: Anyta, Evelyn, Haydda, Isabel, Juliana F., Juliana G., Marcela, Sabrina e Sarah. Aos queridíssimos Carlos, Mariana e Rafael agradeço pelas horas de estudo, por me motivarem, por compartilharem seu conhecimento, por dividirem comigo boa parte dos dias nesses últimos dois anos, pelas risadas e, principalmente, por me inspirarem. Ficarei feliz por cada conquista de vocês porque conheço o empenho e comprometimento devotados. Obrigada por tornarem essa longa caminhada tão mais leve! À minha orientadora Alexandra M. Schmidt dedico imensa gratidão. Obrigada pela oportunidade de entrar nesse projeto, pela paciência, pelos conselhos profissionais e pessoais, pela disposição em ajudar, pela calma em momentos em que o estresse me imobilizava e por ser uma grande inspiração. Agradeço aos professores do DME/UFRJ pelo compromisso com o conhecimento e pelo esforço em manter um programa de pós graduação de excelência. Agradeço também aos alunos do programa que, de alguma maneira, contribuíram para que essa dissertação tomasse forma. iv

5 Resumo Nos últimos anos, grande destaque tem sido dado ao estudo de eventos georeferenciados. Como consequência, percebe-se uma rápida expansão das metodologias aplicadas à Estatística Espacial. Em particular, problemas geoestatísticos, que consideram fixas as estações de coleta de dados, ganham notoriedade em diferentes áreas do conhecimento como, por exemplo, na análise do nível de poluentes na atmosfera e em estudos climáticos. A escolha dos locais de observação do processo espacial de interesse é comumente norteada por questões práticas, nem sempre obedecendo a critérios rígidos de amostragem. Por essa razão, modelos que não considerem informações sobre a seleção da amostra podem conduzir a conclusões errôneas na inferência e na previsão do processo espacial. Nesse contexto, Diggle et al. (2010) propõem uma classe de modelos que admite a possibilidade de dependência estocástica entre o processo espacial que determina as estações de monitoramento e o processo espacial em estudo. Em virtude da diversidade dos problemas encontrados, a presente dissertação se propõe a estender a metodologia abordada em Diggle et al. (2010) para situações onde as observações são de natureza discreta. Em especial, serão explorados cenários para os quais as distribuições de probabilidade Poisson e Bernoulli parecem descrever bem os dados. A análise dos modelos propostos será conduzida através de dados artificiais, verificando as consequências da omissão de informações sobre a amostragem das estações de monitoramento. Palavras-Chave: Amostragem Preferencial; Processos Espaciais Discretos; Processo Pontual; Geoestatística; v

6 Abstract In recent years, great emphasis has been given to the study of georeferenced events. As a result, a rapid expansion of the methodologies applied to Spatial Statistics became notorious. In particular, geostatistical problems, those that consider fixed stations to data collection, gain notoriety in different knowledge areas such as in the climate analysis or in researches about the level of pollutants into the atmosphere. The choice of observation spots to the spatial process is commonly guided by practical issues, not always according to strict sampling criteria. Due to this reason, models that do not consider information about the sample selection can lead to erroneous conclusions over inference and prediction of the spatial process. In this context, Diggle et al. (2010) proposed a class of models that admits the possibility of stochastic dependence between the spatial process that establishes the monitoring stations and the spatial process under investigation. Due to the diversity of problems encountered, this dissertation proposes to extend the methodology discussed in Diggle et al. (2010) for situations where the observations are discrete. In particular, will be explored scenarios in which Poisson and Bernoulli probability distributions seems to describe the data properly. The analysis of the proposed models will be conducted through artificial data by checking the consequences of omitting information about the sampling process of monitoring stations. Keywords: Preferential Sampling; Discrete Spatial Processes; Point Process; Geoestatistics; vi

7 Sumário 1 Introdução Inferência Bayesiana Estimação Pontual Estimação Intervalar Previsão Inferência via simulação estocástica Métodos de Monte Carlo via Cadeias de Markov Amostrador de Gibbs Algoritmo de Metropolis-Hastings Modelos Lineares Modelos Lineares Generalizados Organização da dissertação Processos Espaciais Geoestatística Inferência Bayesiana em Geoestatística Processos Pontuais Espaciais Modelos para Processos Pontuais Espaciais Inferência via discretização espacial Amostragem Preferencial Estudo de Simulação Amostragem Preferencial em Processos Espaciais Discretos Modelos Lineares Espaciais Generalizados Modelo Poisson Estudo de Simulação Modelo Bernoulli Estudo de simulação Discussão e conclusões 60 vii

8 Referências Bibliográficas 63 viii

9 Lista de Tabelas 3.1 Estimativas de θ Funções de ligação Estimativas de θ - Modelo Poisson (cenário 1) Estimativas de θ - Modelo Poisson (cenário 2) Estimativas de θ - Modelo Poisson (cenário 3) Erro de previsão global - Modelo Poisson (cenário 3) Estimativas de θ - Modelo Bernoulli (cenário 2) Estimativas de θ - Modelo Bernoulli (cenário 3) Erro de previsão global - Modelo Bernoulli (cenário 3) ix

10 Lista de Figuras 2.1 Exemplos de arranjos pontuais Histograma a posteriori de µ Histogramas a posteriori de σ 2, τ 2 e φ Histogramas a posteriori de α e β Previsão de S em D Histogramas a posteriori de µ, σ 2 e φ - Modelo Poisson (cenário 1). As linhas verticais tracejadas correspondem aos respectivos valores verdadeiros dos parâmetros Previsão de S em D - Modelo Poisson (cenário 1) Histogramas a posteriori de µ, σ 2 e φ - Modelo Poisson (cenário 2). As linhas verticais tracejadas correspondem aos respectivos valores verdadeiros dos parâmetros Histogramas a posteriori de α e β - Modelo Poisson (cenário 2) Previsão de S em D - Modelo Poisson (cenário 2) Intervalos de 95% de credibilidade de θ para o modelo sob amostragem preferencial com M = 400 sub-regiões (modelo 1) e com M = 225 sub-regiões (modelo 2). As linhas tracejadas correspondem aos respectivos valores verdadeiros dos parâmetros Histogramas a posteriori para o modelo sem considerar a amostragem preferencial (modelo ) - Modelo Poisson (cenário 3) Previsão de S em D - Modelo Poisson (cenário 3) Histogramas a posteriori de µ, σ 2 e φ - Modelo Bernoulli (cenário 1) Histogramas a posteriori de α e β - Modelo Bernoulli (cenário 1) Previsão de S em D - Modelo Bernoulli (cenário 1) Histogramas a posteriori para o modelo com 400 sub-regiões - Modelo Bernoulli (cenário 3) Histogramas a posteriori para o modelo com 225 sub-regiões - Modelo Bernoulli (cenário 3) Histogramas a posteriori para o modelo sem considerar a amostragem preferencial - Modelo Bernoulli (cenário 3) Previsão de S em D para os modelos I e II - Modelo Bernoulli (cenário 3) x

11 4.16 Previsão de S em D - Modelo Bernoulli (cenário 3) xi

12 Capítulo 1 Introdução A análise de eventos espacialmente referenciados ganhou bastante destaque nos últimos anos. A área da Estatística que abrange o estudo desses eventos é conhecida como Estatística Espacial e engloba diversos métodos quantitativos para inferência e previsão de processos cuja localização de observação dos dados é relevante. Em particular, a Geoestatística é uma sub-área da Estatística Espacial na qual os dados são obtidos pela observação do processo espacial contínuo S = {S(x) : x R d } em um conjunto de localizações x = (x 1,..., x n ) finito e fixo numa região de interesse D R d. Em geral, os principais objetivos da Geoestatística são inferir sobre processos contínuos em D e prever tais processos para uma nova localização x 0 D, baseados na amostra x. A escolha de x é comumente guiada por questões de ordem prática como, por exemplo, em estudos de poluentes atmosféricos onde pode haver a necessidade de alocar estações de monitoramento próximas a prováveis fontes de poluição e/ou em áreas de maior densidade populacional. Desta forma, alocar x de maneira a capturar valores altos (ou baixos) de S pode levar a estimativas e previsões viesadas. Em grande parte da literatura em Geoestatística, os modelos para S tratam as localizações x i como fixas de acordo com um desenho amostral ou assumem que o processo pontual X que determina x é estocasticamente independente de S. Assim, modelos geoestatísticos assumem, implicitamente, que a escolha das localizações x i ocorre de maneira não preferencial, não havendo beneficiamento de nenhuma sub-região em D. Recentemente, muita atenção tem sido dada ao tema. Diggle et al. (2010) admitem dependência entre o processo pontual X e o processo espacial S, que está sendo modelado. Mais especificamente, assume-se que X, condicional a S, é um processo de Poisson não homogêneo com função de intensidade λ(x) = exp{α + βs(x)}. A dependência estocástica entre X e S define o conceito de amostragem preferencial. Motivados por contextos em que a variável de interesse Y não segue distribuição de probabilidade normal, mesmo sob tranformações, nosso estudo se propõe a estender a metodologia apresentada em Diggle et al. (2010) para cenários onde Y tem natureza discreta e seu valor esperado E[Y ] está associado a S por uma função de ligação g. Abordaremos os casos onde 1

13 Y tem distribuição de probabilidade Poisson e em que Y é binária, apresentando estudos com dados artificiais para as duas situações. Neste capítulo introdutório será apresentada uma breve revisão dos conceitos necessários à compreensão da presente dissertação. As seções nele contidas estão organizadas da seguinte maneira: na Seção 1.1 encontra-se descrito o procedimento de inferência sob o enfoque bayesiano; a Seção 1.2 aborda métodos computacionais aplicados à inferência Bayesiana; em particular apresentaremos os Métodos de Monte Carlo via Cadeias de Markov ao longo da Seção 1.3; na Seção 1.4 estão descritos os conceitos fundamentais sobre modelos lineares generalizados; finalmente, a Seção 1.5 descreve a organização dos capítulos da dissertação. 1.1 Inferência Bayesiana Nesta seção serão apresentados os principais conceitos relacionados ao procedimento de inferência Bayesiana. Considere Y uma variável aleatória (ou vetor aleatório) cuja função de probabilidade é denotada por p(y θ), onde θ é um parâmetro (ou um vetor de parâmetros) que caracteriza a distribuição de probabilidade de Y. O valor de θ não é conhecido e, em geral, desejamos estimá-lo. Sob o enfoque bayesiano, podemos atribuir nossa incerteza acerca de θ associando a ele uma distribuição de probabilidade p(θ), chamada distribuição a priori. Uma vez obtida uma amostra de Y, denotada por y = (y 1,..., y n ), podemos combinar, via teorema de Bayes, a informação da função de verossimilhança p(y θ) com a distribuição a priori de θ, obtendo a distribuição a posteriori de θ, p(θ y). atualização da informação sobre θ é obtida pela expressão com p(y) = p(θ y) = Θ p(y, θ)dθ = onde Θ é o conjunto de todos os possíveis valores para θ. Pelo teorema de Bayes, a p(y θ)p(θ), (1.1) p(y) Θ p(y θ)p(θ)dθ, Como p(y) não depende de θ, podemos reescrever (1.1) como p(θ y) p(y θ)p(θ). (1.2) A influência dos componentes p(y θ) e p(θ) sobre a distribuição a posteriori p(θ y) depende do peso dado à distribuição a priori bem como do tamanho da amostra. Em resumo, quanto maior o valor de n mais peso é dado à p(y θ) e, em contrapartida, quanto mais informativa for a distribuição a priori mais peso será dado à p(θ) na distribuição a posteriori de θ. A inferência sobre o parâmetro θ é baseada fundamentalmente nas informações contidas na distribuição a posteriori, distribuição esta que contém toda a informação probabilística acerca 2

14 de θ. Entretanto, existem situações em que deseja-se resumir a informação contida em p(θ y), o que pode ser feito através de medidas resumo como mediana e variância ou através de intervalos de probabilidade. Nas Subseções e estão descritos os procedimentos de estimação pontual e intervalar, respectivamente Estimação Pontual A estimação pontual é o caso mais simples e é utilizado quando se deseja sintetizar toda a informação contida na distribuição a posteriori em um único valor. Podemos então pensar na estimação pontual como um problema de decisão, onde os elementos que compõem esse problema são: espaço de parâmetros Θ; espaço de possíveis resultados do experimento Ω; espaço das possíveis ações A; Uma regra de decisão δ é uma função definida em Ω que assume valores em A, ou seja, δ : Ω A. Para cada regra de decisão δ(y), y Ω, e para cada θ Θ associamos uma função perda, L(δ, θ), que pode ser interpretada como uma medida de punição ao tomarmos a decisão δ(y), quando o verdadeiro valor do parâmetro é θ. O risco associado a δ corresponde ao valor esperado da perda com respeito à distribuição a posteriori, e é dado por R(δ) = E θ y [L(δ, θ)]. Um estimador pontual ótimo de θ é aquele que minimiza, segundo uma função perda L(δ, θ), o risco esperado de δ. Em particular, temos a seguir algumas funções perda que são largamente utilizadas: Perda absoluta: L(δ(y), θ) = θ δ(y) Perda quadrática: L(δ(y), θ) = (θ δ(y)) T (θ δ(y)) Perda 0-1: L(δ(y), θ) = { 1, se θ δ(y) ɛ 0, se θ δ(y) < ɛ, para ɛ > 0 arbitrário. 3

15 Os estimadores ótimos obtidos com a minimização de R(δ) para cada função de perda dada anteriormente são: Perda absoluta: Perda quadrática: ˆθ ˆθ tal que p(θ y)dθ = 0.5 (mediana a posteriori) ˆθ = E(θ y) (média a posteriori) Perda 0-1: ˆθ tal que p(ˆθ y) = supθ Θ p(θ y) (moda a posteriori) O valor obtido para ˆθ após a observação da amostra y é chamado de estimativa de θ Estimação Intervalar Uma desvantagem inerente ao processo de estimação pontual encontra-se no fato dele resumir toda a informação disponível na distribuição a posteriori em um único valor. Desta forma não é possível mensurar o quão precisa é a estimativa pontual. Uma alternativa é associar alguma medida de incerteza a essa estimativa. Podemos, por exemplo, associar a variância amostral ao estimador dado pela média amostral. Nesta subseção será apresentada uma outra abordagem, que consiste em encontrar um intervalo de valores extraídos da distribuição a posteriori que mantenha um equilíbrio entre a amplitude do intervalo e a probabilidade a ele associada. A esse intervalo chamamos intervalo de credibilidade. Migon et al. (2014) definem um intervalo de credibilidade da seguinte maneira: Seja θ uma quantidade desconhecida definida em Θ. A região C Θ consiste em uma região de 100(1 α)% de credibilidade para θ se a probabilidade P (θ C y) 1 α. Nesse caso, 1 α é dito o nível de credibilidade ou confiança. A amplitude do intervalo nos informa sobre a dispersão dos valores de θ. Desta forma, deseja-se que α e C sejam pequenos. Quanto menor C mais concentrada é a distribuição a posteriori. Em alguns casos, a desigualdade P (θ C y) 1 α pode ser substituída pela igualdade, o que implica que a região C será a menor possível. Cabe a ressalva que os intevalos de credibilidade são invariantes a transformações um a um. Assim, se C é um intervalo de 100(1 α)% de credibilidade para θ e φ = g(θ) é uma tranformação biunívoca, então g(c) é um intervalo de 100(1 α)% de credibilidade para φ Previsão Sob a ótica Bayesiana, o processo de previsão de observações futuras é conduzido através da obtenção da distribuição preditiva. Suponha que desejamos prever uma nova observação y 0 condicionalmente ao vetor de ob- 4

16 servações y. A distribuição preditiva de y 0 é dada por p(y 0 y) = = = Θ Θ Θ p(y 0, θ y)dθ p(y 0 θ, y)p(θ y)dθ p(y 0 θ)p(θ y)dθ, (1.3a) (1.3b) (1.3c) com a última igualdade válida somente se y 0 e y forem independentes condicionais a θ. Note que a equação (1.3c) corresponde à esperança de p(y 0 θ) com respeito à distribuição a posteriori. Desta forma, podemos reescrever a distribuição preditiva avaliada em y 0 como p(y 0 y) = E θ y [p(y 0 θ)]. 1.2 Inferência via simulação estocástica Todo o procedimento de inferência sob a abordagem Bayesiana é conduzido com base na distribuição a posteriori. Existem, porém, situações onde p(θ y) pode ser complexa a ponto de não ser possível obtê-la analiticamente. Entretanto, esse problema pode ser contornado obtendo-se amostras da distribuição a posteriori através de métodos de simulação estocástica. Entre os métodos de simulação mais utilizados em inferência Bayesiana encontram-se os métodos de Monte Carlo via cadeias de Markov (MCMC). Enquanto a Seção 1.3 consiste em uma breve introdução ao métodos MCMC, as Subseções e apresentam o algoritmo de Gibbs e o algoritmo de Metropolis-Hastings, respectivamente. Ambos são casos particulares destes métodos e são amplamente empregados em inferência Bayesiana. 1.3 Métodos de Monte Carlo via Cadeias de Markov Um método de Monte Carlo via Cadeias de Markov para simulação de uma distribuição p é definido como qualquer método que produza uma cadeia de Markov ergódica (θ t ) cuja distribuição estacionária seja p (Robert e Casella, 2004). Uma cadeia de Markov (θ t ) é uma sequência de variáveis aleatórias θ 0, θ 1,..., θ t,... tal que a distribuição de θ k+1 dados todos os valores anteriores θ 0,..., θ k depende apenas de θ k. Matematicamente escreve-se P (θ k+1 A θ 0, θ 1,..., θ k ) = P (θ k+1 A θ k ), para qualquer k. Cadeias de Markov são ditas ergódicas se são aperiódicas e recorrentes positivas. Resumidamente, uma cadeia de Markov é 5

17 aperiódica: se, com probabilidade 1, nenhum dos seus estados é visitado após d passos, para qualquer d > 0 inteiro; recorrente positiva: quando o número médio de passos para que uma cadeia retorne a qualquer estado é finito; Considere θ = (θ 1,..., θ p ) o vetor de parâmetros do modelo em estudo, com função de densidade conjunta p(θ) = p(θ 1,..., θ p ). Considere, ainda, que q(θ, θ ) define a distribuição condicional das transições entre os estados θ e θ. Além da condição de ergodicidade, a cadeia de Markov deve ter probabilidades de transição invariantes no tempo (condição de homogeneidade) e probabilidade positiva de transição de um estado para qualquer outro estado em um número finito de iterações (condição de irredutibilidade). Satisfeitas todas as condições explicitadas acima, garantimos a existência da distribuição estacionária p e, após um número finito de iterações, podemos tomar os estados como uma amostra aproximada de p. Em especial, em inferência Bayesiana a distribuição estacionária da qual desejamos amostrar é a distribuição a posteriori de um vetor paramétrico de interesse θ. Nas subseções que seguem estão descritos os dois métodos MCMC mais utilizados: Amostrador de Gibbs e Algoritmo de Metropolis Hastings Amostrador de Gibbs O amostrador de Gibbs foi originalmente proposto por Geman e Geman (1984) e, posteriormente, popularizado por Gelfand e Smith (1990). Trata-se de um esquema iterativo de amostragem de uma cadeia de Markov cujas probabilidades de transição são formadas pelas distribuições marginais condicionais dos elementos θ i do vetor paramétrico θ. Denote por p(θ i θ i ) a função de densidade condicional de θ i, onde θ i = (θ 1, θ 2,..., θ i 1, θ i+1,..., θ p ). A ela chamamos densidade condicional completa de θ i, sendo obtida a partir da função de densidade conjunta p(θ). Podemos, então, descrever o algoritmo da seguinte forma: 1. Inicialize o contador de iterações em j = 1 e atribua valores iniciais θ (0) = (θ (0) 1,..., θ(0) p ); 6

18 2. Obtenha um novo valor θ (j) a partir de θ (j 1) sucessivamente usando θ (j) 1 p(θ 1 θ (j 1) 2,..., θ (j 1) p ) θ (j) 2 p(θ 2 θ (j) 1, θ(j 1) 3,..., θ (j 1) p ) θ (j) 3 p(θ 3 θ (j) 1, θ(j) 2, θ(j 1) 4,..., θ (j 1) p ). θ (j) p p(θ p θ (j) 1, θ(j) 2,..., θ(j) p 1 ); 3. Mude o contador de j para j + 1 e retorne ao passo 2. Repita os passos 2 e 3 até obter a convergência da cadeia. Este algoritmo destaca-se quando as distribuições condicionais completas são distribuições de probabilidade conhecidas e assume-se que é possível amostrar dessas distribuições facilmente Algoritmo de Metropolis-Hastings Outro método de Monte Carlo via Cadeias de Markov bastante utilizado é o algoritmo de Metropolis-Hastings (proposto em Metropolis et al. (1953) e Hastings (1970)), usualmente aplicado a situações onde não conhecemos a distribuição condicional completa p(θ i θ i ). Este algoritmo é baseado no uso de uma distribuição auxiliar, conhecida como distribuição proposta, da qual é mais fácil obter uma amostra. Em linhas gerais, o procedimento consiste em amostrar um valor da distribuição proposta e aceitá-lo ou não de acordo com uma probabilidade α. Considere uma densidade p( ) da qual desejamos simular e uma densidade proposta q( ). O algoritmo de Metropolis - Hastings produz uma cadeia de Markov (θ t ) através dos seguintes passos: 1. Inicialize o contador de iterações em j = 1 e atribua valores iniciais θ (0) = (θ (0) 1,..., θ(0) p ); 2. Sorteie um valor proposto θ prop da densidade proposta q(θ prop θ (j 1) ); 3. Tome θ (j) = { θ prop, com probabilidade α θ (j 1), com probabilidade 1 α, onde { } α = min 1, p(θprop )q(θ (j 1) θ prop ) p(θ (j 1) )q(θ prop θ (j 1) ; ) 7

19 4. Mude o contador de j para j + 1 e retorne ao passo 2. Repita sucessivamente até obter a convergência da cadeia. Não há unanimidade quanto à taxa de aceitação ótima para o algoritmo de Metropolis- Hastings. A sintonização da variância da distribuição proposta q será baseada no método apresentado em Roberts e Rosenthal (2009), procurando manter a taxa de aceitação em torno de 44%. Uma característica interessante do algoritmo de Metropolis-Hastings é que a distribuição da qual desejamos amostrar só precisa ser conhecida a menos de uma constante de proporcionalidade, uma vez que componentes constantes da função de densidade serão canceladas em p(θ prop )q(θ (j 1) θ prop ) p(θ (j 1) )q(θ prop θ (j 1) ). Dizemos que a convergência da cadeia de Markov foi atingida quando a partir de determinada iteração K a cadeia aproxima-se de um estado de estacionariedade. Existem diferentes formas disponíveis na literatura para avaliação da convergência das cadeias. Uma delas é baseada na inspeção visual da amostra, onde analisamos se a trajetória da cadeia de Markov torna-se homogênea a partir de determinada iteração. Neste estudo, a convergência das cadeias será avaliada somente via inspeção visual. Passadas as K primeiras iterações, denominado período de aquecimento, podemos tomar as iterações restantes como uma amostra da função de densidade p( ). Por se tratar de uma cadeia de Markov, nossa amostra é aleatória mas não independente. Em alguns casos onde a autocorrelação das cadeias é alta, é possivel retirar uma subamostra sistemática para compor uma nova amostra e lidar com o problema de autocorrelação. Métodos MCMC são, portanto, uma ferramenta de grande importância para amostragem de distribuições de probabilidade complexas, permitindo a inferência acerca dos parâmetros. 1.4 Modelos Lineares Em diversos contextos estamos interessados em estudar se o comportamento de uma determinada variável é influenciado por outra variável ou mesmo por um conjunto de variáveis. A estrutura desta relação pode assumir diferentes formas e, em alguns casos, apresenta comportamento linear. Os modelos que assumem estrutura linear entre variável resposta e variáveis explicativas são chamados modelos de regressão ou modelos lineares e são descritos por Y i = Z i β + ɛ i, onde i {1,..., n}, Y i é a variável resposta, ɛ i o erro do modelo, Z a matriz de dimentsão n (p + 1) cujas colunas Z i correspondem às p variáveis explicativas, incluindo uma coluna de uns associada ao intercepto do modelo, e β é o vetor com os coeficientes de regressão. Usualmente assume-se que ɛ i N(0, τ 2 ). Deste modo, condicionado aos coeficientes de 8

20 regressão temos que Y i N(Z i β, τ 2 ). O problema em assumir que a variável resposta Y i segue uma distribuição de probabilidade normal é que dificilmente em situações reais encontramos dados que sigam de fato esta distribuição. Existem ainda problemas em que a variável resposta assume valores discretos ou está definida somente para um subconjunto de R e, portanto, a distribuição normal não corresponderá à distribuição dos dados. Para casos em que a distribuição de probabilidade normal não pode ser assumida para descrever o comportamento de Y i utilizamos modelos mais gerais, que admitem que Y i assuma outra distribuição de probabilidade, aos quais chamamos modelos lineares generalizados (MLG) Modelos Lineares Generalizados Modelos lineares generalizados são uma classe de modelos estatísticos que compreendem modelos lineares e não lineares com a distribuição de Y i pertencente à família exponencial. Nessa seção daremos uma introdução a esses modelos, todavia maior aprofundamento sobre o tema pode ser encontrado em McCullagh e Nelder (1989). Uma família de distribuições com função de densidade p(y θ) pertence à família exponencial com r parâmetros se p(y θ) puder ser escrito como r p(y θ) = a(y) exp U j (y)ψ j (θ) + b(θ), y W R, j=1 onde W não depende de θ. A família exponencial engloba diversas distribuições conhecidas, como, por exemplo, a Binomial, Normal, Poisson, Exponencial entre outras e é de grande importância. Os modelos lineares generalizados são estruturados em três componentes: Componente aleatória: especifica a distribuição de probabilidade de Y i condicional aos valores das variáveis explicativas X ji, com E(Y i ) = µ i. A distribuição de probabilidade de Y i deve pertencer à família exponencial. Componente sistemática: consiste numa função linear das variáveis explicativas da forma ν i = Z i β, sendo ν i conhecida como preditor linear. Função de ligação: função monótona e derivável g que transforma a esperança E(Y i ) em um preditor linear: 9

21 g(µ i ) = ν i = Z i β. Como g é monótona e derivável, existe a função inversa g 1 dada por µ i = g 1 (ν i ) = g 1 (Z i β). Deste modo, os MLGs podem ser pensados como um modelo linear para uma transformação de E(Y i ) = µ i ou como uma regressão não linear da variável resposta. 1.5 Organização da dissertação Este texto é composto por mais 4 capítulos. O Capítulo 2 apresenta uma revisão de Estatística Espacial, em particular, Processos Pontuais e Geoestatística. Nele são descritos os conceitos fundamentais para a compreensão do tema central desta dissertação que é a amostragem preferencial, abordada no Capítulo 3. Estudos simulados com dados de contagem sob efeito de amostragem preferencial encontram-se no capítulo 4. Por fim, o Capítulo 5 apresenta as conclusões e aponta possíveis caminhos para extensão deste estudo. 10

22 Capítulo 2 Processos Espaciais Diferentes áreas do conhecimento, como arqueologia, meio-ambiente, geografia, entre outras, estudam processos que são observados em localizações fixas de uma região de interesse. Estudos dessa natureza visam compreender os processos espacias que governam as variáveis de interesse, buscando padrões significativos na região estudada. Também é de grande interesse a previsão desses processos em localizações não observadas. Com o grande crescimento da literatura de modelos estatísticos para análise de processos espaciais nos últimos anos, nos tornamos capazes de lidar com problemas cada vez mais complexos. Um processo estocástico é definido por um conjunto {W k } k K de variáveis aleatórias, indexado por K. Processos espaciais são processos estocásticos onde K é uma região no espaço R d. Considere D R d uma região de interesse e x i D certa localização onde um processo espacial {Y (x) : x D} será observado. Na maioria das aplicações a região D é bidimensional, porém encontramos também aplicações na reta e, com o avanço tecnológico, é possível obter observações em que d = 3. Como abordado em Cressie (1993), os processos espaciais podem ser classificados em três tipos: Dados de área: a região de interesse D R d é fixa, mas particionada em um número finito de áreas com fronteiras bem definidas. Neste caso, x i corresponde a uma subregião de D e Y (x i ) é a variável aleatória a ela associada. Com este tipo de observação é possível investigar a relação entre as diversas partições de D. Exemplos: dados econômicos agregados por municípios, número de casos de uma doença por estados. Geoestatística: Y (x i ) é a variavel aleatória de interesse observável na localização x i D. Nesse contexto, o conjunto de localizações x = (x 1,..., x n ) é fixo e discreto. É comum assumir que o vetor Y = (Y (x 1 ),..., Y (x n )) T tem distribuição de probabilidade normal, sendo esses modelos amplamente utilizados em virtude das propriedades da distribuição gaussiana. Exemplos: medições de temperatura e medições do nível de dióxido de carbono (CO 2 ) em estações de monitoramento. 11

23 Processos Pontuais: processos onde a localização da ocorrência do evento é aleatória, ou seja, o conjunto de pontos x é aleatório. Estamos interssados, com esse tipo de observação, em estudar se o processo espacial tende a formar regiões no espaço onde haja aglomeração de ocorrências ou se ele se comporta homogeneamente ao longo de D. Na prática, é possível encontrar contextos onde uma variável Y (x i ) seja observada em x i, i = 1,..., n. Exemplos: localizações de ocorrência de crimes, localizações de foco de incêndio. Concentraremos nosso estudo em modelos geoestatísticos e modelos para processos pontuais. 2.1 Geoestatística Seja S(x) um processo espacial de interesse. A coleção de variáveis aleatórias {S(x) : x D R d } consiste em um processo estocástico indexado por x. Como exemplo de dados geoestatísticos para d = 2, suponha que S(x i ) é a pressão atmosférica medida em uma estação de monitoramento x i = (x 1i, x 2i ), onde x 1i é a latitude e x 2i é a longitude. Observaremos S(x) em um conjunto finito de localizações x = {x 1,..., x n }, ou seja, os dados serão uma realização parcial do processo espacial S(x) em x. Baseados nessa realização, podemos inferir sobre esse processo além prevê-lo em um ponto arbitrário x 0 D. Assuma que a média do processo aleatório S(x) existe para todo x D e denote-a por E[S(x)] = µ(x). Suponha que a variância de S(x), V ar[s(x)], também existe para todo x D. Um processo estocástico {S(x) : x D R d } é dito gaussiano se para todo conjunto finito de pontos x = (x 1,..., x n ), x D, e qualquer n = 1, 2,..., o vetor (S(x 1 ),..., S(x n )) tem distribuição normal multivariada. O processo gaussiano S(x) é completamente especificado por sua média µ(x) e por sua função de covariância Cov(S(x i ), S(x j )), para todo x i, x j x. Denotamos por S(x) P G {µ(x), Σ}, o processo gaussiano com vetor de médias µ(x) e matriz de covariâncias Σ com entrada (i, j) dada por Cov(S(x i ), S(x j )). Duas suposições usualmente atribuídas aos processos espaciais são estacionariedade e isotropia. Um processo é dito estritamente estacionário se suas distribuições finito-dimensionais são invariantes à translações. Matematicamente, estacionariedade significa que [S(x 1 ),..., S(x n )] = [S(x 1 + h),..., S(x n + h)], para quaisquer x i e x i + h D, i = 1,..., n e [ ] representando uma distribuição de probabilidade. Quando essa suposição é verificada, tem-se média e variância constantes para todas as distribuições unidimensionais, ou seja, µ(x) = µ e V ar[s(x)] = σ 2, x D. Além disso, um processo é dito intrinsicamente estacionário se E[S(x + h)] = E[S(x)] 12

24 V ar[s(x + h) S(x)] = 2γ(h), x, x + h D, onde γ(h) é uma função condicionalmente negativa definida chamada de semivariograma. Menos restritiva, a estacionariedade de segunda ordem ou estacionariedade fraca pressupõe que a média do processo é constante para todo x D, ou seja, µ(x) = µ, x D, e a covariância entre dois pontos x i e x j D quaisquer, condicionada ao vetor paramétrico ψ, é dada por Cov(S(x i ), S(x j ); ψ) = C( x i x j ; ψ), somente dependendo da diferença entre as duas localizações. No contexto de processos gaussianos, a estacionariedade de segunda ordem implica em estacionariedade estrita visto que esses processos estão completamente especificados por seu primeiro e segundo momentos. Se a função de correlação entre dois pontos x i e x j em D não depender da direção de x i x j, ou seja, for invariante a rotações no espaço, dizemos que o processo é isotrópico. Desta forma, podemos escrever a função de correlação C(x i, x j ; ψ) em função do comprimento do vetor de diferença entre os pontos x i e x j, denotado por x i x j. Caso contrário, o processo é dito anisotrópico. Quando um processo é intrinsicamente estacionário e isotrópico, diz-se que o processo é homogêneo (Smith, 1996). Por outro lado, se pelo menos uma dessas suposições não é satisfeita o processo é dito heterogêneo. Processos homogêneos têm função de covariância entre S(x i ) e S(x j ), x i, x j D dada por Cov(S(x i ), S(x j )) = C( x i x j ; ψ), e, portanto, a variância do processo é constante ao longo de D. Deste modo, podemos escrever a função de covariância de S(x) como C(x i, x j ; ψ) = σ 2 ρ( x i x j ; ψ), onde V ar[s(x)] = σ 2 e ρ( ; ψ) é uma função de correlação válida. Dizemos que uma função de correlação é válida se for positiva definida, o que significa que devemos ter Σ i Σ j c i c j ρ(s i, s j ; ψ) 0 para quaisquer c i, c j R. Nota-se a conveniência de processos homogêneos, uma vez que a estrutura de covariância de S(x) apenas necessita dos parâmetros σ 2 e ψ para ser modelada. Verificar a validade de uma função de correlação não é uma tarefa fácil e, por essa razão, é 13

25 comum a opção por aquelas já conhecidas. Existem diversas famílias de funções de correlação na literatura, sendo alguns dos principais modelos paramétricos de funções de correlação apresentados em Diggle e Ribeiro (2007). Exemplos de funções de correlação largamente usadas encontram-se a seguir. (a) Família Mátern: ρ(d ij ; ψ) = ( 1 2 λd ij 2 λ 1 Γ(λ) φ ) κ λ ( 2 λd ij φ ), onde ψ = (φ, λ), φ > 0 é o parâmetro de escala, λ > 0 é o parâmetro de forma e d ij = x i x j é a distância euclidiana entre x i e x j. A função κ λ é a função modificada de Bessel do terceiro tipo de ordem λ e Γ( ) é a função gama. Casos particulares da função Matérn ocorrem para λ = 0.5, quando encontramos a função de correlação exponencial, e para λ para o qual temos a função de correlação gaussiana. (b) Família Exponencial Potência: ( ) ρ(d ij ; ψ) = exp dκ ij, φ onde ψ = (φ, κ) com φ > 0 e κ (0, 2], d ij é a distância euclidiana entre os pontos x i e x j. Quando k = 1 temos o caso particular da função de correlação exponencial enquanto para k = 2 temos a função de correlação exponencial potência quadrática ou gaussiana. O grau de suavidade de um processo espacial é um aspecto importante, sendo matematicamente descrito pelo grau de diferenciabilidade do processo. Em processos gaussianos, a especificação da família de função de correlação deve ser cautelosa, pois nesse contexto a suavidade do processo está diretamente relacionada à diferenciabilidade da estrutura de covariância. Processos espaciais com função de correlação gaussiana são extremamente suaves uma vez que ρ( ; φ, κ) é infinitamente diferenciável para κ = 2. Para a família Mátern, o parâmetro λ controla a suavidade do processo. por Em particular, em nosso estudo utilizaremos a função de correlação exponencial definida onde d ij = x i x j. { ρ(d ij ; φ) = exp d } ij, φ Inferência Bayesiana em Geoestatística Suponha que um processo espacial {Y (x) : x D} é observado em um conjunto de localizações x = (x 1,..., x n ) fixadas em D, resultando em uma amostra aleatória y = (y(x 1 ),..., y(x n )) T. Seja o modelo para Y (x) escrito como 14

26 Y = 1µ + S(x) + ɛ, (2.1) onde Y = (Y (x 1 ),..., Y (x n )) T é a realização de do processo Y em x, 1 = (1,..., 1) T de dimensão n 1 e µ uma média global para o processo Y (x). O componente ɛ = (ɛ(x 1 ),..., ɛ(x n )) T é uma realização do processo espacial {ɛ(x) : x D}, independente de S, e cuja variância é usualmente chamada efeito pepita. O processo S consiste em um efeito aleatório, fornecendo ajuste local para a média e é interpretado como o componente que captura a estrutura espacial em D, enquanto ɛ pode ser interpretado como um erro de medição ou erro de microescala, com E[ɛ(x i )] = 0 e V ar[ɛ(x i )] = τ 2. Podemos interpretar Y como uma versão de S(x) com ruído. Para simplicar a notação, denotaremos Y (x i ) por Y i. É comum encontrarmos problemas geoestatísticos que associem S(x) e ɛ a processos gaussianos ou a uma mistura de processos gaussianos devido às facilidades e à ampla literatura sobre { eles. Em nosso estudo assumiremos que S(x) N n 0, σ 2 } { R n e ɛ Nn 0, τ 2 } I n, onde os elementos da matriz de correlações de S(x) são dados por R n (i, j) = ρ(d ij ; θ), d ij é a distância euclidiana entre x i e x j, I n é a matriz identidade de dimensão n n e 0 = (0,..., 0) T uma matriz de zeros com dimensão n 1. Sob o enfoque Bayesiano, traduzimos nossa incerteza acerca dos parâmetros especificando a distribuição a priori para o vetor paramétrico θ = (µ, φ, σ 2, τ 2 ), nos tornando capazes de inferir sobre o mesmo. Combinamos, então, a informação contida na função de verossimilhança com a distribuição a priori p(θ) através do teorema de Bayes e obtemos a função de densidade à posteriori p(θ y). Assumiremos que p(θ) = p(µ)p(φ)p(σ 2 )p(τ 2 ). Usualmente, atribui-se distribuição Gama para o parâmetro de alcance φ, à variância de S σ 2 e ao efeito pepita τ 2 enquanto para µ a distribuição Normal é assumida. É interessante dar pouco peso às distribuições a priori e, por essa razão, especificam-se distribuições pouco informativas para θ. O modelo é completamente especificado por Y S(x), µ, τ 2 N ( 1µ + S(x), τ 2 ) I n S(x) σ 2, φ N ( 0, σ 2 ) R n φ Gama (a φ, b φ ) σ 2 Gama (a σ, b σ ) τ 2 Gama (a τ, b τ ) µ N ( 0, σµ) 2, onde R n (i, j) = ρ(d ij ; φ). Ocasionalmente será usada a notação Σ n = σ 2 R n. 15

27 A função de verossimilhança para esse modelo é dada por l(y; θ, S(x)) = p(y S(x), µ, τ 2 ) = (2π) n 2 τ 2 I n 1 2 exp { 1 } 2 (y 1µ S(x))T (τ 2 I n ) 1 (y 1µ S(x)) { (τ 2 ) n 2 exp 1 } 2τ 2 (y 1µ S(x))T (y 1µ S(x)). Pelo teorema de Bayes, combinando l(y; θ, S(x)) com p(θ) obtemos a densidade a posteriori para o modelo na equação (2.1) como p(θ y) l(y; θ, S(x)) p(s(x) σ 2, φ) p(θ) { (τ 2 ) n 2 exp 1 } 2τ 2 (y 1µ S(x))T (y 1µ S(x)) { (σ 2 ) n 2 Rn 1 2 exp 1 } 2σ 2 S(x)T Rn 1 S(x) { φ aφ 1 exp { b φ φ} (σ 2 ) aσ+1 exp b } σ { (τ 2 ) aτ +1 exp b } τ τ 2 exp { µ2 da qual simularemos através de Métodos de Monte Carlo via Cadeias de Markov. Usando distribuições Gama para τ 2 e σ 2 temos distribuições a posteriori conjugadas, ou seja, temos que as distribuições condicionais completas desses parâmetros também são distribuições Gama. O mesmo ocorre para µ ao atribuirmos uma distribuição normal para p(µ). Deste modo, temos as seguintes distribuições condicionais completas: σ 2 µ }, ( n [σ 2 y, S(x)] Gama 2 + a σ, S(x)T Rn 1 ) S(x) + b σ 2 ( n [τ 2 y, µ, S(x)] Gama 2 + a τ, (y 1µ ) S(x))T (y 1µ S(x)) + b τ 2 n σµ 2 {y i S(x i )} [µ y, τ 2, S(x)] N i=1 σµτ 2 2 nσµ 2 + τ 2, nσµ 2 + τ 2. σ 2 Como S é normalmente distribuído, temos que a condicional completa de S conjuga com sua distribuição a priori, sendo normalmente distribuída com matriz de covariâncias Σ S = { (τ 2 I n ) 1 + (σ 2 R n ) 1} 1 16

28 e vetor de média (τ 2 I n ) 1 (y T µ)σ S. Amostras das condicionais completas de τ 2, σ 2, µ e S podem ser obtidas via Amostrador de Gibbs. A distribuição a posteriori de φ, entretanto, não possui forma analítica fechada e para amostrar φ a posteriori precisaremos do algoritmo de Metropolis-Hastings. A condicional completa de φ é dada por { onde R n (i, j) = exp p(φ y, S(x), σ 2 ) R n 1 2 d ij φ } e d ij = x i x j. φ a φ 1 exp { S(x)T Rn 1 } S(x) 2σ 2 b φ φ, O algoritmo de Metropolis-Hastings exige a especificação de uma função de densidade proposta. Seguindo Ferreira e Gamerman (2015), adotaremos a seguinte densidade proposta φ prop φ Lognormal ( log(φ) + δ/2, δ ), onde δ representa o quão distante o valor proposto pode estar do valor corrente de φ. Devemos escolher δ de forma a obtermos uma taxa de aceitação razoável para φ. Suponha que, além de inferir sobre S, estamos interessados na previsão desse processo em um conjunto de pontos x = (x 1,..., x N ) não observados em D. Denotaremos por S a realização de S em x, ou seja, S = (S(x 1 ),..., S(x N )). p(s y), que é dada por p(s y) = Θ S p(s, S, θ y) ds dθ Devemos obter a distribuição preditiva de = Θ S p(s S, y, θ) p(s θ) p(θ y) ds dθ (2.2) = Θ S p(s S, θ) p(s θ) p(θ y) ds dθ. Podemos escrever p(s S, θ, y) = p(s S, θ), pois S é independente de Y para S e θ dados. Note que, por se tratar de uma realização do processo Gaussiano S, a distribuição de S também é normal multivariada com média 0 e matriz de covariância Σ N = σ 2 R N. Assim, temos que ( S S ) {( ) [ θ 0 = N, 0 Σ N Σ N,n Σ n,n Σ n ]}, onde Σ N,n é a matriz de covariâncias entre os pontos de x e x cujos elementos são dados por 17

29 Σ N,n (i, j) = ρ(x i, x j; φ), para i = 1,..., N e j = 1,..., n. Por propriedades da distribuição normal multivariada e por contas provenientes da álgebra linear, temos que [S y] segue uma distribuição normal multivariada com vetor de médias e matriz de covariâncias dados, respectivamente, por e E[S y] = Σ N,n (τ 2 I n + Σ n ) 1 (y 1µ) (2.3) V ar[s y] = Σ N Σ N,n (τ 2 + Σ n ) 1 Σ n,n. (2.4) Apesar da integral em (2.2) não possuir solução analítica, podemos aproximá-la usando métodos de Monte Carlo. Uma vez obtida uma amostra da posteriori de θ usando as distribuições condicionais completas descritas anteriormente, podemos calcular p(s y) como K p(s y) p(s S k, θ k ), k=1 onde k corresponde à k-ésima iteração do MCMC. 2.2 Processos Pontuais Espaciais Um processo pontual espacial X é um mecanismo estocástico que governa o conjunto de localizações de ocorrência de um fenômeno em determinada região D do espaço. Uma realização desse processo x = (x 1, x 2,..., x n ) é chamado arranjo pontual ou padrão de pontos e cada localização x i é dita um evento. Usualmente lidamos com processos espaciais que satisfazem as suposições de estacionariedade e isotropia. Processos isotrópicos e estacionários consistem em processos que são, respectivamente, invariantes sob rotação e translação. Na prática, essas suposições são menos rigorosas pois nem sempre são realistas. Os conceitos de média e covariância de processos pontuais espaciais são definidos em função dos efeitos de primeira e segunda ordens. As propriedades de primeira ordem são descritas pela função intensidade λ(x) e estão relacionadas ao número esperado de eventos por unidade de área no ponto x. A função intensidade é definida por λ(x) = lim dx 0 { E[N(x)] dx }, (2.5) onde dx é a área de uma região infinitesimal dx em torno de x e E[N(dx)] denota o valor esperado de N(dx), o número de eventos em dx. Para processos estacionários temos que λ(x) = λ. Similarmente, a função de intensidade de segunda ordem mensura os efeitos de segunda ordem e é definida por 18

30 λ 2 (x i, x j ) = lim dx i, dx j 0 { E[N(dxi )N(dx j )] dx i dx j A função λ 2 (x i, x j ) pode ser interpretada como uma medida de dependência entre localizações. No contexto de processos estacionários e isotrópicos, a função de intensidade de segunda ordem se resume a λ 2 (x i, x j ) = λ 2 ( x i x j ), onde x i x j é a distância euclidiana entre as localizações x i e x j. Em Diggle (2003), os padrões de pontos são divididos em basicamente três categorias: regulares, agregados ou aleatórios, ilustrados na Figura 2.1. No padrão aleatório, também conhecido como aleatoriedade espacial completa, não há nenhuma associação entre os eventos, sendo uma realização aleatória do processo espacial na região de estudo D. Na Figura 2.1(a) observa-se a ausência de estrutura espacial das localizações. A Figura 2.1(b) exemplifica o padrão regular de pontos. Neste arranjo, existe uma distância entre os pontos que sugere a presença de um mecanismo onde a ocorrência de um evento x i em determinada região repele a ocorrência de eventos próximos. Um arranjo agregado caracteriza-se pela presença de agrupamentos de eventos no espaço. Observa-se que a ocorrência de um evento em uma localização x i torna mais provável a observação de outros eventos na vizinhança de x i. Este comportamento de agregação está claro na Figura 2.1(c). }. (a) Aleatório (b) Regular (c) Agregado Figura 2.1: Exemplos de arranjos pontuais Desejamos, portanto, compreender o mecanismo estocástico gerador dos arranjos pontuais em estudo. Um caminho é através de modelos paramétricos. Os principais modelos são apresentados na Subseção Modelos para Processos Pontuais Espaciais O processo de Poisson homogêneo representa o mecanismo estocástico mais simples para a geração de arranjos pontuais espaciais e trata-se da base da construção da teoria de processos 19

31 pontuais espaciais. Esta seção descreve o processo de Poisson homogêneo e os processos pontuais espaciais que são originados diretamente neste processo, com ênfase nos processos de Cox log gaussiano que constituem parte fundamental na metodologia de amostragem preferencial. Processo de Poisson homogêneo O processo de Poisson caracteriza-se por possuir uma função de intensidade constante no espaço e por não haver interação espacial entre eventos. Este processo é definido pelas seguintes propriedades (Diggle, 2003): Para algum λ > 0 e uma região D R d, a variável aleatória N(D), correspondente ao número de eventos na região D, segue uma distribuição Poisson com média λ D. Dado N(D) = n, os n eventos em D formam uma amostra aleatória independente de uma distribuição uniforme em D. Para quaisquer duas regiões disjuntas D e D R d, as variáveis aleatórias N(D) e N(D ) são independentes. O parâmetro λ correponde à intensidade do Processo de Poisson. Como não existe associação espacial entre eventos, a função de intensidade de segunda ordem torna-se λ 2 (x i, x j ) = λ 2. Pelas propriedades do modelo, a função de verossimilhança não depende da localização dos eventos x = (x 1, x 2,..., x n ) em D resumindo-se a p(x λ) exp { λ D } (λ D ) n. Em grande parte das aplicações o processo de Poisson se mostra pouco realístico. Ainda que os eventos não possuam associação espacial, o pressuposto de homogeneidade em D raramente é satisfeito. Podemos permitir que a intensidade do processo varie deterministicamente no espaço, caracterizando o chamado processo de Poisson não homogêneo, que é descrito a seguir. Processo de Poisson Não Homogêneo Um processo de Poisson não homogêneo é um processo não estacionário obtido pela substituição da intensidade constante λ do processo de Poisson homogêneo por uma função de intensidade que varia ao longo do espaço, denotada por λ(x). Definimos esse processo pelas propriedades: A variável aleatória N(D) segue uma distribuição Poisson com média D λ(x)dx. 20

32 Como no processo de Poisson homogêneo, regiões disjuntas possuem contagens independentes. Dado N(D) = n, o número de eventos n em A formam uma amostra aleatória independente de uma distribuição em D com função de densidade de probabilidade proporcional a λ(x). A função de verossimilhança associada ao processo de Poisson não homogêneo, baseada em um conjunto de n eventos x = (x 1, x 2,..., x n ) é dada por { } n p(x) exp λ(x)dx λ(x i ). D i=1 A aglomeração de eventos pode ocorrer devido à interação espacial entre eventos, caracterizando a existência de efeitos de segunda ordem, mas também devido à heterogeneidade da região em estudo. Do ponto de vista estatístico, a distinção entre agrupamento segundo um mecanismo de atração/repulsão de evento e heterogeneidade somente pode ser sustentada se houver informação adicional disponível, por exemplo, na forma de covariáveis. Pela forma como são definidos, os processos de Poisson não homogêneos com função de intensidade λ(x) produzem grupos de eventos em regiões com intensidade relativamente alta. Um método para simular uma realização de um Processo de Poisson com intensidade λ(x) em uma região D foi apresentado em Lewis e Shedler (1979), onde os autores sugerem um algoritmo baseado em amostragem por rejeição. Em sua forma mais simples, este algoritmo consiste em gerar um processo de Poisson em A com intensidade λ 0 = max x D {λ(x)} e reter um evento x i com probabilidade λ(x i )/λ 0. Processos pontuais espaciais podem apresentar intensidades que sejam estocásticas por natureza. Um processo definido dessa forma é chamado processo de Cox e será apresentado a seguir. Processo de Cox Processos de Cox pertencem à classe de processos duplamente estocásticos formada por processos de Poisson não homogêneos com função de intensidade λ(x) aleatória. Considere Λ = {Λ(x) : x D R d } um processo estocástico não-negativo. Formalmente, dizemos que X é um processo de Cox se para {Λ(x) = λ(x) : x R d }, X é um processo de Poisson não homogêneo com função de intensidade λ(x). O processo pontual será estacionário se, e somente se, o processo de intensidade Λ for estacionário. O mesmo ocorre em relação à isotropia. As propriedades de primeira e segunda ordens são obtidas das propriedades dos processos de Poisson não homogêneos tomando-se a esperança com respeito a Λ(x). No caso estacionário a intensidade de primeira ordem é dada por 21

33 enquanto a intensidade de segunda ordem é λ(x) = E [Λ(x)] λ 2 (x i, x j ) = E [Λ(X i )Λ(X j )]. Em especial, dizemos que X é um processo de Cox log-gaussiano (Moller at al., 1998) ao assumirmos que a função de intensidade de X é dada por Λ(x) = exp{w (x)}, onde {W (x) : x D R d } é um processo Gaussiano. As propriedades de segunda ordem desses processos seguem das propriedades das distribuições log-gaussianas. Neste caso, a função de verossimilhança do processo de Cox log-gaussiano segue diretamente da função de verossimilhança do processo de Poisson não homogêneo, e é dada por onde x = (x 1,..., x n ). { } n p(x W ) exp exp{w (x)}dx exp(w (x i )), (2.6) D i=1 Note que a integral em (2.6) não é tratável analiticamente, pois depende de um número infinito de variáveis aleatórias {W (x) : x D} em todo D. Uma solução para esse problema de intratabilidade é discretizar a região D. Abordaremos esse assunto na Subseção Em princípio, qualquer processo de Cox pode ser simulado primeiro gerando Λ(x) e depois usando o algoritmo de amostragem por rejeição para processos de Poisson não homogêneos descrito anteriormente Inferência via discretização espacial Processos espaciais estão definidos, usualmente, em espaços contínuos. Por esse motivo, a inferência baseada na função de verossimilhança é complicada devido à integral presente na equação (2.6). Na prática, entretanto, podemos aproximar W segmentando D por uma partição ζ = {ζ 1,..., ζ M } onde cada sub-região ζ j tem centróide c j, j = 1,..., M. A partição ζ pode ser obtida de diferentes formas. Uma maneira, adotada em Møller et al. (1998) e Benes et al. (2002), consiste em sobrepor uma grade regular à região de estudo e, então, considerar o número de pontos observados, N j, em cada sub-região ζ j. Por definição do processo de Cox log-gaussiano, N j pode ser considerado uma variável aleatória com distribuição Poisson(λ j ). A região discretizada será a interseção da região D com a grade regular. As subregiões que contém as bordas de D possuem áreas menores, o que deve ser incorporado na modelagem. 22

34 Apesar do uso de partições regulares de D ser amplamente utilizado, encontramos na literatura outras formas de discretização. Um exemplo aparece em Heikkinen e Arjas (1999), onde os autores usam uma partição denominada tesselagem de Voronoi. Em linhas gerais, essa tesselagem origina-se na construção de um polígono ao redor do ponto observado x i que consiste da região de D mais próxima a x i do que a qualquer outro ponto, para i = 1,..., n. Particionar o espaço usando essa tesselagem é interessante quando os arranjos pontuais são agregados, pois ao usar a discretização regular muitas subregiões não contêm nenhum evento. Waagepetersen (2004) demonstra que as posterioris aproximadas dos processos de Cox loggaussianos convergem para as posterioris exatas quando o tamanho das sub-regiões que particionam o espaço tendem a zero. 23

35 Capítulo 3 Amostragem Preferencial Grande parte dos modelos geoestatísticos tratam as localizações x i, onde os dados são observados, como fixadas de acordo com um desenho amostral ou estocasticamente independentes do processo espacial S = {S(x) : x D} (para maior aprofundamento ver, por exemplo, Banerjee et al. (2004)). Nota-se, porém, que em algumas situações a disposição dessas localizações é feita de maneira a favorecer regiões em D R d que sejam mais informativas. A preferência por certas regiões surge em decorrência de inúmeros fatores, podendo ser citados os empecilhos econômicos e políticos, os interesses particulares do estudo, entre outros. Nesses casos, o uso do modelo geoestatístico usual apresentado na Seção 2.1 não parece adequado por não levar em consideração que o conjunto de localizações observadas x = (x 1, x 2,..., x n ) foi escolhido preferencialmente. Nesse contexto, Diggle et al. (2010) caracterizaram o efeito da escolha preferencial por certas sub-regiões de D através da adoção de um modelo para o processo pontual X que determina as localizações x. O artigo apresenta um modelo conjunto para X e S, utilizando o mesmo processo gaussiano tanto na intensidade do processo pontual X, λ(x), quanto na média da distribuição de Y, processo espacial de interesse. Posteriormente, Pati et al. (2011) generalizaram essa abordagem sob a perspectiva Bayesiana, introduzindo covariáveis em λ(x) e na média de Y. O modelo por eles proposto assume processos gaussianos distintos para a intensidade de X e para a média de Y. Assumindo uma abordagem diferente, Gelfand et al. (2012) procuram corrigir o viés introduzido pela preferencialidade admitindo conhecimento substancial sobre os mecanismos que geram o processo espacial Y. Zidek et al. (2014) apresentam uma metodologia para a correção desse viés em estudos de monitoramento ambiental. Mais recentemente, Ferreira e Gamerman (2015) exploraram a alocação ótima de uma nova estação de monitoriamento levando em consideração a amostragem preferencial. Ao admitirmos a possibilidade de dependência estocástica entre X e S, devemos especificar a distribuição conjunta [Y, S, X]. Como descrito em Diggle et al. (2010), dizemos que uma amostragem é não-preferencial quando os processos S e X são independentes e, como consequência, a distribuição conjunta é dada por [Y, S, X] = [S][X][Y S(X)]. No modelo em (2.1), X é tratado como determinístico e [Y, S, X] = [Y, S] = [Y S(x)][S]. 24

36 No caso em que associamos a S um processo Gaussiano, a distribuição [Y S(x)] na equação (2.1) é normal multivariada com média 1µ + S(x) e matriz de covariâncias τ 2 I n. Em contrapartida, definimos como amostragem preferencial aquela onde [S, X] [S][X]. Deste modo, o modelo sob amostragem preferencial assume a existência de um processo pontual X que governa as localizações onde o processo S será observado com ruído, sendo a distribuição de X dependente de S. O interesse principal continua sendo compreender as propriedades de S, com base nos dados (X, Y ), e não diretamente em [S, X]. Entretanto, desejamos nos precaver contra incorreções na inferência de S ao não considerarmos a dependência estocástica entre S e X. Diggle et al. (2010) especificam uma classes de modelos adicionando as seguintes suposições ao modelo geoestatístico apresentado na equação (2.1): 1. Condicional a S, X é um processo de Poisson não homogêneo com intensidade λ(x) = exp (α + βs(x)). 2. Condicional a S e X, Y é um conjunto de variáveis normais mutuamente independentes com Y i ( µ + S(x i ), τ 2). Segue da suposição 1 e do fato de S ser um processo Gaussiano que, incondicional a S, X é um processo de Cox log-gaussiano. A função de verossimilhança do modelo proposto por Diggle et al. (2010) pode ser escrita como L(y, x; θ, S) = p(y, x θ, S) = p(y S, µ, τ 2 ) p(x S, α, β), onde θ = (µ, τ 2, σ 2, α, β) representa o vetor de parâmetros do modelo, y = (y(x 1 ),..., y(x n )) o vetor de valores observados e x = (x 1,..., x n ) o conjunto de localizações onde Y é observado. A obtenção da densidade p(x S, α, β) requer que S esteja disponível para todo x D. Sendo impossível observar S continuamente em D, aproximaremos a região D utilizando uma discretização fina. Deste modo, D será particionada em M sub-regiões com centróides c j, j = 1,..., M. Diggle et al. (2010) adotam uma partição de D onde as sub-regiões contêm no máximo um ponto observado, aproximando L(y, x; θ, S) a partir da partição S = (S 0, S 1 ), onde S 0 denota os valores de S em cada um dos pontos observados x i x e S 1 denota os valores de S nos M n centróides restantes. Generalizando essa abordagem, Ferreira e Gamerman (2015) permitem que as sub-regiões contenham mais de um ponto observado. Em nosso estudo, adotaremos a segunda abordagem. Assumindo que a intensidade é constante dentro das sub-regiões, temos um processo de Poisson homogêneo dentro de cada sub-região com intensidade em função do valor de S(c j ), realização de S no centróide da j-ésima sub-região. O procedimento de inferência será implementado a partir dessa partição de D. 25

37 Substituiremos as localizações exatas x pelo centróide mais próximo, ou seja, pelo centróide da sub-região que contém a localização x i. Assim, S y é o vetor que contém os valores de S referentes às sub-regiões onde observa-se algum ponto x i e S M denota a realização de S em todos os M centróides. Portanto, o modelo completo é escrito como [Y S y, µ, τ 2 ] N(1µ + S y, τ 2 I n ) p(n S M, α, β) M {exp(α + βs M (c j )} n j j=1 M exp j exp(α + βs M (c j )) j=1 (3.1) S M φ, σ 2 N(0, σ 2 R M ), onde j denota o comprimento, área ou volume da sub-região j, de acordo com a dimensão de D, n T = (n 1, n 2,..., n M ) com n j representando o número de pontos observados contidos na M sub-região j e n j = n. Supondo que a partição de D seja regular, temos que j =. Os j=1 elementos da i-ésima linha e da j-ésima coluna de R M são dados por R M (i, j) = ρ(x i, x j ; φ). Simplificando a expressão de p(n S, α, β), encontramos M p(n S, α, β) exp(nα + βn T S) exp eα j exp(βs M (c j )). Sob o enfoque Bayesiano, devemos arbitrar uma densidade de probabilidade para θ que represente nossa incerteza sobre os parâmetros do modelo. Combinada à função de verossimilhança L(y, x; θ, S) obtemos, via teorema de Bayes, a densidade a posteriori j=1 p(s M, θ y, x) L(y, x; θ, S M ) p(θ, S M ) p(y S M, µ, τ 2 ) p(x S M, α, β) p(s M φ, σ 2 ) p(θ). Assumindo independência a priori entre os parâmetros em θ, temos que as distribuições a priori são µ N(0, σµ) 2 τ 2 InversaGama(a τ, b τ ) σ 2 InversaGama(a σ, b σ ) α N(0, σα) 2 β N(0, σβ 2 ) 26

38 φ Gama(a φ, b φ ). Os hiperparâmetros escolhido foram: σ 2 µ = 100, a σ = b σ = 2, σ 2 α = σ 2 β = 200, a φ = 2 e b φ = As distribuições condicionais completas para µ, τ 2, σ 2 são dadas pelas mesmas expressões obtidas para o modelo geoestatístico e estão descritas na Seção Como essas distribuições possuem forma analítica fechada e são conhecidas, a simulação desses parâmetros será feita via Amostrador de Gibbs. O mesmo ocorre com a distribuição condicional completa de φ e sua expressão também está descrita na Seção Porém, como p(φ ) não possui forma fechada, o algoritmo de Metropolis-Hastings será empregado para obter amostras de φ a posteriori. Por outro lado, a distribuição condicional completa de S se altera devido à presença do processo pontual X, que depende de S, sendo dada por { p(s M µ, σ 2, τ 2, φ, α, β, y, x) exp exp [ (y 1µ Sy 2τ 2 ) T (y 1µ S y ) ] } 1 M βnt S e α exp (βs M (c j )) j=1 { exp 1 } 2σ 2 ST MR 1 M S M. Além disso, devemos obter as distribuições condicionais completas para os parâmetros α e β do processo pontual X. Essas distribuições também não possuem forma analítica fechada e podem ser escritas como e M p(α S M, β, x, y) exp nα eα exp (βs M (c j )) α2 j=1 2σ 2 α M p(β S M, α, x, y) exp βst n e α exp (βs M (c j )) β2 O algoritmo de Metropolis-Hastings também será empregado para simular valores das distribuições condicionais completas de S, α e β. Uma vez obtida uma amostra a posteriori para θ através de métodos de Monte Carlo via cadeias de Markov, podemos resumir a informação nela contida com o emprego de medidas resumo. Sob função perda quadrática, por exemplo, temos que a estimativa de θ que minimiza o risco esperado é j=1 2σ 2 β. 27

39 ˆθ = 1 T T θ (t), t=1 onde t é a t-ésima iteração do MCMC, já eliminadas as iterações de aquecimento e dado o espaçamento entre iterações. Na próxima seção apresentaremos um estudo com dados artificiais buscando avaliar se há diferenças significativas ao usarmos um modelo sem considerar a amostragem preferencial quando, de fato, estamos em um contexto onde a amostra foi preferencialmente escolhida. 3.1 Estudo de Simulação Nessa seção conduziremos um estudo simulado com o objetivo de analisar o comportamento do modelo sob amostragem preferencial e compará-lo com o modelo sem usar amostragem preferencial, o qual chamaremos ao longo do texto de modelo não preferencial. A região em estudo é bidimensional e compreende o quadrado D = [0, 100] 2. Os parâmetros do modelo foram escolhidos de maneira que a intensidade do processo pontual X não fosse muito alta, resultando em uma amostra pequena. O vetor paramétrico arbitrado foi (µ, σ 2, τ 2, φ, α, β) = (5, 0.8, 0.1, 20, 6.5, 1.5). Na Figura 3.4(a) temos uma realização do processo gaussiano S juntamente com os pontos observados. A simulação da amostra (y, x) se deu em quatro etapas: 1. Partição da região D em sub-regiões usando uma grade regular de tamanho M = 225; 2. Seja c j o centróide da j-ésima região. { Obtenha} a matriz de covariâncias de S nesses centróides dada por Σ M (i, j) = σ 2 exp ; 3. Simule S M N (0, Σ M ); c i c j φ 4. Para cada sub-região j, simule um processo de Poisson homogêneo com intensidade λ(c j ) = exp{α + βs M (c j )}. O conjunto de localizações decorrentes desse passo formam a amostra x = (x 1, x 2,..., x n ); 5. Amostre de Y x, S, µ, τ 2 N(1µ + S y (x), τ 2 I n ), obtendo a amostra y = (y 1,..., y n ); Como esperado, os pontos observados concentram-se em regiões de D onde o processo gaussiano S atinge valores maiores. Isso se deve ao fato de S governar a log-intensidade do processo de Poisson não homogêneo em D e à escolha de β > 0. As amostras a posteriori para S M e θ foram obtidas via MCMC, sendo computacionalmente custosa a amostragem em virtude da discretização de D. A simulação estocástica foi feita em 500 mil iterações, sendo retiradas as 300 mil primeiras iterações e dado um espaçamento de 50 28

40 iterações entre elementos da amostra a posteriori. Esse processo resultou em uma amostra com 4 mil observações. As Figuras mostram os histogramas das amostras a posteriori para cada um dos parâmetros em θ, tanto para amostras do modelo sob amostragem preferencial quanto para o modelo não preferencial. Começando pela amostra a posteriori de µ, temos na Figura 3.1 os histogramas correspondentes ao modelo sob amostragem preferencial (3.1(a)) e ao modelo sem considerar a amostragem preferencial (3.1(b)). As linhas verticais tracejadas correspondem ao µ verdadeiro, a saber µ = 5. Observa-se que a amostra a posteriori para o modelo preferencial está centrada no valor verdadeiro de µ enquanto o modelo não preferencial parece superestimar esse parâmetro. (a) µ pref (b) µ Figura 3.1: Histograma a posteriori de µ (a) σ 2 pref (b) τ 2 pref (c) φ pref (d) σ 2 (e) τ 2 (f) φ Figura 3.2: Histogramas a posteriori de σ 2, τ 2 e φ 29

41 Na Figura 3.2 apresentamos o comportamento das amostras a posteriori de (σ 2, τ 2, φ). Aqui, a linha superior (3.2(a), 3.2(b), 3.2(c)) corresponde aos histogramas da posteriori para o modelo considerando amostragem preferencial enquanto os gráficos inferiores (3.2(d), 3.2(e), 3.2(f)) ilustram os resultados para o modelo não preferencial. A linha tracejada representa o respectivo valor verdadeiro do parâmetro, ou seja, σ 2 = 0.8, τ 2 = 0.1 e φ = 20. Comparando os resultados para σ 2, verificamos a similaridade entre as amostras da posteriori para o modelo sob amostragem preferencial (Figura 3.2(a)) e para o modelo não preferencial (Figura 3.2(d)), sendo ambas centradas no valor real de σ 2. Conclusões semelhantes ocorrem ao analisarmos τ 2 e φ, os que nos leva a crer que não houve ganho significativo com respeito à inferência ao introduzirmos um processo pontual X para explicar a disposição de x para o presente estudo simulado. Para o modelo sob amostragem preferencial temos ainda os histogramas das distribuições a posteriori de α (Figura 3.3(a)) e de β (Figura 3.3(b)). Note que o modelo parece subestimar ligeiramente o valor de α. Por outro lado, β é superestimado pelo modelo preferencial, ainda que o viés pareça pequeno. O fato do histograma a posteriori de β não apresentar valores muito próximos a zero sugere que a probabilidade a posteriori de β assumir valor zero é nula, indicando preferencialidade na amostragem das localizações x. (a) α (b) β Figura 3.3: Histogramas a posteriori de α e β Na Tabela 3.1 constam as estimativas dos parâmetros tanto sob amostragem preferencial quanto sem considerá-la. Sob função perda absoluta, as estimativas são dadas pela mediana a posteriori para cada um dos parâmetros. Também são fornecidos os intervalos de 95% de credibilidade para θ, sendo q e q os respectivos quantis 2.5% e 97.5% das amostras a posteriori. Podemos notar que as estimativas fornecidas para os parâmetros são ligeiramente divergentes entre os modelos. Além disso, os intervalos de credibilidade para o modelo não preferencial possuem amplitude um pouco maior do que para o modelo sob amostragem preferencial para a maioria dos parâmetros, indicando que o modelo não preferencial é mais incerto. Cabe destacar que o intervalo de 95% de credibilidade para β não inclui o valor zero, nos levando a concluir que há presença de preferência na escolha da amostra x e não levá-la em consideração pode nos conduzir a conclusões errôneas. 30

42 Parâmetro Valor Amostragem Preferencial Amostragem Não Preferencial Verdadeiro Mediana q q Mediana q q µ σ τ φ α β Tabela 3.1: Estimativas de θ A previsão do processo S em novas localizações S também é de grande interesse em estudos espaciais. Deste modo, torna-se interessante investigar se existe diferença significativa na previsão de S ao usarmos o modelo sem considerar amostragem preferencial em lugar do modelo sob amostragem preferencial. Gelfand et al. (2012) sugerem que o efeito da amostragem preferencial é mais destacado na superfície de predição do que na estimação dos parâmetros. A Figura 3.4 mostra a previsão de S nos centróides das M subregiões usando o modelo que considera a amostragem preferencial (Figura 3.4(b)) e o modelo sem considerá-la (Figura 3.4(c)). Observa-se que a superfície predita pelo modelo sob amostragem preferencial diferencia melhor as regiões onde existem pontos observados e, consequentemente, identifica regiões em D onde o processo S assume valores maiores. Como a informação do processo pontual que governa o arranjo de pontos amostrados não é levada em consideração no modelo geoestatístico usual, as predições em novas localizações baseiam-se somente em S y. (a) Realização de S em D (b) Modelo Preferencial (c) Modelo Não Preferencial Figura 3.4: Previsão de S em D Formalmente, podemos comparar os modelos por meio de critérios que levem em consideração o erro de previsão do modelo. Seguindo Gelfand et al. (2012), adotaremos o erro quadrático de predição, que nos fornecerá medidas de desvio local e global. Definimos, primeiramente, o erro de predição local para cada x 0 como EP L(x 0) = E [Ŝ(x 0 ) S(x 0)] 2, 31

43 onde Ŝ(x 0 ) é o preditor de S em x 0. O segundo passo é calcular uma medida global de erro baseada nos erros locais de predição. Essa medida é chamada erro de predição global e tem forma EP G = 1 EP L(x)dx, D D com D correspondendo à área de D = [0, 100] 2. Para a previsão de S nos centróides c = (c 1,..., c M ), o EPG é calculado como EP G = 1 M M (Ŝ(c j) S(c j )) 2. j=1 O modelo sob amostragem preferencial apresentou erro de predição global igual a 0.31 enquanto para o modelo sem considerar amostragem preferencial encontramos EPG igual a Deste modo, parece haver vantagem do modelo sob amostragem preferencial em relação ao modelo geoestatístico usual com respeito à previsão de S. A comparação entre o modelo sob amostragem preferencial e o modelo que não considera esse efeito, realizada nessa seção, nos fornece embasamento para concluir que é importante assumir dependência estocástica entre os processos S e X quando os dados sugerirem que a amostra foi escolhida preferencialmente. O fato de β ter sido significativo nos sugere que devemos considerar um processo gerador das localizações observadas. Além disso, o modelo que considera que a amostra é preferencial fornece previsões que acompanham melhor o verdadeiro processo S, identificando regiões em D onde S assume valores altos. 32

44 Capítulo 4 Amostragem Preferencial em Processos Espaciais Discretos A suposição de que a variável aleatória Y tem distribuição gaussiana não é sempre realista. Na prática, encontramos, por exemplo, observações que são contagens de eventos, variáveis dicotômicas ou dados que tenham natureza contínua porém que sejam extremamente assimétricos. Para esses cenários, assumir que a distribuição de probabilidade normal é a que melhor caracteriza Y não parece razoável. Na Seção 4.1 apresentaremos as formulações gerais sobre modelos lineares espaciais generalizados (MLEG). Em particular, as Seções 4.2 e 4.3 descrevem o procedimento de inferência Bayesiana para os modelos lineares espaciais generalizados para variáveis aleatórias com distribuição Poisson e Bernoulli, respectivamente. Ainda nessas seções, estendemos o modelo sob amostragem preferencial proposto por Diggle et al. (2010) para ambos os contextos e apresentamos estudos com dados artificiais objetivando validar tais modelos. Finalmente, na seção?? discutimos os resultados obtidos para os estudos simulados e apresentamos as conclusões relacionadas à metodologia proposta. 4.1 Modelos Lineares Espaciais Generalizados A Seção 1.4 apresentou os conceitos associados aos modelos lineares generalizados (MLG). Na presente seção estenderemos esses modelos para o caso onde a variável de interesse Y varia ao longo de uma região D R d. Tais modelos são referidos como modelos lineares espaciais generalizados (MLEG). Denotaremos a variável aleatória Y em dada localização x i D como Y i, por simplicidade, e seu valor esperado por E[Y i ]. O MLEG possui estrutura semelhante ao MLG, entretanto no primeiro caso introduzimos um processo espacial S na expressão de E[Y i ]. O processo S = {S(x) : x D} determina a relação espacial do vetor Y = (Y 1,..., Y n ), o qual será observado em um conjunto de localizações x = (x 1,..., x n ). 33

45 A função de ligação g estabelece a forma como E[Y i ] se relaciona a um preditor linear com estrutura espacial. Exige-se que essa função seja monótona e derivável, acarretando na existência da função inversa g 1 tal que E[Y i ] = g 1 (ν i ). Cabe a ressalva que devemos ter Y i com distribuição de probabilidade pertencente à família exponencial, para todo i = 1,..., n. Assumiremos que E[Y i ] é da forma E[Y i ] = µ + S(x i ), onde µ é um nível comum a todas as localizações x i e S(x i ) consiste na realização de S em x i. É prática comum adotar um processo gaussiano para S. Em particular, em nosso estudo consideraremos S P G{0, Σ S }, com Σ S (i, j) = σ 2 ρ ( x i x j ; φ), x i x j a distância euclidiana entre x i e x j e ρ( ) é uma função de correlação válida. Os modelos lineares generalizados mais comumente encontrados na literatura são aqueles onde a variável aleatória Y i segue distribuição Poisson, Bernoulli ou Binomial. A Tabela 4.1 expõe as funções de ligação canônicas g correspondentes a essas distribuições de probabilidade. Distribuição Suporte da distribuição Função de ligação Bernoulli {0, 1} ( ) log µi Binomial 1 µ i N Poisson ln(µ i ) Tabela 4.1: Funções de ligação Formalmente, o modelo linear espacial generalizado para Y i é escrito como Y i p(y i µ i ), i = 1,..., n µ i = g 1 (ν i ), onde ν i = µ + S(x i ) (4.1) S σ 2, φ N n (0, Σ S ), com Σ S (i, j) = σ 2 ρ(d ij ; φ) e d ij = x i x j. Sob o ponto de vista da construção de modelos, ainda verificamos um número reduzido de trabalhos que levem em consideração o efeito de amostragem preferencial na modelagem de dados com estrutura espacial. Nosso estudo se propõe a explorar essa abordagem em contextos para dados que fogem à natureza gaussiana. Em particular, desejamos compreender o comportamento de processos espaciais com distribuição de probabilidade discreta. A especificação do modelo preferencial deve, portanto, levar em consideração a densidade do processo de Cox log-gaussiano X. Acrescentando essa densidade p(x) na Equação (4.1) obtemos 34

46 Y i p(y i µ i ), µ i = g 1 (ν i ), onde ν i = µ + S(x i ) (4.2) p(x α, β, S) n i=1 { {exp (α + βs(x i ))} exp D } exp (α + βs(x)) S σ 2, φ P G(0, Σ S ), onde Σ S (i, j) = σ 2 ρ ( x i x j ; φ). Note que na Equação (4.2) a integral presente na densidade do processo pontual X precisa ser avaliada para todo x D. Como não é possível obter x para D contínuo, particionaremos essa região em grade regular com M células de centróides c j, j = 1,..., M. Denotaremos por S M a realização de S nos M centróides, sendo o conjunto de todos os centróides dado por c = (c 1,..., c M ). Não utilizaremos S nas localizações x i diretamente, ao invés disso, construiremos um vetor S y cujo i-ésimo elemento representa a realização de S no centróide da sub-região que contém x i. Por exemplo, se x i pertencer à sub-região j então S y (x i ) equivale à S M (c j ). Note que, permitindo que mais de um ponto observado caia em cada sub-região, S y poderá conter valores repetidos. Adotando essa notação e aproximando p(x α, β, S) como descrito acima, reescrevemos o modelo em (4.2) como Y i p(y i µ i ) p(n α, β, S M ) µ i = g 1 (ν i ), onde ν i = µ + S y (x i ) (4.3) M M {exp (α + βs M (c j ))} n j exp j exp (α + βs M (c j )) j=1 j=1 S M σ 2, φ N(0, Σ SM ), onde j é a área da j-ésima sub-região (se d = 2), n j corresponde ao número de localizações em x que pertencem à sub-região j e Σ SM (i, j) = σ 2 ρ ( c i c j ; φ). O contexto Bayesiano exige que arbitremos distribuições de probabilidade para os parâmetros 35

47 do modelo que reflitam nossas informações a priori sobre eles. Manteremos as distribuições escolhidas para θ = (µ, σ 2, φ, α, β) como nos capítulos anteriores. Note que o modelo apresentado em (4.3) é essencialmente o mesmo apresentado em (3.1), porém a relação entre Y i e µ i não é linear como anteriormente. A generalização do modelo em (3.1), permitindo que Y i não seja normalmente distribuído, implica no aumento do custo computacional relacionado à simulação da distribuição a posteriori. Para os modelos lineares espaciais generalizados não teremos distribuição conhecida para a condicional completa de µ. Nas seções que seguem são descritos os procedimentos de inferência em MLEG para variáveis com distribuição Poisson e Bernoulli. Apresentaremos também estudos simulados que validem os métodos de simulação estocástica implementados e discutiremos os resultados obtidos para diferentes cenários. 4.2 Modelo Poisson O modelo linear espacial generalizado com variável resposta Poisson, citado eventualmente como MLEG Poisson ao longo do texto, aplica-se a situações onde o processo espacial de interesse {Y (x) : x D R d } tem natureza discreta e consiste em contagens de eventos. É comum obtermos essas contagens ao longo de uma região, caracterizando o que chamamos na Seção 2.1 de dados de área. Problemas como número de casos de dengue em municípios no estado do Rio de Janeiro ou o número de roubos de carro em bairros de São Paulo são exemplos de observações dessa natureza. Entretanto, problemas geoestatísticos também englobam variáveis que possuam distribuição Poisson, como é o caso do estudo conduzido em Rongelap, nas ilhas Marshall, onde foram examinados os níveis de 137 Cs in situ através da contagem de raios γ em 157 localizações ao longo da ilha. O modelo para dados dessa natureza está descrito na equação (4.3) assumindo que o processo Y na localização x i, denotado por Y i, tem distribuição Poisson com intensidade µ i. Sob amostragem preferencial, o MLEG Poisson é dado por Y i µ i Poisson(µ i ) log(µ i ) = µ + S y (x i ) p(n α, β, S M ) M M {exp (α + βs M (c j ))} n j exp i exp (α + βs M (c j )) j=1 j=1 S M σ 2, φ N M (0, Σ SM ), com a entrada (i, j) da matriz de covariâncias Σ SM dada por σ 2 ρ(d ij ; φ), para d ij a distância 36

48 euclidiana entre c i e c j e ρ uma função de correlação válida. A localização c j corresponde ao centróide da j-ésima sub-região usada na aproximação de p(x). Seja x = (x 1, x 2,..., x n ) o vetor de localizações e y = (y 1, y 2,..., y n ) o vetor com os valores observados de Y. Sendo g inversível, obtemos µ i = exp(µ+s y (x i )). A função de verossimilhança para o MLEG Poisson é dada por l (y, n; θ, S M ) = n e µ i µ y i i p(c α, β, S) y i! n e exp(µ+sy(xi)) {exp(µ + S y (x i ))} y i p(c α, β, S) i=1 i=1 n e exp(µ+sy(xi)) {exp(µ + S y (x i ))} y i i=1 M M {exp (α + βs M (c j ))} n j exp i exp (α + βs M (x j )). j=1 O procedimento computacional será realizado como função do logaritmo natural, denotado por log, para reduzir o risco de valores extremamente altos que possam conduzir a erros numéricos. Deste modo, para todas as contas usaremos a log-verossimilhança dada por L (y, n; θ, S M ) = log(l (y, n; θ, S M )) e escrita como j=1 n n L (y, n; θ, S M ) exp {µ + S y (x i )} + y i (µ + S y (x i )) i=1 i=1 M M + n j (α + βs M (c j )) j exp(α + βs M (c j )). j=1 j=1 A inferência bayesiana para esses modelos segue as mesmas etapas descritas ao longo dos capítulos anteriores. Devemos arbitrar prioris para o vetor paramétrico θ = (µ, σ 2, φ, α, β) para, em conjunto com a função de verossimilhança, obtermos a distribuição a posteriori de θ, que nos permitirá inferir sobre os parâmetros. Manteremos a distribuição a priori para θ usada até agora, portanto µ N(0, σµ) 2 σ 2 InversaGama(a σ, b σ ) α N(0, σα) 2 β N(0, σβ 2 ) φ Gama(a φ, b φ ). 37

49 Os hiperparâmetros escolhido foram: σ 2 µ = 100, a σ = b σ = 2, σ 2 α = σ 2 β = 200, a φ = 2 e b φ = As distribuições condicionais completas de σ 2, φ, α e β permancem as mesmas já calculadas no Capítulo 3, uma vez que esses parâmetros não aparecem na distribuição de Y i. A distribuição condicional completa de µ não possui forma analítica fechada, em contraste ao modelo cuja variável resposta tem distribuição gaussiana, sendo dada por p(µ S M, y, x) µ n y i i=1 n i=1 exp(µ + S y (x i )) µ2 2σµ 2. A amostra a posteriori de µ na iteração k será obtida via algoritmo de Metropolis-Hastings, com função de densidade proposta µ k N(µ k 1, γ), com γ a variância do passeio aleatório para µ, fixada de modo que a taxa de aceitação fique em torno de 44%. A distribuição condicional completa de S M também sofre alteração no contexto de variáveis Poisson, visto que S M compõe a função de verossimilhança. Analogamente ao modelo preferencial apresentado no Capítulo 3, temos que p(s M σ 2, φ) n n S y (x i )y i exp(µ + S y (x i )) i=1 i=1 M M βn j S M (c j ) exp(α + βs M (c j )) j=1 j=1 ST M Σ 1 S M S M. 2 Para simular de p(s M σ 2, φ) utilizaremos uma reparametrização de S M, apresentada em Papaspiliopoulos et al. (2007). Em linhas gerais, escrevemos S M = Σ 1/2 S M SM e sorteamos S M ao invés de sortearmos diretamente S M, onde Σ 1/2 S M é a decomposição de Cholesky da matriz de covariâncias Σ SM. Esse procedimento gerou cadeias mais estáveis que a simulação sem utilizar a reparametrização, indicando convergência da cadeia em um número menor de iterações. Elucidado o procedimento de inferência, podemos avançar para o estudo desses modelos com base em dados artificiais. Na Subseção serão apresentados diferentes cenários a fim de compreender o comportamento dos MLEGs com resposta Poisson para algumas combinações de parâmetros e configurações da partição de D Estudo de Simulação Nessa seção serão apresentados estudos simulados com o objetivo de compreender o comportamento do modelo sob amostragem preferencial com resposta Poisson. Diferentes configurações para o vetor paramétrico θ = (µ, σ 2, φ, α, β) serão testadas a fim de explorar se existem mudanças significativas ao considerar a amostragem preferencial em comparação com o modelo 38

50 condicionado a localizações fixas. etapas: A simulação dos dados artificiais envolve, em todos os cenários considerados, as seguintes 1. Partição da região D em sub-regiões usando uma grade regular de tamanho M; 2. Seja c j o centróide da j-ésima sub-região. { Obtenha } a matriz de covariância de S M nesses centróides dada por Σ SM (i, j) = σ 2 exp ; 3. Simule S M N (0, Σ SM ); c i c j φ 4. Para cada sub-região j, simule um processo de Poisson homogêneo com intensidade λ(c j ) = exp{α + βs M (c k )}. O conjunto de localizações decorrentes desse passo formam a amostra x = (x 1, x 2,..., x n ); 5. Amostre de Y i x, S M, µ Poisson(µ i ), com µ i = exp{µ + S(x i )}, obtendo a amostra y = (y 1,..., y n ); De posse da amostra (y, x) podemos inferir sobre o vetor paramétrico θ a partir da distribuição a posteriori. A amostra de θ foi obtida através da distribuição a posteriori via MCMC com 500 mil iterações, das quais retiramos as 100 mil últimas com espaçamento de 50 iterações, originando uma amostra com 2 mil observações. Cabe a ressalva que, apesar de não terem sido apresentadas, todas as cadeias apresentaram um comportamento que sugere convergência. Para cada configuração utilizaremos o modelo sob amostragem preferencial bem como o modelo que não considera o efeito da amostragem preferencial e faremos considerações acerca da estimação dos parâmetros e da previsão da superfície S. Cenário 1: Para o primeiro cenário, os parâmetros do modelo foram escolhidos de forma que a amostra contivesse um grande número de observações iguais a zero. O vetor paramétrico escolhido foi (µ, σ 2, φ, α, β) = ( 2, 0.7, 20, 8, 2). A amostra contém n=17 localizações dentre as quais 11 possuem valor observado Y i = 0. Como β > 0 espera-se que as regiões onde a realização de S assume valores mais altos sejam regiões preferenciais para alocação de estações de monitoramento. De fato, a Figura 4.2(a) corrobora essa crença. Nela temos uma realização do processo S em [0, 100] 2 juntamente aos pontos observados, notando-se que as regiões mais claras do gráfico (regiões onde S tem os maiores valores) possuem maior concentração de pontos observados. Em face da preferencialidade da amostra x por determinadas regiões, gostaríamos de comprovar que o uso de um modelo 39

51 (a) µ pref (b) σ 2 pref (c) φ pref (d) µ (e) σ 2 (f) φ Figura 4.1: Histogramas a posteriori de µ, σ 2 e φ - Modelo Poisson (cenário 1). As linhas verticais tracejadas correspondem aos respectivos valores verdadeiros dos parâmetros. que considere esse efeito é superior no sentido de estimação e previsão do que um modelo que não leva em consideração a amostragem preferencial. Os histogramas da Figura 4.1 ilustram amostras da distribuição a posteriori para os parâmetros µ, σ 2 e φ tanto considerando a amostragem preferencial (4.1(a), 4.1(b) e 4.1(c)) quanto para o modelo que considera as localizações fixas (4.1(d), 4.1(e) e 4.1(f)). Analisando os histogramas percebemos que as amostras a posteriori para o modelo que não considera a amostragem preferencial sugerem certo viés em relação ao valor verdadeiro dos parâmetros. Ainda que os intervalos de 95% de credibilidade contenham seus respectivos valores reais, as amostras a posteriori de µ e φ para o modelo não preferencial concentram-se em valores mais distantes dos verdadeiros se comparado ao modelo sob amostragem preferencial. Para esse segundo modelo notamos que grande parte dos valores da amostra a posteriori encontram-se próximos aos valores reais dos parâmetros, indicando que a inferência forneceu boas estimativas no sentido de estimativas pouco viesadas. A Tabela 4.2 contém as estimativas dos parâmetros usando função perda absoluta, sendo dadas pela mediana da respectiva amostra a posteriori para cada parâmetro. Além disso, nessa tabela encontramos os limites do intervalo de 95% de credibilidade para θ, onde q ɛ corresponde ao quantil 100ɛ% da amostra a posteriori do mesmo. A estimativa de µ para o modelo sob amostragem preferencial é mais próxima do valor real do que para o modelo não preferencial bem como seu respectivo intervalo de 95% de credibili- 40

52 dade possui menor amplitude. O viés para a estimativa de σ 2 também é menor para o modelo sob amostragem preferencial. Sendo as amplitudes dos intervalos de 95% de credibilidade similares para ambos os modelos, concluímos que o modelo que considera a amostragem preferencial possui ligeira vantagem contra o modelo que não a considera. Para φ, o comportamento das estimativas pontuais e intervalares também se mostra bastante semelhante nos dois modelos. Como esperado, o verdadeiro valor de α está incluído no intervalo de 95% de credibilidade associado. Finalmente, a estimativa de β encontra-se bem próxima ao seu valor real e o respectivo intervalo de 95% de credibilidade não contém o zero, sugerindo que a amostra é preferencial e não considerar essa particularidade pode conduzir a conclusões incorretas sobre o modelo. Parâmetro Valor Amostragem Preferencial Amostragem Não Preferencial verdadeiro Mediana q q Mediana q q µ σ φ α β Tabela 4.2: Estimativas de θ - Modelo Poisson (cenário 1) As análises até esse momento consideraram somente as divergências entre os modelos sob o ponto de vista da inferência dos parâmetros. Grande interesse está voltado à previsão do processo S, uma vez que ele explica a relação espacial da variável Y. As superfícies preditas de S nos M centróides das sub-regiões que particionam D encontram-se na Figura 4.2. (a) Realização de S em D (b) Preferencial (c) Não Preferencial Figura 4.2: Previsão de S em D - Modelo Poisson (cenário 1) Análogo às conclusões do estudo simulado para o modelo sob amostragem preferencial com resposta gaussiana apresentado na Seção 3.1, verificamos que as previsões do modelo sob amostragem preferencial aproximam-se da superfície S verdadeira em regiões onde há pontos observados. Em regiões onde não há eventos ambos os modelos têm dificuldade em prever S, o que era esperado uma vez que não há ganho de informação através da amostra nessas regiões. 41

53 No cenário 1, ainda que a amostra y contenha muitos zeros, o modelo que considera a amostragem preferencial se mostrou superior ao modelo que não considera esse efeito de preferência. O modelo preferencial se destaca, principalmente, na previsão da superficie S, sendo capaz de detectar melhor regiões onde S é alto uma vez que considera na previsão o vetor observado (x, y) enquanto o modelo não preferencial baseia-se somente em y, visto que x é suposto fixo. Como medida formal de comparação entre as previsões dos dois modelos usamos, novamente, o erro de previsão global (EPG). O modelo sob amostragem preferencial apresentou EPG igual a 0.39 enquanto o EPG para o modelo sem considerar o efeito da amostragem preferencial foi igual a 0.61, ratificando a conclusão de que é interessante introduzir um processo pontual X na modelagem de Y em contextos onde existe suspeita de preferência por certas regiões de D na alocação da amostra. Cenário 2: Neste segundo estudo simulado, desejamos explorar as mudanças ocorridas na estimação dos parâmetros e na previsão de S numa grade regular quando a variância do processo gaussiano S, a saber σ 2, é aumentada em comparação ao cenário anterior. O vetor paramétrico escolhido mantém os parâmetros φ, α e β inalterados, somente apresentando modificações em µ e σ 2, sendo dado por (µ, σ 2, φ, α, β) = (1.2, 1.5, 20, 8, 2). A escolha de µ foi feita para que a amostra de Y não contivesse uma proporção alta de valores iguais a zero. A simulação dos dados seguiu os passos apresentados no início dessa seção, produzindo uma amostra y com 26 elementos. Nas Figuras 4.3 e 4.4 observamos os histogramas das amostras a posteriori dos parâmetros, obtidas através de métodos de Monte Carlo via Cadeia de Markov. As linhas tracejadas representam o valor arbitrado de cada parâmetro. Na linha superior da Figura 4.3 estão dispostos os histogramas da amostra a posteriori de µ (4.3(a)), σ 2 (4.3(b)) e φ (4.3(c)) considerando o efeito da amostragem preferencial na modelagem de Y, enquanto a linha inferior (Figuras 4.3(d), 4.3(e) e 4.3(f)) apresenta os histogramas a posteriori para o modelo geoestatístico com resposta Poisson. O modelo preferencial parece subestimar µ enquanto o modelo não preferencial parece superestimá-lo, entretanto a estimativa para o primeiro modelo aproxima-se mais do valor verdadeiro do parâmetro. A amostra a posteriori de σ 2 para o modelo preferencial encontra-se centrada no valor verdadeiro, enquanto o modelo não preferencial subestima esse parâmetro. Nesse aspecto, a modelagem que considera o processo pontual ganha destaque quando comparada ao modelo que não o considera. O parâmetro φ apresenta comportamento similar para ambos os modelos. Por fim, na Figura 4.4 estão os histogramas a posteriori para α e β, também centrados nos valores corretos. A Tabela 4.3 contém as estimativas dos parâmetros dos dois modelos em análise. Nela encontramos, ainda, o valor real do parâmetro e os quantis 2.5% (q ) e 97.5% (q ) da distribuição a posteriori, que formam um intervalo de 95% de credibilidade de θ. Como observado na análise dos histogramas, com respeito à estimação de µ o modelo que não considera a 42

54 (a) µ pref (b) σ 2 pref (c) φ pref (d) µ (e) σ 2 (f) φ Figura 4.3: Histogramas a posteriori de µ, σ 2 e φ - Modelo Poisson (cenário 2). As linhas verticais tracejadas correspondem aos respectivos valores verdadeiros dos parâmetros. (a) α (b) β Figura 4.4: Histogramas a posteriori de α e β - Modelo Poisson (cenário 2) amostragem preferencial apresenta desempenho pior que o modelo sob amostragem preferencial, superestimando o parâmetro. Ambos os modelos apresentam desempenho ruim na estimação tanto de µ quanto de σ 2, porém as estimativas pontuais para o modelo sob amostragem preferencial são as que mais se aproximam do valor real do respectivo parâmetro, nos levando a considerar ligeira vantagem para o modelo que considera o processo pontual X na modelagem de Y. A estimativa de φ foi mais próxima ao real valor para o modelo sem considerar amostragem preferencial, no entanto, o intervalo de 95% de credibilidade é mais amplo para esse modelo indicando maior incerteza acerca dessa estimativa. Os parâmetros α e β foram bem 43

55 estimados e a ausência do valor zero no intervalo de 95% de credibilidade para β sugere que a preferencialidade da amostra de X não deve ser ignorada. Parâmetro Valor Amostragem Preferencial Amostragem Não Preferencial verdadeiro Mediana q q Mediana q q µ σ φ α β Tabela 4.3: Estimativas de θ - Modelo Poisson (cenário 2) Sob a perspectiva de inferência verificamos que considerar que as localizações foram escolhidas preferencialmente acarreta em melhoria na estimação dos parâmetros do modelo. Grande parte dos problemas encontrados, entretanto, estão interessados em avaliar a capacidade preditiva dos modelos. Na Figura 4.5(a) temos uma realização do processo gaussiano S em D. Note que a superfície simulada de S apresenta um comportamento bastante irregular ao longo da região, refletindo a maior variabilidade de S devido ao aumento de σ 2. As Figuras 4.5(b) e 4.5(c) mostram a previsão de S nos M = 225 centróides da grade regular que aproxima p(x), para o modelo sob amostragem preferencial e para o modelo sem considerar esse efeito, respectivamente. Analisando as superfíceis preditas percebe-se que ao considerar o processo pontual X na modelagem de Y ganhamos mais informação em regiões onde observamos eventos, o que permite ao modelo identificar melhor regiões onde S assume valores altos. Isso decorre do fato de escolhermos β > 0, implicando que regiões onde S assume maiores valores possuem função de log intensidade maior e, consequentemente, espera-se que mais localizações sejam observadas nessas regiões que em outras regiões de D. Ainda que a previsão de S em regiões de D onde não houve observação de eventos não se mostre muito próxima à superfície verdadeira, a diferença fundamental na capacidade preditiva dos dois modelos aparece claramente em regiões com ocorrência de eventos sugerindo melhor desempenho preditivo para a modelagem sob amostragem preferencial. Formalmente, podemos avaliar a previsão de ambos os modelos usando como medida de comparação o erro de previsão global. Nesse contexto, o modelo que não considera o efeito da amostragem preferencial possui EPG igual a Em contrapartida, assumir que as localizações x são uma realização de um processo pontual reduz o EPG em cerca de 50%, sendo igual a 0.62 para o modelo sob amostram preferencial. Neste cenário, observamos que o aumento na variabilidade de S através de σ 2 provocou estimativas viesadas para ambos os modelos, porém viés maior foi encontrado nas estimativas de µ e σ 2 para o modelo geoestatístico com resposta Poisson. Ao avaliarmos a capacidade preditiva do processo espacial S para ambos os modelos percebemos que o modelo sob amostragem preferencial captura melhor regiões onde S assume valores mais elevados, oferecendo melhores 44

56 (a) Realização de S em D (b) Preferencial (c) Não Preferencial Figura 4.5: Previsão de S em D - Modelo Poisson (cenário 2) previsões nessas regiões. Em vista dessas comparações, concluímos que assumir a presença de um processo pontual não homogêneo para modelar a disposição dos eventos em D é de grande valia quando x sugere preferencialidade, uma vez que melhora o desempenho inferencial e preditivo do modelo geoestatístico. Cenário 3: No cenário 3 desejamos avaliar se o aumento do número de sub-regiões usadas na aproximação da densidade do processo pontual X, presente no modelo sob amostragem preferencial, influencia significativamente a estimação dos parâmetros e a previsão de S. Analisaremos duas grades regulares em [0, 100] 2, uma com 400 sub-regiões com áreas iguais a 25 unidades métricas ao quadrado e outra grade com 225 sub-regiões cada uma com área igual a unidades métricas ao quadrado. Analisaremos também o desempenho do modelo que não considera a amostragem preferencial. O vetor paramétrico é dado por (µ, σ 2, φ, α, β) = (1.2, 0.7, 20, 6, 1.5). A amostra, composta por 41 observações, foi novamente simulada a partir no algoritmo descrito no início dessa seção, para M = 400 e M = 225. Na Figura 4.6 temos intervalos de 95% de credibilidade da amostra a posteriori de θ para o modelo cuja partição de D usada na aproximação de p(x) contém 225 sub-regiões (Modelo 1) e para aquele que considera somente 400 células na divisão da região de interesse (Modelo 2). Analisando os intervalos percebemos similaridade entre as amostras a posteriori de ambos os modelos, com o modelo 1 mais incerto para σ 2 enquanto para o restante dos parâmetros o modelo 2 exibiu maior incerteza. Ainda que tenhamos identificado diferenças na amplitude dos intervalos, tal discrepância não é de grande magnitude. Parece, então, não haver ganhos substanciais em aumentar M de 225 para 400. Nesse sentido, optamos pela partição de D em 225 sub-regiões devido ao custo computacional associado à estimação dos parâmetros via MCMC. 45

57 (a) µ (b) σ 2 (c) φ (d) α (e) β Figura 4.6: Intervalos de 95% de credibilidade de θ para o modelo sob amostragem preferencial com M = 400 sub-regiões (modelo 1) e com M = 225 sub-regiões (modelo 2). As linhas tracejadas correspondem aos respectivos valores verdadeiros dos parâmetros. Os histogramas da amostra a posteriori para o modelo que não considera o efeito da amostragem preferencial (modelo 3) estão na Figura 4.7. A amosta a posteriori de σ 2, apesar de não estar centrada no valor verdadeiro, apresenta viés relativamente pequeno em relação ao parâmetro real. Para o parâmetro φ obtivemos uma amostra a posteriori bem concentrada ao redor do verdadeiro valor do parâmetro. O parâmetro µ é o único para o qual a amostra a posteriori parece se distanciar do valor correto, sendo esse modelo ligeiramente inferior ao modelo sob amostragem preferencial no que se refere à estimação dos parâmetros. (a) µ (b) σ 2 (c) φ Figura 4.7: Histogramas a posteriori para o modelo sem considerar a amostragem preferencial (modelo ) - Modelo Poisson (cenário 3) A Tabela 4.4 traz as estimativas dos parâmetros para os três modelos explorados no presente cenário e seus respectivos intervalos de 95% de credibilidade. Observe que o aumento do número de sub-regiões usadas para aproximar a densidade do processo pontual X não melhora, necessariamente, a inferência sobre os parâmetros. Com exceção de φ, para todos os outros parâmetros obtivemos estimativas similares tanto ao considerarmos 400 sub-regiões quanto com a partição de D em 225 sub-regiões. Para o parâmetro φ, a estimativa encontrada via MCMC para o modelo 1 é mais próxima ao verdadeiro valor de φ e seu intervalo de 95% de credibilidade tem amplitude menor que o encontrado utilizando o modelo 2. As estimativas pontuais apresentadas na Tabela 4.4 reiteram a conclusão de que o refinamento da partição de D não acarreta em grandes vantagens quando comparado à grade regular com 225 sub-regiões. 46

58 Comparando as estimativas do vetor paramétrico para o modelo 1 com as estimativas para o modelo 3, observa-se que aquelas para o modelo 1 se aproximam mais dos valores verdadeiros. Já os intervalos de 95% de credibilidade incluem os valores verdadeiros e possuem amplitude semelhante entre os modelos para todo θ, indicando não haver grandes discrepâncias nas estimativas intervalares dos parâmetros. Amostragem Preferencial Amostragem Preferencial Amostragem Valor Real (400 sub-regiões) (225 sub-regiões) Não Preferencial Mediana q q Mediana q q Mediana q q µ = σ 2 = φ = α = β = Tabela 4.4: Estimativas de θ - Modelo Poisson (cenário 3) Desejamos modelos que tenham boa capacidade tanto de inferência quanto de previsão. Como medida de qualidade da previsão do processo S nos centróides de uma grade regular com 400 sub-regiões para os três modelos abordados nesse cenário, apresentamos na Tabela 4.5 o erro de previsão global, ou EPG, de cada modelo. Como pode ser observado, a capacidade preditiva do modelo sob amostragem preferencial é semelhante para M = 400 e M = 225 partições. Note, também, que a capacidade preditiva dos modelos sob amostragem preferencial é ligeiramente maior que para o modelo 3, sugerindo que a presença do processo pontual X na modelagem dos dados resulta em pequena melhora na previsão de S. Amostragem Preferencial Amostragem Preferencial Amostragem (400 sub-regiões) (225 sub-regiões) Não Preferencial EPG Tabela 4.5: Erro de previsão global - Modelo Poisson (cenário 3) Em vista dos resultados mostrados na Tabela 4.5, parece não haver vantagens significativas em particionar D em 400 sub-regiões ao invés de 225 sub-regiões que justifiquem o elevado custo computacional envolvido na obtenção da amostra a posteriori para essa primeira partição. Assim, na Figura 4.8 não apresentaremos a previsão de S para o modelo sob amostragem preferencial com 400 partições de D. A Figura 4.8(a) ilustra uma realização de S nos centróides de uma grade regular com 400 células, enquanto as Figuras 4.8(b) e 4.8(c) mostram a previsão de S nessa grade regular tanto para o modelo 1 e 3, respectivamente. Em conformidade com a conclusão feita pela análise dos erros de previsão globais, observamos que a previsão de S pelo modelo sob amostragem preferencial detecta melhor as nuances de S ao longo de D. Em regiões onde não há eventos ambos os modelos se mostram ineficazes na previsão de S, porém em regiões com pelo menos um evento observado notamos que o modelo sob amostragem preferencial capta melhor valores 47

59 elevados de S se aproximando do valor verdadeiro nesse ponto. (a) Realização de S em D (b) Preferencial (c) Não Preferencial Figura 4.8: Previsão de S em D - Modelo Poisson (cenário 3) Os resultados observados para o cenário 3 nos levam à conclusão que o modelo 1 apresentou equilíbrio entre capacidade preditiva, custo computacional e estimação de θ, sugerindo ser importante a suposição do processo pontual X. 4.3 Modelo Bernoulli Encontramos situações práticas onde a variável Y (x), em estudo, somente assume valores no conjunto {0, 1}, sendo observada em uma coleção de localizações x = (x 1,..., x n ). Suponha, por exemplo, que desejamos compreender o comportamento pluviométrico no estado do Paraná, entretanto as informações disponíveis somente informam se choveu ou não em uma determinada estação de monitoramento. Variáveis como esta são caracterizadas como sucesso ou falha. Por exemplo, a presença de determinada característica em x i pode ser interpretada como sucesso, implicando em Y (x i ) = 1. Ainda, quaisquer dados de natureza contínua podem ser separados em duas classes, com uma classe representando falha e a outra sucesso. A distribuição de probabilidade Bernoulli representa bem o comportamento de Y (x i ). Assumindo que em cada localização x i temos Y (x i ) Bernoulli(p i ), com p i a probabilidade de sucesso, escrevemos o modelo espacial para Y (x i ), com função de ligação canônica, como Y (x i ) p i Bernoulli(p i ) ( ) pi log = µ + S n (x i ) (4.4) 1 p i S n σ 2, φ N n (0, Σ Sn ), 48

60 com a entrada (i, j) da matriz de covariâncias Σ Sn dada por σ 2 ρ(d ij ; φ), para d ij a distância euclidiana entre x i e x j e ρ uma função de correlação válida. Note que p i = exp{µ + S n(x i )} 1 + exp{µ + S n (x i )}. Por simplicidade denotaremos Y (x i ) = Y i, cujo valor observado será representado por y(x i ) = y i. Sob amostragem preferencial devemos considerar o efeito do processo pontual X que governa a disposição das localizações em D. Precisamos, então, incluir a densidade de X no modelo em (4.4). Como apontado na seção 2.2.2, não é possivel tratar p(x) analiticamente devido à natureza contínua de D. Uma solução é particionar D em M sub-regiões com centróides c = (c 1,..., c M ) e avaliar p(c) ao invés de p(x). Em consequência dessa partição, não mais teremos S n. Ao longo dessa seção denotaremos por S M a realização de S em c enquanto S y é construído de forma que S y (x i ) corresponde à realização de S no centróide da sub-região à qual x i pertence. Logo, o vetor S y compreende a realização de S nos centróides das sub-regiões que contêm pelo menos um ponto observado. Portanto, sob amostragem preferencial, quando Y i Bernoulli(p i ), a especificação completa do modelo é dada por p(n α, β, S M ) Y i p i Bernoulli(p i ) ( ) pi log = µ + S y (x i ) (4.5) 1 p i M M {exp (α + βs M (c j ))} n j exp i exp (α + βs M (c j )) j=1 j=1 S M σ 2, φ N M (0, Σ SM ), onde a matriz de covariâncias de S M tem elementos Σ SM (i, j) = σ 2 ρ ( c i c j ; φ). Em posse de uma amostra de X em D, denotada por x = (x 1,..., x n ), observaremos Y i para cada localização x i x para, finalmente, obtermos uma amostra y = (y 1,..., y n ). Deste modo, a função de verossimilhança para o modelo da equação (4.5) será dada por 49

61 n [exp(µ + S y (x i ))] y i l (y, n; θ, S M ) 1 + exp(µ + S i=1 y (x i )) M M {exp (α + βs M (c j ))} n j exp i exp (α + βs M (c j )). j=1 Assumiremos uma partição regular de D, de forma a todas as sub-regiões possuírem área i =. A inferência sob abordagem bayesiana demanda a especificação de distribuições de probabilidade a priori para o vetor de parâmetros, a saber θ = (µ, σ 2, φ, α, β) para o modelo em (4.5). Atribuiremos a θ as mesmas distribuições a priori descritas no capítulo 3. As distribuições condicionais completas de σ 2, φ, α e β permanecem as mesmas encontradas para os modelos sob amostragem preferencial para dados com distribuição Normal e Poisson. Para simular da condicional completa de µ e S M, porém, devemos calcular novamente as respectivas distribuições condicionais completas uma vez que a função de verossimilhança é diferente para os modelos Normal, Poisson e Bernoulli. O algoritmo MCMC, neste caso, consiste em simular das seguintes distribuições: e p(µ S M, y) exp { µ n i 1 y i } j=1 n 1 + exp [µ + S y (x i )] i=1 } exp { µ2 2σµ 2 p(s M σ 2, φ, y) { n } exp y i S y (x i ) i 1 n 1 + exp [µ + S y (x i )] i=1 exp { βn T } M S M exp exp (α + βs M (c j )) j=1 { } exp ST M Σ 1 S M S M, 2 onde n T = (n 1,..., n M ) cujo elemento n j representa o número de eventos observados na j-ésima sub-região. Uma vez esclarecido o procedimento de inferência aplicado aos modelos que consideram o efeito da amostragem preferencial para variáveis aleatórias com distribuição Bernoulli usando a 50

62 função de ligação canônica, nos dedicaremos na Subseção à investigação do comportamento desses modelos com o auxílio de dados artificiais Estudo de simulação Ao longo da presente seção nos concentraremos na análise comparativa entre modelos que ignoram a presença de um processo pontual X que governa a disposição de x em D e modelos que consideram o efeito da amostragem preferencial, no âmbito de variáveis aleatórias com distribuição Bernoulli. O primeiros modelos serão, ocasionalmente, referidos ao longo do texto como modelos não preferenciais enquanto os últimos serão ditos modelos preferenciais. Exibiremos algumas possibilidades para a escolha do vetor paramétrico θ e estudaremos o desempenho dos modelos acima citados, averiguando se diferenças significativas na estimação ou previsão surgem ao optarmos pelo modelo preferencial ao invés do modelo não preferencial. Analogamente aos estudos simulados apresentados anteriormente, com exceção do cenário 2, a simulação dos dados envolverá os seguintes passos: 1. Partição da região D = [0, 100] 2 em sub-regiões usando uma grade regular com M subregiões; 2. Seja c j o centróide da j-ésima região. { Obtenha } a matriz de covariância de S M nesses centróides dada por Σ SM (i, j) = σ 2 exp, d ij = c i c j ; 3. Simule S M N (0, Σ SM ); d ij φ 4. Para cada sub-região j, simule um processo de Poisson homogêneo com intensidade λ(c j ) = exp{α + βs M (c j )}. O conjunto de localizações decorrentes desse passo formam a amostra x = (x 1, x 2,..., x n ); Observe que esse passo se deve ao fato da partição de D em M células resultar em um processo de Poisson homogêneo em cada sub-região. 5. Para i = 1, 2,..., n, amostre de Y i x, S y, µ Bernoulli(p i ), com log ( pi 1 p i ) = µ+s y (x i ), obtendo a amostra y = (y 1,..., y n ); Obtida a amostra (y, x) seremos capazes de inferir sobre θ pela simulação de p(θ y, x). Para cada cenário analisaremos o modelo preferencial e o modelo não preferencial sob a luz da estimação e da previsão, fazendo considerações acerca do desempenho de cada modelo. Para todos os estudos simulados que seguem serão usadas 500 mil iterações para o MCMC, das quais somente as últimas 100 mil serão utilizadas na amostra. Ainda, optou-se por retirar uma amostra sistemática dessas 100 mil iterações com espaçamento de 50 iterações, resultando em uma amostra da posteriori com 2 mil elementos. A comparação da capacidade preditiva será conduzida analisando-se a previsão de cada modelo para os centróides das M sub-regiões que dividem D, tendo como medida comparativa o erro de previsão global (EPG) apresentado na Seção

63 Cenário 1: Desejamos estudar o efeito da amostragem preferencial em dados com natureza discreta, em particular que só assuma valores em {0, 1}. Inicialmente, particionaremos a região [0, 100] 2 em 225 sub-regiões e simularemos nossos dados segundo o esquema descrito no início da presente seção com vetor de parâmetros (µ, σ 2, φ, α, β) = ( 1.5, 1.5, 20, 8, 2), resultando em uma amostra com 31 observações. Na Figura 4.9 são exibidos os histogramas das amostras a posteriori de µ, σ 2 e φ para ambos os modelos em análise. O comportamento a posteriori de µ para os modelos sob amostragem preferencial (modelo 1) e sem considerá-la (modelo 2) são apresentados nas Figuras 4.9(a) e 4.9(d), respectivamente. Note que, apesar de nenhuma das duas amostras a posteriori se concentrar ao redor do valor verdadeiro de µ, a amostra de µ para o modelo 2 está centrada em um valor mais distante de 2 se comparado ao primeiro modelo. Além disso, o fato de µ = 2 estar na cauda da distribuição a posteriori de µ para o modelo 2 indica que a densidade de probabilidade a posteriori é baixa para esse valor. Os modelos não parecem, entretanto, capturar bem esse parâmetro uma vez que os intervalos de credibilidade de 95% contém o valor zero para os dois modelos. Para o parâmatro σ 2 são apresentados os histogramas a posteriori para os modelos 1 e 2 respectivamente nas Figuras 4.9(b) e 4.9(e). Observa-se que ambas as amostras parecem centradas no valor verdadeiro de σ 2, entretanto, o modelo 2 se mostra muito mais incerto que o modelo 1 tendo como base a variabilidade da amostra a posteriori. O parâmetro φ tem seus histogramas a posteriori retratados nas Figuras 4.9(c) e 4.9(f), com o primeiro representando o modelo 1 e o segundo o modelo 2. Novamente, a amostra a posteriori para o modelo 1 tem maior concentração de valores próximos ao verdadeiro valor de φ do que a amostra a posteriori para o modelo 2. Todavia, pontualmente nenhum dos dois modelos forneceu boas estimativas para φ. O intervalo de credibilidade, por sua vez, parece semelhante em ambos os modelos e reproduz a grande incerteza acerca de φ. Por fim, os histogramas das amostras a posteriori de α e β estão ilustrados nas Figuras 4.10(a) e 4.10(b), respectivamente. A amostra a posteriori de α encontra-se bem centrada no valor verdadeiro do parâmetro, porém apresenta grande variabilidade. Para β a correspondente amostra a posteriori também se concentra aproximadamente ao redor do valor real, apresentando poucos valores muito distantes de 2. A exclusão de 0 pelo intervalode 95% de credibilidade para β indica que o efeito do processo pontual X não deve ser desprezado na modelagem dos dados. Para os parâmetros do processo pontual X, observamos estimativas pontuais próximas aos correspondentes valores verdadeiros. Olharemos agora para o desempenho preditivo dos modelos. A Figura 4.11(a) traz uma realização de S em D = [0, 100] 2, que será considerada como a 52

64 (a) µ pref (b) σ 2 pref (c) φ pref (d) µ (e) σ 2 (f) φ Figura 4.9: Histogramas a posteriori de µ, σ 2 e φ - Modelo Bernoulli (cenário 1) (a) α (b) β Figura 4.10: Histogramas a posteriori de α e β - Modelo Bernoulli (cenário 1) superfície verdadeira de S. Como β > 0, os pontos observados encontram-se, em sua maioria, reunidos em uma pequena região de D onde S assume valores maiores. Na Figura 4.11(b) temos a previsão do modelo sob amostragem preferencial para os centróides das 225 sub-regiões que dividem D. Em regiões onde não há nenhuma localização x i o modelo tem dificuldade de prever corretamente, porém em regiões com pontos observados vemos uma melhora no desempenho preditivo do modelo, como esperado. O mesmo acontece para a previsão do modelo que não considera a amostragem preferencial, como pode ser visto na Figura 4.11(c). Entretanto mesmo em regiões com presença de observações esse modelo não consegue capturar bem valores mais elevados de S. Comparando as superfícies preditas, podemos perceber ganhos significativos na 53

65 adoção de um processo pontual X na modelagem de Y. (a) Realização de S em D (b) Preferencial (c) Não Preferencial Figura 4.11: Previsão de S em D - Modelo Bernoulli (cenário 1) Complementando a comparação gráfica das superfícies de previsão, podemos calcular os erros de previsão globais para os modelos. Considerando o efeito da amostragem preferencial, encontramos um EPG igual a enquanto sem consideramos tal efeito obtemos EPG correspondente a O cálculo do EPG reforça as conclusões obtidas anteriormente de que levar em consideração um processo pontual que norteia a disposição das localizações x i em D aumenta a capacidade tanto preditiva quanto de estimação do modelo descrito na equação 4.4. Cenário 2: Nesse segundo cenário adotaremos uma abordagem distinta dos cenários apresentados até agora. Nele, simularemos de um processo de Poisson homogêneo em D = [0, 100] 2 com função de intensidade igual a Como descrito na seção 2.2.1, o número esperado de eventos em D é calculado pela multiplicação da área de D pela intensidade do processo de Poisson homogêneo, ou seja, esperamos observar 25 eventos em D. A simulação desse processo originou uma amostra com n = 18 observações. Em seguida, obtivemos uma amostra de S n em x = (x 1,..., x n ) usando S n ( N n (0, Σ Sn )), onde Σ Sn é a matriz de covariâncias de S n com entradas dadas por Σ Sn = σ 2 exp. x i x j φ Em posse da amostra de S n podemos simular de Y i Bernoulli(p i ) com log ( pi 1 p i ) = µ+s n (x i ). Formamos, assim, uma amostra de Y em x denotada por y = (y 1,..., y n ). O procedimento de simulação se baseou no vetor paramétrico (µ, σ 2, φ) = (1.5, 0.5, 20). Apresentamos as estimativas pontuais e intervalares para o vetor paramétrico de ambos os modelos na Tabela 4.6. Para µ e φ as estimativas pontuais aproximam-se do verdadeiro valor dos respectivos parâmetros, tendo como diferença mais destacada a inclusão do zero no intervalo de 95% de credibilidade para µ usando o modelo preferencial. A estimativa de σ 2 pelo modelo sob amostragem preferencial encontra-se mais próxima ao seu verdadeiro valor, além da amplitude do intervalo de 95% ganhar notoriedade por ser muito menor que para o 54

Introdução a Inferência Bayesiana

Introdução a Inferência Bayesiana Introdução a Inferência Bayesiana Helio S. Migon IM and COPPE - UFRJ migon@im.ufrj.br 2006 Conteúdo 1. Conceitos Básicos da Inferência 2. Distribuição a Priori 3. Sumariazação 4. Inferência Preditiva 1

Leia mais

FAMÍLIA EXPONENCIAL DE DISTRIBUIÇÕES

FAMÍLIA EXPONENCIAL DE DISTRIBUIÇÕES FAMÍLIA EXPONENCIAL DE DISTRIBUIÇÕES 1 Os modelos lineares generalizados, propostos originalmente em Nelder e Wedderburn (1972), configuram etensões dos modelos lineares clássicos e permitem analisar a

Leia mais

MOQ-13 PROBABILIDADE E ESTATÍSTICA. Professor: Rodrigo A. Scarpel

MOQ-13 PROBABILIDADE E ESTATÍSTICA. Professor: Rodrigo A. Scarpel MOQ-13 PROBABILIDADE E ESTATÍSTICA Professor: Rodrigo A. Scarpel rodrigo@ita.br www.mec.ita.br/~rodrigo Programa do curso: Semanas 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 e 16 Introdução à probabilidade (eventos,

Leia mais

Definição. Os valores assumidos pelos estimadores denomina-se estimativas pontuais ou simplesmente estimativas.

Definição. Os valores assumidos pelos estimadores denomina-se estimativas pontuais ou simplesmente estimativas. 1. Inferência Estatística Inferência Estatística é o uso da informção (ou experiência ou história) para a redução da incerteza sobre o objeto em estudo. A informação pode ou não ser proveniente de um experimento

Leia mais

IND 1115 Inferência Estatística Aula 6

IND 1115 Inferência Estatística Aula 6 Conteúdo IND 5 Inferência Estatística Aula 6 Setembro de 004 A distribuição Lognormal A distribuição Beta e sua relação com a Uniforme(0,) Mônica Barros mbarros.com mbarros.com A distribuição Lognormal

Leia mais

Sumário. CAPÍTULO 1 Conceitos preliminares 1. CAPÍTULO 2 Descrição de dados: análise monovariada 47

Sumário. CAPÍTULO 1 Conceitos preliminares 1. CAPÍTULO 2 Descrição de dados: análise monovariada 47 CAPÍTULO 1 Conceitos preliminares 1 Introdução........................................................1 O que é estatística?.................................................. 4 Papel dos microcomputadores.........................................

Leia mais

Anexo 1 - Revisões de Teoria das Probabilidades e Processos Estocásticos

Anexo 1 - Revisões de Teoria das Probabilidades e Processos Estocásticos 1 Anexo 1 - Revisões de Teoria das Probabilidades e Processos Estocásticos Documento auxiliar à disciplina de Modelação, Identificação e Controlo Digital Alexandre Bernardino IST-Secção de Sistemas e Controlo

Leia mais

Anexo 1 - Revisões de Teoria das Probabilidades e Processos Estocásticos

Anexo 1 - Revisões de Teoria das Probabilidades e Processos Estocásticos 1 Anexo 1 - Revisões de Teoria das Probabilidades e Processos Estocásticos Documento auxiliar à disciplina de Modelação, Identificação e Controlo Digital Alexandre Bernardino 003/005 IST-Secção de Sistemas

Leia mais

Modelos Lineares Generalizados - Modelos log-lineares para tabelas de contingência

Modelos Lineares Generalizados - Modelos log-lineares para tabelas de contingência Modelos Lineares Generalizados - Modelos log-lineares para tabelas de contingência Erica Castilho Rodrigues 12 de Agosto Introdução 3 Vimos como usar Poisson para testar independência em uma Tabela 2x2.

Leia mais

Análise de Dados e Simulação

Análise de Dados e Simulação Universidade de São Paulo Instituto de Matemática e Estatística http:www.ime.usp.br/ mbranco Simulação de Variáveis Aleatórias Contínuas. O método da Transformada Inversa Teorema Seja U U (0,1). Para qualquer

Leia mais

Resumo. Parte 7 Processos Estocásticos. Ramiro Brito Willmersdorf

Resumo. Parte 7 Processos Estocásticos. Ramiro Brito Willmersdorf Parte 7 Processos Estocásticos Ramiro Brito Willmersdorf ramiro@willmersdorf.net Departamento de Engenharia Mecânica Universidade Federal de Pernambuco 2011.2 Resumo 1 Processos Estocásticos 2 Classicação

Leia mais

Filho, não é um bicho: chama-se Estatística!

Filho, não é um bicho: chama-se Estatística! Paulo Jorge Silveira Ferreira Filho, não é um bicho: chama-se Estatística! Estatística aplicada uma abordagem prática FICHA TÉCNICA EDIÇÃO: Paulo Ferreira TÍTULO: Filho, não é um bicho: chama-se Estatística!

Leia mais

SUMÁRIO. Prefácio, Espaço amostrai, Definição de probabilidade, Probabilidades finitas dos espaços amostrais fin itos, 20

SUMÁRIO. Prefácio, Espaço amostrai, Definição de probabilidade, Probabilidades finitas dos espaços amostrais fin itos, 20 SUMÁRIO Prefácio, 1 3 1 CÁLCULO DAS PROBABILIDADES, 15 1.1 Introdução, 15 1.2 Caracterização de um experimento aleatório, 15 1.3 Espaço amostrai, 16 1.4 Evento, 17 1.5 Eventos mutuamente exclusivos, 17

Leia mais

6. Amostragem e estimação pontual

6. Amostragem e estimação pontual 6. Amostragem e estimação pontual Definição 6.1: População é um conjunto cujos elementos possuem qualquer característica em comum. Definição 6.2: Amostra é um subconjunto da população. Exemplo 6.1: Um

Leia mais

Disciplina: Processamento Estatístico de Sinais (ENGA83) - Aula 02 / Processos Aleatórios

Disciplina: Processamento Estatístico de Sinais (ENGA83) - Aula 02 / Processos Aleatórios Disciplina: Processamento Estatístico de Sinais (ENGA83) - Aula 02 / Processos Aleatórios Prof. Eduardo Simas (eduardo.simas@ufba.br) Programa de Pós-Graduação em Engenharia Elétrica/PPGEE Universidade

Leia mais

Introdução ao Planejamento e Análise Estatística de Experimentos 1º Semestre de 2013 Capítulo 3 Introdução à Probabilidade e à Inferência Estatística

Introdução ao Planejamento e Análise Estatística de Experimentos 1º Semestre de 2013 Capítulo 3 Introdução à Probabilidade e à Inferência Estatística Introdução ao Planejamento e Análise Estatística de Experimentos Capítulo 3 Introdução à Probabilidade e à Inferência Estatística Introdução ao Planejamento e Análise Estatística de Experimentos Agora,

Leia mais

PARTE TEÓRICA Perguntas de escolha múltipla

PARTE TEÓRICA Perguntas de escolha múltipla PROBABILIDADES E ESTATÍSTICA MIEEC/FEUP PARTE TEÓRICA Perguntas de escolha múltipla 1 Dada a experiência aleatória ε define-se espaço amostral associado a ε como sendo: A O espaço físico onde se realiza

Leia mais

Fernando de Pol Mayer

Fernando de Pol Mayer Fernando de Pol Mayer Laboratório de Estatística e Geoinformação (LEG) Departamento de Estatística (DEST) Universidade Federal do Paraná (UFPR) Este conteúdo está disponível por meio da Licença Creative

Leia mais

Processos Estocásticos e Cadeias de Markov Discretas

Processos Estocásticos e Cadeias de Markov Discretas Processos Estocásticos e Cadeias de Markov Discretas Processo Estocástico(I) Definição: Um processo estocástico é uma família de variáveis aleatórias {X(t) t T}, definidas em um espaço de probabilidades,

Leia mais

Revisão de distribuições de probabilidades contínuas (Capítulo 6 Levine)

Revisão de distribuições de probabilidades contínuas (Capítulo 6 Levine) Revisão de distribuições de probabilidades contínuas (Capítulo 6 Levine) Statistics for Managers Using Microsoft Excel, 5e 2008 Pearson Prentice-Hall, Inc. Chap 6-1 Objetivos: Neste capítulo, você aprenderá:

Leia mais

Aula 2. ESTATÍSTICA E TEORIA DAS PROBABILIDADES Conceitos Básicos

Aula 2. ESTATÍSTICA E TEORIA DAS PROBABILIDADES Conceitos Básicos Aula 2 ESTATÍSTICA E TEORIA DAS PROBABILIDADES Conceitos Básicos 1. DEFINIÇÕES FENÔMENO Toda modificação que se processa nos corpos pela ação de agentes físicos ou químicos. 2. Tudo o que pode ser percebido

Leia mais

Modelos Lineares Distribuições de Probabilidades Distribuição Normal Teorema Central do Limite. Professora Ariane Ferreira

Modelos Lineares Distribuições de Probabilidades Distribuição Normal Teorema Central do Limite. Professora Ariane Ferreira Distribuições de Probabilidades Distribuição Normal Teorema Central do Limite Professora Ariane Ferreira Modelos Probabilísticos de v.a. continuas Distribuição de Probabilidades 2 IPRJ UERJ Ariane Ferreira

Leia mais

AULA 02 Distribuição de Probabilidade Normal

AULA 02 Distribuição de Probabilidade Normal 1 AULA 02 Distribuição de Probabilidade Normal Ernesto F. L. Amaral 20 de agosto de 2012 Faculdade de Filosofia e Ciências Humanas (FAFICH) Universidade Federal de Minas Gerais (UFMG) Fonte: Triola, Mario

Leia mais

Introdução aos Proc. Estocásticos - ENG 430

Introdução aos Proc. Estocásticos - ENG 430 Introdução aos Proc. Estocásticos - ENG 430 Fabrício Simões IFBA 16 de novembro de 2015 Fabrício Simões (IFBA) Introdução aos Proc. Estocásticos - ENG 430 16 de novembro de 2015 1 / 34 1 Motivação 2 Conceitos

Leia mais

A Metodologia de Box & Jenkins

A Metodologia de Box & Jenkins A Metodologia de Box & Jenins Aula 03 Bueno, 0, Capítulo 3 Enders, 009, Capítulo Morettin e Toloi, 006, Capítulos 6 a 8 A Metodologia Box & Jenins Uma abordagem bastante utilizada para a construção de

Leia mais

Análise de Dados e Simulação

Análise de Dados e Simulação Universidade de São Paulo Instituto de Matemática e Estatística http:www.ime.usp.br/ mbranco Processo de Poisson. Processo de Poisson Homogêneo Considere N(t) o número de ocorrências de um determinado

Leia mais

Séries Temporais e Modelos Dinâmicos. Econometria. Marcelo C. Medeiros. Aula 4

Séries Temporais e Modelos Dinâmicos. Econometria. Marcelo C. Medeiros. Aula 4 em Econometria Departamento de Economia Pontifícia Universidade Católica do Rio de Janeiro Aula 4 O Processo Média-Móvel Muitas vezes, a estrutura auto-regressiva não é suficiente para descrever totalmente

Leia mais

Introdução à probabilidade e estatística I

Introdução à probabilidade e estatística I Introdução à probabilidade e estatística I Variáveis Aleatórias Prof. Alexandre G Patriota Sala: 298A Email: patriota@ime.usp.br Site: www.ime.usp.br/ patriota Probabilidade Daqui por diante utilizaremos

Leia mais

Intervalos de Confiança

Intervalos de Confiança Intervalos de Confiança Carla Henriques e Nuno Bastos Departamento de Matemática Escola Superior de Tecnologia de Viseu Carla Henriques e Nuno Bastos (DepMAT) Intervalos de Confiança 2010/2011 1 / 33 Introdução

Leia mais

CC-226 Aula 05 - Teoria da Decisão Bayesiana

CC-226 Aula 05 - Teoria da Decisão Bayesiana CC-226 Aula 05 - Teoria da Decisão Bayesiana Carlos Henrique Q. Forster - Instituto Tecnológico de Aeronáutica 2008 Classificador Bayesiano Considerando M classes C 1... C M. N observações x j. L atributos

Leia mais

Distribuição Amostral e Estimação Pontual de Parâmetros

Distribuição Amostral e Estimação Pontual de Parâmetros Roteiro Distribuição Amostral e Estimação Pontual de Parâmetros 1. Introdução 2. Teorema Central do Limite 3. Conceitos de Estimação Pontual 4. Métodos de Estimação Pontual 5. Referências População e Amostra

Leia mais

APLICAÇÃO DO TEOREMA DO PONTO FIXO DE BANACH A UM PROBLEMA EM PROBABILIDADE 1

APLICAÇÃO DO TEOREMA DO PONTO FIXO DE BANACH A UM PROBLEMA EM PROBABILIDADE 1 Disciplinarum Scientia. Série: Ciências Exatas, S. Maria, v.2, n.1, p.59-68, 2001 59 APLICAÇÃO DO TEOREMA DO PONTO FIXO DE BANACH A UM PROBLEMA EM PROBABILIDADE 1 APPLICATION OF BANACH FIXED POINT THEOREM

Leia mais

Universidade Federal de Viçosa Departamento de Estatística

Universidade Federal de Viçosa Departamento de Estatística Universidade Federal de Viçosa Departamento de Estatística Prova Seletiva para o Programa de Pós-Graduação em Estatística Aplicada e Biometria. Nível Doutorado - 22/nov/2013 Nome: Assinatura:. Número do

Leia mais

2 Teoria da Informação

2 Teoria da Informação 2 Teoria da Informação Neste capítulo apresentamos alguns conceitos básicos sobre Teoria da Informação que utilizaremos durante este trabalho. 2.1 Alfabeto, texto, letras e caracteres Um alfabeto Σ = (σ

Leia mais

Eventos coletivamente exaustivos: A união dos eventos é o espaço amostral.

Eventos coletivamente exaustivos: A união dos eventos é o espaço amostral. DEFINIÇÕES ADICIONAIS: PROBABILIDADE Espaço amostral (Ω) é o conjunto de todos os possíveis resultados de um experimento. Evento é qualquer subconjunto do espaço amostral. Evento combinado: Possui duas

Leia mais

Um modelo estocástico para o fluxo de caixa de um plano de previdência de um indivíduo 15

Um modelo estocástico para o fluxo de caixa de um plano de previdência de um indivíduo 15 2 Simulação estocástica A simulação computacional consiste em empregar técnicas matemáticas em computadores com o propósito de gerar ensaios que tentam reproduzir de maneira análoga um processo ou operação

Leia mais

Vetor de Variáveis Aleatórias

Vetor de Variáveis Aleatórias Vetor de Variáveis Aleatórias Luis Henrique Assumpção Lolis 25 de junho de 2013 Luis Henrique Assumpção Lolis Vetor de Variáveis Aleatórias 1 Conteúdo 1 Vetor de Variáveis Aleatórias 2 Função de Várias

Leia mais

ESTATÍSTICA. x(s) W Domínio. Contradomínio

ESTATÍSTICA. x(s) W Domínio. Contradomínio Variáveis Aleatórias Variáveis Aleatórias são funções matemáticas que associam números reais aos resultados de um Espaço Amostral. Uma variável quantitativa geralmente agrega mais informação que uma qualitativa.

Leia mais

INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA

INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA UFPE - Universidade Federal de Pernambuco Departamento de Estatística Disciplina: ET-406 Estatística Econômica Professor: Waldemar A. de Santa Cruz Oliveira Júnior INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA Podemos

Leia mais

Introdução à Inferência Estatística

Introdução à Inferência Estatística Introdução à Inferência Estatística Capítulo 10, Estatística Básica (Bussab&Morettin, 7a Edição) 2a AULA 02/03/2015 MAE229 - Ano letivo 2015 Lígia Henriques-Rodrigues 2a aula (02/03/2015) MAE229 1 / 16

Leia mais

MAT 461 Tópicos de Matemática II Aula 8: Resumo de Probabilidade

MAT 461 Tópicos de Matemática II Aula 8: Resumo de Probabilidade MAT 461 Tópicos de Matemática II Aula 8: Resumo de Probabilidade Edson de Faria Departamento de Matemática IME-USP 28 de Agosto, 2013 Probabilidade: uma Introdução / Aula 8 1 Desigualdades de Markov e

Leia mais

AULAS 14 E 15 Modelo de regressão simples

AULAS 14 E 15 Modelo de regressão simples 1 AULAS 14 E 15 Modelo de regressão simples Ernesto F. L. Amaral 18 e 23 de outubro de 2012 Avaliação de Políticas Públicas (DCP 046) Fonte: Wooldridge, Jeffrey M. Introdução à econometria: uma abordagem

Leia mais

Modelos de Regressão Linear Simples - Análise de Resíduos

Modelos de Regressão Linear Simples - Análise de Resíduos Modelos de Regressão Linear Simples - Análise de Resíduos Erica Castilho Rodrigues 1 de Setembro de 2014 3 O modelo de regressão linear é dado por Y i = β 0 + β 1 x i + ɛ i onde ɛ i iid N(0,σ 2 ). O erro

Leia mais

VARIÁVEIS ALEATÓRIAS E DISTRIBUIÇÕES DE PROBABILIDADE

VARIÁVEIS ALEATÓRIAS E DISTRIBUIÇÕES DE PROBABILIDADE VARIÁVEIS ALEATÓRIAS E DISTRIBUIÇÕES DE PROBABILIDADE.1 INTRODUÇÃO Admita que, de um lote de 10 peças, 3 das quais são defeituosas, peças são etraídas ao acaso, juntas (ou uma a uma, sem reposição). Estamos

Leia mais

Modelos básicos de distribuição de probabilidade

Modelos básicos de distribuição de probabilidade Capítulo 6 Modelos básicos de distribuição de probabilidade Muitas variáveis aleatórias, discretas e contínuas, podem ser descritas por modelos de probabilidade já conhecidos. Tais modelos permitem não

Leia mais

VARIÁVEIS ALEATÓRIAS

VARIÁVEIS ALEATÓRIAS UNIVERSIDADE FEDERAL DE JUIZ DE FORA INSTITUTO DE CIÊNCIAS EXATAS DEPARTAMENTO DE ESTATÍSTICA VARIÁVEIS ALEATÓRIAS Joaquim H Vianna Neto Relatório Técnico RTE-03/013 Relatório Técnico Série Ensino Variáveis

Leia mais

2 Medida de Incertezas: Fundamentos

2 Medida de Incertezas: Fundamentos 2 Medida de Incertezas: Fundamentos 2. Introdução O resultado de um processo de medição fornece uma determinada informação que usualmente é chamada de conhecimento. A fim de quantificar quão completo é

Leia mais

UNIVERSIDADE LUSÍADA DE LISBOA. Programa da Unidade Curricular PROBABILIDADES E ESTATÍSTICA Ano Lectivo 2012/2013

UNIVERSIDADE LUSÍADA DE LISBOA. Programa da Unidade Curricular PROBABILIDADES E ESTATÍSTICA Ano Lectivo 2012/2013 Programa da Unidade Curricular PROBABILIDADES E ESTATÍSTICA Ano Lectivo 2012/2013 1. Unidade Orgânica Ciências da Economia e da Empresa (1º Ciclo) 2. Curso Engenharia Informática 3. Ciclo de Estudos 1º

Leia mais

TÉCNICAS DE AMOSTRAGEM

TÉCNICAS DE AMOSTRAGEM TÉCNICAS DE AMOSTRAGEM Ralph dos Santos Silva Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Sumário Definições e Notação Estimação Amostra Aleatória

Leia mais

Modelo de regressão estável aplicado a econometria

Modelo de regressão estável aplicado a econometria Modelo de regressão estável aplicado a econometria financeira Fernando Lucambio Departamento de Estatística Universidade Federal do Paraná Curitiba/PR, 81531 990, Brasil email: lucambio@ufpr.br 1 Objetivos

Leia mais

Universidade Federal do Rio de Janeiro SOBREVIVÊNCIA COM FRAGILIDADE ESPACIAL. Leonardo Soares Bastos

Universidade Federal do Rio de Janeiro SOBREVIVÊNCIA COM FRAGILIDADE ESPACIAL. Leonardo Soares Bastos Universidade Federal do Rio de Janeiro MODELOS DINÂMICOS E ESTATÍCOS DE SOBREVIVÊNCIA COM FRAGILIDADE ESPACIAL Leonardo Soares Bastos 2003 UFRJ Modelos Dinâmicos e Estáticos de Sobrevivência com Fragilidade

Leia mais

CE Estatística I

CE Estatística I CE 002 - Estatística I Agronomia - Turma B Professor Walmes Marques Zeviani Laboratório de Estatística e Geoinformação Departamento de Estatística Universidade Federal do Paraná 1º semestre de 2012 Zeviani,

Leia mais

Estatística I Aula 8. Prof.: Patricia Maria Bortolon, D. Sc.

Estatística I Aula 8. Prof.: Patricia Maria Bortolon, D. Sc. Estatística I Aula 8 Prof.: Patricia Maria Bortolon, D. Sc. MODELOS PROBABILÍSTICOS MAIS COMUNS VARIÁVEIS ALEATÓRIAS CONTÍNUAS Lembram o que vimos sobre V.A. contínua na Aula 6? Definição: uma variável

Leia mais

MAE Introdução à Probabilidade e Estatística II Resolução Lista 5

MAE Introdução à Probabilidade e Estatística II Resolução Lista 5 MAE 229 - Introdução à Probabilidade e Estatística II Resolução Lista 5 Professor: Pedro Morettin e Profa. Chang Chian Exercício 1 (a) De uma forma geral, o desvio padrão é usado para medir a dispersão

Leia mais

Produtos de potências racionais. números primos.

Produtos de potências racionais. números primos. MATEMÁTICA UNIVERSITÁRIA n o 4 Dezembro/2006 pp. 23 3 Produtos de potências racionais de números primos Mário B. Matos e Mário C. Matos INTRODUÇÃO Um dos conceitos mais simples é o de número natural e

Leia mais

CAPÍTULO 3 POPULAÇÃO E AMOSTRA

CAPÍTULO 3 POPULAÇÃO E AMOSTRA DEPARTAMENTO DE GEOCIÊNCIAS GCN 7901 ANÁLISE ESTATÍSTICA EM GEOCIÊNCIAS PROFESSOR: Dr. ALBERTO FRANKE CONTATO: alberto.franke@ufsc.br F: 3721 8595 CAPÍTULO 3 POPULAÇÃO E AMOSTRA As pesquisas de opinião

Leia mais

Modelos discretos e contínuos

Modelos discretos e contínuos Modelos discretos e contínuos Joaquim Neto joaquim.neto@ufjf.edu.br Departamento de Estatística - ICE Universidade Federal de Juiz de Fora (UFJF) Versão 3.0 Joaquim Neto (UFJF) ICE - UFJF Versão 3.0 1

Leia mais

1 Introdução aos Métodos Estatísticos para Geografia 1

1 Introdução aos Métodos Estatísticos para Geografia 1 1 Introdução aos Métodos Estatísticos para Geografia 1 1.1 Introdução 1 1.2 O método científico 2 1.3 Abordagens exploratória e confirmatória na geografia 4 1.4 Probabilidade e estatística 4 1.4.1 Probabilidade

Leia mais

Processos de Poisson

Processos de Poisson Processos de Poisson Mauro C. M. Campos 1 SUMÁRIO I Alguns fatos sobre a distribuição exponencial 1 II Alguns fatos sobre a distribuição de Poisson 2 III Processos estocásticos em tempo contínuo 2 IV Processos

Leia mais

Exercícios de Teoria da Probabilidade e Processos Estocásticos Parte I

Exercícios de Teoria da Probabilidade e Processos Estocásticos Parte I Exercícios de Teoria da Probabilidade e Processos Estocásticos Parte I 2014/2015 Os exercícios assinalados com (*) têm um nível de dificuldade superior. Exercício 1. Seja (X, F) um espaço mensurável. Mostre

Leia mais

Cálculo das Probabilidades e Estatística I

Cálculo das Probabilidades e Estatística I Cálculo das Probabilidades e Estatística I Prof a. Juliana Freitas Pires Departamento de Estatística Universidade Federal da Paraíba - UFPB juliana@de.ufpb.br Variáveis Aleatórias Ao descrever um espaço

Leia mais

Teoria de Filas Aula 10

Teoria de Filas Aula 10 Aula Passada Comentários sobre a prova Teoria de Filas Aula 10 Introdução a processos estocásticos Introdução a Cadeias de Markov Aula de Hoje Cadeias de Markov de tempo discreto (DTMC) 1 Recordando...

Leia mais

Notas de Aula. tal que, para qualquer ponto (x, y) no plano xy, temos: p XY

Notas de Aula. tal que, para qualquer ponto (x, y) no plano xy, temos: p XY UNIVERSIDDE FEDERL D BHI INSTITUTO DE MTEMÁTIC DEPRTMENTO DE ESTTÍSTIC v. demar de Barros s/n - Campus de Ondina 40170-110 - Salvador B Tel:(071)247-405 Fax 245-764 Mat 224 - Probabilidade II - 2002.2

Leia mais

Estatística Descritiva

Estatística Descritiva C E N T R O D E M A T E M Á T I C A, C O M P U T A Ç Ã O E C O G N I Ç Ã O UFABC Estatística Descritiva Centro de Matemática, Computação e Cognição March 17, 2013 Slide 1/52 1 Definições Básicas Estatística

Leia mais

Princípios de Modelagem Matemática Aula 09

Princípios de Modelagem Matemática Aula 09 Princípios de Modelagem Matemática Aula 09 Prof. José Geraldo DFM CEFET/MG 12 de maio de 2014 1 Modelos estatísticos e estimação de parâmetros A verificação de um modelo matemático demanda a realização

Leia mais

Nessa situação, a média dessa distribuição Normal (X ) é igual à média populacional, ou seja:

Nessa situação, a média dessa distribuição Normal (X ) é igual à média populacional, ou seja: Pessoal, trago a vocês a resolução da prova de Estatística do concurso para Auditor Fiscal aplicada pela FCC. Foram 10 questões de estatística! Não identifiquei possibilidade para recursos. Considero a

Leia mais

4 Modelos Lineares Generalizados

4 Modelos Lineares Generalizados 4 Modelos Lineares Generalizados Neste capítulo, serão apresentados arcabouços teóricos dos modelos lineares generalizados (MLGs) e como casos particulares desses modelos são aplicáveis ao problema da

Leia mais

Elementos de Estatística. Michel H. Montoril Departamento de Estatística - UFJF

Elementos de Estatística. Michel H. Montoril Departamento de Estatística - UFJF Elementos de Estatística Michel H. Montoril Departamento de Estatística - UFJF O que é a estatística? Para muitos, a estatística não passa de conjuntos de tabelas de dados numéricos. Os estatísticos são

Leia mais

Funções Geradoras de Variáveis Aleatórias. Simulação Discreta de Sistemas - Prof. Paulo Freitas - UFSC/CTC/INE

Funções Geradoras de Variáveis Aleatórias. Simulação Discreta de Sistemas - Prof. Paulo Freitas - UFSC/CTC/INE Funções Geradoras de Variáveis Aleatórias 1 Funções Geradoras de Variáveis Aleatórias Nos programas de simulação existe um GNA e inúmeras outras funções matemáticas descritas como Funções Geradoras de

Leia mais

Seja (X,Y) uma v.a. bidimensional contínua ou discreta. Define-se valor esperado condicionado de X para um dado Y igual a y da seguinte forma:

Seja (X,Y) uma v.a. bidimensional contínua ou discreta. Define-se valor esperado condicionado de X para um dado Y igual a y da seguinte forma: 46 VALOR ESPERADO CONDICIONADO Seja (X,Y) uma v.a. bidimensional contínua ou discreta. Define-se valor esperado condicionado de X para um dado Y igual a y da seguinte forma: Variável contínua E + ( X Y

Leia mais

Equações não lineares

Equações não lineares DMPA IME UFRGS Cálculo Numérico Índice Raizes de polinômios 1 Raizes de polinômios 2 raizes de polinômios As equações não lineares constituídas por polinômios de grau n N com coeficientes complexos a n,a

Leia mais

UNIVERSIDADE FEDERAL DA PARAÍBA. Variáveis Aleatórias. Departamento de Estatística Luiz Medeiros

UNIVERSIDADE FEDERAL DA PARAÍBA. Variáveis Aleatórias. Departamento de Estatística Luiz Medeiros UNIVERSIDADE FEDERAL DA PARAÍBA Variáveis Aleatórias Departamento de Estatística Luiz Medeiros Introdução Como sabemos, características de interesse em diversas áreas estão sujeitas à variação; Essa variabilidade

Leia mais

Princípios de Modelagem Matemática Aula 10

Princípios de Modelagem Matemática Aula 10 Princípios de Modelagem Matemática Aula 10 Prof. José Geraldo DFM CEFET/MG 19 de maio de 2014 1 Alguns resultados importantes em estatística A distribuição normal tem importante papel em estatística pois

Leia mais

Chamamos de evento qualquer subconjunto do espaço amostral: A é um evento A Ω.

Chamamos de evento qualquer subconjunto do espaço amostral: A é um evento A Ω. PROBABILIDADE 1.0 Conceitos Gerais No caso em que os possíveis resultados de um experimento aleatório podem ser listados (caso discreto), um modelo probabilístico pode ser entendido como a listagem desses

Leia mais

Variáveis Aleatórias. Prof. Tarciana Liberal Departamento de Estatística - UFPB

Variáveis Aleatórias. Prof. Tarciana Liberal Departamento de Estatística - UFPB Variáveis Aleatórias Prof. Tarciana Liberal Departamento de Estatística - UFPB Introdução Ao descrever o espaço amostral de um experimento aleatório, não especificamos que um resultado individual seja

Leia mais

Módulo IV: Processos Aleatórios Estacionários, Cicloestaionaridade e Análise de Continuidade de Processos Aleatórios

Módulo IV: Processos Aleatórios Estacionários, Cicloestaionaridade e Análise de Continuidade de Processos Aleatórios Módulo IV: Processos Aleatórios Estacionários, Cicloestaionaridade e Análise de Continuidade de Processos Aleatórios Wamberto J. L. Queiroz Universidade Federal de Campina Grande-UFCG Departamento de Engenharia

Leia mais

Conceito de Estatística

Conceito de Estatística Conceito de Estatística Estatística Técnicas destinadas ao estudo quantitativo de fenômenos coletivos, observáveis. Unidade Estatística um fenômeno individual é uma unidade no conjunto que irá constituir

Leia mais

Noções de Processos Estocásticos e Cadeias de Markov

Noções de Processos Estocásticos e Cadeias de Markov Noções de Processos Estocásticos e Cadeias de Markov Processo Estocástico Definição: Processo Estocástico é uma coleção de variáveis aleatórias indexadas por um parâmetro t R (entendido como tempo). X={

Leia mais

Ralph S. Silva

Ralph S. Silva ANÁLISE ESTATÍSTICA MULTIVARIADA Ralph S. Silva http://www.im.ufrj.br/ralph/multivariada.html Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Sumário

Leia mais

TESTES NÃO PARAMÉTRICOS (para mediana/média)

TESTES NÃO PARAMÉTRICOS (para mediana/média) MAE212: Introdução à Probabilidade e à Estatística II - Profas. Beti e Chang (2012) 1 TESTES NÃO PARAMÉTRICOS (para mediana/média) Os métodos de estimação e testes de hipóteses estudados até agora nessa

Leia mais

Probabilidade II. Departamento de Estatística. Universidade Federal da Paraíba

Probabilidade II. Departamento de Estatística. Universidade Federal da Paraíba Probabilidade II Departamento de Estatística Universidade Federal da Paraíba Prof. Tarciana Liberal (UFPB) Aula Distribuições Condicionais 11/13 1 / 19 Em estudo feito em sala perguntamos aos alunos qual

Leia mais

PROBABILIDADES E INTRODUÇÃO A PROCESSOS ESTOCÁSTICOS. Aula 7 11 e 12 abril MOQ-12 Probabilidades e Int. a Processos Estocásticos

PROBABILIDADES E INTRODUÇÃO A PROCESSOS ESTOCÁSTICOS. Aula 7 11 e 12 abril MOQ-12 Probabilidades e Int. a Processos Estocásticos PROBABILIDADES E INTRODUÇÃO A PROCESSOS ESTOCÁSTICOS Aula 7 11 e 12 abril 2007 1 Distribuições Discretas 1. Distribuição Bernoulli 2. Distribuição Binomial 3. Distribuição Geométrica 4. Distribuição Pascal

Leia mais

PROBABILIDADE E ESTATÍSTICA. Profa. Dra. Yara de Souza Tadano

PROBABILIDADE E ESTATÍSTICA. Profa. Dra. Yara de Souza Tadano PROBABILIDADE E ESTATÍSTICA Profa. Dra. Yara de Souza Tadano yaratadano@utfpr.edu.br Aula 7 11/2014 Variáveis Aleatórias Variáveis Aleatórias Probabilidade e Estatística 3/41 Variáveis Aleatórias Colete

Leia mais

Modelos para dados de contagem

Modelos para dados de contagem O modelo de Poisson Sumário 1 Introdução 2 Regressão de Poisson Taxa de Incidência Inclusão de covariáveis Interpretação dos parâmetros 3 Exemplos 4 Superdispersão Dados de Contagem Podemos estar interessados

Leia mais

Teoria dos Jogos Algorítmica Maximização de Lucros no Design de Mecanismos

Teoria dos Jogos Algorítmica Maximização de Lucros no Design de Mecanismos Teoria dos Jogos Algorítmica Maximização de Lucros no Design de Mecanismos Luis Gustavo Rocha Vianna. Instituto de Matemática e Estatística IME Universidade de São Paulo USP Maximização de Lucros Design

Leia mais

CAPÍTULO 5: VARIÁVEIS ALEATÓRIAS BIDIMENSIONAIS Todas as coisas aparecem e desaparecem por causa da concorrência de causas e condições. Nada nunca existe inteiramente só, tudo está em relação com todo

Leia mais

PROCESSOS ESTOCÁSTICOS

PROCESSOS ESTOCÁSTICOS PROCESSOS ESTOCÁSTICOS Definições, Principais Tipos, Aplicações em Confiabilidade de Sistemas e Sinais CLARKE, A. B., DISNEY, R. L. Probabilidade e Processos Estocásticos, Rio de Janeiro: Livros Técnicos

Leia mais

4 Processos Estocásticos e Simulação de Monte Carlo

4 Processos Estocásticos e Simulação de Monte Carlo 33 4 Processos Estocásticos e Simulação de Monte Carlo O processo estocástico faz a descrição de uma variável com comportamento ao menos em parte de maneira aleatória através do tempo, onde se assume valores

Leia mais

Predição Espacial Bayesiana Para Dados Composicionais

Predição Espacial Bayesiana Para Dados Composicionais Aluna de Doutorado: Orientador: Paulo Justiniano Ribeiro Junior Universidade Federal do Paraná Programa de Pós-Graduação em Métodos Numéricos em Engenharia 19 de outubro de 2009 Tese Motivação Dados Composicionais

Leia mais

PROBABILIDADE E ESTATÍSTICA DISTRIBUIÇÕES DE PROBABILIDADES

PROBABILIDADE E ESTATÍSTICA DISTRIBUIÇÕES DE PROBABILIDADES PROBABILIDADE E ESTATÍSTICA DISTRIBUIÇÕES DE PROBABILIDADES Bruno Baierle Maurício Furigo Prof.ª Sheila Regina Oro (orientadora) Edital 06/2013 - Produção de Recursos Educacionais Digitais Variável Aleatória

Leia mais

Modelos Dinâmicos Hierárquicos Espaço-Temporais para Dados na Família Exponencial

Modelos Dinâmicos Hierárquicos Espaço-Temporais para Dados na Família Exponencial Modelos Dinâmicos Hierárquicos Espaço-Temporais para Dados na Família Exponencial Ana Carolina Carioca da Costa Universidade Federal do Rio de Janeiro Instituto de Matemática Departamento de Métodos Estatísticos

Leia mais

PROCESSOS ESTOCÁSTICOS

PROCESSOS ESTOCÁSTICOS PROCESSOS ESTOCÁSTICOS Definições, Principais Tipos, Aplicações em Confiabilidade de Sistemas CLARKE, A. B., DISNEY, R. L. Probabilidade e Processos Estocásticos, Rio de Janeiro: Livros Técnicos e Científicos

Leia mais

4. Distribuições de probabilidade e

4. Distribuições de probabilidade e 4. Distribuições de probabilidade e características Valor esperado de uma variável aleatória. Definição 4.1: Dada uma v.a. discreta (contínua) X com f.m.p. (f.d.p.) f X (), o valor esperado (ou valor médio

Leia mais

Variáveis Aleatórias. Prof. Tarciana Liberal Departamento de Estatística - UFPB

Variáveis Aleatórias. Prof. Tarciana Liberal Departamento de Estatística - UFPB Variáveis Aleatórias Prof. Tarciana Liberal Departamento de Estatística - UFPB Introdução Ao descrever o espaço amostral de um experimento aleatório, não especificamos que um resultado individual seja

Leia mais

Técnicas Computacionais em Probabilidade e Estatística I. Aula I

Técnicas Computacionais em Probabilidade e Estatística I. Aula I Técnicas Computacionais em Probabilidade e Estatística I Aula I Chang Chiann MAE 5704- IME/USP 1º Sem/2008 1 Análise de Um conjunto de dados objetivo: tratamento de um conjunto de dados. uma amostra de

Leia mais

Tratamento estatístico de observações

Tratamento estatístico de observações Tratamento estatístico de observações Prof. Dr. Carlos Aurélio Nadal OBSERVAÇÃO: é o valor obtido durante um processo de medição. DADO: é o resultado do tratamento de uma observação (por aplicação de uma

Leia mais

Lista de Exercicios 1 MEDIDAS RESUMO. ESTIMAÇÃO PONTUAL.

Lista de Exercicios 1 MEDIDAS RESUMO. ESTIMAÇÃO PONTUAL. Introdução à Inferência Estatística Departamento de Física é Matemática. USP-RP. Prof. Rafael A. Rosales 5 de setembro de 004 Lista de Exercicios 1 MEDIDAS RESUMO. ESTIMAÇÃO PONTUAL. 1 Medidas Resumo DISTRIBUIÇÕES

Leia mais

3 Aprendizado por reforço

3 Aprendizado por reforço 3 Aprendizado por reforço Aprendizado por reforço é um ramo estudado em estatística, psicologia, neurociência e ciência da computação. Atraiu o interesse de pesquisadores ligados a aprendizado de máquina

Leia mais

Contabilometria. Aula 9 Regressão Linear Inferências e Grau de Ajustamento

Contabilometria. Aula 9 Regressão Linear Inferências e Grau de Ajustamento Contabilometria Aula 9 Regressão Linear Inferências e Grau de Ajustamento Interpretação do Intercepto e da Inclinação b 0 é o valor estimado da média de Y quando o valor de X é zero b 1 é a mudança estimada

Leia mais

Processos estocásticos

Processos estocásticos 36341 - Introdução aos Processos Estocásticos Curso de Pós-Graduação em Engenharia Elétrica Departamento de Engenharia Elétrica Universidade de Brasília Processos estocásticos Geovany A. Borges gaborges@ene.unb.br

Leia mais