Modelos Lineares Generalizados Bayesianos para Dados Longitudinais

Tamanho: px
Começar a partir da página:

Download "Modelos Lineares Generalizados Bayesianos para Dados Longitudinais"

Transcrição

1 Modelos Lineares Generalizados Bayesianos para Dados Longitudinais Frederico Monfardini Orientador: Profa. Dra. Aparecida Doniseti Pires de Souza - DEst/FCT/UNESP Coorientador: Prof. Dr. Hélio dos Santos Migon - DME/IM/UFRJ Programa: Matemática Aplicada e Computacional Presidente Prudente, Fevereiro de 2016

2

3 UNIVERSIDADE ESTADUAL PAULISTA Faculdade de Ciências e Tecnologia de Presidente Prudente Programa de Pós-Graduação em Matemática Aplicada e Computacional Modelos Lineares Generalizados Bayesianos para Dados Longitudinais Frederico Monfardini Orientador: Profa. Dra. Aparecida Doniseti Pires de Souza - DEst/FCT/UNESP Coorientador: Prof. Dr. Hélio dos Santos Migon - DME/IM/UFRJ Dissertação apresentada ao Programa de Pós-Graduação em Matemática Aplicada e Computacional da Faculdade de Ciências e Tecnologia da UNESP para obtenção do título de Mestre em Matemática Aplicada e Computacional. Presidente Prudente, Fevereiro de 2016

4 FICHA CATALOGRÁFICA Monfardini, Frederico. M752m Modelos lineares generalizados bayesianos para dados longitudinais / Frederico Monfardini. - Presidente Prudente : [s.n], f. Orientador: Aparecida Doniseti Pires de Souza Coorientador: Hélio dos Santos Migon Dissertação (mestrado) - Universidade Estadual Paulista, Faculdade de Ciências e Tecnologia Inclui bibliografia 1. Modelos lineares generalizados. 2. Modelos hierárquicos dinâmicos. 3. MCMC. I. Monfardini, Frederico. II. Souza, Aparecida Doniseti Pires de. III. Migon, Hélio dos Santos. IV. Universidade Estadual Paulista. Faculdade de Ciências e Tecnologia. V. Modelos Lineares Generalizados Bayesianos para Dados Longitudinais.

5

6

7 Dedico essa dissertação a minha mãe, as minhas tias e a minha irmã, que me apoiaram durante todo este período do mestrado.

8

9 Agradecimentos Agradeço, primeiramente, a Deus, em quem sempre depositei minha fé e onde sempre pude encontrar paz, segurança e força. O período do mestrado me ajudou a fortalecer ainda mais minha fé Nele, pois em alguns momentos tive que fazer a fé pensar e a razão crer. Agradeço à minha família, em especial, minha mãe Sônia, minhas tias Joana Odete e Ana Rita, meu tio Raul, minha irmã Cynthia e meu cunhado Leandro, que me ajudaram e sempre me apoiaram no período do mestrado. Sem eles em minha vida, não seria possível a realização deste trabalho. Agradeço à minha namorada Talita, que soube entender os momentos que estive longe devido ao mestrado e em quem sempre encontrei ouvidos para poder compartilhar as cargas. Com ela, aprendi que um relacionamento é muito mais do que estar junto, é poder compartilhar alegrias e tristezas e saber que aquilo que sentimos um pelo outro é verdadeiro e sincero, não importando qual seja a distância que estamos. Agradeço à professora Aparecida, que me orientou durante quase 6 anos, incluindo a graduação e o mestrado, e hoje, depois de algumas brigas, reuniões e risadas, posso compartilhar a alegria de concluir este trabalho. Agradeço ao Ricardo, ao Vlademir e ao Thiago, que são meus amigos desde o início de minha graduação, e são eles que me entendem quando compartilho algo relacionado a universidade. Estes são amigos que levarei por toda a vida, mesmo que estejam longe. Agradeço ao tio Anísio, tia Marta, Ismael, Natálya, Rodrigo, Regiany, Samuel e tia Dina, que não sei dizer se foram eles que me adotaram como membro da família ou se eu que os adotei como minha família prudentina, pois os sinto como meus pais, tios e irmãos. Deles, não consigo resumir em palavras o que sinto, apenas digo obrigado por tudo. Agradeço aos membros da igreja da comunhão evangélica, em especial, ao pastor Roberto, Marta Cristina, Mariana, Bruna, Josiê, José, Zuleica, que me contribuíram para minha caminhada na fé. Um agradecimento especial ao Ministério Infantil onde pude aprender a simplicidade de Cristo nas crianças. Agradeço à Rebeca, Davi, Breno, Luana, Bianca, Fernanda, João Vitor, Sofia e outras crianças que fazem parte do MI por me mostrar isso. Agradeço ainda ao professor Afrânio Márcio Corrêa Vieira/DEs - UFSCar que disponibilizou os conjuntos de dados para que eu pudesse finalizar meu trabalho e ao professor Elias Teixeira Krainski/DEST - UFPR que se dispôs em me ajudar com a implementação do método INLA nos modelos que eu estudei. Se eu for colocar os nomes de todos que fizeram parte e minha vida neste período do mestrado seriam muitas páginas só de agradecimento. Assim, agradeço de coração a todos aqueles que fizeram parte de minha vida, citados ou não citados. Muito obrigado!

10

11 Alguns usam a estatística como os bêbados usam postes: mais para apoio do que para iluminação. Andrew Lang

12

13 Resumo Os Modelos Lineares Generalizados (GLM) foram introduzidos no início dos anos 70, tendo um grande impacto no desenvolvimento da teoria estatística. Do ponto de vista teórico, esta classe de modelos representa uma abordagem unificada de muitos modelos estatísticos, correntemente usados nas aplicações, podendo-se utilizar dos mesmos procedimentos de inferência. Com o avanço computacional das últimas décadas foi notável o desenvolvimento de extensões nesta classe de modelos e de métodos para os procedimentos de inferência. No contexto da abordagem Bayesiana, até a década de 80 utilizava-se de métodos aproximados de inferência, tais como aproximação de Laplace, quadratura Gaussiana e outros. No início da década de 90, foram popularizados os métodos de Monte Carlo via Cadeias de Markov (Monte Carlo Markov Chain - MCMC) que revolucionaram as aplicações no contexto Bayesiano. Apesar de serem métodos altamente eficientes, a convergência do algoritmo em modelos complexos pode ser extremamente lenta, o que gera alto custo computacional. Em 2009 surgiu o método de Aproximações de Laplace Aninhadas Integradas (Integrated Nested Laplace Aproximation - INLA) que busca eficiência tanto no custo computacional como na precisão das estimativas. Considerando a importância desta classe de modelos, neste trabalho propõem-se explorar extensões dos MLG para dados longitudinais e recentes propostas apresentadas na literatura para os procedimentos de inferência. Mais especificamente, explorar modelos para dados binários (binomiais) e para dados de contagem (Poisson), considerando a presença de variabilidade extra, incluindo superdispersão e presença de efeitos aleatórios através de modelos hierárquicos e modelos hierárquicos dinâmicos. Além disso, explorar diferentes procedimentos de inferência no contexto Bayesiano, incluindo MCMC e INLA. Palavras-Chave: Modelos Lineares Generalizados, Modelos Hierárquicos Dinâmicos, MCMC, INLA.

14

15 Abstract Generalized Linear Models (GLM) were introduced in the early 70s, having a great impact on the development of statistical theory. From a theoretical point of view, this class of model is a unified approach to many statistical models commonly used in applications and can be used with the same inference procedures. With advances in the computer over subsequent decades has come a remarkable development of extensions in this class of design and method for inference procedures. In the context of Bayesian approach, until the 80s, it was used to approximate inference methods, such as approximation of Laplace, Gaussian quadrature, etc., The Monte Carlo Markov Chain methods (MCMC) were popularized in the early 90s and have revolutionized applications in a Bayesian context. Although they are highly efficient methods, the convergence of the algorithm in complex models can be extremely slow, which causes high computational cost. The Integrated Nested Laplace Approximations method (INLA), seeking efficiency in both computational cost and accuracy of estimates, appeared in This work proposes to explore extensions of GLM for longitudinal data considering the importance of this class of model, and recent proposals in the literature for inference procedures. More specifically, it explores models for binary data (binomial) and count data (Poisson), considering the presence of extra variability, including overdispersion and the presence of random effects through hierarchical models and hierarchical dynamic models. It also explores different Bayesian inference procedures in this context, including MCMC and INLA. Keywords: Generalized Linear Models, Hierarchical Dynamic Models, MCMC, INLA.

16

17 Lista de Figuras 4.1 Evolução da proporção observada para o grau de severidade da infecção na unha para os tratamentos A (linha cinza) e B (linha azul claro) Evolução d a proporção estimada para p grau de severidade da infecção na unha para ambos os tratamentos no Modelo (4.1), segundo os métodos MCMC (linhas pontilhadas curtas) e INLA (linhas pontilhadas longas) Evolução da proporção estimada para o grau de severidade da infecção na unha para ambos os tratamentos no Modelo (4.3), segundo os métodos MCMC (linhas pontilhadas curtas) e INLA (linhas pontilhadas longas) Gráfico para a média da contagem de ataques para os grupos controle (linha cinza) e tratamento (linha azul claro) Número médio de ataques estimado para os pacientes com epilepsia nos dois grupos (controle e tratamento) no Modelo (4.5), segundo os métodos MCMC (linhas pontilhadas curtas) e INLA (linhas pontilhadas longas) Número médio de ataques estimado para os pacientes com epilepsia nos dois grupos (controle e tratamento) no Modelo (4.7), segundo os métodos MCMC (linhas pontilhadas curtas) e INLA (linhas pontilhadas longas) A.1 Gráficos das distribuições a posteriori para os parâmetros: (a) representa o intercepto (α 0 ); (b) o tipo de semente (α 1 ); (c) o tipo de raiz (α 2 ); (d) a interação (α 12 ) A.2 Gráfico para da distribuição a posteriori para a precisão do efeito aleatório. 63 A.3 Gráficos das distribuições a posteriori para os parâmetros: (a) representa o intercepto (α 0 ); (b) a base (α Base ); (c) o tratamento (α Trt ); (d) a interação (α BT ; (e) a idade (α Age ); (f) indicativa para 4 a visita (α V4 ) A.4 Gráficos das distribuições a posteriori para a precisão dos efeitos aleatórios: (a) representando cada indivíduo no primeiro tempo (b j1 ); (b) representando cada indivíduo no tempo k (b jk )

18

19 Lista de Tabelas 2.1 Características das distribuições Normal, Bernoulli e Poisson escritas na forma da família exponencial e suas respectivas funções de ligação Proporção dos pacientes segundo o grau de severidade da infecção, nãosevero (0), severo (1) ou falta de informação (NA) ao longo do tempo Estimativas para a média a posteriori, desvio padrão e intervalos de credibilidade (ICr) para os parâmetros no Modelo (4.1) Estimativas para a média a posteriori, desvio padrão e intervalos de credibilidade (ICr) para os parâmetros no Modelo (4.3) Estudo onychomycosis: Estimativas dos parâmetros e desvios padrão (MO- LENBERGHS et al., 2010) para as diferentes estruturas de modelos com a variável resposta Bernoulli Número médio de ataques epilépticos em cada mês e em cada um dos tratamentos e número de observações não disponíveis (NA) Estimativas para a média a posteriori, desvio padrão e intervalos de credibilidade (ICr) para os parâmetros no Modelo (4.5) Estimativas para a média a posteriori, desvio padrão e intervalos de credibilidade (ICr) para os parâmetros do Modelo Estudo epilepsia: Estimativas dos parâmetros e desvios padrão (MOLEN- BERGHS et al., 2010) para as diferentes estruturas de modelos com a variável resposta Poisson A.1 Dados sobre o Planejamento Fatorial 2 2 por tipo de semente e tipo de raiz A.2 Estimativas para a média a posteriori dos parâmetros e intervalos de credibilidade (ICr) para os parâmetros do Modelo A A.3 Dados sobre os pacientes com epilepsia A.4 Estimativas para a média a posteriori dos parâmetros e intervalos de credibilidade (ICr) para os parâmetros do Modelo A

20

21 Sumário Resumo 5 Abstract 7 Lista de Figuras 7 Lista de Tabelas 9 Capítulos 14 1 Introdução Modelos Lineares Generalizados e Extensões Métodos Aproximados em Inferência Bayesiana Exemplos de Aplicação Proposta e Apresentação do Trabalho Modelos Lineares Generalizados e Extensões A Família Exponencial O Modelo Linear Generalizado (GLM) Exemplos de GLM Inferência sobre os parâmetros do GLM GLM para Dados Longitudinais Dados Longitudinais Modelos de Superdispersão Modelos de Regressão com Efeitos Aleatórios Normais Combinando os Modelos de Superdispersão e de Efeitos Aleatórios Modelos Lineares Generalizados Hierárquicos Dinâmicos Métodos Aproximados em Inferência Bayesiana Conceitos Básicos em Inferência Bayesiana Conceito de Informação Teorema de Bayes Função de Verossimilhança Caracterização do Problema Aproximação da Distribuição Preditiva pelo Método de Laplace Aproximação da Distribuição Preditiva por Métodos de Monte Carlo Métodos de Monte Carlo via Cadeias de Markov (MCMC) Método de Aproximações de Laplace Aninhadas Integradas (INLA)

22 3.5 Seleção de Modelos e Medidas para a Avaliação do Ajuste Critério de Informação Deviance (DIC) Conditional predictive ordinate (CPO) Deviance Preditivo Esperado (EPD) Exemplos de Aplicação Exemplo para Dados Binários Descrição e apresentação dos dados Modelagem e Estimação Resultados e Discussões Exemplo para Dados de Contagem Descrição e apresentação dos dados Modelagem e Estimação Resultados e Discussões Uso do MCMC e INLA Considerações Finais e Perspectivas Futuras 55 Referências 55 A Exemplos de Motivação 61 A.1 Exemplo de Modelo de Regressão para Dados Binários A.2 Exemplo de Modelo de Regressão para Dados de Contagem A.3 Comandos usados nos exemplos do Apêndice A A.3.1 Modelo de Regressão para Dados Binários A.3.2 Modelo de Regressão para Dados Contagem B Comandos usados nos exemplos do Capítulo 4 71 B.1 Modelo de Regressão para Dados Binários B.1.1 Código para o modelo puro para o método MCMC via OpenBUGS 71 B.1.2 Código para o modelo puro para o método INLA via linguagem de programação R B.1.3 Código para o modelo dinâmico para o método MCMC via Open- BUGS B.1.4 Código para o modelo dinâmico para o método INLA via linguagem de programação R B.2 Modelo de Regressão para Dados Contagem B.2.1 Código para o modelo puro para o método MCMC via OpenBUGS 73 B.2.2 Código para o modelo puro para o método INLA via linguagem de programação R B.2.3 Código para o modelo dinâmico para o método MCMC via Open- BUGS B.2.4 Código para o modelo dinâmico para o método INLA via linguagem de programação R

23 Capítulo 1 Introdução O avanço computacional das últimas décadas tem permitido que modelos complexos sejam aplicados, de forma mais realista, na representação de fenômenos estocásticos. Entre estes modelos estão os Modelos Lineares Generalizados (GLMs) e suas extensões. Os Modelos Lineares Generalizados foram estabelecidos há mais de quatro décadas num artigo publicado por Nelder e Wedderburn (1972). Esta publicação foi um marco no desenvolvimento de modelagem estatística, permitindo, a partir daí, que fenômenos aleatórios fossem modelados de acordo com distribuições apropriadas e sem necessariamente ter de fazer transformações nos dados. Nestes últimos 40 anos muitas extensões foram apresentadas na literatura. A proposta deste trabalho consistiu em estudar algumas destas extensões dos GLMs e exemplos de aplicação. Dentre estas extensões estão os modelos para dados binários e para dados de contagem considerando variabilidade extra, incluindo superdispersão e presença de efeitos aleatórios, através de modelos hierárquicos e modelos hierárquicos dinâmicos. Além disso, explorar diferentes procedimentos de inferência no contexto Bayesiano, incluindo MCMC e INLA. Neste capítulo será apresentado uma síntese do conteúdo deste trabalho e a motivação para seu desenvolvimento. 1.1 Modelos Lineares Generalizados e Extensões O precursor na área de modelagem foi Francis Galton que, em 1886, desenvolveu o modelo de regressão linear simples, relacionando a altura de jovens adultos com a altura média de seus pais. Na sequência outros estudos envolvendo modelos de regressão foram apresentados na literatura, dentre eles pode-se citar regressão linear múltipla, regressão logística, entre outros. Em geral, estes modelos buscam relacionar uma variável aleatória, denominada resposta, em função de outras que se espera contribuir para explicar a sua variabilidade. Nelder e Wedderburn (1972) perceberam que poderiam reunir tais modelos numa classe geral, denominada Modelos Lineares Generalizados (GLM), para variável resposta com distribuição na família exponencial. A vantagem nesta classe de modelos é que a variável resposta pode assumir qualquer distribuição nesta família e a relação entre a variável resposta e as covariáveis, que podem contribuir ou não para explicar sua variabilidade, se dá através de uma função de ligação. Esta função tem o papel de 15

24 1. Introdução 16 relacionar a média da variável resposta e o preditor linear (estrutura linear envolvendo as covariáveis e seus efeitos) ((DEMÉTRIO; CORDEIRO, 2007);(DOBSON, 2001)). Em síntese, os Modelos Lineares Generalizados foram estabelecidos há mais de quatro décadas por Nelder e Wedderburn (1972). Esta publicação foi um marco no desenvolvimento de modelagem estatística, permitindo, a partir daí, que fenômenos aleatórios fossem modelados de acordo com distribuições apropriadas e sem necessariamente ter de fazer transformações nos dados. A falta de bibliografia acessível e de software que permitisse sua implementação de forma simplificada dificultou sua divulgação e aplicação por volta de 20 anos. Atualmente, a maioria dos pacotes estatísticos de maior expansão já contém módulos adequados ao estudo destes modelos. Esta classe de modelos vem ganhando cada vez mais espaço na estatística moderna, devido ao desenvolvimento de novas tecnologias e de software com programas para a implementação do processo de inferência, tanto para abordagem Clássica quanto Bayesiana. Uma justificativa para a escolha deste tema consiste no fato de que o conhecimento da metodologia sobre os Modelos Lineares Generalizados e suas extensões é imprescindível para qualquer indivíduo que utilize métodos estatísticos. Nos últimos anos, com o objetivo de modelar mais realisticamente o processo aleatório em estudo, muitas extensões foram propostas na literatura. Dentre estas extensões estão os modelos para dados binários e para dados de contagem, permitindo a inclusão de variabilidade extra, modelos lineares hierárquicos e modelos hierárquicos dinâmicos (DEY; GHOSH; MALLICK, 2000)(DIGGLE et al., 2002). Duas das principais razões para estas extensões são a ocorrência de superdispersão, o que significa que a variabilidade dos dados não é adequadamente descrita pelos modelos, e a acomodação de estrutura hierárquica nos dados, resultante de agrupamento nos dados ou mesmo de medidas repetidas no tempo (MOLENBERGHS et al., 2010). 1.2 Métodos Aproximados em Inferência Bayesiana O avanço dos métodos de simulação estocástica e, paralelamente, de métodos computacionais, dos últimos anos, vem permitindo a especificação de modelos que represente adequadamente o comportamento do fenômeno aleatório em estudo, incluindo componentes aleatórias que capturem estruturas de correlação nos dados. A inferência sobre o vetor de parâmetros do modelo pode ser feita através das abordagens Clássica ou Bayesiana. Na abordagem Bayesiana os parâmetros em estudo são considerados variáveis aleatórias, especificando-se uma distribuição a priori conjunta para o vetor de parâmetros a partir de informações disponíveis antes de uma amostra ser selecionada. A análise Bayesiana consiste na obtenção da distribuição a posteriori para os parâmetros, obtida combinando-se a distribuição a priori, que representa a informação disponível antes da obtenção dos dados (informativa ou não), e a função de verossimilhança que representa a informação contida na amostra. Desta forma, a análise Bayesiana consiste na atualização da distribuição a priori, utilizando-se para isso o teorema de Bayes (GELMAN; CARLIN; STERN, 2014); (O HAGAN; FORSTER, 2004). A diferença básica entre as abordagens clássica e Bayesiana para a estimação dos parâmetros está, principalmente, no fato de que a primeira considera na análise somente as informações contidas em uma amostra selecionada da população em estudo e a segunda permite incorporar informações provenientes de experiências passadas e/ou opinião de

25 1. Introdução 17 especialistas. Outra vantagem da abordagem Bayesiana em relação à clássica está no fato de não exigir grandes amostras, uma vez que não é baseada em resultados assintóticos. O problema central quando se trata de Inferência Bayesiana e de modelos complexos consiste na obtenção da distribuição a posteriori, que depende da solução de integrais que nem sempre são tratáveis analiticamente e o uso de métodos numéricos se faz necessário. No caso de modelos com estruturas complexas os métodos mais eficientes são os baseados em amostragem, mais especificamente os Métodos de Monte Carlo via Cadeias de Markov (MCMC) (GAMERMAN; LOPES, 2006). Outra referência importante neste contexto é Gelfand e Smith (1990), trabalho que popularizou os métodos MCMC entre os Bayesianos. O método INLA (Integrated Nested Laplace Approximation) (RUE; MARTINO; CHOPIN, 2009), baseado em aproximações de Laplace para integrais aninhadas, tem sido utilizado como alternativa ao MCMC, para estimação de parâmetros via abordagem Bayesiana. Pesquisas vêm sendo desenvolvidas comparando o método INLA ao método MCMC. Alguns dos exemplos de aplicação do método INLA atualmente consistem em mapeamento de doenças, modelos espaço-temporal, modelos dinâmicos e mistura de modelos ((RUE; MARTINO; CHOPIN, 2009); (HELD; SCHRÖDLE; RUE, 2010) ;(ILLIAN; RUE, 2010); (RUIZ-CÁRDENAS; KRAINSKI; RUE, 2010); (SIMPSON; LINDGREN; RUE, 2011)). 1.3 Exemplos de Aplicação Como motivação para o desenvolvimento deste trabalho, inicialmente, foram exploradas duas aplicações da literatura, cujos resultados são apresentados no Apêndice A. A primeira refere-se a análise de um Planejamento Fatorial 2 2 para tipo de semente e tipo de raiz, com o objetivo de explorar diferenças na proporção de germinação das sementes. A segunda tem por objetivo comparar a eficiência de uma nova droga no tratamento de pacientes portadores de epilepsia. Os dados consistem em informações sobre o número de ataques epilépticos em quatro momentos (a cada duas semanas), idade do paciente e número de ataques nas 8 semanas anteriores ao início do tratamento. Com o objetivo de aplicar os modelos explorados neste trabalho, foram analisadas outras duas aplicações. A primeira refere-se à comparação entre dois tratamentos diferentes para micose da unha do dedão do pé, ao longo do tempo. A segunda aplicação tem por objetivo comparar a efetividade de uma nova droga para pessoas com epilepsia. 1.4 Proposta e Apresentação do Trabalho Considerando a importância dessa classe de modelos, a proposta deste trabalho consiste em revisitar os modelos lineares generalizados, explorando extensões para dados longitudinais e recentes propostas apresentadas na literatura para os procedimentos de inferência. Mais especificamente, explorar modelos para dados binários (binomiais) e para dados de contagem (Poisson). Quanto ao procedimento de inferência pretende-se comparar resultados obtidos via os métodos MCMC e INLA. O interesse neste projeto está em verificar as vantagens e desvantagens em se utilizar o INLA em relação ao método MCMC, nos modelos abordados. Para isso, no Capítulo 2 são apresentados os modelos lineares generalizados e extensões, considerando também estruturas hierárquicas e dinâmicas. No Capítulo 3 são

26 1. Introdução 18 apresentados métodos aproximados em inferência Bayesiana, explorando o amostrador de Gibbs e o INLA e algumas medidas para a avaliação do ajuste de um modelo. No Capítulo 4 são exploradas duas aplicações neste contexto e comparados resultados obtidos via MCMC e INLA. Considerações finais e perspectivas futuras são apresentados no Capítulo 5.

27 Capítulo 2 Modelos Lineares Generalizados e Extensões Os Modelos Lineares Generalizados (em inglês, Generalized Linear Models - GLM) foram desenvolvidos por Nelder e Wedderburn (1972). Eles tiveram a ideia de reunir vários modelos que já haviam sido desenvolvidos, tais como modelo linear normal, modelo de regressão logística, modelo de regressão de Poisson, entre outros. Observaram que a variável resposta dos modelos pertenciam à família exponencial. Assim, conseguiram reunir os diferentes tipos de modelos na classe dos GLM. Neste capítulo será apresentado a família exponencial de distribuições e introduzida a teoria dos Modelos Lineares Generalizados propriamente dita e suas extensões. 2.1 A Família Exponencial Considere Y uma variável aleatória que segue uma distribuição na família exponencial, definida da seguinte forma f(y θ,φ) = exp { φ 1 [yθ ψ(θ)]+c(y,φ) }, (2.1) para θ e φ parâmetros desconhecidos e ψ( ) e c(, ) funções conhecidas. Normalmente, θ é conhecido como parâmetro natural (ou parâmetro canônico) e φ é conhecido como parâmetro de escala (ou parâmetro de dispersão). Segundo Verbeke e Molenberghs (2005), os dois primeiros momentos seguem a função ψ( ) com E(Y) = µ = ψ (θ) (2.2) Var(Y) = σ 2 = φψ (θ). (2.3) Uma importante implicação, em geral, é que a média e a variância são relacionadas através de σ 2 = φψ (θ) = φψ (ψ 1 (µ)) = φυ(µ), onde υ( ) é chamada de função de variância, descrevendo a relação entre a média e a variância (MOLENBERGHS et al., 2010). Importantes distribuições pertencem à família exponencial, tais como: Normal, Binomial (Bernoulli), Poisson, Exponencial, Weibull, entre outras. 19

28 2. Modelos Lineares Generalizados e Extensões O Modelo Linear Generalizado (GLM) No contexto de modelos de regressão, deseja-se explicar a variabilidade da variável resposta através de covariáveis medidas. Isso conduz aos modelos lineares generalizados (GLM). Para isso, seja Y 1,,Y n uma amostra aleatória e sejam x 1,,x n covariáveis tais que x i representa um vetor p-dimensional. Assume-se que todos os Y i têm densidade f(y i θ i,φ) pertencente à família exponencial, mas um diferente parâmetro natural η i para cada observação. A especificação do GLM se faz através de um modelo de ligação entre a média µ i e as covariáveis medidas, ou seja, µ i = h(η i ) = h(x iβ), (2.4) h( ) uma função conhecida e β vetor p-dimensional dos coeficientes da regressão. Usualmente, h 1 ( ) é chamada de função de ligação. Em geral, se usa h( ) = ψ ( ), logo é equivalente assumir que θ i = η i = x iβ, i = 1,2,,n Exemplos de GLM Nas seções abaixo seguem três diferentes modelos de regressão que se adequam aos GLM. Um resumo é apresentado na Tabela Modelos de Regressão para Dados Contínuos Seja Y distribuído normalmente com média µ e variância σ 2, sua densidade é dada por { ) ( )} 1 f(y µ,σ 2 ) = exp (yµ µ2 log(2πσ 2 ) + y2. (2.5) σ σ 2 A distribuição normal escrita na forma da equação (2.5) pertence à família exponencial, com parâmetro natural θ igual a µ, parâmetro de escala φ igual a σ 2 e função de variância υ(µ) = 1. A função de ligação é igual a função identidade, levando ao modelo linear clássico Y i N(µ i,σ 2 ) com µ i = x iβ, i = 1,2,,n Modelos de Regressão para Dados Binários Seja Y pertencente à distribuição de Bernoulli com probabilidade de sucesso P(Y = 1) = π, cuja função de probabilidade é dada por { ( ) } π f(y π) = exp ylog +log(1 π). (2.6) 1 π A distribuição de Bernoulli escrita na forma da equação (2.6) pertence à família exponencial, com parâmetro natural θ igual ao logito, isto é, log[π/(1 π)], parâmetro de escala φ = 1, com média µ = π e função de variância υ(π) = π(1 π). A função de ligação é igual a função logito, levando ao modelo de regressão logística Y i Bernoulli(π i ) com log[π i /(1 π i )] = x iβ, ou seja, π i = exp(x iβ) 1+exp(x i β),i = 1,2,,n. (2.7) Para modelos de dados binários existem outras funções de ligação além da função logito, em que as mais comuns são a função probito e a valor extremo.

29 2. Modelos Lineares Generalizados e Extensões Modelos de Regressão para Dados de Contagem Seja Y pertencente à distribuição de Poisson com média λ, cuja função de probabilidade é dada por f(y λ) = exp{ylogλ λ logy!}. (2.8) A distribuição de Poisson escrita na forma da equação (2.8) pertence à família exponencial, com parâmetro natural θ igual a logλ, parâmetro de escala φ = 1 e função de variância υ(λ) = 1. O logaritmo é a função de ligação, levando ao modelo de regressão Poisson, Y i Poisson(λ i ), com logλ i = x i β, ou seja, λ i = exp(x iβ), i = 1,2,,n Inferência sobre os parâmetros do GLM Para estimar os coeficientes da regressão em β normalmente usa-se a estimação por máxima verossimilhança (EMV). Este método de estimação depende da função de verossimilhança, função que carrega toda a informação contida na amostra. Assim, para uma amostra de tamanho n, assumindo independência das observações, o log da verossimilhança é dado por l(β,φ) = 1 φ n [y i θ i ψ(θ i )]+ i=1 n c(y i,φ). (2.9) A função escore representa a derivada de primeira ordem da função de verossimilhança (ou log da função de verossimilhança) em relação ao vetor β. Igualando a função escore a zero tem-se [ ] S(β) = 1 n n [y i θ i ψ(θ i )]+ c(y i,φ) = 0 β φ = n i=1 i=1 pois µ i = ψ (θ i ) e υ i = υ(µ i ) = ψ (θ i ), e tem-se que Aplicando (2.11) em (2.10) i=1 i=1 θ i β [y i ψ (θ i )] = 0, (2.10) µ i β = ψ (θ i ) θ i β = υ θ i i β. (2.11) S(β) = n i=1 µ i β υ 1 i (y i µ i ) = 0. (2.12) Sob o enfoque da Inferência Clássica, a solução da equação (2.12) resulta nos Estimadores de Máxima Verossimilhança para β. Para obter as estimativas para o vetor de parâmetros β, geralmente, se utiliza métodos numéricos iterativos tais como o método de Newton-Raphson ou o Método Iterativo de Fisher. Métodos de estimação sob o enfoque Bayesiano serão abordados no Capítulo 3. A estimação do parâmetro φ depende da distribuição em estudo. Na Tabela 2.1 observa-se as diferentes formas que φ pode assumir.

30 2. Modelos Lineares Generalizados e Extensões 22 Tabela 2.1: Características das distribuições Normal, Bernoulli e Poisson escritas na forma da família exponencial e suas respectivas funções de ligação. Elemento Contínuo Binário Contagem Normal Bernoulli (Logito) Poisson Notação N(µ,σ 2 ) Bern(π) Poisson(λ) Valores para y (, ) 0 ou 1 0,1,2, Parâmetro Natural θ µ log[π/(1 π)] log λ θ Função da Média ψ(θ) 2 ( log(1+exp(θ)) λ = exp(θ) 2 ) Constante Normalizadora c(y,φ) log(2πσ 2 ) y2 0 logy! 2 2σ 2 Dispersão φ σ Média µ µ π λ Variância φυ(θ) σ 2 π(1 π) λ Função de Ligação h 1 (µ) µ = x β log[π/(1 π)] = x β logλ = x β 2.3 GLM para Dados Longitudinais O objetivo da modelagem estatística é explicar a variância de uma variável através de covariáveis medidas e a classe dos GLM, desenvolvida por Nelder e Wedderburn (1972), contribuiu para que este objetivo fosse alcançado. Buscando modelar o processo aleatório em estudo de forma mais realista, extensões para os GLM são propostas. Estas extensões visam explicar uma parcela maior da variância da variável resposta quando comparado ao GLM descrito na Seção 2.2. Duas das principais razões para se trabalhar com extensões para estes modelos são: (1) a presença de superdispersão nos dados, que significa que a variabilidade dos dados não está adequada segundo a proposta do modelo e (2) a presença de uma estrutura hierárquica nos dados, resultando em agrupamentos, que permite a modelagem da variação entre os grupos (MOLENBERGHS et al., 2010) Dados Longitudinais Uma definição simples para dados longitudinais consiste em respostas para indivíduos mensuradas repetidamente ao longo do tempo, o que difere de estudos transversais, que consistem em apenas uma única medida para cada indivíduo (DIGGLE et al., 2002). A vantagem de um estudo longitudinal está no fato de se levar em conta a variação que o tempo causa no objeto em estudo. Por outro lado, uma desvantagem é o custo do experimento, pois estudos longitudinais tendem a ser mais caros que estudos transversais, pois exigem que o pesquisador acompanhe seu objeto de estudo por um determinado tempo. Outra desvantagem é a possibilidade de se perder informações ao longo da coleta (dados faltantes). Algumas das áreas onde mais se encontra aplicações e exemplos utilizando pesquisas com dados longitudinais são Biologia, Medicina, Sociologia, Climatologia e Economia, devido à sua efetividade nos resultados. Em termos de modelagem para dados longitudinais, alguns cuidados devem ser tomados, pois, nestes casos, para um mesmo indivíduo tem-se medidas repetidas, o que gera

31 2. Modelos Lineares Generalizados e Extensões 23 correlação entre as variáveis, que se não tratada devidamente pode ocasionar problemas com o modelo especificado. Como uma solução para este problema, nas subseções a seguir serão apresentados duas extensões para o GLM e uma sugestão de combinação destas duas extensões em um único modelo, proposto por Molenberghs et al. (2010) Modelos de Superdispersão Pela Tabela 2.1 nota-se que modelos para dados Binários e de Contagem dependem de um único parâmetro para a média e variância. Há muitas causas possíveis de superdispersão e em qualquer situação de modelagem várias causas podem estar envolvidas. Algumas possibilidades são: variabilidade do material experimental; correlação entre as respostas individuais - por exemplo, em estudos de câncer envolvendo ninhadas de ratos haver alguma correlação entre ratos na mesma ninhada; amostragem por conglomerados; variáveis não observadas omitidas. Uma forma simples de permitir a superdispersão é assumir que a Var(Y) = φυ(µ), com φ 1, de acordo com a Equação (2.3), embora possa ser gerada através de suposições totalmente paramétricas. Considere o exemplo a seguir, em que o modelo é especificado em dois estágios. Para dados binários, suponha que Y i π i Bernoulli(π i ) e ainda que π i é uma variável aleatória com E(π i ) = µ i e Var(π i ) = σ 2 i. Assim, tem-se que E(Y i ) = E[E(Y i π i )] = E(π i ) = µ i (2.13) Var(Y i ) = E[Var(Y i π i )]+Var[E(Y i π i )] = = E[π i (1 π i )]+Var[π i ] = (2.14) = E(π i ) E(π 2 i)+e(π 2 i) [E(π i )] 2 = = µ i (1 µ i ), ressaltando que para dados oriundos de uma Bernoulli, a suposição de variabilidade para π i não induz superdispersão. Como outro exemplo, considere o caso Poisson e assuma que Y i λ i Poisson(λ i ) e ainda que λ i seja uma variável aleatória com E(λ i ) = µ i e Var(λ i ) = σ 2 i. Assim, tem-se que E(Y i ) = E[E(Y i λ i )] = E(λ i ) = µ i (2.15) Var(Y i ) = E[Var(Y i λ i )]+Var[E(Y i λ i )] = = E[λ i ]+Var[λ i ] = (2.16) = µ i +σ 2 i. Note que não foi assumido uma distribuição para os efeitos aleatórios associados a π i e λ i. Esta forma dá origem a uma especificação semi-paramétrica. Geralmente, a abordagem em dois estágios é composta por uma distribuição para a variável resposta dado um efeito aleatório, f(y i θ i ), e uma distribuição para este efeito aleatório, f(θ i ). Assim, a marginal de y i é dada por f(y i ) = f(y i θ i )f(θ i )dθ i. (2.17)

32 2. Modelos Lineares Generalizados e Extensões 24 Para os casos de medidas repetidas, assume-se uma estrutura hierárquica para os dados, onde Y ij denota a j-ésima medida para o i-ésimo grupo, i = 1,,N, j = 1,,n i e Y i é o vetor de dimensão n i que representa todas as medidas para o i-ésimo grupo Modelos de Regressão com Efeitos Aleatórios Normais O modelo misto linear generalizado é, provavelmente, o modelo de efeitos aleatórios mais utilizado no contexto de medidas repetidas. Este modelo é um caso particular dos GLMs apresentado de forma hierárquica. Seja Y ij a j-ésima medida para o i-ésimo grupo, i = 1,,N, j = 1,,n i e Y i o vetor de dimensão n i que representa todas as medidas para o i-ésimo grupo. Assuma que, condicional ao vetor q-dimensional de efeitos aleatórios, b i N(0,D), Y i,j são independentes e sua densidade é dada por com f i (y ij b i,ξ,φ) = exp { φ 1 [y ij λ ij ψ(λ ij )]+c(y ij,φ) }, (2.18) η[ψ (λ ij )] = η(µ ij ) = η[e(y ij b i,ξ)] = x ijξ +z ijb i (2.19) para a função de ligaçãoη( ) conhecida, com vetoresx ij (p-dimensional) ez ij (q-dimensional) conhecidos, com ξ um vetor p-dimensional de coeficientes de regressão desconhecidos e φ um parâmetro de escala. Finalmente, seja f(b i D) a função densidade da distribuição N(0,D) para os efeitos aleatórios. Estes modelos são válidos, pois a hierarquia é garantida pelos dados longitudinais e pelo parâmetro natural, escrito como um preditor linear, função de ambos efeitos aleatórios e fixos Combinando os Modelos de Superdispersão e de Efeitos Aleatórios Incorporando os efeitos de superdispersão bem como os efeitos aleatórios normais ao modelo linear generalizado, tem-se a seguinte formulação f i (y ij b i,ξ,θ ij,φ) = exp { φ 1 [y ij λ ij ψ(λ ij )]+c(y ij,φ) }, (2.20) onde sua média condicional é dada por E(Y ij b i,ξ,θ ij ) = µ c ij = θ ij κ ij, (2.21) onde a variável aleatória θ ij G ij (V ij,σ 2 ij), κ ij = g(x ijξ+z ijb i ), V ij é a média de θ ij e σ 2 ij é a variância correspondente. Finalmente, η ij = x ijξ +z ijb i, com b i N(0,D). Agora, tem-se duas diferentes notações para se referir ao parâmetro natural, η ij e λ ij. A razão é que λ ij engloba a variável aleatória θ ij, enquanto η ij se refere a uma parte do modelo linear generalizado misto apenas. A relação entre a média e o parâmetro natural é dada por: λ ij = h(µ c ij) = h(θ ij κ ij ) E(Y ij ) = E(θ ij )E(κ ij ) = E[h 1 (λ ij )]. (2.22)

33 2. Modelos Lineares Generalizados e Extensões Modelos de Regressão para Dados Contínuos O modelo de efeito misto linear totalmente hierárquico é especificado por Y i b i N(X i ξ +Z i b i,σ i ) b i N(0,D) (2.23) onde ξ é um vetor de efeitos fixos, e X i e Z i são matrizes de planejamento. As linhas de X i ξ+z i b i compõem o preditor linear e Σ i representa a matriz de variâncias do primeiro nível. A densidade marginal para Y i é então dada por Y i N(X i ξ,z i DZ i +Σ i ). (2.24) Observe que, neste caso um único conjunto de efeitos aleatórios são especificados Modelos de Regressão para Dados de Contagem O modelo de Poisson com efeitos aleatórios gama e normal combinados segue naturalmente. A título de visão geral, reuni-se todos os elementos do modelo: Y ij Poisson(θ ij κ ij ) κ ij = exp(x ijξ +z ijb i ) b i N(0,D) (2.25) E(θ i ) = E[(θ i1,,θ ini ) ] = V i Var(θ i ) = Σ i, em queθ ij pode assumir um modelo Gama, produzindo um modelo Poisson-Gama-Normal ou, equivalentemente, um modelo Binomial-Negativo-Normal. Quando a distribuição Gama é especificada, assume-se implicitamente que os componentes θ ij de θ i são independentes. Isso é natural, em muitos casos, no sentido de que b i induz associação entre as medidas repetidas e, então, θ ij vai cuidar da superdispersão. Neste caso, Σ i se reduz a uma matriz diagonal. No entanto, é perfeitamente possível assumir uma estrutura de covariâncias geral. Em relação aos efeitos aleatórios de superdispersão, três situações podem ser de interesse: (1) os efeitos aleatórios θ ij são independentes; (2) eles permitem dependência; (3) são iguais uns aos outros, ou seja, θ ij θ i. Molenberghs et al. (2010), apresentam formas fechadas para o vetor de médias e para a matriz de covariâncias marginais. A existência de formas fechadas tem importante implicações neste contexto, permitindo, por exemplo, o cálculo de expressões explícitas para as correlações e mais métodos disponíveis para a estimação dos parâmetros.

34 2. Modelos Lineares Generalizados e Extensões Modelo para Dados Binários Semelhante ao caso Poisson, para o caso binário tem-se que Y ij Bernoulli(π ij = θ ij κ ij ) κ ij = exp(x ijξ +z ijb i ) 1+exp(x ij ξ +z ij b i) b i N(0,D) (2.26) E(θ i ) = E[(θ i1,,θ ini ) ] = V i Var(θ i ) = Σ i Neste caso, pode-se assumir para os efeitos aleatórios de superdispersão a distribuição Beta. Quando se usa a função de ligação logito e efeitos aleatórios normais, não existe formas fechadas para as expressões de média e variância. Molenberghs et al. (2010) mostram que ao usar a função de ligação probito no lugar da logito a existência de formas fechadas para as expressões de média e variância é verdadeira. Além disso, Zeger, Liang e Albert (1988) faz uso da aproximação da distribuição normal para a distribuição logística, dada por exp y φ(cy) (2.27) 1+expy em que c = (16 3)/(15π) e φ( ) representa a função densidade da distribuição normal. Assim, tem-se que π ij θ ij exp(x ijξ +z ijb i ) 1+exp(x ij ξ +z ij b i) θ ij φ[c(exp(x ijξ +z ijb i ))]. (2.28) 2.4 Modelos Lineares Generalizados Hierárquicos Dinâmicos Os Modelos Hierárquicos já foram introduzidos na Seção anterior. Nesta Seção ele será definido para facilitar o entendimento de Modelos Dinâmicos. Sendo assim, define-se os Modelos Lineares Generalizados Hierárquicos da seguinte forma f(y ij θ,φ) = exp { φ 1 [y ij θ ij b(θ ij )]+c(y ij,φ) } g(µ ij ) = η ij = x ij β j (2.29) β j = β +ω j, onde g( ) é diferenciável e µ ij = E(Y ij θ),i = 1,,n j, j = 1,,J, independentes e Var(ω j ) = τ j I p. Os Modelos Hierárquicos Dinâmicos são utilizados para representar o comportamento de fenômenos aleatórios observados ao longo do tempo. Muitas aplicações podem ser

35 2. Modelos Lineares Generalizados e Extensões 27 encontradas na literatura. Por exemplo, nas áreas de epidemiologia, econometria e marketing. Com o modelo hierárquico definido em (2.30), fica fácil definir os modelos hierárquicos dinâmicos. Os modelos hierárquicos dinâmicos são caracterizados por um par de equações, denominadas de equação das observações e equação de evolução dos parâmetros. Seguindo a notação estabelecida, o modelo é especificado por y t = F t θ t +ǫ t, ǫ t N(0,σ 2 t) (2.30) θ t = G t θ t 1 +ω t, ω t N(0,W t ) (2.31) onde y t é a observação no tempo t, F t é uma matriz de regressores, θ t é um vetor p 1 de parâmetros, G t é uma matriz p p descrevendo a evolução dos parâmetros, σ 2 t representa a variância do erro associado à observação y t e W t a matriz de variâncias-covariâncias dos erros associados ao vetor de parâmetros θ t, respectivamente. Em resumo, um modelo dinâmico linear fica completamente especificado pela quádrupla {F t,g t,σ 2 t,w t } (GA- MERMAN; MIGON, 1993). Quando a variável em estudo é proveniente de uma distribuição normal o modelo apresentado em (2.4) se encaixa na estrutura dos dados, mas nem sempre a variável em estudo será proveniente de uma distribuição normal. Para os casos em que a variável resposta pertence à família exponencial de distribuições, é possível especificar o Modelo Linear Generalizado Dinâmico da seguinte forma: p(y t η t ) a função de probabilidade ou função densidade de probabilidade da variável Y no tempo t, com média η t e pertencente à família exponencial de distribuições; g(η t ) = λ t = F tθ t a função de ligação entre a média η t e componente sistemático F tθ t, no tempo t; F t representa a matriz de covariáveis no tempo t; θ t = G t θ t 1 +ω t representa a equação de evolução dos parâmetros no tempo t; G t representa a matriz de evolução dos parâmetros no tempo t; ω t representa um vetor dos erros que possui média zero e matriz de covariância W t conhecida no tempo t. Esta especificação pode ser encontrada em West e Harrison (1997).

36

37 Capítulo 3 Métodos Aproximados em Inferência Bayesiana Definido o modelo, o próximo passo é a estimação dos parâmetros. Na abordagem Clássica, a estimação dos parâmetros é baseada somente na informação proveniente da amostra (função de verossimilhança). Já na abordagem Bayesiana, combina-se a informação amostral com informações já disponíveis (informativa ou não), por exemplo oriundas de opinião de especialistas e/ ou obtidas em experimentos passados (distribuição a priori), através do teorema de Bayes. Neste capítulo são apresentados conceitos básicos de inferência Bayesiana, a caracterização do problema no procedimento de inferência e possíveis soluções. 3.1 Conceitos Básicos em Inferência Bayesiana Nas Subseções seguintes serão apresentados conceitos básicos de estatística e inferência que são úteis para o entendimento dos métodos de estimação que também serão apresentados neste capítulo Conceito de Informação A noção de informação está presente em todos os estudos desenvolvidos em estatística, pois trabalha-se com incerteza. A abordagem estatística Bayesiana considera que toda a informação de que dispomos é útil e deve ser aproveitada e a abordagem clássica, para reduzir arbitrariedades, deve-se restringir apenas àquelas informações obtidas com a observação de dados amostrais. Esses pontos de vista formam a base das duas principais abordagens estatísticas: Abordagem Bayesiana (ou subjetivista); Abordagem clássica (ou frequentista). Em resumo, na abordagem Bayesiana (inferência Bayesiana) para reduzir as incertezas são utilizadas as informações obtidas nos dados amostrais e também informações 29

38 3. Métodos Aproximados em Inferência Bayesiana 30 obtidas em experimentos passados, opinião de especialistas, etc., enquanto que na abordagem clássica (inferência clássica) são utilizadas apenas informações obtidas nos dados amostrais. Em geral, para uma análise estatística são construídos modelos matemáticos, que representam as relações entre as variáveis em estudo. É necessário fazer com que estes modelos contenham o máximo de informação sem torná-los muito complexo. Segundo Migon, Gamerman e Louzada (2014), a descrição do modelo deve ter complexidade ótima, isto é, não podem ser simples demais, pois assim não estaria informando nada de útil, nem ser complexo demais, pois dificultaria a sua compreensão Teorema de Bayes Suponha uma quantidade de interesse desconhecida θ, com valores possíveis em um conjunto Θ, sendo θ um escalar, vetor ou matriz e H a informação inicial que se dispõe. Essa informação pode ser incluída na análise através da distribuição de probabilidade condicional de θ dado H, com densidade ou função de probabilidade p(θ H). Se H for informativo o suficiente a descrição a respeito de θ está completa. Caso contrário, deve-se buscar mais informação, por exemplo, através da observação de uma quantidade Y que esteja relacionada à θ. Antes de se observar Y, tem-se a distribuição amostral dey dada porp(y θ,h), onde a dependência emθ é fundamental. Após observar o valor de Y, a quantidade de informação sobre θ aumenta e a informação sobre θ pode ser resumida em p(θ y,h). Nesta etapa, a questão é como passar de p(θ H) para p(θ y,h). Denotando por p(y θ,h) e p(θ H) as densidades de (Y θ,h) e (θ H), tem-se p(θ y,h) = p(θ,y H) p(y H) = p(y θ,h)p(θ H) p(y H) (3.1) com p(y H) = p(y,θ H) θ. Este resultado é conhecido como Teorema de Bayes. Θ A igualdade (3.1) é obtida a partir de p(y θ,h) = p(y,θ H) p(θ H) p(y, θ H) = p(y θ, H)p(θ H) (3.2) A função p(y H), no denominador, não depende de θ e, portanto, para a determinação da quantidade de interesse p(θ y, H), representa apenas uma constante. Por esta razão, e pela dependência em H ser comum a todos os termos, por facilidade notacional, a forma usual do Teorema de Bayes se reduz a p(θ y) p(y θ)p(θ) (3.3) onde o símbolo denota proporcionalidade. Os cálculos em (3.1) são válidos para quantidades discretas e contínuas, escalares vetores ou matrizes. O Teorema de Bayes fornece a regra para atualização da probabilidade sobre θ, partindo de p(θ) e chegando a p(θ y). Por esse motivo, essas distribuições são chamadas, respectivamente, de distribuições a priori e a posteriori. Para recuperar a constante retirada na equação (3.3) basta reescrevê-la como p(θ y) = Kp(y θ)p(θ) (3.4)

39 3. Métodos Aproximados em Inferência Bayesiana 31 com p(y θ) representando a distribuição dos dados, p(θ) a distribuição a priori para o parâmetro desconhecido θ e p(θ y) a distribuição a posteriori de θ. A distribuição a priori especifica a informação sobre o parâmetro antes da obtenção de y e a posteriori, a priori atualizada. A constante normalizadora K é determinada de modo que K 1 = p(y) = { p(y θ)p(θ)dθ = E Θ θ[p(y θ)], caso contínuo; Θ p(y θ)p(θ) = E θ[p(y θ)], caso discreto. (3.5) A função p(y) recebe o nome de distribuição preditiva (ou marginal) de Y, pois é a distribuição que se espera para Y, sendo de certa forma uma predição. Assim, antes de se observar Y, ela é útil para checar a adequação da priori através das predições que ela fornece. Após se observar Y, serve para testar o modelo como um todo, pois se o valor de Y observado recebia pouca probabilidade preditiva, então as previsões que o modelo fornece não são boas e ele deve ser questionado. Um importante ponto na aplicação da abordagem Bayesiana é a especificação da distribuição a priori. Migon, Gamerman e Louzada (2014) apresentam diferentes formas para especificação desta distribuição, incluindo especificação inteiramente subjetiva, através de formas funcionais e não informativas. Dentre as distribuições especificadas por formas funcionais está a classe das distribuições a priori conjugadas. Quando é possível o uso de distribuições conjugadas não se faz necessário o cálculo da constante de proporcionalidade apresentada em (3.5) e a distribuição a posteriori é obtida diretamente. As distribuições a priori não informativas foram propostas para representar situações onde pouca ou nenhuma informação estivesse disponível, ou ainda, mesmo disponível não se desejaria usá-las. Nesta classe, estão as distribuições uniformes e a priori de Jeffreys. Nas aplicações deste trabalho são especificadas, quando possível distribuições a priori conjugadas, caso contrário utiliza-se de formas funcionais Função de Verossimilhança Depois da obtenção dos dados, p(y θ) pode ser vista como uma função de θ para dados valores de Y 1,Y 2,,Y n. Esta função é denominada função de verossimilhança. A função de verossimilhança associa a cada θ o valor p(y θ). Esta função é denotada por l(θ; y). Assim, l(,y) : Θ R + θ l(θ;y) = p(y θ). (3.6) Definição Seja Y 1,Y 2,,Y n uma amostra aleatória de uma família de distribuição p(y θ), θ Θ. A função de probabilidade conjunta é dada por p(y θ) = n p(y i θ). (3.7) i=1 Fixado o ponto amostral (y 1,y 2,,y n ) a função l(θ;y), considerada como função de θ, é denominada de função de verossimilhança da amostra e será dada por l(θ;y) = n p(y i θ). (3.8) i=1

Modelos Lineares Generalizados

Modelos Lineares Generalizados Modelos Lineares Generalizados Emilly Malveira de Lima Análise de Dados Categóricos Universidade Federal de Minas Gerais - UFMG 10 de Maio de 2018 Emilly Malveira (PGEST-UFMG) 10 de Maio de 2018 1 / 20

Leia mais

Modelos Lineares Generalizados - Estimação em Modelos Lineares Generalizados

Modelos Lineares Generalizados - Estimação em Modelos Lineares Generalizados Modelos Lineares Generalizados - Estimação em Modelos Lineares Generalizados Erica Castilho Rodrigues 23 de Maio de 207 Introdução 2 3 Vimos como encontrar o EMV usando algoritmos numéricos. Duas possibilidades:

Leia mais

Técnicas computacionais em probabilidade e estatística II

Técnicas computacionais em probabilidade e estatística II Técnicas computacionais em probabilidade e estatística II Universidade de São Paulo Instituto de Matemática e Estatística http:www.ime.usp.br/ mbranco AULA 1: Problemas Computacionais em Inferência Estatística.

Leia mais

Influencia de Distribuições a priori na Analise Bayesiana em dados de contagem

Influencia de Distribuições a priori na Analise Bayesiana em dados de contagem Influencia de Distribuições a priori na Analise Bayesiana em dados de contagem Olinda Fátima dos Santos 1 Carla Regina Guimarães Brighenti 1 1-Introdução A utilização de informação a priori em inferência

Leia mais

Análise de Dados Longitudinais Aula

Análise de Dados Longitudinais Aula 1/35 Análise de Dados Longitudinais Aula 08.08.2018 José Luiz Padilha da Silva - UFPR www.docs.ufpr.br/ jlpadilha 2/35 Sumário 1 Revisão para dados transversais 2 Como analisar dados longitudinais 3 Perspectiva

Leia mais

A Importância da Estatística na Pesquisa Científica e na Tomada de Decisão

A Importância da Estatística na Pesquisa Científica e na Tomada de Decisão A Importância da Estatística na Pesquisa Científica e na Tomada de Decisão Ricardo Alves de Olinda Universidade Estadual da Paraíba - UEPB Centro de Ciências e Tecnologia - CCT Departamento de Estatística

Leia mais

Modelos Lineares Generalizados - Componentes do Modelo

Modelos Lineares Generalizados - Componentes do Modelo Modelos Lineares Generalizados - Componentes do Modelo Erica Castilho Rodrigues 01 de Abril de 2014 3 Vejamos agora quais as componentes de um Modelo Linear Generalizado. Temos um conjunto de variáveis

Leia mais

Aplicação dos modelos lineares generalizados na análise do número de estômatos em coentro (Coriandrum sativum L.): estimação bayesiana utilizando INLA

Aplicação dos modelos lineares generalizados na análise do número de estômatos em coentro (Coriandrum sativum L.): estimação bayesiana utilizando INLA Aplicação dos modelos lineares generalizados na análise do número de estômatos em coentro (Coriandrum sativum L.): estimação bayesiana utilizando INLA Everton Batista da Rocha 12 Roseli Aparecida Leandro

Leia mais

p(x) Note que 1/p(x), que não depende de θ, funciona como uma constante normalizadora

p(x) Note que 1/p(x), que não depende de θ, funciona como uma constante normalizadora Capítulo 1 Introdução A informação que se tem sobre uma quantidade de interesse θ é fundamental na Estatística. O verdadeiro valor de θ é desconhecido e a idéia é tentar reduzir este desconhecimento. Além

Leia mais

CC-226 Aula 07 - Estimação de Parâmetros

CC-226 Aula 07 - Estimação de Parâmetros CC-226 Aula 07 - Estimação de Parâmetros Carlos Henrique Q. Forster - Instituto Tecnológico de Aeronáutica 2008 Estimação de Parâmetros Para construir o classificador bayesiano, assumimos as distribuições

Leia mais

Modelos de regressão para dados correlacionados. Cibele Russo

Modelos de regressão para dados correlacionados. Cibele Russo Modelos de regressão para dados correlacionados Cibele Russo cibele@icmc.usp.br ICMC USP Mini-curso oferecido no Workshop on Probabilistic and Statistical Methods 28 a 30 de janeiro de 2013 Cibele Russo

Leia mais

RESOLUÇÃO Nº 01/2016

RESOLUÇÃO Nº 01/2016 Legislações Complementares: Resolução Nº 02/2016 Colegiado DEst Resolução Nº 03/2016 Colegiado DEst Resolução Nº 01/2017 Colegiado DEst RESOLUÇÃO Nº 01/2016 O Departamento de Estatística, tendo em vista

Leia mais

Exemplos Equações de Estimação Generalizadas

Exemplos Equações de Estimação Generalizadas Exemplos Equações de Estimação Generalizadas Bruno R. dos Santos e Gilberto A. Paula Departamento de Estatística Universidade de São Paulo, Brasil giapaula@ime.usp.br Modelos Lineares Generalizados dos

Leia mais

Métodos Computacionais para inferência estatística

Métodos Computacionais para inferência estatística Métodos Computacionais para inferência estatística Wagner Hugo Bonat LEG: Laboratório de Estatística e Geoinformação Universidade Federal do Paraná 30 de julho de 2012 Bonat et. al (LEG/UFPR) MCIE 30 de

Leia mais

FAMÍLIA EXPONENCIAL DE DISTRIBUIÇÕES

FAMÍLIA EXPONENCIAL DE DISTRIBUIÇÕES FAMÍLIA EXPONENCIAL DE DISTRIBUIÇÕES 1 Os modelos lineares generalizados, propostos originalmente em Nelder e Wedderburn (1972), configuram etensões dos modelos lineares clássicos e permitem analisar a

Leia mais

Análise de Dados Categóricos

Análise de Dados Categóricos 1/43 Análise de Dados Categóricos Modelo de Regressão de Poisson Enrico A. Colosimo/UFMG http://www.est.ufmg.br/ enricoc/ Departamento de Estatística Universidade Federal de Minas Gerais 2/43 Revisão:

Leia mais

MLG. 16 de outubro de Curso de Modelos Lineares Generalizado - DEST/UFMG Marcos Oliveira Prates. Marcos Oliveira Prates

MLG. 16 de outubro de Curso de Modelos Lineares Generalizado - DEST/UFMG Marcos Oliveira Prates. Marcos Oliveira Prates MLG Curso de Modelos Lineares Generalizado - DEST/UFMG 16 de outubro de 2017 Modelo Linear Generalizado Família Exponencial Seja Y a variável de resposta. A distribuição de Y é membro da família exponencial

Leia mais

Modelos Lineares Generalizados - Verificação do Ajuste do Modelo

Modelos Lineares Generalizados - Verificação do Ajuste do Modelo 1 Modelos Lineares Generalizados - Verificação do Ajuste do Modelo Erica Castilho Rodrigues 9 de Abril de 2015 2 3 Função Deviance Podemos ver o ajuste de um modelo a um conjunto de dados como: uma forma

Leia mais

CE085 - Estatística Inferencial. derivadas. Prof. Wagner Hugo Bonat. 5 de setembro de Curso de Bacharelado em Estatatística

CE085 - Estatística Inferencial. derivadas. Prof. Wagner Hugo Bonat. 5 de setembro de Curso de Bacharelado em Estatatística CE085 - Estatística Inferencial Função de Verossimilhança e suas derivadas Prof. Wagner Hugo Bonat Laboratório de Estatística e Geoinformação - LEG Curso de Bacharelado em Estatatística Universidade Federal

Leia mais

Inferência Bayesiana

Inferência Bayesiana Inferência Bayesiana Joaquim Neto joaquim.neto@ufjf.edu.br www.ufjf.br/joaquim_neto Departamento de Estatística - ICE Universidade Federal de Juiz de Fora (UFJF) Versão 3.0 Joaquim Neto (UFJF) ICE - UFJF

Leia mais

4 Modelos Lineares Generalizados

4 Modelos Lineares Generalizados 4 Modelos Lineares Generalizados Neste capítulo, serão apresentados arcabouços teóricos dos modelos lineares generalizados (MLGs) e como casos particulares desses modelos são aplicáveis ao problema da

Leia mais

Introdução a Inferência Bayesiana

Introdução a Inferência Bayesiana Introdução a Inferência Bayesiana Helio S. Migon IM and COPPE - UFRJ migon@im.ufrj.br 2006 Conteúdo 1. Conceitos Básicos da Inferência 2. Distribuição a Priori 3. Sumariazação 4. Inferência Preditiva 1

Leia mais

Disciplina de Modelos Lineares Professora Ariane Ferreira

Disciplina de Modelos Lineares Professora Ariane Ferreira Disciplina de Modelos Lineares 2012-2 Regressão Logística Professora Ariane Ferreira O modelo de regressão logístico é semelhante ao modelo de regressão linear. No entanto, no modelo logístico a variável

Leia mais

Análise Bayesiana de Dados - Aula 1 -

Análise Bayesiana de Dados - Aula 1 - Análise Bayesiana de Dados - Aula 1 - Márcia D Elia Branco Universidade de São Paulo Instituto de Matemática e Estatística www.ime.usp.br/ mbranco - sala 295-A - Paradigmas Bayesiano Introdução Fazer inferência

Leia mais

Inferência Bayesiana - Aula 1 -

Inferência Bayesiana - Aula 1 - Inferência Bayesiana - Aula 1 - Márcia D Elia Branco Universidade de São Paulo Instituto de Matemática e Estatística www.ime.usp.br/ mbranco - sala 295-A - Paradigmas Bayesiano Introdução Fazer inferência

Leia mais

ESTATÍSTICA COMPUTACIONAL

ESTATÍSTICA COMPUTACIONAL ESTATÍSTICA COMPUTACIONAL Ralph dos Santos Silva Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Sumário Escolha de modelos Até aqui assumimos que z

Leia mais

Análise de Dados Longitudinais Modelos Lineares Generalizados Longitudinais

Análise de Dados Longitudinais Modelos Lineares Generalizados Longitudinais 1/55 Análise de Dados Longitudinais Modelos Lineares Generalizados Longitudinais Enrico A. Colosimo-UFMG www.est.ufmg.br/ enricoc 2/55 Respostas Longitudinal Não-Gaussiana 1 Y ij, i = 1,..., N; j = 1,...,

Leia mais

Regressão de Poisson e parentes próximos

Regressão de Poisson e parentes próximos Janeiro 2012 Família Exponencial Seja Y uma variável aleatória. A distribuição de probabilidade de Y pertence à família exponencial se a sua função densidade de probabilidade é da forma ( ) yθ b(θ) f (y

Leia mais

IND 1115 Inferência Estatística Aula 6

IND 1115 Inferência Estatística Aula 6 Conteúdo IND 5 Inferência Estatística Aula 6 Setembro de 004 A distribuição Lognormal A distribuição Beta e sua relação com a Uniforme(0,) Mônica Barros mbarros.com mbarros.com A distribuição Lognormal

Leia mais

Técnicas computacionais em probabilidade e estatística II

Técnicas computacionais em probabilidade e estatística II Técnicas computacionais em probabilidade e estatística II Universidade de São Paulo Instituto de Matemática e Estatística http:www.ime.usp.br/ mbranco Métodos de Monte Carlo baseados em Cadeias de Markov:

Leia mais

Distribuição Amostral e Estimação Pontual de Parâmetros

Distribuição Amostral e Estimação Pontual de Parâmetros Roteiro Distribuição Amostral e Estimação Pontual de Parâmetros 1. Introdução 2. Teorema Central do Limite 3. Conceitos de Estimação Pontual 4. Métodos de Estimação Pontual 5. Referências População e Amostra

Leia mais

Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação

Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação Francisco A. Rodrigues Departamento de Matemática Aplicada e Estatística - SME Objetivo Dada M classes ω 1, ω 2,..., ω M e um

Leia mais

CE062c - GAMLSS. Silva, J.P; Taconeli, C.A. 09 de outubro, Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, / 42

CE062c - GAMLSS. Silva, J.P; Taconeli, C.A. 09 de outubro, Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, / 42 CE062c - GAMLSS Silva, J.P; Taconeli, C.A. 09 de outubro, 2018 Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, 2018 1 / 42 Por que GAMLSS? Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro,

Leia mais

ESTATÍSTICA COMPUTACIONAL

ESTATÍSTICA COMPUTACIONAL ESTATÍSTICA COMPUTACIONAL Ralph dos Santos Silva Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Sumário Introdução Solução de equações não lineares

Leia mais

Quantis residuais. Luziane Franciscon Acadêmica de Estatística Universidade Federal do Paraná

Quantis residuais. Luziane Franciscon Acadêmica de Estatística Universidade Federal do Paraná Quantis residuais Luziane Franciscon Acadêmica de Estatística Universidade Federal do Paraná Orientador: Fernando Lucambio Departamento de Estatística Universidade Federal do Paraná Resumo Uma etapa importante

Leia mais

Inferência Estatistica

Inferência Estatistica Inferência Estatistica Ricardo Ehlers ehlers@icmc.usp.br Departamento de Matemática Aplicada e Estatística Universidade de São Paulo Modelos e Inferência Um modelo é uma simplificação da realidade (e alguns

Leia mais

Aplicações de inferência bayesiana aproximada para modelos gaussianos latentes espaço temporais

Aplicações de inferência bayesiana aproximada para modelos gaussianos latentes espaço temporais Aplicações de inferência bayesiana aproximada para modelos gaussianos latentes espaço temporais Orientador: Paulo Justiniano Ribeiro Jr Universidade Federal do Paraná Programa de Pós-Graduação em Métodos

Leia mais

ESTATÍSTICA COMPUTACIONAL

ESTATÍSTICA COMPUTACIONAL ESTATÍSTICA COMPUTACIONAL Ralph dos Santos Silva Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Sumário Se a integração analítica não é possível ou

Leia mais

Metodologia de inversão

Metodologia de inversão 6 Metodologia de inversão Nesta tese, a transformação de velocidades em pressão de poros é encarada como um problema de inversão. Pela natureza do problema, essa transformação apresenta caráter não único

Leia mais

MOQ-13 PROBABILIDADE E ESTATÍSTICA. Professor: Rodrigo A. Scarpel

MOQ-13 PROBABILIDADE E ESTATÍSTICA. Professor: Rodrigo A. Scarpel MOQ-13 PROBABILIDADE E ESTATÍSTICA Professor: Rodrigo A. Scarpel rodrigo@ita.br www.mec.ita.br/~rodrigo Programa do curso: Semanas 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 e 16 Introdução à probabilidade (eventos,

Leia mais

Modelos para dados de contagem

Modelos para dados de contagem O modelo de Poisson Sumário 1 Introdução 2 Regressão de Poisson Taxa de Incidência Inclusão de covariáveis Interpretação dos parâmetros 3 Exemplos 4 Superdispersão Dados de Contagem Podemos estar interessados

Leia mais

Modelos Lineares Generalizados - Métodos de Estimação

Modelos Lineares Generalizados - Métodos de Estimação Modelos Lineares Generalizados - Métodos de Estimação Erica Castilho Rodrigues 07 de Abril de 2014 3 Componentes dos MLG s Os MLG s são compostos por duas partes: componente sistemático e componente aleatório.

Leia mais

CONHECIMENTOS ESPECÍFICOS

CONHECIMENTOS ESPECÍFICOS CONHECIMENTOS ESPECÍFICOS 2003 2004 2005 2006 2007 2008 2009 2010 X 39,0 39,5 39,5 39,0 39,5 41,5 42,0 42,0 Y 46,5 65,5 86,0 100,0 121,0 150,5 174,0 203,0 A tabela acima mostra as quantidades, em milhões

Leia mais

ESTATÍSTICA COMPUTACIONAL

ESTATÍSTICA COMPUTACIONAL ESTATÍSTICA COMPUTACIONAL Ralph dos Santos Silva Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Sumário Inferência com dimensão variável Modelos com

Leia mais

CONHECIMENTOS ESPECÍFICOS

CONHECIMENTOS ESPECÍFICOS fonte de graus de soma de quadrado variação liberdade quadrados médio teste F regressão 1 1,4 1,4 46,2 resíduo 28 0,8 0,03 total 2,2 A tabela de análise de variância (ANOVA) ilustrada acima resulta de

Leia mais

Sumário. CAPÍTULO 1 Conceitos preliminares 1. CAPÍTULO 2 Descrição de dados: análise monovariada 47

Sumário. CAPÍTULO 1 Conceitos preliminares 1. CAPÍTULO 2 Descrição de dados: análise monovariada 47 CAPÍTULO 1 Conceitos preliminares 1 Introdução........................................................1 O que é estatística?.................................................. 4 Papel dos microcomputadores.........................................

Leia mais

Definição. Os valores assumidos pelos estimadores denomina-se estimativas pontuais ou simplesmente estimativas.

Definição. Os valores assumidos pelos estimadores denomina-se estimativas pontuais ou simplesmente estimativas. 1. Inferência Estatística Inferência Estatística é o uso da informção (ou experiência ou história) para a redução da incerteza sobre o objeto em estudo. A informação pode ou não ser proveniente de um experimento

Leia mais

Ajuste do modelo de regressão linear: Inferência Bayesiana, aspectos computacionais e seleção de variáveis.

Ajuste do modelo de regressão linear: Inferência Bayesiana, aspectos computacionais e seleção de variáveis. Ajuste do modelo de regressão linear: Inferência Bayesiana, aspectos computacionais e seleção de variáveis. João Daniel Nunes Duarte a, Vinícius Diniz Mayrink b a Estudante de Graduação, e-mail: joaodaniel@ufmg.br

Leia mais

Aula 3 - Revisão de Probabilidade e Estatística: Esclarecimento de Dúvidas

Aula 3 - Revisão de Probabilidade e Estatística: Esclarecimento de Dúvidas Aula 3 - Revisão de Probabilidade e Estatística: Esclarecimento de Dúvidas Matheus Rosso e Camila Steffens 19 de Março de 2018 Independência de variáveis aleatórias Duas V.A. são independentes se, e somente

Leia mais

Gibbs Sampler para ANOVA e Misturas

Gibbs Sampler para ANOVA e Misturas Gibbs Sampler para ANOVA e Misturas Renato Assunção - DCC, UFMG Outubro de 014 1 Modelo ANOVA: componentes de variância Suponha que temos K grupos ou classes. Em cada grupo, temos um certo número de dados

Leia mais

Ralph S. Silva

Ralph S. Silva ANÁLISE ESTATÍSTICA MULTIVARIADA Ralph S Silva http://wwwimufrjbr/ralph/multivariadahtml Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Sumário Revisão:

Leia mais

ESTATÍSTICA BAYESIANA

ESTATÍSTICA BAYESIANA UNIVERSIDADE FEDERAL DE MINAS GERAIS INSTITUTO DE CIÊNCIAS EXATAS PET MATEMÁTICA Orientadora: Rosângela Helena Loschi ESTATÍSTICA BAYESIANA Marina Muniz de Queiroz INTRODUÇÃO A estatística clássica associa

Leia mais

MODELOS DE REGRESSÃO PARA DADOS CONTÍNUOS ASSIMÉTRICOS

MODELOS DE REGRESSÃO PARA DADOS CONTÍNUOS ASSIMÉTRICOS MODELOS DE REGRESSÃO PARA DADOS CONTÍNUOS ASSIMÉTRICOS 1 Diversas distribuições podem ser consideradas para a modelagem de dados positivos com distribuição contínua e assimétrica, como, por exemplo, as

Leia mais

COMPARAÇÃO DE DUAS ABORDAGENS DOS MODELOS DE TRANSIÇÃO DE MARKOV EM EXPERIMENTOS PLANEJADOS COM DADOS BINÁRIOS CORRELACIONADOS

COMPARAÇÃO DE DUAS ABORDAGENS DOS MODELOS DE TRANSIÇÃO DE MARKOV EM EXPERIMENTOS PLANEJADOS COM DADOS BINÁRIOS CORRELACIONADOS COMPARAÇÃO DE DUAS ABORDAGENS DOS MODELOS DE TRANSIÇÃO DE MARKOV EM EXPERIMENTOS PLANEJADOS COM DADOS BINÁRIOS CORRELACIONADOS Maurício Santana LORDÊLO1 Sônia Maria De Stefano PIEDADE 2 Gilênio Borges

Leia mais

Modelos Binomial e Poisson

Modelos Binomial e Poisson Objetivos Motivação BIE5781 - Pós-Graduação em Ecologia USP setembro de 2012 Objetivo da Aula Objetivos Motivação Os objetivos dessa aula são: Objetivos Motivação Objetivo da Aula Os objetivos dessa aula

Leia mais

1 Que é Estatística?, 1. 2 Séries Estatísticas, 9. 3 Medidas Descritivas, 27

1 Que é Estatística?, 1. 2 Séries Estatísticas, 9. 3 Medidas Descritivas, 27 Prefácio, xiii 1 Que é Estatística?, 1 1.1 Introdução, 1 1.2 Desenvolvimento da estatística, 1 1.2.1 Estatística descritiva, 2 1.2.2 Estatística inferencial, 2 1.3 Sobre os softwares estatísticos, 2 1.4

Leia mais

Análise de Dados Longitudinais Modelos de Regressão - Perspecitva Histórica

Análise de Dados Longitudinais Modelos de Regressão - Perspecitva Histórica 1/41 Análise de Dados Longitudinais Modelos de Regressão - Perspecitva Histórica Enrico A. Colosimo/UFMG http://www.est.ufmg.br/ enricoc/ Revisão para Dados Transversais 1 Características Informações amostrais

Leia mais

Minera c ao de Dados Aula 6: Finaliza c ao de Regress ao e Classifica c ao Rafael Izbicki 1 / 33

Minera c ao de Dados Aula 6: Finaliza c ao de Regress ao e Classifica c ao Rafael Izbicki 1 / 33 Mineração de Dados Aula 6: Finalização de Regressão e Classificação Rafael Izbicki 1 / 33 Como fazer um IC para o risco estimado? Vamos assumir que ( X 1, Ỹ1),..., ( X s, Ỹs) são elementos de um conjunto

Leia mais

SUMÁRIO. Prefácio, Espaço amostrai, Definição de probabilidade, Probabilidades finitas dos espaços amostrais fin itos, 20

SUMÁRIO. Prefácio, Espaço amostrai, Definição de probabilidade, Probabilidades finitas dos espaços amostrais fin itos, 20 SUMÁRIO Prefácio, 1 3 1 CÁLCULO DAS PROBABILIDADES, 15 1.1 Introdução, 15 1.2 Caracterização de um experimento aleatório, 15 1.3 Espaço amostrai, 16 1.4 Evento, 17 1.5 Eventos mutuamente exclusivos, 17

Leia mais

Aula 2 Uma breve revisão sobre modelos lineares

Aula 2 Uma breve revisão sobre modelos lineares Aula Uma breve revisão sobre modelos lineares Processo de ajuste de um modelo de regressão O ajuste de modelos de regressão tem como principais objetivos descrever relações entre variáveis, estimar e testar

Leia mais

Mais sobre Modelos Continuos

Mais sobre Modelos Continuos Mais sobre Modelos Continuos Ricardo Ehlers ehlers@icmc.usp.br Departamento de Matemática Aplicada e Estatística Universidade de São Paulo 1 / 41 Transformação Linear da Uniforme Seja X uma variável aleatória

Leia mais

MOQ 13 PROBABILIDADE E ESTATÍSTICA. Professor: Rodrigo A. Scarpel

MOQ 13 PROBABILIDADE E ESTATÍSTICA. Professor: Rodrigo A. Scarpel MOQ 3 PROBABILIDADE E ESTATÍSTICA Professor: Rodrigo A. Scarpel rodrigo@ita.br www.mec.ita.br/~rodrigo Programa do curso: Semanas 2 3 4 5 6 7 8 9 0 2 3 4 5 e 6 Introdução à probabilidade (eventos, espaço

Leia mais

Modelo de regressão estável aplicado a econometria

Modelo de regressão estável aplicado a econometria Modelo de regressão estável aplicado a econometria financeira Fernando Lucambio Departamento de Estatística Universidade Federal do Paraná Curitiba/PR, 81531 990, Brasil email: lucambio@ufpr.br 1 Objetivos

Leia mais

Análise de Dados Longitudinais Aula

Análise de Dados Longitudinais Aula 1/20 Análise de Dados Longitudinais Aula 13.08.2018 José Luiz Padilha da Silva - UFPR www.docs.ufpr.br/ jlpadilha 2/20 Sumário 1 Modelos Marginais 2 3/20 Modelos Marginais Modelos Marginais para Dados

Leia mais

Modelo marginal de odds proporcionais para dados longitudinais: um estudo de simulação

Modelo marginal de odds proporcionais para dados longitudinais: um estudo de simulação Modelo marginal de odds proporcionais para dados longitudinais: um estudo de simulação Nívea B. da Silva 1 Enrico A. Colosimo 2 Leila A. F. Amorim 3 1 Introdução Nos últimos anos muitas metodologias têm

Leia mais

Modelos espaço-temporais para óbitos por causas externas

Modelos espaço-temporais para óbitos por causas externas Universidade Federal do Rio de Janeiro Modelos espaço-temporais para óbitos por causas externas Luiz Ledo Mota Melo Junior Rio de Janeiro 2008 Luiz Ledo Mota Melo Junior Modelos espaço-temporais para óbitos

Leia mais

Estimando o Efeito da Terapia por Ondas de Choque em Pacientes com Patologia Musculoesquelética

Estimando o Efeito da Terapia por Ondas de Choque em Pacientes com Patologia Musculoesquelética Universidade Federal do Rio de Janeiro Estimando o Efeito da Terapia por Ondas de Choque em Pacientes com Patologia Musculoesquelética João Batista de Morais Pereira Rio de Janeiro Setembro de 2008 João

Leia mais

AULA 07 Inferência a Partir de Duas Amostras

AULA 07 Inferência a Partir de Duas Amostras 1 AULA 07 Inferência a Partir de Duas Amostras Ernesto F. L. Amaral 10 de setembro de 2012 Faculdade de Filosofia e Ciências Humanas (FAFICH) Universidade Federal de Minas Gerais (UFMG) Fonte: Triola,

Leia mais

MAE Modelos Lineares Generalizados 2 o semestre 2017

MAE Modelos Lineares Generalizados 2 o semestre 2017 MAE5763 - Modelos Lineares Generalizados 2 o semestre 2017 Prof. Gilberto A. Paula 3 a Lista de Exercícios 1. Supor y i ind FE(µ, φ i ) com φ i = α + γz i, para i = 1,..., n. Como ca a matriz modelo Z?

Leia mais

Estimador de Máxima Verossimilhança Estudo de Caso - Regressão Poisson

Estimador de Máxima Verossimilhança Estudo de Caso - Regressão Poisson Estimador de Máxima Verossimilhança Estudo de Caso - Regressão Poisson Wagner Hugo Bonat - LEG/DEST, UFPR 1 Resumo: Este texto descreve de forma rápida o processo de estimação baseado em Verossimilhança

Leia mais

Cap. 4 - Estimação por Intervalo

Cap. 4 - Estimação por Intervalo Cap. 4 - Estimação por Intervalo Amostragem e inferência estatística População: consiste na totalidade das observações em que estamos interessados. Nº de observações na população é denominado tamanho=n.

Leia mais

Estimadores, pontual e intervalar, para dados com censuras intervalar

Estimadores, pontual e intervalar, para dados com censuras intervalar Estimadores, pontual e intervalar, para dados com censuras intervalar Débora Ohara, Estela Maris Pereira Bereta, Teresa Cristina Martins Dias Resumo Dados com censura intervalar ocorrem com frequência

Leia mais

Um modelo de espaço de estados poisson para a modelagem dos confrontos de futebol entre Brasil e Argentina

Um modelo de espaço de estados poisson para a modelagem dos confrontos de futebol entre Brasil e Argentina Um modelo de espaço de estados poisson para a modelagem dos confrontos de futebol entre Brasil e Argentina Thiago R. Santos Departamento de Estatística, Universidade Federal de Minas Gerais (UFMG). E-mail:

Leia mais

CONHECIMENTOS ESPECÍFICOS

CONHECIMENTOS ESPECÍFICOS CONHECIMENTOS ESPECÍFICOS As variáveis aleatórias X e Y seguem uma distribuição de Bernoulli com probabilidade de sucesso igual a 0,4. Considerando S = X + Y e que os eventos aleatórios A = [X = 1] e B

Leia mais

Relatório GLM - Predição de doênça coronária cardíaca através do modelo de regressão generalizado com resposta Binomial

Relatório GLM - Predição de doênça coronária cardíaca através do modelo de regressão generalizado com resposta Binomial UNIVERSIDADE FEDERAL DO PARANÁ Rafael Morciani Alves da Silva Maike Willian Martins dos Santos Mateus Gemelli Ramos Relatório GLM - Predição de doênça coronária cardíaca através do modelo de regressão

Leia mais

Modelos Binomial e Poisson

Modelos Binomial e Poisson Objetivos Motivação BIE5781 - Pós-Graduação em Ecologia USP Setembro de 2016 Objetivos Motivação Objetivo da Aula Os objetivos dessa aula são: Objetivos Motivação Objetivo da Aula Os objetivos dessa aula

Leia mais

Análise Multivariada Aplicada à Contabilidade

Análise Multivariada Aplicada à Contabilidade Mestrado e Doutorado em Controladoria e Contabilidade Análise Multivariada Aplicada à Contabilidade Prof. Dr. Marcelo Botelho da Costa Moraes www.marcelobotelho.com mbotelho@usp.br Turma: 2º / 2016 1 Agenda

Leia mais

P.62, Exerc. 1.3: Trocar as posições de tipo AB e tipo O.

P.62, Exerc. 1.3: Trocar as posições de tipo AB e tipo O. ERRATA Segue-se uma lista de correcção de erros de digitação que não inclui os que violam regras de pontuação. Os nossos agradecimentos a todos aqueles que nos comunicaram os erros que foram detectando

Leia mais

Inferência Bayesiana Exata para Processos de Cox Level-Set

Inferência Bayesiana Exata para Processos de Cox Level-Set Inferência Bayesiana Exata para Processos de Cox Level-Set Bárbara da Costa Campos Dias 1 Flávio Bambirra Gonçalves 2 Resumo Este trabalho propõe uma metodologia de inferência exata para processos de Cox

Leia mais

AGA Análise de Dados em Astronomia I 8. Inferência Bayesiana e MCMC

AGA Análise de Dados em Astronomia I 8. Inferência Bayesiana e MCMC 1 / 1 AGA 0505- Análise de Dados em Astronomia I 8. Inferência Bayesiana e MCMC Laerte Sodré Jr. 1o. semestre, 2018 2 / 1 Inferência Bayesiana inferência bayesiana consideremos um conjunto de dados D que

Leia mais

Comparação entre intervalos de confiança calculados com métodos bootstrap e intervalos assintóticos

Comparação entre intervalos de confiança calculados com métodos bootstrap e intervalos assintóticos Comparação entre intervalos de confiança calculados com métodos strap e intervalos assintóticos Selene Loibel Depto. de Estatística, Matemática Aplicada e Computação, IGCE, UNESP, Rio Claro, SP E-mail:sloibel@rc.unesp.br,

Leia mais

Aplicação dos modelos lineares generalizados na análise do

Aplicação dos modelos lineares generalizados na análise do Aplicação dos modelos lineares generalizados na análise do número de ácaros Ana Paula Coelho Madeira Silva 12 Fabrício Oliveira Fernandes 12 Marcos Antonio Matiello Fadini 12 1 Introdução O estudo das

Leia mais

Modelos Lineares Generalizados - Modelos log-lineares para tabelas de contingência

Modelos Lineares Generalizados - Modelos log-lineares para tabelas de contingência Modelos Lineares Generalizados - Modelos log-lineares para tabelas de contingência Erica Castilho Rodrigues 12 de Agosto 3 Vimos como usar Poisson para testar independência em uma Tabela 2x2. Veremos

Leia mais

Exemplo Ataques Epilépticos

Exemplo Ataques Epilépticos Exemplo Ataques Epilépticos Gilberto A. Paula Departamento de Estatística IME-USP, Brasil giapaula@ime.usp.br 2 o Semestre 2015 G. A. Paula (IME-USP) Ataques Epilépticos 2 o Semestre 2015 1 / 20 Ataques

Leia mais

Séries Temporais e Modelos Dinâmicos. Econometria. Marcelo C. Medeiros. Aula 9

Séries Temporais e Modelos Dinâmicos. Econometria. Marcelo C. Medeiros. Aula 9 em Econometria Departamento de Economia Pontifícia Universidade Católica do Rio de Janeiro Aula 9 Data Mining Equação básica: Amostras finitas + muitos modelos = modelo equivocado. Lovell (1983, Review

Leia mais

4 Metodologia. Wt = W 0 exp{(l/k)(1-e-kt)} (8)

4 Metodologia. Wt = W 0 exp{(l/k)(1-e-kt)} (8) 4 Metodologia Serão apresentadas duas formas de se estimar a persistência. A primeira é de forma mais agregada e se utiliza de dados em forma de triângulos de run-off e é conhecida como Chain Ladder, uma

Leia mais

Modelos de regressão para dados correlacionados. Cibele Russo

Modelos de regressão para dados correlacionados. Cibele Russo Modelos de regressão para dados correlacionados Cibele Russo cibele@icmc.usp.br ICMC USP Mini-curso oferecido no Workshop on Probabilistic and Statistical Methods 28 a 30 de janeiro de 2013 Cibele Russo

Leia mais

Fundação Oswaldo Cruz Escola Nacional de Saúde Pública Departamento de Epidemiologia. Estatística espacial. Padrão Pontual

Fundação Oswaldo Cruz Escola Nacional de Saúde Pública Departamento de Epidemiologia. Estatística espacial. Padrão Pontual Fundação Oswaldo Cruz Escola Nacional de Saúde Pública Departamento de Epidemiologia Estatística espacial Padrão Pontual Padrão de Pontos A análise de padrão de pontos, é o tipo mais simples de análise

Leia mais

Um modelo estocástico para o fluxo de caixa de um plano de previdência de um indivíduo 15

Um modelo estocástico para o fluxo de caixa de um plano de previdência de um indivíduo 15 2 Simulação estocástica A simulação computacional consiste em empregar técnicas matemáticas em computadores com o propósito de gerar ensaios que tentam reproduzir de maneira análoga um processo ou operação

Leia mais

Modelos Lineares Generalizados - Modelos log-lineares para tabelas de contingência

Modelos Lineares Generalizados - Modelos log-lineares para tabelas de contingência Modelos Lineares Generalizados - Modelos log-lineares para tabelas de contingência Erica Castilho Rodrigues 12 de Agosto Introdução 3 Vimos como usar Poisson para testar independência em uma Tabela 2x2.

Leia mais

DISTRIBUIÇÃO AMOSTRAL E ESTIMAÇÃO PONTUAL INTRODUÇÃO ROTEIRO POPULAÇÃO E AMOSTRA. Estatística Aplicada à Engenharia

DISTRIBUIÇÃO AMOSTRAL E ESTIMAÇÃO PONTUAL INTRODUÇÃO ROTEIRO POPULAÇÃO E AMOSTRA. Estatística Aplicada à Engenharia ROTEIRO 1. Introdução; DISTRIBUIÇÃO AMOSTRAL E ESTIMAÇÃO PONTUAL. Teorema Central do Limite; 3. Conceitos de estimação pontual; 4. Métodos de estimação pontual; 5. Referências. 1 POPULAÇÃO E AMOSTRA População:

Leia mais

INFERÊNCIA EM MODELOS LINEARES GENERALIZADOS ANÁLISE DE DEVIANCE

INFERÊNCIA EM MODELOS LINEARES GENERALIZADOS ANÁLISE DE DEVIANCE INFERÊNCIA EM MODELOS LINEARES GENERALIZADOS ANÁLISE DE DEVIANCE A análise de deviance é uma generalização, para modelos lineares generalizados, da análise de variância. No caso de modelos lineares, utiliza-se

Leia mais

I Workshop em Inteligência Computacional e Aprendizado Estatístico Aplicados à Agropecuária

I Workshop em Inteligência Computacional e Aprendizado Estatístico Aplicados à Agropecuária I Workshop em Inteligência Computacional e Aprendizado Estatístico Aplicados à Agropecuária Camila Ferreira Azevedo Professora Departamento de Estatística - UFV Email: camila.azevedo@ufv.br 1 Colaboradores:

Leia mais

Modelos Bayesianos. Ernesto F. L. Amaral Magna M. Inácio

Modelos Bayesianos. Ernesto F. L. Amaral Magna M. Inácio 1 Modelos Bayesianos Ernesto F. L. Amaral Magna M. Inácio 09 de dezembro de 2010 Tópicos Especiais em Teoria e Análise Política: Problema de Desenho e Análise Empírica (DCP 859B4) Objetivos 2 Apresentar

Leia mais

MOQ 13 PROBABILIDADE E ESTATÍSTICA. Professor: Rodrigo A. Scarpel

MOQ 13 PROBABILIDADE E ESTATÍSTICA. Professor: Rodrigo A. Scarpel MOQ 13 PROBABILIDADE E ESTATÍSTICA Professor: Rodrigo A. Scarpel rodrigo@ita.br www.mec.ita.br/~rodrigo Programa do curso: Semanas 1 3 4 5 6 7 8 9 10 11 1 13 14 15 e 16 Introdução à probabilidade (eventos,

Leia mais

3. Estimação pontual USP-ICMC-SME. USP-ICMC-SME () 3. Estimação pontual / 25

3. Estimação pontual USP-ICMC-SME. USP-ICMC-SME () 3. Estimação pontual / 25 3. Estimação pontual USP-ICMC-SME 2013 USP-ICMC-SME () 3. Estimação pontual 2013 1 / 25 Roteiro Formulação do problema. O problema envolve um fenômeno aleatório. Interesse em alguma característica da população.

Leia mais

Econometria IV Modelos Lineares de Séries Temporais. Fernando Chague

Econometria IV Modelos Lineares de Séries Temporais. Fernando Chague Econometria IV Modelos Lineares de Séries Temporais Fernando Chague 2016 Estacionariedade Estacionariedade Inferência estatística em séries temporais requer alguma forma de estacionariedade dos dados Intuição:

Leia mais

3 Filtro de Kalman Discreto

3 Filtro de Kalman Discreto 3 Filtro de Kalman Discreto As medidas realizadas por sensores estão sujeitas a erros, como pode ser visto no Capítulo 2. Os filtros são aplicados aos sinais medidos pelos sensores para reduzir os erros,

Leia mais

Estimação do desemprego em pequenas áreas

Estimação do desemprego em pequenas áreas Estimação do desemprego em pequenas áreas Soraia Pereira a, Feridun Turkman b, Luís Correia c, Håvard Rue d a,b CEAUL, FCUL, Universidade de Lisboa, c Instituto Nacional de Estatística, d King Abdullah

Leia mais