Regressão Beta Multivariada com

Tamanho: px
Começar a partir da página:

Download "Regressão Beta Multivariada com"

Transcrição

1 Universidade Federal do Rio de Janeiro Instituto de Matemática Regressão Beta Multivariada com Aplicações em Pequenas Áreas Debora Ferreira de Souza Rio de Janeiro 2011

2 Regressão Beta Multivariada com Aplicações em Pequenas Áreas Debora Ferreira de Souza Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de Matemática, da Universidade Federal do Rio de Janeiro, como parte dos requisitos necessários à obtenção do título de Doutor em Estatística. Orientador: Fernando A. S. Moura Rio de Janeiro 2011

3 Souza, Débora Ferreira de. Regressão beta multivariada com aplicações em pequenas áreas/débora Ferreira de Souza.--Rio de Janeiro: S729 UFRJ/IM, xxi, 167f. :il. ; 30 cm. Dissertação (mestrado) UFRJ/IM/Programa de Pós- Graduação em Estatística, Orientador: Fernando Antônio da Silva Moura. Referências: f Regressão(Estatística). 2.Cópulas (Estatística matemática). 3. Modelos hierárquicos (Estatística). I. Moura, Fernando Antônio da Silva. II. Universidade Federal do Rio de Janeiro. Instituto de Matemática. III.Título.

4 Regressão Beta Multivariada com Aplicações em Pequenas Áreas Debora Ferreira de Souza Orientador: Fernando A. S. Moura Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de Matemática, da Universidade Federal do Rio de Janeiro, como parte dos requisitos necessários à obtenção do título de Doutor em Estatística. Aprovada em: Prof. Fernando Antonio da Silva Moura, Ph.D., UFRJ Prof a. Flavia Maria Pinto Ferreira Landim, Ph.D., UFRJ Prof a. Marina Silva Paez, Ph.D., UFRJ Prof a. Cibele Queiroz da Silva, Ph.D., UNB Prof. Marcel de Toledo Vieira, Ph.D., UFJF Prof a. Silvia Lopes de Paula Ferrari, Ph.D., USP Rio de Janeiro 2011

5 Agradecimentos A Deus que me deu saúde e persistência para levar este trabalho adiante. Ao meu orientador, por ter me aceito como aluna, pela ajuda, dedicação e incentivo nesta pesquisa. Aos professores do Programa de Pós Graduação em Estatística da UFRJ por todo conhecimento transmitido. Ao Comitê de Treinamento do IBGE pela concessão de afastamento integral do trabalho, que permitiu a dedicação exclusiva a esta pesquisa, fato fundamental para sua realização. Aos meus colegas de laboratório na UFRJ sempre prestativos e que certamente tornaram minha estada mais alegre. Aos meus colegas de trabalho no IBGE pelo incentivo e apoio. Aos meus pais e ao meu irmão por todo carinho, dedicação e paciência, não só durante a elaboração da Tese, como também durante a vida. A todos aqueles que contribuíram direta, ou indiretamente, para a realização deste trabalho.

6 RESUMO Regressão Beta Multivariada com Aplicações em Pequenas Áreas Debora Ferreira de Souza Orientador: Fernando A. S. Moura Resumo da Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de Matemática, da Universidade Federal do Rio de Janeiro, como parte dos requisitos necessários à obtenção do título de Doutor em Estatística. Modelos de regressão beta multivariados são propostos para modelagem conjunta de duas ou mais variáveis cujos valores pertencem ao intervalo (0,1), tais como índices, taxas e proporções. A modelagem multivariada pode trazer benefícios ao processo de estimação, aumentando a troca de informações entre as unidades, de modo a obter estimativas mais precisas, sobretudo para amostras pequenas. Cada variável resposta foi suposta beta distribuída, possibilitando a consideração de dados assimétricos. Funções cópulas foram utilizadas para construir a distribuição conjunta das variáveis dependentes. As cópulas têm flexibilidade na representação de diversos tipos de dependência entre as variáveis e no tratamento de relações não-lineares. Um modelo de regressão e um modelo hierárquico de dois níveis foram propostos. O último assume efeitos fixos e aleatórios correlacionados. Ambos os modelos foram utilizados com sucesso para estimação em pequenas áreas e para imputação de dados faltantes. Todo o processo de inferência foi realizado sob a abordagem Bayesiana e algumas vantagens em fazer reparametrizações no modelo hierárquico são exploradas em detalhes. Palavras-chave: Regressão beta univariada, cópulas, modelos hierárquicos, estimação em pequenas áreas.

7 ABSTRACT Multivariate Beta Regression with Applications in Small Area Estimation Debora Ferreira de Souza Orientador: Fernando A. S. Moura Abstract da Tese de Doutorado apresentada ao Programa de Pós-Graduação em Estatística, Instituto de Matemática, da Universidade Federal do Rio de Janeiro, como parte dos requisitos necessários à obtenção do título de Doutor em Estatística. Multivariate beta regression models for jointly modelling two or more variables whose values belong to the interval (0,1), such as indexes, rates and proportions are proposed. The multivariate model can help the estimation process, borrowing information between units and obtaining more precise estimates, especially for small samples. Each response variable was assumed to be beta distributed, allowing dealing with multivariate asymmetric data. Copula functions are used to construct the joint distribution of the dependent variables. Copulas are flexible for representing various types of dependence between variables and for dealing with non-linear relationships. A regression model and a hierarchical model with two levels have been proposed. The later model assumes fixed and correlated random effects. Both models are successfully used to make small area predictions and to impute missing values. The inference process was conducted under a Bayesian approach and some advantages of applying a reparametrization to the hierarchical model is explored in details. Keywords: estimation. Univariate beta regression, copulas, hierarchical models, small area

8 Sumário Lista de Figuras Lista de Tabelas Lista de Abreviaturas xi xvii xxi 1 Introdução 1 2 Revisão bibliográfica Modelos hierárquicos Estimação em pequenas áreas Critérios de comparação de modelos Verossimilhança preditiva Critérios de informação baseados no desvio Diagnóstico de convergência Inspeção Visual Critério de Geweke Critério de Gelman e Rubin Modelo de regressão beta univariado Regressão beta univariada Inferência Bayesiana no modelo de regressão beta univariado Exemplo com dados simulados Modelo de regressão beta multivariado utilizando cópulas Distribuições multivariadas com marginais beta Construção de distribuições conjuntas via cópulas Medidas de dependência Exemplos de modelos de regressão baseados em cópulas viii

9 4.3 Regressão beta multivariada via aplicação de cópulas Critérios de comparação de modelos envolvendo cópulas Inferência no modelo de regressão beta multivariado Exercícios com dados simulados Ajuste do modelo bivariado Aplicação de diferentes funções cópula Comparação dos ajustes univariado e bivariado Modelo hierárquico multivariado com efeitos aleatórios correlacionados Modelo hierárquico beta Comentários sobre estimação em pequenas áreas Alguns casos particulares do modelo hierárquico Modelo hierárquico multivariado de três níveis Inferência no modelo hierárquico Exemplos com dados simulados Aplicação com dados reais Previsão e estimação em pequenas áreas Previsão no modelo de regressão multivariado Observações faltantes em todas as variáveis resposta Observações faltantes em uma variável resposta Aplicação com dados reais Comentários finais Estimação em Pequenas Áreas Aplicação - Dados da Prova Brasil Aplicação Aplicação Comentários Finais Conclusões e Trabalhos Futuros Alguns aspectos computacionais Modelo dinâmico hierárquico multivariado Priori de Jeffreys no modelo de regressão beta ix

10 Referências Bibliográficas 134 A Funções de distribuição acumuladas e densidades das cópulas bivariadas utilizadas neste trabalho. 140 B Algoritmos de simulação de observações das cópulas utilizadas neste trabalho 142 C Diagnóstico de convergência 144 C.1 Regressão beta univariada C.2 Modelo minimal com resposta beta bivariada C.3 Regressão beta bivariada nas simulações - amostragem separada dos parâmetros C.4 Regressão beta bivariada nas simulações - amostragem conjunta dos parâmetros C.5 Modelo hierárquico multivariado D Sumário da distribuição a posteriori das observações faltantes do Exemplo x

11 Lista de Figuras 3.1 Comparação das densidades a posteriori de φ quando φ Gama(67, 6; 2, 6) (linha cheia) e φ Gama(0, 001; 0, 001) (linha tracejada) a priori Histogramas das amostras dos parâmetros do modelo com a cópula FGM, misturando-se as duas cadeias geradas. Valores verdadeiros destacados pela linha vertical Razões entre as estatísticas REQM fornecidas pelos modelos univariado (denominador) e bivariado(numerador), calculadas para as amostras de tamanho 100 e para cada parâmetro, contra os valores fixos de τ Trajetórias das cadeias dos interceptos, β k, k = 1, 2, fornecidos pelo Algoritmo 1. Foi utilizada a distribuição a priori Wishart mais informativa para Σ. As linhas tracejadas destacam os valores verdadeiros dos parâmetros Trajetórias das cadeias dos interceptos, β k, k = 1, 2, fornecidos pelo Algoritmo 2. Foi utilizada a distribuição a priori Wishart mais informativa para Σ. As linhas tracejadas destacam os valores verdadeiros dos parâmetros Histogramas dos parâmetros β k, φ k, σk, 2 k = 1, 2, e σ 12. Foram utilizados o Algoritmo 2 para obtenção das amostras a posteriori e a distribuição a priori mais informativa para Σ. As linhas verticais destacam os valores verdadeiros dos parâmetros Trajetórias de duas cadeias simuladas pelo algoritmo de Metropolis- Hastings, com iterações, para os parâmetros do modelo hierárquico de regressão beta, com distribuições a priori uniformes para os parâmetros da matriz de variâncias-covariâncias. Os valores verdadeiros aparecem destacados pelas linhas tracejadas xi

12 5.5 Médias a posteriori dos parâmetros dos vetores µ 1 e µ 2 contra as médias simuladas de cada resposta Trajetórias das amostras dos parâmetros do modelo hierárquico de regressão beta com cópula FGM, uma variável explicativa e interceptos aleatórios. Amostras geradas pelo Algoritmo 2. Os dados utilizados foram simulados e as linhas tracejadas destacam os valores verdadeiros Trajetórias das amostras dos interceptos no modelo hierárquico de regressão beta com cópula FGM e interceptos aleatórios. Amostras geradas pelo Algoritmo 1. Os dados utilizados foram simulados e as linhas tracejadas destacam os valores verdadeiros Proporções médias de Biologia e Física observadas nas 99 escolas contra as médias a posteriori das proporções fornecidas pelos três modelos Distribuição dos vícios relativos absolutos entre os valores verdadeiros e as médias a posteriori fornecidas pelos modelos bivariado e univariado. Quatro situações são comparadas: (a) n o = 80, n f = 20 e τ = 0, 8; (b) n o = 80, n f = 20 e τ = 0, 5; (c) n o = 40, n f = 10 e τ = 0, 8 e (d) n o = 40, n f = 10 e τ = 0, Razão entre os vícios relativos absolutos fornecidos pelos modelos bivariado e univariado. Quatro situações são comparadas: (a) n o = 80, n f = 20 e τ = 0, 8; (b) n o = 80, n f = 20 e τ = 0, 5; (c) n o = 40, n f = 10 e τ = 0, 8 e (d) n o = 40, n f = 10 e τ = 0, Distribuição das amplitudes dos intervalos de credibilidade 95% fornecidos pelos modelos bivariado e univariado. Quatro situações são comparadas: (a) n o = 80, n f = 20 e τ = 0, 8; (b) n o = 80, n f = 20 e τ = 0, 5; (c) n o = 40, n f = 10 e τ = 0, 8 e (d) n o = 40, n f = 10 e τ = 0, Razão entre as amplitudes dos intervalos de credibilidade 95% fornecidos pelos modelos bivariado e univariado. Quatro situações são comparadas: (a) n o = 80, n f = 20 e τ = 0, 8; (b) n o = 80, n f = 20 e τ = 0, 5; (c) n o = 40, n f = 10 e τ = 0, 8 e (d) n o = 40, n f = 10 e τ = 0, xii

13 6.5 Posições das observações no vetor y f2 contra: os limites dos intervalos de credibilidade 95% dos modelos univariado (unidos pelas linhas tracejadas e delimitados por colchetes) e bivariado (delimitados por parênteses); medianas a posteriori dos modelos univariado (círculo) e bivariado (círculo cheio); e valores verdadeiros (X) Distribuição dos erros encontrados para (a) Língua Portuguesa e (b) Matemática com os modelos hierárquicos multivariados sem cópula (Mod.1), com cópula Gaussiana (Mod.2) e os modelos individuais (Mod. Ind.) Distribuição dos erros relativos absolutos obtidos para (a) Língua Portuguesa e (b) Matemática com os modelos hierárquicos multivariados sem cópula (Mod.1), com cópula Gaussiana (Mod.2) e os modelos individuais (Mod. Ind.) Distribuição dos erros quadráticos encontrados para (a) Língua Portuguesa e (b) Matemática com os modelos hierárquicos multivariados sem cópula (Mod.1), com cópula Gaussiana (Mod.2) e os modelos individuais (Mod. Ind.) Distribuição dos coeficientes de variação encontrados para (a) Língua Portuguesa e (b) Matemática com os modelos hierárquicos multivariados sem cópula (Mod.1), com cópula Gaussiana (Mod.2) e os modelos individuais (Mod. Ind.) Resíduos (círculos cheios) com intervalos de credibilidade 95% encontrados pelo ajuste dos modelos separados para as respostas (a) Língua Portuguesa e (b) Matemática Resíduos (círculos cheios) com intervalos de credibilidade 95% encontrados pelo ajuste do modelo hierárquico multivariado sem cópula para (a) Língua Portuguesa e (b) Matemática Resíduos (círculos cheios) com intervalos de credibilidade 95% encontrados pelo ajuste do modelo hierárquico multivariado com cópula Gaussiana para (a) Língua Portuguesa e (b) Matemática xiii

14 6.13 Proporções de acertos observadas na Prova Brasil contra as médias estimadas das escolas selecionadas pelo plano amostral fictício para: (a) variável Língua Portuguesa; (b) variável Matemática. As estimativas são dadas pelas médias a posteriori do parâmetro µ ijk em cada escola selecionada Proporções de acertos observadas na Prova Brasil contra as médias estimadas das escolas não selecionadas pelo plano amostral fictício para: (a) variável Língua Portuguesa; (b) variável Matemática. As estimativas são dadas pelas médias a posteriori do parâmetro µ ijk em cada escola não selecionada Proporções de acertos observadas na Prova Brasil contra as estimadas nas escolas selecionadas pelo plano amostral fictício: (a) variável Língua Portuguesa; (b) variável Matemática. As estimativas são dadas pelas médias a posteriori do parâmetro y ijk em cada escola selecionada Comparação dos coeficientes de variação fornecidos pelo estimador direto e pelo modelo nas escolas amostradas para as disciplinas (a) Língua Portuguesa e (b) Matemática nas escolas amostradas Resíduos (círculos cheios) com intervalos de credibilidade 95% encontrados pelo ajuste do modelo hierárquico multivariado sem cópula para (a) Língua Portuguesa e (b) Matemática C.1 Modelo de regressão beta univariada do Capítulo 3: trajetórias, histogramas e autocorrelações dos parâmetros. Seus valores verdadeiros aparecem destacados C.2 Modelo bivariado utilizando a cópula FGM do Capítulo 4: trajetórias, histogramas e autocorrelações dos parâmetros. Seus valores verdadeiros aparecem destacados C.3 Modelo bivariado utilizando a cópula FGM do Capítulo 4: trajetórias, histogramas e autocorrelações dos parâmetros. Seus valores verdadeiros aparecem destacados (continuação) C.4 Modelo de regressão beta bivariado com cópula Clayton do Capítulo 4: trajetórias, histogramas e autocorrelações dos parâmetros C.5 Modelo de regressão beta bivariado com cópula Clayton do Capítulo 4: trajetórias, histogramas e autocorrelações dos parâmetros (continuação). 148 xiv

15 C.6 Modelo de regressão beta bivariado com cópula FGM do Capítulo 4: trajetórias, histogramas e autocorrelações dos parâmetros C.7 Modelo de regressão beta bivariado com cópula FGM do Capítulo 4: trajetórias, histogramas e autocorrelações dos parâmetros (continuação). 150 C.8 Modelo de regressão beta bivariado com cópula Frank do Capítulo 4: trajetórias, histogramas e autocorrelações dos parâmetros C.9 Modelo de regressão beta bivariado com cópula Frank do Capítulo 4: trajetórias, histogramas e autocorrelações dos parâmetros (continuação). 152 C.10 Modelo de regressão beta bivariado com cópula Gaussiana do Capítulo 4: trajetórias, histogramas e autocorrelações dos parâmetros C.11 Modelo de regressão beta bivariado com cópula Gaussiana do Capítulo 4: trajetórias, histogramas e autocorrelações dos parâmetros (continuação). 154 C.12 Modelo de regressão beta bivariado com cópula Clayton do Capítulo 4: trajetórias, histogramas e autocorrelações dos parâmetros C.13 Modelo de regressão beta bivariado com cópula Clayton do Capítulo 4: trajetórias, histogramas e autocorrelações dos parâmetros (continuação). 156 C.14 Modelo de regressão beta bivariado com cópula FGM do Capítulo 4: trajetórias, histogramas e autocorrelações dos parâmetros C.15 Modelo de regressão beta bivariado com cópula FGM do Capítulo 4: trajetórias, histogramas e autocorrelações dos parâmetros (continuação). 158 C.16 Modelo de regressão beta bivariado com cópula Frank do Capítulo 4: trajetórias, histogramas e autocorrelações dos parâmetros C.17 Modelo de regressão beta bivariado com cópula Frank do Capítulo 4: trajetórias, histogramas e autocorrelações dos parâmetros (continuação). 160 C.18 Modelo de regressão beta bivariado com cópula Gaussiana do Capítulo 4: trajetórias, histogramas e autocorrelações dos parâmetros C.19 Modelo de regressão beta bivariado com cópula Gaussiana do Capítulo 4: trajetórias, histogramas e autocorrelações dos parâmetros (continuação). 162 C.20 Modelo hierárquico bivariado com σ1 2 = σ2 2 = 0, 5 e ρ 12 = 0, 5 no Capítulo 5: trajetórias, histogramas e autocorrelações C.21 Modelo hierárquico bivariado com σ1 2 = σ2 2 = 0, 5 e ρ 12 = 0, 5 no Capítulo 5: trajetórias, histogramas e autocorrelações (continuação) xv

16 C.22 Modelo hierárquico bivariado com σ1 2 = σ2 2 = 0, 5 e ρ 12 = 0, 2 no Capítulo 5: trajetórias, histogramas e autocorrelações C.23 Modelo hierárquico bivariado com σ1 2 = σ2 2 = 0, 5 e ρ 12 = 0, 2 no Capítulo 5: trajetórias, histogramas e autocorrelações (continuação) xvi

17 Lista de Tabelas 3.1 Sumários das distribuições a posteriori, em cada cadeia, quando φ Gama(67, 62, 6) e φ Gama(0, 001; 0, 001) a priori Definição das cópulas utilizadas neste trabalho, domínio de variação do parâmetro das cópulas, θ, a medida de associação τ de Kendall e sua relação com θ Sumário da distribuição a posteriori dos parâmetros do modelo bivariado com cópula Clayton: valores verdadeiros, limites dos intervalos de credibilidade 95%, mediana e média a posteriori e distribuições a priori de cada parâmetro Sumário da distribuição a posteriori dos parâmetros do modelo bivariado com cópula FGM: valores verdadeiros, limites dos intervalos de credibilidade 95%, mediana e média a posteriori e distribuições a priori de cada parâmetro Sumário da distribuição a posteriori dos parâmetros do modelo bivariado com cópula Frank: valores verdadeiros, limites dos intervalos de credibilidade 95%, mediana e média a posteriori e distribuições a priori de cada parâmetro Sumário da distribuição a posteriori dos parâmetros do modelo bivariado com cópula Gaussiana: valores verdadeiros, limites dos intervalos de credibilidade 95%, mediana e média a posteriori e distribuições a priori de cada parâmetro Percentual das vezes em que o intervalo de credibilidade 95% contém o valor verdadeiro do parâmetro e amplitude dos intervalos. Amostras do modelo bivariado com τ = 0, Vício e erro quadrático médio obtido para as amostras do modelo bivariado com τ = 0, xvii

18 4.8 Percentual das vezes em que o intervalo de credibilidade 95% contém o valor verdadeiro do parâmetro e amplitude dos intervalos. Amostras do modelo bivariado com τ = 0, Vício e erro quadrático médio obtido para as amostras do modelo bivariado com τ = 0, Percentual das vezes em que o intervalo de credibilidade 95% contém o valor verdadeiro do parâmetro e a amplitude dos intervalos. Amostras do modelo bivariado com τ = 0, Vício e erro quadrático médio obtido para as amostras do modelo bivariado com τ = 0, Percentual das vezes em que o intervalo de credibilidade 95% contém o valor verdadeiro do parâmetro e amplitude dos intervalos. Amostras do modelo univariado Vício e erro quadrático médio obtido para as amostras do modelo univariado Valores verdadeiros dos parâmetros, distribuições a priori e propostas do MCMC utilizadas no exercício Sumários das distribuições a posteriori quando se adota para Σ 1 distribuições a priori Wishart com diferentes parâmetros, correlação dos efeitos aleatórios igual a 0, 50 e variância 0, Sumário da distribuição a posteriori quando se adota para Σ 1 distribuição a priori Wishart vaga (Priori 3), correlação dos efeitos aleatórios igual a 0, 50 e variância 0, Valores verdadeiros dos parâmetros, distribuições a priori e propostas do MCMC utilizadas no exercício Sumário da distribuição a posteriori quando se adota para Σ 1 distribuição a priori Wishart informativa, correlação dos efeitos aleatórios igual a 0, 20 e variância 0, Sumários das distribuições a posteriori quando se adota para Σ 1 distribuições a priori Wishart com diferentes parâmetros, correlação dos efeitos aleatórios igual a 0, 10 e variância 0, xviii

19 5.7 Sumário da distribuição a posteriori quando se adota para Σ 1 distribuição a priori Wishart. Modelo hierárquico de regressão beta com cópulas, uma variável explicativa e efeitos aleatórios nos interceptos Critérios de comparação DIC, AIC, BIC, número de parâmetros e logaritmo da verossimilhança preditiva obtidos pelos ajustes dos modelos hierárquicos com resposta normal (Modelo 1), com resposta beta sem cópulas (Modelo 2) e com resposta beta e cópula Gaussiana (Modelo 3) Sumários das distribuições a posteriori dos Modelos 2 e Correlações parciais entre as variáveis resposta de acordo com a presença das variáveis regressoras no modelo Sumários das distribuições a posteriori dos modelos que utilizam as cópulas Clayton e FGM Sumários das distribuições a posteriori dos modelos que utilizam as cópulas Frank e Gaussiana Sumários das distribuições a posteriori obtidas a partir dos modelos separados Médias e desvios a posteriori das previsões das observações faltantes nos modelos bivariados com diferentes cópulas e no modelo univariado Vícios relativos absolutos dos valores verdadeiros das observações consideradas desconhecidas e as previsões fornecidas pelos modelos (em %) Razões entre as variâncias e as amplitudes dos intervalos de credibilidade 95% fornecidas pelos modelos bivariados e univariados (em %) Critérios de comparação de modelos considerando as observações ausentes como parâmetros Aplicação 1: Estatísticas descritivas das distribuições dos erros, erros relativos absolutos, erros quadráticos e coeficientes de variação obtidos pelos modelos hierárquicos multivariado e univariados para as escolas não amostradas nas disciplinas Língua Portuguesa e Matemática Sumário da distribuição a posteriori dos parâmetros do Modelo xix

20 6.11 Critério de comparação DIC, número de parâmetros e logaritmo da verossimilhança preditiva obtidos pelos ajustes dos modelos hierárquicos multivariados com respostas beta sem cópula (Modelo 1) e com cópula Gaussiana (Modelo 2), bem como os univariados para Língua Portuguesa e Matemática Sumário da distribuição a posteriori dos parâmetros do modelo D.1 Sumário da distribuição a posteriori das previsões das observações faltantes nos modelos bivariado e univariado xx

21 Lista de Abreviaturas AIC BIC DIC EBLUP EPD FGM IBGE IDH INEP IPEA MCMC Critério de Informação Akaike (Akaike Information Criterion). Critério de Informação Bayesiano (Bayesian Information Criterion). Critério de Informação Baseado no Desvio (Deviance Information Criterion). Melhor preditor empírico linear não-viesado (Empirical Best Linear Unbiased Predictor). Desvio Preditivo Esperado (Expected Prediction Deviation). Cópula Farlie-Gumbel-Morgenstern. Fundação Instituto Brasileiro de Geografia e Estatística. Índice de Desenvolvimento Humano. Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira. Instituto de Pesquisa Econômica Aplicada. Monte Carlo via Cadeias de Markov (Monte Carlo Markov Chain). xxi

22 Capítulo 1 Introdução Existem situações nas quais deseja-se explicar o comportamento de uma variável dependente através de um conjunto de p variáveis chamadas explicativas ou regressoras. Quando há mais de uma variável dependente e estas são relacionadas entre si, a análise multivariada torna-se mais apropriada por considerar as associações entre essas variáveis. Então, espera-se que haja ganho de precisão das estimativas dos parâmetros dos modelos e das previsões que estes possam fornecer. O objetivo desta tese é contribuir com novas formas de modelagem de variáveis que representam índices, taxas e proporções, comumente estimadas com baixa precisão em amostras pequenas e, por esta razão, consideradas instáveis. Exemplos de variáveis mensuradas no intervalo (0, 1) ou num intervalo (a, b) são a proporção de pobres, taxas de mortalidade, razão entre gasto alimentar e despesa total, razão entre renda dos mais pobres e renda total, taxa de desemprego. Embora a motivação do trabalho seja a estimação de taxas e proporções em pequenas áreas (ou pequenos domínios), a estratégia para atingir este objetivo parte do desenvolvimento de modelos aplicáveis em contextos mais gerais, com a posterior apresentação dos estimadores para pequenas áreas. Assim, modelos multivariados são desenvolvidos para a modelagem de taxas e proporções, oferecendo a possibilidade de tratar conjuntamente quantidades relacionadas, aproveitando os benefícios que a abordagem conjunta oferece. A troca de informações entre as variáveis nos modelos multivariados aqui propostos auxilia a obtenção de estimativas mais precisas das quantidades alvo e permitem também que os erros das estimativas sejam calculados. Nos últimos anos, tem-se desenvolvido grande número de aplicações envolvendo a distribuição beta, apropriada para modelar taxas e proporções, pois está definida no intervalo (0, 1), além de considerar características de assimetria presentes nesses tipos de variáveis, assumindo diferentes formas dependendo de seus parâmetros. A 1

23 regressão beta permite também que as observações sejam heterocedásticas. No entanto, as propostas de utilização da distribuição beta no contexto de regressão, em sua maioria, tem se restringido aos casos em que há apenas uma variável dependente e sob abordagem Bayesiana, faltam estudos sobre a utilização de diferentes distribuições a priori para os coeficientes de regressão e outros parâmetros. A presente tese desenvolve modelos de regressão multivariada nos quais as variáveis dependentes seguem, marginalmente, uma distribuição beta cuja densidade foi reparametrizada em função dos parâmetros de média e precisão, como em Ferrari e Cribari-Neto (2004). Esses modelos foram desenvolvidos para tratar dados em contextos gerais, porém uma aplicação em pequenas áreas mostra que são vantajosos especialmente nesta situação. Por hipótese, nos modelos construídos ao longo deste texto, as variáveis resposta não somam um, como em alguns modelos para proporções discutidos, por exemplo, em Melo et al. (2009) e Fabrizi et al. (2011). A associação entre as variáveis resposta é considerada através de uma função cópula aplicada às densidades marginais. As cópulas são ferramentas úteis para construção de distribuições multivariadas quando as marginais são dadas ou conhecidas, permitindo que modelos individuais sejam analisados conjuntamente. Além disso, possibilitam a representação de diversos tipos de dependência entre as variáveis. As cópulas possuem flexibilidade para tratamento de relações não-lineares entre as variáveis envolvidas, sendo portanto mais gerais que, por exemplo, a distribuição normal multivariada a qual permite apenas relações lineares. Fundamentalmente, duas classes de modelos multivariados com resposta beta são construídas ao longo do trabalho: um modelo de regressão e um modelo hierárquico que admite dois níveis. O segundo considera efeitos fixos e aleatórios que são supostamente correlacionados. Ambos podem ser utilizados em situações em que o pesquisador precisa analisar dados de variáveis relacionadas, medidas no intervalo (0, 1), e essas relações auxiliam as previsões de observações faltantes. O modelo hierárquico pode ser utilizado para melhorar a previsão de observações e parâmetros populacionais em pequenas áreas, permitindo que estas troquem informações entre si, possibilitando ainda que as informações de variáveis auxiliares sejam consideradas no processo de previsão. O modelo hierárquico possui alguns casos particulares interessantes que são analisados no Capítulo 5. Em problemas de estimação em pequenas áreas nos quais há, geralmente, 2

24 disponibilidade de variáveis auxiliares e dados de múltiplas características, é possível aplicar uma modelagem multivariada. Diversos autores argumentam que este tipo de abordagem fornece melhores estimativas, no sentido de aumento de precisão, por considerar as correlações entre as diferentes características. Fay (1987) modela o comportamento conjunto da renda mediana nos domicílios de três, quatro e cinco pessoas, constituindo-se num exemplo de modelagem multivariada em pequenas áreas. Datta et al. (1999) aplicaram um modelo linear misto multivariado e concluíram, a partir de um estudo de simulação, que a modelagem multivariada fornecia melhores resultados que o ajuste de um modelo separado para cada variável. Os métodos mais comuns empregados se baseiam no empréstimo de informações entre áreas vizinhas ou relacionadas, nas correlações com outras variáveis dependentes e nas informações de registros administrativos. O modelo hierárquico proposto neste trabalho tem aplicação direta no problema de estimação em pequenas áreas por favorecer a troca de informações entre as áreas e entre variáveis, particularmente entre suas médias o que ajuda no aumento de precisão de suas estimativas. Uma aplicação deste modelo a dados de pequenas áreas é feita no Capítulo 6, reservado às previsões. O processo de inferência sobre os parâmetros dos modelos propostos é feito sob abordagem Bayesiana e alguns aspectos sobre reparametrizações e algoritmos de simulação de amostras das distribuições a posteriori são abordados. Métodos de seleção de modelos foram aplicados nos exemplos. Alguns temas que aparecem nesta tese são modelos hierárquicos, estimação em pequenas áreas, critérios de comparação de modelos, cópulas e regressão beta, sendo necessário introduzí-los, mostrando em que situações aparecem na literatura. Modelos hierárquicos, estimação em pequenas áreas e critérios de comparação são abordados no Capítulo 2, no qual se faz uma introdução desses temas, juntamente com uma revisão bibliográfica de suas aplicações. O Capítulo 3 tem por finalidade apresentar o modelo de regressão beta univariado utilizado como base para construção dos modelos multivariados e discutir sobre a abordagem Bayesiana nesse modelo. O Capítulo 4 propõe um modelo multivariado de regressão beta, fornecendo uma breve descrição sobre a definição e utilização de cópulas na construção de modelos multivariados. Exercícios de simulação mostram a vantagem da modelagem conjunta sobre a separada, constituindo-se numa das contribuições desta tese. O referido capítulo também aborda a inferência sobre os parâmetros, todos considerados desconhecidos. O Capítulo 5 3

25 contribui com o desenvolvimento do modelo hierárquico multivariado de regressão beta, destacando alguns casos particulares. Reparametrizações que ajudam na amostragem dos parâmetros da distribuição a posteriori são comentadas e implementadas em exemplos com dados simulados. O Capítulo 6 versa sobre previsão de dados faltantes e contém aplicações em pequenas áreas, onde pode-se destacar a modelagem do parâmetro de precisão da regressão beta como função do tamanho de amostra, resultando em mais uma contribuição desta tese. Por fim, no Capítulo 7 apresentam-se as conclusões, comentários finais e as propostas de trabalhos futuros. 4

26 Capítulo 2 Revisão bibliográfica Neste capítulo, realiza-se revisão bibliográfica sobre temas abordados nos capítulos seguintes: modelos hierárquicos, estimação em pequenas áreas, critérios de comparação de modelos e diagnóstico de convergência nos métodos de Monte Carlo via Cadeias de Markov (MCMC). Na Seção inicial, são descritos modelos hierárquicos e suas aplicações. Na Seção 2.2, introduz-se o problema de estimação em pequenas áreas ou pequenos domínios, revisando os conceitos de estimadores diretos e indiretos, com destaque para os modelos em nível de área e de unidade. Exemplos desses modelos encontrados na literatura são citados, tanto em abordagens univariadas quanto multivariadas. Na Seção 2.3, são descritos alguns critérios de comparação de modelos, que são citados e utilizados ao longo do texto nas seções de aplicações com dados reais. Na última seção, apresentam-se os critérios mais usados para avaliação da convergência nos algoritmos MCMC empregados para simular amostras da distribuição a posteriori quando sua forma é desconhecida. A revisão de regressão beta e de cópulas é realizada na parte introdutória dos capítulos referentes a estes assuntos. 2.1 Modelos hierárquicos Um modelo hierárquico leva em conta a estrutura hierárquica da população a ser investigada, no qual as unidades de nível mais baixo na população devem estar organizadas hierarquicamente em níveis superiores. Por exemplo, alunos estão agrupados em turmas, por sua vez organizadas em escolas e estas em municípios. Podemos, então, descrever os resultados de um aluno como uma soma de efeitos do aluno, da turma, da escola e do município aos quais pertence. Estes efeitos podem ser considerados permutáveis e com uma distribuição descrita por um componente de variância. Também pode haver coeficientes de regressão em alguns ou todos os níveis. 5

27 Um modelo hierárquico normal muito utilizado tem a forma y ij N(µ + ν i, σ 2 ), i = 1,..., M, j = 1,..., N i, ν i N(0, σν), 2 onde µ representa uma média global, ν i é um efeito aleatório específico da área ou grupo i, σ 2 se refere à variância das unidades individuais e σν 2 é a variância associada aos efeitos aleatórios. No modelo acima, dependendo do problema estudado, pode-se supor distribuições para y ij diferentes da normal, como distribuições na família exponencial e, no caso deste trabalho, distribuição beta quando a resposta é uma taxa ou proporção. Um ponto importante na estimação dos parâmetros dos modelos hierárquicos refere-se às variâncias, muitas vezes supostas conhecidas pela dificuldade de estimá-las. Gelman (2006) propõe distribuições a priori para os parâmetros de variância em modelos hierárquicos. Modelos hierárquicos mais complexos já foram propostos de modo a contemplar componentes dinâmicas, como em Gamerman e Migon (1993) e Landim e Gamerman (2000). Modelos hierárquicos são aplicados frequentemente na modelagem de dados de amostras com desenho complexo, que usualmente envolvem estratificação e conglomeração em vários estágios para investigar populações com estrutura hierárquica. Tal estrutura é refletida no modelo através de efeitos aleatórios e componentes de variância que diferenciam os níveis hierárquicos. Uma vez que tal modelo é especificado, a inferência pode ser realizada a partir dos dados disponíveis para os parâmetros populacionais em qualquer nível. Essa modelagem é útil no problema de estimação em pequenas áreas, ou seja, na estimação para unidades ou domínios nos quais a informação é bastante limitada, porque favorece a troca de informação entre as áreas. Mais detalhes na Seção 2.2. Em Goldstein et al. (2009) propõe-se uma classe de modelos para respostas multivariadas mistas contínuas e categóricas, ordenadas ou não. Cada variável pode ser definida em qualquer nível de dados hierarquizados em múltiplos níveis. Além disso, procurou-se resolver problemas como de dados faltantes e parcialmente observados. Goldstein et al. (2009) propuseram um modelo bastante geral em que as variáveis contínuas podem seguir qualquer distribuição contínua, não sendo necessariamente normais. No entanto, é preciso utilizar transformações, como as de Box-Cox, nas variáveis resposta não normais. Por sua vez, esta tese propõe modelos em que as 6

28 variáveis dependentes são mantidas na escala original. 2.2 Estimação em pequenas áreas Os termos pequena área e pequeno domínio comumente se referem a populações nas quais não podem ser produzidas estimativas confiáveis para alguma variável de interesse devido a limitações nos dados disponíveis, principalmente em relação ao tamanho de amostra. Os domínios podem ser regiões geográficas, como os estados e municípios, ou grupos formados pelo cruzamento de variáveis, tais como idade, sexo e faixa de renda. Estatísticas em níveis mais desagregados são necessárias para direcionamento de políticas públicas e planejamento de pesquisas. No entanto, as limitações mencionadas dificultam a obtenção de tais dados. Estimativas de totais, médias e outras funções das variáveis de interesse podem ser obtidas a partir de estimadores diretos, derivados do desenho amostral, ou indiretamente, com base em modelos. O estimador direto utiliza apenas os valores da variável de interesse observados nas unidades amostrais do domínio e alguma informação auxiliar disponível. Em geral, as pesquisas por amostragem fornecem estimativas diretas confiáveis para domínios em que o tamanho de amostra é grande. No contexto de pequenas áreas, estimadores diretos apresentam erros elevados devido aos pequenos tamanhos de amostra. Assim, torna-se necessário o desenvolvimento de estimadores indiretos que relacionem as diversas áreas de maneira que estas emprestem informação entre si, fazendo com que cresçam os tamanhos efetivos das amostras, reduzindo-se os erros das estimativas. Exemplos de estimadores indiretos são os estimadores sintético e composto. O estimador sintético obtém as estimativas das pequenas áreas supondo que estas tenham o mesmo comportamento da área maior a qual pertencem. A estimativa direta da área maior é repartida entre as áreas menores. O estimador composto pode ser definido como uma média ponderada de dois estimadores. Por exemplo, sejam Ŷi1 e Ŷi2, respectivamente, os estimadores direto e sintético da característica Y na pequena área i. Então o estimador composto é ŶiC = w i Ŷ i1 + (1 w i )Ŷi2, com 0 w i 1. Uma possível escolha de w i é aquela que minimiza o erro quadrático médio do estimador composto. Mais detalhes sobre estes estimadores podem ser vistos em Rao (2003), assim como uma extensa revisão de métodos empregados em pequenas áreas. Para estimação indireta, destacam-se os modelos em nível de área e de unidade. Seja θ i uma função da característica de interesse, como total ou proporção, na i-ésima 7

29 pequena área e ˆθ i uma estimativa direta de θ i. O modelo básico em nível de área supõe que θ i esteja relacionado a um conjunto de variáveis auxiliares x i = (x 1i,..., x pi ) através de um modelo linear θ i = x i β + v i, i = 1,..., M, onde M é o número de áreas, β é um vetor p 1 de coeficientes de regressão e v i é um efeito aleatório específico da área i, normalmente distribuído, com média zero e variância σv. 2 O modelo em nível de área se completa com a suposição de que ˆθ i = θ i + e i, onde e i é interpretado como o erro introduzido pelo desenho amostral, tem média zero e variância ψ i, supostamente conhecida. Além disso, e i segue distribuição normal e é independente de v i. O modelo básico em nível de área foi utilizado por Fay e Herriot (1979) para estimação de renda per capita em domínios cujo tamanho da população era inferior a No modelo básico em nível de unidade, supõe-se que existem dados auxiliares x ij = (x ij1,..., x ijp ) disponíveis para cada elemento j da pequena área i. A variável de interesse se relaciona com x ij da seguinte forma y ij = x ij β + v i + e ij, j = 1,..., N i, i = 1,..., M, onde M é o número de áreas, v i são efeitos específicos de área com média zero e variância σv. 2 As variáveis aleatórias e ij e v i são consideradas independentes e normalmente distribuídas, i. Rao (2003) revisa o ajuste de modelos lineares generalizados mistos, especialmente utilizados para respostas binárias no nível de unidade e para contagens no nível de área. Nestes casos, a proporção ou taxa é a quantidade de interesse e está relacionada a variáveis explicativas através de uma função de ligação, tal como a função logística, da seguinte forma logit (p ij ) = x T ijβ + v i onde v i N(0, σv) 2 são efeitos aleatórios específicos das áreas e x ij são covariáveis relativas às unidades. O estimador da proporção P i da pequena área i é dado por /N i j S i y ij + j / S i ˆp ij onde S i é a amostra na pequena área i e ˆp ij é obtido pela equação anterior após a estimação de β e v i. 8

30 Pfeffermann (2010) atualiza a revisão de estimação em pequenas áreas cobrindo publicações posteriores ao ano de 2003, enfatizando a predição das quantidades de interesse nas áreas e o cálculo do erro de predição, tanto para estimadores diretos baseados no desenho amostral, quanto para aqueles baseados em modelos. Embora os modelos anteriormente descritos sejam também utilizados na prática para estimação de taxas e proporções, a hipótese de normalidade pode não ser realista devido aos pequenos tamanhos de amostra em alguns domínios e quando os valores são próximos de 0 ou de 1, indicando assimetria da variável resposta. O mesmo ocorre em relação à hipótese de conhecimento das variâncias ou dos coeficientes de variação. Por essa razão, alguns autores propuseram modelos específicos para tratar variáveis no intervalo (0, 1). Moura e Migon (2002) propõem um modelo hierárquico logístico de dois níveis com estrutura espacial para previsão de proporções em pequenas áreas. Os autores utilizaram os dados do Censo Escolar Brasileiro de Educação Básica do Estado do Rio de Janeiro em Os dados consistem nos graus obtidos por alunos no exame de matemática. As quantidades de interesse eram as proporções de alunos com baixa proficiência em M = 34 regiões, consideradas como pequenas áreas. Uma amostra de 10% dos estudantes de cada região foi retirada com o objetivo de comparar a estimativa obtida em cada pequena área com o respectivo valor verdadeiro da proporção. abordagem adotada supõe a existência de covariáveis que podem ser obtidas para todos os estudantes a partir dos registros das escolas. O objetivo é inferir sobre a i-ésima proporção, i = 1,..., M, que pode ser escrita como θ i = Ni 1 y ij + j S i y ij j / S i onde: y ij é variável binária, indicando se o j-ésimo indivíduo da pequena área i possui a característica de interesse; S i é a amostra da pequena área i; N i e n i são, respectivamente, o tamanho da população e o número de unidades amostradas da i- ésima pequena área. Note que a informação y ij é conhecida somente para as unidades amostrais (j S i ). A abordagem consiste em construir um modelo que relacione y ij ao conjunto de variáveis disponíveis para todas as unidades populacionais. A distribuição a posteriori para cada proporção θ i pode ser obtida a partir da distribuição preditiva de y ij para j / S i, as unidades não amostradas. Esta abordagem pode ser vista como um caso particular da previsão de observações em unidades não investigadas. A 9

31 Um modelo hierárquico logístico de dois níveis com estrutura espacial e heterogênea foi considerado para relacionar a resposta y ij às covariáveis, sendo o segundo nível, a pequena área, e o primeiro, a unidade amostral. Assume-se que as variáveis aleatórias y ij são independentes com distribuição de Bernoulli de parâmetros π ij. Além disso, dados o vetor de covariáveis de dimensão p + 1, x ij = (1, x 1,ij,..., x p,ij ) e o vetor de parâmetros de regressão β i = δ i + φ i, então log ( ) πij 1 π ij = x ijβ i onde o vetor δ i tem uma distribuição a priori não estruturada, enquanto φ i tem uma priori espacialmente estruturada. Neste caso, os autores preferiram modelar as unidades amostrais para depois inferir sobre as proporções. Com os modelos com resposta beta é possível modelar as proporções ou taxas diretamente. Liu et al. (2007) comparam quatro modelos para estimação indireta de proporções em pequenas áreas, sob abordagem Bayesiana, utilizando dados de pesquisas amostrais. O primeiro modelo corresponde àquele de Fay e Herriot (1979), em nível de área, dado por p iw P i N (P i, ψ i ) ) P i β, σ 2 ν N ( x i β, σ 2 ν onde P i é a proporção de interesse na área i, p iw representa uma estimativa direta de P i e N(a, b) se refere à distribuição normal com média a e variância b. Neste modelo, as proporções são supostas normalmente distribuídas. Esta hipótese pode não ser razoável, uma vez que o modelo não garante que a variável resposta pertença ao intervalo (0, 1). O segundo modelo é tal que p iw P i N (P i, ψ i ) ) g(p i ) β, σ 2 ν N ( x i β, σ 2 ν onde p iw é estimada diretamente pela pesquisa amostral e g( ) é a função de ligação logística. Ambos os modelos consideram ψ i conhecido. O terceiro modelo é idêntico ao segundo, mas considera a variância ψ i desconhecida. O quarto e último modelo atribui distribuição beta para as proporções, de tal forma que p iw P i Beta (a i, b i ) logit (P i ) β, σ 2 ν N ( x i β, σ 2 ν). (2.1) 10

32 A segunda distribuição do modelo (2.1) corresponde a fazer logit (P i ) = x i β + ɛ i, ɛ i N(0, σ 2 ν), diferindo do modelo (3.3), mostrado em detalhe no Capítulo 3, por considerar uma variável aleatória ɛ i no preditor linear. A variância de p iw é suposta [P i (1 P i )/n i ]epa iw, onde epa iw é o efeito do plano amostral da i-ésima pequena área, sob amostragem estratificada simples e pode ser aproximado por epa iw = n i h Wih/n 2 ih, com W ih = N ih /N i, N i = h N ih, em que N ih e n ih são respectivamente, os números de unidades total e na amostra da área i do estrato h. Assim, a i e b i em (2.1) são tais que ( ) ( ) ni ni a i = P i 1 e b i = (1 P i ) 1. epa iw epa iw Liu et al. (2007) relatam problemas com o algoritmo MCMC quando p iw = 0. Para contorná-los, os valores de p iw foram perturbados de forma que tivessem valores positivos próximos de zero. Os autores ainda estudam formas de considerar os zeros das estimativas diretas. Jiang e Lahiri (2006) utilizam um modelo em nível de área em que p iw segue distribuição beta com média P i e variância P i (1 P i )δ iw, com δ iw = n i j=1 w 2 ij onde w ij é o peso amostral da j-ésima observação da pequena área i, definido como o inverso da probabilidade de inclusão sob o plano amostral utilizado. A especificação do modelo se completa com a equação logit (P i ) = x i β + v i, com v i N(0, σ 2 v). Os autores estimam os parâmetros a partir do melhor preditor empírico linear não-viesado (EBLUP), sigla em inglês para Empirical Best Linear Unbiased Predictor. Os modelos propostos em Liu et al. (2007) e Jiang e Lahiri (2006) levam em conta algumas informações provenientes da amostra e de seu desenho, pois incluem os tamanhos e pesos amostrais. Ambas as abordagens levam a simplificações da variância, de forma que apenas um parâmetro da regressão beta seja estimado. Nos modelos propostos pelos autores citados, ocorre dificuldade na estimação da variância σ 2 v efeito aleatório das áreas. O modelo hierárquico no qual a variável resposta possui distribuição beta será visto mais adiante no Capítulo 5, com variâncias supostamente desconhecidas. Em muitas pesquisas por amostragem, existem informações para um conjunto de características e informações auxiliares. do Dependendo do grau de associação entre essas características, uma análise multivariada pode trazer benefícios ao processo de estimação, pois pode ocorrer maior empréstimo de informação entre as áreas, 11

Técnicas computacionais em probabilidade e estatística II

Técnicas computacionais em probabilidade e estatística II Técnicas computacionais em probabilidade e estatística II Universidade de São Paulo Instituto de Matemática e Estatística http:www.ime.usp.br/ mbranco Métodos de Monte Carlo baseados em Cadeias de Markov:

Leia mais

Modelos de regressão para dados correlacionados. Cibele Russo

Modelos de regressão para dados correlacionados. Cibele Russo Modelos de regressão para dados correlacionados Cibele Russo cibele@icmc.usp.br ICMC USP Mini-curso oferecido no Workshop on Probabilistic and Statistical Methods 28 a 30 de janeiro de 2013 Cibele Russo

Leia mais

Ajuste do modelo de regressão linear: Inferência Bayesiana, aspectos computacionais e seleção de variáveis.

Ajuste do modelo de regressão linear: Inferência Bayesiana, aspectos computacionais e seleção de variáveis. Ajuste do modelo de regressão linear: Inferência Bayesiana, aspectos computacionais e seleção de variáveis. João Daniel Nunes Duarte a, Vinícius Diniz Mayrink b a Estudante de Graduação, e-mail: joaodaniel@ufmg.br

Leia mais

CONHECIMENTOS ESPECÍFICOS

CONHECIMENTOS ESPECÍFICOS CONHECIMENTOS ESPECÍFICOS 2003 2004 2005 2006 2007 2008 2009 2010 X 39,0 39,5 39,5 39,0 39,5 41,5 42,0 42,0 Y 46,5 65,5 86,0 100,0 121,0 150,5 174,0 203,0 A tabela acima mostra as quantidades, em milhões

Leia mais

Técnicas computacionais em probabilidade e estatística II

Técnicas computacionais em probabilidade e estatística II Técnicas computacionais em probabilidade e estatística II Universidade de São Paulo Instituto de Matemática e Estatística http:www.ime.usp.br/ mbranco AULA 1: Problemas Computacionais em Inferência Estatística.

Leia mais

CONHECIMENTOS ESPECÍFICOS

CONHECIMENTOS ESPECÍFICOS fonte de graus de soma de quadrado variação liberdade quadrados médio teste F regressão 1 1,4 1,4 46,2 resíduo 28 0,8 0,03 total 2,2 A tabela de análise de variância (ANOVA) ilustrada acima resulta de

Leia mais

Modelos de Regressão Linear Simples - Análise de Resíduos

Modelos de Regressão Linear Simples - Análise de Resíduos Modelos de Regressão Linear Simples - Análise de Resíduos Erica Castilho Rodrigues 1 de Setembro de 2014 3 O modelo de regressão linear é dado por Y i = β 0 + β 1 x i + ɛ i onde ɛ i iid N(0,σ 2 ). O erro

Leia mais

RESOLUÇÃO Nº 01/2016

RESOLUÇÃO Nº 01/2016 Legislações Complementares: Resolução Nº 02/2016 Colegiado DEst Resolução Nº 03/2016 Colegiado DEst Resolução Nº 01/2017 Colegiado DEst RESOLUÇÃO Nº 01/2016 O Departamento de Estatística, tendo em vista

Leia mais

Ralph S. Silva

Ralph S. Silva ANÁLISE ESTATÍSTICA MULTIVARIADA Ralph S Silva http://wwwimufrjbr/ralph/multivariadahtml Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Sumário Revisão:

Leia mais

Fundação Oswaldo Cruz Escola Nacional de Saúde Pública Departamento de Epidemiologia. Estatística espacial. Áreas

Fundação Oswaldo Cruz Escola Nacional de Saúde Pública Departamento de Epidemiologia. Estatística espacial. Áreas Fundação Oswaldo Cruz Escola Nacional de Saúde Pública Departamento de Epidemiologia Estatística espacial Áreas Áreas Na análise de áreas o atributo estudado é em geral resultando de uma contagem ou um

Leia mais

Avaliação Monte Carlo do teste para comparação de duas matrizes de covariâncias normais na presença de correlação

Avaliação Monte Carlo do teste para comparação de duas matrizes de covariâncias normais na presença de correlação Avaliação Monte Carlo do teste para comparação de duas matrizes de covariâncias normais na presença de correlação Vanessa Siqueira Peres da Silva 1 2 Daniel Furtado Ferreira 1 1 Introdução É comum em determinadas

Leia mais

Influencia de Distribuições a priori na Analise Bayesiana em dados de contagem

Influencia de Distribuições a priori na Analise Bayesiana em dados de contagem Influencia de Distribuições a priori na Analise Bayesiana em dados de contagem Olinda Fátima dos Santos 1 Carla Regina Guimarães Brighenti 1 1-Introdução A utilização de informação a priori em inferência

Leia mais

Elisângela Ap. da Silva Lizzi

Elisângela Ap. da Silva Lizzi Elisângela Ap. da Silva Lizzi RESENHA DO ARTIGO "Gravidez na adolescência e características socioeconômicas dos municípios do Estado de São Paulo, Brasil: análise espacial" O artigo trata de um problema

Leia mais

Análise de Dados Longitudinais Aula

Análise de Dados Longitudinais Aula 1/35 Análise de Dados Longitudinais Aula 08.08.2018 José Luiz Padilha da Silva - UFPR www.docs.ufpr.br/ jlpadilha 2/35 Sumário 1 Revisão para dados transversais 2 Como analisar dados longitudinais 3 Perspectiva

Leia mais

Modelos de Regressão Linear Simples - Análise de Resíduos

Modelos de Regressão Linear Simples - Análise de Resíduos 1 Modelos de Regressão Linear Simples - Análise de Resíduos Erica Castilho Rodrigues 27 de Setembro de 2016 2 3 O modelo de regressão linear é dado por 3 O modelo de regressão linear é dado por Y i = β

Leia mais

CONHECIMENTOS ESPECÍFICOS

CONHECIMENTOS ESPECÍFICOS CONHECIMENTOS ESPECÍFICOS Em uma grande escola, 10% dos alunos são comprovadamente fracos. Um teste educacional conseguiu identificar corretamente 80% entre aqueles que são fracos e 85% entre aqueles que

Leia mais

IND 1115 Inferência Estatística Aula 6

IND 1115 Inferência Estatística Aula 6 Conteúdo IND 5 Inferência Estatística Aula 6 Setembro de 004 A distribuição Lognormal A distribuição Beta e sua relação com a Uniforme(0,) Mônica Barros mbarros.com mbarros.com A distribuição Lognormal

Leia mais

4 Modelos Lineares Generalizados

4 Modelos Lineares Generalizados 4 Modelos Lineares Generalizados Neste capítulo, serão apresentados arcabouços teóricos dos modelos lineares generalizados (MLGs) e como casos particulares desses modelos são aplicáveis ao problema da

Leia mais

Métodos Quantitativos para Avaliação de Políticas Públicas

Métodos Quantitativos para Avaliação de Políticas Públicas ACH3657 Métodos Quantitativos para Avaliação de Políticas Públicas Aula 11 Análise de Resíduos Alexandre Ribeiro Leichsenring alexandre.leichsenring@usp.br Alexandre Leichsenring ACH3657 Aula 11 1 / 26

Leia mais

Coeficiente de determinação R 2 no modelo de regressão linear normal

Coeficiente de determinação R 2 no modelo de regressão linear normal Coeficiente de determinação R 2 no modelo de regressão linear normal Fernando Lucambio Departamento de Estatística Universidade Federal do Paraná Curitiba/PR, 81531 990, Brasil email: lucambio@ufpr.br

Leia mais

CONHECIMENTOS ESPECÍFICOS

CONHECIMENTOS ESPECÍFICOS CONHECIMENTOS ESPECÍFICOS As variáveis aleatórias X e Y seguem uma distribuição de Bernoulli com probabilidade de sucesso igual a 0,4. Considerando S = X + Y e que os eventos aleatórios A = [X = 1] e B

Leia mais

1 Introdução aos Métodos Estatísticos para Geografia 1

1 Introdução aos Métodos Estatísticos para Geografia 1 1 Introdução aos Métodos Estatísticos para Geografia 1 1.1 Introdução 1 1.2 O método científico 2 1.3 Abordagens exploratória e confirmatória na geografia 4 1.4 Probabilidade e estatística 4 1.4.1 Probabilidade

Leia mais

Econometria em Finanças e Atuária

Econometria em Finanças e Atuária Ralph S. Silva http://www.im.ufrj.br/ralph/especializacao.html Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Maio-Junho/2013 Modelos condicionalmente

Leia mais

Análise de Regressão EST036

Análise de Regressão EST036 Análise de Regressão EST036 Michel Helcias Montoril Instituto de Ciências Exatas Universidade Federal de Juiz de Fora Regressão sem intercepto; Formas alternativas do modelo de regressão Regressão sem

Leia mais

SUMÁRIO. 1.1 Introdução, Conceitos Fundamentais, 2

SUMÁRIO. 1.1 Introdução, Conceitos Fundamentais, 2 SUMÁRIO 1 CONCEITOS BÁSICOS, 1 1.1 Introdução, 1 1.2 Conceitos Fundamentais, 2 1.2.1 Objetivo, 2 1.2.2 População e amostra, 2 1.3 Processos estatísticos de abordagem, 2 1.4 Dados estatísticos, 3 1.5 Estatística

Leia mais

Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação

Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação Francisco A. Rodrigues Departamento de Matemática Aplicada e Estatística - SME Objetivo Dada M classes ω 1, ω 2,..., ω M e um

Leia mais

RESUMO DO CAPÍTULO 3 DO LIVRO DE WOOLDRIDGE ANÁLISE DE REGRESSÃO MÚLTIPLA: ESTIMAÇÃO

RESUMO DO CAPÍTULO 3 DO LIVRO DE WOOLDRIDGE ANÁLISE DE REGRESSÃO MÚLTIPLA: ESTIMAÇÃO RESUMO DO CAPÍTULO 3 DO LIVRO DE WOOLDRIDGE ANÁLISE DE REGRESSÃO MÚLTIPLA: ESTIMAÇÃO Regressão simples: desvantagem de apenas uma variável independente explicando y mantendo ceteris paribus as demais (ou

Leia mais

CC-226 Aula 07 - Estimação de Parâmetros

CC-226 Aula 07 - Estimação de Parâmetros CC-226 Aula 07 - Estimação de Parâmetros Carlos Henrique Q. Forster - Instituto Tecnológico de Aeronáutica 2008 Estimação de Parâmetros Para construir o classificador bayesiano, assumimos as distribuições

Leia mais

Inferência Bayesiana Exata para Processos de Cox Level-Set

Inferência Bayesiana Exata para Processos de Cox Level-Set Inferência Bayesiana Exata para Processos de Cox Level-Set Bárbara da Costa Campos Dias 1 Flávio Bambirra Gonçalves 2 Resumo Este trabalho propõe uma metodologia de inferência exata para processos de Cox

Leia mais

Introdução à Teoria de Resposta ao Item

Introdução à Teoria de Resposta ao Item Caio L. N. Azevedo, IMECC/Unicamp Dani Gamerman, DME/UFRJ I CONBRATRI, Florianópolis 9 de dezembro de 2009 Parte II Parte 2: Implementação computacional. Análise de dados 1. Modelo de 3 parâmetros via

Leia mais

INCIDÊNCIA DE DENGUE EM UMA CIDADE DA COSTA MEXICANA: UM ESTUDO PREDITIVO

INCIDÊNCIA DE DENGUE EM UMA CIDADE DA COSTA MEXICANA: UM ESTUDO PREDITIVO Universidade Federal do Paraná Setor de Ciências Exatas Departamento de Estatística INCIDÊNCIA DE DENGUE EM UMA CIDADE DA COSTA MEXICANA: UM ESTUDO PREDITIVO CE225 - Modelos Lineares Generalizados Eduardo

Leia mais

CE062c - GAMLSS. Silva, J.P; Taconeli, C.A. 09 de outubro, Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, / 42

CE062c - GAMLSS. Silva, J.P; Taconeli, C.A. 09 de outubro, Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, / 42 CE062c - GAMLSS Silva, J.P; Taconeli, C.A. 09 de outubro, 2018 Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, 2018 1 / 42 Por que GAMLSS? Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro,

Leia mais

Exemplos Equações de Estimação Generalizadas

Exemplos Equações de Estimação Generalizadas Exemplos Equações de Estimação Generalizadas Bruno R. dos Santos e Gilberto A. Paula Departamento de Estatística Universidade de São Paulo, Brasil giapaula@ime.usp.br Modelos Lineares Generalizados dos

Leia mais

Aula 2 Uma breve revisão sobre modelos lineares

Aula 2 Uma breve revisão sobre modelos lineares Aula Uma breve revisão sobre modelos lineares Processo de ajuste de um modelo de regressão O ajuste de modelos de regressão tem como principais objetivos descrever relações entre variáveis, estimar e testar

Leia mais

MÉTODO MEAN SHIFT PARA DETECÇÃO DE OUTLIERS EM MODELOS NORMAIS ASSIMÉTRICOS

MÉTODO MEAN SHIFT PARA DETECÇÃO DE OUTLIERS EM MODELOS NORMAIS ASSIMÉTRICOS UNIVERSIDADE FEDERAL DE JUIZ DE FORA INSTITUTO DE CIÊNCIAS EXATAS DEPARTAMENTO DE ESTATÍSTICA MÉTODO MEAN SHIFT PARA DETECÇÃO DE OUTLIERS EM MODELOS NORMAIS ASSIMÉTRICOS Thalita do Bem Mattos Clécio da

Leia mais

ESTATÍSTICA COMPUTACIONAL

ESTATÍSTICA COMPUTACIONAL ESTATÍSTICA COMPUTACIONAL Ralph dos Santos Silva Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Sumário Inferência com dimensão variável Modelos com

Leia mais

Modelo Bayesiano Para Análise de Vazios Urbanos. Humberto Emmanuel Schmidt Oliveira Aparecida D. P. Souza Nilton Nobuhiro Imai FCT/UNESP

Modelo Bayesiano Para Análise de Vazios Urbanos. Humberto Emmanuel Schmidt Oliveira Aparecida D. P. Souza Nilton Nobuhiro Imai FCT/UNESP Modelo Bayesiano Para Análise de Vazios Urbanos Humberto Emmanuel Schmidt Oliveira Aparecida D. P. Souza Nilton Nobuhiro Imai FCT/UNESP O Problema Planejamento Urbano Municipal (breve histórico) - Plano

Leia mais

4 Modelos de Regressão Dinâmica

4 Modelos de Regressão Dinâmica 4 Modelos de Regressão Dinâmica Nos modelos de regressão linear (Johnston e Dinardo, 1998) estudados comumente na literatura, supõe-se que os erros gerados pelo modelo possuem algumas características como:

Leia mais

Análise de Regressão Linear Simples e

Análise de Regressão Linear Simples e Análise de Regressão Linear Simples e Múltipla Carla Henriques Departamento de Matemática Escola Superior de Tecnologia de Viseu Introdução A análise de regressão estuda o relacionamento entre uma variável

Leia mais

Quantis residuais. Luziane Franciscon Acadêmica de Estatística Universidade Federal do Paraná

Quantis residuais. Luziane Franciscon Acadêmica de Estatística Universidade Federal do Paraná Quantis residuais Luziane Franciscon Acadêmica de Estatística Universidade Federal do Paraná Orientador: Fernando Lucambio Departamento de Estatística Universidade Federal do Paraná Resumo Uma etapa importante

Leia mais

Sumário. CAPÍTULO 1 Conceitos preliminares 1. CAPÍTULO 2 Descrição de dados: análise monovariada 47

Sumário. CAPÍTULO 1 Conceitos preliminares 1. CAPÍTULO 2 Descrição de dados: análise monovariada 47 CAPÍTULO 1 Conceitos preliminares 1 Introdução........................................................1 O que é estatística?.................................................. 4 Papel dos microcomputadores.........................................

Leia mais

Regression and Clinical prediction models

Regression and Clinical prediction models Regression and Clinical prediction models Session 6 Introducing statistical modeling Part 2 (Correlation and Linear regression) Pedro E A A do Brasil pedro.brasil@ini.fiocruz.br 2018 Objetivos Continuar

Leia mais

Disciplina de Modelos Lineares

Disciplina de Modelos Lineares Disciplina de Modelos Lineares 2012-2 Seleção de Variáveis Professora Ariane Ferreira Em modelos de regressão múltipla é necessário determinar um subconjunto de variáveis independentes que melhor explique

Leia mais

Fundação Oswaldo Cruz Escola Nacional de Saúde Pública Departamento de Epidemiologia. Estatística espacial. Padrão Pontual

Fundação Oswaldo Cruz Escola Nacional de Saúde Pública Departamento de Epidemiologia. Estatística espacial. Padrão Pontual Fundação Oswaldo Cruz Escola Nacional de Saúde Pública Departamento de Epidemiologia Estatística espacial Padrão Pontual Padrão de Pontos A análise de padrão de pontos, é o tipo mais simples de análise

Leia mais

AULA 07 Inferência a Partir de Duas Amostras

AULA 07 Inferência a Partir de Duas Amostras 1 AULA 07 Inferência a Partir de Duas Amostras Ernesto F. L. Amaral 10 de setembro de 2012 Faculdade de Filosofia e Ciências Humanas (FAFICH) Universidade Federal de Minas Gerais (UFMG) Fonte: Triola,

Leia mais

Disciplina de Modelos Lineares Professora Ariane Ferreira

Disciplina de Modelos Lineares Professora Ariane Ferreira Disciplina de Modelos Lineares 2012-2 Regressão Logística Professora Ariane Ferreira O modelo de regressão logístico é semelhante ao modelo de regressão linear. No entanto, no modelo logístico a variável

Leia mais

CONHECIMENTOS ESPECÍFICOS

CONHECIMENTOS ESPECÍFICOS CONHECIMENTOS ESPECÍFICOS Julgue os itens que se seguem, acerca da estatística descritiva. 51 Na distribuição da quantidade de horas trabalhadas por empregados de certa empresa, é sempre possível determinar

Leia mais

Comparação entre intervalos de confiança calculados com métodos bootstrap e intervalos assintóticos

Comparação entre intervalos de confiança calculados com métodos bootstrap e intervalos assintóticos Comparação entre intervalos de confiança calculados com métodos strap e intervalos assintóticos Selene Loibel Depto. de Estatística, Matemática Aplicada e Computação, IGCE, UNESP, Rio Claro, SP E-mail:sloibel@rc.unesp.br,

Leia mais

Definição. Os valores assumidos pelos estimadores denomina-se estimativas pontuais ou simplesmente estimativas.

Definição. Os valores assumidos pelos estimadores denomina-se estimativas pontuais ou simplesmente estimativas. 1. Inferência Estatística Inferência Estatística é o uso da informção (ou experiência ou história) para a redução da incerteza sobre o objeto em estudo. A informação pode ou não ser proveniente de um experimento

Leia mais

Fernando Moura DME-UFRJ. V Escola de Amostragem

Fernando Moura DME-UFRJ. V Escola de Amostragem Modelos assimétricos para estimação em pequenos domínios Fernando Moura DME-UFRJ V Escola de Amostragem Cuiabá Outubro 2017 Fernando Moura DME-UFRJ () 1 / 1 Sumário Sumário Fernando Moura DME-UFRJ () 2

Leia mais

Modelo de Regressão Múltipla

Modelo de Regressão Múltipla Modelo de Regressão Múltipla Modelo de Regressão Linear Simples Última aula: Y = α + βx + i i ε i Y é a variável resposta; X é a variável independente; ε representa o erro. 2 Modelo Clássico de Regressão

Leia mais

Modelo de regressão Beta

Modelo de regressão Beta Modelo de regressão Beta Fernando Lucambio Pérez Departamento de Estatística Universidade Federal do Paraná Agosto de 2004 1 Consideremos uma situação em que a variável resposta contínua é restrita ao

Leia mais

UNIVERSIDADE FEDERAL DO PARANÁ CURSO DE ESTATÍSTICA. Jayme Gomes dos Santos Junior Luciana Helena Kowalski

UNIVERSIDADE FEDERAL DO PARANÁ CURSO DE ESTATÍSTICA. Jayme Gomes dos Santos Junior Luciana Helena Kowalski UNIVERSIDADE FEDERAL DO PARANÁ CURSO DE ESTATÍSTICA Jayme Gomes dos Santos Junior Luciana Helena Kowalski MODELAGEM DA EXPECTATIVA DE VIDA NOS MUNICÍPIOS DO PARANÁ A PARTIR DE COVARIÁVEIS DO CENSO 2010

Leia mais

Introdução ao modelo de Regressão Linear

Introdução ao modelo de Regressão Linear Introdução ao modelo de Regressão Linear Prof. Gilberto Rodrigues Liska 8 de Novembro de 2017 Material de Apoio e-mail: gilbertoliska@unipampa.edu.br Local: Sala dos professores (junto ao administrativo)

Leia mais

Análise Bayesiana de Dados - Aplicações 1 -

Análise Bayesiana de Dados - Aplicações 1 - Análise Bayesiana de Dados - Aplicações 1 - Márcia D Elia Branco Universidade de São Paulo Instituto de Matemática e Estatística www.ime.usp.br/ mbranco - sala 295-A - Aplicações da IB : Pressão sistólica

Leia mais

5 Avaliação dos estimadores propostos

5 Avaliação dos estimadores propostos 5 valiação dos estimadores propostos Este capítulo apresenta as medidas estatísticas usuais para avaliar a qualidade de estimadores e as expressões utilizadas para a estimação destas medidas, a partir

Leia mais

Cap. 4 - Estimação por Intervalo

Cap. 4 - Estimação por Intervalo Cap. 4 - Estimação por Intervalo Amostragem e inferência estatística População: consiste na totalidade das observações em que estamos interessados. Nº de observações na população é denominado tamanho=n.

Leia mais

Modelo de regressão estável aplicado a econometria

Modelo de regressão estável aplicado a econometria Modelo de regressão estável aplicado a econometria financeira Fernando Lucambio Departamento de Estatística Universidade Federal do Paraná Curitiba/PR, 81531 990, Brasil email: lucambio@ufpr.br 1 Objetivos

Leia mais

MODELOS DE REGRESSÃO PARA DADOS CONTÍNUOS ASSIMÉTRICOS

MODELOS DE REGRESSÃO PARA DADOS CONTÍNUOS ASSIMÉTRICOS MODELOS DE REGRESSÃO PARA DADOS CONTÍNUOS ASSIMÉTRICOS 1 Diversas distribuições podem ser consideradas para a modelagem de dados positivos com distribuição contínua e assimétrica, como, por exemplo, as

Leia mais

Análise Multivariada Aplicada à Contabilidade

Análise Multivariada Aplicada à Contabilidade Mestrado e Doutorado em Controladoria e Contabilidade Análise Multivariada Aplicada à Contabilidade Prof. Dr. Marcelo Botelho da Costa Moraes www.marcelobotelho.com mbotelho@usp.br Turma: 2º / 2016 1 Agenda

Leia mais

Modelos de regressão para dados correlacionados. Cibele Russo

Modelos de regressão para dados correlacionados. Cibele Russo Modelos de regressão para dados correlacionados Cibele Russo cibele@icmc.usp.br ICMC USP Mini-curso oferecido no Workshop on Probabilistic and Statistical Methods 28 a 30 de janeiro de 2013 Cibele Russo

Leia mais

Aula inaugural do curso Análise de Regressão

Aula inaugural do curso Análise de Regressão Aula inaugural do curso Prof a Silvia Nagib Elian Sala 215 - Bloco A Instituto de Matemática e Estatística Universidade de São Paulo Agenda 1. Exemplo 2. Introdução 3. Modelo de regressão linear simples

Leia mais

Inferência Bayesiana - Aula 1 -

Inferência Bayesiana - Aula 1 - Inferência Bayesiana - Aula 1 - Márcia D Elia Branco Universidade de São Paulo Instituto de Matemática e Estatística www.ime.usp.br/ mbranco - sala 295-A - Paradigmas Bayesiano Introdução Fazer inferência

Leia mais

AULA 09 Regressão. Ernesto F. L. Amaral. 17 de setembro de 2012

AULA 09 Regressão. Ernesto F. L. Amaral. 17 de setembro de 2012 1 AULA 09 Regressão Ernesto F. L. Amaral 17 de setembro de 2012 Faculdade de Filosofia e Ciências Humanas (FAFICH) Universidade Federal de Minas Gerais (UFMG) Fonte: Triola, Mario F. 2008. Introdução à

Leia mais

( ) Estimação do valor em risco (VaR) de uma carteira de ativos através de método bayesiano. α, é definido como:

( ) Estimação do valor em risco (VaR) de uma carteira de ativos através de método bayesiano. α, é definido como: Estimação do valor em risco (VaR) de uma carteira de ativos através de método bayesiano Orlando V. Sampaio Jr. (POLI-USP) orlando.sampaio@gmail.com Celma de Oliveira Ribeiro (POLI-USP) celma@usp.br André

Leia mais

Mais Informações sobre Itens do Relatório

Mais Informações sobre Itens do Relatório Mais Informações sobre Itens do Relatório Amostra Tabela contendo os valores amostrados a serem utilizados pelo método comparativo (estatística descritiva ou inferencial) Modelos Pesquisados Tabela contendo

Leia mais

AULAS 21 E 22 Análise de Regressão Múltipla: Estimação

AULAS 21 E 22 Análise de Regressão Múltipla: Estimação 1 AULAS 21 E 22 Análise de Regressão Múltipla: Estimação Ernesto F. L. Amaral 28 de outubro e 04 de novembro de 2010 Metodologia de Pesquisa (DCP 854B) Fonte: Cohen, Ernesto, e Rolando Franco. 2000. Avaliação

Leia mais

2 Modelos Não Lineares

2 Modelos Não Lineares Modelos Não Lineares 17 2 Modelos Não Lineares 2.1. Introdução Nos últimos anos, muitos modelos não-lineares para a análise de séries temporais têm sido propostos. Na econometria clássica, os modelos de

Leia mais

Universidade Federal de Lavras

Universidade Federal de Lavras Universidade Federal de Lavras Departamento de Estatística Prof. Daniel Furtado Ferreira 6 a Lista de Exercícios Teoria da Estimação pontual e intervalar 1) Marcar como verdadeira ou falsa as seguintes

Leia mais

Capítulo 9 - Regressão Linear Simples (RLS): Notas breves

Capítulo 9 - Regressão Linear Simples (RLS): Notas breves Capítulo 9 - Regressão Linear Simples RLS: Notas breves Regressão Linear Simples Estrutura formal do modelo de Regressão Linear Simples RLS: Y i = β 0 + β 1 x i + ε i, 1 onde Y i : variável resposta ou

Leia mais

Correlação e Regressão

Correlação e Regressão Correlação e Regressão Vamos começar com um exemplo: Temos abaixo uma amostra do tempo de serviço de 10 funcionários de uma companhia de seguros e o número de clientes que cada um possui. Será que existe

Leia mais

TÉCNICAS DE AMOSTRAGEM

TÉCNICAS DE AMOSTRAGEM TÉCNICAS DE AMOSTRAGEM Ralph dos Santos Silva Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Sumário Amostragem estratificada Divisão da população em

Leia mais

MOQ-13 PROBABILIDADE E ESTATÍSTICA. Professor: Rodrigo A. Scarpel

MOQ-13 PROBABILIDADE E ESTATÍSTICA. Professor: Rodrigo A. Scarpel MOQ-13 PROBABILIDADE E ESTATÍSTICA Professor: Rodrigo A. Scarpel rodrigo@ita.br www.mec.ita.br/~rodrigo Programa do curso: Semanas 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 e 16 Introdução à probabilidade (eventos,

Leia mais

ESTATÍSTICA COMPUTACIONAL

ESTATÍSTICA COMPUTACIONAL ESTATÍSTICA COMPUTACIONAL Ralph dos Santos Silva Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Sumário Motivação Por exemplo, queremos analisar a série

Leia mais

AULA 11 Heteroscedasticidade

AULA 11 Heteroscedasticidade 1 AULA 11 Heteroscedasticidade Ernesto F. L. Amaral 30 de julho de 2012 Análise de Regressão Linear (MQ 2012) www.ernestoamaral.com/mq12reg.html Fonte: Wooldridge, Jeffrey M. Introdução à econometria:

Leia mais

3 Modelos Comparativos: Teoria e Metodologia

3 Modelos Comparativos: Teoria e Metodologia 3 Modelos Comparativos: Teoria e Metodologia Para avaliar o desempenho do modelo STAR-Tree, foram estimados os modelos Naive, ARMAX e Redes Neurais. O ajuste dos modelos ARMAX e das redes neurais foi feito

Leia mais

Análise Bayesiana de Dados - Aula 1 -

Análise Bayesiana de Dados - Aula 1 - Análise Bayesiana de Dados - Aula 1 - Márcia D Elia Branco Universidade de São Paulo Instituto de Matemática e Estatística www.ime.usp.br/ mbranco - sala 295-A - Paradigmas Bayesiano Introdução Fazer inferência

Leia mais

CONHECIMENTOS ESPECÍFICOS

CONHECIMENTOS ESPECÍFICOS CESPE/UnB FUB/03 fa 5 4 3 CONHECIMENTOS ESPECÍFICOS 60 As distribuições B e C possuem os mesmos valores para os quartis Q e Q, e o quartil superior em B corresponde ao quartil central (Q ) da distribuição

Leia mais

Análise de regressão linear simples. Diagrama de dispersão

Análise de regressão linear simples. Diagrama de dispersão Introdução Análise de regressão linear simples Departamento de Matemática Escola Superior de Tecnologia de Viseu A análise de regressão estuda o relacionamento entre uma variável chamada a variável dependente

Leia mais

AULAS 14 E 15 Modelo de regressão simples

AULAS 14 E 15 Modelo de regressão simples 1 AULAS 14 E 15 Modelo de regressão simples Ernesto F. L. Amaral 18 e 23 de outubro de 2012 Avaliação de Políticas Públicas (DCP 046) Fonte: Wooldridge, Jeffrey M. Introdução à econometria: uma abordagem

Leia mais

Inferência Bayesiana

Inferência Bayesiana Inferência Bayesiana Joaquim Neto joaquim.neto@ufjf.edu.br www.ufjf.br/joaquim_neto Departamento de Estatística - ICE Universidade Federal de Juiz de Fora (UFJF) Versão 3.0 Joaquim Neto (UFJF) ICE - UFJF

Leia mais

Econometria em Finanças e Atuária

Econometria em Finanças e Atuária Ralph S. Silva http://www.im.ufrj.br/ralph/especializacao.html Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Maio-Junho/2013 Motivação Motivação Por

Leia mais

Metodologia de inversão

Metodologia de inversão 6 Metodologia de inversão Nesta tese, a transformação de velocidades em pressão de poros é encarada como um problema de inversão. Pela natureza do problema, essa transformação apresenta caráter não único

Leia mais

Análise de Dados Longitudinais Aula

Análise de Dados Longitudinais Aula 1/24 Análise de Dados Longitudinais Aula 31.10.2018 José Luiz Padilha da Silva - UFPR www.docs.ufpr.br/ jlpadilha 2/24 Sumário 1 Dados Ausentes em Estudos Longitudinais 2 Imputação de Dados 3 Simulações

Leia mais

CONHECIMENTOS ESPECÍFICOS

CONHECIMENTOS ESPECÍFICOS CONHECIMENTOS ESPECÍFICOS X 0 1 2 3 4 5 frequência absoluta 80 47 30 20 6 1 Um levantamento foi realizado para se avaliar, por município, a quantidade X de obras que estão sob suspeita de irregularidade.

Leia mais

Estatística Descritiva

Estatística Descritiva C E N T R O D E M A T E M Á T I C A, C O M P U T A Ç Ã O E C O G N I Ç Ã O UFABC Estatística Descritiva Centro de Matemática, Computação e Cognição March 17, 2013 Slide 1/52 1 Definições Básicas Estatística

Leia mais

Análise de modelos lineares mistos com dois fatores longitudinais: um fator quantitativo e um qualitativo ordinal.

Análise de modelos lineares mistos com dois fatores longitudinais: um fator quantitativo e um qualitativo ordinal. Anais do XII Encontro Mineiro de Estatística - MGEST 013. Uberlândia - 0 e 06 de setembro de 013. Revista Matemática e Estatística em Foco - ISSN:318-0 Análise de modelos lineares mistos com dois fatores

Leia mais

Referência Banco de dados FioCruz Doc LAB1_GEO.doc. Autor Eduardo C. G. Camargo Versão 1.0 Data DEZ / Revisão Versão Data

Referência Banco de dados FioCruz Doc LAB1_GEO.doc. Autor Eduardo C. G. Camargo Versão 1.0 Data DEZ / Revisão Versão Data Ministério da Ciência e Tecnologia Instituto Nacional de Pesquisas Espaciais Análise Espacial de Dados Geográficos Laboratório Módulo: Geoestatística Linear Referência Banco de dados FioCruz Doc LAB_GEO.doc

Leia mais

Testes de Hipóteses para. uma Única Amostra. Objetivos de Aprendizagem. 9.1 Teste de Hipóteses. UFMG-ICEx-EST-027/031 07/06/ :07

Testes de Hipóteses para. uma Única Amostra. Objetivos de Aprendizagem. 9.1 Teste de Hipóteses. UFMG-ICEx-EST-027/031 07/06/ :07 -027/031 07/06/2018 10:07 9 ESQUEMA DO CAPÍTULO 9.1 TESTE DE HIPÓTESES 9.2 TESTES PARA A MÉDIA DE UMA DISTRIBUIÇÃO NORMAL, VARIÂNCIA CONHECIDA 9.3 TESTES PARA A MÉDIA DE UMA DISTRIBUIÇÃO NORMAL, VARIÂNCIA

Leia mais

Determinação de medidas de posição a partir de dados agrupados

Determinação de medidas de posição a partir de dados agrupados Determinação de medidas de posição a partir de dados agrupados Rinaldo Artes Em algumas situações, o acesso aos microdados de uma pesquisa é restrito ou tecnicamente difícil. Em seu lugar, são divulgados

Leia mais

Gibbs Sampler para ANOVA e Misturas

Gibbs Sampler para ANOVA e Misturas Gibbs Sampler para ANOVA e Misturas Renato Assunção - DCC, UFMG Outubro de 014 1 Modelo ANOVA: componentes de variância Suponha que temos K grupos ou classes. Em cada grupo, temos um certo número de dados

Leia mais

Comparação de Modelos Bayesianos na Análise de Dados de Contagem de CD4. Emílio A. C. Barros Jorge Alberto Achcar

Comparação de Modelos Bayesianos na Análise de Dados de Contagem de CD4. Emílio A. C. Barros Jorge Alberto Achcar Comparação de Modelos Bayesianos na Análise de Dados de Contagem de CD4 Emílio A. C. Barros Jorge Alberto Achcar Faculdade de Medicina de Ribeirão Preto-USP Introdução Dados longitudinais de Contagem na

Leia mais

Modelos Lineares Generalizados - Modelos log-lineares para tabelas de contingência

Modelos Lineares Generalizados - Modelos log-lineares para tabelas de contingência Modelos Lineares Generalizados - Modelos log-lineares para tabelas de contingência Erica Castilho Rodrigues 12 de Agosto Introdução 3 Vimos como usar Poisson para testar independência em uma Tabela 2x2.

Leia mais

Modelo Linear Generalizado Exponencial Potência

Modelo Linear Generalizado Exponencial Potência Modelo Linear Generalizado Exponencial Potência Cristian Villegas 1 2 1 Introdução Os modelos lineares normais são amplamente aplicados em diversas áreas do conhecimento para modelar a média de dados contínuos

Leia mais

IV CONBRATRI, 4º Congresso Brasileiro de Teoria da Resposta ao Item, Brasília, DF, 2-4 de Dezembro de 2015

IV CONBRATRI, 4º Congresso Brasileiro de Teoria da Resposta ao Item, Brasília, DF, 2-4 de Dezembro de 2015 Ciências da Natureza e o Enem: estudos sobre as questões de 2009-2012 1 LIMC/UFRJ e PEMAT/UFRJ 2 IF/UFRJ Gustavo Rubini 1, Marta F. Barroso 2 Resumo O Exame Nacional do Ensino Médio (Enem) possui grande

Leia mais

Análise de Dados Longitudinais Aula

Análise de Dados Longitudinais Aula 1/20 Análise de Dados Longitudinais Aula 13.08.2018 José Luiz Padilha da Silva - UFPR www.docs.ufpr.br/ jlpadilha 2/20 Sumário 1 Modelos Marginais 2 3/20 Modelos Marginais Modelos Marginais para Dados

Leia mais

Modelos Lineares Generalizados - Estimação em Modelos Lineares Generalizados

Modelos Lineares Generalizados - Estimação em Modelos Lineares Generalizados Modelos Lineares Generalizados - Estimação em Modelos Lineares Generalizados Erica Castilho Rodrigues 23 de Maio de 207 Introdução 2 3 Vimos como encontrar o EMV usando algoritmos numéricos. Duas possibilidades:

Leia mais