Abordagem Bayesiana para Dados de Painel

Tamanho: px
Começar a partir da página:

Download "Abordagem Bayesiana para Dados de Painel"

Transcrição

1 Universidade Federal do Rio de Janeiro UFRJ Abordagem Bayesiana para Dados de Painel Nicolai Reis Castro e Rodrigo Queiroz de Souza Barros 2014

2 UFRJ Abordagem Bayesiana para Dados de Painel Nicolai Reis Castro e Rodrigo Queiroz de Souza Barros Projeto Final submetido ao Programa de Graduação em Estatística do Instituto de Matemática da Universidade Federal do Rio de Janeiro como parte dos requisitos necessários para obtenção do grau de Bacharel em Ciências Estatísticas. Orientador: Ralph dos Santos Silva Rio de Janeiro, 8 dezembro de 2014.

3 Abordagem Bayesiana para Dados de Painel Nicolai Reis Castro e Rodrigo Queiroz de Souza Barros Orientador: Ralph dos Santos Silva Projeto Final de Conclusão de Curso apresentado ao Departamento de Métodos Estatísticos do Instituto de Matemática da Universidade Federal do Rio de Janeiro como parte dos requisitos necessários para obtenção do título de Bacharel em Estatística. Prof. Ralph dos Santos Silva IM-UFRJ Prof. a Alexandra Mello Schmidt IM-UFRJ Prof. a Thaís Cristina Oliveira da Fonseca IM-UFRJ Rio de Janeiro, 8 de dezembro de 2014.

4 Castro, Nicolai Reis; Queiroz, Rodrigo de Souza Barros Abordagem Bayesiana para Dados de Painel/ Nicolai Reis Castro e Rodrigo Queiroz- Rio de Janeiro: UFRJ/IM, iv, 42f.: il.; 31cm. Orientador: Ralph dos Santos Silva Projeto Final (Monografia) - UFRJ/IM/ Programa de Graduação em Estatística, Referências Bibliográficas: f Abordagem Bayesiana. 2. Dados de Painel. I. Silva, Ralph dos Santos. II. Universidade Federal do Rio de Janeiro, Instituto de Matemática. III. Título.

5 RESUMO Abordagem Bayesiana para Dados de Painel Nicolai Reis Castro e Rodrigo Queiroz de Souza Barros Orientador: Ralph dos Santos Silva Resumo do Projeto Final submetido ao Programa de Graduação em Estatística do Instituto de Matemática da Universidade Federal do Rio de Janeiro como parte dos requisitos necessários para obtenção do grau de Bacharel em Estatística. Neste trabalho abordamos dois conjuntos de dados - casos de óbitos pela Síndrome da Imuno- Deficiência Adquirida (SIDA) por Unidade Federativa e casos de mortalidade infantil também por Unidade Federativa. Utilizamos Estatísticas Descritivas para compreender a dinâmica inicial dos dados e também para verificar a presença de possíveis pontos discrepantes e a significância de autocorrelações dos dados. Seguimos com a estimação de modelos de regressão por mínimos quadrados para entender como a incidência de SIDA poderia impactar no número de óbitos. Fazemos um estudo semelhante para os dados de mortalidade infantil. Entretanto, estes modelos não se mostram adequados. Daí, propomos vários modelos para dados de painel, fazemos ajuste pelo enfoque bayesiano e escolhemos o melhor modelo (ajuste) via o critério de informação do desvio. Finalmente, dado o melhor ajuste, fazemos previsões para poucos anos à frente. Palavras-chave: Monte Carlo via cadeias de Markov, mortalidade infantil, seleção de modelos, Síndrome da Imuno-Deficiência Adquirida.

6 ABSTRACT Bayesian Approach to Panel Data Nicolai Reis Castro e Rodrigo Queiroz Advisor: Ralph dos Santos Silva Abstract do Projeto Final submetido ao Programa de Graduação em Estatística do Instituto de Matemática da Universidade Federal do Rio de Janeiro como parte dos requisitos necessários para obtenção do grau de Bacharel em Estatística. In this work we study two data sets - cases of death by Acquired Immunodeficiency Syndrome (AIDS) by states of Brazil and cases of infant mortality by states of Brazil as well. We start with descriptive statistic analysis for understanding the basics of the data set as well as for identifying outliers and significant autocorrelations. Further we estimate regression model by ordinary least square to study how the incidence of AIDS can impact on the amount of death. We proceed with the same scheme for the infant mortality data. However, these models were not suited for these data sets. Thus, we propose several panel data models, estimate these models by the Bayesian approach and choose de best fit model by means of the deviance information criterion. Finally, we use the best model fit to forecast one- or two-years ahead. Key-words: Acquired immunodeficiency syndrome, infant mortality, model selection, Markov chain Monte Carlo.

7 Para Paulo Castro e Martha Ramos Reis e José Paulo de Souza Barros e Izabel Oliveira de Queiroz

8 AGRADECIMENTOS Em especial a nossos pais. Ao nosso orientador Ralph dos Santos Silva; e A todos os professores do DME/IM/UFRJ;

9 SUMÁRIO Lista de Tabelas Lista de Figuras iii iv Capítulo 1: Introdução Séries de Dados Capítulo 2: Metodologia Inferência Bayesiana Inferência Bayesiana Usando Monte Carlo via Cadeias de Markov Amostrador de Gibbs Critério de Convergência - BGR Critério de Informação de Desvio OpenBUGS Método dos Mínimos Quadrados Séries Temporais Estacionariedade Autocovariância e Autocorrelação Modelo Autoregressivo Modelos de Defasagens Distribuídas Análise de Intervenção Teste Independência dos Resíduos: Ljung-Box Capítulo 3: Aplicação Óbitos por Síndrome da Imuno-Deficiência Adquirida Mortalidade Infantil Capítulo 4: Considerações Finais Óbitos por Síndrome da Imuno-Deficiência Adquirida Mortalidade Infantil Referências Bibliográficas 33 i

10 Apêndice A: Ordenação das Unidades da Federação 34 Apêndice B: Distribuição a Posteriori: Modelo para os Dados de SIDA 35 Apêndice C: Distribuição a Posteriori: Modelo para os Dados de TMI 38 ii

11 LISTA DE TABELAS 3.1 DIC: dados de SIDA - Parte I DIC: dados de SIDA - Parte II DIC: dados de SIDA - Parte III DIC: dados de SIDA - Parte IV DIC: dados de SIDA - Parte V Sumário da distribuição a posteriori: Modelo M 16 - SIDA - Parte I DIC: dados de TMI - Parte I DIC: dados de TMI - Parte II Sumário da distribuição a posteriori: Modelo M 6 - TMI - Parte I A.1 Ordenação dos índices dos coeficientes em relação aos estados B.1 Sumário da distribuição a posteriori: Modelo M 16 - SIDA - Parte II B.2 Sumário da distribuição a posteriori: Modelo M 16 - SIDA - Parte III B.3 Sumário da distribuição a posteriori: Modelo M 16 - SIDA - Parte IV C.1 Sumário da distribuição a posteriori: Modelo M 6 - TMI - Parte II C.2 Sumário da distribuição a posteriori: Modelo M 6 - TMI - Parte III C.3 Sumário da distribuição a posteriori: Modelo M 6 - TMI - Parte IV C.4 Sumário da distribuição a posteriori: Modelo M 6 - TMI - Parte V C.5 Sumário da distribuição a posteriori: Modelo M 6 - TMI - Parte VI iii

12 LISTA DE FIGURAS 3.1 Análise de Resíduos do Ajuste Final Média da Série de TMI por UF Gráficos de ACF de uma defasagem - TMI Análise de Resíduos do Ajuste Final Predição para os estados representativos de cada região - SIDA Predição para estados representativos de cada região - TMI iv

13 1 Capítulo 1 INTRODUÇÃO Neste trabalho estudamos os seguintes conjuntos de dados de painel: mortalidade infantil e óbito pela Síndrome da Imuno-Deficiência Adquirida (SIDA), ambos categorizados por unidade federativa. Propusemos diversos modelos para estes dados e estimamos todas as quantidades desconhecidas destes modelos através do enfoque bayesiano. Os dados apresentados foram retirados do banco de dados do DATASUS. Inicialmente, esperávamos associar os dados de mortalidade infantil a quatro variáveis explicativas - proporção da população servida por esgotamento sanitário, proporção da população servida por rede de abastecimento de água, renda média domiciliar e taxa de analfabetismo; quanto aos dados de óbito por SIDA, esperávamos associá-los a uma variável explicativa - incidência de SIDA. Primeiro apresentaremos a metodologia utilizada em nossas avaliações e posteriormente descreveremos a aplicação dos dados. 1.1 Séries de Dados A primeira série escolhida foi a taxa de mortalidade específica por SIDA do ano de 1990 a Ela conta o número de óbitos pela SIDA por habitantes na população residente em determinado espaço geográfico no ano considerado. Esta série estima o número de mortes associado à SIDA e dimensiona a magnitude da doença como problema de saúde pública, bem como retrata a incidência da doença na população, associada a fatores de risco principalmente comportamentais, como o uso de drogas injetáveis e práticas sexuais. Expressa também as condições de diagnóstico e qualidade de assistência médica dispensada, bem como o efeito de ações educativas e a adoção de medidas individuais de prevenção. Estamos usando esta série para analisar variações geográficas e temporais da mortalidade por SIDA em segmentos populacionais, identificando situações de desigualdade e tendências que demandem ações e estudos específicos. Tais dados são provenientes do Ministério da Saúde, da Secretaria de Vigilância à Saúde: Sistema de Informações sobre Mortalidade e base demográfica do Instituto Brasileiro de Geografia e Estatística. Vale ressaltar que de 1990 a 1995 há um grande aumento da mortalidade por SIDA em

14 2 todas as regiões. No período de 1995 a 2000 esta tendência se inverte, de modo que há redução em todas as regiões (excetuando a Norte), acompanhando a adoção da terapia medicamentosa com antiretrovirais e a implementação da poĺıtica nacional de distrbuição gratuita desses medicamentos. A segunda base de dados escolhida foi a Taxa de Mortalidade Infantil (TMI). Ela conta o número de óbitos de menores de um ano de idade, por (mil) nascidos vivos, em determinado espaço geográfico em determinado ano (entre 1997 e 2011), compreendendo a soma dos óbitos ocorridos nos períodos neonatal (0-6 dias), neonatal tardio (7-27 dias), e pós-neonatal (após 28 dias). Esta série procura estimar o risco de um nascido vivo morrer em seu primeiro ano de vida. A taxa de mortalidade pode ser considerada alta (50 ou mais), média (20-49), ou baixa (0-19), em função da proximidade ou distância de valores alcançados em sociedades mais desenvolvidas, refletindo, de maneira geral, baixos níveis de saúde, de desenvolvimento socioeconômico e de condições de vida. Nosso objetivo é analisar variações geográficas e temporais da mortalidade infantil, contribuindo na avaliação dos níveis de saúde e de desenvolvimento socioeconômico da população. É possível notar consistente tendência de redução da mortalidade infantil em todas as regiões brasileiras, que reflete no decĺınio da fecundidade nas últimas décadas e o efeito das intervenções públicas nas áreas de saúde e saneamento. Ainda assim, os valores médios continuam elevados, sobretudo nas regiões Norte e Nordeste. No capítulo 2 revisaremos conceitos, princípios e métodos de analisar conjuntos de dados. No capítulo 3 faremos estudos usando os métodos usados no capítulo anterior e, finalmente, no capítulo 4 avaliaremos nossa abordagem, bem como os resultados adquiridos através dela, no que concernem nossas bases de dados.

15 3 Capítulo 2 METODOLOGIA Neste capítulo revisaremos brevemente a inferência bayesiana, o métodos de Monte Carlo via cadeias de Markov, mínimos quadrados, modelos autorregressivos e critérios importantes para selecionar modelos. 2.1 Inferência Bayesiana Inferência é um conjunto de técnicas que tem por objetivo estudar uma população através de evidências fornecidas por uma amostra. A inferência bayesiana descreve as incertezas associadas a variáveis não observáveis de forma probabiĺıstica. De forma iterativa, as incerterzas são atualizadas após observações de novos resultados. A inferência bayesiana é proveniente da probabilidade a posteriori f(θ x), sendo esta proporcional à combinação entre a probabilidade a priori f(θ) e a função de verossimilhança l(θ x), que leva em consideração os dados observados. A equação referente seria f(θ x) l(θ x)f(θ). 2.2 Inferência Bayesiana Usando Monte Carlo via Cadeias de Markov A ideia básica de Monte Carlo via cadeias de Markov é construir uma cadeia de Markov cuja distribuição de equiĺıbrio é igual a distribuição de interesse, em nosso caso a distribuição a posteriori. Após a realização de um número finito de simulações desta cadeia, o objetivo é atingir a distribuição de equiĺıbrio, com isso dando origem a uma amostra de distribuição de interesse. Considerando que θ = (θ 1, θ 2,..., θ p ) possuem densidade conjunta π(θ) = (θ 1, θ 2,..., θ p ) e que q(θ, θ ) define a distribuição condicional em θ das transições do estado θ. Sendo com isso, possível a construção de um cadeia com probabilidades de transição invariantes no tempo, onde cada estado pode ser obtido de um outro estado com um número finito de iterações, podendo-se alcançar distribuição de equiĺıbrio.

16 Amostrador de Gibbs O amostrador de Gibbs é um dos métodos mais utilizados na construção da cadeia de Markov - proposto por Geman e Geman (1984) e popularizado por Gelfand e Smith (1990) - é um esquema de amostragem de uma Cadeia de Markov, cujas probabilidades de transição dos estados são realizadas a partir das distribuições condicionais completas. Seja π(θ) a distribuição de interesse, sendo θ = (θ 1, θ 2,..., θ p ). Deseja-se gerar uma amostra de π(θ) e supõe-se que esta geração é complicada para se realizar diretamente. Considerando π i (θ i ) = p i (θ i θ i ) como função densidade condicional de θ i, dados os valores de todos os outros θ j (j i), assumindo-se que é possível amostrar valores destas distribuições para cada i = 1, 2,..., p. Considere que dado um conjunto de valores iniciais θ (0) = (θ (0) 1, θ(0) 2,..., θ(0) p ), o algoritmo já esteja na j-ésima iteração da cadeia θ (j). Então, a posição da cadeia na iteração seguinte (j + 1) é obtida da seguinte forma: 1. Gera-se θ (j+1) 1 de π 1 (θ 1 θ (j) 2,..., θ(j) p ); 2. Gera-se θ (j+1) 2 de π 2 (θ 2 θ (j+1) 1, θ (j) 3,..., θ(j) p ); e 3. Repete-se sucessivamente os Passos 1 e 2 anteriores para i = 3, 4,..., p, onde no último passo gerase θ (j+1) p de π p (θ p θ (j+1) 1, θ (j+1) 2,..., θ (j+1) p 1 ), obtendo-se o vetor θ(j+1) = (θ (j+1) 1,..., θ (j+1) p ). Sob certas condições de regularidade (Tierney, 1994), a distribuição limite de θ (j) tende a π(θ) Critério de Convergência - BGR Abordaremos superficialmente o critério de convergência criado por Gelman e Rubin e posteriormente aperfeiçoado por Brooks e Gelman (1997) que citam passos para a geração de um diagnóstico de convergência de múltiplos fatores. Nos referimos a este critério como BGR. Passos (para cada parâmetro): 1. Gere m 2 cadeias de tamanho 2n de valores iniciais sobredispersos; 2. Descarte os primeiros n resultados de cada cadeia; 3. Calcule as variâncias dentro de cada cadeia e entre as cadeias; 4. Calcule a variância estimada como uma média ponderada entre a variância dentro de cada cadeia e a variância entre as cadeias

17 5 5. Calcule o fator de redução potencial de escala. sendo De modo que a variância dentro de cada cadeia é dada por de modo que s 2 j W = 1 m s 2 j = 1 n 1 m j=1 s 2 j n (θ ij θ j ) 2, i=1 é a fórmula para a variância da j-ésima cadeia. Portanto, W é a média das variâncias da cadeia. O W provavelmente subestima a variância verdadeira da distribuição estacionária, tendo em vista que as cadeias geradas provavelmente não alcançaram todos os pontos da distribuição estacionária. sendo A variância entre cadeias é dada por B = n m 1 θ = 1 m m (θ j θ) 2 j=1 m θ j. Temos que B é a variância das cadeias multiplicada por n, porque cada cadeia é constituída por n resultados. Podemos estimar a variância da distribuição estacionária através da média ponderada de W e B. V ar(θ) = j=1 ( 1 1 ) W + 1 n n B. Por causa da sobredispersão dos valores iniciais, este estimador da variância superestima a variância real, mas é não-tendenciosa conforme a distribuição inicial se iguala à distribuição estacionária. O fator de redução potencial de escala possui a forma V ar(θ) ˆR = W. Quando ˆR for alta, talvez ao superar 1,1, ou 1,2, devemos gerar mais valores para as cadeias de modo a aproximar suas convergência até que alcancem a distribuição estacionária. Caso tenhamos mais de um parâmetro, temos de calcular um fator de redução potencial de escala para cada parâmetro. Devemos rodar tantas iterações quanto forem necessárias para que todos fatores sejam pequenos o bastante. Deste modo nos será possível combinar todos os mn resultados de nossas cadeias para gerar uma cadeia para a distribuição estacionária.

18 Critério de Informação de Desvio O Critério de Informação do Desvio (do inglês DIC) é definido como: DIC = D(θ) + 2p D = D(θ) + p D, sendo p D = D(θ) D(θ), D(θ) = 2 ln(p(y θ)) e a função de verossimilhançṫemos também que D(θ) é a média a posteriori do desvio, D(θ) uma estimativa pontual do desvio obtida a partir da utilição da média a posteriori de θ, denotada por θ, e p D uma estimativa do número efetivo de parâmetros. O modelo que apresenta o menor DIC é considerado como aquele que melhor pode predizer um novo conjunto de dados com a mesma estrutura dos dados observados OpenBUGS O OpenBUGS é um programa criado para efetuar análises bayesianas de modelos estatísticos complexos usando Monte Carlo via cadeias de Markov (MCMC). Há uma grande literatura associada a análise bayesiana e MCMC, como pode ser encontrado em Carlin e Louis (1996), Gelman et al. (2014), Brooks (1998) e Gilks, Richardson, e Spiegelhalter (1996). Em seu manual, no capítulo 9 do auto-entitulado manual Classic BUGS, Tópicos em Modelagens discute prioris não-informativas, críticas de modelos, ranking, erros de medição, verossimilhanças condicionais, parametrização, modelos espaciais e mais, enquanto a documentação do Diagnóstico de Convergência e Análise de Produção (CODA) engloba diagnósticos de convergência. Congdon (2001) ensina a analisar uma extensa gama de modelos usando o OpenBUGS. Os usuários de OpenBUGS devem estar cientes dos métodos bayesianos via MCMC por trás do programa (Gilks et al., 1996). Tendo especificado o modelo como uma distribuição conjunta em todas as quantidades, sejam elas parâmetros ou observáveis, o objetivo torna-se amostrar valores das quantidades desconhecidas do modelo via sua distribuição a posteriori, dados seus nós estocásticos observados. OpenBUGS usa três famílias de algoritmos de MCMC: amostrador de Gibbs, algoritmo de Metropolis Hastings e (slice sampling). Vale mencionar que as práticas associadas às seções anteriores, bem como as presentes no manual supracitado, estão disponíveis no OpenBUGS. 2.3 Método dos Mínimos Quadrados O Método dos Mínimos Quadrados Ordinários (MQO) é uma técnica de otimização que visa buscar o melhor ajuste para um conjunto de dados em um modelo de regressão tentando minimizar a soma dos quadrados dos resíduos da diferença entre um conjunto de dados reais e suas estimativas, comumente utilizado em Econometria. Lembrando que são requisitos para este método que os erros sejam distribuídos aleatoriamente, independentes e identicamente distribuídos. O Teorema Gauss-Markov (Hayashi, 2000)

19 7 garante indiretamente que o estimador obtido através do MQO é não-tendencioso e possui a variância linear mínima na variável resposta. Nosso objetivo é explicar uma variável aleatória y através de uma regressão baseada em um vetor de tamanho r de variáveis explicativas x. Efetuaremos y = α + x β + ε sendo α: constante do modelo; β: vetor de parâmetros que servem de coeficientes das variáveis x; ε: o erro, a variação de y que não é explicada pelo modelo. Observamos então n valores de y, y = (y 1, y 2,..., y n ), e n valores do vetor de variáveis explicativas x, X = (x 1, x 2,..., x n ). Sabemos que as quantidades α, β e ε são não-observáveis, mas o método dos mínimos quadrados nos fornecerá uma boa estimativa sobre eles. Com efeito, mudaremos a notação das variáveis de modo que ao estimar o modelo usando a base de dados, estaremos estimando, na verdade y i = ˆα + x ˆβ i + ˆε i, onde i indica cada uma das n observações da base de dados e ˆε não é mais um erro, porém um resíduo da diferença entre y i e ŷ i, sendo ŷ i = ˆα + x ˆβ. i O estimador resultante do método dos MQO minimiza o erro quadrático médio (de fato, poderíamos, então, chamá-lo do melhor estimador linear não tendencioso, BLUE). Façamos: y i = ˆα + x ˆβ i + ˆε i, n S(ˆε i ) = ˆε 2 i. Nosso objetivo é minimizar S(ˆα, ˆβ) n = (ŷ i ˆα x ˆβ) i 2. Para minimizarmos o erro, derivaremos S(ˆα, ˆβ) em relação a ˆα e ˆβ e igualando-a a zero. i=1 i=1 S n ˆα = 2 (ŷ i ˆα x i ˆβ) 2 = 0 S = 2 ˆβ i=1 n (ŷ i ˆα x i ˆβ) 2 = 0 i=1

20 8 De modo que chegaremos a ˆα = y x ˆβ. onde y é a média amostral dos y i s e x é a média dos vetores amostral x i s. Substituindo o resultado encontrado para ˆα para encontrarmos ˆβ temos ˆβ = (X X) 1 X (y α1). 2.4 Séries Temporais Revisaremos nesta seção alguns conceitos de séries temporais. Princípios que não devemos violar, métodos que podemos utilizar e testes que devemos realizar para garantir que nosso modelo será bem ajustado e que caso insiramos componentes autorregressivas (veremos em subseção logo mais) estas não trarão problemas de má especificação ao modelo Estacionariedade Uma série temporal {y t } é dita estritamente estacionária se todas as distribuições de qualquer coleção finita de vetores aleatórios indexados no tempo permanecem as mesmas sob translações no tempo. Ou seja, temos todos os momentos - incluindo média, variância e covariância - constantes ao longo do tempo. Uma série temporal {y t } é dita estacionária de segunda ordem se a média e a variância são constantes ao longo do tempo, e se sua autocovariância e sua autocorrelação (termos definidos nas próximas subseções) dependem somente da defasagem (distância entre as observações) Autocovariância e Autocorrelação Se o modelo de série temporal, {y t }, é estacionário de segunda ordem, a função de autocovariância (FACV), γ k, é definida como uma função de defasagem k: γ k = E[(y t µ)(y t+k µ)], sendo µ o nível da série, ou seja, µ = E(y t ) e k a defasagem. A função de autocorrelação (FAC) de defasagem k é definida por: ρ k = γ k γ 0, sendo γ 0 a variância, γ 0 = Var(y t ), do processo gerador da série temporal e ρ 0 = 1.

21 9 A FAC amostralé um bom instrumento de avaliação para grau de dependência dos dados,fornecendo uma boa estimação para a função de autocorrelação da série temporal,neste caso supondo que os valores observados provém de uma série estacionária.. Sejam y 1,..., y n observações de uma série temporal de tamanho n. A média amostral de y 1,..., y n é dada por y = 1 n A função de autocovariância amostral é dada por: γ k = 1 n n k n y t. t=1 (y t+ k y)(y t y), para n < k < n, t=1 e a função de autocorrelação amostral por ρ k = γ k γ 0, para n < k < n Modelo Autoregressivo O modelo autoregressivo de ordem p é usado quando há autocorrelação entre as observações, ou seja, o processo autoregressivo é usado quando um valor de uma variável n o período t depende de seu valor no período anterior (t -1) e de um termo aleatório.a forma geral do modelo autoregressivo de ordem p denotado por AR é definido como: y t = µ + φ 1 y t 1 + φ 2 y t φ p y t p + ε t. Sendo que para cada t, assumimos y t 1, y t 2, y t 3,..., são independentes de ε t, pelo fato de y t incorporar todos os valores novos da série que não são explicados pelos valores passados. Um caso particular é o modelo autoregressivo de ordem 1, denotado por AR(1), que é definido como: y t = µ + φy t 1 + ε t, sendo ε t um erro aleatório do tipo ruído branco, isto é, independentes para todo t, com média 0 (zero) e variância constante. O processo AR(1), tem as seguintes funções de autocovariância: e e a seguinte função de autocorrelação: γ 0 = σ2 ε 1 φ 2 γ k = φk σ 2 ε 1 φ 2, ρ k = φ k para k = 1, 2, 3,...

22 Modelos de Defasagens Distribuídas A forma geral de um modelo linear de defasagens distribuídas é y t = β i x t i + ε t, i=0 onde qualquer mudança afetará E(y t ) nos períodos subsequentes. Por exemplo, imagine os pagamentos de dividendos de uma empresa qualquer, sejam estes (y t ) e veja como y t não depende apenas de lucros provenientes do período presente (x t ), como dos lucros provenientes de períodos anteriores (x t s ). O termo β i presente na equação é o i-ésimo coeficiente de reação e normalmente podemos assumir que lim i β i = 0 e i=0 β i = c. Podemos assumir que as mudanças em x t não devem ser de grande influência a y t após um período de tempo m, o que implicaria que que β i sumiria após a chegada de β m. Neste caso o modelo é reduzido a um modelo defasagens distribuídas finitas, para o qual o limite superior presente no somatório da forma geral do modelo linear de defasagens distribuídas é m. Veja aplicações destes modelos em Ravines, Schmidt, e Migon (2006). Consideraremos casos particulares destes modelos em nossas análises de dados Análise de Intervenção Por uma intervenção entendemos a ocorrência de um determinado evento E em dado instante de tempo T, conhecido a priori, onde tal ocorrência pode influenciar tanto temporariamente, como permanentemente a série estudada. A análise de intervenção tem por objetivo avaliar o impacto deste evento E no comportamento da série. Por Morettin e Toloi (2006), as séries indicadoras de intervenções podem ser representadas por dois tipos de variáveis binárias: Função degrau: Função impulso: S (T ) t = 0, se t < T ; x j,t = S (T ) t = 1, se t T. I (T ) t = 0, se t T ; x j,t = I (T ) t = 1, se t = T. É trivial notarmos que o efeito da função degrau é permanente, enquanto o efeito da função impulso é temporário. Uma classe geral de modelos que levam em conta a ocorrência de múltiplas intervenções é dada por y t = em que k ν j (B)x j,t + ε t j=1

23 11 x j,t, j = 1, 2,..., k são as variáveis de intervenção; ν j (B), j = 1, 2,..., k são funções racionais da forma ω j(b)b b j δ j (B), onde ω j (B) = ω j,0 ω j,1 B ω j,s B s e δ j (B) = 1 δ j,1 B δ j,r B r são polinômios em B, b j é a defasagem no tempo para o início do efeito da j-ésima intervenção e ε t é a série temporal livre do efeito das intervenções e é denominada série residual. Em geral, o efeito de uma intervenção é mudar o nível da série ou, então, a inclinação. Entretanto, há três fontes de ruídos que podem obscurecer o efeito da intervenção: 1. tendência; 2. sazonalidade; e 3. erro aleatório. O fato de existir tendência numa série pode levar a falsas conclusões. De fato, se esta existir e uma intervenção ocorrer no instante T, o fato do nível pós-intervenção ser maior do que o nível pré-intervenção pode ser devido simplesmente à tendência. Utilizaremos a análise de intervenção em uma das aplicações aos dados reais Teste Independência dos Resíduos: Ljung-Box O teste de Ljung-Box consiste em analisar as autocorrelações entre resíduos encontrados. A estatística Q do teste é verificada para testar se um determinado conjunto de autocorrelações de resíduos é estatisticamente diferente de zero. Esta estatística, sob a hipótese nula H 0 de que os resíduos não são autocorrelacionados, possui distribuição qui-quadrado com m graus de liberdade e é definida como: Q = n(n + 2) m k=1 ˆρ 2 k n k, onde n é o tamanho da amostra e m o número de defasagens. Em caso de independência dos resíduos, espera-se que as autocorrelações para qualquer defasagem sejam próximas de zero. Valores altos de pelo menos uma autoautocorrelação sugere dependência dos residuos, levando a rejeição da hipótese nula.

24 12 Capítulo 3 APLICAÇÃO Neste trabalho analisamos conjuntos de dados estruturados como dados de painel. Para isto, recorremos a modelos estatísticos envolvendo defasagens distribuídas, autoregressão ou intervenção. Estimaremos as quantidades desconhecidas dos modelos através do enfoque bayesiana. Temos por objetivo entender as séries de dados, explicar seus parâmetros e comportamentos e ser capazes de predizer suas próximas ocorrências. Escolhemos dois conjuntos de dados de interesse: 1. Taxa de mortalidade específica associada à SIDA; e 2. Taxa de mortalidade infantil. Ambos conjuntos são estão estruturados como dados de painel, observados em cada Unidade Federativa (UF) brasileira anualmente. As duas bases foram extraídas do banco de dados do DataSUS, bem como as variáveis explicativas a elas associadas. Em nossa notação nos referimos aos coeficientes, específicos de cada UF seguindo a ordem descrita na tabela A.1 do Apêndice 4.2. Para a primeira base de dados os anos variam de 1990 a 2008, ao qual nos referimos do ano 1 ao 19, e para o segundo conjunto de dados os anos variam de 1997 a 2011 e nos referimos de forma semelhante ao primeiro. A seguir, concentramos nossas análises em cada conjunto de dados separadamente. 3.1 Óbitos por Síndrome da Imuno-Deficiência Adquirida Analisamos aqui a série de óbitos provenientes de portadores de SIDA. Nossa base é referente ao período entre 1990 e Decidimos tentar explicar nossa série de interesse através de um conjunto de dados, também adquirido no DataSUS, que nos dá o número de casos de incidência de SIDA, também estruturado por UF anualmente. Abaixo disponibilizamos - a fim de introduzir a descrição dos dados - as médias por UF, de 1990 a 2008, das séries incidência e óbito por SIDA. Procuramos explicar a taxa de mortalidade específica por SIDA através do número de incidências de SIDA.

25 13 Média da Taxa de Incidência de SIDA 1990 a 2008 Média de TME por SIDA 1990 a 2008 [0,2.5] (2.5,5] (5,7.5] (7.5,10] (10,12.5] (12.5,15] (15,17.5] (17.5,20] (20,22.5] (22.5,25] (25,28] [0,2.5] (2.5,5] (5,7.5] (7.5,10] (10,13] (a) Média da Série de Incidência de SIDA por UF. (b) Média da Série de TME por SIDA por UF. Utilizando estatísticas descritivas e análise de regressão por mínimos quadrados descritos no capítulo 2, nossos estudos preliminares foram conduzidos para entender o comportamento de ambas as séries ao longo dos anos e por Unidade Federativa. Os resultados nos indicam que: Caso analisemos ao longo dos anos, veremos que até 1996 há tendência de crescimento na taxa de mortalidade específica, tendência que observamos inverter-se do ano seguinte em diante; Ainda analisando a taxa de mortalidade específica anualmente, podemos observar assimetria positiva associada à série, bem como o módulo da curtose caindo rapidamente com o tempo, indicando maior dispersão dos dados nos anos iniciais; Analisando o número de incidências, nota-se que o número de casos aumenta ao longo dos anos, tendência que não acompanha nossa variável de interesse, indicando que devemos inserir no modelo uma componente temporal para explicar o que esta variável não consegue; Agora observando nossas séries por estado, é possível perceber que há disparidades no comportamento das séries entre UFs, levando a crer que algumas delas (Rio de Janeiro, São Paulo, Santa Catarina, Rio Grande do Sul e Distrito Federal) estavam mais propícias que outras a abrigarem óbitos provenientes de portadores de SIDA que outras, tanto pela série de óbitos, como pela série de incidências;

26 14 Observando as correlações ano a ano, verificamos pelo valor alto que o número de óbitos está bem associado ao número de incidências; Observando as correlações UF a UF, podemos justificar a presença da componente temporal, pois alguns dos estados possuem baixa aderência entre as séries de dados caso observemo-as. Portanto, nossos primeiros modelos, de acordo com nossa interpretação dos dados, seguem distribuições Normal e t-student. Inicialmente testamos a t-student, mudando apenas os graus de liberdade a elas associados: dois, três, quatro e cinco graus de liberdade. Utilizamos o método dos mínimos quadrados descritos no capítulo 2, através do programa R, fizemos vários ajustes para obter as estimativas do modelo e estas são utilizadas como valores iniciais dos coeficientes dos parâmetros em nossos modelos descritos no OpenBUGS. Isto foi feito para ajudar na convergência das cadeias, ao realizarmos sucessivas simulações a fim de testar os modelos. Tal procedimento mostrou-se bastante útil e eficaz para esta aplicação. A estrutura do nosso modelo inicial é dado por y i,t = c i + β i x i,t + δ i t + ε i,t, i = 1, 2,..., 27 e t = 1, 2,..., 19, sendo y i,t a número de óbtidos, x i,t a incidência de SIDA, t a própria variável tempo utilizada para tentar captar a tendência linear ao longo dos anos e ε i,t erros aleatórios independentes e identicamente distribuídos com média e variância finitas e constantes. Os primeiros cinco modelos (M 1, M 2,..., M 5 ) só diferem na distribuição de ε i,t (normal e t-student com diferentes graus de liberdade). Para este modelo e os demais descritos abaixo, completamos a especificação com c i N (µ c, σ 2 c ) β i N (µ β, σ 2 β ) δ i N (µ δ, σ 2 δ ), para i = 1, 2,..., 27; priori normal com média 0 e variância para µ c, µ β e µ δ, e priori gama inversa com média 1 e variância 100 para σ 2 c, σ 2 β e σ2 δ. Como utilizamos o OpenBUGS para efetuar as simulações dos modelos propostos, geramos as t- Student através da mistura de escala: (y i,t µ i,t, λ) N (µ i,t, λ) e (λ ν, σ 2 ) GI( ν 2, νσ2 2 ) tal que (y i,t µ i,t, σ 2, ν) t ν (µ, σ 2 ) com µ i,t = c i + β i x i,t + δ i t. Ajustamos então estes modelos aos dados utilizando o OpenBUGS. Geramos 3 cadeias em paraelelo cada uma com iterações e descartamos as primeiras de cada. Utilizamos a critério BGR descrita no capítulo 2 e disponível no OpenBUGS para analisar a convergência das cadeias. Utilizamos este mesmo tipo de procedimento e análise para os demais modelos deste trabalho. O DIC para cada modelo pode ser visto na tabela 3.1. Os resultados inesperados pd associados aos modelos M 2 e M 3

27 15 Tabela 3.1: Comparação de modelos via DIC: dados de SIDA - Parte I. Modelo Distribuição de y i,t DIC pd M 1 N (µ i,t, σ 2 ) 1015,0 69,38 M 2 t 2 (µ i,t, σ 2 ) 1093,0-604,50 M 3 t 3 (µ i,t, σ 2 ) 1619,0-78,09 M 4 t 4 (µ i,t, σ 2 ) 1710,0 12,74 M 5 t 5 (µ i,t, σ 2 ) 1743,0 45,26 nos induziram a pensar que os modelos possivelmente teriam sido mal especificados, indicando que seria necessário mudá-los. Optamos por mudar ligeiramente a mistura Normal-Gama-Inversa, de modo que não mais faríamos a mistura usando um fator λ global, porém um fator λ i variando para cada UF, de modo a melhor adaptar-se a cada uma delas. A melhora foi inegável. Não apenas os pd deixaram de apontar problema de especificação de modelo, como os próprios DIC caíram. Agora, para os modelos M 6, M 7, M 8 e M 9, continuamos a ter distribuições t-student com 2, 3, 4 e 5 graus de liberdade para cada UF, ou seja, (y i,t µ i,t, λ i ) N (µ i,t, λ i ) e (λ i ν, σ 2 ) GI( ν 2, νσ2 2 ). Repetimos o procedimento de ajuste dos modelos anteriores. Utilizando o OpenBUGS, geramos iterações e descartamos as primeiras. Os resultados do DIC para estes diferentes modelos encontram-se na tabela 3.2. Então, usando o DIC como critério de seleção de modelos, já excluindo os Tabela 3.2: Comparação de modelos via DIC: dados de SIDA - Parte II. Modelo Distribuição de y i,t DIC pd M 6 t 2,i (µ i,t, σ 2 ) 1007,0 98,48 M 7 t 3,i (µ i,t, σ 2 ) 1325,0 98,85 M 8 t 4,i (µ i,t, σ 2 ) 1328,0 95,60 M 9 t 5,i (µ i,t, σ 2 ) 1331,0 94,42 modelos M 2 e M 3 por indícios de má especificação, pudemos selecionar os modelos M 1 e M 6 como os melhores modelos. Infelizmente, ao analisarmos os resíduos associados, verificamos que estes não

28 16 satisfizeram premissas do modelo: os erros apresentaram heterocedasticidade se observados ao longo do tempo, indicando dependência temporal e a necessidade da inclusão de uma variável autorregressiva. Como supracitado, os modelos M 1 e M 6 apresentaram melhores DIC e foram escolhidos para receber uma componente autorregressiva (ver modelo autoregressivo no capítulo 2) de uma defasagem para cada UF. O modelo segue agora a seguinte estrutura: y i,t = c i + β i x i,t + δ t t + θ i y i,t 1 + ε i,t, com as mesmas premissas sobre ε i,t, θ i < 1 para cada UF e θ i U( 1, 1) para i = 1, 2,..., 27. Repetimos o procedimento de gerar valores da distribuição a posteriori deste modelo utilizando o OpenBUGS. Novamente, diferindo entre eles apenas a distribuição. Na tabela 3.3 podemos ver o DIC para os dois modelos considerados. O DIC do modelo M 11 é o menor de todos. As análises dos resíduos dos modelos Tabela 3.3: Comparação de modelos via DIC: dados de SIDA - Parte III. Modelo Distribuição de y i,t DIC pd M 10 N (µ i,t, σ 2 ) 1181,0 81,05 M 11 t 2,i (µ i,t, σ 2 ) 1006,0 100,20 M 10 e M 11 apresentam boa especificação sem dependência em sua estrutura. Porém, ao observarmos os percentis 2.5% e 97.5% da estatística a posteriori dos modelos analisados, os coeficientes associados às variáveis explicativas e temporal apresentaram alta probabilidade de não serem significativos para todos os valores de β i e δ i. Isto poderia indicar que tanto o coeficiente β, como o coeficiente δ, ou até mesmo ambos, poderiam ser não-significativos. Então foram criados outros seis modelos: Os modelos M 12 (normal) e M 15 (t 2 ) seguem a estrutura: y i,t = c i + β i x i,t + θ i y i,t 1 + ε i,t ; os modelos M 13 (normal) e M 16 (t 2 ) a estrutura: y i,t = c i + δ i t + θ i y i,t 1 + ε i,t ; e os M 14 (normal) e M 17 (t 2 ) a estrutura: y i,t = c i + θ i y i,t 1 + ε i,t ; cada par de modelos diferindo apenas em distribuição.

29 17 Mais uma vez, utilizando o OpenBUGS, geramos 3 cadeias com iterações da distribuição a posteriori dos modelos e descartamos as iterações. A tabela 3.4 traz os valores do DIC dos ajustes dos modelos M 12 a M 17. O que nos leva a descartar modelos com distribuição Normal devido Tabela 3.4: Comparação de modelos via DIC: dados de SIDA - Parte IV. Modelo Distribuição de y i,t DIC pd M 12 N (µ i,t, σ 2 ) 1263,0 59,17 M 13 N (µ i,t, σ 2 ) 1221,0 68,56 M 14 N (µ i,t, σ 2 ) 1327,0 32,55 M 15 t 2,i (µ i,t, σ 2 ) 1015,0 85,61 M 16 t 2,i (µ i,t, σ 2 ) 1009,0 90,61 M 17 t 2,i (µ i,t, σ 2 ) 1051,0 64,53 aos altos valores do DIC. As estatísticas a posteriori de cada um dos modelos apresentava coeficientes não significativos, indicando que a presença da variável explicativa atrapalhava a variável temporal e vice-versa. Os resultados indicavam que a variável regressiva deveria ser excluída e o modelo a ser adotado deveria ser o M 16, mas decidimos testar duas classes de modelos antes de descartar uma variável explicativa e apontar que a série estudada seria capaz de explicar a si própria, dependendo de seus valores anteriores. Introduzimos à série de dados duas estratégias: Modelos com defasagem distribuída; e Modelos com variáveis de intervenção. Três modelos foram criados: o primeira com uma defasagem distribuída, o segundo com duas defasagens distribuídas e o terceiro é um modelo com uma variável de intervenção, dado que, como visto na estatística descritiva, pudemos ver mudanças na tendência da variável a ser explicada. Seguem os modelos: M 18 : y i,t = c i + β 1,i x i,t + β 2,i x i,t 1 + δ i t + ε i,t M 19 : y i,t = c i + β 1,i x i,t + β 2,i x i,t 1 + β 3,i x i,t 2 + δ i t + ɛ i,t M 20 : y i,t = c i + β 1,i x i,t + β 2,i d t + δ i t + θ i y i,t 1 + ε i,t,

30 18 sendo d t = 0 para t = 1,..., 6 e d t = 1 para t = 7,..., 19. Evitamos criar modelos com muitas defasagens distribuíıdas, pois nossa série de dados é relativamente curta. Estes modelos foram também implementados no OpenBUGS. Geramos 3 cadeias com iterações e descartamos as primeiras. Para os modelos acima, a tabela 3.5 mostra os respectivos DICs. Tabela 3.5: Comparação de modelos via DIC: dados de SIDA - Parte V. Modelo Distribuição de y i,t DIC pd M 18 t 2,i (µ i,t, σ 2 ) 1437,0 62,85 M 19 t 2,i (µ i,t, σ 2 ) 1255,0 67,01 M 20 t 2,i (µ i,t, σ 2 ) 999,2 112,00 Apesar do modelo M 20 ter apresentado menor DIC, os coeficientes associados as covariáveis x i,t e d t mostraram ser não-significativos com uma probabilidade alta para regiões perto do zero. Por isto, estes modelos confirmaram nossas suspeitas de que nos seria melhor explicar a taxa de mortalidade específica por portadores de SIDA através da própria série de dados. Ficamos então com o modelo M 16 tendo em vista que, dados as análises completas, apresenta DIC baixo comparado aos demais, coeficientes significativos, resíduos não correlacionados (teste de Ljung-Box) e homocedasticidade via análise gráfica dos resíduos como por exemplo a figura Figura 3.1: Análise de Resíduos do Ajuste Final.

31 19 Relembramos aqui que o modelo M 16 é dado por y i,t = c i + δ i t + θ i y i,t 1 + ε i,t como modelo de mistura de escala tal que y i,t t 2 (µ i,t, σ 2 ). A tabela 3.6 e as tabelas B.1, B.2 e B.3 do apêndice B trazem o resumo da distribuição a posteriori: média, desvio padrão, percentis de 2.5%, 50% e 97.5%. Tabela 3.6: Sumário dos parâmetros da distribuição posteriori do modelo final M 16 usado para taxa de mortalidade por SIDA. Parâmetro Média D. Padrão 2,5% Mediana 97,5% µ c 0,8669 0,1526 0,5897 0,8601 1,1870 σc 2 0,3466 0,1759 0,1100 0,3123 0,7809 µ δ 0,0453 0,0163 0,0137 0,0451 0,0781 σδ 2 0,0047 0,0020 0,0019 0,0043 0,0099 σ 2 0,2200 0,0476 0,1391 0,2159 0,3243 Nós interpretamos os parâmetros da seguinte forma: c i sendo a propensão inicial associada a cada UF de haver óbitos relativos a portadores de SIDA; δ i sendo a tendência temporal associada a cada UF; e θ i sendo a influência do volume de óbitos no tempo anterior associada a cada UF em determinado instante de tempo. 3.2 Mortalidade Infantil Após a conclusão da análise da primeira base de dados na seção 3.1, começamos nossos estudos sobre a segunda base de dados - a taxa de mortalidade infantil. Nossa base é referente ao período entre 1997 e Decidimos tentar explicar nossa série de interesse através de quatro conjuntos de dados, também adquiridos no DataSUS, que nos dão: 1. o índice de analfabetismo associado a cada UF, ano a ano;

32 20 2. a proporção da população servida por esgotamento sanitário; 3. a proporção da população servida por rede de abastecimento de água; e 4. a renda média domicilar per capita. Estes dados também estão estruturados por UF anualmente. Abaixo iremos, como na análise anterior, disponibilizar as médias das quatro variáveis explicativas, bem como a média da variável resposta. Todos os cinco gráficos nas figuras?? e 3.2 contemplarão o período de 1997 a 2011.

33 21 Média da Taxa (%) de Analfabetismo 1997 a 2011 Média da Pop. servida por Esgot. Sanit a 2011 [0,5] (5,10] (10,15] (15,20] (20,25] (25,30] (a) Me dia da Se rie de Analfabetismo por UF. Média da População servida por Água 1997 a 2011 [0,20] (20,40] (40,60] (60,80] (80,100] (b) Me dia da Se rie de PSES por UF. Média da Renda Domiciliar per capita 1997 a 2011 [0,20] (20,40] (40,60] (60,80] (80,100] [0,200] (200,400] (400,600] (600,800] (800,1000] (1000,1200] (1200,1400] (c) Me dia da Se rie de PSAA por UF. (d) Me dia da Se rie de Renda por UF.

34 22 Média da Taxa de Mortalidade Infantil 1997 a 2011 [0,10] (10,20] (20,30] (30,40] Figura 3.2: Média da Série de TMI por UF. E abaixo encontram-se alguns gráficos - relativos ados dados sobre a proporção da população servida por abastecimento de água - que mostram a função de autocorrelação que estuda uma defasagem. Este comportamento está presente em quase todas as UF. Estudos preliminares utilizando estatísticas descritivas e análise de regressão via mínimos quadrados ponderados foram conduzidos para entender o comportamento de cada série ao longo dos anos e por UF. Os resultados nos indicam que: a função de autocorrelação relativa à base terceira variável explicativa apresentou sazonalidade - o que somado ao fato de não ter se mostrado significativa ao descrever nossa variável de interesse, nos levou a excluí-la; Como para a base de dados anterior, utilizamos o método dos mínimos quadrados para obter estimativas iniciais sobre os os parâmetros a serem utilizados em nossos modelos para ajudar na convergência das cadeias de Markov referente as nossas distribuições a posteriori. De fato, adotaremos a mesma metodologia usada anteriormente. Usaremos novamente o OpenBUGS para ajustar nossos modelos e o DIC para fazer comparação dos ajustes dos modelos. Usaremos modelos Normal e t-student com três, quatro, cinco e dez graus de liberdade. Dado estas especificações para a distribuição de y i,t, definimos os modelos M 1 a M 5 da seguinte forma: y i,t = c i + β 1,i x 1,i,t + β 2,i x 2,i,t + β 3,i x 3,i,t + β 4,i t + ε i,t, diferindo entre eles apenas suas distribuições. Temos y i,t a TMI, x 1,i,t o índice de analfabetismo, x 2,i,t a proporção da população servida por esgotamento sanitário e x 3,i,t a renda média domicilar per capita.

35 23 x_i x_i lag lag 1 (a) Espírito Santo. (b) Minas Gerais. x_i x_i lag lag 1 (c) Pará (d) Rio Grande do Norte. x_i x_i lag lag 1 (e) Rio Grande do Sul. (f) Santa Catarina. Figura 3.3: Gráficos de ACF de uma defasagem - TMI.

36 24 Para todos os modelos nesta aplicação da TMI, completamos a especificação com c i N (µ c, σc 2 ) β 1,i N (µ β1, σβ 2 1 ) β 2,i N (µ β2, σβ 2 2 ) β 3,i N (µ β3, σβ 2 3 ), para i = 1, 2,..., 27; priori normal com média 0 e variância para µ c, µ β1, µ β2 e µ β3, e priori gama inversa com média 1 e variância 100 para σc 2, σβ 2 1, σβ 2 2 e σβ 2 3. Seguimos os passos anteriores e implementamos estes modelos no OpenBUGS. Daí, também geramos 3 cadeias com iterações cada e descartamos as primeiras de cada uma. Fizemos as análises de convergência pertinentes via gráficos e estatística de convergência BGR. A tabela 3.7 exibe os DICs para estes modelos ajustados aos dados de TMI. Tabela 3.7: Comparação de modelos via DIC: dados da taxa de mortalidade infantil - Parte I. Modelo Distribuição de y i,t DIC pd M 1 N (µ i,t, σ 2 ) 1226,0 112,80 M 2 t 3 (µ i,t, σ 2 ) 1163,0 49,43 M 3 t 4 (µ i,t, σ 2 ) 1221,0 108,00 M 4 t 5 (µ i,t, σ 2 ) 1238,0 125,10 M 5 t 10 (µ i,t, σ 2 ) 1243,0 129,60 Aqui temos µ i,t = c i + β 1,i x 1,i,t + β 2,i x 2,i,t + β 3,i x 3,i,t + β 4,i t. Já possuindo a experiência adquirida do estudo da base de dados anterior, decidimos substituir o λ global por λ i s por UF, de forma a deixar o modelo mais flexível. Assim criamos os modelos M 6 a M 9. Rodamos as devidas iterações, analisamos convergência e obtemos os DICs apresentados na tabela 3.8. Os modelos M 6, M 7 e M 8 mostraram-se igualmente satisfatórios, tendo em vista que distâncias de até 5 entre o DIC de modelos diferentes indicam que os mesmos ajustaram-se igualmente bem. Sabendo que os resíduos comportaram-se bem e as variáveis foram significativas, todos os modelos, de M 1 a M 9, dependem apenas do DIC para a escolha. Sendo assim, escolhemos o modelo M 6, por ter apresentado o melhor DIC dentre os verificados, apesar da maior penalização por parâmetros pd. Usaremos este modelo para explicar a taxa de mortalidade infantil.

37 25 Tabela 3.8: Comparação de modelos via DIC: dados da taxa de mortalidade infantil - Parte II. Modelo Distribuição de y i,t DIC pd M 6 t 3 (µ i,t, σ 2 ) 1057,0 147,46 M 7 t 4 (µ i,t, σ 2 ) 1058,0 144,90 M 8 t 5 (µ i,t, σ 2 ) 1060,0 142,60 M 9 t 10 (µ i,t, σ 2 ) 1076,0 135,30 Na figura 3.4 abaixo segue a análise gráfica dos resíduos Figura 3.4: Análise de Resíduos do Ajuste Final. A tabela 3.9 e as tabelas C.1, C.2, C.3, C.4 e C.5 do apêndice C trazem o resumo da distribuição a posteriori: média, desvio padrão, percentis de 2.5%, 50% e 97.5%. Nós interpretamos os parâmetros da seguinte forma: c i sendo a propensão inicial associada a cada UF da ocorrência de óbitos de menores de um ano de idade; β 1,i sendo a influência do índice de analfabetismo associada a cada UF;

38 26 Tabela 3.9: Sumário dos parâmetros da distribuição posteriori do modelo final M 6 usado para TMI. Parâmetro Média D. Padrão 2,5% Mediana 97,5% µ β1 0,0071 0,0406-0,0729 0,0070 0,0873 σβ 2 1 0,0429 0,0126 0,0247 0,0407 0,0739 µ β2 0,0076 0, ,0686 0,0076 0,0838 σβ 2 2 0,0401 0,0118 0,0232 0,0381 0,0690 µ β3 0,3821 0, ,1991 0,3804 0,5683 σβ 2 3 0,1287 0,0493 0,0612 0,1195 0,2499 µ β4-1,0870 0,1236-1,3340-1,0860-0,8461 σβ 2 4 0,3723 0,1209 0,1999 0,3518 0,6658 µ c 22,5000 2, , , ,5900 σc 2 80, , , , ,5000 σ 2 0,3216 0,0643 0,2122 0,3162 0,4638 β 2,i sendo a influência do serviço de esgotamento sanitário associada a cada UF; β 3,i sendo a influência da renda média domiciliar per capita associada a cada UF; e β 4,i sendo a tendência temporal associada a cada UF.

39 27 Capítulo 4 CONSIDERAÇÕES FINAIS Neste trabalho pudemos trabalhar abordagens que facilitam a análise bayesiana em dados estruturados como painéis. Trabalhamos com diversos modelos buscados na literatura, usando princípios, testes e critérios estudados nos cursos de graduação. A inferência pode ser realizada através do algoritmo de MCMC de modo simples usando o programa OpenBUGS. Para os dois conjuntos de dados - SIDA e TMI - fizemos a análise bayesiana dos modelos utilizando prioris vagas para os hiperparâmetros. A utilização de valores iniciais obtidos via análise de regressão por mínimos quadrados ajudaram as cadeias a convergirem mais rapidamente para as distribuições de interesse. 4.1 Óbitos por Síndrome da Imuno-Deficiência Adquirida Observando as informações da distribuição a posteriori concluímos que as regiões Sul, Sudeste e Centro- Oeste, com a adição dos estados de Roraima e Pernambuco, estão mais propensos do que os demais a abrigarem óbitos associados a portadores de SIDA. Isto pode estar associado a subnumeração de casos nos demais estados. Podemos ver que Rio Grande do Sul e Santa Catarina são os dois estados com maior propensão a abrigar tais óbitos. No que concerne a tendência temporal, podemos perceber que Rio Grande do Norte, Minas Gerais, Rio de Janeiro, São Paulo e Distrito Federal estão com tendência temporal negativa, ou seja, o volume de óbitos associados a estas UFs está caindo com o tempo, possivelmente fruto de medidas educativas e assistencialistas para conter o surto da doença. Os demais estados possuem tendência positiva, ou seja, crescente, sendo Roraima e Rondônia os estados com maior crescimento de número de óbitos ao longo dos anos e Rio de Janeiro o estado com maior queda. Por último, analisando a influência da própria variável no tempo anterior, nota-se que Rio de Janeiro, São Paulo, Rio Grande do Sul, Distrito Federal e Santa Catarina são extremamente dependentes de suas ocorrências no tempo anterior, valendo ressaltar que os dois primeiros estados possuem seus respectivos operadores de defasagem superiores a 0,9. Retiramos um ano de nossa base de dados, o ano de 2008, refizemos o ajuste do modelo M 16 e realizamos uma previsão dois passos à frente, comparando com valores reais, dado que previamente possuíamos os dados sobre o ano de Escolhemos gráficos de UFs, incluindo conturbadas UFs que apresentaram alta correlação entre seus resíduos em modelos anteriores, para serem expostos aqui, de

Econometria Semestre

Econometria Semestre Econometria Semestre 2010.01 174 174 21.4. PROCESSOS ESTOCÁSTICOS INTEGRADOS O passeio aleatório é apenas um caso particular de uma classe de processos estocásticos conhecidos como processos integrados.

Leia mais

4 Modelos de Regressão Dinâmica

4 Modelos de Regressão Dinâmica 4 Modelos de Regressão Dinâmica Nos modelos de regressão linear (Johnston e Dinardo, 1998) estudados comumente na literatura, supõe-se que os erros gerados pelo modelo possuem algumas características como:

Leia mais

A Metodologia de Box & Jenkins

A Metodologia de Box & Jenkins A Metodologia de Box & Jenins Aula 03 Bueno, 0, Capítulo 3 Enders, 009, Capítulo Morettin e Toloi, 006, Capítulos 6 a 8 A Metodologia Box & Jenins Uma abordagem bastante utilizada para a construção de

Leia mais

AULAS 14 E 15 Modelo de regressão simples

AULAS 14 E 15 Modelo de regressão simples 1 AULAS 14 E 15 Modelo de regressão simples Ernesto F. L. Amaral 18 e 23 de outubro de 2012 Avaliação de Políticas Públicas (DCP 046) Fonte: Wooldridge, Jeffrey M. Introdução à econometria: uma abordagem

Leia mais

Probabilidade e Estatística. Estimação de Parâmetros Intervalo de Confiança

Probabilidade e Estatística. Estimação de Parâmetros Intervalo de Confiança Probabilidade e Estatística Prof. Dr. Narciso Gonçalves da Silva http://páginapessoal.utfpr.edu.br/ngsilva Estimação de Parâmetros Intervalo de Confiança Introdução A inferência estatística é o processo

Leia mais

MAE Introdução à Probabilidade e Estatística II Resolução Lista 5

MAE Introdução à Probabilidade e Estatística II Resolução Lista 5 MAE 229 - Introdução à Probabilidade e Estatística II Resolução Lista 5 Professor: Pedro Morettin e Profa. Chang Chian Exercício 1 (a) De uma forma geral, o desvio padrão é usado para medir a dispersão

Leia mais

Estatística - Análise de Regressão Linear Simples. Professor José Alberto - (11) sosestatistica.com.br

Estatística - Análise de Regressão Linear Simples. Professor José Alberto - (11) sosestatistica.com.br Estatística - Análise de Regressão Linear Simples Professor José Alberto - (11 9.7525-3343 sosestatistica.com.br 1 Estatística - Análise de Regressão Linear Simples 1 MODELO DE REGRESSÃO LINEAR SIMPLES

Leia mais

Modelos de Regressão Linear Simples - Análise de Resíduos

Modelos de Regressão Linear Simples - Análise de Resíduos Modelos de Regressão Linear Simples - Análise de Resíduos Erica Castilho Rodrigues 1 de Setembro de 2014 3 O modelo de regressão linear é dado por Y i = β 0 + β 1 x i + ɛ i onde ɛ i iid N(0,σ 2 ). O erro

Leia mais

TÉCNICAS DE AMOSTRAGEM

TÉCNICAS DE AMOSTRAGEM TÉCNICAS DE AMOSTRAGEM Ralph dos Santos Silva Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Sumário Definições e Notação Estimação Amostra Aleatória

Leia mais

Modelagem do comportamento da variação do índice IBOVESPA através da metodologia de séries temporais

Modelagem do comportamento da variação do índice IBOVESPA através da metodologia de séries temporais Modelagem do comportamento da variação do índice IBOVESPA através da metodologia de séries temporais João Eduardo da Silva Pereira (UFSM) jesp@smail.ufsm.br Tânia Maria Frighetto (UFSM) jesp@smail.ufsm.br

Leia mais

Universidade Federal de Viçosa Departamento de Estatística

Universidade Federal de Viçosa Departamento de Estatística Universidade Federal de Viçosa Departamento de Estatística Prova Seletiva para o Programa de Pós-Graduação em Estatística Aplicada e Biometria. Nível Doutorado - 22/nov/2013 Nome: Assinatura:. Número do

Leia mais

IND 1115 Inferência Estatística Aula 6

IND 1115 Inferência Estatística Aula 6 Conteúdo IND 5 Inferência Estatística Aula 6 Setembro de 004 A distribuição Lognormal A distribuição Beta e sua relação com a Uniforme(0,) Mônica Barros mbarros.com mbarros.com A distribuição Lognormal

Leia mais

Conceitos Básicos Teste t Teste F. Teste de Hipóteses. Joel M. Corrêa da Rosa

Conceitos Básicos Teste t Teste F. Teste de Hipóteses. Joel M. Corrêa da Rosa 2011 O 1. Formular duas hipóteses sobre um valor que é desconhecido na população. 2. Fixar um nível de significância 3. Escolher a Estatística do Teste 4. Calcular o p-valor 5. Tomar a decisão mediante

Leia mais

3 Modelos Comparativos: Teoria e Metodologia

3 Modelos Comparativos: Teoria e Metodologia 3 Modelos Comparativos: Teoria e Metodologia Para avaliar o desempenho do modelo STAR-Tree, foram estimados os modelos Naive, ARMAX e Redes Neurais. O ajuste dos modelos ARMAX e das redes neurais foi feito

Leia mais

ECONOMETRIA. Prof. Patricia Maria Bortolon, D. Sc.

ECONOMETRIA. Prof. Patricia Maria Bortolon, D. Sc. ECONOMETRIA Prof. Patricia Maria Bortolon, D. Sc. Cap. 10 Multicolinearidade: o que acontece se os regressores são correlacionados? Fonte: GUJARATI; D. N. Econometria Básica: 4ª Edição. Rio de Janeiro.

Leia mais

AULA 07 Inferência a Partir de Duas Amostras

AULA 07 Inferência a Partir de Duas Amostras 1 AULA 07 Inferência a Partir de Duas Amostras Ernesto F. L. Amaral 10 de setembro de 2012 Faculdade de Filosofia e Ciências Humanas (FAFICH) Universidade Federal de Minas Gerais (UFMG) Fonte: Triola,

Leia mais

Definição. Os valores assumidos pelos estimadores denomina-se estimativas pontuais ou simplesmente estimativas.

Definição. Os valores assumidos pelos estimadores denomina-se estimativas pontuais ou simplesmente estimativas. 1. Inferência Estatística Inferência Estatística é o uso da informção (ou experiência ou história) para a redução da incerteza sobre o objeto em estudo. A informação pode ou não ser proveniente de um experimento

Leia mais

Modelo de regressão estável aplicado a econometria

Modelo de regressão estável aplicado a econometria Modelo de regressão estável aplicado a econometria financeira Fernando Lucambio Departamento de Estatística Universidade Federal do Paraná Curitiba/PR, 81531 990, Brasil email: lucambio@ufpr.br 1 Objetivos

Leia mais

1 Introdução aos Métodos Estatísticos para Geografia 1

1 Introdução aos Métodos Estatísticos para Geografia 1 1 Introdução aos Métodos Estatísticos para Geografia 1 1.1 Introdução 1 1.2 O método científico 2 1.3 Abordagens exploratória e confirmatória na geografia 4 1.4 Probabilidade e estatística 4 1.4.1 Probabilidade

Leia mais

Exemplos Modelos de Quase-Verossimilhança

Exemplos Modelos de Quase-Verossimilhança Exemplos Modelos de Quase-Verossimilhança p. 1/40 Exemplos Modelos de Quase-Verossimilhança Gilberto A. Paula Departamento de Estatística IME-USP MAE5763 - Modelos Lineares Generalizados 2 o semestre de

Leia mais

9 Correlação e Regressão. 9-1 Aspectos Gerais 9-2 Correlação 9-3 Regressão 9-4 Intervalos de Variação e Predição 9-5 Regressão Múltipla

9 Correlação e Regressão. 9-1 Aspectos Gerais 9-2 Correlação 9-3 Regressão 9-4 Intervalos de Variação e Predição 9-5 Regressão Múltipla 9 Correlação e Regressão 9-1 Aspectos Gerais 9-2 Correlação 9-3 Regressão 9-4 Intervalos de Variação e Predição 9-5 Regressão Múltipla 1 9-1 Aspectos Gerais Dados Emparelhados há uma relação? se há, qual

Leia mais

REGRESSÃO LINEAR Parte I. Flávia F. Feitosa

REGRESSÃO LINEAR Parte I. Flávia F. Feitosa REGRESSÃO LINEAR Parte I Flávia F. Feitosa BH1350 Métodos e Técnicas de Análise da Informação para o Planejamento Julho de 2015 Onde Estamos Para onde vamos Inferência Esta5s6ca se resumindo a uma equação

Leia mais

Séries Temporais e Modelos Dinâmicos. Econometria. Marcelo C. Medeiros. Aula 4

Séries Temporais e Modelos Dinâmicos. Econometria. Marcelo C. Medeiros. Aula 4 em Econometria Departamento de Economia Pontifícia Universidade Católica do Rio de Janeiro Aula 4 O Processo Média-Móvel Muitas vezes, a estrutura auto-regressiva não é suficiente para descrever totalmente

Leia mais

MOQ-13 PROBABILIDADE E ESTATÍSTICA. Professor: Rodrigo A. Scarpel

MOQ-13 PROBABILIDADE E ESTATÍSTICA. Professor: Rodrigo A. Scarpel MOQ-13 PROBABILIDADE E ESTATÍSTICA Professor: Rodrigo A. Scarpel rodrigo@ita.br www.mec.ita.br/~rodrigo Programa do curso: Semanas 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 e 16 Introdução à probabilidade (eventos,

Leia mais

Nessa situação, a média dessa distribuição Normal (X ) é igual à média populacional, ou seja:

Nessa situação, a média dessa distribuição Normal (X ) é igual à média populacional, ou seja: Pessoal, trago a vocês a resolução da prova de Estatística do concurso para Auditor Fiscal aplicada pela FCC. Foram 10 questões de estatística! Não identifiquei possibilidade para recursos. Considero a

Leia mais

ECONOMETRIA AVANÇADA Prova Intermediária - 09/04/2015

ECONOMETRIA AVANÇADA Prova Intermediária - 09/04/2015 ECONOMETRIA AVANÇADA Prova Intermediária - 09/04/2015 Solução Questão I (2,0 pontos): Para o modelo y t = 0, 7y t 1 + ɛ t, com ruído branco ɛ t (0, 1), (a) (0,5) Obtenha a previsão h-passos a frente, ŷ

Leia mais

AULAS 25 E 26 Heteroscedasticidade

AULAS 25 E 26 Heteroscedasticidade 1 AULAS 25 E 26 Heteroscedasticidade Ernesto F. L. Amaral 10 e 15 de junho de 2010 Métodos Quantitativos de Avaliação de Políticas Públicas (DCP 030D) Fonte: Wooldridge, Jeffrey M. Introdução à econometria:

Leia mais

AULA 11 Heteroscedasticidade

AULA 11 Heteroscedasticidade 1 AULA 11 Heteroscedasticidade Ernesto F. L. Amaral 30 de julho de 2012 Análise de Regressão Linear (MQ 2012) www.ernestoamaral.com/mq12reg.html Fonte: Wooldridge, Jeffrey M. Introdução à econometria:

Leia mais

Análise da Regressão múltipla: Inferência. Aula 4 6 de maio de 2013

Análise da Regressão múltipla: Inferência. Aula 4 6 de maio de 2013 Análise da Regressão múltipla: Inferência Revisão da graduação Aula 4 6 de maio de 2013 Hipóteses do modelo linear clássico (MLC) Sabemos que, dadas as hipóteses de Gauss- Markov, MQO é BLUE. Para realizarmos

Leia mais

Resolução da Prova de Matemática Financeira e Estatística do ISS Teresina, aplicada em 28/08/2016.

Resolução da Prova de Matemática Financeira e Estatística do ISS Teresina, aplicada em 28/08/2016. de Matemática Financeira e Estatística do ISS Teresina, aplicada em 8/08/016. 11 - (ISS Teresina 016 / FCC) Joana aplicou todo seu capital, durante 6 meses, em bancos ( e Y). No Banco, ela aplicou 37,5%

Leia mais

Intervalos de Confiança

Intervalos de Confiança Intervalos de Confiança INTERVALOS DE CONFIANÇA.1 Conceitos básicos.1.1 Parâmetro e estatística Parâmetro é a descrição numérica de uma característica da população. Estatística é a descrição numérica de

Leia mais

1. Avaliação de impacto de programas sociais: por que, para que e quando fazer? (Cap. 1 do livro) 2. Estatística e Planilhas Eletrônicas 3.

1. Avaliação de impacto de programas sociais: por que, para que e quando fazer? (Cap. 1 do livro) 2. Estatística e Planilhas Eletrônicas 3. 1 1. Avaliação de impacto de programas sociais: por que, para que e quando fazer? (Cap. 1 do livro) 2. Estatística e Planilhas Eletrônicas 3. Modelo de Resultados Potenciais e Aleatorização (Cap. 2 e 3

Leia mais

Introdução ao Planejamento e Análise Estatística de Experimentos 1º Semestre de 2013 Capítulo 3 Introdução à Probabilidade e à Inferência Estatística

Introdução ao Planejamento e Análise Estatística de Experimentos 1º Semestre de 2013 Capítulo 3 Introdução à Probabilidade e à Inferência Estatística Introdução ao Planejamento e Análise Estatística de Experimentos Capítulo 3 Introdução à Probabilidade e à Inferência Estatística Introdução ao Planejamento e Análise Estatística de Experimentos Agora,

Leia mais

Modelos ARCH e GARCH Aula 8. Morettin e Toloi, 2006, Capítulo 1 e 14 Morettin, 2011, Capítulo 1 e 5 Bueno, 2011, Capítulo 8

Modelos ARCH e GARCH Aula 8. Morettin e Toloi, 2006, Capítulo 1 e 14 Morettin, 2011, Capítulo 1 e 5 Bueno, 2011, Capítulo 8 Modelos ARCH e GARCH Aula 8 Morettin e Toloi, 2006, Capítulo 1 e 14 Morettin, 2011, Capítulo 1 e 5 Bueno, 2011, Capítulo 8 Motivação Pesquisadores que se dedicam a prever séries temporais, tais como preços

Leia mais

TÉCNICAS DE AMOSTRAGEM

TÉCNICAS DE AMOSTRAGEM TÉCNICAS DE AMOSTRAGEM Ralph dos Santos Silva Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Sumário Amostragem estratificada Divisão da população em

Leia mais

INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA

INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA UFPE - Universidade Federal de Pernambuco Departamento de Estatística Disciplina: ET-406 Estatística Econômica Professor: Waldemar A. de Santa Cruz Oliveira Júnior INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA Podemos

Leia mais

MÓDULO V: Análise Bidimensional: Correlação, Regressão e Teste Qui-quadrado de Independência

MÓDULO V: Análise Bidimensional: Correlação, Regressão e Teste Qui-quadrado de Independência MÓDULO V: Análise Bidimensional: Correlação, Regressão e Teste Qui-quadrado de Independência Introdução 1 Muito frequentemente fazemos perguntas do tipo se alguma coisa tem relação com outra. Estatisticamente

Leia mais

Modelos Lineares Generalizados - Modelos log-lineares para tabelas de contingência

Modelos Lineares Generalizados - Modelos log-lineares para tabelas de contingência Modelos Lineares Generalizados - Modelos log-lineares para tabelas de contingência Erica Castilho Rodrigues 12 de Agosto Introdução 3 Vimos como usar Poisson para testar independência em uma Tabela 2x2.

Leia mais

Séries de Tempo. José Fajardo. Agosto Fundação Getulio Vargas-EBAPE. José Fajardo (FGV-EBAPE) Fundamentos Estatísticos Agosto / 49

Séries de Tempo. José Fajardo. Agosto Fundação Getulio Vargas-EBAPE. José Fajardo (FGV-EBAPE) Fundamentos Estatísticos Agosto / 49 Séries de Tempo José Fajardo Fundação Getulio Vargas-EBAPE Agosto 2011 José Fajardo (FGV-EBAPE) Fundamentos Estatísticos Agosto 2011 1 / 49 Definição de esperança não condicional ou incondicional Considere

Leia mais

Teste de hipóteses para uma média populacional com variância conhecida e desconhecida

Teste de hipóteses para uma média populacional com variância conhecida e desconhecida Teste de hipóteses para uma média populacional com variância conhecida e desconhecida Teste de hipóteses para uma média populacional com variância conhecida Tomando-se como exemplo os dados de recém-nascidos

Leia mais

DE ESPECIALIZAÇÃO EM ESTATÍSTICA APLICADA)

DE ESPECIALIZAÇÃO EM ESTATÍSTICA APLICADA) 1. Sabe-se que o nível de significância é a probabilidade de cometermos um determinado tipo de erro quando da realização de um teste de hipóteses. Então: a) A escolha ideal seria um nível de significância

Leia mais

FAMÍLIA EXPONENCIAL DE DISTRIBUIÇÕES

FAMÍLIA EXPONENCIAL DE DISTRIBUIÇÕES FAMÍLIA EXPONENCIAL DE DISTRIBUIÇÕES 1 Os modelos lineares generalizados, propostos originalmente em Nelder e Wedderburn (1972), configuram etensões dos modelos lineares clássicos e permitem analisar a

Leia mais

Sumário. CAPÍTULO 1 Conceitos preliminares 1. CAPÍTULO 2 Descrição de dados: análise monovariada 47

Sumário. CAPÍTULO 1 Conceitos preliminares 1. CAPÍTULO 2 Descrição de dados: análise monovariada 47 CAPÍTULO 1 Conceitos preliminares 1 Introdução........................................................1 O que é estatística?.................................................. 4 Papel dos microcomputadores.........................................

Leia mais

Distribuições derivadas da distribuição Normal. Distribuição Normal., x real.

Distribuições derivadas da distribuição Normal. Distribuição Normal., x real. Distribuições derivadas da distribuição Normal Distribuição Normal Uma variável aleatória X tem distribuição normal com parâmetros µ e σ, quando sua densidade de probabilidade é f ( x) π σ e ( x µ ) σ,

Leia mais

UMA ANÁLISE ECONOMÉTRICA DO ICMS *

UMA ANÁLISE ECONOMÉTRICA DO ICMS * UMA ANÁLISE ECONOMÉTRICA DO ICMS * Carlos Eduardo S. Marino ** * Trabalho de conclusão da disciplina de Econometria I, ministrada pelos professores Ivan Castelar e Vitor Monteiro, realizada no primeiro

Leia mais

Estatística Descritiva

Estatística Descritiva C E N T R O D E M A T E M Á T I C A, C O M P U T A Ç Ã O E C O G N I Ç Ã O UFABC Estatística Descritiva Centro de Matemática, Computação e Cognição March 17, 2013 Slide 1/52 1 Definições Básicas Estatística

Leia mais

MODELO DE DECISÃO PARA ESCOLHA DE PORTFOLIO DE INVESTIMENTOS

MODELO DE DECISÃO PARA ESCOLHA DE PORTFOLIO DE INVESTIMENTOS MODELO DE DECISÃO PARA ESCOLHA DE PORTFOLIO DE INVESTIMENTOS Rodrigo José Pires Ferreira UFPE Cx. Postal 7462, Recife PE, 50.630-970 rodrigo@ufpe.br Adiel Teixeira de Almeida Filho UFPE Cx. Postal 7462,

Leia mais

4 Modelos Lineares Generalizados

4 Modelos Lineares Generalizados 4 Modelos Lineares Generalizados Neste capítulo, serão apresentados arcabouços teóricos dos modelos lineares generalizados (MLGs) e como casos particulares desses modelos são aplicáveis ao problema da

Leia mais

Aula 2. ESTATÍSTICA E TEORIA DAS PROBABILIDADES Conceitos Básicos

Aula 2. ESTATÍSTICA E TEORIA DAS PROBABILIDADES Conceitos Básicos Aula 2 ESTATÍSTICA E TEORIA DAS PROBABILIDADES Conceitos Básicos 1. DEFINIÇÕES FENÔMENO Toda modificação que se processa nos corpos pela ação de agentes físicos ou químicos. 2. Tudo o que pode ser percebido

Leia mais

Predição da Taxa de Desemprego Brasileira utilizando com Modelo de Regressão com Erros Autocorrelacionados

Predição da Taxa de Desemprego Brasileira utilizando com Modelo de Regressão com Erros Autocorrelacionados Predição da Taxa de Desemprego Brasileira utilizando com Modelo de Regressão com Erros Autocorrelacionados José Eduardo Holanda Ellery Coelho 1 Hellano Vieira de Almeida 2 Rafael Braz Azevedo Farias 3

Leia mais

Resumo. Parte 7 Processos Estocásticos. Ramiro Brito Willmersdorf

Resumo. Parte 7 Processos Estocásticos. Ramiro Brito Willmersdorf Parte 7 Processos Estocásticos Ramiro Brito Willmersdorf ramiro@willmersdorf.net Departamento de Engenharia Mecânica Universidade Federal de Pernambuco 2011.2 Resumo 1 Processos Estocásticos 2 Classicação

Leia mais

Intervalos de Confiança

Intervalos de Confiança Intervalos de Confiança Carla Henriques e Nuno Bastos Departamento de Matemática Escola Superior de Tecnologia de Viseu Carla Henriques e Nuno Bastos (DepMAT) Intervalos de Confiança 2010/2011 1 / 33 Introdução

Leia mais

Produtos de potências racionais. números primos.

Produtos de potências racionais. números primos. MATEMÁTICA UNIVERSITÁRIA n o 4 Dezembro/2006 pp. 23 3 Produtos de potências racionais de números primos Mário B. Matos e Mário C. Matos INTRODUÇÃO Um dos conceitos mais simples é o de número natural e

Leia mais

Fernando de Pol Mayer

Fernando de Pol Mayer Fernando de Pol Mayer Laboratório de Estatística e Geoinformação (LEG) Departamento de Estatística (DEST) Universidade Federal do Paraná (UFPR) Este conteúdo está disponível por meio da Licença Creative

Leia mais

Coeficiente de Assimetria

Coeficiente de Assimetria Coeficiente de Assimetria Rinaldo Artes Insper Nesta etapa do curso estudaremos medidas associadas à forma de uma distribuição de dados, em particular, os coeficientes de assimetria e curtose. Tais medidas

Leia mais

4 Processos Estocásticos e Simulação de Monte Carlo

4 Processos Estocásticos e Simulação de Monte Carlo 33 4 Processos Estocásticos e Simulação de Monte Carlo O processo estocástico faz a descrição de uma variável com comportamento ao menos em parte de maneira aleatória através do tempo, onde se assume valores

Leia mais

Análise e previsão das taxas da população ocupada em Fortaleza, Ceará, de setembro de 1991 a dezembro de 2008

Análise e previsão das taxas da população ocupada em Fortaleza, Ceará, de setembro de 1991 a dezembro de 2008 Análise e previsão das taxas da população ocupada em Fortaleza, Ceará, de setembro de 1991 a dezembro de 2008 Daniela Bandeira, Paulo Germano, Filipe Formiga e Jeremias Leão Universidade Federal do Piauí

Leia mais

4 Resultados. 4.1 Resultados das Regressões Estruturais

4 Resultados. 4.1 Resultados das Regressões Estruturais 37 4 Resultados 4.1 Resultados das Regressões Estruturais A tabela 4.1.1 apresenta os resultados das regressões estruturais realizadas de acordo com as equações (1) e (2). As variáveis dependentes são

Leia mais

Introdução aos Proc. Estocásticos - ENG 430

Introdução aos Proc. Estocásticos - ENG 430 Introdução aos Proc. Estocásticos - ENG 430 Fabrício Simões IFBA 16 de novembro de 2015 Fabrício Simões (IFBA) Introdução aos Proc. Estocásticos - ENG 430 16 de novembro de 2015 1 / 34 1 Motivação 2 Conceitos

Leia mais

Inferência Estatística: DEEST/UFOP Prof.: Spencer Barbosa da Silva

Inferência Estatística: DEEST/UFOP Prof.: Spencer Barbosa da Silva Inferência Estatística: Prof.: Spencer Barbosa da Silva Amostragem Estatística Descritiva Cálculo de Probabilidade Inferência Estatística Estimação Teste de Hipótese Pontual Por Intervalo Conceitos básicos

Leia mais

Previsão da produção de energia hidrelétrica no Brasil via séries temporais.

Previsão da produção de energia hidrelétrica no Brasil via séries temporais. Previsão da produção de energia hidrelétrica no Brasil via séries temporais. Sílvio de Castro Silveira. Introdução Joel Augusto Muniz Thelma Sáfadi Tadeu Vilela de Souza Recentemente ascendeu-se a discussão

Leia mais

Processos Hidrológicos CST 318 / SER 456. Tema 9 -Métodos estatísticos aplicados à hidrologia ANO 2016

Processos Hidrológicos CST 318 / SER 456. Tema 9 -Métodos estatísticos aplicados à hidrologia ANO 2016 Processos Hidrológicos CST 318 / SER 456 Tema 9 -Métodos estatísticos aplicados à hidrologia ANO 2016 Camilo Daleles Rennó Laura De Simone Borma http://www.dpi.inpe.br/~camilo/prochidr/ Caracterização

Leia mais

Fernando Nogueira Simulação 1

Fernando Nogueira Simulação 1 Simulação a Eventos Discretos Fernando Nogueira Simulação Introdução Simulação não é uma técnica de otimização: estima-se medidas de performance de um sistema modelado. Modelos Contínuos X Modelos Discretos

Leia mais

ANÁLISE DOS RESÍDUOS. Na análise de regressão linear, assumimos que os erros E 1, E 2,, E n satisfazem os seguintes pressupostos:

ANÁLISE DOS RESÍDUOS. Na análise de regressão linear, assumimos que os erros E 1, E 2,, E n satisfazem os seguintes pressupostos: ANÁLISE DOS RESÍDUOS Na análise de regressão linear, assumimos que os erros E 1, E 2,, E n satisfazem os seguintes pressupostos: seguem uma distribuição normal; têm média zero; têm variância σ 2 constante

Leia mais

Disciplina: Processamento Estatístico de Sinais (ENGA83) - Aula 02 / Processos Aleatórios

Disciplina: Processamento Estatístico de Sinais (ENGA83) - Aula 02 / Processos Aleatórios Disciplina: Processamento Estatístico de Sinais (ENGA83) - Aula 02 / Processos Aleatórios Prof. Eduardo Simas (eduardo.simas@ufba.br) Programa de Pós-Graduação em Engenharia Elétrica/PPGEE Universidade

Leia mais

Modulo I. Séries Temporais: ARIMA

Modulo I. Séries Temporais: ARIMA UNIVERSIDADE FEDERAL DO PARÁ INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS FACULDADE DE ESTATÍSTICA Modulo I Séries Temporais: ARIMA Curso: Bacharelado em Estatística Disciplina: Estatística Aplicada Nome: Verena

Leia mais

Estatística

Estatística Estatística 1 2016.2 Sumário Capítulo 1 Conceitos Básicos... 3 MEDIDAS DE POSIÇÃO... 3 MEDIDAS DE DISPERSÃO... 5 EXERCÍCIOS CAPÍTULO 1... 8 Capítulo 2 Outliers e Padronização... 12 VALOR PADRONIZADO (Z)...

Leia mais

INFERÊNCIA ESTATÍSTICA. ESTIMAÇÃO PARA A PROPORÇÃO POPULACIONAL p

INFERÊNCIA ESTATÍSTICA. ESTIMAÇÃO PARA A PROPORÇÃO POPULACIONAL p INFERÊNCIA ESTATÍSTICA ESTIMAÇÃO PARA A PROPORÇÃO POPULACIONAL p Objetivo Estimar uma proporção p (desconhecida) de elementos em uma população, apresentando certa característica de interesse, a partir

Leia mais

Conceitos Básicos de Séries Temporais para Modelagem Macroeconômica

Conceitos Básicos de Séries Temporais para Modelagem Macroeconômica Conceitos Básicos de Séries Temporais para Modelagem Macroeconômica Material de apoio à aula de RBC Referencia bibliográfica: Introduction to Econometrics G S Maddala e Kajal Lahiri 4a. Edição, John Wiley

Leia mais

Medidas de Dispersão ou variabilidade

Medidas de Dispersão ou variabilidade Medidas de Dispersão ou variabilidade A média - ainda que considerada como um número que tem a faculdade de representar uma série de valores - não pode, por si mesma, destacar o grau de homogeneidade ou

Leia mais

SUMÁRIO. Prefácio, Espaço amostrai, Definição de probabilidade, Probabilidades finitas dos espaços amostrais fin itos, 20

SUMÁRIO. Prefácio, Espaço amostrai, Definição de probabilidade, Probabilidades finitas dos espaços amostrais fin itos, 20 SUMÁRIO Prefácio, 1 3 1 CÁLCULO DAS PROBABILIDADES, 15 1.1 Introdução, 15 1.2 Caracterização de um experimento aleatório, 15 1.3 Espaço amostrai, 16 1.4 Evento, 17 1.5 Eventos mutuamente exclusivos, 17

Leia mais

Análise de Dados e Simulação

Análise de Dados e Simulação Universidade de São Paulo Instituto de Matemática e Estatística http:www.ime.usp.br/ mbranco Simulação de Variáveis Aleatórias Contínuas. O método da Transformada Inversa Teorema Seja U U (0,1). Para qualquer

Leia mais

CE Estatística I

CE Estatística I CE 002 - Estatística I Agronomia - Turma B Professor Walmes Marques Zeviani Laboratório de Estatística e Geoinformação Departamento de Estatística Universidade Federal do Paraná 1º semestre de 2012 Zeviani,

Leia mais

TÉCNICAS DE AMOSTRAGEM

TÉCNICAS DE AMOSTRAGEM TÉCNICAS DE AMOSTRAGEM Ralph dos Santos Silva Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Sumário Teorema Central do Limite (TCL) Se y 1, y 2,...,

Leia mais

Lecture 3a Testes de Hipótese

Lecture 3a Testes de Hipótese Métodos Quantitativos em Contabilidade I Programa de Pós-Graduação em Controladoria e Contabilidade Lucas Barros lucasbarros@usp.br Henrique Castro hcastro@usp.br Universidade de São Paulo 1 of 19 Lecture

Leia mais

Técnicas econométricas para avaliação de impacto O uso de métodos de regressão e introdução aos métodos de diferençasdas-diferenças

Técnicas econométricas para avaliação de impacto O uso de métodos de regressão e introdução aos métodos de diferençasdas-diferenças Técnicas econométricas para avaliação de impacto O uso de métodos de e introdução aos métodos de diferençasdas-diferenças Bruno César Araújo Instituto de Pesquisa Econômica Aplicada IPEA Brasília, 30 de

Leia mais

Contabilometria. Aula 9 Regressão Linear Inferências e Grau de Ajustamento

Contabilometria. Aula 9 Regressão Linear Inferências e Grau de Ajustamento Contabilometria Aula 9 Regressão Linear Inferências e Grau de Ajustamento Interpretação do Intercepto e da Inclinação b 0 é o valor estimado da média de Y quando o valor de X é zero b 1 é a mudança estimada

Leia mais

Análise da Regressão. Prof. Dr. Alberto Franke (48)

Análise da Regressão. Prof. Dr. Alberto Franke (48) Análise da Regressão Prof. Dr. Alberto Franke (48) 91471041 O que é Análise da Regressão? Análise da regressão é uma metodologia estatística que utiliza a relação entre duas ou mais variáveis quantitativas

Leia mais

Planejamento de Experimentos. 13. Experimentos com fatores aleatórios

Planejamento de Experimentos. 13. Experimentos com fatores aleatórios Planejamento de Experimentos 13. Experimentos com fatores aleatórios Até aqui assumimos que os fatores nos experimentos eram fixos, isto é, os níveis dos fatores utilizados eram níveis específicos de interesse.

Leia mais

Disciplina de Modelos Lineares

Disciplina de Modelos Lineares Disciplina de Modelos Lineares 2012-2 Seleção de Variáveis Professora Ariane Ferreira Em modelos de regressão múltipla é necessário determinar um subconjunto de variáveis independentes que melhor explique

Leia mais

1. Avaliação de impacto de programas sociais: por que, para que e quando fazer? (Cap. 1 do livro) 2. Estatística e Planilhas Eletrônicas 3.

1. Avaliação de impacto de programas sociais: por que, para que e quando fazer? (Cap. 1 do livro) 2. Estatística e Planilhas Eletrônicas 3. 1 1. Avaliação de impacto de programas sociais: por que, para que e quando fazer? (Cap. 1 do livro) 2. Estatística e Planilhas Eletrônicas 3. Modelo de Resultados Potenciais e Aleatorização (Cap. 2 e 3

Leia mais

Turma: Engenharia Data: 12/06/2012

Turma: Engenharia Data: 12/06/2012 DME-IM-UFRJ - 2ª Prova de Estatística Unificada Turma: Engenharia Data: 12/06/2012 1 - Admita que a distribuição do peso dos usuários de um elevador seja uma Normal com média 75kg e com desvio padrão 15kg.

Leia mais

Distribuição de Probabilidade de Poisson

Distribuição de Probabilidade de Poisson 1 Distribuição de Probabilidade de Poisson Ernesto F. L. Amaral Magna M. Inácio 07 de outubro de 2010 Tópicos Especiais em Teoria e Análise Política: Problema de Desenho e Análise Empírica (DCP 859B4)

Leia mais

Distribuição Amostral e Estimação Pontual de Parâmetros

Distribuição Amostral e Estimação Pontual de Parâmetros Roteiro Distribuição Amostral e Estimação Pontual de Parâmetros 1. Introdução 2. Teorema Central do Limite 3. Conceitos de Estimação Pontual 4. Métodos de Estimação Pontual 5. Referências População e Amostra

Leia mais

étodos uméricos AJUSTE DE FUNÇÕES Prof. Erivelton Geraldo Nepomuceno PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA

étodos uméricos AJUSTE DE FUNÇÕES Prof. Erivelton Geraldo Nepomuceno PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA étodos uméricos AJUSTE DE FUNÇÕES Prof. Erivelton Geraldo Nepomuceno PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA UNIVERSIDADE DE JOÃO DEL-REI PRÓ-REITORIA DE PESQUISA CENTRO FEDERAL DE EDUCAÇÃO TECNOLÓGICA

Leia mais

Modelos de Regressão Múltipla - Parte VIII

Modelos de Regressão Múltipla - Parte VIII 1 Modelos de Regressão Múltipla - Parte VIII Erica Castilho Rodrigues 15 de Fevereiro de 2017 2 3 Observações não usuais 4 As observações não usuais podem ser: Outliers: não se ajustam bem ao modelo (resíduo

Leia mais

Eventos coletivamente exaustivos: A união dos eventos é o espaço amostral.

Eventos coletivamente exaustivos: A união dos eventos é o espaço amostral. DEFINIÇÕES ADICIONAIS: PROBABILIDADE Espaço amostral (Ω) é o conjunto de todos os possíveis resultados de um experimento. Evento é qualquer subconjunto do espaço amostral. Evento combinado: Possui duas

Leia mais

Técnicas econométricas para avaliação de impacto O uso de algoritmos de emparelhamento baseados em escore de propensão propensity score matching

Técnicas econométricas para avaliação de impacto O uso de algoritmos de emparelhamento baseados em escore de propensão propensity score matching Técnicas econométricas para avaliação de impacto O uso de algoritmos de emparelhamento baseados em escore de propensão propensity score matching Bruno César Araújo Instituto de Pesquisa Econômica Aplicada

Leia mais

AJUSTE DE UM MODELO DE SÉRIES TEMPORAIS PARA PREVISÃO DA TEMPERATURA MÍNIMA DO AR PARA LAVRAS/MG EM 2011

AJUSTE DE UM MODELO DE SÉRIES TEMPORAIS PARA PREVISÃO DA TEMPERATURA MÍNIMA DO AR PARA LAVRAS/MG EM 2011 AJUSTE DE UM MODELO DE SÉRIES TEMPORAIS PARA PREVISÃO DA TEMPERATURA MÍNIMA DO AR PARA LAVRAS/MG EM 2011 LUIZ G. CARVALHO 1, CAMILA C. ALVARENGA 2 DANIELA C. RODRIGUES 3 1 Eng. Agrícola, Prof. Adjunto,

Leia mais

Econometria - Lista 6

Econometria - Lista 6 Econometria - Lista 6 Professores: Hedibert Lopes, Priscila Ribeiro e Sérgio Martins Monitores: Gustavo Amarante e João Marcos Nusdeo Exercício 1 A curva de Phillips desempenha um papel fundamental na

Leia mais

Prof. Dr. Engenharia Ambiental, UNESP

Prof. Dr. Engenharia Ambiental, UNESP INTRODUÇÃO A ESTATÍSTICA ESPACIAL Análise Exploratória dos Dados Estatística Descritiva Univariada Roberto Wagner Lourenço Roberto Wagner Lourenço Prof. Dr. Engenharia Ambiental, UNESP Estrutura da Apresentação

Leia mais

Capítulo 3. O Modelo de Regressão Linear Simples: Especificação e Estimação

Capítulo 3. O Modelo de Regressão Linear Simples: Especificação e Estimação Capítulo 3 O Modelo de Regressão Linear Simples: Especificação e Estimação Introdução Teoria Econômica Microeconomia: Estudamos modelos de oferta e demanda (quantidades demandadas e oferecidas dependem

Leia mais

Distribuição t de Student

Distribuição t de Student Distribuição t de Student Introdução Quando o desvio padrão da população não é conhecido (o que é o caso, geralmente), usase o desvio padrão da amostra como estimativa, substituindo-se σ x por S x nas

Leia mais

a) 19% b) 20% c) Aproximadamente 13% d) 14% e) Qualquer número menor que 20%

a) 19% b) 20% c) Aproximadamente 13% d) 14% e) Qualquer número menor que 20% 0. Sabe-se que o nível de significância é a probabilidade de cometermos um determinado tipo de erro quando da realização de um teste de hipóteses. Então: a) A escolha ideal seria um nível de significância

Leia mais

Intervalos Estatísticos para uma única Amostra - parte I

Intervalos Estatísticos para uma única Amostra - parte I Intervalos Estatísticos para uma única Amostra - parte I Intervalo de confiança para média 14 de Janeiro Objetivos Ao final deste capítulo você deve ser capaz de: Construir intervalos de confiança para

Leia mais

METODOLOGIA DE CÁLCULO DA TAXA DE MORTALIDADE INFANTIL

METODOLOGIA DE CÁLCULO DA TAXA DE MORTALIDADE INFANTIL GT Mortalidade Infantil METODOLOGIA DE CÁLCULO DA TAXA DE MORTALIDADE INFANTIL RIPSA - Rede Interagencial de Informações para a Saúde A taxa de mortalidade infantil é um indicador utilizado para medir

Leia mais

Resumo das aulas dos dias 4 e 11 de abril e exercícios sugeridos

Resumo das aulas dos dias 4 e 11 de abril e exercícios sugeridos MAT 1351 Cálculo para funções uma variável real I Curso noturno de Licenciatura em Matemática 1 semestre de 2016 Docente: Prof. Dr. Pierluigi Benevieri Resumo das aulas dos dias 4 e 11 de abril e exercícios

Leia mais

PROJEÇÃO DO ÍNDICE FIPEZAP NOTAS METODOLÓGICAS SÃO PAULO

PROJEÇÃO DO ÍNDICE FIPEZAP NOTAS METODOLÓGICAS SÃO PAULO PROJEÇÃO DO ÍNDICE FIPEZAP NOTAS METODOLÓGICAS SÃO PAULO SETEMBRO/2015 ÍNDICE FIPEZAP E SUA PROJEÇÃO Nesse documento buscaremos explicar os detalhes metodológicos da construção do modelo de projeção do

Leia mais

Introdução a Inferência Bayesiana

Introdução a Inferência Bayesiana Introdução a Inferência Bayesiana Helio S. Migon IM and COPPE - UFRJ migon@im.ufrj.br 2006 Conteúdo 1. Conceitos Básicos da Inferência 2. Distribuição a Priori 3. Sumariazação 4. Inferência Preditiva 1

Leia mais

Teste Anova. Prof. David Prata Novembro de 2016

Teste Anova. Prof. David Prata Novembro de 2016 Teste Anova Prof. David Prata Novembro de 2016 Tipo de Variável Introduzimos o processo geral de teste de hipótese. É hora de aprender a testar a sua própria hipótese. Você sempre terá que interpretar

Leia mais