Abordagem Bayesiana para Dados de Painel

Transcrição

1 Universidade Federal do Rio de Janeiro UFRJ Abordagem Bayesiana para Dados de Painel Nicolai Reis Castro e Rodrigo Queiroz de Souza Barros 2014

2 UFRJ Abordagem Bayesiana para Dados de Painel Nicolai Reis Castro e Rodrigo Queiroz de Souza Barros Projeto Final submetido ao Programa de Graduação em Estatística do Instituto de Matemática da Universidade Federal do Rio de Janeiro como parte dos requisitos necessários para obtenção do grau de Bacharel em Ciências Estatísticas. Orientador: Ralph dos Santos Silva Rio de Janeiro, 8 dezembro de 2014.

3 Abordagem Bayesiana para Dados de Painel Nicolai Reis Castro e Rodrigo Queiroz de Souza Barros Orientador: Ralph dos Santos Silva Projeto Final de Conclusão de Curso apresentado ao Departamento de Métodos Estatísticos do Instituto de Matemática da Universidade Federal do Rio de Janeiro como parte dos requisitos necessários para obtenção do título de Bacharel em Estatística. Prof. Ralph dos Santos Silva IM-UFRJ Prof. a Alexandra Mello Schmidt IM-UFRJ Prof. a Thaís Cristina Oliveira da Fonseca IM-UFRJ Rio de Janeiro, 8 de dezembro de 2014.

4 Castro, Nicolai Reis; Queiroz, Rodrigo de Souza Barros Abordagem Bayesiana para Dados de Painel/ Nicolai Reis Castro e Rodrigo Queiroz- Rio de Janeiro: UFRJ/IM, iv, 42f.: il.; 31cm. Orientador: Ralph dos Santos Silva Projeto Final (Monografia) - UFRJ/IM/ Programa de Graduação em Estatística, Referências Bibliográficas: f Abordagem Bayesiana. 2. Dados de Painel. I. Silva, Ralph dos Santos. II. Universidade Federal do Rio de Janeiro, Instituto de Matemática. III. Título.

5 RESUMO Abordagem Bayesiana para Dados de Painel Nicolai Reis Castro e Rodrigo Queiroz de Souza Barros Orientador: Ralph dos Santos Silva Resumo do Projeto Final submetido ao Programa de Graduação em Estatística do Instituto de Matemática da Universidade Federal do Rio de Janeiro como parte dos requisitos necessários para obtenção do grau de Bacharel em Estatística. Neste trabalho abordamos dois conjuntos de dados - casos de óbitos pela Síndrome da Imuno- Deficiência Adquirida (SIDA) por Unidade Federativa e casos de mortalidade infantil também por Unidade Federativa. Utilizamos Estatísticas Descritivas para compreender a dinâmica inicial dos dados e também para verificar a presença de possíveis pontos discrepantes e a significância de autocorrelações dos dados. Seguimos com a estimação de modelos de regressão por mínimos quadrados para entender como a incidência de SIDA poderia impactar no número de óbitos. Fazemos um estudo semelhante para os dados de mortalidade infantil. Entretanto, estes modelos não se mostram adequados. Daí, propomos vários modelos para dados de painel, fazemos ajuste pelo enfoque bayesiano e escolhemos o melhor modelo (ajuste) via o critério de informação do desvio. Finalmente, dado o melhor ajuste, fazemos previsões para poucos anos à frente. Palavras-chave: Monte Carlo via cadeias de Markov, mortalidade infantil, seleção de modelos, Síndrome da Imuno-Deficiência Adquirida.

6 ABSTRACT Bayesian Approach to Panel Data Nicolai Reis Castro e Rodrigo Queiroz Advisor: Ralph dos Santos Silva Abstract do Projeto Final submetido ao Programa de Graduação em Estatística do Instituto de Matemática da Universidade Federal do Rio de Janeiro como parte dos requisitos necessários para obtenção do grau de Bacharel em Estatística. In this work we study two data sets - cases of death by Acquired Immunodeficiency Syndrome (AIDS) by states of Brazil and cases of infant mortality by states of Brazil as well. We start with descriptive statistic analysis for understanding the basics of the data set as well as for identifying outliers and significant autocorrelations. Further we estimate regression model by ordinary least square to study how the incidence of AIDS can impact on the amount of death. We proceed with the same scheme for the infant mortality data. However, these models were not suited for these data sets. Thus, we propose several panel data models, estimate these models by the Bayesian approach and choose de best fit model by means of the deviance information criterion. Finally, we use the best model fit to forecast one- or two-years ahead. Key-words: Acquired immunodeficiency syndrome, infant mortality, model selection, Markov chain Monte Carlo.

7 Para Paulo Castro e Martha Ramos Reis e José Paulo de Souza Barros e Izabel Oliveira de Queiroz

8 AGRADECIMENTOS Em especial a nossos pais. Ao nosso orientador Ralph dos Santos Silva; e A todos os professores do DME/IM/UFRJ;

9 SUMÁRIO Lista de Tabelas Lista de Figuras iii iv Capítulo 1: Introdução Séries de Dados Capítulo 2: Metodologia Inferência Bayesiana Inferência Bayesiana Usando Monte Carlo via Cadeias de Markov Amostrador de Gibbs Critério de Convergência - BGR Critério de Informação de Desvio OpenBUGS Método dos Mínimos Quadrados Séries Temporais Estacionariedade Autocovariância e Autocorrelação Modelo Autoregressivo Modelos de Defasagens Distribuídas Análise de Intervenção Teste Independência dos Resíduos: Ljung-Box Capítulo 3: Aplicação Óbitos por Síndrome da Imuno-Deficiência Adquirida Mortalidade Infantil Capítulo 4: Considerações Finais Óbitos por Síndrome da Imuno-Deficiência Adquirida Mortalidade Infantil Referências Bibliográficas 33 i

10 Apêndice A: Ordenação das Unidades da Federação 34 Apêndice B: Distribuição a Posteriori: Modelo para os Dados de SIDA 35 Apêndice C: Distribuição a Posteriori: Modelo para os Dados de TMI 38 ii

11 LISTA DE TABELAS 3.1 DIC: dados de SIDA - Parte I DIC: dados de SIDA - Parte II DIC: dados de SIDA - Parte III DIC: dados de SIDA - Parte IV DIC: dados de SIDA - Parte V Sumário da distribuição a posteriori: Modelo M 16 - SIDA - Parte I DIC: dados de TMI - Parte I DIC: dados de TMI - Parte II Sumário da distribuição a posteriori: Modelo M 6 - TMI - Parte I A.1 Ordenação dos índices dos coeficientes em relação aos estados B.1 Sumário da distribuição a posteriori: Modelo M 16 - SIDA - Parte II B.2 Sumário da distribuição a posteriori: Modelo M 16 - SIDA - Parte III B.3 Sumário da distribuição a posteriori: Modelo M 16 - SIDA - Parte IV C.1 Sumário da distribuição a posteriori: Modelo M 6 - TMI - Parte II C.2 Sumário da distribuição a posteriori: Modelo M 6 - TMI - Parte III C.3 Sumário da distribuição a posteriori: Modelo M 6 - TMI - Parte IV C.4 Sumário da distribuição a posteriori: Modelo M 6 - TMI - Parte V C.5 Sumário da distribuição a posteriori: Modelo M 6 - TMI - Parte VI iii

12 LISTA DE FIGURAS 3.1 Análise de Resíduos do Ajuste Final Média da Série de TMI por UF Gráficos de ACF de uma defasagem - TMI Análise de Resíduos do Ajuste Final Predição para os estados representativos de cada região - SIDA Predição para estados representativos de cada região - TMI iv

13 1 Capítulo 1 INTRODUÇÃO Neste trabalho estudamos os seguintes conjuntos de dados de painel: mortalidade infantil e óbito pela Síndrome da Imuno-Deficiência Adquirida (SIDA), ambos categorizados por unidade federativa. Propusemos diversos modelos para estes dados e estimamos todas as quantidades desconhecidas destes modelos através do enfoque bayesiano. Os dados apresentados foram retirados do banco de dados do DATASUS. Inicialmente, esperávamos associar os dados de mortalidade infantil a quatro variáveis explicativas - proporção da população servida por esgotamento sanitário, proporção da população servida por rede de abastecimento de água, renda média domiciliar e taxa de analfabetismo; quanto aos dados de óbito por SIDA, esperávamos associá-los a uma variável explicativa - incidência de SIDA. Primeiro apresentaremos a metodologia utilizada em nossas avaliações e posteriormente descreveremos a aplicação dos dados. 1.1 Séries de Dados A primeira série escolhida foi a taxa de mortalidade específica por SIDA do ano de 1990 a Ela conta o número de óbitos pela SIDA por habitantes na população residente em determinado espaço geográfico no ano considerado. Esta série estima o número de mortes associado à SIDA e dimensiona a magnitude da doença como problema de saúde pública, bem como retrata a incidência da doença na população, associada a fatores de risco principalmente comportamentais, como o uso de drogas injetáveis e práticas sexuais. Expressa também as condições de diagnóstico e qualidade de assistência médica dispensada, bem como o efeito de ações educativas e a adoção de medidas individuais de prevenção. Estamos usando esta série para analisar variações geográficas e temporais da mortalidade por SIDA em segmentos populacionais, identificando situações de desigualdade e tendências que demandem ações e estudos específicos. Tais dados são provenientes do Ministério da Saúde, da Secretaria de Vigilância à Saúde: Sistema de Informações sobre Mortalidade e base demográfica do Instituto Brasileiro de Geografia e Estatística. Vale ressaltar que de 1990 a 1995 há um grande aumento da mortalidade por SIDA em

14 2 todas as regiões. No período de 1995 a 2000 esta tendência se inverte, de modo que há redução em todas as regiões (excetuando a Norte), acompanhando a adoção da terapia medicamentosa com antiretrovirais e a implementação da poĺıtica nacional de distrbuição gratuita desses medicamentos. A segunda base de dados escolhida foi a Taxa de Mortalidade Infantil (TMI). Ela conta o número de óbitos de menores de um ano de idade, por (mil) nascidos vivos, em determinado espaço geográfico em determinado ano (entre 1997 e 2011), compreendendo a soma dos óbitos ocorridos nos períodos neonatal (0-6 dias), neonatal tardio (7-27 dias), e pós-neonatal (após 28 dias). Esta série procura estimar o risco de um nascido vivo morrer em seu primeiro ano de vida. A taxa de mortalidade pode ser considerada alta (50 ou mais), média (20-49), ou baixa (0-19), em função da proximidade ou distância de valores alcançados em sociedades mais desenvolvidas, refletindo, de maneira geral, baixos níveis de saúde, de desenvolvimento socioeconômico e de condições de vida. Nosso objetivo é analisar variações geográficas e temporais da mortalidade infantil, contribuindo na avaliação dos níveis de saúde e de desenvolvimento socioeconômico da população. É possível notar consistente tendência de redução da mortalidade infantil em todas as regiões brasileiras, que reflete no decĺınio da fecundidade nas últimas décadas e o efeito das intervenções públicas nas áreas de saúde e saneamento. Ainda assim, os valores médios continuam elevados, sobretudo nas regiões Norte e Nordeste. No capítulo 2 revisaremos conceitos, princípios e métodos de analisar conjuntos de dados. No capítulo 3 faremos estudos usando os métodos usados no capítulo anterior e, finalmente, no capítulo 4 avaliaremos nossa abordagem, bem como os resultados adquiridos através dela, no que concernem nossas bases de dados.

15 3 Capítulo 2 METODOLOGIA Neste capítulo revisaremos brevemente a inferência bayesiana, o métodos de Monte Carlo via cadeias de Markov, mínimos quadrados, modelos autorregressivos e critérios importantes para selecionar modelos. 2.1 Inferência Bayesiana Inferência é um conjunto de técnicas que tem por objetivo estudar uma população através de evidências fornecidas por uma amostra. A inferência bayesiana descreve as incertezas associadas a variáveis não observáveis de forma probabiĺıstica. De forma iterativa, as incerterzas são atualizadas após observações de novos resultados. A inferência bayesiana é proveniente da probabilidade a posteriori f(θ x), sendo esta proporcional à combinação entre a probabilidade a priori f(θ) e a função de verossimilhança l(θ x), que leva em consideração os dados observados. A equação referente seria f(θ x) l(θ x)f(θ). 2.2 Inferência Bayesiana Usando Monte Carlo via Cadeias de Markov A ideia básica de Monte Carlo via cadeias de Markov é construir uma cadeia de Markov cuja distribuição de equiĺıbrio é igual a distribuição de interesse, em nosso caso a distribuição a posteriori. Após a realização de um número finito de simulações desta cadeia, o objetivo é atingir a distribuição de equiĺıbrio, com isso dando origem a uma amostra de distribuição de interesse. Considerando que θ = (θ 1, θ 2,..., θ p ) possuem densidade conjunta π(θ) = (θ 1, θ 2,..., θ p ) e que q(θ, θ ) define a distribuição condicional em θ das transições do estado θ. Sendo com isso, possível a construção de um cadeia com probabilidades de transição invariantes no tempo, onde cada estado pode ser obtido de um outro estado com um número finito de iterações, podendo-se alcançar distribuição de equiĺıbrio.

16 Amostrador de Gibbs O amostrador de Gibbs é um dos métodos mais utilizados na construção da cadeia de Markov - proposto por Geman e Geman (1984) e popularizado por Gelfand e Smith (1990) - é um esquema de amostragem de uma Cadeia de Markov, cujas probabilidades de transição dos estados são realizadas a partir das distribuições condicionais completas. Seja π(θ) a distribuição de interesse, sendo θ = (θ 1, θ 2,..., θ p ). Deseja-se gerar uma amostra de π(θ) e supõe-se que esta geração é complicada para se realizar diretamente. Considerando π i (θ i ) = p i (θ i θ i ) como função densidade condicional de θ i, dados os valores de todos os outros θ j (j i), assumindo-se que é possível amostrar valores destas distribuições para cada i = 1, 2,..., p. Considere que dado um conjunto de valores iniciais θ (0) = (θ (0) 1, θ(0) 2,..., θ(0) p ), o algoritmo já esteja na j-ésima iteração da cadeia θ (j). Então, a posição da cadeia na iteração seguinte (j + 1) é obtida da seguinte forma: 1. Gera-se θ (j+1) 1 de π 1 (θ 1 θ (j) 2,..., θ(j) p ); 2. Gera-se θ (j+1) 2 de π 2 (θ 2 θ (j+1) 1, θ (j) 3,..., θ(j) p ); e 3. Repete-se sucessivamente os Passos 1 e 2 anteriores para i = 3, 4,..., p, onde no último passo gerase θ (j+1) p de π p (θ p θ (j+1) 1, θ (j+1) 2,..., θ (j+1) p 1 ), obtendo-se o vetor θ(j+1) = (θ (j+1) 1,..., θ (j+1) p ). Sob certas condições de regularidade (Tierney, 1994), a distribuição limite de θ (j) tende a π(θ) Critério de Convergência - BGR Abordaremos superficialmente o critério de convergência criado por Gelman e Rubin e posteriormente aperfeiçoado por Brooks e Gelman (1997) que citam passos para a geração de um diagnóstico de convergência de múltiplos fatores. Nos referimos a este critério como BGR. Passos (para cada parâmetro): 1. Gere m 2 cadeias de tamanho 2n de valores iniciais sobredispersos; 2. Descarte os primeiros n resultados de cada cadeia; 3. Calcule as variâncias dentro de cada cadeia e entre as cadeias; 4. Calcule a variância estimada como uma média ponderada entre a variância dentro de cada cadeia e a variância entre as cadeias

17 5 5. Calcule o fator de redução potencial de escala. sendo De modo que a variância dentro de cada cadeia é dada por de modo que s 2 j W = 1 m s 2 j = 1 n 1 m j=1 s 2 j n (θ ij θ j ) 2, i=1 é a fórmula para a variância da j-ésima cadeia. Portanto, W é a média das variâncias da cadeia. O W provavelmente subestima a variância verdadeira da distribuição estacionária, tendo em vista que as cadeias geradas provavelmente não alcançaram todos os pontos da distribuição estacionária. sendo A variância entre cadeias é dada por B = n m 1 θ = 1 m m (θ j θ) 2 j=1 m θ j. Temos que B é a variância das cadeias multiplicada por n, porque cada cadeia é constituída por n resultados. Podemos estimar a variância da distribuição estacionária através da média ponderada de W e B. V ar(θ) = j=1 ( 1 1 ) W + 1 n n B. Por causa da sobredispersão dos valores iniciais, este estimador da variância superestima a variância real, mas é não-tendenciosa conforme a distribuição inicial se iguala à distribuição estacionária. O fator de redução potencial de escala possui a forma V ar(θ) ˆR = W. Quando ˆR for alta, talvez ao superar 1,1, ou 1,2, devemos gerar mais valores para as cadeias de modo a aproximar suas convergência até que alcancem a distribuição estacionária. Caso tenhamos mais de um parâmetro, temos de calcular um fator de redução potencial de escala para cada parâmetro. Devemos rodar tantas iterações quanto forem necessárias para que todos fatores sejam pequenos o bastante. Deste modo nos será possível combinar todos os mn resultados de nossas cadeias para gerar uma cadeia para a distribuição estacionária.

18 Critério de Informação de Desvio O Critério de Informação do Desvio (do inglês DIC) é definido como: DIC = D(θ) + 2p D = D(θ) + p D, sendo p D = D(θ) D(θ), D(θ) = 2 ln(p(y θ)) e a função de verossimilhançṫemos também que D(θ) é a média a posteriori do desvio, D(θ) uma estimativa pontual do desvio obtida a partir da utilição da média a posteriori de θ, denotada por θ, e p D uma estimativa do número efetivo de parâmetros. O modelo que apresenta o menor DIC é considerado como aquele que melhor pode predizer um novo conjunto de dados com a mesma estrutura dos dados observados OpenBUGS O OpenBUGS é um programa criado para efetuar análises bayesianas de modelos estatísticos complexos usando Monte Carlo via cadeias de Markov (MCMC). Há uma grande literatura associada a análise bayesiana e MCMC, como pode ser encontrado em Carlin e Louis (1996), Gelman et al. (2014), Brooks (1998) e Gilks, Richardson, e Spiegelhalter (1996). Em seu manual, no capítulo 9 do auto-entitulado manual Classic BUGS, Tópicos em Modelagens discute prioris não-informativas, críticas de modelos, ranking, erros de medição, verossimilhanças condicionais, parametrização, modelos espaciais e mais, enquanto a documentação do Diagnóstico de Convergência e Análise de Produção (CODA) engloba diagnósticos de convergência. Congdon (2001) ensina a analisar uma extensa gama de modelos usando o OpenBUGS. Os usuários de OpenBUGS devem estar cientes dos métodos bayesianos via MCMC por trás do programa (Gilks et al., 1996). Tendo especificado o modelo como uma distribuição conjunta em todas as quantidades, sejam elas parâmetros ou observáveis, o objetivo torna-se amostrar valores das quantidades desconhecidas do modelo via sua distribuição a posteriori, dados seus nós estocásticos observados. OpenBUGS usa três famílias de algoritmos de MCMC: amostrador de Gibbs, algoritmo de Metropolis Hastings e (slice sampling). Vale mencionar que as práticas associadas às seções anteriores, bem como as presentes no manual supracitado, estão disponíveis no OpenBUGS. 2.3 Método dos Mínimos Quadrados O Método dos Mínimos Quadrados Ordinários (MQO) é uma técnica de otimização que visa buscar o melhor ajuste para um conjunto de dados em um modelo de regressão tentando minimizar a soma dos quadrados dos resíduos da diferença entre um conjunto de dados reais e suas estimativas, comumente utilizado em Econometria. Lembrando que são requisitos para este método que os erros sejam distribuídos aleatoriamente, independentes e identicamente distribuídos. O Teorema Gauss-Markov (Hayashi, 2000)

19 7 garante indiretamente que o estimador obtido através do MQO é não-tendencioso e possui a variância linear mínima na variável resposta. Nosso objetivo é explicar uma variável aleatória y através de uma regressão baseada em um vetor de tamanho r de variáveis explicativas x. Efetuaremos y = α + x β + ε sendo α: constante do modelo; β: vetor de parâmetros que servem de coeficientes das variáveis x; ε: o erro, a variação de y que não é explicada pelo modelo. Observamos então n valores de y, y = (y 1, y 2,..., y n ), e n valores do vetor de variáveis explicativas x, X = (x 1, x 2,..., x n ). Sabemos que as quantidades α, β e ε são não-observáveis, mas o método dos mínimos quadrados nos fornecerá uma boa estimativa sobre eles. Com efeito, mudaremos a notação das variáveis de modo que ao estimar o modelo usando a base de dados, estaremos estimando, na verdade y i = ˆα + x ˆβ i + ˆε i, onde i indica cada uma das n observações da base de dados e ˆε não é mais um erro, porém um resíduo da diferença entre y i e ŷ i, sendo ŷ i = ˆα + x ˆβ. i O estimador resultante do método dos MQO minimiza o erro quadrático médio (de fato, poderíamos, então, chamá-lo do melhor estimador linear não tendencioso, BLUE). Façamos: y i = ˆα + x ˆβ i + ˆε i, n S(ˆε i ) = ˆε 2 i. Nosso objetivo é minimizar S(ˆα, ˆβ) n = (ŷ i ˆα x ˆβ) i 2. Para minimizarmos o erro, derivaremos S(ˆα, ˆβ) em relação a ˆα e ˆβ e igualando-a a zero. i=1 i=1 S n ˆα = 2 (ŷ i ˆα x i ˆβ) 2 = 0 S = 2 ˆβ i=1 n (ŷ i ˆα x i ˆβ) 2 = 0 i=1

20 8 De modo que chegaremos a ˆα = y x ˆβ. onde y é a média amostral dos y i s e x é a média dos vetores amostral x i s. Substituindo o resultado encontrado para ˆα para encontrarmos ˆβ temos ˆβ = (X X) 1 X (y α1). 2.4 Séries Temporais Revisaremos nesta seção alguns conceitos de séries temporais. Princípios que não devemos violar, métodos que podemos utilizar e testes que devemos realizar para garantir que nosso modelo será bem ajustado e que caso insiramos componentes autorregressivas (veremos em subseção logo mais) estas não trarão problemas de má especificação ao modelo Estacionariedade Uma série temporal {y t } é dita estritamente estacionária se todas as distribuições de qualquer coleção finita de vetores aleatórios indexados no tempo permanecem as mesmas sob translações no tempo. Ou seja, temos todos os momentos - incluindo média, variância e covariância - constantes ao longo do tempo. Uma série temporal {y t } é dita estacionária de segunda ordem se a média e a variância são constantes ao longo do tempo, e se sua autocovariância e sua autocorrelação (termos definidos nas próximas subseções) dependem somente da defasagem (distância entre as observações) Autocovariância e Autocorrelação Se o modelo de série temporal, {y t }, é estacionário de segunda ordem, a função de autocovariância (FACV), γ k, é definida como uma função de defasagem k: γ k = E[(y t µ)(y t+k µ)], sendo µ o nível da série, ou seja, µ = E(y t ) e k a defasagem. A função de autocorrelação (FAC) de defasagem k é definida por: ρ k = γ k γ 0, sendo γ 0 a variância, γ 0 = Var(y t ), do processo gerador da série temporal e ρ 0 = 1.

21 9 A FAC amostralé um bom instrumento de avaliação para grau de dependência dos dados,fornecendo uma boa estimação para a função de autocorrelação da série temporal,neste caso supondo que os valores observados provém de uma série estacionária.. Sejam y 1,..., y n observações de uma série temporal de tamanho n. A média amostral de y 1,..., y n é dada por y = 1 n A função de autocovariância amostral é dada por: γ k = 1 n n k n y t. t=1 (y t+ k y)(y t y), para n < k < n, t=1 e a função de autocorrelação amostral por ρ k = γ k γ 0, para n < k < n Modelo Autoregressivo O modelo autoregressivo de ordem p é usado quando há autocorrelação entre as observações, ou seja, o processo autoregressivo é usado quando um valor de uma variável n o período t depende de seu valor no período anterior (t -1) e de um termo aleatório.a forma geral do modelo autoregressivo de ordem p denotado por AR é definido como: y t = µ + φ 1 y t 1 + φ 2 y t φ p y t p + ε t. Sendo que para cada t, assumimos y t 1, y t 2, y t 3,..., são independentes de ε t, pelo fato de y t incorporar todos os valores novos da série que não são explicados pelos valores passados. Um caso particular é o modelo autoregressivo de ordem 1, denotado por AR(1), que é definido como: y t = µ + φy t 1 + ε t, sendo ε t um erro aleatório do tipo ruído branco, isto é, independentes para todo t, com média 0 (zero) e variância constante. O processo AR(1), tem as seguintes funções de autocovariância: e e a seguinte função de autocorrelação: γ 0 = σ2 ε 1 φ 2 γ k = φk σ 2 ε 1 φ 2, ρ k = φ k para k = 1, 2, 3,...

22 Modelos de Defasagens Distribuídas A forma geral de um modelo linear de defasagens distribuídas é y t = β i x t i + ε t, i=0 onde qualquer mudança afetará E(y t ) nos períodos subsequentes. Por exemplo, imagine os pagamentos de dividendos de uma empresa qualquer, sejam estes (y t ) e veja como y t não depende apenas de lucros provenientes do período presente (x t ), como dos lucros provenientes de períodos anteriores (x t s ). O termo β i presente na equação é o i-ésimo coeficiente de reação e normalmente podemos assumir que lim i β i = 0 e i=0 β i = c. Podemos assumir que as mudanças em x t não devem ser de grande influência a y t após um período de tempo m, o que implicaria que que β i sumiria após a chegada de β m. Neste caso o modelo é reduzido a um modelo defasagens distribuídas finitas, para o qual o limite superior presente no somatório da forma geral do modelo linear de defasagens distribuídas é m. Veja aplicações destes modelos em Ravines, Schmidt, e Migon (2006). Consideraremos casos particulares destes modelos em nossas análises de dados Análise de Intervenção Por uma intervenção entendemos a ocorrência de um determinado evento E em dado instante de tempo T, conhecido a priori, onde tal ocorrência pode influenciar tanto temporariamente, como permanentemente a série estudada. A análise de intervenção tem por objetivo avaliar o impacto deste evento E no comportamento da série. Por Morettin e Toloi (2006), as séries indicadoras de intervenções podem ser representadas por dois tipos de variáveis binárias: Função degrau: Função impulso: S (T ) t = 0, se t < T ; x j,t = S (T ) t = 1, se t T. I (T ) t = 0, se t T ; x j,t = I (T ) t = 1, se t = T. É trivial notarmos que o efeito da função degrau é permanente, enquanto o efeito da função impulso é temporário. Uma classe geral de modelos que levam em conta a ocorrência de múltiplas intervenções é dada por y t = em que k ν j (B)x j,t + ε t j=1

23 11 x j,t, j = 1, 2,..., k são as variáveis de intervenção; ν j (B), j = 1, 2,..., k são funções racionais da forma ω j(b)b b j δ j (B), onde ω j (B) = ω j,0 ω j,1 B ω j,s B s e δ j (B) = 1 δ j,1 B δ j,r B r são polinômios em B, b j é a defasagem no tempo para o início do efeito da j-ésima intervenção e ε t é a série temporal livre do efeito das intervenções e é denominada série residual. Em geral, o efeito de uma intervenção é mudar o nível da série ou, então, a inclinação. Entretanto, há três fontes de ruídos que podem obscurecer o efeito da intervenção: 1. tendência; 2. sazonalidade; e 3. erro aleatório. O fato de existir tendência numa série pode levar a falsas conclusões. De fato, se esta existir e uma intervenção ocorrer no instante T, o fato do nível pós-intervenção ser maior do que o nível pré-intervenção pode ser devido simplesmente à tendência. Utilizaremos a análise de intervenção em uma das aplicações aos dados reais Teste Independência dos Resíduos: Ljung-Box O teste de Ljung-Box consiste em analisar as autocorrelações entre resíduos encontrados. A estatística Q do teste é verificada para testar se um determinado conjunto de autocorrelações de resíduos é estatisticamente diferente de zero. Esta estatística, sob a hipótese nula H 0 de que os resíduos não são autocorrelacionados, possui distribuição qui-quadrado com m graus de liberdade e é definida como: Q = n(n + 2) m k=1 ˆρ 2 k n k, onde n é o tamanho da amostra e m o número de defasagens. Em caso de independência dos resíduos, espera-se que as autocorrelações para qualquer defasagem sejam próximas de zero. Valores altos de pelo menos uma autoautocorrelação sugere dependência dos residuos, levando a rejeição da hipótese nula.

24 12 Capítulo 3 APLICAÇÃO Neste trabalho analisamos conjuntos de dados estruturados como dados de painel. Para isto, recorremos a modelos estatísticos envolvendo defasagens distribuídas, autoregressão ou intervenção. Estimaremos as quantidades desconhecidas dos modelos através do enfoque bayesiana. Temos por objetivo entender as séries de dados, explicar seus parâmetros e comportamentos e ser capazes de predizer suas próximas ocorrências. Escolhemos dois conjuntos de dados de interesse: 1. Taxa de mortalidade específica associada à SIDA; e 2. Taxa de mortalidade infantil. Ambos conjuntos são estão estruturados como dados de painel, observados em cada Unidade Federativa (UF) brasileira anualmente. As duas bases foram extraídas do banco de dados do DataSUS, bem como as variáveis explicativas a elas associadas. Em nossa notação nos referimos aos coeficientes, específicos de cada UF seguindo a ordem descrita na tabela A.1 do Apêndice 4.2. Para a primeira base de dados os anos variam de 1990 a 2008, ao qual nos referimos do ano 1 ao 19, e para o segundo conjunto de dados os anos variam de 1997 a 2011 e nos referimos de forma semelhante ao primeiro. A seguir, concentramos nossas análises em cada conjunto de dados separadamente. 3.1 Óbitos por Síndrome da Imuno-Deficiência Adquirida Analisamos aqui a série de óbitos provenientes de portadores de SIDA. Nossa base é referente ao período entre 1990 e Decidimos tentar explicar nossa série de interesse através de um conjunto de dados, também adquirido no DataSUS, que nos dá o número de casos de incidência de SIDA, também estruturado por UF anualmente. Abaixo disponibilizamos - a fim de introduzir a descrição dos dados - as médias por UF, de 1990 a 2008, das séries incidência e óbito por SIDA. Procuramos explicar a taxa de mortalidade específica por SIDA através do número de incidências de SIDA.

25 13 Média da Taxa de Incidência de SIDA 1990 a 2008 Média de TME por SIDA 1990 a 2008 [0,2.5] (2.5,5] (5,7.5] (7.5,10] (10,12.5] (12.5,15] (15,17.5] (17.5,20] (20,22.5] (22.5,25] (25,28] [0,2.5] (2.5,5] (5,7.5] (7.5,10] (10,13] (a) Média da Série de Incidência de SIDA por UF. (b) Média da Série de TME por SIDA por UF. Utilizando estatísticas descritivas e análise de regressão por mínimos quadrados descritos no capítulo 2, nossos estudos preliminares foram conduzidos para entender o comportamento de ambas as séries ao longo dos anos e por Unidade Federativa. Os resultados nos indicam que: Caso analisemos ao longo dos anos, veremos que até 1996 há tendência de crescimento na taxa de mortalidade específica, tendência que observamos inverter-se do ano seguinte em diante; Ainda analisando a taxa de mortalidade específica anualmente, podemos observar assimetria positiva associada à série, bem como o módulo da curtose caindo rapidamente com o tempo, indicando maior dispersão dos dados nos anos iniciais; Analisando o número de incidências, nota-se que o número de casos aumenta ao longo dos anos, tendência que não acompanha nossa variável de interesse, indicando que devemos inserir no modelo uma componente temporal para explicar o que esta variável não consegue; Agora observando nossas séries por estado, é possível perceber que há disparidades no comportamento das séries entre UFs, levando a crer que algumas delas (Rio de Janeiro, São Paulo, Santa Catarina, Rio Grande do Sul e Distrito Federal) estavam mais propícias que outras a abrigarem óbitos provenientes de portadores de SIDA que outras, tanto pela série de óbitos, como pela série de incidências;

26 14 Observando as correlações ano a ano, verificamos pelo valor alto que o número de óbitos está bem associado ao número de incidências; Observando as correlações UF a UF, podemos justificar a presença da componente temporal, pois alguns dos estados possuem baixa aderência entre as séries de dados caso observemo-as. Portanto, nossos primeiros modelos, de acordo com nossa interpretação dos dados, seguem distribuições Normal e t-student. Inicialmente testamos a t-student, mudando apenas os graus de liberdade a elas associados: dois, três, quatro e cinco graus de liberdade. Utilizamos o método dos mínimos quadrados descritos no capítulo 2, através do programa R, fizemos vários ajustes para obter as estimativas do modelo e estas são utilizadas como valores iniciais dos coeficientes dos parâmetros em nossos modelos descritos no OpenBUGS. Isto foi feito para ajudar na convergência das cadeias, ao realizarmos sucessivas simulações a fim de testar os modelos. Tal procedimento mostrou-se bastante útil e eficaz para esta aplicação. A estrutura do nosso modelo inicial é dado por y i,t = c i + β i x i,t + δ i t + ε i,t, i = 1, 2,..., 27 e t = 1, 2,..., 19, sendo y i,t a número de óbtidos, x i,t a incidência de SIDA, t a própria variável tempo utilizada para tentar captar a tendência linear ao longo dos anos e ε i,t erros aleatórios independentes e identicamente distribuídos com média e variância finitas e constantes. Os primeiros cinco modelos (M 1, M 2,..., M 5 ) só diferem na distribuição de ε i,t (normal e t-student com diferentes graus de liberdade). Para este modelo e os demais descritos abaixo, completamos a especificação com c i N (µ c, σ 2 c ) β i N (µ β, σ 2 β ) δ i N (µ δ, σ 2 δ ), para i = 1, 2,..., 27; priori normal com média 0 e variância para µ c, µ β e µ δ, e priori gama inversa com média 1 e variância 100 para σ 2 c, σ 2 β e σ2 δ. Como utilizamos o OpenBUGS para efetuar as simulações dos modelos propostos, geramos as t- Student através da mistura de escala: (y i,t µ i,t, λ) N (µ i,t, λ) e (λ ν, σ 2 ) GI( ν 2, νσ2 2 ) tal que (y i,t µ i,t, σ 2, ν) t ν (µ, σ 2 ) com µ i,t = c i + β i x i,t + δ i t. Ajustamos então estes modelos aos dados utilizando o OpenBUGS. Geramos 3 cadeias em paraelelo cada uma com iterações e descartamos as primeiras de cada. Utilizamos a critério BGR descrita no capítulo 2 e disponível no OpenBUGS para analisar a convergência das cadeias. Utilizamos este mesmo tipo de procedimento e análise para os demais modelos deste trabalho. O DIC para cada modelo pode ser visto na tabela 3.1. Os resultados inesperados pd associados aos modelos M 2 e M 3

27 15 Tabela 3.1: Comparação de modelos via DIC: dados de SIDA - Parte I. Modelo Distribuição de y i,t DIC pd M 1 N (µ i,t, σ 2 ) 1015,0 69,38 M 2 t 2 (µ i,t, σ 2 ) 1093,0-604,50 M 3 t 3 (µ i,t, σ 2 ) 1619,0-78,09 M 4 t 4 (µ i,t, σ 2 ) 1710,0 12,74 M 5 t 5 (µ i,t, σ 2 ) 1743,0 45,26 nos induziram a pensar que os modelos possivelmente teriam sido mal especificados, indicando que seria necessário mudá-los. Optamos por mudar ligeiramente a mistura Normal-Gama-Inversa, de modo que não mais faríamos a mistura usando um fator λ global, porém um fator λ i variando para cada UF, de modo a melhor adaptar-se a cada uma delas. A melhora foi inegável. Não apenas os pd deixaram de apontar problema de especificação de modelo, como os próprios DIC caíram. Agora, para os modelos M 6, M 7, M 8 e M 9, continuamos a ter distribuições t-student com 2, 3, 4 e 5 graus de liberdade para cada UF, ou seja, (y i,t µ i,t, λ i ) N (µ i,t, λ i ) e (λ i ν, σ 2 ) GI( ν 2, νσ2 2 ). Repetimos o procedimento de ajuste dos modelos anteriores. Utilizando o OpenBUGS, geramos iterações e descartamos as primeiras. Os resultados do DIC para estes diferentes modelos encontram-se na tabela 3.2. Então, usando o DIC como critério de seleção de modelos, já excluindo os Tabela 3.2: Comparação de modelos via DIC: dados de SIDA - Parte II. Modelo Distribuição de y i,t DIC pd M 6 t 2,i (µ i,t, σ 2 ) 1007,0 98,48 M 7 t 3,i (µ i,t, σ 2 ) 1325,0 98,85 M 8 t 4,i (µ i,t, σ 2 ) 1328,0 95,60 M 9 t 5,i (µ i,t, σ 2 ) 1331,0 94,42 modelos M 2 e M 3 por indícios de má especificação, pudemos selecionar os modelos M 1 e M 6 como os melhores modelos. Infelizmente, ao analisarmos os resíduos associados, verificamos que estes não

28 16 satisfizeram premissas do modelo: os erros apresentaram heterocedasticidade se observados ao longo do tempo, indicando dependência temporal e a necessidade da inclusão de uma variável autorregressiva. Como supracitado, os modelos M 1 e M 6 apresentaram melhores DIC e foram escolhidos para receber uma componente autorregressiva (ver modelo autoregressivo no capítulo 2) de uma defasagem para cada UF. O modelo segue agora a seguinte estrutura: y i,t = c i + β i x i,t + δ t t + θ i y i,t 1 + ε i,t, com as mesmas premissas sobre ε i,t, θ i < 1 para cada UF e θ i U( 1, 1) para i = 1, 2,..., 27. Repetimos o procedimento de gerar valores da distribuição a posteriori deste modelo utilizando o OpenBUGS. Novamente, diferindo entre eles apenas a distribuição. Na tabela 3.3 podemos ver o DIC para os dois modelos considerados. O DIC do modelo M 11 é o menor de todos. As análises dos resíduos dos modelos Tabela 3.3: Comparação de modelos via DIC: dados de SIDA - Parte III. Modelo Distribuição de y i,t DIC pd M 10 N (µ i,t, σ 2 ) 1181,0 81,05 M 11 t 2,i (µ i,t, σ 2 ) 1006,0 100,20 M 10 e M 11 apresentam boa especificação sem dependência em sua estrutura. Porém, ao observarmos os percentis 2.5% e 97.5% da estatística a posteriori dos modelos analisados, os coeficientes associados às variáveis explicativas e temporal apresentaram alta probabilidade de não serem significativos para todos os valores de β i e δ i. Isto poderia indicar que tanto o coeficiente β, como o coeficiente δ, ou até mesmo ambos, poderiam ser não-significativos. Então foram criados outros seis modelos: Os modelos M 12 (normal) e M 15 (t 2 ) seguem a estrutura: y i,t = c i + β i x i,t + θ i y i,t 1 + ε i,t ; os modelos M 13 (normal) e M 16 (t 2 ) a estrutura: y i,t = c i + δ i t + θ i y i,t 1 + ε i,t ; e os M 14 (normal) e M 17 (t 2 ) a estrutura: y i,t = c i + θ i y i,t 1 + ε i,t ; cada par de modelos diferindo apenas em distribuição.

29 17 Mais uma vez, utilizando o OpenBUGS, geramos 3 cadeias com iterações da distribuição a posteriori dos modelos e descartamos as iterações. A tabela 3.4 traz os valores do DIC dos ajustes dos modelos M 12 a M 17. O que nos leva a descartar modelos com distribuição Normal devido Tabela 3.4: Comparação de modelos via DIC: dados de SIDA - Parte IV. Modelo Distribuição de y i,t DIC pd M 12 N (µ i,t, σ 2 ) 1263,0 59,17 M 13 N (µ i,t, σ 2 ) 1221,0 68,56 M 14 N (µ i,t, σ 2 ) 1327,0 32,55 M 15 t 2,i (µ i,t, σ 2 ) 1015,0 85,61 M 16 t 2,i (µ i,t, σ 2 ) 1009,0 90,61 M 17 t 2,i (µ i,t, σ 2 ) 1051,0 64,53 aos altos valores do DIC. As estatísticas a posteriori de cada um dos modelos apresentava coeficientes não significativos, indicando que a presença da variável explicativa atrapalhava a variável temporal e vice-versa. Os resultados indicavam que a variável regressiva deveria ser excluída e o modelo a ser adotado deveria ser o M 16, mas decidimos testar duas classes de modelos antes de descartar uma variável explicativa e apontar que a série estudada seria capaz de explicar a si própria, dependendo de seus valores anteriores. Introduzimos à série de dados duas estratégias: Modelos com defasagem distribuída; e Modelos com variáveis de intervenção. Três modelos foram criados: o primeira com uma defasagem distribuída, o segundo com duas defasagens distribuídas e o terceiro é um modelo com uma variável de intervenção, dado que, como visto na estatística descritiva, pudemos ver mudanças na tendência da variável a ser explicada. Seguem os modelos: M 18 : y i,t = c i + β 1,i x i,t + β 2,i x i,t 1 + δ i t + ε i,t M 19 : y i,t = c i + β 1,i x i,t + β 2,i x i,t 1 + β 3,i x i,t 2 + δ i t + ɛ i,t M 20 : y i,t = c i + β 1,i x i,t + β 2,i d t + δ i t + θ i y i,t 1 + ε i,t,

30 18 sendo d t = 0 para t = 1,..., 6 e d t = 1 para t = 7,..., 19. Evitamos criar modelos com muitas defasagens distribuíıdas, pois nossa série de dados é relativamente curta. Estes modelos foram também implementados no OpenBUGS. Geramos 3 cadeias com iterações e descartamos as primeiras. Para os modelos acima, a tabela 3.5 mostra os respectivos DICs. Tabela 3.5: Comparação de modelos via DIC: dados de SIDA - Parte V. Modelo Distribuição de y i,t DIC pd M 18 t 2,i (µ i,t, σ 2 ) 1437,0 62,85 M 19 t 2,i (µ i,t, σ 2 ) 1255,0 67,01 M 20 t 2,i (µ i,t, σ 2 ) 999,2 112,00 Apesar do modelo M 20 ter apresentado menor DIC, os coeficientes associados as covariáveis x i,t e d t mostraram ser não-significativos com uma probabilidade alta para regiões perto do zero. Por isto, estes modelos confirmaram nossas suspeitas de que nos seria melhor explicar a taxa de mortalidade específica por portadores de SIDA através da própria série de dados. Ficamos então com o modelo M 16 tendo em vista que, dados as análises completas, apresenta DIC baixo comparado aos demais, coeficientes significativos, resíduos não correlacionados (teste de Ljung-Box) e homocedasticidade via análise gráfica dos resíduos como por exemplo a figura Figura 3.1: Análise de Resíduos do Ajuste Final.

31 19 Relembramos aqui que o modelo M 16 é dado por y i,t = c i + δ i t + θ i y i,t 1 + ε i,t como modelo de mistura de escala tal que y i,t t 2 (µ i,t, σ 2 ). A tabela 3.6 e as tabelas B.1, B.2 e B.3 do apêndice B trazem o resumo da distribuição a posteriori: média, desvio padrão, percentis de 2.5%, 50% e 97.5%. Tabela 3.6: Sumário dos parâmetros da distribuição posteriori do modelo final M 16 usado para taxa de mortalidade por SIDA. Parâmetro Média D. Padrão 2,5% Mediana 97,5% µ c 0,8669 0,1526 0,5897 0,8601 1,1870 σc 2 0,3466 0,1759 0,1100 0,3123 0,7809 µ δ 0,0453 0,0163 0,0137 0,0451 0,0781 σδ 2 0,0047 0,0020 0,0019 0,0043 0,0099 σ 2 0,2200 0,0476 0,1391 0,2159 0,3243 Nós interpretamos os parâmetros da seguinte forma: c i sendo a propensão inicial associada a cada UF de haver óbitos relativos a portadores de SIDA; δ i sendo a tendência temporal associada a cada UF; e θ i sendo a influência do volume de óbitos no tempo anterior associada a cada UF em determinado instante de tempo. 3.2 Mortalidade Infantil Após a conclusão da análise da primeira base de dados na seção 3.1, começamos nossos estudos sobre a segunda base de dados - a taxa de mortalidade infantil. Nossa base é referente ao período entre 1997 e Decidimos tentar explicar nossa série de interesse através de quatro conjuntos de dados, também adquiridos no DataSUS, que nos dão: 1. o índice de analfabetismo associado a cada UF, ano a ano;

32 20 2. a proporção da população servida por esgotamento sanitário; 3. a proporção da população servida por rede de abastecimento de água; e 4. a renda média domicilar per capita. Estes dados também estão estruturados por UF anualmente. Abaixo iremos, como na análise anterior, disponibilizar as médias das quatro variáveis explicativas, bem como a média da variável resposta. Todos os cinco gráficos nas figuras?? e 3.2 contemplarão o período de 1997 a 2011.

33 21 Média da Taxa (%) de Analfabetismo 1997 a 2011 Média da Pop. servida por Esgot. Sanit a 2011 [0,5] (5,10] (10,15] (15,20] (20,25] (25,30] (a) Me dia da Se rie de Analfabetismo por UF. Média da População servida por Água 1997 a 2011 [0,20] (20,40] (40,60] (60,80] (80,100] (b) Me dia da Se rie de PSES por UF. Média da Renda Domiciliar per capita 1997 a 2011 [0,20] (20,40] (40,60] (60,80] (80,100] [0,200] (200,400] (400,600] (600,800] (800,1000] (1000,1200] (1200,1400] (c) Me dia da Se rie de PSAA por UF. (d) Me dia da Se rie de Renda por UF.

34 22 Média da Taxa de Mortalidade Infantil 1997 a 2011 [0,10] (10,20] (20,30] (30,40] Figura 3.2: Média da Série de TMI por UF. E abaixo encontram-se alguns gráficos - relativos ados dados sobre a proporção da população servida por abastecimento de água - que mostram a função de autocorrelação que estuda uma defasagem. Este comportamento está presente em quase todas as UF. Estudos preliminares utilizando estatísticas descritivas e análise de regressão via mínimos quadrados ponderados foram conduzidos para entender o comportamento de cada série ao longo dos anos e por UF. Os resultados nos indicam que: a função de autocorrelação relativa à base terceira variável explicativa apresentou sazonalidade - o que somado ao fato de não ter se mostrado significativa ao descrever nossa variável de interesse, nos levou a excluí-la; Como para a base de dados anterior, utilizamos o método dos mínimos quadrados para obter estimativas iniciais sobre os os parâmetros a serem utilizados em nossos modelos para ajudar na convergência das cadeias de Markov referente as nossas distribuições a posteriori. De fato, adotaremos a mesma metodologia usada anteriormente. Usaremos novamente o OpenBUGS para ajustar nossos modelos e o DIC para fazer comparação dos ajustes dos modelos. Usaremos modelos Normal e t-student com três, quatro, cinco e dez graus de liberdade. Dado estas especificações para a distribuição de y i,t, definimos os modelos M 1 a M 5 da seguinte forma: y i,t = c i + β 1,i x 1,i,t + β 2,i x 2,i,t + β 3,i x 3,i,t + β 4,i t + ε i,t, diferindo entre eles apenas suas distribuições. Temos y i,t a TMI, x 1,i,t o índice de analfabetismo, x 2,i,t a proporção da população servida por esgotamento sanitário e x 3,i,t a renda média domicilar per capita.

35 23 x_i x_i lag lag 1 (a) Espírito Santo. (b) Minas Gerais. x_i x_i lag lag 1 (c) Pará (d) Rio Grande do Norte. x_i x_i lag lag 1 (e) Rio Grande do Sul. (f) Santa Catarina. Figura 3.3: Gráficos de ACF de uma defasagem - TMI.

36 24 Para todos os modelos nesta aplicação da TMI, completamos a especificação com c i N (µ c, σc 2 ) β 1,i N (µ β1, σβ 2 1 ) β 2,i N (µ β2, σβ 2 2 ) β 3,i N (µ β3, σβ 2 3 ), para i = 1, 2,..., 27; priori normal com média 0 e variância para µ c, µ β1, µ β2 e µ β3, e priori gama inversa com média 1 e variância 100 para σc 2, σβ 2 1, σβ 2 2 e σβ 2 3. Seguimos os passos anteriores e implementamos estes modelos no OpenBUGS. Daí, também geramos 3 cadeias com iterações cada e descartamos as primeiras de cada uma. Fizemos as análises de convergência pertinentes via gráficos e estatística de convergência BGR. A tabela 3.7 exibe os DICs para estes modelos ajustados aos dados de TMI. Tabela 3.7: Comparação de modelos via DIC: dados da taxa de mortalidade infantil - Parte I. Modelo Distribuição de y i,t DIC pd M 1 N (µ i,t, σ 2 ) 1226,0 112,80 M 2 t 3 (µ i,t, σ 2 ) 1163,0 49,43 M 3 t 4 (µ i,t, σ 2 ) 1221,0 108,00 M 4 t 5 (µ i,t, σ 2 ) 1238,0 125,10 M 5 t 10 (µ i,t, σ 2 ) 1243,0 129,60 Aqui temos µ i,t = c i + β 1,i x 1,i,t + β 2,i x 2,i,t + β 3,i x 3,i,t + β 4,i t. Já possuindo a experiência adquirida do estudo da base de dados anterior, decidimos substituir o λ global por λ i s por UF, de forma a deixar o modelo mais flexível. Assim criamos os modelos M 6 a M 9. Rodamos as devidas iterações, analisamos convergência e obtemos os DICs apresentados na tabela 3.8. Os modelos M 6, M 7 e M 8 mostraram-se igualmente satisfatórios, tendo em vista que distâncias de até 5 entre o DIC de modelos diferentes indicam que os mesmos ajustaram-se igualmente bem. Sabendo que os resíduos comportaram-se bem e as variáveis foram significativas, todos os modelos, de M 1 a M 9, dependem apenas do DIC para a escolha. Sendo assim, escolhemos o modelo M 6, por ter apresentado o melhor DIC dentre os verificados, apesar da maior penalização por parâmetros pd. Usaremos este modelo para explicar a taxa de mortalidade infantil.

37 25 Tabela 3.8: Comparação de modelos via DIC: dados da taxa de mortalidade infantil - Parte II. Modelo Distribuição de y i,t DIC pd M 6 t 3 (µ i,t, σ 2 ) 1057,0 147,46 M 7 t 4 (µ i,t, σ 2 ) 1058,0 144,90 M 8 t 5 (µ i,t, σ 2 ) 1060,0 142,60 M 9 t 10 (µ i,t, σ 2 ) 1076,0 135,30 Na figura 3.4 abaixo segue a análise gráfica dos resíduos Figura 3.4: Análise de Resíduos do Ajuste Final. A tabela 3.9 e as tabelas C.1, C.2, C.3, C.4 e C.5 do apêndice C trazem o resumo da distribuição a posteriori: média, desvio padrão, percentis de 2.5%, 50% e 97.5%. Nós interpretamos os parâmetros da seguinte forma: c i sendo a propensão inicial associada a cada UF da ocorrência de óbitos de menores de um ano de idade; β 1,i sendo a influência do índice de analfabetismo associada a cada UF;

38 26 Tabela 3.9: Sumário dos parâmetros da distribuição posteriori do modelo final M 6 usado para TMI. Parâmetro Média D. Padrão 2,5% Mediana 97,5% µ β1 0,0071 0,0406-0,0729 0,0070 0,0873 σβ 2 1 0,0429 0,0126 0,0247 0,0407 0,0739 µ β2 0,0076 0, ,0686 0,0076 0,0838 σβ 2 2 0,0401 0,0118 0,0232 0,0381 0,0690 µ β3 0,3821 0, ,1991 0,3804 0,5683 σβ 2 3 0,1287 0,0493 0,0612 0,1195 0,2499 µ β4-1,0870 0,1236-1,3340-1,0860-0,8461 σβ 2 4 0,3723 0,1209 0,1999 0,3518 0,6658 µ c 22,5000 2, , , ,5900 σc 2 80, , , , ,5000 σ 2 0,3216 0,0643 0,2122 0,3162 0,4638 β 2,i sendo a influência do serviço de esgotamento sanitário associada a cada UF; β 3,i sendo a influência da renda média domiciliar per capita associada a cada UF; e β 4,i sendo a tendência temporal associada a cada UF.

39 27 Capítulo 4 CONSIDERAÇÕES FINAIS Neste trabalho pudemos trabalhar abordagens que facilitam a análise bayesiana em dados estruturados como painéis. Trabalhamos com diversos modelos buscados na literatura, usando princípios, testes e critérios estudados nos cursos de graduação. A inferência pode ser realizada através do algoritmo de MCMC de modo simples usando o programa OpenBUGS. Para os dois conjuntos de dados - SIDA e TMI - fizemos a análise bayesiana dos modelos utilizando prioris vagas para os hiperparâmetros. A utilização de valores iniciais obtidos via análise de regressão por mínimos quadrados ajudaram as cadeias a convergirem mais rapidamente para as distribuições de interesse. 4.1 Óbitos por Síndrome da Imuno-Deficiência Adquirida Observando as informações da distribuição a posteriori concluímos que as regiões Sul, Sudeste e Centro- Oeste, com a adição dos estados de Roraima e Pernambuco, estão mais propensos do que os demais a abrigarem óbitos associados a portadores de SIDA. Isto pode estar associado a subnumeração de casos nos demais estados. Podemos ver que Rio Grande do Sul e Santa Catarina são os dois estados com maior propensão a abrigar tais óbitos. No que concerne a tendência temporal, podemos perceber que Rio Grande do Norte, Minas Gerais, Rio de Janeiro, São Paulo e Distrito Federal estão com tendência temporal negativa, ou seja, o volume de óbitos associados a estas UFs está caindo com o tempo, possivelmente fruto de medidas educativas e assistencialistas para conter o surto da doença. Os demais estados possuem tendência positiva, ou seja, crescente, sendo Roraima e Rondônia os estados com maior crescimento de número de óbitos ao longo dos anos e Rio de Janeiro o estado com maior queda. Por último, analisando a influência da própria variável no tempo anterior, nota-se que Rio de Janeiro, São Paulo, Rio Grande do Sul, Distrito Federal e Santa Catarina são extremamente dependentes de suas ocorrências no tempo anterior, valendo ressaltar que os dois primeiros estados possuem seus respectivos operadores de defasagem superiores a 0,9. Retiramos um ano de nossa base de dados, o ano de 2008, refizemos o ajuste do modelo M 16 e realizamos uma previsão dois passos à frente, comparando com valores reais, dado que previamente possuíamos os dados sobre o ano de Escolhemos gráficos de UFs, incluindo conturbadas UFs que apresentaram alta correlação entre seus resíduos em modelos anteriores, para serem expostos aqui, de

Exibir mais