Ajuste do modelo de regressão linear: Inferência Bayesiana, aspectos computacionais e seleção de variáveis.

Transcrição

1 Ajuste do modelo de regressão linear: Inferência Bayesiana, aspectos computacionais e seleção de variáveis. João Daniel Nunes Duarte a, Vinícius Diniz Mayrink b a Estudante de Graduação, joaodaniel@ufmg.br b Professor Adjunto, Departamento de Estatística, UFMG, vdm@est.ufmg.br Introdução O crescente desenvolvimento computacional tem contribuído para expandir o uso da regressão. Construir uma regressão linear é em geral um procedimento iterativo, onde etapas de inclusão/remoção de variáveis são cumpridas até que um bom ajuste para o conjunto de dados seja alcançado. Este desenvolvimento computacional também permitiu que novas técnicas fossem consideradas; por exemplo, nas últimas décadas temos a utilização de métodos MCMC para gerar valores da distribuição a posteriori em uma abordagem Bayesiana para modelos estatísticos. Ver Gamerman e Migon (1999). Neste trabalho iremos explorar diversos aspectos do ajuste de modelos de regressão linear tomando como base o ponto de vista Bayesiano. Inicialmente, investigaremos o comportamento do método Gibbs Sampling, em termos de autocorrelação das cadeias, diante de diferentes esquemas de amostragem que agrupam os parâmetros em blocos. Além disso, iremos assumir misturas como distribuições a priori para os coeficientes, buscando assim realizar a seleção de variáveis no contexto de regressão múltipla. Neste caso, diferentes configurações de misturas são considerandas, o que inclui: (i) componente cuja distribuição é degenerada em zero e (ii) componentes Gaussianas com diferentes magnitudes de variâncias. Em uma análise hierárquica, exploramos também distintas distribuições a posteriori para a probabilidade relacionada a cada componente das misturas propostas. As análises são desenvolvidas para dados simulados e reais e os resultados do ajuste Bayesiano são comparados com aqueles obtidos através da inferência clássica. 1. Inferência Bayesiana e o MCMC Grande parte dos cálculos de distribuições a posteriori envolve integrais de ordem elevada, o que impõe dificuldades computacionais. Visando simplificar esta tarefa, foram desenvolvidos diversos algoritmos que aproximam estes cálculos. O método Monte Carlo Markov Chain (MCMC) está envolvido em grande parte destes algoritmos ver Gamerman e Lopes (2006) inclusive no que utilizamos no trabalho: o Gibbs Sampler. Seu funcionamento é simples. Primeiro, obtemos todas as distribuições condicionais completas a distribuição de um parâmetro condicional em todos os outros parâmetros envolvidos. Estas distribuições devem ser conhecidas, pois o próximo passo é amostrar de uma delas, atribuindo valores iniciais aos outros parâmetros. Amostrase de todas elas utilizando os valores gerados das distribuições condicionais completas de cada parâmetro. O primeiro passo é concluído quando se tiver amostrado um valor de cada parâmetro. Este passo é repetido até que as cadeias de valores amostrados para os parâmetros tiverem convergido. Para mais informações ver Albert (2007). A inferência é feita utilizando a parte da cadeia posterior à convergência. Por tanto, para estimar os parâmetros, removemos o pedaço da cadeia an- 13 a Escola de Modelos de Regressão 24 a 27 de fevereiro de 2013

2 terior à sua convergência, que chamamos de burnin. Utilizamos o R para realizar os cálculos de MCMC, e geramos um programa com diversas opções, que serão explicadas na seção seguinte; como estimação individual ou em blocos, e com ou sem seleção de variáveis. 2. Modelo de regressão linear Da mesma forma que aplicamos a Inferência Bayesiana na estimação dos parâmetros de uma distribuição Normal, podemos utilizá-la para inferir os parâmetros de um modelo linear. O foco do trabalho é explorar as possibilidades da Inferência Bayesiana nesse tipo de modelo. Podemos construir e estimar o modelo linear de duas maneiras, como mostramos a seguir Amostragem individual dos coeficientes Existem duas maneiras de se escrever o modelo linear. Uma delas apresenta os coeficientes separadamente, assim como as covariáveis. A outra agrupa os coeficientes em um vetor, e as covariáveis em uma matriz, que denominamos matriz de experimento. Se considerarmos a primeira forma do modelo linear, aonde cada coeficiente aparece separadamente, para realizar os cálculos de distribuição a posteriori, vamos chegar a uma fórmula de parâmetro a posteriori para cada um deles. Desta forma, no MCMC, vamos amostrar cada coeficiente separadamente de uma distribuição univariada Amostragem conjunta dos coeficientes Utilizando a forma conjunta, os coeficientes do modelo ficam agrupados em um vetor. O cálculo dos parâmetros a posteriori também resultará em um vetor, e no MCMC, vamos amostrar os coeficientes de uma única distribuição multivariada. O cálculo da variância a posteriori continua sendo feito de uma distribuição separada. Ele não foi incluso no bloco, junto com os coeficientes, pois sua distribuição a priori e sua verossimilhança pertencem à outra família de distribuições: a Gama Inversa. Portanto, na estimação dos parâmetros utilizando o MCMC, enquanto no caso individual vamos ter que amostrar de uma distribuição Normal para cada coeficiente, no caso conjunto vamos amostrar os coeficientes a posteriori de uma Normal multivariada, e a variância de uma Gama Inversa, independente do número de coeficientes Estimação dos parâmetros Vamos estimar os parâmetros a partir das cadeias geradas pelo MCMC. Essa estimação deve levar em conta apenas a parte da cadeia posterior à sua convergência. Ou seja, devemos desconsiderar o burn-in da cadeia. Para identificar o ponto de convergência, precisamos analisar o gráfico da cadeia. Isso pode se tornar muito trabalhoso se o número de parâmetros for elevado. Uma alternativa é plotar a imagem de uma matriz contendo nas linhas os parâmetros e nas colunas as iterações do MCMC. Desta forma, podemos identificar de maneira visual, e em um único gráfico, o ponto inicial que devemos considerar. column beta_2 beta_1 beta_ row Figura 1: Gráfico da matriz de simulação. A variação de cor indica que o parâmetro ainda não convergiu. Definido este ponto, podemos escolher medidas para realizar a estimação, como a média ou a mediana, e calcular os valores estimados dos parâmetros

3 2.4. Comparação dos esquemas de amostragem: Autocorrelação Os diferentes esquemas de amostragem apresentados levam a cadeias com propriedades diferentes. A amostragem individual apresenta uma autocorrelação muito maior entre as observações na cadeia, que na amostragem conjunta. Utilizamos uma medida de autocorrelação para calcular o tamanho efetivo das cadeias. Esta medida foi utilizada por Mayrink (2009). O tamanho efetivo calculado representa a massa de dados útil da cadeia, ou seja, descontando a autocorrelação presente nos dados. Ele é calculado dividindo-se o tamanho da amostra pelo dn eff, apresentado abaixo: ACF Lag dn eff = L ˆρ i, i=1 onde ˆρ i é a autocorrelação estimada para o lag i. Calculamos essa medida para os dois esquemas de amostragem, utilizando dados simulados. O tamanho efetivo utilizando a amostragem individual foi próximo de 10% do total da amostra, enquanto que para a amostragem conjunta esse valor ficou em próximo de 90%. Isso mostra que a autocorrelação é realmente menor na amostragem conjunta. ACF Seleção de variáveis Lag É comum a prática da seleção de variáveis em modelos lineares, principalmente naqueles com muitas covariáveis. Na inferência Clássica, diversos procedimentos, com critétios de seleção diferentes, já foram propostos para este problema que é trabalhoso; em geral, as covariáveis são removidas uma a uma, e medidas de qualidade do modelo são usadas para decidir quais covariáveis devem entrar e quais devem ficar fora. A Inferência Bayesiana permite que automatizemos esse processo, atribuindo uma mistura de distribuições a priori, de forma que a variável pode ter coeficiente zero (não fazer parte do modelo), ou ter uma determinada distribuição. As estimativas de probabilidades das misturas vão indicar se as variáveis entram ou não no modelo. Figura 2: Gráficos de ACF para as cadeias de um parâmetro. Superior cadeia amostrada individualmente, inferior cadeia amostrada cojuntamente Misturas a priori com componente degenerada Uma maneira de construir as misturas a priori é utilizando uma componente degenerada. Neste caso, a mistura terá uma componente com probabilidade p que terá distribuição a priori Normal, e outra componente, com probabilidade 1 p, que terá distribuição degenerada em zero. β (1 p)δ 0 (β) + (p)n(0, τ) A estimativa a posteriori da probabilidade p 3

4 irá indicar a presença ou ausência da variável no modelo. Quando geramos de uma mistura com componente degenerada, vamos estar forçando um valor, quando esta componente for utilizada. Ou seja, vamos encontrar o valor exato do zero na cadeia diversas vezes Misturas a priori com componentes Gaussianas Outra possibilidade é utilizar uma mistura com as duas componentes Normais. Uma componente será a mesma componente Normal do caso anterior, de onde iremos amostrar se acreditamos que a variável está presente no modelo. A outra componente Normal, terá uma variância muito pequena, de forma que seus valores não serão exatamente zero, mas estarão muito próximos dele. β (1 p)n(0, τ 0 ) + (p)n(0, τ 1 ) Neste caso, teremos dois tipos de valores nas cadeias: (i) valores gerados da componente que indica a presença da variável, e estarão espalhados em torno do valor real; e (ii) valores gerados da componente que indicam a ausência da variável no modelo, e estarão espalhados bem próximos do zero Estimação e comparação Para realizar a estimação dos parâmetros utilizando a seleção de variáveis, vamos precisar verificar quais variáveis entram e quais ficaram de fora do modelo. Para isso, vamos precisar estimar as probabilidades de cada mistura. Caso ela seja maior que 0.5, vamos considerar que entrou no modelo, e para fazer sua inferência, vamos excluir da cadeia os valores que representam o zero da mistura. Caso ela seja menor que 0.5, vamos considerar que não entrou no modelo, e o valor do parâmetro é zero. 4. Dados reais Para a análise de dados reais, vamos utilizar a base Hald, disponível no pacote BAS do R, que foi proposto por Hald (1952) e analisado por Draper e Smith (1981). A variável resposta foi transformada, sendo subtraida da média. Isso foi feito para que não fosse preciso atribuir uma a priori para o intercepto que não fosse centrada em zero. O método stepwise utilizando o modelo linear clássico indicou dois candidatos a melhor modelo: Y X1 + X2 e Y X1 + X4. As variáveis X2 e X4 são muito correlacionadas, e por isso é razoável que esses dois modelos apresentem comportamento semelhante. O método de seleção de variáveis automático proposto utilizando o modelo Bayesiano indicou que as variáveis que devem entrar no modelo são X1 e X4, concordando com o método stepwise. Como o stepwise considerou este modelo um dos melhores, adotamos ele para comparação com o Bayesiano. A Tabela 1 mostra algumas medidas comparativas entre os dois modelos. Medida Clássico Bayesiano SSR R R 2 ajustado Tabela 1: Medidas comparativas entre os modelos lineares clássico e Bayesiano. Podemos ver que o desempenho do modelo Bayesiano foi superior ao modelo clássico, tanto pela medida da soma dos quadrados dos resíduos (SSR), como pelo R 2. Acrescentamos ainda a favor do modelo Bayesiano o fato de que a seleção de variáveis foi feita de forma automática. 5. Conclusões Analisando dados simulados, concluímos que a amostragem conjunta apresenta uma autocorrelação muito inferior à amostragem individual. Entretanto, gerar de uma distribuição multivariada envolve operações matriciais que tornam o processo lento computacionalmente. Deve-se definir, para cada caso, se a prioridade é a baixa autocorrelação, ou o gasto computacional inferior, para se eleger a melhor forma de amostrar. A analise dos dados reais nos mostrou que o uso de misturas a priori para selecionar as 4

5 variáveis do modelo de forma automática demonstrou um bom desempenho, igualando-se aos métodos clássicos de seleção de variáveis, como o stepwise. Podemos perceber através das medidas de qualidade do modelo, que não existe um ganho na capacidade preditiva. Entretanto, o ganho vem na forma de novas ferramentas, como: (i) a possibilidade de adicionar conhecimento prévio ao modelo através das distribuições a priori; (ii) a seleção automática de variáveis através do uso de misturas nas distribuições a priori; sem que haja perda da capacidade preditiva do modelo. Referências Albert, J., Bayesian Computation with R. UseR! Springer New York. Draper, N. R., Smith, H., Applied Regression Analysis, 2nd Edition. Wiley, New York. Gamerman, D., Lopes, H. F., Markov Chain Monte Carlo: Stochastic Simulation for Bayesian Inference, 2nd Edition. CRC Text in Statistical Science. Chapman & Hall. Gamerman, D., Migon, H. S., Statistical Inference: An Integrated Approach, 1st Edition. CRC Text in Statistical Science Series. Chapman & Hall. Hald, A., Statistical Theory with Engineering Applications. Wiley, New York. Mayrink, V. D. Gamerman, D., On computational aspects of bayesian spatial models: Influence of the neighboring structure in the efficiency of mcmc algorithms. Computational Statistics 24 (4),