Previsão de Tendência do Índice de Inflação Regional por meio de Modelos Estatísticos Multivariados Alexandre Campos Gomes de Souza (UFPR) alexandrecgs@gmail.com Resumo O objetivo deste trabalho é comparar a performance de modelos estatísticos multivariados de previsão de tendência do índice de inflação regional, a saber: regressão múltipla, regressão logística e análise discriminante. A variável cuja tendência será objeto de previsão será o IPCA calculado pelo IBGE para a Região Metropolitana de Curitiba(PR). A análise de performance dos modelos foi efetuada a partir das taxas de acerto dos reconhecimentos de cada modelo aos valores observados, resumidamente apresentados em uma Matriz de Classificação. O método com melhor performance foi a regressão logística com 71,4% de acerto, tendo como variáveis preditoras os preços administrados e o IPCA, ambas defasadas em 1 mês. Palavras-chave: Previsão; Inflação; Métodos Estatísticos Multivariados 1.Introdução O objetivo principal deste artigo é o de avaliar ferramentas econométricas que possam colaborar com a análise de conjuntura econômica regional, em especial, na realização de previsões de variáveis chaves. Uma das questões mais elementares concernente ao esforço de realizar previsões econômicas é avaliar, dadas as informações de conjuntura regional, se o índice de inflação local do mês seguinte será maior ou menor ao valor observado do mês corrente. É um exercício de natureza eminentemente prática, muitas vezes realizadas ao sabor de métodos intuitivos e não exatamente científicos, após extensiva e exaustiva análise da conjuntura regional e nacional. Nos esforços aqui despendidos buscamos centrar nossas previsões a partir de variáveis preditoras que compõem o próprio índice de inflação, notadamente seus componentes defasados, todos defasados em 1 período. Foram realizadas diversas simulações onde variáveis preditoras foram alteradas de tal modo a observar a efetividade de cada previsão, assim como a significância dos respectivos modelos.ressaltamos que uma das contribuições do artigo é utilizar e avaliar métodos de previsão de inflação, mas que usualmente são utilizados em outros campos da economia, como previsão de insolvência de empresas. Assim, pelos resultados obtidos concluímos como bastante promissor o uso das técnicas multivariadas utilizadas. 2. Descrição das Técnicas Utilizadas 2.1. Regressão Múltipla 1
O modelo de regressão múltipla assume que a variável dependente Yi tem uma função linear com uma série de variáveis independentes Xi mais um termo de erro estocástico, conforme segue: Yi = f (X 1, X 2...X k, ) => Yi = 1 + 2 X 2i + 3 X 3i + k X ki + i [1] onde: k, parâmetros a serem estimados Yi e X k variáveis métricas, não qualitativas X k, variáveis independentes ou preditoras, supostas não estocásticas. i, definida como variável estocástica, normalmente distribuída (com média 2 0 e variância constante ) e independentes entre si Diversos métodos são utilizados para estimar os parâmetros do modelo, notadamente os k, sendo o mais conhecido o Método dos Mínimos Quadrados, que busca ajustar a equação [1] aos dados amostrais de tal sorte a minimizar a soma dos quadrados dos erros. O uso do modelo de regressão múltipla para previsões é bem simples: após estimativa dos parâmetros, basta inserir os novos valores de Xk s na equação para obter o valor estimado da variável independente Y. Como esta é uma variável métrica por concepção do modelo, devemos transformá-la para variável binária conforme regra a ser detalhada a seguir. 2.2. Regressão Logística O modelo de regressão logística, também conhecida como modelo Logit, se aplica a situações de pesquisa qualitativa onde a variável dependente Y assume valores binários, ou seja, apenas duas possibilidades de valores podem ocorrer. Em aplicações práticas Y pode ser definida como uma variável dummy representando a ocorrência de um evento ou a escolha entre duas alternativas possíveis. Difere, portanto, da classe de modelos de regressão mínimos quadrados generalizados, onde a variável dependente Y pode assumir qualquer e infinitos valores no conjunto dos números reais, inclusive os dispostos no modelo binário, geralmente 0 e 1. Vale destacar ainda que as variáveis dependentes Xi não são binárias, assim como na regressão múltipla. O modelo Logit é baseado na função de probabilidade logística, muito parecida com a função normal pela simetria, apenas com cauda um pouco mais longa. Sua forma analítica é a que segue: 1 f ( x) = para < x < + [2] 1 x + e Sua função de distribuição acumulada possui imagem no intervalo 0 e 1, de tal sorte que o 2
modelo busca de certa forma definir a variável Y como a probabilidade de ocorrência de evento do espaço amostral, definida pelas variáveis independentes X s. Ou seja: 0 < E[Y/X] < 1 [3] A partir da equação [2] chegamos a expressão [4] abaixo: f ( x ) ln 1 f ( x ) = Z i = α + β x [4] Observa-se que a função Logit Zi é linear nos seus parâmetros e. A variável dependente deste modelo de regressão é o logaritmo dos odds (chance), a saber, f(x)/(1 f(x)). Nos casos de pesquisa amostral utiliza-se a freqüência relativa a cada classe de evento em substituição à função de probabilidade da população f(x) desconhecida (PINDYCK&RUBINFELD,1991,260). Como decorrência do fato da variável dependente ser binária, os modelos Logit são nãolineares de tal sorte que não se aplica o método de estimação dos parâmetros pelo método dos mínimos quadrados. Utiliza-se o método de estimação de máxima verossimilhança a partir do uso de métodos numéricos de otimização não lineares iterativos, como o Quase-Newton. O uso do modelo de regressão logística para previsões é bem simples: após estimativa dos parâmetros da função de distribuição logística calculam-se as probabilidades respectivas aos Xk s para obter o valor estimado da variável independente Y. No caso de Yi < 0,5, enquadrase como Yi =0 (i.e, há uma baixa probabilidade da inflação subir); no caso de Yi > 0,5, enquadra-se como Yi =1 (i.e., há uma alta probabilidade da inflação subir); se Yi = 0.5, a solução é indeterminada. 2.3.Análise Discriminante A análise discriminante trata de problemas de alocação de novos objetos em grupos, segmentado a partir de variáveis que os discriminam uns dos outros. A partir de um conjunto multidimensional de variáveis discriminantes estima-se uma função discriminante unidimensional utilizada para alocação de objetos nos grupos de melhor aderência. Conforme Johnson&Wichern (2002,610), a função discriminante de Fischer (ou escore do objeto k) Zk de uma análise multivariada de n dimensões nada mais é que uma combinação linear das variáveis Xn s (ver [5]) que maximiza a razão distância ao quadrado entre as médias amostrais e a variância amostral de Y, resultando no cálculo dos parâmetros wn e assumindo a forma [6] abaixo: Z k = C X [5] 3
onde: C = vetor dos pesos discriminantes maximizadores, com dimensão k x 1 X = vetor das variáveis multivariadas, com dimensão k x 1 Zk = dimensão 1 x 1 Z k = w 1. X 1k + w 2. X 2k + + w n. X n k [6] onde: wn = peso discriminante da variável independente Xn A regra de alocação baseada na função de discriminante de Fischer considerando dois grupos 1 e 2 - é a seguinte: aloca-se o objeto k 0 no grupo 1, se Z k0 > m e no grupo 2, se Z k0 < m, onde m o ponto médio entre as duas populações univariadas. A avaliação da precisão preditiva de pertinência do grupo na análise discriminante é realizada a partir da construção de uma Matriz de Classificação, também denominada de Matriz de Confusão. Neste esquema, a partir da amostra de dados considerada para estimativa da função discriminante de Fischer aplicamos a cada uma delas a dita função e verificamos o percentual de acertos/sucessos entre a classificação prevista e a real observada ex-ante. 3. Metodologia e Análise Preliminar dos Dados Como o objetivo do trabalho é prever com 1 mês de antecedência se a inflação do mês seguinte será maior ou menor à inflação do mês corrente, as variáveis independentes ou preditoras devem estar defasadas ao menos em 1 período da variável dependente Y. Modelamos Y como uma variável qualitativa, de tal sorte que se a tendência for positiva (i.e. aumento da inflação) Y assume valor 1; se negativa, Y assume valor 0. Desta forma, sejam: n meses da série de dados de IPCA calculado pelo IBGE para região metropolitana de Curitiba; Y a variável dependente binária definidora da tendência da inflação para o mês seguinte, conforme regra geral abaixo: Yn = 0, se (IPCA t+1 IPCA t ) < 0 [7] (i.e.tendência de redução da inflação em relação ao último mês observado) Yn = 1, se (IPCA t+1 IPCA t ) >= 0 (i.e.tendência de aumento ou igualdade da inflação em relação ao último mês observado) 4
No caso específico das regressões logísticas, se aplica a seguinte regra: [8] Yn = 0, se Prob(Y=1) < 0,5 Yn = 1, se Prob(Y=1) > 0,5 No caso da Análise Discriminante, a seguinte regra é aplicada, lembrando que m é o ponto médio entre as duas populações univariadas: [9] Yn = 0, se (Yn - m) >= 0 Yn = 1, se (Yn - m) < 0 M o número de variáveis consideradas para prever o índice de inflação. Utilizamos as seguintes variáveis, todas referentes à Curitiba e defasadas 1 período: o IPCA; os componentes desagregados do IPCA preços administrados, comercializáveis e não comercializáveis. A escolha dessas variáveis decorreu da verificação de ocorrência de um processo auto-regressivo relevante para lag = 1, a partir de análise da função de autocorrelação serial do IPCA. Nossa suposição de dependência do IPCA é descrita de maneira genérica pela expressão abaixo: IPCA t+1 = f(ipca t, Comercializados t, Não Comercializados t, Administrados t ) A performance dos modelos será feita a partir da taxa de acertos na classificação dos dados observados, resumidamente apresentada em uma Matriz de Classificação, a seguir apresentada: Classificação Preditas pelo Modelo Preditas pelo Modelo % de acertos 00 01 00/( 00+ 01) * 100 10 11 11/( 10+ 11) * 100 Fonte: Hair et alli (2005) total ( 00+ 11 ) / ( 10+ 11+ 10+ 11) * 100 Tabela 1 Modelo de Matriz de Classificação 5
Na regressão múltipla, depois de estimados os parâmetros, recuperamos os valores previstos pelo modelo para a variável Y (lembramos que Y é suposta uma variável métrica na no modelo de regressão múltipla). A seguir, aplicamos o critério [7] para transformá-los em dados binários. Na regressão logística, conforme o critério [8], assumimos que as probabilidades de cada dado previsto pelo modelo superiores a 50% define a variável Y como de valor; ao contrário, define-se Y= 0. Usamos o software Statistica para estimativa dos parâmetros tanto da regressão múltipla, quanto da regressão logística. As transformações da variável Y de métrica para binária foram efetuadas em Excel. No modelo Análise Discriminante, inicialmente isolamos os dados em dois grupos a depender do enquadramento dos dados observados de IPCA à variável Y pelo critério [7]. A seguir, estimamos os parâmetros da Função Discriminante de Fischer FDF - a partir do software MATLAB. Em planilha Excel, aplicamos a FDF para cada observação real de Y o alocamos a um dos dois grupos, a partir da regra de alocação descrita critério [9]. 4. Resultados e Avaliação dos Métodos Apresentamos abaixo as simulações realizadas, cada qual com sua Matriz de Classificação 1. 4.1 - Regressão Múltipla I IPCA t+1 = f(ipca t ) - modelo estimado (estatística t entre parênteses) IPCA t+1 = 0.398345 + 0,405924. IPCA t (4.62) (3.820) R 2 = 0.164 F(1,74) = 14,6 O baixo R 2 sugere que boa parte da variância do IPCA t+1 não é explicada pelo modelo. Frisamos que usaremos a Matriz de Classificação como instrumento de performance do modelo, subsidiariamente ao R 2. A estatística F indica, ao nível de significância de 5%, que o modelo encontrado é válido. Os parâmetros estimados do modelo são significantemente diferentes de zero, ao nível de 5 %. 22 15 59,4 % 9 30 75,0 % total 68,4 % 4.2. Regressão Múltipla III 1 Foram realizadas outras simulações; as apresentadas aqui foram as de resultados estatísticos relevantes. 6
IPCA t+1 = f(comercializados t ) - modelo estimado (estatística t entre parênteses) IPCA t+1 = 0.43176-0.38640.Comerc t (4.900) (4.113) R 2 = 0.1860 F(1,74) = 16,918 O baixo R 2 sugere que boa parte da variância do IPCA t+1 não é explicada pelo modelo. Frisamos que usaremos a Matriz de Classificação como instrumento de performance do modelo, subsidiariamente ao R 2.No caso em questão, como pode ser verificado logo abaixo, a performance foi a mais baixa das simulações realizadas, com 52,6%, quase próxima a probabilidade de ser escolhido aleatoriamente (50%). A estatística F indica, ao nível de significância de 5%, que o modelo encontrado é válido. Os parâmetros estimados são significativamente diferentes de zero, ao nível de significância de 5 % 18 17 51,4 % 19 22 53,6 % total 52,6 % 4.3. Regressão Logística I IPCA t+1 = f(comercializados t, Não Comercializados t, Administrados t ) ln - modelo estimado (estatística t entre parênteses) f ( IPCA t + 1 = 1) = 1 f ( IPCA = 1) t + 1 1.4573-0.2965.Comerc t -1.1825.NComerc t - 0.6369. Admin t (2.967) (-0.639) (-1.82762) (-3.03567) Apenas o parâmetro respectivo à variável Comerc t não é significante a 10%. A avaliação da performance do modelo é avaliada pela matriz de classificação abaixo. 23 14 62,2 % 10 30 75,0 % total 68,8 % 4.4. Regressão Logística II 7
IPCA t+1 = f(ipca t, Administrados t ) - modelo estimado (estatística t entre parênteses) f ( IPCA t + 1 = 1) ln = 1.2499-1.44281. IPCA t -0.27349. Admin t 1 f ( IPCA = 1) t + 1 (2.742) (-1.736) (-0.942) Apenas o parâmetro respectivo à variável Admin t não é significante a 10%, mas o é ao nível de significância de 30%. A avaliação da performance do modelo é avaliada pela matriz de classificação a seguir. 23 14 62,2 % 8 32 80,0 % total 71,4% 4.5. Análise Discriminante IPCA t+1 = f(ipca t, Comercializados t, Não Comercializados t, Administrados t ) - Função Discriminante de Fischer IPCA t+1 = -9.1129. IPCA t + 4.1682. Comerc t + 4.2742. Não Comerc t + m = 1.3833 2.8079. Admin t A avaliação da performance do modelo é avaliada pela matriz de classificação abaixo. 20 17 54,0 % 8 32 80,0% total 67,5 % 5.Comentários Finais Apresentamos a seguir um resumo dos resultados das diversas simulações realizadas: 8
Item método % acertos % acertos % acertos total 4.1 Regressão Múltipla 59,4 % 75,0 % 68,4 % 4.2 Regressão Múltipla 51,4 % 53,6 % 52,6 % 4.3 Regressão Logística 62,2 % 75,0 % 68,8 % 4.4 Regressão Logística 62,2 % 80,0 % 71,4% 4.5 Análise Discriminante 54,0 % 80,0 % 67,5 % média 58,7% 73,3 % 66,5 % Tabela 2 Resumo dos Resultados das Simulações Observa-se que, sem exceção, os percentuais de acertos para Y =0 foram piores do que os percentuais para, em valores médios 58,7% e 73,3%, respectivamente. Assim, caso a tendência real seja positiva, os modelos teriam em tese maior probabilidade de acertar do que na situação oposta (tendência negativa) O modelo com a melhor performance foi o simulado no item 4.4, referente à Regressão Logística utilizando o IPCA e os Preços Administrados como variáveis preditoras. À exceção da regressão múltipla do item 4.2 com taxa de acerto em torno de 50%, as demais simulações apresentaram taxa de acerto muito próximas, beirando os 70%. Podemos concluir que não há uma distinção relevante entre os três métodos utilizados no que se refere à performance ao objetivo proposto. Também vale observar que não há uma relação evidente entre número de variáveis preditoras e sua performance. Por exemplo, a simulação realizada no item 4.1 teve boa performance utilizando um modelo de regressão simples com uma única variável preditora. Chamamos atenção ainda ao fato de que modelos cujos parâmetros não foram significativamente diferente de zero não houve prejuízo às suas performances. Relevamos às Matrizes de Classificação resultantes das simulações como importantes instrumentos de aferição e comparação da eficácia dos modelos. Muito embora tratar-se de um estudo exploratório ao tema, consideramos o percentual de acerto de 70% relevante em se tratando de estimativas estatísticas. Referências HAIR, J.F. JR;ANDERSON,R.E.;TATHAM;R.L.;BLACK,W.C.. Análise Multivariada de Dados. 5ª Edição. Bookman, 2005. JOHNSON, R. A.; WICHERN, D.W. Applied Multivariate Statistical Analysis. Prentice Hall,2002. PINDYCK,R.S.;RUBINFELD,D.L.. Econometric Models and Economic Forecasts. McGraw-Hill, 1991. 9