Modelo SARIMA: um estudo de caso sobre venda mensal de gasolina Ana Julia Righetto 1 Luiz Ricardo Nakamura 1 Pedro Henrique Ramos Cerqueira 1 Manoel Ivanildo Silvestre Bezerra 2 Taciana Villela Savian 3 1 Introdução Como pode ser visto em Morettin & Toloi (2004), é denominada série temporal, todo e qualquer conjunto de observações ordenadas ao longo do tempo. A análise de séries temporais pode ser dividida em dois grupos: i) a análise é feita no domínio de frequências e os modelos são não paramétricos; e ii) a análise é feita no domínio temporal e os modelos são paramétricos. Neste trabalho utilizamos o modelo SARIMA (BOX et al., 1994) que pertence ao segundo grupo da análise de séries temporais. Os conceitos da análise de séries temporais foram aplicados em uma série relativa a venda mensal de gasolina (em litros) no período de janeiro do ano 2000 até dezembro do ano 2010. Estes dados são provenientes do posto PIII da rede Prudentão, Presidente Prudente - SP e com o ajuste do modelo SARIMA à eles, será possível realizar previsões das vendas deste tipo de combustível no posto, além de identificar possíveis mudanças em sua venda ao longo do tempo, possibilitando a elaboração de estratégias de marketing da empresa através dos resultados obtidos. 2 Material e métodos 2.1 Conjunto de dados O conjunto de dados utilizado neste trabalho provém do posto PIII da rede Prudentão (Presidente Prudente-SP) e refere-se à uma série mensal de venda mensal (em litros) de gasolina no período de janeiro de 2000 até dezembro de 2010. 2.2 Modelagem SARIMA Um dos modelos mais utilizados que consideram a sazonalidade de uma determinada série temporal, é o chamado modelo ARIMA sazonal, ou SARIMA (Morettin & Toloi (2004)). Estes 1 Programa de Pós-Graduação em Estatística e Experimentação Agronômica - ESALQ/USP. e-mail: ajrighetto@usp.br 2 Departamento de Matemática, Estatística e Computação - FCT/UNESP. 3 Departamento de Ciências Exatas - ESALQ/USP. 1
modelos são importantes pois levam em consideração a sazonalidade estocástica dos dados. Quando o período s=12, o modelo denominado SARIMA de ordem (p,d,q) (P,D,Q) 12, é dado por (MORETTIN & TOLOI, 2004): φ(x)φ(x 12 ) d D 12Z t = θ(x)θ(x)a t (1) em que φ(x) é o operador autorregressivo (AR) de ordem p, θ(x) é o operador médias móveis (MA) de ordem q, Φ(X) é o operador AR-sazonal de ordem P, Θ(X) é o operador MA-sazonal de ordem Q, d é o operador diferença, D 12 é o operador diferença sazonal e a t é um ruído branco. 3 Resultados e Discussões Inicialmente, esboçou-se o gráfico da série temporal mensal de venda mensal de gasolina em litros (Figura 1(a)) onde foi constatado que a série não era estacionária. Desta forma, foi necessário transformar a série original na 1 a diferença do logaritmo da série (Figura 1(b)) para que a série torna-se estacionária. Figura 1: (a) Gráfico da série temporal mensal de venda de gasolina (em litros); (b) Gráfico da primeira diferença do logaritmo da série. Após a confirmação da estacionariedade da série foram calculadas as autocorrelações amostrais (Figura 2(a)) e autocorrelações parciais amostrais (Figura 2(b)) da série transformada para identificação do modelo. Figura 2: (a) Gráfico das autocorrelações amostrais da 1 a diferença do logaritmo da série; (b) Gráfico das autocorrelações parciais da 1 a diferença do logaritmo da série. Analisando as Figuras 2 (a) e (b), nota-se que existe sazonalidade de período 12. Ainda, é possível observar partes com médias móveis-sazonais. Assim, dois possíveis modelos foram 2
escolhidos para o ajuste desta série temporal: SARIMA(1,1,1)(0,1,2) 12 sem constante; SARIMA(1,1,1)(0,1,1) 12 sem constante. Com o ajuste destes modelos, deve-se agora prosseguir com a estimação dos parâmetros e análise dos resíduos. A seguir faz-se uma análise individual de cada um dos modelos escolhidos. Modelo SARIMA(1,1,1)(0,1,2) 12 : Com a escolha do modelo, calculou-se a estimação dos parâmetros (Tabela 1) e foi realizado o teste de Box-Pierce (MORETTIN & TOLOI, 2004) (Tabela 2) para verificar se o ruído é branco. Tabela 1: Estimação dos parâmetros para o modelo SARIMA(1,1,1)(0,1,2) 12 sem constante. Tipo Coeficiente Erro Padrão P-valor AR(1) 0,76 0,08 0,00 MA(1) 0,94 0,05 0,00 SMA(1) 1,13 0,11 0,00 SMA(2) -0,27 0,11 0,01 Pode-se notar que todos os parâmetros são significativos a um nível de 5% de significância. Sendo a variância do modelo igual a 0,002747 com 109 graus de liberdade. Tabela 2: Teste de Box-Pierce para o modelo SARIMA(1,1,1)(0,1,2) 12 sem constante. Lag 12 24 36 48 χ 2 5,7 20,9 31,7 48 g.l. 8 20 32 44 p-valor 0,68 0,41 0,48 0,45 Como todos os p-valores da Tabela 2 são maiores que 0,05, pode-se dizer que a um nível de significância de 5% (H 0 : o ruído é branco) não rejeita-se a hipótese nula, portanto o ruído é branco (MORETTIN & TOLOI, 2004). Com a confirmação de que o ruído é branco, foi realizada a análise dos resíduos, onde a um nível de 5% de significância os mesmos possuíam normalidade, além do mais constatou-se que os resíduos eram aleatórios e possuíam homocedasticidade (Figura 3). 3
Figura 3: (a) Teste de normalidade (CONOVER, 1999); (b) Histograma dos resíduos; (c) Gráfico de dispersão dos valores ajustados resíduos. Depois destas constatações, podemos dizer que o modelo é aceitável e, desta forma, calculamos então as previsões. Tabela 3: Intervalo de 95% de confiança e Previsões do modelo SARIMA(1,1,1)(0,1,2) 12 sem constante. Período Limite Inferior Previsão Limite Superior Julho/2010 57308,26 63513,01 70382,50 Agosto/2010 58712,03 67070,53 76618,97 Setembro/2010 57331,19 66662,64 77512,93 Outubro/2010 58034,91 68268,24 80298,00 Novembro/2010 56117,33 66556,07 78944,47 Dezembro/2010 61420,57 73298,84 87474,27 Modelo SARIMA(1,1,1)(0,1,1) 12 : Para este modelo, também foram calculados os parâmetros estimados (Tabela 4) e foi realizado o teste de Box-Pierce(Tabela 5) para verificar se o ruído é branco. Tabela 4: Estimação dos parâmetros para o modelo SARIMA(1,1,1)(0,1,1) 12 sem constante. AR(1) 0,68 0,09 0,00 MA(1) 0,92 0,05 0,00 SMA(1) 0,88 0,08 0,00 Pode-se notar que todos os parâmetros são significativos a um nível de 5% de significância. Ainda, a variância calculada através do Quadrado Médio do Erro (MS) foi de 0,002879 com 110 graus de liberdade. Tabela 5: Teste de Box-Pierce para o modelo SARIMA(1,1,1)0,1,1) 12 sem constante. Lag 12 24 36 48 χ 2 6,1 16,3 24,9 40,8 g.l. 9 21 33 45 p-valor 0,73 0,75 0,84 0,65 4
Com a confirmação de que o ruído é branco, foi realizada a análise dos resíduos assim como no primeiro modelo e todas as suposições foram verificadas Figura 4: (a) Teste de normalidade (CONOVER, 1999); (b) Histograma dos resíduos; (c) Gráfico de dispersão dos valores ajustados resíduos. Logo podemos dizer que o modelo é aceitável e, desta forma, calculamos então as previsões. Tabela 6: Intervalo de 95% de confiança e Previsões do modelo SARIMA(1,1,1)(0,1,1) 12 sem constante. Período Limite Inferior Previsão Limite Superior 4 Conclusões Julho/2010 57870,51 64289,21 71419,83 Agosto/2010 57994,13 66192,55 75549,95 Setembro/2010 57017,84 66011,43 76423,60 Outubro/2010 58251,91 68030,51 79450,63 Novembro/2010 56853,81 66791,80 78466,94 Dezembro/2010 62259,70 73463,08 86682,47 O modelo que se ajustou melhor aos dados segundo o critério EQMP (MORETTIN & TO- LOI, 2004) foi o SARIMA(1,1,1)(0,1,2) 12 e, portanto, foi o escolhido para realizar as previsões da série referente a venda mensal de gasolina (em litros) do posto PIII da rede Prudentão. As previsões de venda utilizando este modelo podem ser utilizadas como base para estratégias de marketing da empresa. Referências [1] BOX, G. E. P.; JENKINS, G. W.; REINSEL, G. C., Time Series Analysis, Forecasting and Control, 3 rd edition, New Jersey: Prentice-Hall, 1994. [2] CONOVER, W. J., Practical nonparametric statistics, 3 rd edition, New York: John Wiley & Sons, 1999. [3] MORETTIN, P. A.; TOLOI, C. M. C., Análise de séries temporais, 2 a edição, São Paulo: Editora Edgarg Blucher, 2004. 5