UNIVERSIDADE FEDERAL DO PARANÁ MONIQUE VERCHAI PEREIRA SUELEN FERREIRA CORDEIRO

Documentos relacionados
Modelagem do total de passageiros transportados no aeroporto internacional de Belém: Um estudo preliminar

PRO FOR WINDOWS (FPW)

Análise de séries temporais aplicada aos valores do salário mínimo necessário do Brasil

3 Previsão da demanda

ESTUDO DO EFEITO DAS AÇÕES DE MARKETING SOBRE O FATURAMENTO DE UMA INSTITUIÇÃO DE SAÚDE DO SUL DE MINAS GERAIS UTLIZANDO TÉCNICAS DE SÉRIES TEMPORAIS

Modelo SARIMA: um estudo de caso sobre venda mensal de gasolina

É POSSÍVEL ATINGIR A META DO MINISTÉRIO DA SAÚDE PARA A DOAÇÃO ESPONTÂNEA?

6 Construção de Cenários

Aula 4 Conceitos Básicos de Estatística. Aula 4 Conceitos básicos de estatística

PREVISÃO DE VENDAS DE CERVEJA PARA UMA INDÚSTRIA DE RIBEIRÃO PRETO

VARIAÇÃO ESTACIONAL DE PREÇOS DA MAMONA NO PARANÁ INTRODUÇÃO

Capítulo 7 Medidas de dispersão

INE Procedimentos de Análise Bidimensional de variáveis QUANTITATIVAS utilizando o Microsoft Excel. Professor Marcelo Menezes Reis

PÓS GRADUAÇÃO EM CIÊNCIAS DE FLORESTAS TROPICAIS-PG-CFT INSTITUTO NACIONAL DE PESQUISAS DA AMAZÔNIA-INPA. 09/abril de 2014

Modelagem da Venda de Revistas. Mônica Barros. Julho de

4 Avaliação Econômica

Uma proposta de gráfico de controle EWMA com dados sazonais

Unidade VI. Validação e Verificação de Software Teste de Software. Conteúdo. Técnicas de Teste. Estratégias de Teste

ESTUDO DE PREVISÃO DE DEMANDA PARA EMPRESA DE EQUIPAMENTOS MÉDICOS DE DIAGNÓSTICO

Opções Reais. Processos Estocásticos. Processos Estocásticos. Modelando Incerteza. Processos Estocásticos

COMO CALCULAR A PERFORMANCE DOS FUNDOS DE INVESTIMENTOS - PARTE II

SisDEA Home Windows Versão 1

Cláudio Tadeu Cristino 1. Julho, 2014

MÓDULO 6 INTRODUÇÃO À PROBABILIDADE

GASTAR MAIS COM A LOGÍSTICA PODE SIGNIFICAR, TAMBÉM, AUMENTO DE LUCRO

a 1 x a n x n = b,

Aula 4 Estatística Conceitos básicos

O ESPAÇO NULO DE A: RESOLVENDO AX = 0 3.2

A metodologia ARIMA (Auto-regressivo-Integrado-Média-Móvel),

NECESSIDADES DE PREVISÃO DA CADEIA DE SUPRIMENTOS. Mayara Condé Rocha Murça TRA-53 Logística e Transportes

Ponto de vista. Metodologia para um índice de confiança. E expectativas das seguradoras no Brasil

COMENTÁRIO AFRM/RS 2012 ESTATÍSTICA Prof. Sérgio Altenfelder

FACULDADE DE ENGENHARIA DE COMPUTAÇÃO. PROJETO FINAL I e II PLANO DE TRABALHO <NOME DO TRABALHO> <Nome do Aluno> <Nome do Orientador>

x0 = 1 x n = 3x n 1 x k x k 1 Quantas são as sequências com n letras, cada uma igual a a, b ou c, de modo que não há duas letras a seguidas?

Este capítulo é divido em duas seções, a primeira seção descreve a base de

1. Avaliação de impacto de programas sociais: por que, para que e quando fazer? (Cap. 1 do livro) 2. Estatística e Planilhas Eletrônicas 3.

Logística e a Gestão da Cadeia de Suprimentos. "Uma arma verdadeiramente competitiva"

O Custo Unitário do Trabalho na Indústria

Módulo 4 PREVISÃO DE DEMANDA

A Descrição do Produto ou Serviço e a Análise do Mercado e dos Competidores Fabiano Marques

4 Segmentação Algoritmo proposto

Simulação Transiente

PONTIFÍCIA UNIVERSIDADE CATÓLICA DE GOIÁS Curso Superior de Tecnologia em Análise e Desenvolvimento de Sistemas

Caracterização temporal de circuitos: análise de transientes e regime permanente. Condições iniciais e finais e resolução de exercícios.

06 a 10 de Outubro de 2008 Olinda - PE

PLANEJAMENTO OPERACIONAL - MARKETING E PRODUÇÃO MÓDULO 3 O QUE É PLANEJAMENTO DE VENDAS E OPERAÇÕES?

Capítulo 5: Aplicações da Derivada

Organização e Arquitetura de Computadores I

UNIVERSIDADE DE SÃO PAULO. Faculdade de Arquitetura e Urbanismo

Engenharia de Software III

FATEC Cruzeiro José da Silva. Ferramenta CRM como estratégia de negócios

Decidir como medir cada característica. Definir as características de qualidade. Estabelecer padrões de qualidade

Modelagem e Simulação

O comportamento conjunto de duas variáveis quantitativas pode ser observado por meio de um gráfico, denominado diagrama de dispersão.

INVESTIMENTO A LONGO PRAZO 1. Princípios de Fluxo de Caixa para Orçamento de Capital

Medida da velocidade de embarcações com o Google Earth

Qual é o risco real do Private Equity?

GUIA DE REDAÇÃO PARA TRABALHO DE EM974

Exercícios Teóricos Resolvidos

9. Derivadas de ordem superior

CURSO ON-LINE PROFESSOR GUILHERME NEVES

O QUE É E COMO FUNCIONA O CREDIT SCORING PARTE I

Alisamento Exponencial (EWMA) e Holt-Winters

Mamão Hawai uma análise de preços e comercialização no Estado do Ceará.

Uma aplicação de Inteligência Computacional e Estatística Clássica na Previsão do Mercado de Seguros de Automóveis Brasileiro

NECESSIDADE DE CAPITAL DE GIRO E OS PRAZOS DE ROTAÇÃO Samuel Leite Castelo Universidade Estadual do Ceará - UECE

CAP. I ERROS EM CÁLCULO NUMÉRICO

MRP II. Planejamento e Controle da Produção 3 professor Muris Lage Junior

Podemos encontrar uma figura interessante no PMBOK (Capítulo 7) sobre a necessidade de organizarmos o fluxo de caixa em um projeto.

Protocolo em Rampa Manual de Referência Rápida

Exemplos: Análise de Valor Agregado (Ex_vagregado.SPRJ)

ISO/IEC 12207: Gerência de Configuração

Capítulo 3. Avaliação de Desempenho. 3.1 Definição de Desempenho

Jogos. Redes Sociais e Econômicas. Prof. André Vignatti

Redução do Encalhe de Jornais Impressos. Como transformar informação em resultado

GERAÇÃO DE VIAGENS. 1.Introdução

Gestão da Qualidade Políticas. Elementos chaves da Qualidade 19/04/2009

ANÁLISE DOS SISTEMAS DE MEDIÇÃO MSA SISTEMA DE MEDIÇÃO NÃO REPLICÁVEL


CAPITAL DE GIRO: ESSÊNCIA DA VIDA EMPRESARIAL

PEDIDO DE COMPRAS AUTOPEÇAS

2 Atualidade de uma base de dados

Módulo 4. Construindo uma solução OLAP

Utilização do SOLVER do EXCEL

Pós-Graduação em Gerenciamento de Projetos práticas do PMI

Correlação e Regressão Linear

7Testes de hipótese. Prof. Dr. Paulo Picchetti M.Sc. Erick Y. Mizuno. H 0 : 2,5 peças / hora

RESULTADOS DE OUTUBRO DE 2013

AULAS 13, 14 E 15 Correlação e Regressão

1. Introdução. 1.1 Introdução

REDUZINDO AS QUEBRAS ATRAVÉS DA MANUTENÇÃO PROFISSIONAL

por João Gomes, Director Executivo do Instituto de Planeamento e Desenvolvimento do Turismo e Professor Associado da Universidade Fernando Pessoa

Professor Severino Domingos Júnior Disciplina: Gestão de Compras e Estoques no Varejo

ipea políticas sociais acompanhamento e análise 7 ago GASTOS SOCIAIS: FOCALIZAR VERSUS UNIVERSALIZAR José Márcio Camargo*

Unidade IV ADMINISTRAÇÃO DE. Profa. Lérida Malagueta

ESTUDO DE VIABILIDADE. Santander, Victor - Unioeste Aula de Luiz Eduardo Guarino de Vasconcelos

Avaliando o que foi Aprendido

ANÁLISE DOS RESULTADOS DOS PROGRAMAS DE APOIO ÀS PMEs NO BRASIL Resumo Executivo PARA BAIXAR A AVALIAÇÃO COMPLETA:

Processos Técnicos - Aulas 4 e 5

CAP. 2 CONSIDERAÇÕES SOBRE OS CRITÉRIOS DE DECISÃO

Transcrição:

UNIVERSIDADE FEDERAL DO PARANÁ MONIQUE VERCHAI PEREIRA SUELEN FERREIRA CORDEIRO UMA APLICAÇÃO DE SÉRIES TEMPORAIS EM DADOS DE CONSUMO DE PAPEL EM INDÚSTRIAS GRÁFICAS CURITIBA 2010 1

MONIQUE VERCHAI PEREIRA SUELEN FERREIRA CORDEIRO UMA APLICAÇÃO DE SÉRIES TEMPORAIS EM DADOS DE CONSUMO DE PAPEL EM INDÚSTRIAS GRÁFICAS Trabalho de Conclusão de Curso apresentado à Banca Examinadora, como exigência parcial para a obtenção do título de Graduação do Curso de Estatística, Setor de Ciências Exatas, Universidade Federal do Paraná. Orientador: Prof. Fernando Lucambio Pérez. CURITIBA 2010 2

MONIQUE VERCHAI PEREIRA SUELEN FERREIRA CORDEIRO UMA APLICAÇÃO DE SÉRIES TEMPORAIS EM DADOS DE CONSUMO DE PAPEL EM INDÚSTRIAS GRÁFICAS COMISSÃO EXAMINADORA Fernando Lucambio Pérez Elias Teixeira Krainski Curitiba, 01 de dezembro de 2010. 3

AGRADECIMENTOS Agradecemos primeiramente a Deus que iluminou o nosso caminho durante esta trajetória. Ao nosso professor orientador Fernando Lucambio Pérez, pelas longas horas de ensinamentos e discussões. Aos funcionários da empresa fornecedora dos dados utilizados neste trabalho de conclusão de curso. Aos professores, pelas experiências, profissionalismo e incríveis capacidades de ensino. Pelas amizades conquistadas durante estes quatro anos de vida acadêmica. Também somos gratas a todas as pessoas que contribuíram diretamente ou indiretamente para a realização deste trabalho. 4

LISTA DE SIGLAS ACF AIC AR ARMA LWC MA MAPE NaN PACF SARIMA SC -Autocorrelation Function -Akaike s information criterion -Autoregressive -Autoregressive Moving Average -Light Weight Coated -Moving Average -Mean Absolute Percentage Error -Not a Number -Partial Autocorrelation Function -Seasonal Auto Regressive Integrated Moving Average -Supercalendered 5

LISTA DE ILUSTRAÇÕES Figura 1 Impressora rotativa antiga para baixas gramaturas.... 12 Figura 2 Impressora rotativa moderna com alta capacidade de produção.... 13 Figura 3 Modelo aditivo de Holt-Winters.... 21 Figura 4 Modelo multiplicativo de Holt-Winters.... 22 Gráfico 1 - Consumo mensal de papel SC e LWC gramaturas 52, 56 e 60 no período de janeiro de 2001 a outubro de 2010.... 25 Gráfico 2 - Consumo mensal de papel SC e LWC, separado por ano.... 26 Gráfico 3 - Decomposição da série de consumo mensal no período de janeiro de 2001 a dezembro de 2009.... 26 Gráfico 4 - Função de autocorrelação e função de autocorrelação parcial da série consumo mensal de papel no período de janeiro de 2001 a dezembro de 2009.... 27 Gráfico 5 - Função de autocorrelação e função de autocorrelação parcial da série diferenciada.... 28 Gráfico 6 - Decomposição da série diferenciada.... 29 Gráfico 7 - Consumo mensal do papel e ajuste da tendência pelos polinômios de graus 2, 6, e 8, no período de janeiro de 2001 a dezembro de 2009.... 30 Gráfico 8 - Série sem tendência do consumo mensal de papel SC e LWC gramaturas 52, 56 e 60 no período de janeiro de 2001 a dezembro de 2009.... 32 Gráfico 9 - Função de autocorrelação e função de autocorrelação parcial da série sem tendência.... 33 Gráfico 10 - Análise de resíduos do ajuste1 para a série sem tendência.... 35 Gráfico 11 - Histograma e gráfico Q-Qplot dos resíduos para o modelo da série sem tendência.... 36 Gráfico 12 - Valores estimados e observados da série sem tendência.... 38 Gráfico 13 - Valores estimados e observados da série com tendência.... 39 Gráfico 14 - Observados e estimados através do modelo Holt-Winters Aditivo.... 43 Gráfico 15 - Observados e estimados através do modelo Holt-Winters Multiplicativo.... 45 Gráfico 16 - Consumo mensal do papel e ajuste da tendência pelos polinômios de graus 2, 6, e 8, no período de janeiro de 2001 a outubro de 2010.... 46 Gráfico 17 - Análise residual do ajuste1 para a série sem tendência de janeiro de 2001 a outubro de 2010.... 48 Gráfico 18 - Histograma e gráfico Q-Qplot dos resíduos para o modelo da série sem tendência.... 49 Gráfico 19 Comportamento dos grupos de clientes no período de janeiro de 2008 a outubro de 2010.... 52 Gráfico 20 Comportamento dos grupo de clientes no período de janeiro de 2008 a junho de 2010.... 55 Gráfico 21 Comportamento da série no período 2005 a 2010.... 56 6

LISTA DE TABELAS Tabela 1: Primeiras linhas do banco de dados... 24 Tabela 2: Tendências para as previsões de janeiro a outubro de 2010.... 31 Tabela 3 - DF e Critério de Akaike para os modelos ajustados.... 34 Tabela 4 Estimação dos dados originais dados sem tendência + tendência.... 39 Tabela 5 - Estimativa do modelo ajustado versus o valor real observado.... 40 Tabela 6 - Estimativa do intervalo de confiança inferior.... 40 Tabela 7 - Estimativa do intervalo de confiança superior.... 41 Tabela 8 - Estimativas pontuais e intervalares do modelo ajustado versus o valor real.... 41 Tabela 9 - Estimativas do modelo Holt-Winters aditivo versus o valor real.... 42 Tabela 10 - Estimativas do modelo Holt-Winters multiplicativo versus o valor real.... 44 Tabela 11 - Comparativo modelo SARIMA e modelos Holt-Winters.... 46 Tabela 12 Tendência dos valores futuros... 47 Tabela 13 - DF e AIC para os modelos ajustados de janeiro de 2001 a outubro de 2010.... 47 Tabela 14 Estimação dos dados originais.... 50 Tabela 15 Estimativas pontuais e intervalares do consumo para os meses futuros.... 50 Tabela 16 Previsão de consumo do primeiro grupo de clientes para os meses futuros.... 51 Tabela 17 Previsão de consumo do segundo grupo de clientes para os meses futuros.... 51 Tabela 18 Previsão de consumo do terceiro grupo de clientes para os meses futuros.... 52 Tabela 19 MAPE para as análises das séries com 9 e 5 anos.... 57 7

SUMÁRIO 1. RESUMO... 10 2. INTRODUÇÃO... 11 3. OBJETIVOS... 13 4. METODOLOGIA... 14 4.1. Série Temporal... 14 4.2. Decomposição Clássica... 14 4.3. Modelos Box-Jenkins... 15 4.4. Séries com Tendência... 15 4.5. Função de Autocorrelação... 16 4.6. Autocorrelações Parciais... 16 4.7. O Correlograma... 17 4.8. Modelos Sazonais... 17 4.9. Análise dos Resíduos... 18 4.9.1. Testes de independência... 19 4.9.2. Teste de normalidade... 20 4.10. Modelos de Holt-Winters... 20 4.11. Critérios para escolha do melhor modelo... 22 4.12. MAPE... 23 4.13. Performance Preditiva... 23 5. APLICAÇÃO DA METODOLOGIA... 24 5.1. Análise descritiva dos dados com tendência... 24 5.2. Modelagem... 29 5.3. Ajuste Polinomial para tendência... 30 5.4. Procedimento utilizado para estimar os valores futuros... 31 5.5. Análise descritiva para os dados sem tendência... 32 5.6. Modelagem para Séries Temporais... 33 5.7. Critérios de Seleção do Modelo... 34 5.8. Análise Residual... 35 5.9. Performance Preditiva Modelo SARIMA... 37 5.10. Previsão de valores futuros SARIMA... 39 5.11. Predição de Valores Futuros Holt- Winters... 42 5.12. Holt-Winters Aditivo... 42 5.12.1. Performance Preditiva Holt- Winters Aditivo... 43 5.13. Holt-Winters Multiplicativo... 44 5.13.1. Performance Preditiva Holt- Winters Multiplicativo... 45 5.14. Comparação Modelo SARIMA e Modelos Holt-Winters... 45 5.14.1. Erro percentual médio absoluto... 45 5.14.2. Amplitude do Intervalo de Confiança... 45 5.15. Previsão dos valores futuros... 46 6. CONCLUSÕES... 53 7. CONSIDERAÇÕES FINAIS... 54 7.1. Diferenciação... 55 7.2. Transformação... 55 7.3. Análise para dados 2001 a 2005... 56 8

7.4. Ajuste Polinomial... 57 8. GLOSSÁRIO... 58 9. ANEXOS... 59 10. REFERÊNCIAS... 70 9

1. RESUMO As indústrias visam obter a maior margem de lucro possível, por isso a necessidade de criar dispositivos para que a compra de mercadorias seja a mais assertiva possível garantindo à empresa um diferencial competitivo frente aos concorrentes. Para prever o consumo de papel em indústrias gráficas, modelando o comportamento da variável resposta consumo mensal em quilogramas do principal tipo de papel do segmento comercial e gramaturas (espessura das folhas), fez-se uso de algumas técnicas de séries temporais. Considerando que o consumo do papel primordial pode apresentar tendências e também sazonalidades, principalmente em datas comemorativas, utilizou-se o modelo Autorregressivo Integrado de Médias Móveis para Dados Sazonais - SARIMA (p, d, q), cujos parâmetros foram estimados computacionalmente para predizer os valores futuros de consumo, utilizando-se o Critério de Akaike AIC para a decisão do melhor modelo. Para o cálculo das previsões estudou-se a séries histórica dos dados mensais de consumo de papel (em quilogramas), de 2001 a 2009, fazendo-se previsões para 2010 e validando os resultados com os dados reais observados. Estimou-se a curva de tendência polinomial dos dados, resultando em um polinômio de sexto grau que possibilitou uma melhor assertividade das estimativas pontuais e dos intervalos de confiança. Também utilizou-se os modelos de alisamento exponencial de Holt Winters Aditivo e Multiplicativo para a previsão. Os valores preditos mostraram-se coerentes com a realidade desse tipo de comércio. Os resultados obtidos mostram que a metodologia pode ser utilizada futuramente em empresas do mesmo segmento, possibilitando uma maior competitividade no mercado. Palavras-chave: Séries Temporais, SARIMA, Holt Winters. 10

2. INTRODUÇÃO Empresa gráfica de Curitiba criada em 1972, atualmente considerada principal gráfica do país, líder desde 1997 no segmento de livros, revistas e impressos promocionais, consolidou uma parceria estratégica junto às maiores redes de varejo do Brasil por mais de 14 anos. Durante esse tempo, continuamente sofreu diversas expansões para acompanhar as necessidades de seus clientes e por isso é reconhecida ano após ano como parceira estratégica. Com o passar do tempo, substituiu as impressoras mais antigas (Figura 1) por novas máquinas com maior capacidade de produção, como pode ser visto na Figura 2 e com isso desenvolveu-se cada vez mais. Devido ao consumo ser extremamente alto, vinculado ao tipo de impressão, a empresa está direcionada a prever o consumo de papéis em diferentes períodos do ano. Os trabalhos dividem-se essencialmente em editoriais (didáticos) e comerciais. As impressões do didático incluem trabalhos como apostilas regulares, extensivos, dicionários, modulares e licitações, sendo o Offset e o Cartão os principais papéis, comprados de acordo com empenhos e mais uma determinada quantidade para possíveis reimpressões ou reedições. As impressões do comercial são, atualmente, as de consumo maior e menos previsível, por este motivo será o alvo de nosso estudo. Os papéis essenciais para impressão comercial são: SC e LWC. Esses papéis possuem a mesma qualidade de impressão, mas o LWC pode ser nacional ou importado enquanto o SC é somente importado, o qual é mais representativo em relação aos demais papéis.esses dois primordiais papéis são utilizados em folhetos, tablóides, revistas e catálogos, as gramaturas mais utilizadas são: 52 g/m², 56 g/m² e 60 g/m². Houve uma mudança no processo de compra desses materiais, pois até meados da década de 90 o consumo de LWC era mais significativo e a maioria das compras era nacional. Com a competitividade de preços no mercado internacional, a empresa optou por começar a importar SC, adquirindo mais vantagens estratégicas, devido ao menor preço e assumindo o risco do prazo de entrega de 90 dias em média. Todavia se houver falta de SC compra-se LWC no mercado nacional, pagando-se mais caro, porém com prazo menor de entrega. Por esses motivos e por orientação da empresa, decidiu-se fazer a previsão para a soma desses papéis, pois eles são de mesma natureza. Ademais, decidiu-se por juntar as primordiais gramaturas 52, 56 e 60 g/m² por serem as mais consumidas. As gramaturas 52 e 56 são do papel SC,onde a 52 era consumida inicialmente e que depois mudou para 56.Já a 60 é do papel LWC. Hodiernamente o processo de compra da maioria dos insumos gráficos é geralmente realizado de acordo com o consumo para compor estoque. O que se compra a mais, é cerca de 10% do consumo empenhado (contratado pelo cliente), ou então o que completa uma carga de matéria-prima (por exemplo, precisa-se de 13 bobinas, mas com 15 completa-se uma carga, compra-se as 15 e as 2 restantes ficam em estoque para outros trabalhos). Já o processo utilizado para verificar as quantidades a serem importadas de papel SC (Supercalandrado), é realizado da seguinte maneira: olha-se o relatório de empenhos para os próximos meses e o relatório de consumo dos últimos meses, considerando a média mensal de consumo para estabelecer a quantidade a ser comprada. Esse papel não é produzido em fábricas no Brasil, ou seja, é importado de países como Finlândia, Canadá e Estados Unidos. Por este motivo é de total relevância ter uma previsão confiável do consumo desse insumo para os próximos meses, pois com os prazos nos processos de importação, a empresa pode ter muitos custos, tanto ao importar quantidades a mais do que o necessário, gerando aumento de estoque e custos com 11

armazenagem, como ao importar menos, não conseguindo finalizar a tiragem de alguns trabalhos ou até mesmo perdendo algum cliente. Assim, considerando o elevado nível de impressões que a gráfica produz mensalmente e a importância de seus clientes, ter uma previsão mais precisa do consumo por tipo de papel implica ter menor estoque, redução de custos, antecipar estoques estratégicos, negociar melhores preços, diminuir o grau de risco conseqüentemente maior competitividade no mercado. Para alcançar estes objetivos de melhoria na empresa serão utilizadas técnicas de séries temporais para prever estatisticamente o consumo mensal dos papéis SC e LWC, por suas gramaturas e por grupos de clientes, utilizando como base de dados o consumo mensal, em quilogramas, no decorrer dos últimos anos. Figura 1 Impressora rotativa antiga para baixas gramaturas. Fonte: http://www.portalentretextos.com.br 12

Figura 2 Impressora rotativa moderna com alta capacidade de produção. Fonte: http://www.portalentretextos.com.br 3. OBJETIVOS O objetivo principal deste trabalho é estudar e aplicar métodos de previsão para consumo dos papéis SC e LWC e suas principais gramaturas de uma gráfica, em séries com tendências e sazonalidade utilizando apenas os regressores da série histórica. A idéia é utilizar os dados de consumo para trabalhos comerciais ao longo de 10 anos - de 2001 a 2010 para prever valores futuros. Outro objetivo é a Descrição (Descrever propriedades da série, o padrão de tendência, existência de variação sazonal ou cíclica, mudanças no padrão de tendência ou da sazonalidade, etc). Também tem-se como meta fazer uma análise dos clientes responsáveis por esse consumo, ou seja, analisando-se a série histórica, verificar quais foram os clientes com consumos mais representativos em diferentes períodos.depois,agrupá-los em 3 grupos de clientes para que, além de ter-se a estimativa pontual e os intervalos de confiança da previsão, ainda seja possível verificar qual o percentual dessa estimativa corresponde ao consumo dos maiores clientes. 13

4. METODOLOGIA Para a realização deste trabalho aplicaram-se algumas metodologias empregadas na análise de séries temporais. 4.1. Série Temporal Uma série temporal consiste em um conjunto de observações ou medidas sob um intervalo de tempo. Se estas observações consecutivas são dependentes uma das outras, é possível conseguir-se uma previsão (SAMOHYL, ROCHA & MATTOS, 2001) e assim fornecer bases para compreender o comportamento do evento ao qual esta se analisando. De acordo com Morettin & Toloi (2004), ao se realizar um estudo de séries temporais, podec) Descrever apenas o comportamento da série, como tendências e sazonalidades, por se estar interessado em: a) Investigar o mecanismo gerador da série temporal; b) Fazer previsões de valores futuros da série; exemplo; d) Procurar periodicidades relevantes nos dados. Esses autores também ressaltam que os modelos devem ser simples, com o menor número de parâmetros possíveis, e sua utilização não deve apresentar dificuldades às pessoas interessadas em manipulá-los, los, entendendo-se por modelos uma descrição probabilística de uma série temporal. 4.2. Decomposição Clássica Conforme Morretin & Toloi (1987), séries temporais são compostas por quatro elementos: 1. Tendência: verifica o sentido de deslocamento da série ao longo de vários anos; 2. Ciclo: movimento ondulatório que ao longo de vários anos tende a ser periódico; 3. Sazonalidade: movimento ondulatório de curta duração, em geral, inferior a um ano associada, na maioria dos casos, a mudanças climáticas; 4. Ruído aleatório ou erro: compreende a variabilidade intrínseca aos dados e não pode ser modelado. De acordo com Notas de aula do professor Ricardo S. Ehlers 2009, muitas das propriedades observadas em uma série temporal Xt podem ser captadas assumindo-se a seguinte forma de decomposição onde Tt é uma componente de tendência, Ct e uma componente cíclica ou sazonal e Rt é uma componente aleatória ou ruído (a parte não explicada, que espera-se ser puramente aleatória). A componente cíclica se repete a cada intervalo fixos, i.e. Assim, variações periódicas podem ser captadas por esta componente. 14

4.3. Modelos Box-Jenkins Segundo Apostila CE017-Análise de Séries Temporais, Professor Anselmo Chaves Neto,a metodologia Box & Jenkins é, sem dúvida,o mais importante trabalho na área de Previsão de Séries Temporais.Foi esse estudo o responsável pelo grande desenvolvimento e a correspondente formalização da área de estudo de Séries Temporais.O trabalho dos pesquisadores Box & Jenkins foi baseado no importante resultado de Wold (1938) qualquer série temporal pode ser representada por uma estrutura de médias móveis infinita ou melhor qualquer processo estocástico estacionário pode ser representado como a soma de dois processos mutuamente inter-relacionados,, onde D é linearmente determinístico (sistemático) e A, é um processo Médias Móveis infinito (MA( )). A parte determinística pode ser uma função exata do tempo, como por exemplo, que descreve uma oscilação senoidal ao longo do tempo.o caso mais simples para D é quando se tem. Box & Jenkins em 1970 propuseram uma classe geral de modelos lineares conhecida ARIMA (Autoregressive Integrated Moving Average) para a série temporal {, =1,2,3,...,n}. 4.4. Séries com Tendência Conforme notas de aula do professor Ricardo S. Ehlers 2009, não existe uma definição precisa de tendência e diferentes autores usam este termo de diversas formas. Podemos pensar em tendência como uma mudança de longo prazo no nível médio da série. A dificuldade aqui é definir longo prazo. A forma mais simples de tendência é (1.1) Onde são constantes a serem estimadas e denota um erro aleatório com média zero. O nível médio da série no tempo é dado por que é algumas vezes chamado de termo de tendência. Porém alguns autores preferem chamar a inclinação seja, a mudança no nível da série por unidade de tempo já que de tendência, ou. Note que a tendência na equação (1.1) é uma função determinística do tempo e algumas vezes é chamada de tendência global (i.e. vale para toda a série), em oposição a tendência local. De um modo geral, uma forma de se lidar com dados que contenham uma tendência consiste em ajustar uma função polinomial, Uma função linear ou quadrática seria apropriada no caso de uma tendência mono- tonicamente crescente ou decrescente. Caso contrário polinômios de ordem mais alta devem ser ajustados. Outras possíveis formas de tendência são os crescimentos descritos por uma curva Gompertz, 15

onde, e são parâmetros com, ou uma curva Logística, onde são parâmetros. Estas duas últimas são chamadas curvas S e se aproximam de uma assíntota quando. Neste caso o ajuste pode levar a equações não lineares. Seja qual for a curva utilizada, a função ajustada fornece uma medida da tendência da série, enquanto os resíduos (valores observados valores ajustados) fornecem uma estimativa de flutuações locais. 4.5. Função de Autocorrelação De acordo com notas de aula do professor Ricardo S. Ehlers 2009, os coeficientes de autocorrelação amostral de uma série temporal observada são uma ferramenta importante para descrever a série. Analogamente, a função de autocorrelação teórica (FAC) de um processo estocástico estacionário é uma ferramenta importante para acessar suas propriedades. A seguir serão apresentadas propriedades gerais da função de autocorrelação. Se um processo estocástico estacionário tem média e variância então e portanto. As seguintes propriedades são facilmente verificáveis. 1. A correlação entre e é a mesma que entre e, ou seja, 2. 3. Embora um processo estocástico tenha uma estrutura de autocovariância única o contrário não é verdadeiro em geral. É possível encontrar vários processos com a mesma função de autocorrelação, o que dificulta ainda mais a interpretação do correlograma. 4.6. Autocorrelações Parciais Para um processo AR( ), o último coeficiente mede o excesso de correlação na defasagem p que não é levado em conta por um modelo AR( ). Este é chamado de p- ésimo coeficiente de autocorrelação parcial. Assim, variando k= 1, 2,... temos a chamada função de autocorrelação parcial (FACP). Por outro lado, em um processo AR( ) não existe correlação direta entre e, Xt... e substituindo,,... nas equações de Yule-Walker obtêm-se que todos os coeficientes de correlação parcial serão nulos para. Por exemplo, substituindo-se segue que 16

O fato de que a FACP é igual a zero para é sugerido em Box and Jenkins (197º, p. 17º) como uma ferramenta para determinar a ordem p do processo autoregressivo para séries temporais observadas. 4.7. O Correlograma Um gráfico com os k primeiros coeficientes de autocorrelação como função de k é chamado de correlograma e pode ser uma ferramenta poderosa para identificar características da série temporal. Porém isto requer uma interpretação adequada do correlograma, i.e. deve-se associar certos padrões do correlograma como determinadas características de uma série temporal. Esta nem sempre é uma tarefa simples. 4.8. Modelos Sazonais Muitas séries temporais contêm uma componente periódica sazonal que se repete a cada observações ( ). Por exemplo, com dados mensais e tipicamente espera-se que dependa de -12 e talvez de -24 além de t-1 t-2 Neste caso tomar a primeira diferença não é suficiente e para tornar a série (aproximadamente) adamente) estacionária. A forma apropriada de diferenciar dados com padrão sazonal acentuado é tomar diferenças no período sazonal. Por exemplo, para dados mensais a primeira diferença sazonal é e terá variabilidade menor do que a primeira diferença não sazonal, sendo portanto mais fácil de identificar e estimar. Em geral, uma diferença sazonal é denotada por onde é o período sazonal. A D- ésima diferença sazonal é então denotada por. Combinando-se os dois tipos de diferenciação obtêm-se o operador. Por exemplo, tomando-se 1 diferença simples e 1 sazonal em uma série mensal tem-se que Box & Jenkins (197º) generalizaram o modelo ARIMA para lidar com sazonalidade e definiram um modelo ARIMA sazonal multiplicativo, denominado SARIMA, dado por onde 17

Este modelo é chamado SARIMA multiplicativo de ordem extremamente complicado à primeira vista mas na prática os valores de e e parece em geral não serão maiores do que 1 e um número pequeno de coeficientes será suficiente. Por exemplo, com temos que o que significa simplesmente que depende de t-s. A série é formada a partir da série original tomando-se diferenças simples para remover a tendência e diferenças sazonais para remover a sazonalidade. Para fixar idéias considere o modelo SARIMA para dados mensais. Ou seja, temos um termo autoregressivo e um termo média móvel sazonal modelando a primeira diferença sazonal. O modelo pode ser escrito como e desenvolvendo os produtos obtemos que Assim, depende de e além do erro no tempo. Para finalizar, ao ajustar um modelo sazonal aos dados a primeira tarefa é especificar os valores de e que tornam a série (aproximadamente) estacionária e remove a maior parte da sazonalidade. Como já foi dito, estes valores raramente amente serão maiores do que 1. Posteriormente os valores de e devem ser especificados com base nas funções de autocorrelação e autocorrelação parcial da série diferenciada. Os valores de e são especificados basicamente a partir de.... Por exemplo, para dados mensais se é grande mas é pequeno isto sugere que um termo média móvel sazonal pode ser adequado. Após ter identificado, por tentativa, o que parece ser um modelo SARIMA razoável os parâmetros serão estimados por algum procedimento iterativo similar àqueles pro- postos para modelos ARMA. Detalhes sobre as rotinas de estimação destes modelos não serão abordados aqui e podem ser obtidos em Box & Jenkins (197º). 4.9. Análise dos Resíduos Após um modelo ter sido ajustado a uma série temporal deve-se verificar se ele fornece uma descrição adequada dos dados. Assim como em outros modelos estatísticos a idéia é verificar o comportamento dos resíduos, onde resíduo = valor observado - valor ajustado. Para os modelos vistos aqui o valor ajustado é a previsão 1 passo a frente de modo que o resíduo fica definido como o erro de previsão 1 passo a frente. Por exemplo, em um modelo AR(1) se α é a estimativa do coeficiente autoregressivo então o valor ajustado no tempo t é α xt-1 e o resíduo correspondente respondente é et=xt-(α) xt-1. Se o modelo tiver um bom ajuste espera- se que os resíduos se distribuam aleatoriamente em torno de zero com variância aproximadamente constante e sejam não correlacionados. Se a variância dos resíduos for crescente uma transformação logarítmica nos dados pode ser apropriada. O fenômeno de não constância na variância é denominado de volatilidade na literatura de séries temporais e pode ser tratado através de transformações nos dados (e.g. transformações de Box-Cox)¹. Além 18

disso, em modelos de séries temporais os resíduos estão ordenados no tempo e é portanto natural tratá-los também como uma série temporal. É particularmente importante que os resíduos de um modelo estimado sejam serialmente (i.e. ao longo do tempo) não correlacionados. Evidência de correlação serial nos resíduos é uma indicação de que uma ou mais características da série não foi adequadamente descrita pelo modelo. Conseqüentemente, duas maneiras óbvias de verificar a adequação do modelo consistem em representar graficamente os resíduos e o seu correlograma. O gráfico temporal poderá revelar a presença de dados discrepantes, efeitos de autocorrelação ou padrões cíclicos enquanto que o correlograma permite uma análise mais detalhada da estrutura de autocorrelação indicando possíveis termos faltantes no modelo. Ou seja, assim como em outros modelos estatísticos, a idéia é que os resíduos poderão identificar características que não foram adequadamente modeladas. Por exemplo, autocorrelações residuais significativas nas defasagens 1 ou 2, ou em defasagens ¹Uma tendência mais recente no entanto consiste em tentar modelar simultaneamente a média e a variância ao invés de usar transformações. sazonais (e.g. 12 para dados mensais) são uma indicação de que mais termos médias móveis devem ser incluídos no modelo. Por outro lado, um valor de rk ligeiramente fora dos limites de confiança em defasagens sem significado óbvio (e.g. k=5) não é indicação suficiente para se rejeitar o modelo. O mesmo comentário vale para as autocorrelações parciais dos resíduos no que diz respeito a inclusão de termos autoregressivos (sazonais e não sazonais). 4.9.1. Testes de independência Ao invés de olhar para as autocorrelações residuais individualmente pode-se testar se um grupo de autocorrelações é significativamente diferente de zero através das chamadas estatísticas Q. Para modelos ARMA Box & Jenkins (1970) sugeriram o uso do teste de Box- Pierce para as hipóteses sendo a estatística de teste dada por Na prática o número m de autocorrelações amostrais é tipicamente escolhido entre 15 e 30. Se o modelo ajustado for apropriado então Q terá distribuição aproximadamente qui-quadrado com m-p-q graus de liberdade. Assim, valores grandes de Q fornecem indicação contra a hipótese de que as autocorrelações são todas nulas, em favor da hipótese de que ao menos uma delas é diferente de zero. O teste de Box-Pierce não tem bom desempenho em amostras pequenas ou moderadas no sentido de que a distribuição se afasta da qui-quadrado. Vários testes alternativos foram sugeridos na literatura e o mais conhecido é o teste de Ljung-Box, aonde a estatística de teste é dada por 19

Sua distribuição amostral também é aproximadamente qui-quadrado quadrado com liberdade. graus de 4.9.2. Teste de normalidade Em estatística, os testes de normalidade são usados para determinar se um conjunto de dados de uma dada variável aleatória, é bem modelada por uma distribuição normal ou não, ou para calcular a probabilidade da variável aleatória subjacente estar normalmente distribuída. O teste de Shapiro Wilk, proposto em 1965, calcula uma estatística W que testa se uma amostra aleatória de tamanho n provém de uma distribuição normal. Valores pequenos de W são evidência de desvios da normalidade e pontos percentuais para a estatística W, podem ser obtidos via simulação de Monte Carlo. A estatística W é calculada de acordo com a seguinte equação: em que os são os valores amostrais ordenado e os são constantes geradas das médias, variâncias e covariâncias das estatísticas de ordem de uma amostra aleatória de tamanho n de uma distribuição normal. Em comparação a outros testes de bondade de ajuste, esse teste comporta-se bem. No R existe a função shapiro.test(x). 4.10. Modelos de Holt-Winters O procedimento de alisamento exponencial pode ser generalizado para séries que com tenham tendência e variação sazonal. Suponha por exemplo que as observações são mensais e sejam, e o nível, a tendência e o índice sazonal no tempo. Assim, é o aumento ou redução esperada por mês no nível atual da série. Suponha que no tempo os termos ( 1 ),..., ( ) sejam conhecidos. Então, após observar os termos, e são atualizados via alisamento exponencial. Se a variação sazonal for multiplicativa, i.e. com amplitudes que tendem a crescer ao longo do tempo, as equações de atualização na forma de recorrência são dadas por 20

e as previsões k períodos a frente são dadas por No caso de sazonalidade aditiva as equações de atualização para o nível e o índice sazonal são modificadas para e as previsões k períodos à frente ficam Aqui temos parâmetros de alisamento α, γ e δ para cada componente da série que são em geral escolhidos no intervalo (0,1) e podem ser estimados minimizando-se a soma de quadrados dos erros de previsão como na seção anterior. Aqui vale também o comentário sobre valores próximos aos extremos devido à soma de quadrados variar pouco nesta região. Além disso, estes parâmetros não dependem da escala das observações mas sim das propriedades temporais do nível, tendência e sazonalidade da série. Valem os mesmos comentários sobre estes valores refletindo a influência das observações passadas nas previsões de cada componente. Para o caso particular de séries sem variação sazonal basta utilizar as equações para t e acima (sem o índice t-12 ). Ou seja, e a previsão k passos à frente no tempo t e simplesmente Lt+kTt. Se a série também não tem uma tendência sistemática retorna-se à equação (5.3), ou seja, e Lt e a previsão 1 passo à frente (( x) t(1)). Segundo Serra, C.M.V.; et. al. (2005), caso a amplitude da variação sazonal mantenha-se constante, diz-se que o modelo é aditivo (figura 1), caso aumente com o tempo, diz-se que o modelo é multiplicativo (figura 2). Figura 3 Modelo aditivo de Holt-Winters. Fonte: Ragsdale (2004) 21

Figura 4 Modelo multiplicativo de Holt-Winters. Fonte: Ragsdale (2004) Conforme afirmam Morettin e Toloi (1985) as vantagens de se utilizar o modelo proposto é que o mesmo é adequado à análise de séries s com padrão de comportamento geral. Já as desvantagens apontam quanto às dificuldades de determinar valores mais apropriados das constantes de alisamento e a impossibilidade de estudar propriedades estatísticas como médias e variâncias de previsão e, conseqüentemente, a construção de um intervalo de confiança. 4.11. Critérios para escolha do melhor modelo De acordo com notas de aula do professor Ricardo S. Ehlers 2009, em muitas aplicações vários modelos podem ser julgados adequados em termos do comportamento dos resíduos. Uma forma de discriminar entre estes modelos competidores é utilizar os chamados critérios de informação que levam em conta não apenas a qualidade do ajuste mas também penalizam a inclusão de parâmetros extras. Assim, um modelo com mais parâmetros pode ter um ajuste melhor mas não necessariamente será preferível em termos de critério de informação. A regra básica consiste em selecionar o modelo cujo critério de informação calculado seja mínimo. A regra mais utilizada em séries temporais é o chamado critério de informação de Akaike, denotado por AIC. A definição mais comumente utilizada é Onde m é o número de parâmetros. Para dados normalmente distribuídos e usando-se estimativas de máxima verossimilhança para os parâmetros pode-se mostrar que ¹ O fator 2 é somente uma convenção e não irá alterar a seleção do modelo. 22

4.12. MAPE A média do erro percentual absoluto (MAPE) é a medida de precisão em uma série temporal valor montados em estatísticas, especificamente tendências. É geralmente expressa como uma porcentagem de precisão, e é definido pela fórmula: onde A t é o valor real e t é o valor previsto. A diferença entre t e é dividido pelo valor real de um t novamente. O valor absoluto deste cálculo é somada para cada ponto instalado ou previsão de tempo e novamente dividido pelo número de n pontos instalados. Isso o torna uma percentagem de erro para que se possa comparar o erro de séries temporais equipado que diferem em nível. Existem outros critérios de informação que são basicamente modificações do AIC na forma de penalizar a inclusão de parâmetros extras, porém não serão citado nesse trabalho. 4.13. Performance Preditiva Na prática é preciso verificar se os resíduos se comportam de maneira aleatória (ou imprevisível) em torno de zero e com variância aproximadamente constante, além de serem não correlacionados ao longo do tempo. Além disso, dois ou mais modelos podem ser comparados segundo a sua performance preditiva, ou seja construindo-se se medidas baseadas nos erros de previsão. A maioria dos métodos de previsão baseia-se na idéia de minimizar somas de quadrados ou de valores absolutos dos erros de previsão e esta é também uma medida usada para comparar a adequação de modelos alternativos. A idéia então é comparar o erro quadrático médio ou erro absoluto médio para diferentes modelos, onde m é o número de parâmetros a serem estimados. Uma estratégia simples de se fazer previsões consiste em tomar a observação mais recente como a melhor previsão de um valor futuro da série, i.e Note que esta é a previsão 1 passo a frente de um passeio aleatório. Assim, uma forma de medir a capacidade preditiva de um modelo consiste em comparar seus erros de previsão com aqueles do passeio aleatório. Isto pode ser feito através da chamada estatística U de Theil definida como 23

Note que valores maiores do que 1 são uma indicação de que globalmente os erros de previsão tendem a ser grandes em relação aos erros de um passeio aleatório. Esta não é uma boa característica e gostaríamos que o valor de U fosse sempre menor do que 1. Vale notar também que neste caso os erros de previsão estão sendo avaliados independente da escala dos dados. Finalmente, vale notar que todas as medidas de capacidade preditiva citadas podem ser estendidas para erros de previsão) passos a frente. Outra prática comum em séries temporais consiste em estimar o modelo excluindo algumas observações finais e usar o modelo estimado para fazer previsões. Neste caso as previsões podem ser comparadas com os valores observados. Por exemplo, para uma série mensal observada ao longo de 5 anos poderia-se estimar o modelo identificado usando os primeiros 4 anos e meio (54 observaçoes) e fazer previsões para os últimos 6 meses. 5. APLICAÇÃO DA METODOLOGIA Uma vez de posse dos dados, plotou-se o consumo em função dos meses, com a finalidade de avaliar o comportamento da série quanto a estacionaridade, tendência de crescimento (ou decrescimento), sazonalidade ou ciclos. Para efeito de análise dos resultados fez-se a modelagem considerando o período de janeiro de 2001 até dezembro de 2009, prevendo os valores de janeiro a outubro de 2010, que serviram para comparação dos resultados previstos do modelo com os dados reais. Assim, logo após aplicou-se a metodologia nos dados de janeiro de 2001 a outubro de 2010 para previsão dos próximos seis meses (novembro de 2010 a abril de 2011), que serão as estimativas (pontuais e intervalares) que a empresa utilizará para a tomada de decisão na hora de comprar/importar os papéis SC e LWC. Como metodologia, aplicaram-se nos dados o modelo Autorregressivo Integrado de Médias Móveis para Dados Sazonais - SARIMA (p, d, q) e os modelos de alisamento exponencial de Holt-Winters - Aditivo e Multiplicativo. Para definir o melhor modelo SARIMA, ou seja, os parâmetros mais adequados para a modelagem, utilizou-se o critério de Akaike (AIC). A escolha entre SARIMA, Holt-Winters Aditivo ou Holt-Winters Multiplicativo, baseou-se no menor erro percentual médio (MAPE). Para o desenvolvimento desse trabalho utilizou-se o software R (R Development Core Team, 2010), versão 2.11.1, pacotes STATS, TSERIES e LATTICE. 5.1. Análise descritiva dos dados com tendência Os primeiros dados de consumo mensal de papéis SC e LWC podem ser vistos na tabela abaixo: Tabela 1: Primeiras linhas do banco de dados Ano Mês Kg.papel 2001 Jan 801499 2001 Fev 709774 2001 Mar 428274 2001 Abr 464605 2001 Mai 579913 2001 Jun 477221 24

Antes de se realizar qualquer análise estatística deve fazer um estudo descritivo dos dados. No gráfico a seguir, pode-se observar o comportamento da série no decorrer dos anos. Gráfico 1 - Consumo mensal de papel SC e LWC gramaturas 52, 56 e 60 no período de janeiro de 2001 a outubro de 2010. Podemos observar que há uma tendência de crescimento, ou seja, uma mudança de longo prazo no nível médio da série. Para uma interpretação mais detalhada, plotou-se também uma separação dos dados observados por ano, utilizando o pacote Lattice Graphics do R, (Sarkar, 2010). 25

Gráfico 2 - Consumo mensal de papel SC e LWC, separado por ano. Para validar a metodologia a ser adotada realizou-se a análise considerando os dados de janeiro de 2001 a dezembro 2009. Realizou-se a decomposição dos dados, na qual pode-se visualizar separadamente os componentes da série: tendência, sazonalidade e o resíduo, o que possibilita uma melhor interpretação dos dados. Gráfico 3 - Decomposição da série de consumo mensal no período o de janeiro de 2001 a dezembro de 2009. 26

No primeiro quadro estão os dados originais. A sazonalidade é apresentada no segundo quadro, no qual nota-se que a série possui uma nítida sazonalidade. Também se pode afirmar que a série possui tendência de crescimento, no terceiro quadro. E no último, é apresentado o resíduo, ou seja, o que não pode ser explicado pela sazonalidade nem pela tendência. Ademais, para propor os modelos é necessário verificar a função de autocorrelação (ACF) e a função de autocorrelação parcial (PACF). Gráfico 4 - Função de autocorrelação e função de autocorrelação parcial da série consumo mensal de papel no período de janeiro de 2001 a dezembro de 2009. Como se observa no correlograma acima,os valores da autocorrelação orrelação decaem para zero de uma forma relativamente lenta,indicando não estacionaridade.neste caso, pouca ou nenhuma informação pode ser extraída do correlograma já que a tendência dominará outras características.logo,a série precisa ser diferenciada com o objetivo de identificar melhor o comportamento da série. Espera-se se que uma vez removido esse efeito, o processo resultante seja estacionário. Aplicar esse tipo de diferenciação aos dados originais eliminam, fundamentalmente a tendência mas não a sazonalidade. Assim foi realizada a primeira diferença e plotadas as funções de autocorrelações. 27

Gráfico 5 - Função de autocorrelação e função de autocorrelação parcial da série diferenciada. Para vermos se a tendência foi eliminada, observaremos s a decomposição dessa primeira diferença no gráfico a seguir: 28

Gráfico 6 - Decomposição da série diferenciada. Concluí-se que a tendência foi eliminada com apenas uma diferença. Verificou-se então que há autocorrelação nos dados, sendo assim, pode-se prosseguir com a análise de séries temporais. 5.2. Modelagem Construi-se se os modelos SARIMA considerando uma diferenciação e Holt-Winters e verificou-se que os resultados não foram satisfatórios para empresa,devido a alta amplitude do intervalo de confiança das previsões,por causa da alta variablidade dos dados.uma alternativa para esse empecilho,foi aplicar uma transformação log nos dados originais afim de dar intervalos de confiança mais informativos para a gerência da gráfica.como resultado,verificou-se se que mesmo com transformação logarítima o intervalo permaneceu com grande amplitude.mais detalhes serão citados em considerações finais. Com a finalidade de melhorar tanto as previsões pontuais quanto as intervalares,optou-se por modelar a tendência através de um ajuste polinomial. 29

5.3. Ajuste Polinomial para tendência O ajuste polinomial para tendência consiste em ajustar um polinômio para a tendência da série, cuja função é do tipo: 2 n y ˆ = a + b1 x + b2 x + L+ b n x Uma linha de tendência polinomial l pode ajustar uma curva quando os dados têm diversas variações. A escolha da ordem da polinomial pode ser determinada pelo próprio perfil que os dados sugerem num gráfico de dispersão. Na figura abaixo,foram estimadas 3 curvas polinomiais para a tendência para que se possa escolher a que mais se adéqua aos dados. Gráfico 7 - Consumo mensal do papel e ajuste da tendência pelos polinômios de graus 2, 6, e 8, no período de janeiro de 2001 a dezembro de 2009. Percebe-se que não houve diferenças significativas entre as curvas de grau 6 e de grau 8. Como o propósito é escolher o mais simples,escolheu-se se o polinômio de sexto grau. Para esse trabalho, o ajuste foi calculado com uma função criada no R (detalhes em anexos). Assim, foram utilizados os seguintes parâmetros para o cálculo dos coeficientes: > x=1:108 > X=matrix(NA,108,6) > for (i in 1:6) X[,i] = x**i > a=as.numeric(lm(kg.papel~x)$coeff) 30

Os coeficientes ajustados para o polinômio de sexto grau para os dados de 2001 a 2009 foram: > a [1] 1.013531e+06-1.754977e+05 1.787076e+04-6.310673e+02 1.029994e+01 [6] -7.853930e-0202 2.259556e-04 Já para a tendência estimada para os dados previstos de 2010 foi calculada utilizando os coeficientes acima e substituindo na função. Segue abaixo a tendência estimada via ajuste polinomial: Tabela 2: Tendências para as previsões de janeiro a outubro de 2010. Tendência jan/10 1.402.594 fev/10 1.419.467 mar/10 1.452.894 abr/10 1.505.450 mai/10 1.579.911 jun/10 1.679.270 jul/10 1.806.738 ago/10 1.965.754 set/10 2.160.001 out/10 2.393.407 5.4. Procedimento utilizado para estimar os valores futuros Segue abaixo uma representação do que foi realizado para se ter a previsão dos dados: Dados Sem Tendência¹ Previsões Sem Tendência Tendência Estimada Previsões Sem Tendência Previsões dos Dados Originais² Legenda ¹Dados Sem Tendência = Dados Originais Tendência( estimada via função polinomial de sexto grau) ²Dados Originais = Dados Sem Tendência + Tendência( estimada via função polinomial de sexto grau) 31

5.5. Análise descritiva para os dados sem tendência Após a retirada da tendência dos dados originais realizou-se as análises descritivas abaixo, para verificar se a série sem tendência ainda possui características de séries temporais. Gráfico 8 - Série sem tendência do consumo mensal de papel SC e LWC gramaturas 52, 56 e 60 no período de janeiro de 2001 a dezembro de 2009. Em seguida verifica-se o gráfico de autocorrelação: 32

Gráfico 9 - Função de autocorrelação e função de autocorrelação parcial da série sem tendência. Verificou-se então que há autocorrelação nos dados, sendo assim, sim, pode-se prosseguir com a análise de séries temporais. 5.6. Modelagem para Séries Temporais As propostas dos modelos basearam-se fundamentalmente nas funções de autocorrelações. Através da ACF defini-se o parâmetro q do SARIMA, ou seja, a ordem do termo de médias móveis da série. E a PAFC define o parâmetro p do SARIMA, propondo a ordem to termo autorregressivo da série.de acordo com alguns autores,como Morettin & Toloi (2004), é ressaltado que os modelos devem ser simples,sendo assim,fez-se se todas as combinações com parâmetros simples: ajuste1=arima(dadossemtendencia, order = c(1,0,1), seasonal = list(order=c(1,0,1))) ajuste2=arima(dadossemtendencia, order = c(1,0,2), seasonal = list(order=c(1,0,2))) ajuste3=arima(dadossemtendencia, order = c(1,0,3), seasonal = list(order=c(1,0,3))) ajuste4=arima(dadossemtendencia, order = c(2,0,1), seasonal = list(order=c(2,0,1))) ajuste5=arima(dadossemtendencia, order = c(2,0,2), seasonal = list(order=c(2,0,2))) ajuste6=arima(dadossemtendencia, order = c(2,0,3), seasonal = list(order=c(2,0,3))) ajuste7=arima(dadossemtendencia, order = c(3,0,1), seasonal = list(order=c(3,0,1))) ajuste8=arima(dadossemtendencia, order = c(3,0,2), seasonal = list(order=c(3,0,2))) ajuste9=arima(dadossemtendencia, order = c(3,0,3), seasonal = list(order=c(3,0,3))) 33

5.7. Critérios de Seleção do Modelo Para decidir qual será o melhor modelo para explicar a série e posteriormente fazer previsões, utilizou-se o critério de informação Akaike (AIC),pois é a regra mais utilizada em séries temporais.de acordo com a Wikipedia, o critério de informação de Akaike foi desenvolvido pela Hirotsugu Akaike sob o nome de um critério de informação (AIC), em 1971, e propôs em Akaike (1974), é uma medida da qualidade do ajuste de cerca de modelo estatístico. Ele se baseia no conceito de entropia, de fato oferecendo uma medida relativa da perda de informações quando um determinado modelo é usado para descrever a realidade e pode ser dito para descrever o equilíbrio entre viés e variância na construção do modelo, ou vagamente falar que de precisão e complexidade do modelo. Assim, para os modelos propostos, foram resultados os seguintes AIC: Tabela 3 - DF e Critério de Akaike para os modelos ajustados. MODELO DF AIC ajuste1 6 2.979.273 ajuste2 8 2.982.356 ajuste3 10 2.974.874 ajuste4 8 2.982.526 ajuste5 10 2.982.640 ajuste6 12 2.983.702 ajuste7 10 2.974.195 ajuste8 12 2.985.384 ajuste9 14 2.969.734 Após rodar os ajustes e ver os AIC, percebeu-se que o erro padrão de alguns ajustes não foram estimados devido à mensagem NaN * aparecer no lugar do erro padrão estimado. (ver comandos em anexos). *NaN : Segundo a Wikipedia, NaN ( Not a Number, ou seja, não é um número), é um valor de tipo de dados numéricos representando um valor indefinido ou irrepresentável, especialmente em cálculos de ponto flutuante. Por exemplo, 0 / 0 é indefinido como um número real, e assim representado por NaN. Sendo assim,foram eliminados esses modelos que apresentavam NaNs e dentre os que sobraram,foi escolhido o modelo com menor AIC. Portanto, o ajuste 1 foi escolhido. > ajuste1 Call: arima(x = dadossemtendencia, order = c(1, 0, 1), seasonal = list(order = c(1, 0, 1))) Coefficients: ar1 ma1 sar1 sma1 intercept 0.3452-0.2694 0.3452-0.2694 24.3122 s.e. 0.7485 0.7755 0.7485 0.7755 26728.2181 sigma^2 estimated as 5.007e+10: log likelihood = -1483.64, aic = 2979.27 34

5.8. Análise Residual Após a escolha do modelo é necessário realizar a análise de resíduos (observação valor ajustado). Se o modelo for adequado aos dados espera-se se que os resíduos se distribuam aleatoriamente em torno de zero com variância aproximadamente constante. Também espera- se que os resíduos sejam independentes e possuam distribuição normal. No terceiro quadro do gráfico abaixo é apresentado o Teste Ljung Box, cuja distribuição amostral é aproximadamente Qui-quadrado com m-p-q graus de liberdade para testar a independência dos resíduos, cujas hipóteses podem ser interpretadas da seguinte forma: Ho: Resíduos independentes vs Ha: Resíduos não são independentes. Gráfico 10 - Análise de resíduos do ajuste1 para a série sem tendência. Pode-se observar que todas as observações possuem um p-valor alto, indicação de que os resíduos são independentes. Cerca de 95% das bolinhas acima da barra é um indicativo de independência. 35

Para verificar a normalidade dos resíduos, segue abaixo o Teste deshapiro-wilk que vefica as seguintes hipóteses: Ho: Resíduos possuem distribuição normal vs Ha: Resíduos não possuem distribuição normal. z=ajuste1$residuals a=shapiro.test(z) a Shapiro-Wilk normality test data: z W = 0.9907, p-value = 0.6701 O p-valor alto não mostra evidências para a rejeição da hipótese nula, ou seja, os dados são normalmente distribuidos. Também pode-se verificar o histograma dos resíduos do ajuste escolhido e o gráfico Normal Q-Q Plot: Gráfico 11 - Histograma e gráfico Q-Qplot Qplot dos resíduos para o modelo da série sem tendência. 36

Com esta análise residual, pode-se afirmar que o modelo escolhido é adequado aos dados, pois os resíduos seguem os pressupostos de normalidade e independência. 5.9. Performance Preditiva Modelo SARIMA Uma forma de medir a capacidade preditiva do modelo consiste em comparar seus erros de previsão com aqueles do passeio aleatório. Isso pode ser feito através da chamada estatística U de Theil. O coeficiente U de Theil, avalia o desempenho da previsão em relação à previsão ingênua ou trivial. Previsão ingênua ou trivial significa que a estimativa do valor futuro é igual ao valor atual. O coeficiente U de Theil analisa a qualidade de uma previsão através dos seguintes valores: - U > 1, significa que o erro do modelo é maior do que da previsão ingênua; - U < 1, significa que o erro do modelo é menor que da previsão ingênua. O coeficiente U de Theil menor do que 1 já indica uma previsão melhor que a previsão ingênua; quanto mais próximo o mesmo for de zero, melhor será o resultado da previsão. A estatística U- Theil aplicada aos dados estimados e observados de janeiro a outubro de 2010 é: 0,06 indicando também uma boa qualidade do modelo em relação aos valores preditos. Conforme dito anteriormente, o ajustes SARIMA foi modelado em cima de dados sem tendência e para comparar com os dados reais, foi somada a tendência. O modelo escolhido foi: > ajuste1=arima(dadossemtendencia, order = c(1,0,1), seasonal = list(order=c(1,0,1))) Assim, para a estatística U-Theil, os dados estimados pelo modelo são os dados sem tendência menos os resíduos do ajuste escolhido: >estimados = dadossemtendencia - ajuste1$residuals E os observados é a série sem tendência (ver gráfico 8). Assim, como a estatística U-Theil mede o quanto a curva dos dados observados (série sem tendência gráfico 8) se parece com os valores estimados do modelo, segue abaixo um gráfico dos observados x estimados do modelo sem tendência: 37