Capítulo 7 OUTLIERS E SOFTWARE DE ANÁLISE ES- TATÍSTICA 7.1 ANÁLISE DE SOFTWARES ESTATÍSTICOS Existe um número considerável de "packages" de análise estatística disponíveis comercialmente. Entre eles, na perspectiva dos outliers, estudámos o STATISTICA versão 5.1 da Statsoft, o SYSTAT versão 5.03, o SPSS versão 7.0 e o sistema estatístico da Scientific Computing Associates (SCA) versão 5.2. A análise aos "packages", teve como objectivo verificar a forma como eram tratados os outliers nos respectivos módulos de séries temporais, nomeadamente verificar: * Se existe a possibilidade de estimação robusta dos parâmetros ARMA, nomeadamente o cálculo dos estimadores M, GM, AR e TRA. * Se existe algum procedimento que permita a detecção das observações outlier. Seja o procedimento de detecção e estimação conjunta dos outliers e seus efeitos ou outro qualquer procedimento de diagnóstico, nomeadamente de detecção das observações influentes. * Se ao nível das previsões, estas prevêem a possibilidade de estar presente um outlier na origem ou próximo da origem da previsão. 153
7.1.1 STATISTICA versão 5.1 Um dos softwares de análise estatística mais conhecido é STATISTICA (versão 5.1 de 1996) da Statsoft. O modulo de séries temporais providência um vasto conjunto de técnicas de análise das séries. Apesar de se tratar de um "package" estatístico relativamente completo, é no entanto, relativamente pobre no campo dos outliers. Assim, não existe qualquer método especifico de detecção. No que respeita à estimação dos parâmetros dos modelos ARMA são propostos vários métodos, pode-se escolher entre (i) método de máxima verosimilhança aproximado de acordo com McLeod e Sales (1983), (ii) método de máxima verosimilhança aproximado com "backcasting", e (iii) método de máxima verosimilhança exacto de acordo com Melard (1984). Na abordagem robusta, às observações outlier são atribuídas, no processo de estimação, ponderações inferiores através de vários tipos de funções ψ. Deste modo não existe no STATISTICA a opção de estimação robusta, no sentido de limitar a influência dos outliers na modelação de séries temporais. Como vimos, no capítulo 2, o modelo de intervenção de Box e Tiao (1975) pode ser especificado de modo a descrever múltiplas perturbações dinâmicas, nomeadamente os AO, IO e alterações de nível. Neste sentido, o modulo de séries temporais do STATISTICA permite ao utilizador definir vários tipos de intervenção, podendo então ser estimados os seus efeitos conjuntamente com os parâmetros ARIMA. Além disso podem ser efectuadas previsões em modelos de intervenção. Contudo, assumese que o período em que se dá a perturbação, bem como o seu tipo é conhecido, não existindo pois um método de diagnóstico que nos permita detectar os outliers, tipo e sua localização. 154
7.1.2 SYSTAT versão 5.03 O SYSTAT versão 5.03 de 1993 revela-se bastante pobre no tratamento deste tema. Inclusive, no "help" não existe qualquer informação acerca do tópico outlier. Esta omissão traduz de certa forma o conteúdo do "package", assim não está disponível qualquer método especifico de diagnóstico das observações discordantes no âmbito das séries temporais e não é possível efectuar estimação robusta dos parâmetros ARMA. Por outro lado, como aspecto revelador das suas carências, o SYSTAT não contempla modelos de intervenção. 7.1.3 SPSS versão 7.0 O SPSS versão 7.0 de 1995 contempla algumas opções construídas especificamente para tratar os outliers. Por exemplo, alternativamente à média amostral e à mediana como estimativas do centro de uma amostra o SPSS permite o cálculo de estimadores M. Os quais podem ser calculados consoante diferentes ponderações, nomeadamente entre outros, os estimadores M de Huber, os estimadores redescendentes de Hampel, e os biquadrado de Tukey. No entanto, o módulo de séries temporais não prevê a possibilidade de efectuar estimação robusta ao nível dos parâmetros ARMA. Noutro sentido, o módulo de regressão linear calcula algumas medidas de distância (Mahalanobis, Cook e medidas de alavanca) o que permite identificar pontos influentes. No entanto também neste capítulo o módulo de séries temporais não permite o cálculo dessas medidas de influência, ou outra qualquer estatística de teste especificamente construída para detectar observações outlier. 155
7.1.4 Sistema estatístico do SCA versão 5.2 O sistema estatístico do Scientific Computing Associates (SCA) versão 5.2 de 1997 foi desenvolvido por Lon-Mu Liu com contribuições de Chung Chen, George C. Tiao e Ruey S. Tsay, os mesmos autores que propuseram o procedimento iterativo de detecção e estimação conjunta dos parâmetros do modelo ARMA e efeito dos outliers. O sistema estatístico do SCA é composto de vários módulos entre eles o de modelação e previsão em séries temporais, composto por dois produtos: UTS: Análise e previsão de séries temporais univariadas usando os modelos de Box-Jenkins ARIMA, intervenção e funções de transferência. XUTS: Análise e previsão de séries temporais univariadas com detecção e ajustamento automática de outliers, bem como análise e previsão de séries temporais com dados omissos. O módulo XUTS contempla um procedimento sequencial de detecção e ajustamento dos efeitos outliers utilizando modelos de intervenção, método este que corresponde ao descrito por Chang, Tiao e Chen (1988) e apresentado nos pontos 4.1 e 4.2. Neste procedimento, é estimado primeiro um modelo ARMA, assumindo que não existem outliers. O procedimento de detecção de outliers é aplicado aos resíduos para verificar se está presente algum outlier. Em caso afirmativo é estimado um novo modelo, o qual inclui os outliers detectados como componentes de intervenção. A detecção e ajustamento dos outliers continuam, após a estimação do modelo de intervenção, até ser necessário. Este procedimento pode ser implementado no sistema do SCA através dos comandos TSMODEL, ESTIM e OUTLIER. O sistema do SCA prevê ainda a possibilidade de utilização do procedimento iterativo de estimação conjunta dos parâmetros do modelo e efeito dos outliers proposto por Chen e Liu (1993a). Este procedimento é implementado através do comando 156
OESTIM. Este método difere do anterior em diversos aspectos. Primeiro, a detecção de outliers é feita iterativamente com base em ambos, os resíduos e observações ajustados. Ou seja, sempre que um outlier é detectado, o seu efeito pode ser removido da série observada, bem como dos resíduos do modelo estimado. Ajustando a série observada, o procedimento evita a necessidade de formular e estimar um modelo de intervenção. Segundo, os outliers são detectados com base em estimativas robustas dos parâmetros do modelo. Finalmente, os efeitos dos outliers são estimados conjuntamente usando a regressão multivariada. Como resultado, este procedimento produz estimativas dos parâmetros mais robustas e reduz o efeito "masking" na detecção de outliers. O comando OFORECAST estende as capacidades de detecção e ajustamento dos efeitos dos outliers do sistema do SCA à previsão de séries temporais em presença de outliers. O comando detecta e ajusta os outliers antes do calculo das previsões. Estas são então calculadas usando o modelo estimado com ajustamento do efeito do outlier. Geralmente os outliers correspondem aos detectados com o comando OESTIM. Contudo, o comando OFORECAST é mais sensível aos outliers no fim da série, pois o valor critico de detecção é mais reduzido para a origem da previsão (normalmente o fim da série) e para as duas observações antecedentes. 7.2 PROGRAMAS DE DETECÇÃO DE OUTLIERS Dada a limitação dos "packages" estatísticos disponíveis no tratamento do tema e de modo a exemplificar alguns aspectos teóricos, desenvolvemos programas informáticos que nos permite determinar o valor de algumas estatísticas indicadoras da presença de outliers numa série temporal. Os programas foram desenvolvidos no ambiente 157
do software STATISTICA versão 5.1, recorrendo à linguagem de programação própria do STATISTICA (veja-se os anexos). Os programas permitem calcular as estatísticas de detecção segundo o Método GAN propostas por Rosado (1984), as medidas de alavanca propostas por Lee e Hui (1993), bem como as estatísticas Q de Abraham e Chuang (1989) e foram utilizados nos cálculos dos exemplos 5.1, 5.2, 5.3 e 5.4. Para instalar os programas deve-se simplesmente correr o ficheiro INSTALL contido na disquete com a indicação do directório onde se encontra instalado o STA- TISTICA (em geral deverá ser dada a instrução INSTALL STAT). Deste modo, ao entrar-se no ambiente do software STATISTICA surge a seguinte caixa de diálogo: 7.2.1 Método GAN O comando MÉTODO GAN acciona o programa de detecção de outliers com base nas estatísticas propostas por Rosado (1984), no modelo de discordância com outliers por σ, considerandoσ e σ desconhecidos. Em presença de uma colecção de resíduos (as quais devem ser colocadas no primeira coluna da base de dados do STATISTICA) resultantes da estimação dos parâmetros do modelo subjacente à série, a qual deverá ser encontrada previamente, utilizando por exemplo os recursos de análise de séries temporais do STATISTICA. Com base nesses resíduos o programa calcula a estatística (5.1.10) utilizada no quadro de detecção de outliers do Método GAN. Posteriormente são identificados os resíduos 158
que apresentam valores mais significativos e como tal candidatos a outliers. O programa disponibiliza ainda os valores crítico, considerando níveis de confiança a 5% e a 1% que nos permitem concluir se o resíduo é proveniente de uma observação outlier. 7.2.2 Medidas de alavanca O comando MEDIDAS DE ALAVANCA acciona o programa de detecção de outliers com base nas medidas desenvolvidas por Lee e Hui (1993). Em presença de uma colecção de observações contaminadas (as quais devem ser colocadas no primeira coluna da base de dados do STATISTICA), o programa exige que o utilizador introduza estimativas preliminares dos parâmetros autoregressivos, φ e σ 2, as quais deverão ser encontrados previamente, utilizando por exemplo os recursos de análise de séries temporais do STATISTICA. Com base nessas estimativas, são simuladas 19 colecções de dados e para cada uma são calculados e ordenados os valores das estatísticas alavanca, h ( i ). Posteriormente é construído o gráfico do envelope simulado com os máximos e mínimos de cada estatística de ordem das 19 réplicas em conjunto com as medidas de alavanca ordenadas das observações originais (série contaminada). O programa gera ainda um gráfico temporal com as medidas de alavanca da série contaminada, bem como tabelas com as medidas e matriz de projecção H. Deste modo no quadro dos modelos autoregressivos AR(p) o programa permite detectar outliers com base na inspecção visual dos gráficos das medidas de alavanca e envelope simulado. No caso de séries temporais cujo processo subjacente é um modelo ARMA(p,q) poderá considerar-se uma aproximação autotoregressiva ( ) * * AR p, p p. 159
7.2.3 Estatísticas Q O comando ESTATÍSTICAS Q, como a designação indica permite calcular as mediadas de diagnóstico de Abraham e Chuang (1989). Deste modo, em presença de uma colecção de observações contaminadas, o programa calcula sucessivamente as estatísticas Q, respectivamente, Q k( T) e Q k2( T), correspondendo à eliminação de uma observação, k = 1, e k = p+1 observações. O programa disponibiliza como "output" tabelas com as diversas estatísticas Q, bem como os gráficos das diversas estatísticas versus o período temporal respectivo. Como elemento prévio o utilizador deverá definir qual a ordem do processo autoregressivo, p. O programa disponibiliza pois um conjunto de instrumentos que permitem não só detectar mas também distinguir um AO de um IO no contexto de um modelo AR(p). Também neste caso as séries temporais cujo processo subjacente é um ARMA(p,q) pode ser aproximado, por exemplo, por um AR(p+q). 160