MÉTODOS DE DETECÇÃO ALTERNATI- VOS

Documentos relacionados
EXAME DE ESTATÍSTICA AMBIENTAL Ano lectivo 2015/16-1ª Época (V1) 18 de Janeiro de 2016

EXAME DE ESTATÍSTICA AMBIENTAL 2ª Época (V1)

ECONOMETRIA. Prof. Patricia Maria Bortolon, D. Sc.

EXAME DE ESTATÍSTICA AMBIENTAL 1ª Época (v1)

MODELOS E OUTLIERS EM SÉRIES TEM- PORAIS

Conceito. Exemplos. Os exemplos de (a) a (d) mostram séries discretas, enquanto que os de (e) a (g) ilustram séries contínuas.

Prof. Lorí Viali, Dr. UFRGS Instituto de Matemática - Departamento de Estatística

Aplicações à Teoria da Confiabilidade

Grupo I (Cotação: 0 a 3.6 valores: uma resposta certa vale 1.2 valores e uma errada valores)

*UiILFRGH&RQWUROH(:0$

IV. METODOLOGIA ECONOMÉTRICA PROPOSTA PARA O CAPM CONDICIONAL A Função Máxima Verosimilhança e o Algoritmo de Berndt, Hall, Hall e Hausman

MÉTODOS PARAMÉTRICOS PARA A ANÁLISE DE DADOS DE SOBREVIVÊNCIA

3 Uma metodologia para validação estatística da análise técnica: a busca pela homogeneidade

Análise de séries de tempo: modelos de decomposição

Séries temporais Modelos de suavização exponencial. Séries de temporais Modelos de suavização exponencial

5.1. Filtragem dos Estados de um Sistema Não-Linear Unidimensional. Considere-se o seguinte MEE [20] expresso por: t t

Características dos Processos ARMA

3 Modelos de Markov Ocultos

4 Filtro de Kalman. 4.1 Introdução

4 Análise de Sensibilidade

Módulo de Regressão e Séries S Temporais

4 O modelo econométrico

Análise de Pós-optimização e de Sensibilidade

Enunciado genérico. Trabalho: Séries Temporais Disciplina: Estatística Ambiental

Exercícios sobre o Modelo Logístico Discreto

Prof. Carlos H. C. Ribeiro ramal 5895 sala 106 IEC

Teoremas Básicos de Equações a Diferenças Lineares

3 Metodologia do Estudo 3.1. Tipo de Pesquisa

Circuitos Elétricos I EEL420

Cálculo do valor em risco dos ativos financeiros da Petrobrás e da Vale via modelos ARMA-GARCH

4 O Papel das Reservas no Custo da Crise

Econometria Semestre

Modelos Não-Lineares

Universidade Federal de Lavras

4. Modelagem (3) (4) 4.1. Estacionaridade

Modelagem e Previsão do Índice de Saponificação do Óleo de Soja da Giovelli & Cia Indústria de Óleos Vegetais

Aplicação. Uma famosa consultoria foi contratada por uma empresa. que, entre outras coisas, gostaria de entender o processo

Comportamento Assimptótico dos Mínimos Quadrados Questão: Será que a estimativa de mínimos quadrados converge para o valor verdadeiro dos parâmetros?

Tabela: Variáveis reais e nominais

Universidade Federal do Rio de Janeiro

TRANSFORMADA DE FOURIER NOTAS DE AULA (CAP. 18 LIVRO DO NILSON)

REDUÇÃO DE DIMENSIONALIDADE

III Congresso da Sociedade Portuguesa de Estatística Guimarães, 26 a 28 Junho 1995

4 Metodologia Proposta para o Cálculo do Valor de Opções Reais por Simulação Monte Carlo com Aproximação por Números Fuzzy e Algoritmos Genéticos.

DEPARTAMENTO DE ESTATÍSTICA - UFSCar 6 a Lista de exercício de Teoria de Matrizes 28/06/2017

4 Análise dos tributos das concessionárias selecionadas

3 O Modelo SAGA de Gestão de Estoques

Estimação em Processos ARMA com Adição de Termos de Perturbação

3 Modelo Teórico e Especificação Econométrica

4 Método de geração de cenários em árvore

3 Metodologia 3.1. O modelo

Séries de Tempo. José Fajardo. Agosto EBAPE- Fundação Getulio Vargas

4 Modelo de fatores para classes de ativos

Estimação em Modelos de Volatilidade Estocástica com Memória Longa

A entropia de uma tabela de vida em previdência social *

3 Retorno, Marcação a Mercado e Estimadores de Volatilidade

Capítulo 4. Propriedades dos Estimadores de Mínimos Quadrados

4. SINAL E CONDICIONAMENTO DE SINAL

5 Metodologia Probabilística de Estimativa de Reservas Considerando o Efeito-Preço

Voo Nivelado - Avião a Hélice

Experiência IV (aulas 06 e 07) Queda livre

SISTEMAS DE EQUAÇÕES A DIFERENÇAS LINEARES

DEMOGRAFIA. Assim, no processo de planeamento é muito importante conhecer a POPULAÇÃO porque:

Modelos BioMatemáticos

5 Erro de Apreçamento: Custo de Transação versus Convenience Yield

2.6 - Conceitos de Correlação para Sinais Periódicos

2 Os métodos da família X Introdução

Análise de Informação Económica e Empresarial

Teste F na Regressão Linear Múltipla para Dados Temporais com Correlação Serial.

Cap. 5 - Tiristores 1

Instituto de Física USP. Física V - Aula 26. Professora: Mazé Bechara

2 Revisão Bibliográfica

O gráfico que é uma reta

Comportamento Assimptótico dos Mínimos Quadrados. Questão: Será que a estimativa de mínimos quadrados converge para o valor verdadeiro dos parâmetros?

APÊNDICE A. Rotação de um MDT

Modelos de Crescimento Endógeno de 1ªgeração

Análise de Projectos ESAPL / IPVC. Critérios de Valorização e Selecção de Investimentos. Métodos Dinâmicos

Motivação. Prof. Lorí Viali, Dr.

Antes de mais nada, é importante notar que isso nem sempre faz sentido do ponto de vista biológico.

5 Aplicação da Modelagem Estrutural ao problema de previsão de Preço Spot de Energia Elétrica.

Lista de Exercícios #11 Assunto: Séries Temporais

Instituto de Física USP. Física Moderna. Aula 23. Professora: Mazé Bechara

Fernando de Oliveira Durão

3 Estudo da Barra de Geração [1]

SISTEMAS DE FILAS DE ESPERA COM INFINITOS SERVIDORES UMA APLICAÇÃO EM LOGÍSTICA

Estudo comparativo do fluxo de caminhões nos portos de Uruguaiana e Foz do Iguaçu

AULA 22 PROCESSO DE TORNEAMENTO: CONDIÇÕES ECONÔMICAS DE USINAGEM

Introdução ao Controle Ótimo: Otimização de funções e funcionais. Otimização paramétrica. Problema de controle ótimo com tempo final fixo.

Definição 0.1. Define se a derivada direcional de f : R n R em um ponto X 0 na direção do vetor unitário u como sendo: df 0) = lim t 0 t (1)

APOSTILA DE MODELOS LINEARES EM SÉRIES TEMPORAIS

Lista de exercícios 3. September 15, 2016

3 LTC Load Tap Change

UNIVERSIDADE FEDERAL DO PARÁ CÁLCULO II - PROJETO NEWTON AULA 20. Palavras-chaves: derivada,derivada direcional, gradiente

Capítulo 7. O Modelo de Regressão Linear Múltipla

CAPÍTULO 10 DERIVADAS DIRECIONAIS

6 Processos Estocásticos

1 Pesquisador - Embrapa Semiárido. 2 Analista Embrapa Semiárido.

O gráfico que é uma reta

Observação: No próximo documento veremos como escrever a solução de um sistema escalonado que possui mais incógnitas que equações.

ANÁLISE DE SÉRIES TEMPORAIS NA PREVISÃO DA RECEITA DE UMA MERCEARIA LOCALIZADA EM BELÉM-PA USANDO O MODELO HOLT- WINTERS PADRÃO

Transcrição:

Capíulo 5 MÉTODOS DE DETECÇÃO ALTERNATI- VOS 5. INTRODUÇÃO Nese capíulo são apresenados méodos de deecção de ouliers, alernaivos ao méodo baseado no ese das razões de verosimilhanças referido no capíulo anerior. A primeira esraégia de diagnósico consise no esudo do comporameno dos resíduos em presença de conaminação segundo uma meodologia desenvolvida por Rosado (984). Lee e Hui (993), no conexo de um modelo AR(p), propuseram uma esraégia de deecção de ouliers adiivos com base nos elemenos da diagonal da mariz de projecção, designadas como medidas de alavanca ("leverages"). A écnica de diagnósico consegue ainda idenificar ouliers inovadores e é paricularmene eficaz quando esão presenes múliplos e consecuivos ouliers. Ouro méodo de deecção no quadro dos modelos auoregressivos AR(p), relaivamene simples de implemenar consise nas esaísicas Q, proposas por Abraham e Chuang (989), as quais consiuem uma medida do efeio da eliminação das observações oulier no valor esimado dos resíduos. Uma vanagem desas esaísicas raduzse na possibilidade não só de deecar mas ambém disinguir um AO de um IO. Os auores propuseram ainda um procedimeno, em quaro eapas, para modelar as séries emporais em presença de ouliers, no qual um processo ARMA(p,q) é aproximado por um AR(p+q). 76

Uma oura perspeciva direcamene relacionada com a anerior, embora diferene, consise na deecção de ouliers influenes. Iso porque um oulier pode ou não afecar consideravelmene as esimaivas dos parâmeros do modelo, como sejam os coeficienes ARMA e a variância do ruído. Nesse senido, apresenamos um conjuno de méodos e medidas de diagnósico de observações influenes. Como vimos no capíulo, a presença de ouliers numa série pode er efeios dramáicos no valor esimado das auocorrelações, paricularmene em séries emporais de cura duração, o que pode er implicações nefasas na fase de idenificação do modelo da meodologia de Box e Jenkins. Nessas circunsâncias, Chernick, Downing e Pike (98) propuseram, anes de iniciada a meodologia, o cálculo da mariz da função de influência das auocorrelações de modo a idenificar ouliers influenes. Peña (990) no quadro dos modelos ARMA, apresenou esaísicas indicadoras de AO e IO que êm fore influência no valor dos coeficienes esimados, as quais se baseiam na subsiuição das observações discordanes por valores inerpolados. Esas medidas de diagnósicos são paricularmene eficazes na deecção de ouliers isolados. No enano a exisência de múliplos e consecuivos ouliers coloca problemas aos méodos de deecção. Iso porque o efeio de um único oulier num grupo pode ser oculado pelo efeio de ouros ouliers siuados na vizinhança. Ese comporameno pode ser viso como uma forma de "masking". Nesse senido, Yaawara e Lin (994) propuseram uma esaísica de diagnósico de observações influenes que permie deecar múliplos ouliers. Num exenso arigo Bruce e Marin (989) propuseram duas medidas de diagnósico para os modelos ARMA, baseadas na eliminação de observações e medição da aleração nas esimaivas dos parâmeros. O diagnósico DV mede as alerações na variância esimada do ruído, e o diagnósico DC mede a aleração nos coeficienes ARMA esimados em presença de ouliers. É ainda proposo uma esraégia de deecção baseada num procedimeno de eliminação ieraiva, em presença de múliplos e 77

consecuivos ouliers. Por úlimo, Ledoler (990) aplicou às séries emporais as medidas de deslocameno da verosimilhança inroduzidas por Cook (986, 987), as quais medem a influência das perurbações nas esimaivas dos parâmeros pela aleração provocada no logarimo da função de verosimilhança. Com base nelas Ledoler (990) propôs uma esaísica simples de diagnósico das observações influenes. 5. UM TESTE SIMPLES DE DISCORDÂNCIA Como vimos aneriormene, o comporameno dos resíduos, obidos a parir da esimação pelo méodo dos MQ dos parâmeros do modelo subjacene à série emporal, pode ser um indicador da presença de ouliers, numa eapa preliminar de diagnósico. Um criério inroduzido por Rosado (984) designado por Méodo GAN (méodo baseado no Modelo Generaivo com Alernaiva Naural como modelo de discordância) permie inroduzir um alo grau de objecividade na resolução de problemas com ouliers, em paricular nos eses de homogeneidade que, em úlima análise, podem conduzir à rejeição ou aceiação de uma observação da amosra. Nesse rabalho, o auor aborda o esudo das observações discordanes com formulação do problema de deecção de ouliers para uma disribuição especificada à priori baseado em criérios de máxima verosimilhança. No caso de uma amosra de observações x,...,x n perencenes a uma população X com disribuição normal em que se supõe conhecido o parâmero µ podemos formular as seguines hipóeses em ermos de modelo de discordância por σ: - H 0 é a hipóese de homogeneidade, iso é, as observações x,...,x n são provenienes de uma população X com disribuição N ( µσ, ) 78

- H j é a hipóese alernaiva com x j observação discordane, ou seja, x j em disribuição N ( µσ, ) para algum j =,..., n. O auor esudou os casos em que os parâmeros σ e σ são ou não conhecidos (i) σ e σ conhecidos Considerando σ e σ e conhecidos, sob a hipóese nula de homogeneidade das observações, eremos, L 0 n n = Π f ( xi, µ, σ) = n exp ( xi µ ) (5..) i= σ π σ i= ( ) e, sob a hipóese alernaiva H j, Lj = Π f ( xi, µ, σ ) f ( x j, µ, σ ) = n exp i j n σ σ ( π ). i j x i µ + σ x j µ σ (5..) O méodo GAN propõe enão, a esaísica de deecção de ouliers, ou ( σ ) S = max σ j ( σ ) S = min σ j x x j µ σ j µ σ se σ< σ (5..3) se σ< σ. (5..4) 79

Sendo no primeiro caso S > c a região de regeição do ese de homogeneidade nas observações x,...,xn e no segundo caso S < c. Os ponos críicos são obidos a parir de n c = F (( α ) ) se σ< σ χ e n c = F ( ( α ) ) se σ< σ. χ É de referir que ese modelo vai salienar como candidao a oulier uma observação vulgarmene não considerada. Traa-se de x ( µ ), a observação mais próxima de µ, no caso em que σ< σ. Quando σ> σ os candidaos a oulier são os usualmene esudados x () e x ( n). (ii) σ conhecido e σ desconhecido Sob esas condições para os parâmeros de dispersão e sob H 0 emos, n = exp ( x µ ), (5..5) σ π σ L0 n i i = ( ) e, o máximo da função de verosimilhança sob H j, L j = ( ) n n σ σ π exp i j x i x j µ µ σ σ, (5..6) com σ = x j µ esimador de máxima verosimilhança para σ sob H j. O ese de homogeneidade, nesa siuação, conduz-nos à esaísica 80

S = max j σ x j µ exp. (5..7) x µ σ j Sendo S > c a região de regeição. Nese caso, somos novamene conduzidos ao esudo da observação x ( µ ), para além das observações radicionalmene esudadas x () e x ( n). (ii) σ e σ desconhecidos Ese é o caso mais próximo da realidade no esudo de discordância de ouliers por σ. Assim sob a hipóese nula eremos que esimar σ por, n σ = ( x i µ ) = s ( µ ) (5..8) n i = e sob a hipóese alernaiva esimamos σ por, σ = ( µ ) ( µ ) x i = sj (5..9) n i j e σ por, ( ) σ = x j µ. (5..0) Os máximos da função de verosimilhança sob a hipóese nula e alernaiva, são respecivamene, 8

L 0 = n n exp ( s( µ ) π ) (5..) e L j = n exp n. (5..) x µ µ π j n ( sj( )) ( ) Dese modo, obemos a esaísica, S = min j ( x j µ ) ( x i µ ) i ( x j µ ) ( x i µ ) i n (5..3) Sendo S < c a respeciva região de rejeição. Mendes (993) consruiu abelas dos ponos críicos para a esaísica. Nese caso as observações candidaas a oulier são x ( µ ), x () e x ( n). Considerando que numa série emporal x ( n) =,...,, cujo modelo subjacene é um ARMA(p,q), os e são variáveis aleaórias independenes idenicamene disribuídas ( ) N 0,σ, podemos assim numa primeira fase de diagnósico idenificar ouliers aravés do esudo da série dos resíduos aplicando o Méodo GAN. Há no enano que er em aenção que um oulier pode afecar o valor de mais do que um resíduo, dada a correlação que exise enre as observações, como vimos nos capíulos e 3. Nomeadamene no caso de múliplos e consecuivos ouliers, esa disorção poderá ser significaiva afecando a análise. 8

Exemplo 5. No inuio de ilusrar a aplicação do Méodo, consideremos o seguine exemplo em que o processo subjacene à série segue um modelo AR(): x = 05. x + e, e os e s são variáveis aleaórias iid N ( 00,. ). Foi simulada uma série de dados com n = 00 na qual foi inroduzido um oulier adiivo com efeio ω = em T = 50. Na figura 5. emos a série dos residuos que se obem da esimação dos parâmeros do modelo. Fig. 5. - Série dos resíduos Aplicando o programa (veja-se pono 7..) que nos permie calcular o valor da esaísica (5..3) obemos o seguine "oupu": 83

*********************************************** DETECÇÃO DE OUTLIERS ********************************************** OBSERVAÇÃO RESÍDUO ESTATÍSTICA 50.07.00000 30 -.00.00087 6.003.00360 VALOR CRITICO A 5%.00006 VALOR CRITICO A %.0000 Assim no resíduo correspondene à observação T = 50, obemos como era de esperar um valor basane reduzido. Nese caso, como o valor da esaísica é inferior ao valor críico, considerando quer um nível de confiança a 5% ou a %, emos uma indicação que o resíduo é proveniene de uma observação oulier. 5.3 MEDIDAS DE ALAVANCA DA AMOSTRA Vimos no capíulo que dada uma colecção de observações z, z,...,, considerando que z segue um modelo AR(p), pode-se represenar o processo como z n z = x φ + e. (5.3.) com x = ( z, z,..., z p ) e φ = ( φ φ ) emos ( n p) equações,..., p. Considerando as n observações, Z = Xφ + e, (5.3.) onde Z = ( zp+,..., zn), e = ( ep+ en),..., e 84

zp zp... z zp+ zp... z X = z z... z n n n p x p x = p x + + n 0 0 / 0 0. Enão o esimador dos mínimos quadrados de φ é dado por φ = ( XX ) XZ, (5.3.3) e os valores ajusados são dados por Z= Xφ = X( X X) X Z = HZ, (5.3.4) com H= X( X X) X. A mariz dos resíduos é obida considerando R = ( I H) Z. Vamos chamar a H mariz de projecção, análoga àquela considerada na regressão linear. Designamos o elemeno da diagonal da mariz H, h, por h em que = x ( X X) x (5.3.5) h Os elemenos fora da diagonal de H, são designados por h ij. Lee e Hui (993) no conexo de um modelo AR(p), sugeriram um procedimeno de deecção de ouliers com base no esudo dos elemenos da diagonal da mariz de projecção, conhecidas como medidas de alavanca da amosra. Os elemenos da diagonal da mariz H apresenam as seguines propriedades imporanes: 85

(i) 0 h (ii) Supondo que h é elevado (próximo de ). Como h = h + h j, j enão h j 0 ou h j 0, j j, quando h. Na forma escalar, pode-se escrever z = h z + hjzj. j Segue-se que z é dominado pelo ermo h z quando h. Enão, h pode ser inerpreado como uma medida do efeio alavanca induzido em z por z. (iii) Considerando que quando n, n ( XX ), em que é a mariz de covariâncias de x. Defina-se p d = x x, = p+,..., n (5.3.6) em que d corresponde à disância de Mahalanobis enre x e o vecor nulo (ou no caso geral o vecor média dos x `s). Como, nh = x XX x n p d quando n. 86

Enão com n elevado, examinar os h `s equivale a examinar os d `s. Dese modo, h pode ser considerado uma escala aproximada (dividindo por n) da disância de Mahalanobis enre x e o vecor nulo. Para a deecção de ouliers em processos AR(p), dada a dependência que se verifica enre as observações, é a o posição relaiva de z, z,..., z p+ no espaço de dimensão p que nos ineressa e não apenas a posição de z. Consequenemene, deve- = z, z,..., z, como base de deecção mos esudar o afasameno do vecor x ( p ) das observações oulier. A discussão do pono (ii) sugere que se uilize h para deecar o vecor oulier x. Recorde-se que = x ( X X) x. Supondo que z é discordane, essa observação h afecará x, x+,..., x+ p e como al h, h+,..., h+ p serão empolados. Enão, se h 3 p apresena um valor reduzido (z, z,..., z não são ouliers) e h é elevado, podese idenificar z como um possível oulier. No caso de ouliers consecuivos, uma sequência de h `s erá valores disorcidos. O número exaco de ouliers será no enano difícil de deerminar por inspecção. Dado que d em uma disribuição χ ( p) quando a disribuição do ruído é Gaussiana, Hau e Hau e Tong ciados por Lee e Hui (993) sugeriram, como insrumeno de deecção de ouliers, a consrução do gráfico da série emporal dos nh `s e a sua comparação com o valor criico a 5% da disribuição de referência. Conudo, segundo Lee e Hui (993), o gráfico da série emporal dos nh `s é inadequado para avaliar com precisão o efeio alavanca. Dese modo, sugeriram um procedimeno de deecção de ouliers com base num simples exame dos h `s. No enano, h não pode ser quanificado pela disribuição de referência χ ( p). De faco, a disribuição conjuna dos h `s é inraável. Para ulrapassar esa dificuldade, 87

Lee e Hui (993) propuseram um disposiivo gráfico que permie idenificar as observações ouliers com base nas esaísicas ordenadas dos h `s em conjuno com um envelope consruído por simulação. O procedimeno de diagnósico consise nas seguines eapas: (i) Esimar φ e σ a parir da série observada (conaminada) e calcular as medidas de alavanca da amosra; (ii) Simular m pseudo colecções de dados (de Z ) baseados nos φ e σ esimados; (iii) Para cada colecção, calcular os ( n p) valores ordenados das esaísicas alavanca h () i ; (iv) Colocar num gráfico o máximo e o mínimo de cada esaísica de ordem das m réplicas em conjuno com os valores da amosra ordenados. O envelope simulado formado pelos dois vecores ( n p) de esaísicas de ordem de máximos e mínimos é consruído para ajudar na inerpreação das alavancas da amosra. Na ausência de ouliers, espera-se que os valores da amosra se siuem denro dos limies do envelope. Ouliers poenciais surgirão à direia, no gráfico, como disanes ponos isolados. Se algum dos valores observados cair fora dos limies do envelope, rejeiamos a hipóese de que não exisem ouliers. Normalmene são necessários valores de m = 9 simulações para esar o máximo efeio alavanca observado a um nível de significância de aproximadamene 5%. Num modelo AR(p) com k ouliers consecuivos nos períodos T, T+,..., T+ k, a T+ T+ T+ k+ p sequência h, h,..., h será considerada significaiva pelo envelope. Consequenemene, o número exaco de ouliers, k, e a sua localização T, T+,..., T+ kpo- de ser deerminada. Segundo Lee e Hui (993), o procedimeno é eficaz na deecção de ouliers adiivos em modelos auoregressivos, embora a écnica proposa se aplique ambém a ou- 88

liers inovadores. O méodo, segundo os auores, é paricularmene eficaz quando esão presenes múliplos e consecuivos ouliers. Para esar as medidas de alavanca, nomeadamene verificar o seu comporameno em presença de múliplos AO e de um IO, consideremos os seguines exemplos em que o processo subjacene à série segue o modelo AR() do exemplo 5.: Exemplo 5. Foi simulada uma série de dados com n = 00 na qual foram inroduzidos dois ouliers adiivos com efeio ω = em T = 50 e T = 5. Na figura 5. emos a série conaminada resulane da inrodução dos dois AO. Os esimadores dos mínimos quadrados são φ = 0. 53 e σ = 0. 087. Na figura 5.3 emos o gráfico dos resíduos. Como se pode ver emos rês resíduos com valores elevados r 50, r 5, r 5. Assim, poderíamos concluir erradamene que z 5 é um oulier, se apenas considerássemos os resíduos como méodo de diagnósico. Ese efeio é o chamado efeio de "smearing". Fig. 5. - Série conaminada 89

Fig. 5.3 - Resíduos esimados Resíduos esimados resíduos 45 -.03779 46 -.003035 47.0549 48.3965 49 -.00583 50.64655 5.537776 5 -.555507 53.030746 54.0660 55.003463 Examinando as medidas de alavanca da amosra, h, na figura 5.4, verificamos que o período 5 conribui com o valor mais elevado h 5 = 034., ocorrendo o segundo mais elevado em h 5 = 08.. Dese modo, x 5 = z 5 e x 5 = z 50 poderão ser considerados ouliers. 90

Fig. 5.4 - Medidas de alavanca O gráfico do envelope simulado é dado na figura 5.5. Confirma-se que h 5 e h 5 apresenam valores significaivos comparaivamene aos máximos obidos nas 9 simulações. Finalmene, como os h `s são reduzidos para 50 e 53, idenificamos com sucesso por ese méodo, duas observações oulier consecuivas, z 50 e z 5. Fig. 5.5 - Envelope simulado 9

Exemplo 5.3 No caso da série simulada conaminada com um oulier inovador, o seu efeio corresponde ambém a inroduzido em T = 50 (veja-se a figura 5.6). Os esimadores dos mínimos quadrados são φ = 05. e σ = 0. 086. Na figura 5.7 emos o gráfico dos resíduos, como se pode verificar emos apenas um valor elevado r 50. Repare-se que nese caso não se verifica o efeio de "smearing". Fig. 5.6 - Série conaminada Fig. 5.7 - Resíduos esimados 9

Resíduos esimados resíduos 45.090897 46.064747 47 -.08808 48.096685 49 -.00465 50.048394 5 -.00448 5 -.0744 53.0366 54.06560 55 -.00346 Examinando as medidas de alavanca, h, na figura 5.8, verificamos que o período 5 conribui com o valor mais elevado, h 5 = 0. 75, no enano emos ainda o período 5 com um valor basane significaivo, h 5 = 07.. Dese modo, x 5 = z 50 poderá evenualmene ser considerado uma observação oulier, e ficamos na dúvida acerca de x 5 = z 5. Fig. 5.8 - Medidas de alavanca O gráfico do envelope simulado é dado na figura 5.9. Confirma-se que h 5 pode ser considerado significaivo relaivamene aos máximos das 9 simulações. Por ouro 93

lado, poderíamos ainda concluir erradamene que z 5 é ambém um oulier dado que h 5 apresena um valor significaivo. Fig. 5.9 - Envelope simulado Em conclusão o méodo das medidas de alavanca funciona relaivamene bem na deecção de múliplos e consecuivos AO e de um IO isolado. Embora nese úlimo caso com algumas reservas. 5.4 ESTATÍSTICAS Q 5.4. Consrução das esaísicas Q Na regressão linear assume-se que as observações z são independenes. Uma observação pode ser eliminada sem afecar as seguines e a eliminação de uma equação em (5.3.) equivale a eliminar uma observação. No conexo das séries emporais, isso já não é verdade. Uma observação suspeia, z T, esá envolvida não só numa equação mas nas p + equações consecuivas de (5.3.). Enão pode ser necessário eliminar não só uma mas p + equações. 94

Suponha-se que exise uma observação suspeia em = T. A mariz X e os vecores Z e R podem-se decompor como se segue: X X = X X Z Z = Z Z 3 3 R R = R R ( ) T p p k p, ( n T k) p ( T p) k, ( n T k) 3 ( T p) k, ( n T k) onde k é o numero de equações a eliminar. Os resíduos, R, podem-se exprimir na forma decomposa como I H H H R = H I H H H H I H 3 3 3 3 33 Z Z, (5.4.) Z 3 em que H X ( X X) ij = i X j i, j = 3,,. (5.4.) Seguindo a sugesão de Drapper e John (98) para siuações de regressão, os auores consideram as esaísicas 95

Q k T ( ) ( ) = R I H R (5.4.3) e ( k T ) AP = Q RSS I H, (5.4.4) k( T) ( ) onde RSS é a soma do quadrado dos resíduos. Quando k =, R = r T, e quando k = p+, R = ( rt,..., rt+ p). Q k( T) pode ser decomposo em dois ermos: ( ) = RR + Q k( T) φ φ * ( XX XX 3 3)( φ φ * ) + = Qk ( T) + Qk( T), (5.4.5) * onde φ = ( XX + XX ) ( XZ + XZ ) 3 3 3 3 é o esimador de φ após a eliminação de k equações. Por simulação os auores concluíram que as esaísicas Q k, Q k, e Q k são indicadores úeis dos ouliers. Dado que o comporameno amosral de AP é difícil de inerprear, consideraram apenas as esaísicas Q. Em siuações práicas a posição de oulier pode não ser conhecida. Dese modo, o procedimeno de deecção sugerido requer que Q k(), Q k( ) e Q k( ) sejam calculados para odos os = p+ p+ ( n k + ) n k p+ inversões da mariz ( I H ) da mariz ( I H ),,...,, e iso implica ( ), o que pode consiuir um problema. Se os elemenos fora da diagonal, h ij, são reduzidos em valor absoluo, os auores propõem que se considere a seguine aproximação, na qual não é exigida nenhuma inversão da mariz: + k k() i i i= ( ) Q r h. (5.4.6) 96

Esa aproximação é geralmene adequada para grandes amosras. Uma vez obido Q k(), Q k( ) pode ser calculado subraindo Q k( ) = RR de Q k(). Veja-se que quando k = (eliminando uma observação) o valor exaco e a aproximação são os mesmos. 5.4. Comporamenos das esaísicas Q em presença de ouliers Consideremos os modelos paraméricos geradores de ouliers. Para um oulier adiivo emos T (AO) z = x +ωξ ( ), (5.4.7) onde ω é uma consane e x segue um modelo AR(p). Alernaivamene pode-se considerar o modelo para um oulier inovador ( T ) (IO) z = φ ( B)( e + ωξ ) (5.4.8) As esaísicas definidas em (5.4.3) e (5.4.4) são funções dos r `s e dos h [ ( ) i i =,..., + k ]. O seu comporameno é diferene para os ouliers adiivos e inovadores. Assim, podem ser usadas não apenas para deecar mas ambém para disinguir um AO de um IO. Um AO suspeio no período = T afecará z T aravés de ω em (5.4.3) e consequenemene r T e assim z T i + por φω( i = 0 p φ = ) i i + por ψ ω( ) ψ( B) = φ( B) = ψ B ψ B Λ.,,..., ;. Um IO afecará r T por ω em (5.4.7) o i i = 0,,..., onde ψ i é o coeficiene de B i em Consideremos um processo AR(). Supondo k = ; enão n n = ht = zt z Q ( T)= rt zt z, Q ( T)= rt, e H =, ( ) = 97

( ( )) Q ( T)= rt zt z = r h h T T T T. Q depende apenas de r T, enquano que Q e Q dependem de r T e de h T, conudo h T é relaivamene reduzido comparado com, e o comporameno de Q é dominado por r T. Por ouro lado, h ( h ) T é uma função monóona de h T e é uma medida da disância de X ao cenro do elipsóide formado por ( XX + XX ). Assim o comporameno de Q 3 3 depende de rtzt. Se o oulier em = T é um AO, enão r T e r T + são afecados, e assim Q ( T ), Q ( T ) Q T +, Q ( T ) e Q ( T + ) são mais elevados comparados com os resanes. Por ouro lado, ( ) e Q ( T + ) são influenciados pelo oulier em = T, embora muias vezes o mais elevado seja o úlimo, dado que r T + e z T são afecados pelo oulier. Se o oulier é do ipo IO, enão apenas r T é afecado, o que implica que Q ( T ) e Q ( T ) são mais elevados comparados com os ouros. O comporameno de Q ( T ) é menos fiável, dado que as observações z T,..., z são odas afecadas. n T O comporameno das esaísicas para processos de ordem superior ( p ) é similar e esá sumariado na Tabela 5.. Em geral, segundo Abraham e Chuang (989), experiências de simulação indicam que Q k (ou Q k ) é mais úil para deecar ouliers do que Q k. 98

Esaísicas IO AO Q, Q eliminando uma equação ( ) k =. Q, eliminando uma equação ( ) k =. Q ( p ) +, Q ( p+ ), eliminando p + equações k = p+. ( ) Q ( p+), eliminando p + k = p+. equações ( ) Valores elevados em = T e reduzidos os resanes. Os valores em = T, T+,... são afecados (pouco fiáveis). Valores elevados em = T p, T p+,..., T, e reduzidos os resanes. Os valores em = T p,..., T,... são afecados (pouco fiáveis). Os valores em = T, T+,..., T+ p são afecados. Os valores em = T, T+,..., T+ p são afecados. Os valores em = T p, T p+,..., T+ p são afecados, com o maior valor em = T. Os valores em = T p, T p+,..., T+ p são afecados, com o maior valor em = T. Tabela 5. - Comporamenos das esaísicas Q considerando um oulier em = T Exemplo 5.4 Consideremos o exemplo de Abraham e Chuang (989) em que o modelo de base é um AR() x = 05. x + e, e os e s são variáveis aleaórias iid N ( 0, ). Simulámos duas séries de dados com n = 00, e foram inroduzidos respecivamene um AO e um IO no momeno T = 80 de efeio ω = 45.. Calculámos enão as esaísicas Q, respecivamene, Q k( T) e Q k( T), correspondendo à eliminação de uma observação k = e k = p+ = observações. 99

(AO) Fig. 5.0 - Esaísica Q ( ) Fig. 5. - Esaísica Q ( ) 00

Fig. 5. - Esaísica Q ( ) Fig. 5.3 - Esaísica Q ( ) No caso da série conaminada pelo AO, Q 80 ( ) e Q 8 ( ) apresenam valores elevados (figura 5.0). Por ouro lado, Q ( 80) em um valor reduzido e Q ( 8) é basane elevado (figura 5.). Segundo os auores, ese comporameno indicia a presença de um AO. É de noar ainda que com k =, ou seja eliminando observações, Q 79 ( ), Q 80 ( ) e Q 8 ( ) apresenam valores elevados (figura 5.), bem como Q ( 80) e Q ( 8) (figura 5.3). 0

(IO) Fig. 5.4 - Esaísica Q ( ) Fig. 5.5 - Esaísica Q ( ) 0

Fig. 5.6 - Esaísica Q ( ) Fig. 5.7 - Esaísica Q ( ) Na série conaminada com um IO, como seria de esperar, Q 80 ( ) e Q ( 80) apresenam valores elevados. No enano, Q ( ) apresena ouros valores elevados o que indica que ese gráfico é menos fiável na idenificação de ouliers (como aliás é referido pelos auores). Com k = emos Q 79 ( ) e Q 80 ( ) elevados. Ese é um comporameno ípico dos IO. 03

5.4.3 Disribuições assinóicas Para idenificar a localização dos ouliers, Abraham e Chuang (989) inroduziram as esaísicas max Q k(), max Qk () e max Qk (), dai que seja necessário idenificar as suas propriedades amosrais. As disribuições exacas da amosra são difíceis de idenificar, dese modo apela-se à eoria das grandes amosras. σ Se não houver ouliers, φ p converge em probabilidade para φ( φ φ) p σ, com σ n = ( ) ( ) = p+ e z z n p. Os resíduos r convergem em probabilidade para e e os elemenos da mariz H convergem para 0 à medida que n aumena. Enão + k p * Qk() Qk() = ei σ χ ( k) (5.4.9) i= e Q p * p Qk, Q k () 0, k() () p * max Qk() max Q k (), e p * max Qk max Q k, (5.4.0) () () onde χ ( k) * k =, enão { Q k() } represena a disribuição do qui-quadrado com k graus de liberdade. Se é uma sequência de variáveis χ () iid, e é uma sequência de variá- veis dependenes χ ( k) para k. Caso : k =. Considere-se F (). como a função de disribuição acumulada de σ χ() e τ = m F( C m ( τ ) ), com m= n p e C m ( τ ) é um valor criico. Enão [ ] Pr max Q * () ( ) C exp( ) m τ τ à medida que m. (5.4.) 04

Dado um nível de significância α, o valor criico ( ) C τ pode ser obido considerando ( ( ) ) C ( τ ) = F + ln ( α) m. (5.4.) m k * Também max Q () e max Q () êm a mesma disribuição assinóica que max Q (). Caso : k. Seja F k (). a função de disribuição acumulada de σ χ k. Enão ( ) Pr * max ( ) exp( ) Qk() C τ m v τ, (5.4.3) [ ( )] onde, para algum v( 0< v ) e para cada τ > 0, m F C m ( τ ) τ à medida que m= n p k +. Dado um nível de significância α, emos τ = ln( α ) valor criico ( ) C m τ pode ser obido por v, e o ( ( ) ( )) C ( ) F ( ) m τ = + ln α vm. (5.4.4) * Agora max Qk () e max Q k() êm a mesma disribuição assinóica que max Q k() em (5.4.3). 5.4.4 Com p desconhecido As esaísicas de diagnósico foram obidas sob a hipóese de que a ordem p do processo é conhecida. Conudo na práica, pode não ser ese o caso. Enão uma esraégia basane comum é ajusar um processo de ordem superior. Vejamos enão qual o comporameno das esaísicas Q quando um ( ) Supondo que Z = ( zp+, zp+,..., zn) * * AR p, p p é ajusado aos dados. 05

0 0 X * = B C e onde V A 0 = 0 C, z z... z z z... z B =... z z... z * * * p p p p+ * * * p + p p p n n n p 0 0 0, z z C = p z... z... z 0... 0,... z * p p * p+ n p * n p e z p... z A = 0... 0. z *... z * p p p Enão os esimadores dos MQ de φ = ( φ φ ) * esimadores dos MQ de φ = ( φ,..., φ φ,..., φ * ) = ( φ, φ ),..., p obêm-se como em (5.3.3), e os + p p p são dados por * * * * φ = ( ) ( X X ) X Z. (5.4.5) N = 0 *, onde 0 é um vecor ( p p) de zeros. Enão Seja agora φ ( φ ) * * * φ φ ( ) ( ) R = Z Xφ. Segue-se que z z ( ) = N X X V R, com o vecor de resíduos do verdadeiro modelo dado por * * * * * = + x X X X V R e 06

( ) * * * * * r = r + * x X X X R ( p ), onde z * é o valor ajusado e r * é resíduo correspondene à esimaiva * * = z,..., z *. Segundo os auores, pode-se de- * / monsrar que r = r + Ο ( n ) p φ, e x ( p ) para > p *. Espera-se enão que os resíduos do verdadeiro e do modelo esimado se comporem da mesma maneira para > p *. O comporameno das esaísicas Q depende, nese caso, de r * * e de H (ou de h * quando são usadas aproximações). Enão Q k, Q k, e Q k êm basicamene o mesmo comporameno que aquela da abela 5., com p subsiuído por p *. 5.4.5 Um procedimeno ieraivo de esimação Abraham e Chuang (989) propõem ainda um procedimeno ieraivo em quaro eapas para modelar séries emporais na presença de ouliers na qual um processo ARMA é aproximado por um processo AR, com deecção e ajusameno dos ouliers. Se z segue um processo ARMA(p,q), ese processo pode ser represenado por uma aproximação auoregressiva * p z = πiz i + e, (5.4.6) i= para um qualquer desfasameno p *. Se o processo é puramene auoregressivo p * = p. Caso conrário os coeficienes π são obidos a parir de φ ( B) π ( B) = θ ( B) e, por causa da inveribilidade de ( ) θ B, eses coeficienes decaem e ornam-se praicamene 0 para algum desfasameno p *. 07

Dese modo, supondo que o modelo subjacene à série emporal é um ARMA(p,q) esse processo pode ser aproximado por um AR(p+q). Na práica, para deecção de ouliers, os auores descobriram que esa pode ser uma boa aproximação. Assim a esraégia de consrução do modelo, proposo pelos auores, começa com a esimação de um processo AR de ordem suficienemene elevada, propondo os seguines procedimenos de consrução do modelo, baseados nos méodos de deecção de ouliers referidos aneriormene: Eapa Usar uma qualquer écnica de selecção de modelos para idenificar uma primeira enaiva de ordem ( p q ),, a qual pode não coincidir com a verdadeira ordem ( pq, ). Escolha-se p * p + q. Eapa : Deecção dos ouliers. Esime-se π = ( π,..., π * ) k = e k p pelo méodo dos MQ e calcule-se Q k (e/ou Q k ) para = p * +. Deermine-se o oulier e o seu ipo baseado nos gráficos de Q k (e/ou Q k, Q k ). Os eses de significância baseados no máximo desas esaísicas podem ambém ser usadas. Se não houver ouliers vamos para a eapa 4; caso conrário vamos para a eapa 3. Eapa 3: Limpando a série. Seja T a posição do oulier idenificado na eapa. Se o oulier é do ipo AO, eliminese ( T p ) * equações aé T de (5..) para ober as esimaivas %π. Ajusemos enão a 08

T -ésima observação, considerando-a um valor omisso, usando a média esimada de z T condicional a odas as ouras observações, Ez ( T z, T) ; ou seja, subsiuímos z por %z = z, T ( z + z ) * p η j j j j= = ~ +, = T, (5.4.7) com η~ j * p π~ π~ π~ i= = * p + π~ j i i+ j i= i * ( j =,..., p ). Por ouro lado, se o oulier for do ipo IO, elimine-se a T -ésima equação de (5.4.) para esimar %π, e ajusar as observações como se segue: %z = z, T = z r%, = T = z % ψ r%, T, (5.4.8) T T onde %r é o resíduo correspondene à esimaiva %π e %ψ j é o coeficiene de B j * p ( * p ) ψ~ B ψ~ B = π~ B π~ B / /. em Eapa 4: Especificação Use-se a série limpa na especificação e esimação dos parâmeros do modelo final. 09

5.5 DIAGNÓSTICO BASEADO NA FUNÇÃO DE INFLUÊNCIA DAS AUTO- CORRELAÇÕES Chernick, Downing e Pike (98) sugeriram que deveriam ser procurados ouliers influenes examinando a mariz da função de influência das auocorrelações esimadas. O parâmero, S, pode ser considerado dependene da função de disribuição F, S( F). A função de influência de um esimador depende do parâmero a esimar, do vecor de observações cuja influência esá a ser medida e da sua função de disribuição de probabilidades, e é dada segundo Hampel (974), pela equação seguine quando o limie da direia exise I( F, S( F), x) = lim ε 0 [ S( ( ε) F+ εδx) S( F) ]. (5.5.) ε Nese equação, x é o pono de ineresse no espaço das observações, ε é um número real posiivo e δx é a função de disribuição que em oda a sua massa de probabilidades concenrada no pono x. Consideremos uma série emporal discrea z z,,..., z n. Seja { I jk }, a mariz da função de influência das auocorrelações do ipo n m, em que n é o número de observações e m é o desfasameno (m deverá ser consideravelmene menor que n), cujo elemeno de ordem ( jk, ) é uma função de (, k, ( j, j k) ) I H ρ y y +, (5.5.) em que y i é a observação esandardizada y ( z ) i = µ σ, µ e σ são a média e o desvio padrão de z i, ρ k é a auocorrelação de ordem k e H é a função de disribuição bivariada de ( y j y j k ) i, + com média nula, variância uniária e covariância ρ k. Os auores argumenam que o elemeno de ordem ( jk, ) da função de influência é dado por 0

yy j j+ k ρ ( y + y + ) k j j k, (5.5.3) Dese modo com base na expressão anerior, pode-se calcular a influência de qualquer par de observações, desfasadas k períodos, na esimaiva de ρ k. Quando ρ k, σ, e µ não são conhecidos, podem ser usadas esimaivas. Definindo U jk, = y j + y j+ k y y + + + ρk ρ k j j k (5.5.4) e V jk, = y j + y j+ k y y + + ρk ρk j j k. (5.5.5) É fácil de ver que ( ρ ) U V = y y k j, k j, k j j+ k ρ ( y + y + ) k j j k e porano ( ρ ( + )) = ( ρ ) I H,, y, y U, V, k j j k k j k j k. (5.5.6) Para um processo Gaussiano esacionário com µ, σ e ρ k odos conhecidos, U jk, e V jk, são independenes N ( 0) ( ),. Dese modo a disribuição de I H, k, ( yj, yj k) ρ + é de fácil raameno pois resula de uma consane por um produo de variáveis aleaórias normais. Esa disribuição pode enão ser usada para deerminar quais os valores da fun-

ção de influência invulgarmene elevados em ermos absoluos face a um deerminado valor críico. Com base na forma como o oulier influencia as auocorrelações, os auores propuseram enão um procedimeno visual de deecção. Assim, na mariz da função de influência { I jk, } as esimaivas da função excedendo em valor absoluo o valor críico deverão subsiuídas por ( ) + ou ( ) dependendo do sinal da esimaiva. As ouras observações são deixadas em branco. Fig. 5.8 - Mariz da função de influência das auocorrelações Considere-se o exemplo da figura 5.8. A observação y influencia várias esimaivas da auocorrelação com desfasamenos diferenes. Surge no cálculo de cada elemeno na linha da mariz e ambém nos elemenos da diagonal das linhas aneriores começando na coluna da linha e coninuando para cima e para a direia. Um oulier erá, pois, uma influência posiiva ou negaiva muio grande em cada esimaiva da auocorrelação. Em consequência, se muias das observações na linha e na diagonal [ ] superior ( ) ( ),,,... são elevados em valor absoluo, concluímos que y é um oulier, como é o caso que se verifica no exemplo.

5.6 MEDIDAS DE INFLUÊNCIA DE PEÑA Peña (98, 990) consruiu esaísicas indicadoras das observações, nomeadamene ouliers adiivos e inovadores, que êm fore influência no valor dos coeficienes ARMA esimados. Esaísicas essas que se baseiam na subsiuição das observações discordanes por valores inerpolados. No arigo de Peña (98) é considerado um processo AR(p), no arigo de (990) as esaísicas proposas são generalizadas a um modelo ARMA(p,q). 5.6. Para ouliers adiivos Suponha-se que x segue um processo ARMA(p,q) e considere-se a aproximação auoregressiva dada por * p x = πix i + e, i= para um qualquer desfasameno p *. Assumindo agora que ocorre um oulier adiivo no período T, como vimos aneriormene, o modelo paramérico para um AO é dado por z T = x +ωξ ( ) ou seja, em vez de observarmos x, observamos z, onde z = x ( T) e z = x +ω. T T 3

Seja π ( T ) = ( π,( T ),..., π * p,( T) ) o vecor de parâmeros considerando que esá presene um oulier, ou seja, reirando a cada observação o efeio provocado pela sua presença. Uma esimaiva de π ( T ), assumindo a aproximação auoregressiva, é dada por ( XX) π( T ) = y y y XY, (5.6.) com x * x *... x 0 0 / 0 e... = x x x X y p p n n * n p Y = x 0, * p + x n onde x = z para T e x = z ω. ( T ) T Considerando x T como um valor omisso, a sua esimaiva é dada por * p x ( T) = η( j zt+ j + zt j) j=, (5.6.) onde η j * p π π π i= = * p + π j,( T) i,( T) i+ j,( T) i= i,( T). (5.6.3) Da relação ω = z T x ( T ) pode-se concluir que, dados os parâmeros, uma esimaiva do oulier adiivo é dada pela diferença enre os dados observados e o seu ópimo de inerpolação, x ( T ), o qual pode ser inerpreado como a melhor esimaiva de x T usando oda a informação amosral. É de noar que o cálculo de x ( T ) é efecuado aplicando coeficienes de ponderação à nova série 4

( ) s j = zt+ j + zt j. (5.6.4) Esas ponderações são ais que η j é o j -ésimo coeficiene da função geradora π j π B π F e, enão, pode ser inerpreado como o coeficiene da função de ( ) ( ) ( ) auocorrelação inversa do processo. ( T) T O sisema de equações dado por (5.6.) e (5.6.) em de ser resolvido ieraivamene. Começando com um valor inicial π ( T ) ( 0 ) para π ( T ), as ponderações η j podem enão ser calculadas obendo-se ω ( 0 ). Ese valor é usado para calcular x ( 0) = z ω ( 0), o que conduz a uma nova esimaiva ( ). O processo é repeido aé à convergência. π ( T ) Seja π o esimador de π, assumindo que não exisem ouliers. Enão π = ( XX ) z z XZ z, onde a mariz X z e o vecor Z correspondem aos dados observados e êm a mesma esruura de X y e Y e os mesmos valores excepo no período T. Claro que as colecções de dados são idênicas se x ( T ) = z. Enão, T X = X + ω M, (5.6.5) z y onde a mariz M é dada por M 0 ; I ; 0, (5.6.6) = p * ( T p * ) p * p * p * ( n p * T) 0 a b é uma mariz nula recangular, I p * p * é a mariz idenidade. Por ouro lado, 5

Z = Y + ω V, (5.6.7) onde a mariz V pode-se decompor em V = 0 ( T p * ) ;; 0 ( n p * T). (5.6.8) Para relacionar π ( T ) e π, vamos decompor as marizes X z e X y e os vecores Z e Y de mesmo modo que em (5.6.6) e (5.6.8). Se considerarmos que X = X ( ) X ( ) X ( 3 ) onde [ ] z z z z X z z () = z * p...... z z T * T p 0 / 0, X z ( ) = z z... z T * T p +... z * T+ p T 0 / 0, e z z * T+ p T + X z 3 = ()...... z z n * n p 0 / 0, enão ( ) ( X X ) X X I X ( ) X ( ) y y = z z + ω ω z + z = XX ω A, (5.6.9) z z T 6

onde A = X ( ) + X ( ) ω I é uma mariz simérica com a = a = s() i = z + z T z z e aii = zt + x ( T ). Além do mais, decompondo o vecor Z em ij ji T + i T i Z = z *,..., z ; z + +,..., z *; z *,..., z + + + p T T T p T p n = Z () Z ( ) Z () 3. Enão, de (5.6.5) e (5.6.7), X Y= ( X M) ( Z V) MZ= Z( ) e XV = z,..., z *, z T T p y z ω ω e, como MV = 0, XY = XZ ω S, (5.6.0) y z T ( ) * onde S T = s( ),..., s( p ) e s( j ) são dados por (5.6.4). Exprimindo os parâmeros esimados π ( T ) como uma função dos dados observados, pelas equações aneriores, ( ω ) π = ω XX A XZ S z z T ( T) z T, o que nos leva a ( ) ( ) π = π ω XX S Aπ ( T) z z T T ( T). (5.6.) Sendo a T+ i os resíduos da esimação (5.6.), = π π ( ω ) π / / a z z z z T+ i T+ i, T T+ i i, T T * * p T+ i p e b T i os resíduos para rás b = z π z z Λ π Λ π * z *. T i T i, T T i i, T T p, T T + i p 7

Se considerarmos = a b,..., a + * + b *, enão E T = ST ATπ ( T ) é um E T T + T T+ p T p vecor de pseudo-resíduos e como al (5.6.) pode ser escrio como π = π ω ( XX ) E ( T) z z T. (5.6.) Uma maneira de medir a influência da observação z T é relacioná-la com a aleração na esimaiva dos parâmeros quando se assume que a observação é um oulier. Como π e π ( T ) são vecores, a forma usual de medir a sua disância é consruir uma mérica usando uma mariz semidefinida posiiva relevane. Nomeadamene, a mariz de variância de ambos os vecores esimados e consruir uma disância de Mahalanobis. Enão D AO ( T) = ( π π T ) ( z z)( ( ) XX π π ( T) ) *, (5.6.3) p σ onde a disância é dividida pela dimensão dos vecores envolvidos, p *, e pela variância do ruído de modo a esandardizar a medida. A esaísica (5.6.3) pode ser ambém inerpreada como medindo a aleração no vecor de previsão em um passo adiane. Usando os parâmeros esimados assumindo que não exisem ouliers, o vecor previsão é dado por Z = X z π, e usando os parâmeros esimados assumindo que exise um oulier adiivo em T, Z T = Xzπ ( T ). A disância Euclidiana enre os dois vecores de previsão é ( Z ZT ) ( Z ZT ) = ( ( T) ) ( XzXz)( ( T) ) π π π π, (5.6.4) 8

enão D ( T) AO pode ser inerpreada como uma medida esandardizada da disância enre os vecores de previsão em um passo adiane consruída com os vecores π e π ( T ). Usando (5.6.), a esaísica pode ser escria como D AO ω ( T) = σ ( ) ET XzXz E T *, (5.6.5) p dese modo a esaísica de influência depende de dois facores; o primeiro mede o efeio do oulier relaivo ao desvio padrão do ruído, o segundo mede o valor relaivo da observação anes e depois do oulier. A razão de verosimilhança para esar oulier adiivos, referida no capíulo 4, é assinóicamene equivalene a λ AO, T = ω ( π ) σ, i enão D ( T) AO pode ser escria como função desa esaísica, D AO ( ) ( ) λao, T ET XzXz E T ( T) = *. (5.6.6) π p i 5.6.3 Para ouliers inovadores Considerando que exise um IO no período T, o modelo para ouliers inovadores pode ser represenado por uma aproximação auoregressiva z ( T ) = x π ( ) + ωξ + e, (5.6.7) I 9

em que π ( I ) = ( π,( I ),..., π * p,( I) ) represena o vecor de parâmeros assumindo que exise um oulier inovador com um efeio ω e x = ( z z p ),..., *. Ese é um modelo linear com uma variável "dummy". Sendo π o usual esimador com ω = 0, enão π = π+ ω( XX ) ( I) z z T x (5.6.8) e ω = r T, (5.6.9) onde r = z x π. T T T A aleração na esimaiva dos parâmeros provocada pela presença de um IO no período T pode ser medida por D IO ( T) = ( π π I ) ( z z)( ( ) XX π π ( I) ) *, (5.6.0) p σ a esaísica pode ainda ser escria como D IO ( T) = p * σ r T ht h ( h ) T T, (5.6.) onde ( ) h T = x T X z X z x T é a medida da disância enre o vecor no período da inervenção x T e o vecor nulo, é pois a medida de alavanca referida no capíulo 5. Esa esaísica pode ser inerpreada como o produo de dois ermos; o primeiro Tσ r ( h ) T é o resíduo esandardizado no período da observação; o segundo, 0

h T ( h ) T, represena a disância de xt à origem. ( ) DIO T pode-se ambém exprimir como uma função da razão de verosimilhança, usada para esar os ouliers inovadores: D IO ( T) = λ IO, T p * h T ( h ) T, (5.6.) onde λ, = ω σ é a razão para esar se a T -ésima observação é um oulier inovador. IO T É de noar que D ( T) IO depende apenas dos valores relaivos de p * observações anes da inervenção [os regressores em T = z,..., z * ] em conrase com =, x T ( T T p ) D ( T) AO que depende ambém das observações depois da perurbação. 5.7 AS ESTATÍSTICAS C i( j) Yaawara e Lin (994) propuseram uma esaísica de diagnósico de observações influenes que permie deecar conjunos de observações. Esaísica essa, consruída de modo a eviar o efeio "masking" provocado pela exisência de múliplos e consecuivos ouliers. Lawrance ciado por Yaawara e Lin (994), no quadro dos modelos de regressão, propôs a seguine medida da influência do i -ésimo caso após a eliminação do j -ésimo caso C / ( β β )( X X )( β β ) = i( j) ( i, j) ( j) ( j) ( j) ( i, j) ( j) ps, (5.7.) onde β ( ij, ) é uma esimaiva dos parâmeros de regressão linear β após a eliminação do i -ésimo e j -ésimo caso, s é a variância dos resíduos e X ( j ) é a mariz de observações X sem a linha j.

Os auores adoparam o esquema sugerido por Lawrance, aplicando-o às séries emporais, no quadro dos modelos auoregressivos AR(p). Após simplificações, C i( j) pode-se represenar, recorrendo aos elemenos da mariz H referida no capíulo 5, como ~ ~ ( ) {[ / ( )] } C = h h h + h i( j) ij i i ij [ ( )] r + h ~ r / r / p (5.7.) i ij j i onde h ~ ij = hij / ( hi )( hj ) (alavanca conjuna), = x ( X X) x [( i, j) -ésimo h ij i j elemeno fora da diagonal de H ], ri= ri / s hi (i -ésimo resíduo esandardizado) e = z, z,..., z. ( ) x i i i i p A esaísica C i( j) é uma função dos r `s e de h ij. Dese modo, múliplos AO em = T T T l,,...,, ( l = ),,... afecarão os resíduos r,..., r,..., r, r,... por ω T+ T+ Tl+ Tl+ [veja-se (5.4.7)]. De modo similar, múliplos IO afecarão e, e,..., e por ω e como T T T l al as observações zt +,..., zt +,..., zt +, zt +,... [veja-se (5.4.8)]. Enão C i( j) é afecado pelos ouliers. l l Em siuações práicas a posição dos ouliers pode não ser conhecida. Enão C i( j) deverá ser calculada para odos os = p+ p+ ( n p+ ),,...,. Para idenificar a posição dos ouliers deverá considerar-se a esaísica max C i ( j ), dada por max C i i( j) = σ ~ h / h + h ( ) i i ij ( jj() i ) ( j ) p h h ( r + h r ). (5.7.3) i jj() i j h kl i x k X i X i x l. Em que () = ( () () )

A disribuição amosral exaca de max C i ( j ) não é conhecida. Recorrendo à eoria das grandes amosras, Yaawara e Lin (994) demonsraram que para um dado j fixo, max C i ( j ) em uma disribuição assinóica C χ(, em que ) i C = [ hj ( hj) + hjj() i ]( + hjj() i ) σ p( hjj() i ) ( hj ) (5.7.4) é uma consane para um dado i fixo. Enão a significância de um valor max C i ( j ) pode ser esado para um valor criico apropriado da disribuição do qui-quadrado. A esaísica C i( j) deverá, no enano, ser uilizada em conjuno com ouro méodo de deecção. Iso porque a esaísica funciona como um ese à observação ( i ) após a eliminação da observação oulier ( j ). Necessiamos pois, previamene, de deecar o oulier correspondene à observação ( j ) por um ouro méodo de diagnósico. i 5.8 DIAGNÓSTICOS DV e DC 5.8. Esimaivas dos parâmeros ARMA com dados omissos Para o cálculo das medidas de influência de Bruce e Marin (989), necessiamos de β = φ,..., φ p, θ,..., θq ou a variância do esimar os coeficienes da série emporal, ( ) ruído σ, com e sem o efeio oulier. Esas ulimas baseiam-se na subsiuição das observações oulier por valores inerpolados, considerando as observações oulier como omissas. Ese procedimeno corresponde ao uilizado por Peña (990), no cálculo das esimaivas dos coeficienes ARMA, π ( T ) (considerando uma aproximação auoregressiva), na presença de um AO. Considerando que a T -ésima observação, z T, é uma observação oulier. As esimaivas dos coeficienes ARMA podem-se ober raando a T -ésima observação como 3

um parâmero desconhecido x ( T ), obendo-se a sua esimaiva x ( T ) e calculando as esimaivas β ( T ) e σ ( T ) a parir da colecção de dados na qual a observação z T é subsiuída por ( ) β = φ,..., φ p, θ,..., θq, x T. Com os coeficienes da série emporal dados, ( ) a esimaiva da observação eliminada no período T é dada, como aneriormene, por x ( T ) j zt j zt j j ( β ) = η ( + + ) (5.8.) ρ j = η é a auocorrelação inversa de ordem j do processo. Já que a esimaiva em j (5.8.) sendo uma soma ponderada das observações adjacenes, é função de coeficienes da série emporal deverá ser uilizado um procedimeno ieraivo para deerminar, para cada período emporal omiido T, as esimaivas de máxima verosimilhança x ( T ), ( ) β T e σ n ( T ) n r. Os resíduos r uilizam β ( T ) e são obidos após a subsiuição = = da T -ésima observação por x ( T ). 5.8. Diagnósico para os coeficienes (DC) Se a observação z T iver uma influência excessiva na esimaiva β enão isso revela-se sob a forma de uma diferença subsancial enre β e β ( T ). Os auores definem enão a influência empírica da observação z T sobre os coeficienes como ( ) = ( ( ) ) EIC T n β T β. (5.8.) A influência empírica EIC( T ) é um vecor de dimensão h= p+ q, e como al, é difícil de inerprear. Dese modo, seguindo a aproximação para a regressão linear, os auores consideram um diagnósico baseado na forma quadráica da função de influência empírica, nomeadamene 4

DC( T) = EIC ( T) C EIC( T), (5.8.3) n onde C é uma esimaiva da mariz de covariância C de β. Sob condições de regularidade em que β é assinóicamene normal N 0, C ( ), ( β β) n h ( β ) em que C( β ) é a mariz de covariância assinóica, a qual esá relacionada com a mariz de informação assinóica, I( β ), por C ( β) = I( β). (5.8.4) Se I ( β ) é um esimador consisene de I( β ), enão n ( β β) ( β)( β β) ( h) I χ, (5.8.5) Um esimador de I( β ) é a informação esperada avaliada pelos esimadores de máxima verosimilhança, I( β ). Usando esa expressão, emos o diagnósico para os coeficienes DC T = EIC T I β EIC T n ( ) ( ) ( ) ( ) ( β β ( )) ( β)( β β ( )) = I. (5.8.6) n T T χ ( h) Embora a disribuição de ( ) DC T não seja conhecida, a uilização da disribuição permie-nos visualizar ( ) DC T numa escala familiar. Assim, um méodo grosseiro para avaliar se uma observação z T é influene é verificar se o p-value baseado na dis- ribuição de referência χ ( h ) é inferior a 0. 5 (e não 0. 05, veja-se Cook e Weisberg 5

(98)). Ese procedimeno não é no enano um ese de significância, servindo apenas como indicador da influência. 5.8.3 Diagnósico para a variância do ruído (DV) A influência da observação z T pode ambém ser mediada pela avaliação do seu efeio sobre o esimador da variância do ruído, σ. Bruce e Marin (989) definem a influência empírica de uma observação z T sobre a variância do ruído por ( ) = ( σ ( ) σ ) EIC T n T, (5.8.7) Sob condições de regularidade, σ é assinóicamene normal: 4 ( σ ( T ) σ ) n N( 0, σ ) (5.8.8) Enão n σ σ χ ( ). Dese modo, os auores propõem o seguine diagnósico para a variância do ruído ( ) DV T n σ =. (5.8.9) σ ( T ) Com a disribuição qui-quadrado com um grau de liberdade, χ (), como disribuição de referência. Enão, suspeiamos que uma observações z T é influene se o p-value para DV ( T ) é inferior a 0. 5 usando a disribuição χ (). 6

A maior diferença enre o coeficiene DC para séries emporais e os diagnósicos usuais dos coeficienes de regressão é o efeio de "smearing" de um oulier isolado ou de um grupo de ouliers a períodos adjacenes. Usando o diagnósico para coeficienes, um dado oulier pode ser considerado influene devido a um oulier num período adjacene. Por exemplo, no caso AR(p), um oulier isolado implica que DC apresene valores significaivos p períodos anes e depois da ocorrência do oulier. Enão a inerpreação do diagnósico DC não é ão clara como no caso da regressão. Em conrase, argumenam os auores, o diagnósico para a variância do ruído osena efeios "smearing" muio mais reduzidos e muias vezes negligenciáveis. Dese modo DV apresena melhores propriedades que DC, sendo por isso preferível a sua uilização. 5.8.4 Diagnósico para múliplos e consecuivos ouliers No caso de observações independenes, a esraégia de diagnósico assena, num dado período, na eliminação de uma única observação. No enano, a siuação das séries emporais difere do caso das observações independenes pois: (i) a esruura impõe-se por ordem emporal e (ii) observações influenes muias vezes surgem na forma de grupos de ouliers esendendo-se por múliplas observações. É enão imperaivo procurar grupos influenes e não apenas observações isoladas. Nese senido Bruce e Marin (989) propuseram medidas de diagnósicos com k observações eliminadas. Considere-se { } de {,,...,n}, e ( ) A T, T,..., T k uma subcolecção arbirária = β A o esimador com as observações zt,..., zt k consideradas omissas. Se alguma das observações da subcolecção A iver uma influência excessiva na esimaiva β ( A ) enão isso revela-se sob a forma de uma diferença subsancial enre β e β ( A ). O diagnósico com k observações eliminadas para os coeficienes é dado por 7

DC A = EIC A I β EIC A n ( ) ( ) ( ) ( ) ( β β ( )) ( β)( β β ( )) = I. (5.8.0) n A A O diagnósico com k observações eliminadas, para a variância do ruído é ( ) DV A n σ =. (5.8.) σ ( A ) Nese caso, com múliplos e consecuivos ouliers, os auores propuseram uma esraégia de diagnósico que permie idenificar a dimensão do grupo de ouliers influenes assene na eliminação ieraiva de k observações e calculo dos diagnósicos. Consideremos A= A k, consisido em k períodos de empo cenrados em : [ ( k ) ],..., + [ k ], onde y represena o maior ineiro menor ou igual a y. ( ) Para um qualquer k, é o pono mais próximo à direia do cenro do grupo A k,. Para simplificar a noação represenamos DC( A k ) DC k (, ), DV ( k ) n k,, DV ( A k ),, respecivamene por [ ],. Para grupos siuados no final da série, onde ( k ) ou >, DC( k, ) e DV ( k ), são calculados com o grupo runcado. Em presença de uma observação influene isolada os coeficienes de diagnósico apresenam o seguine padrão de comporameno: k valores de DV ( k,.) ao redor da localização do oulier isolado em T são significaivos e êm aproximadamene o mesmo valor que DV ( k, T). Iso corresponde ao que inuiivamene se poderia esperar de um oulier isolado: a eliminação do grupo que inclui esse oulier em o mesmo efeio que eria a sua eliminação. Comporameno similar ocorre em presença de um grupo de ouliers. Em geral, para um grupo de k 0 ouliers cenrados em T, verifica-se a seguine propriedade dos grupos (PG): 8