0.1. MODELAÇÃO DE DADOS 1 0.1 Modelação de dados Comecemos por admitir que temos acesso a dados (x 1,..., x n ) que podem ser encarados como observações de variáveis aleatórias independentes e identicamente distribuídas. Isto é, são réplicas de uma variável aleatória X com função distribuição F à qual está associada a função quantil Q(p) = F 1 (p) = inf{x : F (x) p} para p [0, 1]. Dada uma amostra observada, como validar uma determinada lei com função de distribuição F como sendo a lei subjacente à variável aleatória em estudo? 1. Calculem-se algumas estatísticas descritivas (média, variância, coeficientes de assimetria, achatamento,...) 2. Obtenha-se o histograma associado aos dados (imagem estatística da função densidade de probabilidade) ou outra representação gráfica equivalente. 3. Escolha-se uma lei adequada, por entre a gama de leis usuais em aplicações, ou com base em considerações teóricas. Mas, devemos deixar falar os dados! 4. Proceda-se à estimação de parâmetros desconhecidos de que a lei dependa. 5. Teste-se a validação do modelo de forma adequada. 6. Se não houver razão para rejeitar o modelo proposto proceda-se à inferência desejada com base neste modelo; caso contrário volta-se a 3.
2 0.2 Elementos de teoria de extremos A Teoria de Valores Extremos é, sem dúvida, uma ferramenta básica e muito eficiente quando se pretende proceder a inferência estatística de dados extremais. Naturalmente que a primeira forma de apresentação dos dados a ser considerada foi aquela em que estes constituem uma amostra de variáveis aleatórias reais independentes e identicamente distribuídas, situação que aqui consideramos. No contexto em que se insere o presente texto recorremos à teoria de extremos para determinar níveis elevados associados a determinado fenómeno aleatório, isto é, níveis que têm uma probabilidade muito pequena de serem excedidos. Mais concretamente, relativamente a uma variável aleatória contínua (temperatura, caudal, precipitação, etc), pretendemos estimar números Q(1 p) tais que a probabilidade de a variável em estudo assumir valores acima deste seja igual a p, com p próximo de zero. FALAR NO INVERSO No mesmo contexto, estamos frequentemente interessados em determinar (na realidade, aproximar) períodos de retorno de determinado nível elevado u, ou seja, o tempo médio de espera entre excedências independentes do nível u ou, o número médio de observações necessárias para obter um valor que excede u. Para atingir tais objectivos há que dispor de uma amostra adequada. Na análise estatística de valores extremos são seguidos usualmente diferentes métodos de actuação relativamente à obtenção dos dados considerados relevantes para se fazer inferência acerca dos valores extremos da população em estudo. Apresentamos apenas dois métodoso método de Gumbel e o método POT (...). Com o primeiro método geramos e exploramos uma amostra de máximos do fenómeno em causa. O segundo método concentra o estudo num número reduzido de observações cimeiras. O Método de Gumbel é um método clássico (Gumbel (1958)) que consiste em dividir a amostra inicial em grupos de igual dimensão e seguidamente concentrar o estudo nos máximos de cada grupo. Como hipótese inicial devemos poder assumir que os diferentes grupos representam realizações independentes e obviamente de um mesmo fenómeno. Em muitas amostras de natureza ambiental a subamostra natural é constituída por dados referentes a um longo período de tempo, por exemplo um ano, daí que este método seja também designado por Método dos Máximos Anuais. O procedimento usado pelo Método de Gumbel é de algum modo natural quando observamos fenómenos físicos ao longo do tempo, como por exemplo níveis máximos de rios ou de pluviosidade, alturas de maiores vagas marítimas ou rajadas máximas de ventos, onde se espera uma certa repetição dos mesmos valores em períodos de um ano. Porém, em muitas áreas de aplicação, a natureza nem sempre nos oferece essa sazonalidade pelo que aquele método deixa de parecer natural. Assim, têm sido desenvolvidos procedimentos alternativos que têm por base a análise de um pequeno número de observações cimeiras. É neste contexto que surgem o método POT (Peaks Over Threshold). Este método têm claramente vantagens em relação à metodologia clássica de Gumbel. De facto, o particionamento da amostra total e ainda a obrigatoriedade de tomar como observações relevantes apenas os máximos de cada uma das subamostras, podem-nos levar a desprezar alguns valores elevados cujo conhecimento é de extrema importância para o estudo do comportamento da cauda direita da f.d. subjacente aos dados. A alternativa ao Método de Gumbel que tem interessado mais investigadores é o Método POT introduzido em Pickands (1975). De acordo com este método tomamos por observações relevantes as que se encontram acima de um nível u (threshold) fixado
0.2. ELEMENTOS DE TEORIA DE EXTREMOS 3 previamente. Começando pela abordagem associada ao método de Gumbel, admitamos que dispomos de uma amostra constituída por valores máximos de um determinado fenómeno, recolhidos ao longo do tempo, ou, por outras palavras, que dispomos de uma amostra da variável máximo de determinado fenómeno (máximo da temperatura, do caudal, da altura da água, etc). Na génese da Teoria de Valores Extremos está resultado que se deve ao matemático Gnedenko, num trabalho publicado em 1943, no qual se mostra que, em condições bastante gerais, a distribuição do máximo de variáveis aleatórias reais independentes e identicamente distribuídas apresenta uma regularidade surpreendente. Concretamente, o Teorema de Gnedenko, que ainda hoje pode ser considerado como um dos resultados mais importantes da Teoria de Valores Extremos, estabelece que a função de distribuição do máximo de amostras suficientemente grandes pode ser aproximada por uma função de distribuição que apresenta uma das três formas seguintes: Ψ(x) Φ(x) Λ(x) := exp ( ( x λ ) α), x ], 0[, := exp ( ( x λ ) α), x ]0, + [, ( ) := exp e x λ, x R, onde α > 0, b > 0 e a é um real qualquer. A estas três f.d. s foram atribuídos os nomes de Weibull, Fréchet e Gumbel, respectivamente. A f.d. Gumbel é sem dúvida a distribuição mais frequentemente ajustada a dados que sejam valores máximos de outras grandezas aleatórias. A principal razão de tal escolha é devida ao facto de a inferência para tal f.d. ser muito mais simples do que para a Frechét ou para a Weibull. A f.d. Gumbel goza, como f.d. limite de máximos devidamente normalizados, do mesmo papel que a f.d. Normal goza, como f.d. limite de somas, convenientemente normalizadas. Passamos a apresentar o esboço do gráfico da densidade das três leis de extremos. -3 5 Figura. Esboço do gráfico da densidade da lei de Gumbel com λ = 1 e = 0. Figura. Esboço do gráfico da densidade da lei de Fréchet Standard (λ = 0, = 1, α = 1) Gráfico das funções densidade da lei de Weibull Standard Figura. Esboço do gráfico da densidade da lei de Weibull Standard (λ = 0, = 1, α = 1) Gráfico das funções densidade relativamente às três leis de máximos. Figura. Validação de uma lei de máximos Ver apontamentos de ME Quando estamos face a uma amostra de máximos, começamos naturalmente pelo ajustamento de uma das três f.d. s indicadas, Gumbel (a mais simples), Fréchet ou Weibull
4-3 -3 3 fazendo primeiro um teste de escolha estatística de um dos três modelos, que pode ser tão simples como um gráfico em papel de probabilidade. Para construir o chamado papel de probabilidade começamos por ordenar ascendentemente a amostra, gerando assim os valores x 1:n x 2:n... x n:n. Seguidamente marcamos num referencial os n pontos (x 1:n, ln( ln(1/n 1))), (x 2:n, ln( ln(2/n 1))),, (x n:n, ln( ln(n/n 1))). Este gráfico pode ser feito no Excel. Se, perante a nuvem de pontos obtida, pudermos afirmar que existe uma relação linear entre abcisssas e ordenadas temos uma validação informal do modelo Gumbel. Mais do que isso, se à nuvem de pontos se puder ajustar uma curva com a concavidade voltada para baixo optamos pela validação informal de um modelo Fréchet,enquanto que uma concavidade voltada para cima nos fornece uma validação informal de um modelo Weibull. Figura. Possíveis configurações das curvas a ajustar a um papel de probabilidade. Exemplo... 39, 104, 118, 119, 122, 132, 143, 152, 177, 177, 178, 182, 206, 212, 237, 237, 239, 241, 242, 258, 265, 276, 277, 329, 333, 344, 351, 357, 359, 361, 368, 370, 372, 376, 378, 391, 409, 418, 429, 431, 435, 578, 679, 920. Em alternativa ao papel de probabilidade podemos construir um teste estatístico mais rigoroso, usualmente designado Teste de Gumbel. Devido à facilidade relativa da inferência estatística associada ao modelo Gumbel, o primeiro passo será o de testar a hipótese de a amostra de máximos de que dispomos dar evidência a que a variável que lhe está subjacente seguir uma lei de Gumbel. Se, com o procedimento que apresentamos de seguida, esta hipótese for rejeitada, podemos, obviamente, enveredar pelo ajustamento de um modelo Fréchet ou Weibull. Dada uma amostra de máximos já ordenada ascendentemente x 1:n x 2:n... x n:n, usamos o valor da estatística w n = ln ln n ( xn:n x [n/2]+1:n x [n/2]+1:n x 1:n ) ln n + ln ln 2 ln ln n ln ln 2 com onde x [n/2]+1:n representa a mediana da referida amostra.
0.2. ELEMENTOS DE TEORIA DE EXTREMOS 5-3 5 O p-valor deste teste é igual a 2 min{1 exp( exp( w n )), exp( exp( w n ))}. Como já foi referido atrás, concluímos que os dados evidenciam um modelo de Gumbel se o p-valor for maior ou igual a 0.05 e, obviamente, que evidenciam um modelo de Fréchet ou Weibull em caso contrário. Retomemos os dados do Rio Paiva. Vamos averiguar se estes dados dão evidência à hipótese de o máximo do caudal do rio Paiva seguir uma lei de Gumbel. Tem-se x n:n x [n/2]+1:n 920 277 = x [n/2]+1:n x 1:n 277 39 = 2.7 e w ln 44 + ln ln 2 44 = (ln ln 44) 2.7 ln ln 44 ln ln 2 = 0.91 REVER Então, como exp( exp( 0.91) =... e 1 exp( exp( 0.91) =... o p-valor é igual a..., pelo que, face a estes dados, concluímos estar na presença de um modelo Gumbel. No caso de amaostra de máximos não evidenciar um modelo de Gumbel para a variável máximo em estudo, como sabemos, enveredamos por um modelo Fréchet ou Weibull. Nesse caso, e tendo por objectivo a estimação de probabilidades de acontecimentos raros, níveis elevados e de períodos de retorno destas duas leis, é de toda a conveniência escrever a expressão das suas funções de distribuição numa só. Concretamente: ( ( exp 1 + ξ x λ ) ) 1/ξ ξ(x λ), 1 + > 0, ξ 0 G(x) = 0, 1 + ξ(x λ) Para ξ > 0, G define a função de distribuição da lei de Fréchet e para ξ < 0, G define a função de distribuição da lei de Weibull. Esta exposição prossegue com a estimação dos parâmetros desconhecidos ξ, λ, e. As respectivas estimativas (aproximações) que denotamos por ξ, λ, e, respectivamente, são geradas a partir da amostra de máximos de que dispomos. A saber, tem-se para a lei de Gumbel: 6S 2 6S 2 π ; = π e λ = X 0.5772 para a lei de Fréchet e para a lei de weibull: 0
6 Na sequência do que já foi dito atrás uma estimativa ξ positiva ou negativa dá evidência a um modelo Fréchet ou Weibull, respectivamente. Estimação de quantis elevados e de períodos de retorno O conhecimento da lei sujacente aos dados permite estimar facilmente quantis elevados Q(1 p), com p pequeno, do fenómeno em estudo, dados por 1 ( ln(1 p)) ξ λ, (Gumbel) Q(1 p) = ξ λ ln ( ln(1 p)), (Fréchet ou Weibull) Para estimar os períodos de retorno temos então ( ( 1 exp exp( u λ 1 ))), (Gumbel) T (u) ( ) 1/ ξ 1 u λ 1 exp 1 + ξ, (Fréchet ou Weibull) 0.3 Para mínimos Notemos que existem obviamente resultados análogos para valores mínimos, que decorrem da relação min X i = max ( X i) i=1...n i=1...n obtemos ( ) x λ P (W n x) G ξ onde 1 exp ( e x ), x R, ξ = 0 G ξ (x) = 1 G ξ ( x) = 1 exp ( (1 ξ ) x) 1/ξ, 1 ξ x > 0 Assim, para amostras de mínimos, e nos contextos habituais em que se insere o presente texto, interessam-nos quantis associados a baixas probabilidades, isto é Q(p) : F (Q(p)) = p, p pequeno Por exemplo, interessa-nos um valor de seca (nível baixo do rio ou de pluviosidade) cuja probabilidade de se observarem valores abaixo deste seja igual a um p muito pequeno.
0.4. MÉTODO POT 7 0.4 Método POT 0.4.1 Caracterização do método O resultado fundamental no qual assenta este método é um resultado de Pickands onde se prova que a f.d. contínua F pertence ao domínio de atracção de alguma f.d. GEV ξ se e só se ( ( )) 1 F (u + x) x 1 GP ξ, (1) 1 F (x) β com x e β positivos e para u suficientemente grande. Por GP ξ é designada a função de distribuição de Pareto Generalizada dada por { 1 (1 + ξx) GP ξ (x) = 1/ξ, x > 0, 1 + ξx > 0 e ξ = 0, 1 exp( x), x > 0 e ξ = 0. De acordo com o resultado referido, Pickands provou assim que, se u representa um nível suficientemente elevado, a função de distribuição da v.a. X, está no domínio de atracção de alguma distribuição GEV ξ se e somente se P (X u > x/x > u) pode ser bem aproximada, supondo u suficientemente elevado, por alguma função de distribuição Pareto Generalizada com o mesmo parâmetro de forma (ou índice de cauda) ξ. Uma vez que o Método de Gumbel identifica o comportamento distribucional do máximo de cada bloco com o comportamento da distribuição limite GEV ξ estamos perante uma abordagem de cariz paramétrico. Também no Método POT, desde que u seja um nível suficientemente elevado, a classe de Pareto Generalizada constitui a classe adequada para se fazer inferência estatística sobre dados extremais. Assim sendo, estamos mais uma vez face uma abordagem paramétrica. É neste contexto que surge em Pickands (1075) um estimador para o índice de cauda ξ, parâmetro de forma da f.d. GP ξ, dado por ˆξ p n = 1 log 2 log X (m) X (2m) X (2m) X (4m) onde m := m n, X (m) := X n m+1:m e {m m } é uma sucessão de inteiros que verifica lim m m n n = + e lim = 0. (2) n + n + n Este estimador, invariante a alterações de localização e de escala, é conhecido na literatura por estimador de Pickands. Em várias áreas de aplicação, não existe uma sazonalidade natural dos dados, parecendo de certo modo artificial o método das sub-amostras de Gumbel. E se considerassemos um número reduzido de observações de topo da colecção de dados inicial? Na realidade se temos dados diários ou semanais, certos anos podem conter alguns de entre esses maiores valores, certamente relevantes para inferir sobre a cauda de F, enquanto que outros anos podem não conter nenhum destes valores. Nesta segunda abordagem à estatística de extremos baseamos a inferência nas obervações que excedem um certo nível ou THRESHOLD ajustando modelos probabilísticos apropriados. 0.4.2 Lei limite dos excessos normalizados QUAL O MODELO ADEQUADO? De acordo com um resultado de Pickands temos
8 Capítulo 1: Teoria de Extremos P (X u x/x > u) GP ξ (x/β), u + se e só se ( ) x λ F n (a n x + b n ) = P (M n a n x + b n ) G ξ, n + onde GP ξ representa a função de distribição generalizada de Pareto. Nesta abordagem à estatística de extremos considera-se um nível elevado e trabalha-se com a amostra de excessos -diferença entre as observações e o próprio nível - os quais são modelados por uma distribuição GP ξ. 0.4.3 Lei Generalizada de Pareto O modelo Generalizado de Pareto tem f.d. ( GP ξ (x) = 1 1 + ξ x ) 1/ξ, 1 + ξ x β β e 1 e x/β x > 0 GP 0 (x) = 0 x < 0 > 0, x 0 para ξ 0 0.4.4 Validação da lei generalizada de Pareto Tal como anteriormente podemos enveredar inicialmente por um teste de exponencialidade ( ξ = 0 ) dos excessos acima de um nível elevado u, previamente fixado. Este teste pode ser mais uma vez um teste gráfico em papel de probabilidade marcando ( x i:n versus ln 1 i ) n + 1 para i = 1, 2,..., n. Em caso de dúvida usamos o teste de Kolmogorov-Smirnov ou o teste do qui-quadrado como testes de ajustamento. 0.4.5 Estimação de parâmetros da lei generalizada de Pareto Estimadores de Momentos ponderados (ξ < 1) : com a 0 = x, a r = 1 n β = 2a 0a 1 a 0 2a 1 ξ = 2 a 0 a 0 2a 1, n j=1 (n j)(n j 1)... (n j + r + 1) x j:n (n 1)(n 2)... (n r)
1.8 - Método POT 9 0.4.6 Estimação de quantis elevados e de períodos de retorno Temos k excessos do nível u, entre N observações. Nível elevado com probabilidade 1 p de ser excedido Q(1 p) Períodos de retorno do nível elevado v ( N 1 u β k p ξ ) ξ, ξ 0 ( ) u β N ln k p, ξ = 0 T (v) = 1 1 F (v) N k ( 1 + ξ v u ) 1/ ξ, ξ 0 β N k exp(v u β ), ξ = 0