O teste de Bickel-Rosenblatt com janela fixa para uma hipótese de uniformidade

Actas do XIV Congresso Anual da SPE 89 O teste de Bickel-Rosenblatt com janela fixa para uma hipótese de uniformidade Carlos Tenreiro CMUC e DMUC, Universidade de Coimbra Resumo: O teste de ajustamento de Bickel-Rosenblatt com janela fixa foi introduzido por Fan em 998 [Econometric Theory 4, 64 62]. Apesar das suas propriedades assintóticas terem sido estudadas por diversos autores para o teste de uma hipótese nula geral, o seu comportamento assintótico e a distância finita depende da hipótese nula em análise. Centrando a nossa atenção no teste de uma hipótese de uniformidade, apresentamos neste trabalho uma descrição do comportamento assintótico e não-assintótico do teste de Bickel-Rosenblatt em função da janela h. Palavras chave: Teste de ajustamento, estimador do núcleo, teste de Bickel-Rosenblatt, teste de uniformidade, eficiência de Bahadur. Abstract: The Bickel-Rosenblatt goodness-of-fit test with fixed bandwidth was introduced by Fan in 998 [Econometric Theory 4, 64 62]. Although its asymptotic properties have being studied by several authors, its asymptotic and finite sample performance depends on the considered null hypothesis. Restricting our attention to the test of an uniformity hypothesis, we present in this work a description of the asymptotic and finite sample behaviour of the Bickel-Rosenblatt test as a function of the bandwidth h. Keywords: Goodness-of-fit test, kernel density estimator, Bickel-Rosenblatt test, uniformity test, Bahadur efficiency. Introdução Observadas realizações independentes das variáveis aleatórias reais X,..., X n, que supomos independentes e identicamente distribuídas com densidade desconhecida f, o teste clássico de Bickel-Rosenblatt (cf. Bickel e Rosenblatt [2]) para testar H : f = f contra H : f f, onde f é uma densidade fixa em R, é baseado na estatística In 2 (h n) = n {f n (x) E f n (x)} 2 dx, onde f n é o estimador do núcleo de Parzen-Rosenblatt (cf. Rosenblatt [] e Parzen []) definido, para x R, por

8 Tenreiro/Teste de uniformidade de Bickel-Rosenblatt f n (x) = n n K hn (x X i ), i= com K um núcleo em R, isto é, uma função limitada e integrável em R, (h n ), a janela, uma sucessão de números reais estritamente positivos satisfazendo h n, K hn ( ) = K( /h n )/h n, e E f n (x) a esperança matemática de f n (x) sob a hipótese nula, E f n (x) = K hn (x y)f (y)dy. As propriedades assintóticas do teste clássico de Bickel-Rosenblatt são descritas em Bickel e Rosenblatt [2], Fan [3], Gouriéroux e Tenreiro [5] e Tenreiro [3]. Apesar da condição anterior sobre a janela ser essencial para a convergência do estimador do núcleo para a densidade desconhecida f, Fan [4] mostra que ela não é essencial no contexto dos testes de ajustamento baseados na estatística I 2 n(h n ). Na hipótese da transformada de Fourier de K ser quase em toda a parte não-nula, um teste assintoticamente convergente pode ser obtido a partir da estatística de Bickel-Rosenblatt com janela fixa, isto é, h n = h >, para todo o n N. Para outros trabalhos sobre o teste de Bickel-Rosenblatt com janela fixa ver, por exemplo, Henze e Zirkler [8], Henze e Wagner [7] e Tenreiro [2, 3]. A distribuição assintótica de I 2 n(h) sob a hipótese nula decorre da sua representação como V-estatística degenerada com I 2 n (h) = n n Q h (X i, X j ), i,j= Q h (u, v) = W h (u v) W h f (u) W h f (v) + W h f f (), para u, v R, h >, e W = K K, onde representa o produto de convolução e Ψ(u) = Ψ( u). Assim (cf. Gregory [6]), I 2 n(h) d λ k,h Zk, 2 k= onde {Z k, k } são variáveis normais standard i.i.d., e {λ k,h, k }, com λ,h λ 2,h..., denota a família infinita de valores próprios estritamente positivos do operador integral A h definido, para q L 2 (f ), por (A h q)(u) = Q h (u, ), q( ), onde, denota o produto interno usual em L 2 (f ).

Actas do XIV Congresso Anual da SPE 8 Neste trabalho descrevemos propriedades assintóticas e empíricas do teste de Bickel-Rosenblatt com janela fixa para uma hipótese de uniformidade, isto é, tomamos f = U, onde U é a densidade uniforme sobre o intervalo [, ]. Apesar de diversas escolhas simples serem possíveis para K, limitar-nos-emos ao caso em que K é o núcleo normal standard. Comparações com os testes quadráticos clássicos de Anderson-Darling [] e de Watson [4] baseados na função de distribuição empírica serão também apresentadas. 2 Local exact slopes de Bahadur Se {f( ; θ) : θ Θ}, onde Θ é um intervalo fechado de números reais, é uma família de densidades de probabilidade contendo U, isto é, U = f( ; θ ), para algum θ Θ, é prática usual comparar testes de ajustamento através da comparação dos respectivos local exact slopes de Bahadur, C I 2 n (h)(f( ; θ)), quando θ θ (ver Nikitin [9]). No que se segue consideraremos alternativas locais da forma f(x; θ) = + θ P j (x), para θ > e x, onde P j é um dos polinómios de Legendre P (x) = 3(2x ); P 2 (x) = 5(6x 2 6x + ); P 3 (x) = 7(2x 3 3x 2 + 2x ); P 4 (x) = 3 (7x 4 4x 3 + 9x 2 2x + ). Estes quatro polinómios, que pertencem ao espaço tangente a U definido por H(U) = {h L 2 (U) : h, U = }, são as componentes principais do teste de Anderson-Darling e descrevem desvios de localização, escala, simetria e forma, respectivamente, relativamente à hipótese nula de uniformidade. Dos resultados de Tenreiro [2], sabemos que ou ainda, C I 2 n (h)(f( ; θ)) = λ,h W h P j, P j θ 2 ( + o()), se θ, C I 2 n (h)(f( ; θ)) = k= λ,h λ k,h q k,h, P j 2 θ 2 ( + o()), se θ, onde as componentes principais {q k,h, k } são uma base ortonormada do espaço H(U) correspondente aos valores próprios {λ k,h, k }, isto é, para todo o k e j, A h q k,h = λ k,h q k,h, q.t.p. (U) e q k,h, q j,h = δ kj, onde δ kj é o delta de Kronecker. Das representações anteriores, e em particular do facto dos valores próprios (λ k,h ) convergirem para zero, é claro que apenas um número finito de direcções alternativas contribuem efectivamente para C I 2 n (h)(f( ; θ)). A questão natural que respondemos a seguir é saber quão rapidamente as direcções principais perdem influência.

82 Tenreiro/Teste de uniformidade de Bickel-Rosenblatt Figura. Componentes principais para: I 2 n(h) linha contínua; A 2 n linha descontínua; U 2 n linha descontínua ponteada Componente - - - - - - - - -.2.4.6.8.2.4.6.8 Componente 2.2.4.6.8 - - - - - - - - -.2.4.6.8.2.4.6.8 Componente 3.2.4.6.8 - - - - - - - - -.2.4.6.8.2.4.6.8 Componente 4.2.4.6.8 - - - - - - - - -.2.4.6.8.2.4.6.8.2.4.6.8 h =. h =. h =. O local exact slope de Bahadur do teste I 2 n(h) depende das ponderações γ k,h = λ,h λ k,h e das componentes principais q k,h. Aproximações numéricas

Actas do XIV Congresso Anual da SPE 83 Tabela. Ponderações γ k,h = λ,h λ k,h para I 2 n(h) h =. h =. h =. A 2 n U 2 n γ 2,h 9.96 7.4 2.46 2 3.33. γ 3,h 9.89 4.25.8 4.67 2.5 γ 4,h 9.8 2.4 2.2 6. 2.5 γ 5,h 9.7.7 3.52 7 6.67 2. γ 6,h 9.59 4.72 2 9.4 9 4.76 2. γ 7,h 9.44.69 2 5.9 3 3.57 2 6.25 2 γ 8,h 9.3 6.4 3 2.3 3 2.78 2 6.25 2 γ 9,h 9.2.79 3 6.9 6 2.22 2 4. 2 γ,h 8.95 5.35 4 2.6 6.82 2 4. 2 γ,h 8.75.35 4.4 6 2 2 2.78 2 γ 2,h 8.55 3.44 5.39 6.28 2 2.78 2 das quatro primeiras componentes principais e das ponderações mais significativas para h =.,. e. são apresentadas na Figura e na Tabela, respectivamente. Para efeitos comparativos, apresentam-se também as componentes principais e ponderações dos testes A 2 n de Anderson-Darling e U2 n de Watson (ver Nikitin [9] sobre os local exact slopes de Bahadur destes testes clássicos). Da Figura, e analogamente às componentes principais do teste de Anderson- Darling, parece razoável pensar que, de alguma forma, as quatro primeiras componentes principais do teste In 2 (h) descrevem desvios de localização, escala, simetria e forma, respectivamente. Assim, tendo em conta a Tabela, esperamos que para pequenos valores de h o teste de Bickel-Rosenblatt seja adequado para detectar alternativas outras que as de localização, enquanto que para valores moderados ou grandes de h, ele deverá exclusivamente detectar alternativas de localização. Estas conclusões são reforçadas pelo traçado dos índices locais de Bahadur (coeficiente de θ 2 nas representações anteriores do local exact slope de Bahadur) que apresentamos na Figura 2 para os testes de Bickel-Rosenblatt para uma malha de valores de h [., ], bem como para os testes de Anderson- Darling e de Watson. 3 Alguns resultados de simulação Para examinar o comportamento a distância finita do teste de Bickel-Rosenblatt para diversas escolhas de h, realizámos um estudo de simulação que incluíu os testes I 2 n(.2) (janela pequena), I 2 n(.) (janela média) e I 2 n() (janela grande). Estes valores de h foram considerados depois dum estudo preliminar com um vasto conjunto de janelas que permitiu identificar comportamentos sistemáticos da potência empírica dos testes de Bickel-Rosenblatt em função de h que estão globalmente de acordo com as conclusões anteriores baseadas nos índices locais de Bahadur.

84 Tenreiro/Teste de uniformidade de Bickel-Rosenblatt Figura 2. Índices locais de Bahadur para: I 2 n(h) linha contínua; A 2 n linha descontínua; U 2 n linha descontínua ponteada Alternativa P Alternativa P 2.8.8.6.6.4.4.2.2.2.4.6.8.2.4.2.4.6.8.2.4 Alternativa P 3 Alternativa P 4.8.8.6.6.4.4.2.2.2.4.6.8.2.4.2.4.6.8.2.4 As propriedades de potência dos testes anteriores bem como as dos testes A 2 n e U 2 n foram investigadas para os seguintes conjuntos de distribuições alternativas: ) Alternativas beta f(x) = para a, b >, com Γ a função gama. 2) Alternativas de Legendre da forma Γ(a + b) Γ(a)Γ(b) xa ( x) b, x, f(x) = + ρ P j (x), x, para ρ > e j =, 2, 3, 4, 5, 6, onde P j é o j-ésimo polinómio de Legendre. 3) Alternativas trigonométricas da forma f(x) = + ρ cos(πjx), x, para ρ > e j =, 2, 3, 4, 6, 8. As alternativas de Legendre permitem-nos descrever desvios relativamente à hipótese nula no que respeita à localização (j = ), escala (j = 2), simetria (j = 3), forma (j = 4) e a momentos de ordem superior (j = 5, 6). No caso das alternativas trigonométricas o parâmetro j controla a frequência da alternativa

Actas do XIV Congresso Anual da SPE 85 Tabela 2. Potência empírica ao nível.5 para alternativas beta a b µ σ 2 n I 2 n(.2) I 2 n(.) I 2 n() A 2 n U 2 n Alternativas beta assimétricas.75.4.7 2.35.4.4.6.36 4.62.68.62.82.62.75.25.4.83 2.7.24.39.37 4.3.45.6.62.27..4.69 2.27.36.32.8 4.25.62.6.33 2.25.4.5 2.23.42.36.34.43 4.49.77.69.76.77 2. 3..4.4 2.39.68.38.46.73 4.8.97.8.94.97 2.5 3.75.4.33 2 6.85.42 9.9 4.95..86.99. Alternativas beta simétricas.25 2.33.33.6 4.44 4.6 9.8.79.74.75.75. 4.2.3.9.6.8 6.6.8.9.2.25.63 4.4.9.4.6.28 6.2.28.4..4 2. 2..5 2.2.29.3.4.39 4.4 7.3.23.74 2.5 2.5.42 2.3.46.2.4.39 4.69.87.3 6.95 3.5 3.5.3 2.47.67.2.6.82 4.96.99.3.95. e permite avaliar o comportamento do teste em função da frequência da alternativa. Quer para as alternativas de Legendre, quer para as trigonométricas, o parâmetro ρ define a distância L 2 da alternativa à hipótese nula. Vários valores de ρ foram considerados tendo-se observado resultados qualitativamente semelhantes. Finalmente, os vários valores considerados para os parâmetros a, b > conduziram a alternativas beta simétricas, quando a = b, e assimétricas, quando a b. Os resultados de potência que apresentamos nas Tabelas 2 e 3 ao nível.5 foram baseados em 2 amostras simuladas de tamanho n, para n = 2, 4 ou 6. Resultados semelhantes foram obtidos para os níveis. e.. Os valores críticos das diversas estatísticas de teste foram obtidos por simulação a partir de 4 amostras de tamanho n da distribuição uniforme. Os resultados empíricos obtidos estão, na generalidade, em conformidade com as conclusões baseadas nos índices locais de Bahadur. As excepções a esta regra geral foram os resultados obtidos para as alternativas de baixa frequência quando h =.2. Tendo por base os índices locais de Bahadur seria de esperar

86 Tenreiro/Teste de uniformidade de Bickel-Rosenblatt Tabela 3. Potência empírica ao nível.5 para alternativas de Legendre e trigonométricas ρ j µ σ 2 n I 2 n(.2) I 2 n(.) I 2 n() A 2 n U 2 n Alternativas de Legendre.3 87.76 2.3.22.3.27 6.29 3.66.63.37.3 2.5 2.2.8.4.9 6.28.4..29.3 3.83 2...6.7. 6.25.26.6..25.3 4.83 2..9.5.7.8 6.25.6.5.9.3.3 5.83 2..7.5.6.7 6.23..5.7.9.3 6.83 2..5.6.6.5 6.22.8.5.6.8 Alternativas trigonométricas..297.42 2 5.9.95.94.74 4.95....98. 2.34 2 5.85.2 5.89 4.95..28.93.. 3.477.83 2 3 7.7.6.4 4.94.96.7.43.82. 4.96 2 4.27.8.7.9 4.94.69.6.28 9. 6.89 2.49.7.6.. 4.9..7.8. 8.86 2.43.5.6.8.7 4.87.5.5.. melhores resultados do teste de Bickel-Rosenblatt In 2 (.2) na detecção de tais alternativas. O teste de Bickel-Rosenblatt com h = revela bons resultados para alternativas puras de localização. No entanto, o teste de Anderson-Darling obteve, em geral, melhores resultados que In() 2 para o conjunto das alternativas consideradas. Para h =. o teste de Bickel-Rosenblatt atinge bons resultados para alternativas em momentos de ordem inferior (beta e Legendre com j 3) e também para alternativas de baixa frequência (trigonométricas com j 3). O teste In(.) 2 é para este tipo de distribuições uma alternativa válida aos testes A 2 n e U2 n. Nenhum dos testes anteriores é adequado para a detecção de desvios em momentos de ordem superior (Legendre com j > 3) e de alta frequência (trigonométricas com j > 3). Para este tipo de alternativas o teste In(.2) 2 obteve excelentes resultados sendo claramente superior aos restantes testes que considerámos.

Actas do XIV Congresso Anual da SPE 87 Referências [] Anderson, T.W., Darling, D.A. (954). A test of goodness of fit. J. Amer. Statist. Assoc. 49, 765 769. [2] Bickel, P.J., Rosenblatt, M. (973). On some global measures of the deviations of density function estimates. Ann. Statist., 7 95. [3] Fan, Y. (994). Testing the goodness of fit of a parametric density function by kernel method. Econometric Theory, 36 356. [4] Fan, Y. (998). Goodness-of-fit tests based on kernel density estimators with fixed smoothing parameters. Econometric Theory 4, 64 62. [5] Gouriéroux, C., Tenreiro, C. (2). Local power properties of kernel based goodness of fit tests. J. Multivariate Anal. 78, 6 9. [6] Gregory, G.G. (977). Large sample theory for U-statistics and tests of fit. Ann. Statist. 5, 23. [7] Henze, N., Wagner, T. (997). A new approach to the BHEP tests for multivariate normality. J. Multivariate Anal. 62, 23. [8] Henze, N., Zirkler, B. (99). A class of invariante consistent tests for multivariate normality. Comm. Stat. Theory Methods 9, 3595 367. [9] Nikitin, Y. (995). Asymptotic Efficiency of Nonparametric Tests. Cambridge University Press. [] Parzen, E. (962). On estimation of a probability density function and mode. Ann. Math. Statist. 33, 65 76. [] Rosenblatt, M. (956). Remarks on some non-parametric estimates of a density function. Ann. Math. Statist. 27, 832 837. [2] Tenreiro, C. (25). On the role played by the fixed bandwidth in the Bickel- Rosenblatt goodness-of-fit test. SORT 29, 2 26. [3] Tenreiro, C. (27). On the asymptotic behaviour of location-scale invariant Bickel-Rosenblatt tests. J. Statist. Plan. Inference 37, 3 6. [4] Watson, G.S. (96). Goodness-of-fit tests on a circle. Biometrika 48, 9 4.