Teste de Gaussianidade 2 Leonardo T^orres 3 de agosto de 2 Resumo Breve revis~ao do teste 2 usado para determinar se a func~ao densidade de probabilidade associada a variavel observada de um instrumento e Gaussiana ou n~ao, com um certo nvel de signic^ancia (chance de cometer um equvoco). O problema Precisamos descobrir se os diversos valores observados em um instrumento de medic~ao est~ao distribudos segundo uma func~ao de densidade de probabilidade Gaussiana, para o caso em que a variavel desejada e mantida xa. Isto e, desejamos saber se a func~ao de densidade de probabilidade associada a pode ser escrita como f( ) = s obs p 2 e ( x ) 2 obs 2s 2 obs ; () sendo a media amostral dos valores observados e s obs o desvio padr~ao amostral dos valores observados: X = N (k) N k= s obs X = [ (k) ] 2 N 2 O Histograma Suponha que foram observados N = valores de para um dado instrumento, mantendo-se a variavel desejada constante. Fazendo-se um histograma para visualizar a distribuic~ao de valores, obtem-se a Fig.a. A partir dos valores de e s obs calculados dos dados observados, e conhecendo-se a express~ao (), obtem-se a curva vermelha mostrada na Fig.b, que corresponde ao numero
(a) 2 Histograma dos valores observados (N = ) 2 o..2.3.4..6.7.8.9 2 2. 2 (b) Ajuste do histograma a curva Gaussiana o (asteriscos) e nk e (curva vermelha) 2.2.4.6.8 2 Figura : (a) Histograma para valores de. curva Normal com par^ametros e s obs. (b) Pontos do histograma sobre a de valores que deveriam ter sido observados, se a variavel realmente fosse Gaussiana e o numero de pontos N! : e = f(xk obs )N ; (2) sendo o numero de amostras e esperadas no intervalo k, xk obs o valor medio do intervalo k; N o numero total de valores observados e o tamanho dos intervalos (classes) do histograma. 3 A variavel Q 2 A m de medir o quanto os pontos da curva vermelha (Fig.b) se distanciam dos pontos obtidos para o histograma dos valores observados, podemos denir a variavel Q 2, que 2
pode ser vista como um ndice de qualidade de ajuste da curva: Q 2 = XNc ( e o )2 k= e (3) sendo N c o numero de classes do histograma e o o numero de valores observados na classe k do histograma tracado. Como Q 2 e uma variavel formada pela composic~ao de valores aleatorios, e tambem uma variavel aleatoria. Um fato interessante e que a func~ao de densidade de probabilidade da nova variavel Q 2 tende para uma fdp conhecida como func~ao de densidade de probabilidade 2, mostrada na Fig.2, ou seja: lim N! Q2 = 2 : Figura 2: Func~oes de densidade de probabilidade 2 para diferentes graus de liberdade. A fdp 2 e caracterizada pelo numero de graus de liberdade g, denido como g = N c p ; sendo N c o numero de classes do histograma e p o numero de par^ametros que precisaram ser estimados, pois n~ao eram conhecidos a priori, para tracar a func~ao de densidade de probabilidade No presente caso, usamos a media e desvio-padr~ao amostrais para este m, e portanto temos p = 2. 4 O Teste de Ader^encia 2 O teste de Gaussianidade 2, tambem chamado de teste de ader^encia 2 (qui-quadrado), fundamenta-se na minimizac~ao da chance de se cometer o seguinte equvoco, conhecido como Erro do Tipo I [Magalh~aes and de Lima, 22]: 3
Rejeitar a hipotese de que os dados observados t^em distribuic~ao Gaussiana, para o caso em que os dados observados t^em realmente distribuic~ao Para isto, observamos que quanto maior for o valor de Q 2 em (3), maior sera a discrep^ancia entre o histograma obtido e a curva Gaussiana (ou curva Normal) correspondente, indicando que ha maior chance de os dados n~ao estarem distribudos de forma.6 Teste de aderencia.4.2. fdp χ 2.8.6.4 Chance de se cometer o Erro Tipo I.2 2 4 6 8 2 4 6 χ 2 Figura 3: Exemplo de aplicac~ao do teste de ader^encia 2 para um nvel de siginic^ancia = %, ou seja, q c,, para g =. q c Para avaliarmos a chance de cometermos o equvoco supracitado, denimos um limite para o valor de Q 2, tal que:. Se Q 2 q c ) rejeitamos a hipotese de que os dados observados t^em distribuic~ao 2. Se Q 2 < q c ) aceitamos a hipotese de que os dados observados t^em distribuic~ao Neste caso, quanto maior o valor de q c, menor sera a chance de cometermos o erro do Tipo I, ao rejeitarmos a hipotese de que a distribuic~ao e Por outro lado, mais facil sera aceitarmos que a distribuic~ao e Gaussiana, mesmo que ela n~ao seja (Erro Tipo II)! E possvel mostrar que, infelizmente, n~ao conseguimos minimizar simultaneamente tanto a chance de cometermos o Erro Tipo I, quanto a chance de cometermos o Erro Tipo II. Escolhe-se, usualmente, a minimizac~ao do Erro Tipo I, como descrito neste documento. 4
Em func~ao disto, dizemos que aceitamos ou rejeitamos a hipotese de que os dados t^em distribuic~ao Normal, a um nvel de signic^ancia de, onde e a chance de cometermos o Erro Tipo I. Esta chance corresponde a area sob a curva da func~ao de densidade de probabilidade 2, com g graus de liberdade, para o intervalo 2 > q c, conforme mostrado na Fig.3. Os valores de q c s~ao obtidos de tabelas que contem valores para as probabilidades cumulativas 2, para diferentes graus de liberdade, em func~ao do nvel de signic^ancia [Magalh~aes and de Lima, 22]. Refer^encias [Magalh~aes and de Lima, 22] Magalh~aes, M. N. and de Lima, A. C. P. (22). Noc~oes de Probabilidade e Estatstica. EdUSP.