PHD 574 Estatística Aplicada ao Gerenciamento dos Recursos Hídricos 8 a aula Testes Não-Paramétricos de Hipóteses Mario Thadeu Leme de Barros Luís Antonio Villaça de Garcia Abril / 005
Estatística Aplicada ao Gerenciamento dos Recursos Hídricos Onde nós estamos... identificamos que a INFERÊNCIA (amostra para população) é o objetivo da estatística e o caminho é através da probabilidade; aprendemos a usar os dados da amostra para determinar suas estatísticas, como a média e a variância; aprendemos as distribuições probabilísticas amostrais e como estas podem ser usadas para estimar parâmetros da população (INFERÊNCIA), bem como avaliar o intervalo de confiança das inferências das estatísticas; aprendemos a utilizar as informações das amostras para desenvolver testes paramétricos de hipóteses para média, variância, desvio-padrão, proporção, considerando um pré-estabelecido nível de significância.
Aula de hoje vamos aprender alguns testes não-paramétricos de hipóteses: testes de aderência: Chi-Quadrado Kolmogorov-Smirnov testes de independência: testes de comparação de duas populações: teste dos sinais teste da mediana teste de aleatoriedade ou de seqüências teste de Mann-Whitney
Critérios Estatísticos para que uma amostra ou série de dados seja teoricamente válida para fins de análises probabilísticas, deve atender alguns critérios estatísticos: aleatoriedade: as variações dos dados (vazões, OD,..) devem ter causa natural. Não é o caso da influência de reservatórios nas vazões a jusante; independência: os dados observados não devem ter influência em qualquer observação posterior. Vazões diárias são usualmente dependentes entre si e vazões máximas anuais independentes; homogeneidade: todos os dados da série (amostra) devem pertencer à mesma população. Não é o caso de vazões de um rio que em uma parte do ano tem origem no degelo (neve) e outra na chuva; estacionariedade: os dados da série não variam com o tempo, a menos das flutuações de origem natural. A não-estacionariedade inclui saltos, tendências e comportamento cíclico. Construção de uma barragem resulta em variações bruscas no regime fluvial. Tendências nas vazões devido a urbanização de uma bacia.
Testes de Aderência Conceito admitimos, por hipótese, que a distribuição populacional da variável de interesse (vazões, chuva, OD,...) seja descrita por determinado modelo de distribuição de probabilidade (normal, log-normal, Gumbel,...); testamos esta hipótese verificando a aderência dos dados da amostra (série de vazões, chuva, OD) ao modelo de distribuição de probabilidade; a hipótese de nulidade Ho é, sempre, que a distribuição teórica representa adequadamente a distribuição observada os testes clássicos são: Qui-quadrado Kolmogorov-Smirnov Gráfico
Testes de Aderência Qui-Quadrado permite verificar a significância das diferenças entre as freqüências observadas O i de dados organizados em K classes e as freqüências teóricas E i obtidas a partir de uma distribuição probabilística. K A estatística de teste é: ( O = i Ei ) χ E a estatística é comparada com a estatística da distribuição Qui-Quadrado χ ν para um nível de significância α. O grau de liberdade ν = K m, onde m é o número de parâmetros da distribuição probabilística em teste. Exemplo: séries de NA máximos do rio Negro i= i
Testes de Aderência Kolmogorov-Smirnov permite verificar a significância das diferenças entre as freqüências observadas e as freqüências teóricas obtidas a partir de uma distribuição probabilística. Aplicável para distribuições probabilísticas contínuas. Definidas as funções probabilísticas acumuladas empírica S(x) (observadas) e teórica F(x) (hipotética), a estatística de teste é o máximo módulo da diferença das probabilidades acumuladas destas funções: D = máximo F S o valor de D é comparado com o valor de Dα obtido da tabela. Se D > Dα a hipótese da distribuição teórica representar a distribuição empírica é rejeitada ao nível de significância α. Se Dα > D a hipótese da distribuição teórica representar a distribuição empírica não pode ser rejeitada ao nível de significância α. Exemplo: séries de NA máximos do rio Negro
Testes de Aderência Tabela de Dα
Testes de Independência e Estacionariedade Wald - Wolfowitz permite verificar a independência dos N valores (x, x,..x n ) que compõem uma série, bem como verificar sua estacionariedade. A estatística de teste é: ( R R) onde: Var( R) = R ( s = x s N. x N + xi. i= 4 N ) R + s 4 x i+ 4. s. s ( N R + 4. s ( s s ) = N. s ).( N 3 + s ). s 4 i u = Var( R) N i= i / s = N. ( x Origem) a estatística é comparada com a variável normal padronizada z α/ para um nível de significância α. Se u > z α/ a hipótese de independência e estacionariedade é rejeitada ao nível de significância α. Se u < z α/ a hipótese de independência e estacionariedade não pode ser rejeitada ao nível de significância α. Exemplo: séries de NA máximos do rio Negro i
Teste de Seqüências - Aleatoriedade permite verificar se os dados que compõem uma série tem comportamento aleatório. Este teste ainda permite identificar tendências ou comportamentos cíclicos. verifica-se o número de seqüências observado na série, seqüências de variáveis de um tipo precedidas ou seguidas por variáveis de outro tipo. Exemplo: 35 níveis de poluição medidos em um rio em intervalos regulares de tempo, A aceitável e N não aceitável: UUAUAUUUUUAAUUUUAUAAAAUUAAAAAUAAUUA número de seqüências R = 6, cuja relação com o número de elementos permite uma indicação da aleatoriedade. Baixo valor de R sugere agrupamentos, tendência, comportamento cíclico. Valor alto de R indica variações constantes.
Teste de Seqüências - Aleatoriedade Em uma seqüência contendo n variáveis de um tipo e m variáveis de outro, a distribuição amostral do número total de seqüências R pode ser representada por uma distribuição normal com:. n. m. n. m.(. n. m n m) µ R = + Var( R) = ( n + m) ( n + m).( n + m ) sendo que z = (R - µ R ) / Var(R) / ; hipótese de nulidade Ho: a população é aleatória; hipótese alternativa Ha: a população não é aleatória; a estatística z é comparada com a variável normal padronizada z α/ para um nível de significância α. Se z > z α/ a hipótese de aleatoriedade é rejeitada ao nível de significância α. Se z < z α/ a hipótese de aleatoriedade não pode ser rejeitada ao nível de significância α. Exemplo: séries de NA máximos do rio Negro
Teste de Mann-Whitney permite verificar se duas séries de dados provém da mesma população. Este teste é aplicado também para comparar duas partes de uma mesma série (amostra), verificando se houveram alterações que comprometeram sua homogeneidade; considerando duas amostras com tamanhos n e n e sendo T e T a soma das ordenações dos dados de cada amostra, determina-se as seguintes estatísticas de teste: n.( n + ) n.( n + ) u = n. n + T u = n. n + T para n > 7 e n >7 as estatísticas u e u tem distribuição próxima da normal.
Teste de Mann-Whitney sendo normal e as amostras pertencendo a mesma população: n µ ( u ) = µ ( u ) =. n σ ( u ) = σ ( u ) = n. n sendo que z = (u - µ(u )) / σ(u ) e z = (u - µ(u )) / σ(u ) ; hipótese de nulidade Ho: as amostras pertencem a mesma população; hipótese alternativa Ha: as amostras não pertencem a mesma população; a estatística z é comparada com a variável normal padronizada z α/ para um nível de significância α. Se z > z α/ a hipótese Ho é rejeitada ao nível de significância α. Se z < z α/ a hipótese Ho não pode ser rejeitada ao nível de significância α..( n + n + ) Exemplo: séries de vazões máximas do Pond Creek
Teste dos Sinais permite testar se duas amostras provêm da mesma população; Os valores das amostras são x i e x i (i=,,...,n) e consideremos os sinais (+ e -) das diferenças x i e x i se as duas amostras provêm da mesma população (Ho), teríamos em média n/ sinais positivos e n/ sinais negativos, independente da distribuição. a hipótese a ser testada passa a ser que a porcentagem que o sinal + ou aparece é 0,5; para n > 0, pode-se assumir uma distribuição normal e o teste pode ser executado pela estatística: p 0,5 z = n.( p 0,5 ) (0,5.0,5) p é a freqüência relativa de sinais positivos ou negativos n
Teste da Mediana permite testar se duas amostras provêm da mesma população, mas pode ser usado para dados não-emparelhados e com amostras de tamanhos diferentes (n e n ); se as duas amostras provêm da mesma população (Ho), a mediana do conjunto (geral) formado pelas duas amostras forneceria uma boa estimativa da mediana da distribuição comum. Além disso, a porcentagem de valores abaixo da mediana geral deve tender a ser a mesma para as duas amostras; para n > 0, pode-se assumir uma distribuição normal e o teste pode ser executado pela estatística:.( p p ) z = + n n p e p são as freqüências relativas dos valores abaixo (ou acima) da mediana estimada em cada amostra Exemplo: séries de NA máximos do rio Negro
Testes de Hipóteses FIM